Tekoäly ottaa pian haltuunsa projekteja, jotka vievät ihmisiltä viikkoja

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Tekoäly kehittyy nopeasti ja saattaa pian toteuttaa projekteja, joiden toteuttaminen vie ihmisiltä viikkoja. Asiantuntija-analyysi osoittaa, että johtavat tekoälymallit edistyvät ja voisivat suorittaa tehtäviä inhimillisen asiantuntemuksen avulla lyhyemmässä ajassa vuoteen 2029 mennessä.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Tekoäly kehittyy nopeasti ja saattaa pian toteuttaa projekteja, joiden toteuttaminen vie ihmisiltä viikkoja. Asiantuntija-analyysi osoittaa, että johtavat tekoälymallit edistyvät ja voisivat suorittaa tehtäviä inhimillisen asiantuntemuksen avulla lyhyemmässä ajassa vuoteen 2029 mennessä.

Tekoäly ottaa pian haltuunsa projekteja, jotka vievät ihmisiltä viikkoja

Nykypäivän tekoälyjärjestelmät eivät pysty ylittämään ihmisiä pitkissä tehtävissä, mutta ne kehittyvät nopeasti johtavien mallien analyysin mukaan, ja se voisi sulkea eron nopeammin kuin monet odottivat 1.

Berkeleyssä Kaliforniassa sijaitseva voittoa tavoittelematon METR kehitti lähes 170 tosielämän tehtävää ohjelmoinnin, kyberturvallisuuden, yleisen päättelyn ja koneoppimisen alalla ja loi sitten "inhimillisen lähtötason" mittaamalla aikaa, joka asiantuntijoilta kului näiden tehtävien suorittamiseen.

Tämän jälkeen tiimi kehitti mittarin edistymisen arvioimiseksi AI mallit, jota kutsutaan "tehtävän suorittamisen aikahorisonttiksi". Tämä on aika, joka tyypillisesti kestää ohjelmoijien suorittaakseen tehtävät, jotka tekoälymallit voivat suorittaa tietyllä onnistumisasteella.

Tällä viikolla julkaistussa arXiv-julkaisussa METR raportoi, että GPT-2, OpenAI:n vuonna 2019 julkaisema varhainen suuri kielimalli (LLM), epäonnistui kaikissa tehtävissä, jotka vaativat ihmisasiantuntijoilta yli minuutin. Claude 3.7 Sonnet, jonka yhdysvaltalainen startup Anthropic julkaisi helmikuussa, suoritti 50 % tehtävistä, jotka kestäisivät ihmisillä 59 minuuttia.

Kaiken kaikkiaan 13 johtavan tekoälymallin aikahorisontti on kaksinkertaistunut noin seitsemän kuukauden välein vuodesta 2019 lähtien, tutkimuksen mukaan. Tekoälyn aikahorisonttien eksponentiaalinen kasvu kiihtyi vuonna 2024, kun uusimmat mallit kaksinkertaistivat horisonttinsa noin kolmen kuukauden välein. Teosta ei ole vielä virallisesti arvioitu.

Vuodesta 2019 vuoteen 2024 siirryttäessä METR ehdottaa, että tekoälymallit pystyvät suorittamaan tehtäviä, jotka vievät ihmisiltä noin kuukauden, 50 prosentin luotettavuudella vuoteen 2029 mennessä, ehkä jopa aikaisemmin.

Lehden mukaan kuukausi omistautunutta inhimillistä asiantuntemusta voi riittää uuden yrityksen perustamiseen tai tieteellisten löytöjen tekemiseen.

Joshua Gans, Kanadan Toronton yliopiston johtamisen professori, joka on kirjoittanut tekoälyn taloudesta, selittää kuitenkin, että tällaiset ennusteet eivät ole erityisen hyödyllisiä. "Ekstrapolaatiot ovat houkuttelevia, mutta emme vielä tiedä niin paljon siitä, kuinka tekoälyä todella käytetään, jotta nämä ennusteet olisivat järkeviä", hän sanoo.

Ihmisten arvioiminen tekoälyä vastaan

Tiimi valitsi 50 prosentin onnistumisprosentin, koska se oli kestävin pienille muutoksille tiedon jakelussa. "Jos valitset erittäin alhaiset tai erittäin korkeat kynnykset, yksittäisen onnistuneen tai epäonnistuneen tehtävän lisääminen tai poistaminen muuttaa arviota suuresti", selittää toinen kirjoittaja Lawrence Chan.

Luotettavuuden lisääminen 50 %:sta 80 %:iin pienensi keskimääräistä aikahorisonttia viisinkertaiseksi – vaikka yleinen tuplaamisaika ja trendiviiva olivatkin samanlaiset.

Viiden viime vuoden aikana on tehty parannuksia LLM:n yleiset taidot johtuen ensisijaisesti mittakaavan kasvusta – harjoitustietojen määrästä, harjoitusajasta ja malliparametrien määrästä. Paperi selittää edistymisen aikahorisonttimetriikassa ensisijaisesti loogisen päättelyn, työkalujen käytön, virheenkorjauksen ja tehtävien luottamuksen parannuksilla.

METR:n lähestymistapa aikahorisonttien arvioimiseen puuttuu joihinkin olemassa olevien tekoälyn vertailuarvojen rajoituksiin, jotka vastaavat vain löyhästi todellista työtä ja muuttuvat nopeasti "kyllästyneiksi" mallien parantuessa. Se tarjoaa jatkuvan, intuitiivisen mittarin, joka kuvaa paremmin ajan mittaan tapahtuvaa merkittävää edistystä, sanoo toinen kirjoittaja Ben West.

Johtavat tekoälymallit saavuttavat monissa yli-inhimillisen suorituskyvyn Benchmark-testaus, mutta niillä on toistaiseksi ollut suhteellisen vähän taloudellisia vaikutuksia, West selittää. METR:n uusin tutkimus tarjoaa osittaisen vastauksen tähän arvoitukseen: Parhaat mallit näyttävät noin 40 minuutin aikakehyksen, eikä siinä ajassa ole paljon taloudellisesti arvokasta työtä, West sanoi.

Kuitenkin Anton Troynikov, tekoälytutkija ja yrittäjä San Franciscosta Kaliforniasta, selittää, että tekoälyllä olisi suurempi taloudellinen vaikutus, jos organisaatiot olisivat halukkaampia kokeilemaan ja investoimaan mallien tehokkaaseen käyttöön.

  1. Kwa, T. et ai. Preprint osoitteessa arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Lataa viitteitä