AI zal binnenkort projecten overnemen die mensenweken kosten

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Kunstmatige intelligentie verbetert snel en zou binnenkort projecten kunnen aannemen die mensen weken in beslag nemen. Uit analyses van deskundigen blijkt dat toonaangevende AI-modellen vooruitgang boeken en tegen 2029 taken met menselijke expertise in minder tijd zouden kunnen voltooien.

Künstliche Intelligenz verbessert sich rasant und könnte bald Projekte übernehmen, für die Menschen Wochen benötigen. Expertenanalysen zeigen, dass führende KI-Modelle im Fortschritt sind und bis 2029 Aufgaben mit menschlicher Expertise in kürzerer Zeit bewältigen könnten.
Kunstmatige intelligentie verbetert snel en zou binnenkort projecten kunnen aannemen die mensen weken in beslag nemen. Uit analyses van deskundigen blijkt dat toonaangevende AI-modellen vooruitgang boeken en tegen 2029 taken met menselijke expertise in minder tijd zouden kunnen voltooien.

AI zal binnenkort projecten overnemen die mensenweken kosten

De huidige systemen voor kunstmatige intelligentie (AI) kunnen niet beter presteren dan mensen bij lange taken, maar ze evolueren snel Volgens een analyse van toonaangevende modellen zou de kloof sneller kunnen worden gedicht dan velen hadden verwacht 1.

De in Berkeley, Californië gevestigde non-profitorganisatie METR ontwikkelde bijna 170 real-world taken op het gebied van programmeren, cyberbeveiliging, algemeen redeneren en machinaal leren, en stelde vervolgens een 'menselijke basislijn' vast door de tijd te meten die experts nodig hadden om die taken te voltooien.

Het team ontwikkelde vervolgens een maatstaf om de voortgang van te beoordelen AI-modellen, ook wel de “taakvoltooiingstijdshorizon” genoemd. Dit is de tijd die programmeurs doorgaans nodig hebben om de taken te voltooien die AI-modellen met een bepaald succespercentage kunnen voltooien.

In een preprint die deze week op arXiv is gepubliceerd, meldt METR dat GPT-2, een vroeg groottaalmodel (LLM) dat in 2019 door OpenAI werd uitgebracht, faalde bij alle taken die menselijke experts meer dan een minuut kostten. Claude 3.7 Sonnet, in februari uitgebracht door de Amerikaanse startup Anthropic, voltooide 50% van de taken die mensen 59 minuten zouden kosten.

Over het geheel genomen is de tijdshorizon van de dertien toonaangevende AI-modellen sinds 2019 ongeveer elke zeven maanden verdubbeld, blijkt uit het onderzoek. De exponentiële groei van de AI-tijdshorizon versnelde in 2024, waarbij de nieuwste modellen hun horizon ongeveer elke drie maanden verdubbelden. Het werk is nog niet formeel beoordeeld.

METR suggereert dat AI-modellen, van 2019 tot 2024, in 2029 taken die mensen ongeveer een maand kosten, met een betrouwbaarheid van 50% zullen kunnen voltooien, misschien zelfs eerder.

Eén maand toegewijde menselijke expertise, zo suggereert het artikel, kan voldoende zijn om een ​​nieuw bedrijf te starten of wetenschappelijke ontdekkingen te doen.

Joshua Gans, hoogleraar management aan de Universiteit van Toronto in Canada, die over de economie van AI heeft geschreven, legt echter uit dat dergelijke voorspellingen niet bijzonder nuttig zijn. “Extrapolaties zijn verleidelijk, maar er is nog zoveel dat we niet weten over hoe AI daadwerkelijk zal worden gebruikt om deze voorspellingen zinvol te maken”, zegt hij.

Het beoordelen van mensen versus AI

Het team koos voor het succespercentage van 50% omdat dit het meest robuust was bij kleine veranderingen in de gegevensdistributie. “Als je zeer lage of zeer hoge drempels kiest, verandert het toevoegen of verwijderen van een enkele succesvolle of mislukte taak de schatting aanzienlijk”, legt co-auteur Lawrence Chan uit.

Door de betrouwbaarheid te verhogen van 50% naar 80% werd de gemiddelde tijdshorizon met een factor vijf verkort, ook al waren de algehele verdubbelingstijd en trendlijn vergelijkbaar.

De afgelopen vijf jaar zijn er verbeteringen aangebracht aan de algemene vaardigheden van LLM's voornamelijk gedreven door schaalvergroting: de hoeveelheid trainingsgegevens, trainingstijd en het aantal modelparameters. Het artikel schrijft de vooruitgang in de tijdshorizon-metriek voornamelijk toe aan verbeteringen in logisch redeneren, gereedschapsgebruik, foutcorrectie en taakvertrouwen.

METR's benadering van het beoordelen van tijdshorizonten pakt enkele van de beperkingen aan van bestaande AI-benchmarks, die slechts losjes overeenkomen met werk in de echte wereld en snel "verzadigd" raken naarmate de modellen verbeteren. Het biedt een continue, intuïtieve meting die significante vooruitgang in de loop van de tijd beter vastlegt, zegt co-auteur Ben West.

Toonaangevende AI-modellen bereiken in veel gevallen bovenmenselijke prestaties Benchmark testen, maar hebben tot nu toe relatief weinig economische impact gehad, legt West uit. Het nieuwste onderzoek van METR biedt een gedeeltelijk antwoord op deze puzzel: de beste modellen laten een tijdsbestek van ongeveer 40 minuten zien, en er is niet veel economisch waardevol werk dat iemand in die tijd kan doen, zei West.

Anton Troynikov, een AI-onderzoeker en ondernemer uit San Francisco, Californië, legt echter uit dat AI een grotere economische impact zou hebben als organisaties meer bereid zouden zijn om te experimenteren en te investeren in het effectief gebruik van de modellen.

  1. Kwa, T. et al. Preprint bij arXiv https://doi.org/10.48550/arXiv.2503.14499 (2025).

Referenties downloaden