AI-modellen hebben het moeilijk in medische gesprekken in de echte wereld

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Hulpmiddelen voor kunstmatige intelligentie zoals ChatGPT worden aangeprezen vanwege hun belofte om de werklast van artsen te verminderen door patiënten te beoordelen, medische geschiedenis te verzamelen en zelfs voorlopige diagnoses te stellen. Deze hulpmiddelen, bekend als grote-taalmodellen, worden al door patiënten gebruikt om hun symptomen en medische testresultaten te begrijpen. Maar hoewel deze AI-modellen indrukwekkend presteren op gestandaardiseerde medische tests, hoe goed presteren ze dan in situaties die de echte wereld beter nabootsen? Niet zo geweldig, volgens de resultaten van een nieuwe studie onder leiding van onderzoekers van de Harvard Medical School en Stanford University. Voor hun analyse, gepubliceerd op 2 januari...

AI-modellen hebben het moeilijk in medische gesprekken in de echte wereld

Hulpmiddelen voor kunstmatige intelligentie zoals ChatGPT worden aangeprezen vanwege hun belofte om de werklast van artsen te verminderen door patiënten te beoordelen, medische geschiedenis te verzamelen en zelfs voorlopige diagnoses te stellen.

Deze hulpmiddelen, bekend als grote-taalmodellen, worden al door patiënten gebruikt om hun symptomen en medische testresultaten te begrijpen.

Maar hoewel deze AI-modellen indrukwekkend presteren op gestandaardiseerde medische tests, hoe goed presteren ze dan in situaties die de echte wereld beter nabootsen?

Niet zo geweldig, volgens de resultaten van een nieuwe studie onder leiding van onderzoekers van de Harvard Medical School en Stanford University.

Voor hun analyse, gepubliceerd op 2 januari inNatuurlijke geneeskundede onderzoekers ontwierpen een evaluatiekader; of een test -; genaamd CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) en implementeerde het op vier grote-taalmodellen om te zien hoe goed ze werkten in omgevingen die de feitelijke interacties met patiënten nauw nabootsen.

Alle vier de modellen in grote talen presteerden goed bij vragen in de stijl van medische onderzoeken, maar hun prestaties verslechterden wanneer ze betrokken raakten bij gesprekken die de interacties in de echte wereld beter nabootsten.

Deze kloof onderstreept volgens de onderzoekers een tweeledige behoefte: ten eerste om meer realistische beoordelingen te creëren die de geschiktheid van klinische AI-modellen voor gebruik in de echte wereld beter kunnen beoordelen, en ten tweede om het vermogen van deze hulpmiddelen om te diagnosticeren te verbeteren op basis van meer realistische interacties voordat ze in de kliniek worden gebruikt.

Beoordelingsinstrumenten zoals CRAFT-MD kunnen volgens het onderzoeksteam niet alleen AI-modellen nauwkeuriger beoordelen op hun fysieke fitheid, maar kunnen ook helpen hun prestaties in de kliniek te optimaliseren.

Ons werk brengt een opvallende paradox aan het licht: hoewel deze AI-modellen uitblinken in medische onderzoeken, worstelen ze met de fundamentele ins en outs van een doktersbezoek. De dynamiek van medische gesprekken – de noodzaak om de juiste vragen op het juiste moment te stellen, verspreide informatie samen te voegen en te redeneren op basis van symptomen – brengt unieke uitdagingen met zich mee die veel verder gaan dan het beantwoorden van meerkeuzevragen. Nu we overstappen van gestandaardiseerd testen naar deze natuurlijke gesprekken, laten zelfs de meest geavanceerde AI-modellen een aanzienlijke daling van de diagnostische nauwkeurigheid zien.”

Pranav Rajpurkar, senior auteur van de studie, assistent-professor biomedische informatica aan de Harvard Medical School

Een betere test om AI-prestaties in de praktijk te controleren

Momenteel testen ontwikkelaars de prestaties van AI-modellen door hen te vragen meerkeuzevragen te beantwoorden, meestal afgeleid van het nationale examen voor afstuderende geneeskundestudenten of van tests die bewoners afleggen als onderdeel van hun certificering.

“Deze aanpak gaat ervan uit dat alle relevante informatie duidelijk en beknopt wordt gepresenteerd, vaak met behulp van medische terminologie of modewoorden die het diagnostische proces vereenvoudigen, maar in de echte wereld is dit proces veel rommeliger”, zegt Shreya Johri, co-eerste auteur van de studie en promovendus in het Rajpurkar Lab aan de Harvard Medical School. “We hebben een testraamwerk nodig dat de werkelijkheid beter weerspiegelt en daardoor beter kan voorspellen hoe goed een model zou werken.”

CRAFT-MD is als zodanig een realistischer meetapparaat ontwikkeld.

Om interacties in de echte wereld te simuleren, evalueert CRAFT-MD hoe goed grootschalige modellen informatie kunnen verzamelen over symptomen, medicijnen en familiegeschiedenis en vervolgens een diagnose kunnen stellen. Een AI-agent doet zich voor als patiënt en beantwoordt vragen in een gemoedelijke, natuurlijke stijl. Een andere AI-agent evalueert de nauwkeurigheid van de uiteindelijke diagnose die door het grote-taalmodel wordt verstrekt. Menselijke experts evalueren vervolgens de resultaten van elke ontmoeting in termen van het vermogen om relevante patiëntinformatie te verzamelen, de diagnostische nauwkeurigheid bij het presenteren van verspreide informatie en het naleven van instructies.

De onderzoekers gebruikten CRAFT-MD om vier AI-modellen te testen –; zowel bedrijfseigen als commerciële en open source-versies –; voor prestaties in 2.000 klinische vignetten die veelvoorkomende aandoeningen in de eerstelijnszorg en 12 medische specialismen bestrijken.

Alle AI-modellen vertoonden beperkingen, vooral wat betreft hun vermogen om klinische gesprekken te voeren en te redeneren op basis van door patiënten verstrekte informatie. Dit beïnvloedde op zijn beurt hun vermogen om medische geschiedenis af te nemen en een passende diagnose te stellen. De modellen hadden bijvoorbeeld vaak moeite met het stellen van de juiste vragen om een ​​relevante anamnese van de patiënt te verzamelen, misten belangrijke informatie tijdens het afnemen van de anamnese en hadden moeite met het synthetiseren van verspreide informatie. De nauwkeurigheid van deze modellen nam af wanneer ze open informatie kregen in plaats van meerkeuzevragen. Deze modellen presteerden ook slechter bij heen-en-weer-uitwisseling; zoals het geval is met de meeste gesprekken in de echte wereld –; in plaats van deel te nemen aan samengevatte gesprekken.

Aanbevelingen voor het optimaliseren van de prestaties van AI in de praktijk

Op basis van deze bevindingen doet het team een ​​reeks aanbevelingen voor zowel AI-ontwikkelaars die AI-modellen ontwerpen als voor toezichthouders die belast zijn met het evalueren en goedkeuren van deze tools.

Dit omvat:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Bovendien moeten zowel AI-agenten als menselijke experts bij de evaluatie worden betrokken, bevelen de onderzoekers aan, omdat uitsluitend vertrouwen op menselijke experts arbeidsintensief en duur is. CRAFT-MD was bijvoorbeeld sneller dan menselijke beoordelaars en verwerkte 10.000 interviews in 48 tot 72 uur, plus 15 tot 16 uur aan deskundige beoordeling. Daarentegen zou een op mensen gebaseerde aanpak uitgebreide rekrutering vereisen en naar schatting 500 uur voor patiëntsimulaties (bijna 3 minuten per gesprek) en ongeveer 650 uur voor beoordelingen door deskundigen (bijna 4 minuten per gesprek). Het gebruik van AI-beoordelaars als eerste keuze heeft als bijkomend voordeel dat het het risico elimineert dat echte patiënten worden blootgesteld aan niet-geverifieerde AI-hulpmiddelen.

De onderzoekers verwachten dat CRAFT-MD zelf ook regelmatig zal worden bijgewerkt en geoptimaliseerd om verbeterde AI-modellen voor patiënten te integreren.

“Als arts en wetenschapper ben ik geïnteresseerd in AI-modellen die de klinische praktijk effectief en ethisch kunnen verbeteren”, zegt co-senior auteur Roxana Daneshjou, assistent-professor biomedische datawetenschap en dermatologie aan Stanford University. “CRAFT-MD creëert een raamwerk dat de interacties in de echte wereld beter weerspiegelt, waardoor het veld vooruit gaat als het gaat om het testen van de prestaties van AI-modellen in de gezondheidszorg.”


Bronnen:

Journal reference:

Johri, S.,et al. (2025) Een evaluatiekader voor klinisch gebruik van grote taalmodellen bij patiëntinteractietaken. Natuurgeneeskunde. doi.org/10.1038/s41591-024-03328-5.