AI-modeller kämpar i verkliga medicinska samtal
Verktyg för artificiell intelligens som ChatGPT hyllas för sitt löfte att minska klinikernas arbetsbörda genom att triagera patienter, samla in medicinska historier och till och med ställa preliminära diagnoser. Dessa verktyg, kända som stora språkmodeller, används redan av patienter för att förstå deras symptom och medicinska testresultat. Men även om dessa AI-modeller presterar imponerande på standardiserade medicinska tester, hur väl presterar de i situationer som mer efterliknar den verkliga världen? Inte så bra, enligt resultaten av en ny studie ledd av forskare vid Harvard Medical School och Stanford University. För deras analys, publicerad 2 januari...
AI-modeller kämpar i verkliga medicinska samtal
Verktyg för artificiell intelligens som ChatGPT hyllas för sitt löfte att minska klinikernas arbetsbörda genom att triagera patienter, samla in medicinska historier och till och med ställa preliminära diagnoser.
Dessa verktyg, kända som stora språkmodeller, används redan av patienter för att förstå deras symptom och medicinska testresultat.
Men även om dessa AI-modeller presterar imponerande på standardiserade medicinska tester, hur väl presterar de i situationer som mer efterliknar den verkliga världen?
Inte så bra, enligt resultaten av en ny studie ledd av forskare vid Harvard Medical School och Stanford University.
För deras analys, publicerad 2 januari iNaturmedicinforskarna utformade ett ramverk för utvärdering -; eller ett test -; kallade CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) och distribuerade det på fyra stora språkmodeller för att se hur väl de fungerade i miljöer som nära efterliknar faktiska interaktioner med patienter.
Alla fyra storspråkiga modellerna presterade bra på medicinska undersökningsfrågor, men deras prestanda försämrades när de var involverade i konversationer som mer efterliknade interaktioner i den verkliga världen.
Denna lucka, sa forskarna, understryker ett dubbelt behov: för det första att skapa mer realistiska bedömningar som bättre bedömer lämpligheten hos kliniska AI-modeller för användning i den verkliga världen, och för det andra att förbättra förmågan hos dessa verktyg att diagnostisera baserat på mer realistiska interaktioner innan de används på kliniken.
Utvärderingsverktyg som CRAFT-MD, säger forskargruppen, kan inte bara mer exakt bedöma AI-modeller för deras verkliga kondition, utan kan också hjälpa till att optimera deras prestanda på kliniken.
Vårt arbete avslöjar en slående paradox: Även om dessa AI-modeller utmärker sig vid medicinska undersökningar, kämpar de med de grundläggande detaljerna i ett läkarbesök. Dynamiken i medicinska samtal – behovet av att ställa rätt frågor vid rätt tidpunkt, pussla ihop spridd information och resonera baserat på symtom – utgör unika utmaningar som går långt utöver att svara på flervalsfrågor. När vi går från standardiserade tester till dessa naturliga samtal visar även de mest sofistikerade AI-modellerna betydande sänkningar i diagnostisk noggrannhet.”
Pranav Rajpurkar, senior författare av studien, biträdande professor i biomedicinsk informatik vid Harvard Medical School
Ett bättre test för att kontrollera AI-prestanda i praktiken
För närvarande testar utvecklare prestandan hos AI-modeller genom att be dem svara på flervalsmedicinska frågor, vanligtvis härledda från det nationella provet för examensläkarstudenter eller från tester som invånarna gör som en del av sin certifiering.
"Det här tillvägagångssättet förutsätter att all relevant information presenteras tydligt och kortfattat, ofta med medicinsk terminologi eller modeord som förenklar den diagnostiska processen, men i den verkliga världen är denna process mycket mer rörig", säger Shreya Johri, medförfattare till studien och doktorand i Rajpurkar Lab vid Harvard Medical School. "Vi behöver ett testramverk som bättre återspeglar verkligheten och därför bättre kan förutsäga hur väl en modell skulle fungera."
CRAFT-MD utvecklades som en mer realistisk mätanordning.
För att simulera verkliga interaktioner utvärderar CRAFT-MD hur väl stora språkmodeller kan samla information om symtom, mediciner och familjehistoria och sedan ställa en diagnos. En AI-agent poserar som en patient och svarar på frågor i en konversationsmässig, naturlig stil. En annan AI-agent utvärderar noggrannheten i den slutliga diagnosen som tillhandahålls av storspråksmodellen. Mänskliga experter utvärderar sedan resultaten av varje möte i termer av förmåga att samla in relevant patientinformation, diagnostisk noggrannhet vid presentation av spridd information och efterlevnad av instruktioner.
Forskarna använde CRAFT-MD för att testa fyra AI-modeller –; både proprietära eller kommersiella och öppen källkodsversioner –; för prestation i 2 000 kliniska vinjetter som täcker vanliga tillstånd inom primärvården och 12 medicinska specialiteter.
Alla AI-modeller visade begränsningar, särskilt i deras förmåga att genomföra kliniska samtal och resonera baserat på information från patienter. Detta påverkade i sin tur deras förmåga att ta medicinska historier och ställa en lämplig diagnos. Till exempel hade modellerna ofta svårt att ställa rätt frågor för att samla en relevant patienthistorik, missade viktig information under anamnestagningen och hade svårt att syntetisera spridd information. Noggrannheten i dessa modeller minskade när de presenterades med öppen information istället för flervalssvar. Dessa modeller presterade också sämre vid byte fram och tillbaka -; som är fallet med de flesta konversationer i den verkliga världen –; snarare än att delta i sammanfattade samtal.
Rekommendationer för att optimera prestanda för AI i praktiken
Baserat på dessa resultat erbjuder teamet en rad rekommendationer för både AI-utvecklare som designar AI-modeller och regulatorer med uppgift att utvärdera och godkänna dessa verktyg.
Detta inkluderar:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Dessutom bör både AI-agenter och mänskliga experter inkluderas i utvärderingen, rekommenderar forskarna, eftersom att enbart förlita sig på mänskliga experter är arbetskrävande och dyrt. Till exempel var CRAFT-MD snabbare än mänskliga bedömare och bearbetade 10 000 intervjuer på 48 till 72 timmar, plus 15 till 16 timmars expertbedömning. Däremot skulle mänskligt baserade tillvägagångssätt kräva omfattande rekrytering och uppskattningsvis 500 timmar för patientsimuleringar (nästan 3 minuter per samtal) och cirka 650 timmar för expertbedömningar (nästan 4 minuter per samtal). Att använda AI-bedömare som förstahandsval har den extra fördelen att risken för att utsätta riktiga patienter för overifierade AI-verktyg elimineras.
Forskarna förväntar sig att själva CRAFT-MD också kommer att uppdateras regelbundet och optimeras för att införliva förbättrade patient-AI-modeller.
"Som läkare och vetenskapsman är jag intresserad av AI-modeller som effektivt och etiskt kan förbättra klinisk praxis", säger studiens medförfattare Roxana Daneshjou, biträdande professor i biomedicinsk datavetenskap och dermatologi vid Stanford University. "CRAFT-MD skapar ett ramverk som bättre återspeglar interaktioner i den verkliga världen, vilket hjälper till att utveckla fältet när det gäller att testa prestanda hos AI-modeller inom sjukvården."
Källor:
Johri, S.,et al. (2025) Ett utvärderingsramverk för klinisk användning av stora språkmodeller i patientinteraktionsuppgifter. Naturmedicin. doi.org/10.1038/s41591-024-03328-5.