AI-modeller kæmper i medicinske samtaler i den virkelige verden

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Værktøjer til kunstig intelligens som ChatGPT er udråbt for deres løfte om at reducere klinikernes arbejdsbyrde ved at triagere patienter, indsamle sygehistorier og endda stille foreløbige diagnoser. Disse værktøjer, kendt som store sprogmodeller, bliver allerede brugt af patienter til at forstå deres symptomer og medicinske testresultater. Men selvom disse AI-modeller præsterer imponerende på standardiserede medicinske tests, hvor godt præsterer de så i situationer, der i højere grad efterligner den virkelige verden? Ikke så stor, ifølge resultaterne af en ny undersøgelse ledet af forskere ved Harvard Medical School og Stanford University. Til deres analyse, offentliggjort 2. januar...

AI-modeller kæmper i medicinske samtaler i den virkelige verden

Værktøjer til kunstig intelligens som ChatGPT er udråbt for deres løfte om at reducere klinikernes arbejdsbyrde ved at triagere patienter, indsamle sygehistorier og endda stille foreløbige diagnoser.

Disse værktøjer, kendt som store sprogmodeller, bliver allerede brugt af patienter til at forstå deres symptomer og medicinske testresultater.

Men selvom disse AI-modeller præsterer imponerende på standardiserede medicinske tests, hvor godt præsterer de så i situationer, der i højere grad efterligner den virkelige verden?

Ikke så stor, ifølge resultaterne af en ny undersøgelse ledet af forskere ved Harvard Medical School og Stanford University.

Til deres analyse, offentliggjort 2. januar iNaturmedicinforskerne udformede en evalueringsramme -; eller en test -; kaldet CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) og implementerede det på fire store sprogmodeller for at se, hvor godt de fungerede i miljøer, der tæt efterligner faktiske interaktioner med patienter.

Alle fire storsprogede modeller klarede sig godt på spørgsmål i medicinsk eksamensstil, men deres præstationer blev dårligere, da de var involveret i samtaler, der i højere grad efterlignede interaktioner i den virkelige verden.

Denne kløft, sagde forskerne, understreger et dobbelt behov: For det første at skabe mere realistiske vurderinger, der bedre vurderer egnetheden af ​​kliniske AI-modeller til brug i den virkelige verden, og for det andet at forbedre disse værktøjers evne til at diagnosticere baseret på mere realistiske interaktioner, før de bruges i klinikken.

Vurderingsværktøjer som CRAFT-MD, siger forskerholdet, kan ikke kun mere præcist vurdere AI-modeller for deres virkelige fitness, men kan også hjælpe med at optimere deres præstationer i klinikken.

Vores arbejde afslører et slående paradoks: Selvom disse AI-modeller udmærker sig ved medicinske eksamener, kæmper de med de grundlæggende ins og outs ved et lægebesøg. Dynamikken i medicinske samtaler – behovet for at stille de rigtige spørgsmål på det rigtige tidspunkt, samle spredt information og begrunde ud fra symptomer – giver unikke udfordringer, der rækker langt ud over at besvare multiple-choice spørgsmål. Når vi går fra standardiseret test til disse naturlige samtaler, viser selv de mest sofistikerede AI-modeller betydelige fald i diagnostisk nøjagtighed."

Pranav Rajpurkar, seniorforfatter af undersøgelsen, assisterende professor i biomedicinsk informatik ved Harvard Medical School

En bedre test for at kontrollere AI-ydeevne i praksis

I øjeblikket tester udviklere ydeevnen af ​​AI-modeller ved at bede dem om at besvare multiple-choice medicinske spørgsmål, typisk afledt af den nationale eksamen for dimitterende medicinstuderende eller fra test, som beboere tager som en del af deres certificering.

"Denne tilgang antager, at al relevant information præsenteres klart og kortfattet, ofte ved hjælp af medicinsk terminologi eller buzzwords, der forenkler den diagnostiske proces, men i den virkelige verden er denne proces langt mere rodet," sagde Shreya Johri, medførsteforfatter af undersøgelsen og ph.d.-kandidat i Rajpurkar Lab ved Harvard Medical School. "Vi har brug for en testramme, der bedre afspejler virkeligheden og derfor bedre kan forudsige, hvor godt en model ville fungere."

CRAFT-MD blev udviklet som et mere realistisk måleapparat.

For at simulere interaktioner i den virkelige verden evaluerer CRAFT-MD, hvor godt store sprogmodeller kan indsamle information om symptomer, medicin og familiehistorie og derefter stille en diagnose. En AI-agent poserer som en patient og besvarer spørgsmål i en naturlig samtalestil. En anden kunstig intelligens-agent vurderer nøjagtigheden af ​​den endelige diagnose, som den store sprogmodel giver. Menneskelige eksperter evaluerer derefter resultaterne af hvert møde med hensyn til evnen til at indsamle relevant patientinformation, diagnostisk nøjagtighed i præsentationen af ​​spredt information og overholdelse af instruktioner.

Forskerne brugte CRAFT-MD til at teste fire AI-modeller –; både proprietære eller kommercielle og open source versioner –; for udførelse i 2.000 kliniske vignetter, der dækker almindelige tilstande i primærpleje og 12 medicinske specialer.

Alle AI-modeller viste begrænsninger, især i deres evne til at gennemføre kliniske samtaler og begrundelse baseret på information fra patienter. Dette påvirkede igen deres evne til at tage sygehistorier og stille en passende diagnose. For eksempel havde modellerne ofte svært ved at stille de rigtige spørgsmål for at indsamle en relevant patienthistorie, gik glip af vigtig information under anamnesetagningen og havde svært ved at syntetisere spredt information. Nøjagtigheden af ​​disse modeller faldt, da de blev præsenteret med åben information i stedet for multiple choice-svar. Disse modeller klarede sig også dårligere, når de var i frem-og-tilbage-udveksling -; som det er tilfældet med de fleste samtaler i den virkelige verden –; frem for at deltage i opsummerede samtaler.

Anbefalinger til optimering af AIs ydeevne i praksis

Baseret på disse resultater tilbyder teamet en række anbefalinger til både AI-udviklere, der designer AI-modeller, og regulatorer, der har til opgave at evaluere og godkende disse værktøjer.

Dette omfatter:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Derudover bør både AI-agenter og menneskelige eksperter inkluderes i evalueringen, anbefaler forskerne, da det er arbejdskrævende og dyrt at stole udelukkende på menneskelige eksperter. For eksempel var CRAFT-MD hurtigere end menneskelige bedømmere og behandlede 10.000 interviews på 48 til 72 timer plus 15 til 16 timers ekspertvurdering. I modsætning hertil ville menneskebaserede tilgange kræve omfattende rekruttering og anslået 500 timer til patientsimuleringer (næsten 3 minutter pr. samtale) og ca. 650 timer til ekspertvurderinger (næsten 4 minutter pr. samtale). Brug af AI-bedømmere som et førstevalg har den ekstra fordel at eliminere risikoen for at udsætte rigtige patienter for ikke-verificerede AI-værktøjer.

Forskerne forventer, at selve CRAFT-MD også løbende vil blive opdateret og optimeret til at inkorporere forbedrede patient-AI-modeller.

"Som læge og videnskabsmand er jeg interesseret i AI-modeller, der effektivt og etisk kan forbedre klinisk praksis," sagde studiets co-senior forfatter Roxana Daneshjou, assisterende professor i biomedicinsk datavidenskab og dermatologi ved Stanford University. "CRAFT-MD skaber en ramme, der bedre afspejler interaktioner i den virkelige verden, og hjælper med at fremme feltet, når det kommer til at teste ydeevnen af ​​AI-modeller i sundhedssektoren."


Kilder:

Journal reference:

Johri, S.,et al. (2025) En evalueringsramme for klinisk brug af store sprogmodeller i patientinteraktionsopgaver. Naturmedicin. doi.org/10.1038/s41591-024-03328-5.