Modeli umetne inteligence imajo težave v resničnih zdravstvenih pogovorih

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Orodja umetne inteligence, kot je ChatGPT, se oglašujejo zaradi njihove obljube, da bodo zmanjšala delovno obremenitev klinikov s triažiranjem pacientov, zbiranjem anamneze in celo postavljanjem predhodnih diagnoz. Ta orodja, znana kot modeli velikega jezika, bolniki že uporabljajo za razumevanje svojih simptomov in rezultatov medicinskih testov. Medtem ko ti modeli umetne inteligence delujejo impresivno na standardiziranih medicinskih testih, kako dobro se obnesejo v situacijah, ki bolj posnemajo resnični svet? Glede na rezultate nove študije, ki so jo vodili raziskovalci na medicinski šoli Harvard in univerzi Stanford, ne tako dobro. Za njihovo analizo, objavljeno 2. januarja ...

Modeli umetne inteligence imajo težave v resničnih zdravstvenih pogovorih

Orodja umetne inteligence, kot je ChatGPT, se oglašujejo zaradi njihove obljube, da bodo zmanjšala delovno obremenitev klinikov s triažiranjem pacientov, zbiranjem anamneze in celo postavljanjem predhodnih diagnoz.

Ta orodja, znana kot modeli velikega jezika, bolniki že uporabljajo za razumevanje svojih simptomov in rezultatov medicinskih testov.

Medtem ko ti modeli umetne inteligence delujejo impresivno na standardiziranih medicinskih testih, kako dobro se obnesejo v situacijah, ki bolj posnemajo resnični svet?

Glede na rezultate nove študije, ki so jo vodili raziskovalci na medicinski šoli Harvard in univerzi Stanford, ne tako dobro.

Za njihovo analizo, objavljeno 2. januarja vNaravna medicinaraziskovalci so oblikovali okvir za vrednotenje -; ali test -; imenovan CRAFT-MD (Ogrodje za ocenjevanje pogovornega razmišljanja za testiranje v medicini) in ga uporabili na štirih modelih v velikih jezikih, da bi videli, kako dobro delujejo v okoljih, ki zelo posnemajo dejanske interakcije z bolniki.

Vsi štirje modeli v velikih jezikih so se dobro odrezali pri vprašanjih v stilu zdravniškega pregleda, vendar se je njihova uspešnost poslabšala, ko so bili vključeni v pogovore, ki so bolj posnemali interakcije iz resničnega sveta.

Raziskovalci pravijo, da ta vrzel poudarja dvojno potrebo: prvič, ustvariti bolj realistične ocene, ki bolje ocenijo primernost kliničnih modelov umetne inteligence za uporabo v resničnem svetu, in drugič, izboljšati zmožnost teh orodij za diagnosticiranje na podlagi bolj realističnih interakcij, preden se uporabijo v kliniki.

Raziskovalna skupina pravi, da orodja za ocenjevanje, kot je CRAFT-MD, ne morejo le natančneje oceniti modelov umetne inteligence za njihovo primernost v resničnem svetu, ampak bi lahko tudi pomagala optimizirati njihovo delovanje na kliniki.

Naše delo razkriva osupljiv paradoks: medtem ko ti modeli AI blestijo pri zdravniških pregledih, se spopadajo z osnovnimi vložki in pomanjkljivostmi obiska pri zdravniku. Dinamika medicinskih pogovorov – potreba po postavljanju pravih vprašanj ob pravem času, sestavljanju razpršenih informacij in sklepanju na podlagi simptomov – predstavlja edinstvene izzive, ki presegajo odgovore na vprašanja z več možnimi odgovori. Ko se premikamo od standardiziranega testiranja k tem naravnim pogovorom, tudi najbolj izpopolnjeni modeli AI kažejo znatne padce diagnostične natančnosti.«

Pranav Rajpurkar, višji avtor študije, docent za biomedicinsko informatiko na Harvard Medical School

Boljši test za preverjanje delovanja AI v praksi

Trenutno razvijalci preizkušajo delovanje modelov umetne inteligence tako, da jih prosijo, naj odgovorijo na medicinska vprašanja z več možnimi odgovori, ki običajno izhajajo iz državnega izpita za diplomirane študente medicine ali iz testov, ki jih opravljajo prebivalci kot del njihovega certificiranja.

"Ta pristop predpostavlja, da so vse pomembne informacije predstavljene jasno in jedrnato, pogosto z uporabo medicinske terminologije ali modnih besed, ki poenostavijo diagnostični proces, vendar je v resničnem svetu ta proces veliko bolj neurejen," je povedala Shreya Johri, so-avtorica študije in doktorska kandidatka v laboratoriju Rajpurkar na medicinski šoli Harvard. "Potrebujemo okvir testiranja, ki bolje odraža resničnost in zato lahko bolje predvidi, kako dobro bo model deloval."

CRAFT-MD je bil razvit kot taka bolj realistična merilna naprava.

Za simulacijo interakcij v resničnem svetu CRAFT-MD oceni, kako dobro lahko modeli z velikimi jeziki zbirajo informacije o simptomih, zdravilih in družinski anamnezi ter nato postavijo diagnozo. Agent AI se predstavlja kot pacient in odgovarja na vprašanja v pogovornem, naravnem slogu. Drugi agent AI ocenjuje točnost končne diagnoze, ki jo zagotavlja model z velikim jezikom. Človeški strokovnjaki nato ocenijo rezultate vsakega srečanja v smislu zmožnosti zbiranja ustreznih informacij o bolniku, diagnostične natančnosti pri predstavitvi razpršenih informacij in upoštevanja navodil.

Raziskovalci so uporabili CRAFT-MD za testiranje štirih modelov AI –; tako lastniške kot komercialne in odprtokodne različice –; za uspešnost v 2000 kliničnih vinjetah, ki pokrivajo pogosta stanja v primarni oskrbi in 12 zdravstvenih specialnosti.

Vsi modeli umetne inteligence so pokazali omejitve, zlasti v njihovi zmožnosti vodenja kliničnih pogovorov in sklepanja na podlagi informacij, ki so jih posredovali bolniki. To je posledično vplivalo na njihovo sposobnost zbiranja anamneze in postavitve ustrezne diagnoze. Na primer, modeli so pogosto imeli težave pri postavljanju pravih vprašanj za zbiranje ustrezne pacientove anamneze, zamudili so pomembne informacije med jemanjem anamneze in imeli težave pri sintezi razpršenih informacij. Natančnost teh modelov se je zmanjšala, ko so bili predstavljeni z odprtimi informacijami namesto izbirnih odgovorov. Ti modeli so bili slabši tudi pri izmenjavi naprej in nazaj -; kot velja za večino pogovorov v resničnem svetu –; namesto da bi se vključevali v povzete pogovore.

Priporočila za optimizacijo delovanja AI v praksi

Na podlagi teh ugotovitev ekipa ponuja vrsto priporočil za razvijalce umetne inteligence, ki načrtujejo modele umetne inteligence, in regulatorje, ki so zadolženi za ocenjevanje in odobritev teh orodij.

To vključuje:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Poleg tega bi morali biti v oceno vključeni tako agenti AI kot strokovnjaki za ljudi, priporočajo raziskovalci, saj je zanašanje samo na strokovnjake za ljudi delovno intenzivno in drago. Na primer, CRAFT-MD je bil hitrejši od človeških ocenjevalcev, saj je obdelal 10.000 intervjujev v 48 do 72 urah in 15 do 16 ur strokovne ocene. Nasprotno pa bi pristopi, ki temeljijo na ljudeh, zahtevali obsežno zaposlovanje in ocenjenih 500 ur za simulacije bolnikov (skoraj 3 minute na pogovor) in približno 650 ur za strokovne ocene (skoraj 4 minute na pogovor). Dodatna prednost uporabe ocenjevalcev umetne inteligence kot prve izbire je odprava tveganja izpostavljanja resničnih pacientov nepreverjenim orodjem umetne inteligence.

Raziskovalci pričakujejo, da se bo tudi sam CRAFT-MD redno posodabljal in optimiziral, da bo vključeval izboljšane modele umetne inteligence bolnikov.

"Kot zdravnika in znanstvenika me zanimajo modeli umetne inteligence, ki lahko učinkovito in etično izboljšajo klinično prakso," je povedala soavtorica študije Roxana Daneshjou, docentka za znanost o biomedicinskih podatkih in dermatologijo na univerzi Stanford. "CRAFT-MD ustvarja okvir, ki bolje odraža interakcije v resničnem svetu in pomaga napredovati na tem področju, ko gre za preizkušanje učinkovitosti modelov AI v zdravstvu."


Viri:

Journal reference:

Johri, S.,et al. (2025) Ocenjevalni okvir za klinično uporabo velikih jezikovnih modelov pri nalogah interakcije s pacienti. Naravna medicina. doi.org/10.1038/s41591-024-03328-5.