Az AI-modellek küzdenek a valós orvosi beszélgetések során
Az olyan mesterséges intelligencia eszközöket, mint a ChatGPT, azt ígérik, hogy csökkentik a klinikusok munkaterhét a betegek vizsgálatával, kórtörténetek gyűjtésével és még előzetes diagnózisok felállításával. Ezeket a nagy nyelvű modelleknek nevezett eszközöket a betegek már használják tüneteik és orvosi vizsgálati eredményeik megértésére. De míg ezek az AI-modellek lenyűgözően teljesítenek a szabványosított orvosi teszteken, mennyire teljesítenek jól olyan helyzetekben, amelyek jobban utánozzák a való világot? A Harvard Medical School és a Stanford Egyetem kutatói által vezetett új tanulmány eredményei szerint nem olyan nagyszerű. Január 2-án közzétett elemzésükhöz...
Az AI-modellek küzdenek a valós orvosi beszélgetések során
Az olyan mesterséges intelligencia eszközöket, mint a ChatGPT, azt ígérik, hogy csökkentik a klinikusok munkaterhét a betegek vizsgálatával, kórtörténetek gyűjtésével és még előzetes diagnózisok felállításával.
Ezeket a nagy nyelvű modelleknek nevezett eszközöket a betegek már használják tüneteik és orvosi vizsgálati eredményeik megértésére.
De míg ezek az AI-modellek lenyűgözően teljesítenek a szabványosított orvosi teszteken, mennyire teljesítenek jól olyan helyzetekben, amelyek jobban utánozzák a való világot?
A Harvard Medical School és a Stanford Egyetem kutatói által vezetett új tanulmány eredményei szerint nem olyan nagyszerű.
Az elemzésükhöz január 2-án tették közzéTermészetes gyógymóda kutatók kidolgoztak egy értékelési keretet -; vagy egy teszt -; CRAFT-MD-nek (Conversational Reasoning Assessment Framework for Testing in Medicine) nevezték el, és négy nagy nyelvű modellen alkalmazták, hogy megtudják, mennyire működnek jól olyan környezetben, amelyek szorosan utánozzák a betegekkel való tényleges interakciókat.
Mind a négy nagy nyelvű modell jól teljesített az orvosi vizsga jellegű kérdésekben, de teljesítményük romlott, amikor olyan beszélgetésekben vettek részt, amelyek jobban utánozták a való világ interakcióit.
A kutatók szerint ez a hiányosság kettős szükségletet támaszt alá: egyrészt reálisabb értékeléseket kell készíteni, amelyek jobban felmérik a klinikai AI-modellek alkalmasságát a valós világban való használatra, másrészt javítani kell ezen eszközöknek a reálisabb interakciók alapján történő diagnosztizálási képességét, mielőtt azokat a klinikán használnák.
A kutatócsoport szerint az olyan értékelő eszközök, mint a CRAFT-MD, nemcsak pontosabban tudják felmérni az AI-modelleket valós alkalmasságuk szempontjából, hanem segíthetnek a klinikán végzett teljesítményük optimalizálásában is.
Munkánk egy megdöbbentő paradoxont tár fel: noha ezek az AI-modellek kiválóan teljesítenek az orvosi vizsgálatokon, küzdenek az orvoslátogatás alapvető csínjával-bínjával. Az orvosi beszélgetések dinamikája – az igény, hogy a megfelelő kérdéseket a megfelelő időben tegyük fel, a szétszórt információk összeállítása és a tünetek alapján okoskodjunk – olyan egyedi kihívásokat jelent, amelyek jóval túlmutatnak a feleletválasztós kérdések megválaszolásán. Ahogy a szabványos tesztelésről e természetes beszélgetések felé haladunk, még a legkifinomultabb mesterséges intelligencia modellek is jelentős csökkenést mutatnak a diagnosztikai pontosságban.”
Pranav Rajpurkar, a tanulmány vezető szerzője, a Harvard Medical School orvosbiológiai informatikai adjunktusa
Egy jobb teszt az AI teljesítményének gyakorlati ellenőrzésére
Jelenleg a fejlesztők úgy tesztelik a mesterséges intelligencia modellek teljesítményét, hogy feleletválasztós orvosi kérdésekre kérik őket, amelyek jellemzően a végzős orvostanhallgatók országos vizsgáiból vagy olyan tesztekből származnak, amelyeket a rezidensek minősítésük részeként tesznek le.
"Ez a megközelítés azt feltételezi, hogy minden lényeges információ világosan és tömören kerül bemutatásra, gyakran orvosi terminológiát vagy divatos kifejezéseket használva, amelyek leegyszerűsítik a diagnosztikai folyamatot, de a való világban ez a folyamat sokkal zavarosabb" - mondta Shreya Johri, a tanulmány társszerzője és a Harvard Medical School Rajpurkar Laboratóriumának doktorjelöltje. „Olyan tesztelési keretrendszerre van szükségünk, amely jobban tükrözi a valóságot, és ezért jobban megjósolhatja, hogy egy modell mennyire fog működni.”
A CRAFT-MD-t valósághűbb mérőeszközként fejlesztették ki.
A valós interakciók szimulálásához a CRAFT-MD felméri, hogy a nagy nyelvű modellek mennyire tudnak információkat gyűjteni a tünetekről, a gyógyszerekről és a családi anamnézisről, majd felállítani a diagnózist. Egy mesterséges intelligencia ügynök páciensként póz, és a kérdésekre beszélgetős, természetes stílusban válaszol. Egy másik AI-ügynök értékeli a nagy nyelvű modell által biztosított végső diagnózis pontosságát. A humán szakértők ezt követően értékelik az egyes találkozások eredményeit a releváns beteginformációk gyűjtésének képessége, a szétszórt információk bemutatásának diagnosztikai pontossága és az utasítások betartása szempontjából.
A kutatók a CRAFT-MD segítségével négy AI modellt teszteltek –; szabadalmaztatott vagy kereskedelmi és nyílt forráskódú verziók egyaránt –; teljesítményért 2000 klinikai matricában, amelyek lefedik az alapellátás általános állapotait és 12 orvosi szakterületet.
Minden mesterséges intelligencia modell korlátokat mutatott, különösen abban a képességében, hogy klinikai beszélgetéseket folytassanak, és a betegek által szolgáltatott információk alapján okoskodjanak. Ez viszont befolyásolta a kórtörténet felvételének és a megfelelő diagnózis felállításának képességét. Például a modellek gyakran nehezen tudtak feltenni a megfelelő kérdéseket a releváns betegtörténet összegyűjtéséhez, fontos információkat hagytak ki az anamnézis felvétele során, és nehezen tudtak szintetizálni a szétszórt információkat. Ezeknek a modelleknek a pontossága csökkent, amikor a feleletválasztós válaszok helyett nyílt végű információkkal szolgáltak. Ezek a modellek is rosszabbul teljesítettek oda-vissza cserében -; mint a legtöbb beszélgetésnél a való világban –; ahelyett, hogy összefoglaló beszélgetésekbe bocsátkoznánk.
Javaslatok az AI teljesítményének optimalizálásához a gyakorlatban
Ezen megállapítások alapján a csapat egy sor ajánlást ajánl mind az AI-modelleket tervező MI-fejlesztőknek, mind az ezen eszközök értékelésével és jóváhagyásával megbízott szabályozóknak.
Ez a következőket tartalmazza:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Emellett az MI-ügynököket és a humán szakértőket is be kell vonni az értékelésbe – javasolják a kutatók, mivel a kizárólag humán szakértőkre támaszkodni munkaigényes és költséges. Például a CRAFT-MD gyorsabb volt, mint az emberi értékelők: 10 000 interjút dolgozott fel 48–72 óra alatt, plusz 15–16 óra szakértői értékelést. Ezzel szemben az emberi alapú megközelítések kiterjedt toborzást igényelnek, és a becslések szerint 500 órát vesz igénybe a betegszimuláció (közel 3 perc beszélgetésenként), és körülbelül 650 órát a szakértői értékelésekhez (közel 4 perc beszélgetésenként). A mesterséges intelligencia-értékelők első választásaként való használata azzal a járulékos előnnyel jár, hogy kiküszöböli annak kockázatát, hogy valódi betegeket ellenőrizetlen mesterségesintelligencia-eszközöknek tegyenek ki.
A kutatók arra számítanak, hogy magát a CRAFT-MD-t is rendszeresen frissítik és optimalizálják a továbbfejlesztett páciens mesterséges intelligencia modellek beépítése érdekében.
"Orvosként és tudósként érdekelnek az olyan mesterséges intelligencia modellek, amelyek hatékonyan és etikailag javíthatják a klinikai gyakorlatot" - mondta Roxana Daneshjou, a tanulmány társszerzője, a Stanford Egyetem orvosbiológiai adatok tudományának és bőrgyógyászatának adjunktusa. "A CRAFT-MD olyan keretrendszert hoz létre, amely jobban tükrözi a valós interakciókat, és segít előrelépni az AI-modellek egészségügyi teljesítményének tesztelésében."
Források:
Johri, S.,et al. (2025) Értékelési keretrendszer nagy nyelvi modellek klinikai használatához páciensekkel való interakciós feladatokban. Természetgyógyászat. doi.org/10.1038/s41591-024-03328-5.