AI modeļi cīnās reālās medicīnas sarunās
Mākslīgā intelekta rīki, piemēram, ChatGPT, tiek reklamēti par solījumu samazināt klīnicistu darba slodzi, veicot pacientu pārbaudi, apkopojot slimības vēsturi un pat veicot provizoriskas diagnostikas. Šos rīkus, kas pazīstami kā lielvalodu modeļi, pacienti jau izmanto, lai izprastu savus simptomus un medicīniskās pārbaudes rezultātus. Bet, lai gan šie AI modeļi ir iespaidīgi, veicot standartizētus medicīniskos testus, cik labi tie darbojas situācijās, kas vairāk atdarina reālo pasauli? Ne tik lieliski, saskaņā ar jaunā pētījuma rezultātiem, ko vadīja Hārvardas Medicīnas skolas un Stenfordas universitātes pētnieki. Viņu analīzei, kas publicēta 2. janvārī...
AI modeļi cīnās reālās medicīnas sarunās
Mākslīgā intelekta rīki, piemēram, ChatGPT, tiek reklamēti par solījumu samazināt klīnicistu darba slodzi, veicot pacientu pārbaudi, apkopojot slimības vēsturi un pat veicot provizoriskas diagnostikas.
Šos rīkus, kas pazīstami kā lielvalodu modeļi, pacienti jau izmanto, lai izprastu savus simptomus un medicīniskās pārbaudes rezultātus.
Bet, lai gan šie AI modeļi ir iespaidīgi, veicot standartizētus medicīniskos testus, cik labi tie darbojas situācijās, kas vairāk atdarina reālo pasauli?
Ne tik lieliski, saskaņā ar jaunā pētījuma rezultātiem, ko vadīja Hārvardas Medicīnas skolas un Stenfordas universitātes pētnieki.
Viņu analīzei, kas publicēta 2. janvārīDabiskā medicīnapētnieki izstrādāja novērtēšanas sistēmu -; vai tests -; sauca par CRAFT-MD (sarunu spriešanas novērtējuma ietvaru testēšanai medicīnā) un izmantoja to četros lielas valodas modeļos, lai noskaidrotu, cik labi tie darbojas vidēs, kas cieši atdarina faktisko mijiedarbību ar pacientiem.
Visi četri lielvalodu modeļi labi veica medicīniskās pārbaudes stila jautājumus, taču to veiktspēja pasliktinājās, kad viņi tika iesaistīti sarunās, kas vairāk atdarināja reālās pasaules mijiedarbību.
Šī plaisa, pēc pētnieku domām, uzsver divkāršu nepieciešamību: pirmkārt, izveidot reālistiskākus novērtējumus, kas labāk novērtētu klīnisko AI modeļu piemērotību lietošanai reālajā pasaulē, un, otrkārt, uzlabot šo rīku spēju diagnosticēt, pamatojoties uz reālistiskāku mijiedarbību, pirms tie tiek izmantoti klīnikā.
Pētnieku komanda saka, ka tādi novērtēšanas rīki kā CRAFT-MD var ne tikai precīzāk novērtēt AI modeļus to piemērotībai reālajā pasaulē, bet arī var palīdzēt optimizēt to veiktspēju klīnikā.
Mūsu darbs atklāj pārsteidzošu paradoksu: lai gan šie AI modeļi ir izcili medicīnisko pārbaužu veikšanā, tie cīnās ar ārsta apmeklējuma pamatprincipiem. Medicīnisko sarunu dinamika — nepieciešamība uzdot pareizos jautājumus īstajā laikā, apkopot izkaisītu informāciju un pamatot, pamatojoties uz simptomiem, rada unikālus izaicinājumus, kas sniedzas daudz tālāk par atbildēm uz jautājumiem ar atbilžu variantiem. Pārejot no standartizētas testēšanas uz šīm dabiskajām sarunām, pat vismodernākie AI modeļi uzrāda ievērojamu diagnostikas precizitātes kritumu.
Pranavs Rajpurkars, pētījuma vecākais autors, Hārvardas Medicīnas skolas biomedicīnas informātikas docents
Labāks tests, lai pārbaudītu AI veiktspēju praksē
Pašlaik izstrādātāji pārbauda mākslīgā intelekta modeļu veiktspēju, lūdzot tiem atbildēt uz medicīniskiem jautājumiem ar atbilžu variantiem, kas parasti izriet no valsts eksāmena medicīnas studentu absolventiem vai pārbaudēm, ko iedzīvotāji veic sertifikācijas ietvaros.
"Šī pieeja paredz, ka visa būtiskā informācija tiek sniegta skaidri un kodolīgi, bieži izmantojot medicīnisko terminoloģiju vai modes vārdus, kas vienkāršo diagnostikas procesu, taču reālajā pasaulē šis process ir daudz nekārtīgāks," sacīja Šreja Džori, pētījuma līdzautore un doktora grāda kandidāte Hārvardas Medicīnas skolas Rajpurkar laboratorijā. "Mums ir vajadzīga testēšanas sistēma, kas labāk atspoguļo realitāti un tādējādi var labāk paredzēt, cik labi modelis darbosies."
CRAFT-MD tika izstrādāta kā tāda reālistiskāka mērierīce.
Lai modelētu reālās pasaules mijiedarbību, CRAFT-MD novērtē, cik labi lielas valodas modeļi var apkopot informāciju par simptomiem, medikamentiem un ģimenes vēsturi un pēc tam veikt diagnozi. AI aģents pozē kā pacients un atbild uz jautājumiem sarunvalodas, dabiskā stilā. Cits AI aģents novērtē galīgās diagnozes precizitāti, ko nodrošina lielas valodas modelis. Cilvēku eksperti pēc tam novērtē katras tikšanās rezultātus attiecībā uz spēju vākt būtisku informāciju par pacientu, diagnostikas precizitāti, sniedzot izkliedētu informāciju, un norādījumu ievērošanu.
Pētnieki izmantoja CRAFT-MD, lai pārbaudītu četrus AI modeļus –; gan patentētas, gan komerciālas, gan atvērtā pirmkoda versijas –; par sniegumu 2000 klīniskajās vinjetēs, kas aptver parastos nosacījumus primārajā aprūpē un 12 medicīnas specialitātēs.
Visi AI modeļi uzrādīja ierobežojumus, jo īpaši to spēju vadīt klīniskas sarunas un pamatot, pamatojoties uz pacientu sniegto informāciju. Tas savukārt ietekmēja viņu spēju apkopot slimības vēsturi un noteikt atbilstošu diagnozi. Piemēram, modeļiem bieži bija grūtības uzdot pareizos jautājumus, lai apkopotu atbilstošu pacienta vēsturi, viņi palaida garām svarīgu informāciju anamnēzes vākšanas laikā un viņiem bija grūtības sintezēt izkaisītu informāciju. Šo modeļu precizitāte samazinājās, kad tiem tika piedāvāta atvērta informācija, nevis atbildes ar atbilžu variantiem. Šie modeļi arī darbojās sliktāk, veicot apmaiņu turp un atpakaļ -; kā tas notiek lielākajā daļā sarunu reālajā pasaulē –; nevis iesaistīties rezumētās sarunās.
Ieteikumi AI veiktspējas optimizēšanai praksē
Pamatojoties uz šiem atklājumiem, komanda piedāvā virkni ieteikumu gan AI izstrādātājiem, kuri izstrādā AI modeļus, gan regulatoriem, kuru uzdevums ir novērtēt un apstiprināt šos rīkus.
Tas ietver:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Turklāt novērtējumā būtu jāiekļauj gan AI aģenti, gan cilvēku eksperti, iesaka pētnieki, jo paļaušanās tikai uz cilvēku ekspertiem ir darbietilpīga un dārga. Piemēram, CRAFT-MD bija ātrāks nekā cilvēku vērtētāji, apstrādājot 10 000 interviju 48 līdz 72 stundu laikā, kā arī 15 līdz 16 stundu ekspertu novērtējumu. Turpretim uz cilvēku balstītām pieejām būtu nepieciešama plaša personāla atlase un aptuveni 500 stundas pacientu simulācijām (gandrīz 3 minūtes vienai sarunai) un aptuveni 650 stundas ekspertu novērtējumiem (gandrīz 4 minūtes vienai sarunai). AI vērtētāju izmantošana kā pirmā izvēle sniedz papildu ieguvumu, jo tiek novērsts risks, ka reāli pacienti tiks pakļauti nepārbaudītiem AI rīkiem.
Pētnieki sagaida, ka pati CRAFT-MD arī tiks regulāri atjaunināta un optimizēta, lai iekļautu uzlabotus pacientu AI modeļus.
"Kā ārsts un zinātnieks mani interesē AI modeļi, kas var efektīvi un ētiski uzlabot klīnisko praksi," sacīja pētījuma līdzautore Roxana Daneshjou, Stenfordas universitātes biomedicīnas datu zinātnes un dermatoloģijas docente. "CRAFT-MD izveido sistēmu, kas labāk atspoguļo reālās pasaules mijiedarbību, palīdzot uzlabot jomu, pārbaudot AI modeļu veiktspēju veselības aprūpē."
Avoti:
Džori, S.,et al. (2025) Novērtēšanas ietvars lielu valodu modeļu klīniskai izmantošanai pacientu mijiedarbības uzdevumos. Dabas medicīna. doi.org/10.1038/s41591-024-03328-5.