AI mudelid võitlevad reaalsetes meditsiinilistes vestlustes

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Tehisintellekti tööriistu, nagu ChatGPT, reklaamitakse nende lubaduse tõttu vähendada arstide töökoormust patsientide määramise, haiguslugude kogumise ja isegi esialgsete diagnooside abil. Patsiendid juba kasutavad neid tööriistu, mida tuntakse suurekeelsete mudelitena, et mõista oma sümptomeid ja meditsiiniliste testide tulemusi. Kuid kuigi need tehisintellekti mudelid toimivad standardiseeritud meditsiinilistes testides muljetavaldavalt, kui hästi need toimivad olukordades, mis jäljendavad rohkem reaalset maailma? Harvardi meditsiinikooli ja Stanfordi ülikooli teadlaste juhitud uue uuringu tulemuste kohaselt pole see nii suurepärane. Nende analüüsi jaoks, mis avaldati 2. jaanuaril...

AI mudelid võitlevad reaalsetes meditsiinilistes vestlustes

Tehisintellekti tööriistu, nagu ChatGPT, reklaamitakse nende lubaduse tõttu vähendada arstide töökoormust patsientide määramise, haiguslugude kogumise ja isegi esialgsete diagnooside abil.

Patsiendid juba kasutavad neid tööriistu, mida tuntakse suurekeelsete mudelitena, et mõista oma sümptomeid ja meditsiiniliste testide tulemusi.

Kuid kuigi need tehisintellekti mudelid toimivad standardiseeritud meditsiinilistes testides muljetavaldavalt, kui hästi need toimivad olukordades, mis jäljendavad rohkem reaalset maailma?

Harvardi meditsiinikooli ja Stanfordi ülikooli teadlaste juhitud uue uuringu tulemuste kohaselt pole see nii suurepärane.

Nende analüüsi jaoks, mis avaldati 2. jaanuaril aastalLooduslik ravimteadlased koostasid hindamisraamistiku -; või test -; kutsus CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) ja kasutas seda neljas suures keeles mudelis, et näha, kui hästi nad töötavad keskkondades, mis jäljendavad tegelikku suhtlemist patsientidega.

Kõik neli suurekeelset mudelit toimisid hästi arstliku läbivaatuse stiilis küsimustega, kuid nende jõudlus halvenes, kui nad osalesid vestlustes, mis jäljendasid rohkem reaalset suhtlust.

See lünk rõhutab teadlaste sõnul kahekordset vajadust: esiteks luua realistlikumad hinnangud, mis hindaksid paremini kliiniliste tehisintellekti mudelite sobivust reaalses maailmas kasutamiseks, ja teiseks, et parandada nende tööriistade võimet diagnoosida realistlikuma interaktsiooni alusel enne nende kasutamist kliinikus.

Uurimisrühma sõnul ei saa hindamistööriistad, nagu CRAFT-MD, mitte ainult täpsemalt hinnata tehisintellekti mudeleid nende tegeliku sobivuse osas, vaid võivad aidata ka optimeerida nende toimivust kliinikus.

Meie töö paljastab hämmastava paradoksi: kuigi need tehisintellekti mudelid on meditsiinilistel läbivaatustel suurepärased, on neil hädas arstivisiidi põhiliste nõtkidega. Meditsiiniliste vestluste dünaamika – vajadus esitada õigeid küsimusi õigel ajal, koondada hajutatud teavet ja sümptomite põhjal põhjendada – kujutab endast ainulaadseid väljakutseid, mis ulatuvad palju kaugemale vastamisest valikvastustega küsimustele. Kui liigume standardiseeritud testimiselt nende loomulike vestluste juurde, näitavad isegi kõige keerukamad AI mudelid diagnostilise täpsuse märkimisväärset langust.

Pranav Rajpurkar, uuringu vanemautor, Harvardi meditsiinikooli biomeditsiinilise informaatika dotsent

Parem test AI toimivuse kontrollimiseks praktikas

Praegu testivad arendajad tehisintellektimudelite toimivust, paludes neil vastata valikvastustega meditsiinilistele küsimustele, mis on tavaliselt tuletatud meditsiiniüliõpilaste riiklikust eksamist või testidest, mida elanikud sertifitseerimise raames teevad.

"See lähenemisviis eeldab, et kogu asjakohane teave esitatakse selgelt ja lühidalt, kasutades sageli meditsiinilist terminoloogiat või diagnostilist protsessi lihtsustavaid moesõnu, kuid tegelikus maailmas on see protsess palju segasem," ütles Shreya Johri, uuringu kaasautor ja doktorant Harvardi meditsiinikooli Rajpurkari laboris. "Meil on vaja testimisraamistikku, mis peegeldab paremini tegelikkust ja suudab seetõttu paremini ennustada, kui hästi mudel töötab."

Sellise realistlikuma mõõteseadmena töötati välja CRAFT-MD.

Reaalse interaktsiooni simuleerimiseks hindab CRAFT-MD, kui hästi suudavad suurkeelsed mudelid koguda teavet sümptomite, ravimite ja perekonna ajaloo kohta ning seejärel diagnoosi panna. Tehisintellekti agent poseerib patsiendina ja vastab küsimustele vestluslikus, loomulikus stiilis. Teine tehisintellekti agent hindab suurekeelse mudeli pakutava lõpliku diagnoosi täpsust. Seejärel hindavad inimeksperdid iga kohtumise tulemusi patsiendi asjakohase teabe kogumise, hajutatud teabe esitamise diagnostilise täpsuse ja juhiste järgimise osas.

Teadlased kasutasid CRAFT-MD-d nelja AI-mudeli testimiseks –; nii patenteeritud või kaubanduslikud kui ka avatud lähtekoodiga versioonid –; esinemise eest 2000 kliinilises vinjetis, mis hõlmavad üldisi haigusseisundeid esmatasandi arstiabis ja 12 meditsiinierialal.

Kõik AI mudelid näitasid piiranguid, eriti nende võimes pidada kliinilisi vestlusi ja põhjendada patsientide esitatud teabe põhjal. See omakorda mõjutas nende võimet koguda haiguslugu ja panna asjakohane diagnoos. Näiteks oli mudelitel sageli raskusi õigete küsimuste esitamisega asjakohase patsiendi ajaloo kogumiseks, nad jätsid anamneesi kogumise ajal olulise teabe vahele ja neil oli raskusi hajutatud teabe sünteesimisega. Nende mudelite täpsus vähenes, kui neile esitati valikvastuste asemel avatud teave. Need mudelid toimisid halvemini ka edasi-tagasi vahetamisel -; nagu enamiku vestluste puhul pärismaailmas –; selle asemel, et osaleda kokkuvõtlikes vestlustes.

Soovitused tehisintellekti toimimise optimeerimiseks praktikas

Nende leidude põhjal pakub meeskond mitmeid soovitusi nii tehisintellekti mudeleid kavandavatele tehisintellekti arendajatele kui ka regulaatoritele, kelle ülesanne on neid tööriistu hinnata ja heaks kiita.

See hõlmab järgmist:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Lisaks tuleks hindamisse kaasata nii tehisintellekti agendid kui ka inimeksperdid, soovitavad teadlased, kuna ainult inimekspertidele lootmine on töömahukas ja kulukas. Näiteks CRAFT-MD oli inimeste hindajatest kiirem, töödeldes 10 000 intervjuud 48–72 tunni jooksul, millele lisandus 15–16 tundi eksperthinnangut. Seevastu inimpõhised lähenemisviisid nõuavad ulatuslikku värbamist ja hinnanguliselt 500 tundi patsientide simulatsioonide jaoks (ligi 3 minutit vestluse kohta) ja ligikaudu 650 tundi eksperthinnangute jaoks (ligi 4 minutit vestluse kohta). Tehisintellekti hindajate kasutamine esimese valikuna annab lisaeelise, kuna see välistab riski, et tõelised patsiendid puutuvad kokku kontrollimata tehisintellekti tööriistadega.

Teadlased eeldavad, et ka CRAFT-MD-d uuendatakse regulaarselt ja optimeeritakse, et kaasata täiustatud patsientide AI-mudeleid.

"Arsti ja teadlasena olen huvitatud AI mudelitest, mis võivad tõhusalt ja eetiliselt parandada kliinilist praktikat," ütles uuringu kaasautor Roxana Daneshjou, Stanfordi ülikooli biomeditsiiniliste andmete teaduse ja dermatoloogia dotsent. "CRAFT-MD loob raamistiku, mis peegeldab paremini reaalset suhtlust, aidates tervishoius tehisintellektimudelite toimivuse testimisel valdkonda edasi arendada."


Allikad:

Journal reference:

Johri, S.,et al. (2025) Hindamisraamistik suurte keelemudelite kliiniliseks kasutamiseks patsientidega suhtlemise ülesannetes. Loodusmeditsiin. doi.org/10.1038/s41591-024-03328-5.