AI modeliai kovoja su realaus pasaulio medicinos pokalbiais
Dirbtinio intelekto įrankiai, tokie kaip „ChatGPT“, garsinami už pažadą sumažinti gydytojų darbo krūvį tiriant pacientus, renkant ligos istorijas ir netgi nustatant preliminarią diagnozę. Šias priemones, žinomas kaip modeliai didelėmis kalbomis, pacientai jau naudoja norėdami suprasti savo simptomus ir medicininių tyrimų rezultatus. Tačiau nors šie AI modeliai puikiai atlieka standartizuotus medicininius testus, kaip gerai jie veikia situacijose, kurios labiau imituoja realų pasaulį? Ne taip puiku, remiantis naujo tyrimo, kuriam vadovavo Harvardo medicinos mokyklos ir Stanfordo universiteto mokslininkai, rezultatai. Jų analizei, paskelbtai sausio 2 d...
AI modeliai kovoja su realaus pasaulio medicinos pokalbiais
Dirbtinio intelekto įrankiai, tokie kaip „ChatGPT“, garsinami už pažadą sumažinti gydytojų darbo krūvį tiriant pacientus, renkant ligos istorijas ir netgi nustatant preliminarią diagnozę.
Šias priemones, žinomas kaip modeliai didelėmis kalbomis, pacientai jau naudoja norėdami suprasti savo simptomus ir medicininių tyrimų rezultatus.
Tačiau nors šie AI modeliai puikiai atlieka standartizuotus medicininius testus, kaip gerai jie veikia situacijose, kurios labiau imituoja realų pasaulį?
Ne taip puiku, remiantis naujo tyrimo, kuriam vadovavo Harvardo medicinos mokyklos ir Stanfordo universiteto mokslininkai, rezultatai.
Jų analizei paskelbta sausio 2 dNatūrali medicinatyrėjai sukūrė vertinimo sistemą -; arba testas -; pavadintas CRAFT-MD (medicinos testavimo pokalbio samprotavimo vertinimo sistema) ir panaudojo jį keturiuose didelės kalbos modeliuose, kad pamatytų, kaip gerai jie veikė aplinkoje, kuri labai imituoja tikrąją sąveiką su pacientais.
Visi keturi didelės kalbos modeliai gerai atliko medicininių egzaminų stiliaus klausimus, tačiau jų rezultatai pablogėjo, kai jie dalyvavo pokalbiuose, kurie labiau imitavo realaus pasaulio sąveiką.
Ši spraga, pasak mokslininkų, pabrėžia dvigubą poreikį: pirma, sukurti realistiškesnius vertinimus, kurie geriau įvertintų klinikinių AI modelių tinkamumą naudoti realiame pasaulyje, ir, antra, pagerinti šių įrankių gebėjimą diagnozuoti remiantis realesne sąveika prieš juos naudojant klinikoje.
Tyrimo grupės teigimu, tokie vertinimo įrankiai kaip CRAFT-MD gali ne tik tiksliau įvertinti AI modelius, kad jie atitiktų jų tinkamumą realiame pasaulyje, bet ir galėtų padėti optimizuoti jų veiklą klinikoje.
Mūsų darbas atskleidžia stulbinantį paradoksą: nors šie dirbtinio intelekto modeliai puikiai atlieka medicininius egzaminus, jie susiduria su pagrindinėmis vizito pas gydytoją subtilybėmis. Medikų pokalbių dinamika – poreikis tinkamu laiku užduoti tinkamus klausimus, rinkti išsklaidytą informaciją ir priežastis, pagrįsta simptomais – kelia unikalių iššūkių, kurie gerokai viršija atsakymus į klausimus su atsakymų variantais. Kai pereiname nuo standartizuoto testavimo prie šių natūralių pokalbių, net ir patys sudėtingiausi AI modeliai rodo reikšmingą diagnostikos tikslumo kritimą.
Pranavas Rajpurkaras, vyresnysis tyrimo autorius, Harvardo medicinos mokyklos biomedicininės informatikos docentas
Geresnis testas, skirtas DI veikimui patikrinti praktiškai
Šiuo metu kūrėjai tikrina dirbtinio intelekto modelių veikimą, prašydami atsakyti į medicininius klausimus su daugybe atsakymų, kurie paprastai kyla iš nacionalinio egzamino baigiantiems medicinos studentams arba iš testų, kuriuos gyventojai atlieka išduodami sertifikatą.
„Šiuo metodu daroma prielaida, kad visa svarbi informacija pateikiama aiškiai ir glaustai, dažnai naudojant medicininę terminiją arba tradicinius žodžius, kurie supaprastina diagnostikos procesą, tačiau realiame pasaulyje šis procesas yra daug netvarkingesnis“, – sakė Shreya Johri, pirmasis tyrimo autorius ir Harvardo medicinos mokyklos Rajpurkar laboratorijos doktorantas. „Mums reikia testavimo sistemos, kuri geriau atspindėtų tikrovę ir todėl galėtų geriau numatyti, kaip gerai veiktų modelis.
CRAFT-MD buvo sukurtas kaip realesnis matavimo prietaisas.
Siekdama imituoti realią sąveiką, CRAFT-MD įvertina, kaip didelės kalbos modeliai gali rinkti informaciją apie simptomus, vaistus ir šeimos istoriją ir nustatyti diagnozę. AI agentas pozuoja kaip pacientas ir atsako į klausimus natūraliu pokalbio stiliumi. Kitas AI agentas įvertina galutinės diagnozės tikslumą, pateiktą didelės kalbos modelio. Tada ekspertai įvertina kiekvieno susitikimo rezultatus, atsižvelgdami į gebėjimą rinkti svarbią informaciją apie pacientą, diagnostinį tikslumą pateikiant išsklaidytą informaciją ir nurodymų laikymąsi.
Tyrėjai naudojo CRAFT-MD keturiems AI modeliams išbandyti –; tiek patentuotos, tiek komercinės ir atvirojo kodo versijos –; už atlikimą 2 000 klinikinių vinječių, apimančių įprastas pirminės sveikatos priežiūros ir 12 medicinos specialybių ligas.
Visi AI modeliai parodė apribojimus, ypač jų gebėjimą vesti klinikinius pokalbius ir motyvuoti, remiantis pacientų pateikta informacija. Tai savo ruožtu paveikė jų gebėjimą rinkti ligos istoriją ir nustatyti tinkamą diagnozę. Pavyzdžiui, modeliams dažnai buvo sunku užduoti tinkamus klausimus, kad surinktų atitinkamą paciento istoriją, jie praleido svarbią informaciją rinkdami istoriją ir sunkiai sintezavo išsklaidytą informaciją. Šių modelių tikslumas sumažėjo, kai jiems buvo pateikta atviro tipo informacija, o ne atsakymų variantai. Šie modeliai taip pat veikė blogiau, kai buvo keičiamasi pirmyn ir atgal -; kaip ir dauguma pokalbių realiame pasaulyje –; o ne įsitraukti į apibendrintus pokalbius.
Rekomendacijos, kaip optimizuoti DI veikimą praktikoje
Remdamasi šiomis išvadomis, komanda siūlo keletą rekomendacijų AI kūrėjams, kuriantiems AI modelius, ir reguliuotojams, kuriems pavesta įvertinti ir patvirtinti šiuos įrankius.
Tai apima:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Be to, į vertinimą turėtų būti įtraukti ir AI agentai, ir žmonių ekspertai, rekomenduoja mokslininkai, nes pasikliauti vien žmonių ekspertais yra daug darbo jėgos ir brangu. Pavyzdžiui, CRAFT-MD buvo greitesnis už vertintojus žmones, apdorojo 10 000 interviu per 48–72 valandas ir 15–16 valandų ekspertinio vertinimo. Priešingai, taikant žmogiškuosius metodus reikėtų daug įdarbinti ir maždaug 500 valandų pacientų modeliavimui (beveik 3 minutės vienam pokalbiui) ir maždaug 650 valandų ekspertų vertinimams (beveik 4 minutės vienam pokalbiui). AI vertintojų naudojimas kaip pirmasis pasirinkimas suteikia papildomos naudos, nes pašalinama rizika, kad tikriems pacientams bus taikomos nepatikrintos AI priemonės.
Tyrėjai tikisi, kad pati CRAFT-MD taip pat bus reguliariai atnaujinama ir optimizuojama, kad būtų įtraukti patobulinti pacientų AI modeliai.
„Kaip gydytojas ir mokslininkas, mane domina AI modeliai, kurie gali veiksmingai ir etiškai pagerinti klinikinę praktiką“, – sakė tyrimo bendraautorė Roxana Daneshjou, Stanfordo universiteto biomedicininių duomenų mokslo ir dermatologijos docentė. „CRAFT-MD sukuria sistemą, kuri geriau atspindi realią sąveiką ir padeda tobulinti sritį, kai reikia išbandyti AI modelių veikimą sveikatos priežiūros srityje.
Šaltiniai:
Džoris, S.,ir kt. (2025) Vertinimo sistema, skirta klinikiniam didelių kalbos modelių naudojimui atliekant sąveikos su pacientais užduotis. Gamtos medicina. doi.org/10.1038/s41591-024-03328-5.