Modely AI bojujú v reálnych lekárskych rozhovoroch

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Nástroje umelej inteligencie, ako je ChatGPT, sú propagované pre ich prísľub znížiť pracovné zaťaženie lekárov prostredníctvom triedenia pacientov, zhromažďovania anamnézy a dokonca aj predbežných diagnóz. Tieto nástroje, známe ako veľkojazyčné modely, už pacienti používajú na pochopenie svojich symptómov a výsledkov lekárskych testov. Ale zatiaľ čo tieto modely AI dosahujú pôsobivé výsledky v štandardizovaných lekárskych testoch, ako dobre fungujú v situáciách, ktoré viac napodobňujú skutočný svet? Podľa výsledkov novej štúdie vedenej výskumníkmi z Harvardskej lekárskej fakulty a Stanfordskej univerzity nie také skvelé. Pre ich analýzu zverejnenú 2. januára...

Modely AI bojujú v reálnych lekárskych rozhovoroch

Nástroje umelej inteligencie, ako je ChatGPT, sú propagované pre ich prísľub znížiť pracovné zaťaženie lekárov prostredníctvom triedenia pacientov, zhromažďovania anamnézy a dokonca aj predbežných diagnóz.

Tieto nástroje, známe ako veľkojazyčné modely, už pacienti používajú na pochopenie svojich symptómov a výsledkov lekárskych testov.

Ale zatiaľ čo tieto modely AI dosahujú pôsobivé výsledky v štandardizovaných lekárskych testoch, ako dobre fungujú v situáciách, ktoré viac napodobňujú skutočný svet?

Podľa výsledkov novej štúdie vedenej výskumníkmi z Harvardskej lekárskej fakulty a Stanfordskej univerzity nie také skvelé.

Pre ich analýzu uverejnenú 2. januára vPrírodná medicínavýskumníci navrhli hodnotiaci rámec -; alebo test -; s názvom CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) a nasadili ho na štyri veľkojazyčné modely, aby zistili, ako dobre fungujú v prostrediach, ktoré verne napodobňujú skutočné interakcie s pacientmi.

Všetky štyri modely vo veľkom jazyku fungovali dobre v otázkach v štýle lekárskej prehliadky, ale ich výkon sa zhoršil, keď boli zapojené do rozhovorov, ktoré viac napodobňovali interakcie v reálnom svete.

Podľa vedcov táto medzera podčiarkuje dvojitú potrebu: po prvé, vytvoriť realistickejšie hodnotenia, ktoré lepšie posúdia vhodnosť klinických modelov AI na použitie v reálnom svete, a po druhé, zlepšiť schopnosť týchto nástrojov diagnostikovať na základe realistickejších interakcií predtým, ako sa použijú na klinike.

Hodnotiace nástroje ako CRAFT-MD, hovorí výskumný tím, dokážu nielen presnejšie posúdiť modely AI z hľadiska ich kondície v reálnom svete, ale môžu tiež pomôcť optimalizovať ich výkon na klinike.

Naša práca odhaľuje zarážajúci paradox: Zatiaľ čo tieto modely AI vynikajú pri lekárskych skúškach, zápasia so základnými výhodami návštevy lekára. Dynamika lekárskych rozhovorov – potreba klásť správne otázky v správnom čase, dať dokopy rozptýlené informácie a dôvod založený na symptómoch – predstavuje jedinečné výzvy, ktoré ďaleko presahujú zodpovedanie otázok s možnosťou výberu z viacerých odpovedí. Keď prechádzame od štandardizovaného testovania k týmto prirodzeným konverzáciám, dokonca aj tie najsofistikovanejšie modely AI vykazujú výrazné poklesy v presnosti diagnostiky.“

Pranav Rajpurkar, hlavný autor štúdie, odborný asistent biomedicínskej informatiky na Harvardskej lekárskej fakulte

Lepší test na overenie výkonu AI v praxi

V súčasnosti vývojári testujú výkonnosť modelov AI tak, že ich žiadajú, aby odpovedali na lekárske otázky s viacerými možnosťami, ktoré sú zvyčajne odvodené od národnej skúšky pre absolventov medicíny alebo z testov, ktoré obyvatelia absolvujú v rámci svojej certifikácie.

"Tento prístup predpokladá, že všetky relevantné informácie sú prezentované jasne a stručne, často s použitím lekárskej terminológie alebo módnych slov, ktoré zjednodušujú diagnostický proces, ale v skutočnom svete je tento proces oveľa komplikovanejší," povedala Shreya Johri, spoluautorka štúdie a doktorandka v laboratóriu Rajpurkar na Harvard Medical School. "Potrebujeme testovací rámec, ktorý lepšie odráža realitu, a preto dokáže lepšie predpovedať, ako dobre bude model fungovať."

CRAFT-MD bol vyvinutý ako taký realistickejší merací prístroj.

Na simuláciu interakcií v reálnom svete CRAFT-MD vyhodnocuje, ako dobre dokážu veľkojazyčné modely zhromažďovať informácie o symptómoch, liekoch a rodinnej anamnéze a potom stanoviť diagnózu. Agent AI sa tvári ako pacient a odpovedá na otázky v konverzačnom, prirodzenom štýle. Ďalší agent AI vyhodnocuje presnosť konečnej diagnózy, ktorú poskytuje veľkojazyčný model. Ľudskí odborníci potom vyhodnotia výsledky každého stretnutia z hľadiska schopnosti zbierať relevantné informácie o pacientovi, diagnostickej presnosti pri prezentovaní rozptýlených informácií a dodržiavania pokynov.

Výskumníci použili CRAFT-MD na testovanie štyroch modelov AI –; proprietárne alebo komerčné a open source verzie –; za výkon v 2 000 klinických známkach pokrývajúcich bežné podmienky v primárnej starostlivosti a 12 medicínskych odborov.

Všetky modely AI vykazovali obmedzenia, najmä pokiaľ ide o ich schopnosť viesť klinické rozhovory a uvažovať na základe informácií poskytnutých pacientmi. To následne ovplyvnilo ich schopnosť získať anamnézu a stanoviť vhodnú diagnózu. Modely mali napríklad často problémy s kladením správnych otázok na zhromaždenie relevantnej anamnézy pacienta, chýbali im dôležité informácie počas odoberania anamnézy a mali problémy so syntézou rozptýlených informácií. Presnosť týchto modelov sa znížila, keď boli prezentované s otvorenými informáciami namiesto odpovedí s viacerými možnosťami. Tieto modely tiež fungovali horšie pri výmene tam a späť -; ako je to v prípade väčšiny rozhovorov v reálnom svete –; namiesto zapájania sa do súhrnných rozhovorov.

Odporúčania na optimalizáciu výkonu AI v praxi

Na základe týchto zistení tím ponúka sériu odporúčaní pre vývojárov AI, ktorí navrhujú modely AI, aj pre regulátorov, ktorých úlohou je hodnotiť a schvaľovať tieto nástroje.

To zahŕňa:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Okrem toho by do hodnotenia mali byť zahrnutí agenti AI aj odborníci na ľudí, odporúčajú výskumníci, pretože spoliehanie sa výlučne na ľudských odborníkov je náročné na prácu a drahé. Napríklad CRAFT-MD bola rýchlejšia ako ľudskí hodnotitelia, spracovala 10 000 rozhovorov za 48 až 72 hodín plus 15 až 16 hodín expertného hodnotenia. Naproti tomu prístupy založené na ľuďoch by si vyžadovali rozsiahly nábor a odhadom 500 hodín na simulácie pacientov (takmer 3 minúty na rozhovor) a približne 650 hodín na expertné hodnotenia (takmer 4 minúty na rozhovor). Použitie hodnotiteľov AI ako prvej voľby má ďalšiu výhodu v tom, že eliminuje riziko vystavenia skutočných pacientov neovereným nástrojom AI.

Výskumníci očakávajú, že samotný CRAFT-MD bude tiež pravidelne aktualizovaný a optimalizovaný tak, aby zahŕňal vylepšené modely AI pacientov.

„Ako lekárka a vedec sa zaujímam o modely AI, ktoré môžu efektívne a eticky zlepšiť klinickú prax,“ povedala spoluautorka štúdie Roxana Daneshjou, odborná asistentka biomedicínskych údajov a dermatológie na Stanfordskej univerzite. „CRAFT-MD vytvára rámec, ktorý lepšie odráža interakcie v reálnom svete, čím pomáha napredovať v tejto oblasti, pokiaľ ide o testovanie výkonnosti modelov AI v zdravotníctve.“


Zdroje:

Journal reference:

Johri, S.,a kol. (2025) Hodnotiaci rámec pre klinické použitie veľkých jazykových modelov v úlohách interakcie s pacientom. Prírodná medicína. doi.org/10.1038/s41591-024-03328-5.