Modely umělé inteligence bojují ve skutečných lékařských rozhovorech
Nástroje umělé inteligence, jako je ChatGPT, jsou nabízeny pro svůj slib snížit pracovní zátěž lékařů tříděním pacientů, shromažďováním anamnézy a dokonce vytvářením předběžných diagnóz. Tyto nástroje, známé jako velkojazyčné modely, již pacienti používají k pochopení jejich symptomů a výsledků lékařských testů. Ale zatímco tyto modely umělé inteligence fungují působivě ve standardizovaných lékařských testech, jak dobře si vedou v situacích, které více napodobují skutečný svět? Podle výsledků nové studie, kterou vedli vědci z Harvard Medical School a Stanford University, ne tak skvělé. K jejich analýze zveřejněné 2. ledna...
Modely umělé inteligence bojují ve skutečných lékařských rozhovorech
Nástroje umělé inteligence, jako je ChatGPT, jsou nabízeny pro svůj slib snížit pracovní zátěž lékařů tříděním pacientů, shromažďováním anamnézy a dokonce vytvářením předběžných diagnóz.
Tyto nástroje, známé jako velkojazyčné modely, již pacienti používají k pochopení jejich symptomů a výsledků lékařských testů.
Ale zatímco tyto modely umělé inteligence fungují působivě ve standardizovaných lékařských testech, jak dobře si vedou v situacích, které více napodobují skutečný svět?
Podle výsledků nové studie, kterou vedli vědci z Harvard Medical School a Stanford University, ne tak skvělé.
Pro jejich analýzu, zveřejněnou 2. ledna vPřírodní medicínavýzkumníci navrhli hodnotící rámec -; nebo test -; nazval CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) a nasadil jej na čtyři velkojazyčné modely, aby zjistil, jak dobře fungují v prostředích, která úzce napodobují skutečné interakce s pacienty.
Všechny čtyři velkojazyčné modely fungovaly dobře v otázkách ve stylu lékařské prohlídky, ale jejich výkon se zhoršil, když byly zapojeny do konverzací, které více napodobovaly interakce v reálném světě.
Tato mezera, řekli vědci, podtrhuje dvojí potřebu: zaprvé vytvořit realističtější hodnocení, která lépe posoudí vhodnost klinických modelů umělé inteligence pro použití v reálném světě, a zadruhé zlepšit schopnost těchto nástrojů diagnostikovat na základě realističtějších interakcí, než budou použity na klinice.
Hodnotící nástroje jako CRAFT-MD, říká výzkumný tým, dokážou nejen přesněji posoudit modely umělé inteligence z hlediska jejich skutečné kondice, ale mohou také pomoci optimalizovat jejich výkon na klinice.
Naše práce odhaluje zarážející paradox: Zatímco tyto modely umělé inteligence vynikají při lékařských prohlídkách, potýkají se se základními výhodami a nevýhodami návštěvy lékaře. Dynamika lékařských rozhovorů – potřeba klást správné otázky ve správný čas, dávat dohromady rozptýlené informace a uvažovat na základě příznaků – představuje jedinečné výzvy, které jdou nad rámec odpovědí na otázky s více možnostmi. Jak přecházíme od standardizovaného testování k těmto přirozeným konverzacím, i ty nejsofistikovanější modely umělé inteligence vykazují výrazné poklesy v diagnostické přesnosti.“
Pranav Rajpurkar, hlavní autor studie, odborný asistent biomedicínské informatiky na Harvard Medical School
Lepší test pro ověření výkonu AI v praxi
V současné době vývojáři testují výkon modelů umělé inteligence tím, že je žádají, aby odpověděli na lékařské otázky s více možnostmi, které jsou obvykle odvozeny z národní zkoušky pro absolventy medicíny nebo z testů, které obyvatelé absolvují jako součást své certifikace.
"Tento přístup předpokládá, že všechny relevantní informace jsou prezentovány jasně a stručně, často za použití lékařské terminologie nebo módních slov, která zjednodušují diagnostický proces, ale v reálném světě je tento proces mnohem komplikovanější," řekla Shreya Johri, spoluautorka studie a doktorandka v Rajpurkar Lab na Harvard Medical School. "Potřebujeme testovací rámec, který lépe odráží realitu, a proto dokáže lépe předvídat, jak dobře bude model fungovat."
CRAFT-MD byl vyvinut jako takový realističtější měřicí přístroj.
Aby bylo možné simulovat interakce v reálném světě, CRAFT-MD vyhodnocuje, jak dobře dokážou velkojazyčné modely shromažďovat informace o symptomech, lécích a rodinné anamnéze a poté provést diagnózu. Agent AI se tváří jako pacient a odpovídá na otázky konverzačním, přirozeným stylem. Další agent umělé inteligence vyhodnocuje přesnost konečné diagnózy, kterou poskytuje velkojazyčný model. Lidští experti pak vyhodnotí výsledky každého setkání z hlediska schopnosti shromáždit relevantní informace o pacientovi, diagnostické přesnosti při prezentaci rozptýlených informací a dodržování pokynů.
Výzkumníci použili CRAFT-MD k testování čtyř modelů umělé inteligence –; proprietární nebo komerční a open source verze –; za výkon ve 2 000 klinických známkách pokrývajících běžné podmínky v primární péči a 12 lékařských specializací.
Všechny modely umělé inteligence vykazovaly omezení, zejména pokud jde o jejich schopnost vést klinické rozhovory a uvažovat na základě informací poskytnutých pacienty. To následně ovlivnilo jejich schopnost odebírat anamnézu a stanovit vhodnou diagnózu. Modely měly například často potíže s pokládáním správných otázek, aby získaly relevantní anamnézu pacienta, vynechaly důležité informace během odebírání anamnézy a měly potíže se syntézou rozptýlených informací. Přesnost těchto modelů se snížila, když byly prezentovány s otevřenými informacemi namísto odpovědí s více možnostmi. Tyto modely také fungovaly hůře při výměně tam a zpět -; jako je tomu u většiny konverzací v reálném světě –; spíše než se zapojovat do souhrnných rozhovorů.
Doporučení pro optimalizaci výkonu AI v praxi
Na základě těchto zjištění nabízí tým řadu doporučení jak pro vývojáře umělé inteligence navrhující modely umělé inteligence, tak pro regulátory, kteří mají za úkol tyto nástroje vyhodnotit a schválit.
To zahrnuje:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Kromě toho by do hodnocení měli být zahrnuti jak agenti AI, tak lidští experti, doporučují výzkumníci, protože spoléhat se pouze na lidské experty je pracné a drahé. Například CRAFT-MD byl rychlejší než lidští hodnotitelé, zpracoval 10 000 rozhovorů za 48 až 72 hodin plus 15 až 16 hodin expertního posouzení. Naproti tomu přístupy založené na lidech by vyžadovaly rozsáhlý nábor a odhadem 500 hodin pro simulace pacientů (téměř 3 minuty na rozhovor) a přibližně 650 hodin na expertní hodnocení (téměř 4 minuty na rozhovor). Použití hodnotitelů AI jako první volby má další výhodu v tom, že eliminuje riziko vystavení skutečných pacientů neověřeným nástrojům AI.
Výzkumníci očekávají, že samotný CRAFT-MD bude také pravidelně aktualizován a optimalizován tak, aby zahrnoval vylepšené modely umělé inteligence pacientů.
„Jako lékař a vědec mě zajímají modely umělé inteligence, které mohou účinně a eticky zlepšit klinickou praxi,“ řekla spoluautorka studie Roxana Daneshjou, odborná asistentka biomedicínských datových věd a dermatologie na Stanfordské univerzitě. "CRAFT-MD vytváří rámec, který lépe odráží interakce v reálném světě, což pomáhá posunout pole, pokud jde o testování výkonu modelů umělé inteligence ve zdravotnictví."
Zdroje:
Johri, S.,a kol. (2025) Hodnotící rámec pro klinické použití velkých jazykových modelů v úlohách interakce s pacienty. Přírodní medicína. doi.org/10.1038/s41591-024-03328-5.