AI-süsteem ühtib diagnostilise täpsusega, vähendades samal ajal meditsiinikulusid
Uues uuringus edestas Microsofti tehisintellektil töötav diagnostikasüsteem kogenud arste kõige keerulisemate meditsiiniliste juhtumite lahendamisel kiiremini, odavamalt ja täpsemalt. Uuring: järjestikune diagnostika keelemudelitega. Pildi krediit: MetamorWorks/Shutterstock.com *Oluline avalikustamine: Arxiv avaldab esialgseid teaduslikke aruandeid, mida ei ole eelretsenseeritud ja mida seetõttu ei peeta lõplikuks, need juhivad kliinilist praktikat/tervisega seotud käitumist või käsitletakse väljakujunenud teabena. Hiljutises Arxiv Preprint Serverite uuringus võrreldi tehisintellektisüsteemide diagnostilist täpsust ja ressursikulu keeruliste juhtumite arstide omadega. Microsofti AI meeskond demonstreeris tehisintellekti (AI) tõhusat kasutamist...
AI-süsteem ühtib diagnostilise täpsusega, vähendades samal ajal meditsiinikulusid
Uues uuringus edestas Microsofti tehisintellektil töötav diagnostikasüsteem kogenud arste kõige keerulisemate meditsiiniliste juhtumite lahendamisel kiiremini, odavamalt ja täpsemalt.
Uuring: järjestikune diagnostika keelemudelitega. Pildi krediit: MetamorWorks/Shutterstock.com
*Oluline teade: ArxivAvaldage esialgseid teaduslikke aruandeid, mida ei ole eelretsenseeritud ja mida seetõttu ei peeta lõplikuks, juhinduge kliinilisest praktikast/tervisega seotud käitumisest või mida käsitletakse väljakujunenud teabena.
Hiljutine uuring selle kohtaArxivPreprint Server võrdles AI-süsteemide diagnostilist täpsust ja ressursikulu keeruliste juhtumite arstide omadega. Microsofti tehisintellekti meeskond demonstreeris tehisintellekti (AI) tõhusat kasutamist meditsiinis, et lahendada diagnostilisi väljakutseid, mida arstid peavad dešifreerima.
Järjestikune diagnostika ja keelemudelid
Arstid diagnoosivad sageli patsientidel haigusi kliinilise arutlusprotsessi kaudu, mis hõlmab järkjärgulist, iteratiivset küsitlemist ja testimist. Isegi piiratud esialgse teabe korral kitsendavad arstid võimalikku diagnoosi, küsitledes patsienti ja kinnitades seda biokeemilise testimise, pildistamise, biopsia ja muude diagnostiliste protseduuride abil.
Keerulise juhtumi lahendamine nõuab laiaulatuslikku oskuste kogumit, sealhulgas kõige kriitilisemate küsimuste või testide väljaselgitamist, tähelepanu pööramist testimiskuludele, et vältida patsiendi koormuse suurenemist, ja tõendite tuvastamist kindla diagnoosi tegemiseks.
Mitmed uuringud on näidanud keelemudelite (LMS) tõhusust meditsiinilise litsentsi eksamite ja kõrgelt struktureeritud diagnostiliste vinjettide läbiviimisel. Enamiku LM-de jõudlust on aga hinnatud tehistingimustes, mis erinevad oluliselt reaalsest kliinilisest keskkonnast.
Enamik diagnostiliste hinnangute LMS-i mudeleid põhinevad valikvastustega viktoriinil ja diagnoos tehakse eelnevalt määratletud vastuste komplekti põhjal. Vähendatud järjestikune diagnostikatsükkel suurendab staatiliste võrdlusaluste mudelipädevuse ülehindamise ohtu. Lisaks kujutavad need diagnostilised mudelid ohtu testide valimatu tellimise ja enneaegse diagnostilise sulgemise. Seetõttu on hädasti vaja järjestikusel diagnostikatsüklil põhinevat tehisintellektisüsteemi, et parandada diagnostika täpsust ja vähendada testimiskulusid.
Uuringu kohta
Kliinilise diagnoosimise LMS-i mudelite ülalnimetatud puuduste ületamiseks on teadlased välja töötanud järjestikuse diagnostika võrdlusaluse (SDBench) kui interaktiivse raamistiku diagnostiliste ainete (inimese või AI) hindamiseks realistlike järjestikuste kliiniliste kohtumiste kaudu.
Diagnostilise täpsuse hindamiseks kasutati käesolevas uuringus iganädalasi juhtumeid, mis avaldati maailma juhtivas meditsiiniajakirjas New England Journal of Medicine (NEJM). See ajakiri avaldab tavaliselt Massachusettsi üldhaigla patsientide juhtumite märkmeid üksikasjalikus ja narratiivses vormingus. Need juhtumid on kliinilises meditsiinis ühed diagnostiliselt keerulisemad ja intellektuaalselt nõudlikumad ning sageli nõuavad diagnoosi kinnitamiseks mitut spetsialisti ja diagnostilisi teste.
NEJM Clinicopathologic Conference (2017–2025) 304 juhtumi võrra astmelisteks diagnostilisteks kohtumisteks. Meditsiinilised andmed hõlmasid lõplike diagnooside kliinilisi esitlusi, mis ulatusid tavalistest haigustest (nt kopsupõletik) kuni haruldaste häireteni (nt vastsündinu hüpoglükeemia). Interaktiivset platvormi kasutades otsustavad diagnostikaagendid, milliseid küsimusi esitada, milliseid teste tellida ja millal diagnoosi kinnitada.
Information Gatekeeper on keelemudel, mis paljastab kliinilised üksikasjad terviklikust juhtumitoimikust ainult siis, kui seda tehakse selgesõnaliselt põhjalikust juhtumitoimikust. Samuti võib see anda täiendavat juhtumipõhist teavet testimise jaoks, mida pole kirjeldatud algses CPC narratiivis. Pärast lõpliku diagnoosi panemist väravavahilt saadud teabe põhjal kontrolliti kliinilise hinnangu täpsust tegeliku diagnoosi suhtes. Lisaks hinnati kõigi tegeliku diagnoosimise käigus tehtud nõutud diagnostiliste testide kumulatiivset maksumust. Diagnostika täpsust ja diagnostikakulusid hinnates näitab Sdbench, kui lähedal oleme jätkusuutliku kuluga kvaliteetse hoolduse pakkumisele.
Uuringu tulemused
Käesolevas uuringus analüüsiti kõigi SDBEN-i diagnostiliste ainete toimivust. Tehisintellekti agente hinnati kõigil 304 NEJM-i juhtumil, samas kui arste hinnati 56 testikomplektist koosneva alamhulgaga. Selles uuringus leiti, et tehisintellekti agendid toimisid selles alarühmas paremini kui arstid.
USA-s ja Ühendkuningriigis praktiseerivad arstid, kellel on keskmiselt 12 aastat kliinilist kogemust, saavutasid 20% diagnostilise täpsuse keskmise kuluga 2963 $ juhtumi kohta SDBenchis, mis toob esile võrdlusaluse loomupärase raskuse. Arstid kulutasid juhtumi kohta keskmiselt 11,8 minutit ning nõudsid 6,6 küsimust ja 7,2 testi. GPT -4o edestas arste nii diagnostilise täpsuse kui ka maksumuse poolest. Müügil olevad valmismudelid on pakkunud erinevat diagnostilist täpsust ja hinda.
Käesolevas uuringus tutvustati ka MAI Diagnostic Orchestratorit (MAI-DXO), platvormi, mis on koostöös arstidega ja mis näitas kõrgemat diagnostilist tõhusust kui inimarstid ja kaubanduslikud keelemudelid. Võrreldes kaubanduslike LM-idega näitas Mai-DXO suuremat diagnostilist täpsust ja meditsiinikulude olulist vähenemist enam kui poole võrra. Näiteks valmis O3 mudel saavutas 78,6% diagnostilise täpsuse 7850 $ juures, samas kui May-DXO saavutas 79,9% täpsuse vaid 2397 $ või 85,5% 7184 $ juures.
MAI-DXO saavutas selle, simuleerides virtuaalset "arstiagentide" paneeli, millel on erinevad rollid hüpoteesi loomisel, testi valimisel, kuluteadlikkusel ja vigade kontrollimisel. Erinevalt algsest AI-viipast võimaldas see struktureeritud orkestratsioon süsteemil olla iteratiivne ja tõhus.
Mai-Dxo on mudeliagnostiline lähenemisviis, mis on näidanud täpsuse suurenemist erinevates keelemudelites, mitte ainult O3 Foundationi mudelis.
Järeldused ja tulevikuväljavaated
Käesoleva uuringu tulemused näitavad AI-süsteemide suuremat diagnostilist täpsust ja kulutõhusust, kui neid töödeldakse iteratiivselt ja hoolikalt. Sdbench ja Mai-Dxo andsid empiirilise aluse AI-abiga diagnostika edendamiseks realistlike piirangute juures.
Tulevikus tuleb Mai-DXO valideerida kliinilistes tingimustes, kus haiguse levimus ja esinemine esinevad nii sageli kui igapäevaselt, mitte harva. Lisaks on vaja suuremahulisi interaktiivseid meditsiinilisi võrdlusaluseid enam kui 304 juhtumiga. Visuaalsete ja muude sensoorsete meetodite, nagu pildistamine, kaasamine võib samuti parandada diagnostilist täpsust, ilma et see kahjustaks kulutõhusust.
Siiski märgivad autorid olulisi piiranguid. NEJM-CPC juhtumid on valitud nende raskusastme järgi ja ei kajasta igapäevaseid kliinilisi esitusi. Uuring ei hõlmanud terveid patsiente ega mõõtnud valepositiivsete tulemuste määra. Lisaks põhinevad diagnostiliste kulude hinnangud USA hindadel ja võivad kogu maailmas erineda.
Mudeleid testiti ka hiljutiste juhtumite (2024–2025) säilitatud testikomplektiga, et hinnata üldistust ja vältida ülepaigutamist, kuna paljud neist juhtudest vabastati enamiku mudelite jaoks pärast koolituse lõppu.
Paber tõstatab ka laiema küsimuse: kas peaksime AI-süsteeme võrdlema üksikute arstide või täielike meditsiinimeeskondadega? Kuna Mai-Dxo jäljendab mitme spetsialisti koostööd, võib võrdlus peegeldada mõnevõrra lähemalt meeskonnapõhisele hooldusele kui individuaalsele praktikale.
Siiski näitavad uuringud, et struktureeritud AI-süsteemid, nagu Mai-DXO, võivad ühel päeval arste toetada või täiendada, eriti tingimustes, kus juurdepääs spetsialistidele on piiratud või kulukas.
Laadige kohe alla oma PDF-koopia!
*Oluline teade: ArxivAvaldage esialgseid teaduslikke aruandeid, mida ei ole eelretsenseeritud ja mida seetõttu ei peeta lõplikuks, juhinduge kliinilisest praktikast/tervisega seotud käitumisest või mida käsitletakse väljakujunenud teabena.
Allikad:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405