AI sistema atitinka diagnostikos tikslumą ir sumažina medicinines išlaidas
Naujame tyrime Microsoft dirbtinio intelekto varoma diagnostikos sistema pranoko patyrusius gydytojus greičiau, pigiau ir tiksliau išspręsdama sudėtingiausius medicininius atvejus. Tyrimas: nuosekli diagnostika naudojant kalbos modelius. Vaizdo kreditas: MetamorWorks/Shutterstock.com *Svarbus atskleidimas: Arxiv skelbia preliminarias mokslines ataskaitas, kurios nėra recenzuojamos ir todėl nėra laikomos įtikinamais, vadovaujasi klinikine praktika/sveikata elgesiu arba laikomos nustatyta informacija. Neseniai atliktas Arxiv Preprint serverių tyrimas palygino AI sistemų diagnostinį tikslumą ir išteklių sąnaudas su gydytojų sudėtingais atvejais. Microsoft AI komanda pademonstravo efektyvų dirbtinio intelekto (AI) panaudojimą...
AI sistema atitinka diagnostikos tikslumą ir sumažina medicinines išlaidas
Naujame tyrime Microsoft dirbtinio intelekto varoma diagnostikos sistema pranoko patyrusius gydytojus greičiau, pigiau ir tiksliau išspręsdama sudėtingiausius medicininius atvejus.
Tyrimas: nuosekli diagnostika naudojant kalbos modelius. Vaizdo kreditas: MetamorWorks/Shutterstock.com
*Svarbus pranešimas: ArxivSkelbti preliminarias mokslines ataskaitas, kurios nėra recenzuojamos ir todėl nėra įtikinamos, vadovaujasi klinikine praktika/sveikata elgesiu arba laikomos nustatyta informacija.
Neseniai atliktas tyrimas apieArxiv„Preprint Server“ palygino AI sistemų diagnostinį tikslumą ir išteklių sąnaudas su klinikų sudėtingais atvejais. „Microsoft“ AI komanda pademonstravo, kaip efektyviai naudojamas dirbtinis intelektas (AI) medicinoje, siekiant išspręsti diagnostinius iššūkius, kuriuos gydytojai turi iššifruoti.
Nuoseklioji diagnostika ir kalbos modeliai
Gydytojai dažnai diagnozuoja pacientams ligą atlikdami klinikinį samprotavimo procesą, kuris apima laipsnišką, kartotinį apklausą ir testavimą. Net ir turėdami ribotą pradinę informaciją, gydytojai susiaurina galimą diagnozę apklausdami pacientą ir patvirtindami ją biocheminiais tyrimais, vaizdavimu, biopsija ir kitomis diagnostinėmis procedūromis.
Norint išspręsti sudėtingą atvejį, reikalingas išsamus įgūdžių rinkinys, įskaitant svarbiausių klausimų ar testų, kurių reikia laikytis, nustatymą, dėmesį skiriant tyrimų išlaidoms, kad būtų išvengta didėjančios paciento naštos, ir įrodymų, leidžiančių nustatyti patikimą diagnozę, atpažinimą.
Keletas tyrimų parodė, kad kalbos modeliai (LMS) pagerėjo atliekant medicininių licencijavimo egzaminų ir labai struktūrizuotų diagnostinių vinječių efektyvumą. Tačiau daugumos LM veikimas buvo įvertintas dirbtinėmis sąlygomis, kurios smarkiai skiriasi nuo realios klinikinės aplinkos.
Dauguma diagnostinių vertinimų LMS modelių yra pagrįsti testu su daugybe atsakymų, o diagnozė nustatoma pagal iš anksto nustatytą atsakymų rinkinį. Sumažėjęs nuoseklus diagnostikos ciklas padidina riziką pervertinti statinių etalonų modelio kompetenciją. Be to, šie diagnostikos modeliai kelia pavojų, kad testai bus paskirti be atrankos ir priešlaikinis diagnostikos uždarymas. Todėl skubiai reikia dirbtinio intelekto sistemos, pagrįstos nuosekliu diagnostikos ciklu, siekiant pagerinti diagnostikos tikslumą ir sumažinti testavimo išlaidas.
Apie studiją
Siekdami įveikti pirmiau minėtus klinikinės diagnostikos LMS modelių trūkumus, mokslininkai sukūrė nuosekliosios diagnostikos etaloną (SDBench) kaip interaktyvią diagnostinių agentų (žmogaus ar AI) vertinimo sistemą, atliekant realius nuoseklius klinikinius susitikimus.
Siekiant įvertinti diagnostikos tikslumą, dabartiniame tyrime buvo naudojami savaitiniai atvejai, paskelbti „New England Journal of Medicine“ (NEJM), pirmaujančiame pasaulyje medicinos žurnale. Šis žurnalas paprastai skelbia Masačusetso bendrosios ligoninės pacientų atvejus išsamiu pasakojimo formatu. Šie atvejai yra vieni sunkiausių diagnostikos ir intelekto reikalaujančių klinikinėje medicinoje, todėl diagnozei patvirtinti dažnai reikia kelių specialistų ir diagnostinių tyrimų.
Iš NEJM klinikopatologinės konferencijos (2017–2025 m.) 304 atvejai įtraukiami į laipsniškus diagnostikos susitikimus. Medicininiai duomenys apėmė galutinių diagnozių klinikinius parodymus, pradedant nuo įprastų ligų (pvz., pneumonijos) iki retų sutrikimų (pvz., naujagimių hipoglikemija). Naudodamiesi interaktyvia platforma, diagnostikos agentai nusprendžia, kokius klausimus užduoti, kokius tyrimus užsisakyti ir kada patvirtinti diagnozę.
„Information Gatekeeper“ yra kalbos modelis, atskleidžiantis klinikinę išsamios bylos medžiagos informaciją tik tada, kai yra aiškiai užklausta išsamioje bylos byloje. Tai taip pat gali suteikti papildomos, nuoseklios informacijos, skirtos bandymams, neaprašytas pirminiame CPC apraše. Nustačius galutinę diagnozę remiantis iš vartų sargo gauta informacija, buvo patikrintas klinikinio įvertinimo tikslumas, palyginti su faktine diagnoze. Be to, buvo apskaičiuota suminė visų prašomų diagnostinių tyrimų, atliktų atliekant tikrąją diagnozę, kaina. Įvertinęs diagnostikos tikslumą ir diagnostikos išlaidas, „Sdbench“ parodo, kaip arti esame aukštos kokybės priežiūros teikimo už tvarią kainą.
Studijų rezultatai
Šiame tyrime buvo analizuojamas visų diagnostinių agentų veikimas SDBEN. AI agentai buvo įvertinti visais 304 NEJM atvejais, o gydytojai buvo įvertinti 56 testų rinkinių pogrupyje. Šis tyrimas parodė, kad AI agentai šiame pogrupyje dirbo geriau nei gydytojai.
Gydytojai, praktikuojantys JAV ir JK, turintys 12 metų klinikinės patirties mediana, pasiekė 20 % diagnostinį tikslumą, o vidutiniškai 2 963 USD vienam atvejui „SDBench“ kainavo, o tai pabrėžia būdingą etalono sudėtingumą. Gydytojai vidutiniškai skyrė 11,8 minutės vienam atvejui ir paprašė 6,6 klausimo bei 7,2 testo. GPT -4o aplenkė gydytojus tiek diagnostikos tikslumu, tiek kaina. Parduodami jau parduodami modeliai siūlo skirtingą diagnostikos tikslumą ir kainą.
Dabartinis tyrimas taip pat pristatė MAI Diagnostic Orchestrator (MAI-DXO), platformą, bendradarbiaujančią su gydytojais, kuri parodė didesnį diagnostikos efektyvumą nei žmonių gydytojai ir komerciniai kalbos modeliai. Palyginti su komerciniais LM, Mai-DXO parodė didesnį diagnostinį tikslumą ir žymiai daugiau nei per pusę sumažino medicinines išlaidas. Pavyzdžiui, išparduotas O3 modelis pasiekė 78,6 % diagnostinį tikslumą už 7 850 USD, o May-DXO – 79, 9 % – tik 2 397 USD arba 85,5 % – 7 184 USD.
MAI-DXO tai pasiekė imituodama virtualią „gydytojų agentų“ grupę, kuri atlieka skirtingus vaidmenis kuriant hipotezes, atrenkant testus, informuojant apie išlaidas ir tikrinant klaidas. Skirtingai nuo pagrindinės AI raginimo, ši struktūrizuota orkestruotė leido sistemai veikti kartotiškai ir efektyviai.
„Mai-Dxo“ yra modelių agnostinis metodas, parodantis, kad įvairių kalbų modelių, o ne tik O3 Foundation modelio, tikslumas padidėjo.
Išvados ir ateities perspektyvos
Dabartinio tyrimo rezultatai rodo didesnį AI sistemų diagnostinį tikslumą ir ekonomiškumą, kai jos apdorojamos iteratyviai ir atsargiai. „Sdbench“ ir „Mai-Dxo“ suteikė empiriškai pagrįstą pagrindą dirbtinio intelekto padedamos diagnostikos tobulėjimui esant realistiniams apribojimams.
Ateityje Mai-DXO turės būti patvirtintas klinikinėje aplinkoje, kur ligos paplitimas ir pasireiškimas pasireiškia taip dažnai, kaip kasdien, o ne retai. Be to, reikalingi didelio masto interaktyvūs medicinos etalonai su daugiau nei 304 atvejais. Įtraukus vizualinius ir kitus jutimo būdus, tokius kaip vaizdavimas, taip pat būtų galima pagerinti diagnostikos tikslumą nepakenkiant ekonominiam efektyvumui.
Tačiau autoriai atkreipia dėmesį į svarbius apribojimus. NEJM -CPC atvejai atrenkami dėl jų sudėtingumo ir neatspindi kasdienių klinikinių vaizdų. Tyrime nebuvo įtraukti sveiki pacientai ir nebuvo nustatyti klaidingai teigiami rodikliai. Be to, diagnostikos sąnaudos yra pagrįstos JAV kainomis ir gali skirtis visame pasaulyje.
Modeliai taip pat buvo išbandyti naudojant išlikusį naujausių atvejų (2024–2025 m.) testų rinkinį, siekiant įvertinti apibendrinimą ir išvengti per didelio pritaikymo, nes daugelis šių atvejų buvo išleisti pasibaigus daugumos modelių mokymui.
Straipsnyje taip pat keliamas platesnis klausimas: ar turėtume lyginti AI sistemas su atskirais gydytojais ar visomis medikų komandomis? Kadangi „Mai-Dxo“ imituoja kelių specialistų bendradarbiavimą, palyginimas gali šiek tiek labiau atspindėti komandinę priežiūrą nei individualią praktiką.
Tačiau tyrimai rodo, kad struktūrinės AI sistemos, tokios kaip Mai-DXO, vieną dieną gali paremti ar papildyti gydytojus, ypač ten, kur prieiga prie specialistų yra ribota arba brangi.
Atsisiųskite savo PDF kopiją dabar!
*Svarbus pranešimas: ArxivSkelbti preliminarias mokslines ataskaitas, kurios nėra recenzuojamos ir todėl nėra įtikinamos, vadovaujasi klinikine praktika/sveikata elgesiu arba laikomos nustatyta informacija.
Šaltiniai:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405