Systém AI sa zhoduje s diagnostickou presnosťou a zároveň znižuje náklady na zdravotnú starostlivosť

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

V novej štúdii diagnostický systém Microsoftu poháňaný AI prekonal skúsených lekárov pri riešení najnáročnejších medicínskych prípadov rýchlejšie, lacnejšie a presnejšie. Štúdia: Sekvenčná diagnostika s jazykovými modelmi. Obrazový kredit: MetamorWorks/Shutterstock.com *Dôležité zverejnenie: Arxiv publikuje predbežné vedecké správy, ktoré nie sú recenzované odborníkmi, a preto sa nepovažujú za presvedčivé, usmerňujú klinickú prax/správanie súvisiace so zdravím alebo sa s nimi zaobchádza ako s overenými informáciami. Nedávna štúdia na serveroch Arxiv Preprint Server porovnávala diagnostickú presnosť a výdavky na zdroje systémov AI s tými, ktoré majú lekári na zložitých prípadoch. Tím Microsoft AI demonštroval efektívne využitie umelej inteligencie (AI) v...

Systém AI sa zhoduje s diagnostickou presnosťou a zároveň znižuje náklady na zdravotnú starostlivosť

V novej štúdii diagnostický systém Microsoftu poháňaný AI prekonal skúsených lekárov pri riešení najnáročnejších medicínskych prípadov rýchlejšie, lacnejšie a presnejšie.

Štúdia: Sekvenčná diagnostika s jazykovými modelmi. Obrazový kredit: MetamorWorks/Shutterstock.com

*Dôležité upozornenie: ArxivZverejňujte predbežné vedecké správy, ktoré nie sú recenzované odborníkmi, a preto sa nepovažujú za presvedčivé, usmerňujú klinickú prax/správanie súvisiace so zdravím alebo sa s nimi zaobchádza ako s overenými informáciami.

Nedávna štúdia oArxivPreprint Server porovnával presnosť diagnostiky a výdavky na zdroje systémov AI s tými, ktoré majú lekári na zložitých prípadoch. Tím Microsoft AI demonštroval efektívne využitie umelej inteligencie (AI) v medicíne na riešenie diagnostických problémov, ktoré lekári potrebujú rozlúštiť.

Sekvenčná diagnostika a jazykové modely

Lekári často diagnostikujú chorobu u pacientov prostredníctvom procesu klinického uvažovania, ktorý zahŕňa krok za krokom, opakované kladenie otázok a testovanie. Dokonca aj s obmedzenými počiatočnými informáciami lekári zúžia možnú diagnózu tým, že vypočujú pacienta a potvrdia ju biochemickým testovaním, zobrazovaním, biopsiou a inými diagnostickými postupmi.

Riešenie zložitého prípadu si vyžaduje komplexný súbor zručností, vrátane identifikácie najdôležitejších otázok alebo testov, ktoré treba nasledovať, venovanie pozornosti nákladom na testovanie, aby sa predišlo zvyšovaniu záťaže pacienta, a rozpoznávanie dôkazov na stanovenie spoľahlivej diagnózy.

Niekoľko štúdií preukázalo zlepšenú účinnosť jazykových modelov (LMS) pri vykonávaní lekárskych licenčných skúšok a vysoko štruktúrovaných diagnostických vinet. Výkon väčšiny LM bol však hodnotený v umelých podmienkach, ktoré sa drasticky líšia od skutočného klinického prostredia.

Väčšina modelov LMS pre diagnostické hodnotenia je založená na kvíze s možnosťou výberu z viacerých odpovedí a diagnóza sa robí z vopred definovaného súboru odpovedí. Znížený sekvenčný diagnostický cyklus zvyšuje riziko nadhodnotenia modelovej kompetencie statických benchmarkov. Okrem toho tieto diagnostické modely predstavujú riziko nerozlišujúceho objednávania testov a predčasného uzavretia diagnostiky. Preto existuje naliehavá potreba systému AI založeného na sekvenčnom diagnostickom cykle na zlepšenie presnosti diagnostiky a zníženie nákladov na testovanie.

O štúdiu

Na prekonanie vyššie uvedených nevýhod modelov LMS pre klinickú diagnostiku vyvinuli vedci sekvenčný diagnostický benchmark (SDBench) ako interaktívny rámec na hodnotenie diagnostických látok (ľudí alebo AI) prostredníctvom realistických sekvenčných klinických stretnutí.

Na posúdenie presnosti diagnostiky sa v súčasnej štúdii použili týždenné prípady publikované v časopise New England Journal of Medicine (NEJM), poprednom svetovom lekárskom časopise. Tento časopis zvyčajne publikuje poznámky o prípadoch pacientov z Massachusetts General Hospital v podrobnom, naratívnom formáte. Tieto prípady patria medzi diagnosticky najnáročnejšie a intelektuálne náročné v klinickej medicíne a často vyžadujú viacero špecialistov a diagnostické testy na potvrdenie diagnózy.

Sdbench o 304 prípadov z klinickopatologickej konferencie NEJM (2017-2025) do postupných diagnostických stretnutí. Lekárske údaje zahŕňali klinické prejavy v definitívnych diagnózach od bežných chorôb (napr. pneumónia) po zriedkavé poruchy (napr. neonatálna hypoglykémia). Pomocou interaktívnej platformy sa diagnostickí agenti rozhodujú, aké otázky položiť, aké testy si objednať a kedy potvrdiť diagnózu.

Information Gatekeeper je jazykový model, ktorý odhaľuje klinické detaily z komplexného súboru prípadu iba vtedy, keď sa naňho explicitne zadá dopyt z komplexného súboru prípadu. Môže tiež poskytnúť ďalšie informácie zhodné s prípadmi na testovanie, ktoré nie sú opísané v pôvodnom príbehu o cene za kliknutie. Po stanovení konečnej diagnózy na základe informácií získaných od vrátnika sa presnosť klinického hodnotenia testovala v porovnaní so skutočnou diagnózou. Okrem toho boli odhadnuté kumulatívne náklady na všetky požadované diagnostické testy vykonané v reálnej diagnostike. Posúdením presnosti diagnostiky a nákladov na diagnostiku Sdbench naznačuje, ako blízko sme k poskytovaniu vysokokvalitnej starostlivosti za udržateľné náklady.

Výsledky štúdie

Súčasná štúdia analyzovala výkonnosť všetkých diagnostických látok na SDBEN. Prostriedky AI boli hodnotené vo všetkých 304 prípadoch NEJM, zatiaľ čo lekári boli hodnotení v zachovanej podskupine 56 testovacích súborov. Táto štúdia zistila, že agenti AI fungovali lepšie ako lekári v tejto podskupine.

Lekári praktizujúci v USA a Spojenom kráľovstve s priemernou 12-ročnou klinickou praxou dosiahli 20 % diagnostickú presnosť pri priemernej cene 2 963 USD na prípad na SDBench, čím sa zdôraznila inherentná obtiažnosť referenčného bodu. Lekári strávili v priemere 11,8 minúty na jeden prípad a požadovali 6,6 otázok a 7,2 testov. GPT -4o prekonala lekárov v diagnostickej presnosti aj nákladoch. Komerčne dostupné bežne dostupné modely ponúkajú rôznu diagnostickú presnosť a cenu.

Súčasná štúdia tiež predstavila MAI Diagnostic Orchestrator (MAI-DXO), platformu spojenú s lekármi, ktorá preukázala vyššiu diagnostickú účinnosť ako ľudskí lekári a komerčné jazykové modely. V porovnaní s komerčnými LM preukázal Mai-DXO vyššiu diagnostickú presnosť a výrazné zníženie nákladov na zdravotnú starostlivosť o viac ako polovicu. Napríklad štandardný model O3 dosiahol 78,6 % diagnostickú presnosť za 7 850 USD, zatiaľ čo May-DXO dosiahol presnosť 79,9 % len za 2 397 USD alebo 85,5 % za 7 184 USD.

MAI-DXO to dosiahol simuláciou virtuálneho panelu „agentov lekárov“ s rôznymi úlohami pri vytváraní hypotéz, výbere testov, informovanosti o nákladoch a kontrole chýb. Na rozdiel od základnej výzvy AI táto štruktúrovaná orchestrácia umožnila systému byť iteračný a efektívny.

Mai-Dxo je modelovo agnostický prístup, ktorý preukázal zvýšenie presnosti v rôznych jazykových modeloch, nielen v modeli O3 Foundation.

Závery a vyhliadky do budúcnosti

Výsledky súčasnej štúdie ukazujú vyššiu diagnostickú presnosť a nákladovú efektívnosť systémov AI, keď sa spracovávajú iteratívne a opatrne. Sdbench a Mai-Dxo poskytli empiricky založený základ pre pokrok v diagnostike s pomocou AI pri realistických obmedzeniach.

V budúcnosti je potrebné Mai-DXO overiť v klinickom prostredí, kde sa prevalencia a prezentácia ochorenia vyskytuje tak často, ako na dennej báze, a nie zriedkavo. Okrem toho sú potrebné rozsiahle interaktívne medicínske štandardy s viac ako 304 prípadmi. Začlenenie vizuálnych a iných senzorických modalít, ako je zobrazovanie, by tiež mohlo zlepšiť diagnostickú presnosť bez zníženia nákladovej efektívnosti.

Autori však upozorňujú na dôležité obmedzenia. Prípady NEJM -CPC sú vybrané pre ich obtiažnosť a neodrážajú každodenné klinické prejavy. Štúdia nezahŕňala zdravých pacientov ani nemerala falošne pozitívne hodnoty. Odhady nákladov na diagnostiku sú navyše založené na cenách v USA a môžu sa na celom svete líšiť.

Modely boli tiež testované na zachovanom testovacom súbore nedávnych prípadov (2024 – 2025), aby sa posúdilo zovšeobecnenie a zabránilo sa nadmernému prispôsobeniu, pretože mnohé z týchto prípadov boli pre väčšinu modelov uvoľnené po prerušení tréningu.

Dokument tiež nastoľuje širšiu otázku: Mali by sme porovnávať systémy AI s jednotlivými lekármi alebo úplnými lekárskymi tímami? Pretože Mai-Dxo napodobňuje spoluprácu viacerých špecialistov, porovnanie môže odrážať o niečo bližšie k tímovej starostlivosti ako k individuálnej praxi.

Výskum však naznačuje, že štruktúrované systémy AI ako Mai-DXO môžu jedného dňa podporiť alebo rozšíriť lekárov, najmä v prostrediach, kde je prístup k špecialistom obmedzený alebo drahý.

Stiahnite si svoju kópiu PDF teraz!

*Dôležité upozornenie: ArxivZverejňujte predbežné vedecké správy, ktoré nie sú recenzované odborníkmi, a preto sa nepovažujú za presvedčivé, usmerňujú klinickú prax/správanie súvisiace so zdravím alebo sa s nimi zaobchádza ako s overenými informáciami.


Zdroje:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405