Systém AI odpovídá diagnostické přesnosti a zároveň snižuje náklady na lékařskou péči
V nové studii diagnostický systém společnosti Microsoft s umělou inteligencí překonal zkušené lékaře v rychlejším, levnějším a přesnějším řešení nejnáročnějších lékařských případů. Studie: Sekvenční diagnostika pomocí jazykových modelů. Obrazový kredit: MetamorWorks/Shutterstock.com *Důležité zveřejnění: Arxiv publikuje předběžné vědecké zprávy, které nejsou recenzovány, a proto nejsou považovány za průkazné, řídí klinickou praxi/chování související se zdravím nebo se s nimi zachází jako s ověřenými informacemi. Nedávná studie na serverech Arxiv Preprint Server porovnala diagnostickou přesnost a výdaje na zdroje systémů umělé inteligence s těmi, které mají lékaři u složitých případů. Tým Microsoft AI demonstroval efektivní využití umělé inteligence (AI) v...
Systém AI odpovídá diagnostické přesnosti a zároveň snižuje náklady na lékařskou péči
V nové studii diagnostický systém společnosti Microsoft s umělou inteligencí překonal zkušené lékaře v rychlejším, levnějším a přesnějším řešení nejnáročnějších lékařských případů.
Studie: Sekvenční diagnostika pomocí jazykových modelů. Obrazový kredit: MetamorWorks/Shutterstock.com
*Důležité upozornění: ArxivPublikujte předběžné vědecké zprávy, které nejsou recenzovány, a proto nejsou považovány za průkazné, určete klinickou praxi/chování související se zdravím nebo se s nimi zachází jako s ověřenými informacemi.
Nedávná studie oArxivPreprint Server porovnával přesnost diagnostiky a výdaje na zdroje systémů umělé inteligence s těmi, které mají lékaři u složitých případů. Tým Microsoft AI demonstroval efektivní využití umělé inteligence (AI) v medicíně k řešení diagnostických problémů, které lékaři potřebují rozluštit.
Sekvenční diagnostika a jazykové modely
Lékaři často diagnostikují nemoc u pacientů prostřednictvím klinického uvažovacího procesu, který zahrnuje krok za krokem, opakované dotazování a testování. I s omezenými počátečními informacemi lékaři zúží možnou diagnózu dotazováním pacienta a potvrzením biochemickým testováním, zobrazováním, biopsií a dalšími diagnostickými postupy.
Řešení složitého případu vyžaduje komplexní soubor dovedností, včetně identifikace nejkritičtějších otázek nebo testů, které je třeba následovat, věnování pozornosti nákladům na testování, aby se zabránilo narůstající zátěži pacienta, a rozpoznání důkazů pro stanovení spolehlivé diagnózy.
Několik studií prokázalo zlepšenou efektivitu jazykových modelů (LMS) při provádění lékařských licenčních zkoušek a vysoce strukturovaných diagnostických vinět. Výkon většiny LM však byl hodnocen za umělých podmínek, které se drasticky liší od skutečného klinického prostředí.
Většina modelů LMS pro diagnostická hodnocení je založena na kvízu s více možnostmi a diagnóza se provádí z předem definované sady odpovědí. Snížený sekvenční diagnostický cyklus zvyšuje riziko nadhodnocení modelové kompetence statických benchmarků. Kromě toho tyto diagnostické modely představují riziko nevybíravého objednávání testů a předčasného uzavření diagnostiky. Proto existuje naléhavá potřeba systému umělé inteligence založeného na sekvenčním diagnostickém cyklu pro zlepšení diagnostické přesnosti a snížení nákladů na testování.
O studiu
K překonání výše uvedených nevýhod LMS modelů pro klinickou diagnostiku vyvinuli vědci Sequential Diagnostic Benchmark (SDBench) jako interaktivní rámec pro hodnocení diagnostických činidel (lidských nebo AI) prostřednictvím realistických sekvenčních klinických setkání.
K posouzení diagnostické přesnosti použila současná studie týdenní případy publikované v New England Journal of Medicine (NEJM), předním světovém lékařském časopise. Tento časopis obvykle publikuje poznámky k případům pacientů z Massachusetts General Hospital v podrobném, narativním formátu. Tyto případy patří mezi diagnosticky nejnáročnější a intelektuálně nejnáročnější v klinické medicíně a často vyžadují více specialistů a diagnostické testy k potvrzení diagnózy.
Sdbench o 304 případů z klinickopatologické konference NEJM (2017-2025) do postupných diagnostických setkání. Lékařské údaje zahrnovaly klinické projevy v definitivních diagnózách od běžných onemocnění (např. zápal plic) po vzácné poruchy (např. novorozenecká hypoglykémie). Pomocí interaktivní platformy se diagnostické agenty rozhodují, jaké otázky položit, jaké testy si objednat a kdy potvrdit diagnózu.
Information Gatekeeper je jazykový model, který odhaluje klinické detaily z komplexního případu pouze tehdy, když je na něj explicitně dotazován z obsáhlého případu. Může také poskytnout další informace shodné s velikostí písmen pro testování, které nejsou popsány v původním popisu CPC. Poté, co byla provedena konečná diagnóza na základě informací obdržených od vrátného, byla přesnost klinického hodnocení testována proti skutečné diagnóze. Kromě toho byly odhadnuty kumulativní náklady na všechny požadované diagnostické testy provedené v reálné diagnostice. Posouzením diagnostické přesnosti a diagnostických nákladů Sdbench ukazuje, jak blízko jsme k poskytování vysoce kvalitní péče za udržitelnou cenu.
Výsledky studie
Současná studie analyzovala účinnost všech diagnostických látek na SDBEN. Agenti AI byli hodnoceni ve všech 304 případech NEJM, zatímco lékaři byli hodnoceni ve zbývající podskupině 56 testovacích sad. Tato studie zjistila, že agenti umělé inteligence fungovali lépe než lékaři v této podskupině.
Lékaři praktikující v USA a Velké Británii s mediánem 12 let klinických zkušeností dosáhli 20% diagnostické přesnosti při průměrné ceně 2 963 USD na případ na SDBench, což podtrhuje inherentní obtížnost benchmarku. Lékaři strávili v průměru 11,8 minuty na jeden případ a požadovali 6,6 otázek a 7,2 testů. GPT -4o předčila lékaře jak v diagnostické přesnosti, tak v ceně. Komerčně dostupné standardní modely nabízejí různou diagnostickou přesnost a cenu.
Současná studie také představila MAI Diagnostic Orchestrator (MAI-DXO), platformu spolupracující s lékaři, která prokázala vyšší diagnostickou efektivitu než lidští lékaři a komerční jazykové modely. Ve srovnání s komerčními LM prokázal Mai-DXO vyšší diagnostickou přesnost a významné snížení nákladů na léčbu o více než polovinu. Například standardní model O3 dosáhl 78,6% diagnostické přesnosti za 7 850 USD, zatímco May-DXO dosáhl přesnosti 79,9 % za pouhých 2 397 USD nebo 85,5 % za 7 184 USD.
MAI-DXO toho dosáhla simulací virtuálního panelu „agentů lékařů“ s různými rolemi při generování hypotéz, výběru testů, informovanosti o nákladech a kontrole chyb. Na rozdíl od základní AI prompt tato strukturovaná orchestrace umožnila systému být iterativní a efektivní.
Mai-Dxo je modelově agnostický přístup, který prokázal zvýšení přesnosti v různých jazykových modelech, nejen v modelu O3 Foundation.
Závěry a vyhlídky do budoucna
Výsledky současné studie ukazují vyšší diagnostickou přesnost a nákladovou efektivitu systémů AI, pokud zpracovávají iterativně a pečlivě. Sdbench a Mai-Dxo poskytly empiricky podložený základ pro pokrok v diagnostice podporované umělou inteligencí za realistických omezení.
V budoucnu musí být Mai-DXO ověřena v klinických podmínkách, kde se prevalence a prezentace onemocnění vyskytují tak často, jako na denní bázi, spíše než jako vzácné příležitosti. Kromě toho jsou vyžadovány rozsáhlé interaktivní lékařské benchmarky s více než 304 případy. Začlenění vizuálních a jiných senzorických modalit, jako je zobrazování, by také mohlo zlepšit diagnostickou přesnost, aniž by došlo ke snížení nákladové efektivity.
Autoři však upozorňují na významná omezení. Případy NEJM -CPC jsou vybírány pro svou obtížnost a neodrážejí každodenní klinické projevy. Studie nezahrnovala zdravé pacienty ani neměřila míru falešně pozitivních výsledků. Odhady nákladů na diagnostiku jsou navíc založeny na cenách v USA a mohou se celosvětově lišit.
Modely byly také testovány na uchovaném testovacím souboru nedávných případů (2024–2025), aby se posoudilo zobecnění a zabránilo se nadměrnému přizpůsobení, protože mnoho z těchto případů bylo pro většinu modelů uvolněno po ukončení školení.
Dokument také vyvolává širší otázku: Měli bychom systémy umělé inteligence přirovnávat k jednotlivým lékařům nebo úplným lékařským týmům? Vzhledem k tomu, že Mai-Dxo napodobuje multi-specializovanou spolupráci, může srovnání odrážet poněkud blíže k týmové péči než individuální praxi.
Výzkum však naznačuje, že strukturované systémy umělé inteligence, jako je Mai-DXO, mohou jednoho dne podpořit nebo rozšířit lékaře, zejména v prostředích, kde je přístup ke specialistům omezený nebo drahý.
Stáhněte si svou kopii PDF nyní!
*Důležité upozornění: ArxivPublikujte předběžné vědecké zprávy, které nejsou recenzovány, a proto nejsou považovány za průkazné, určete klinickou praxi/chování související se zdravím nebo se s nimi zachází jako s ověřenými informacemi.
Zdroje:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405