Az AI rendszer megfelel a diagnosztikai pontosságnak, miközben csökkenti az orvosi költségeket
Egy új tanulmány szerint a Microsoft mesterséges intelligenciával működő diagnosztikai rendszere felülmúlta a tapasztalt orvosokat a legnagyobb kihívást jelentő egészségügyi esetek gyorsabb, olcsóbb és pontosabb megoldásában. Tanulmány: Szekvenciális diagnosztika nyelvi modellekkel. A kép jóváírása: MetamorWorks/Shutterstock.com *Fontos nyilvánosságra hozatal: Az Arxiv előzetes tudományos jelentéseket tesz közzé, amelyek nem szakértői felülvizsgáltak, ezért nem tekinthetők meggyőzőnek, a klinikai gyakorlatra/egészségügyi viselkedésre irányadóak, vagy megalapozott információként kezelik. Az Arxiv Preprint szerverekkel kapcsolatos közelmúltban készült tanulmány összehasonlította az AI-rendszerek diagnosztikai pontosságát és erőforrás-ráfordításait az összetett esetek klinikusaival. A Microsoft AI csapata bemutatta a mesterséges intelligencia (AI) hatékony felhasználását...
Az AI rendszer megfelel a diagnosztikai pontosságnak, miközben csökkenti az orvosi költségeket
Egy új tanulmány szerint a Microsoft mesterséges intelligenciával működő diagnosztikai rendszere felülmúlta a tapasztalt orvosokat a legnagyobb kihívást jelentő egészségügyi esetek gyorsabb, olcsóbb és pontosabb megoldásában.
Tanulmány: Szekvenciális diagnosztika nyelvi modellekkel. A kép jóváírása: MetamorWorks/Shutterstock.com
*Fontos megjegyzés: ArxivOlyan előzetes tudományos jelentések közzététele, amelyeket nem szakértői felülvizsgáltak, és ezért nem tekinthetők meggyőzőnek, irányítják a klinikai gyakorlatot/egészségügyi viselkedést, vagy amelyeket megalapozott információként kezelnek.
Egy friss tanulmány aArxivA Preprint Server összehasonlította a mesterséges intelligencia rendszerek diagnosztikai pontosságát és erőforrás-ráfordításait a klinikusokéval az összetett esetekben. A Microsoft AI csapata bemutatta a mesterséges intelligencia (AI) hatékony felhasználását az orvostudományban az orvosoknak megfejtendő diagnosztikai kihívások kezelésére.
Szekvenciális diagnózis és nyelvi modellek
Az orvosok gyakran diagnosztizálják a betegek betegségét egy olyan klinikai érvelési folyamaton keresztül, amely lépésről lépésre, iteratív kikérdezést és tesztelést foglal magában. Még korlátozott kezdeti információ esetén is, a klinikusok szűkítik a lehetséges diagnózist a páciens megkérdezésével és biokémiai vizsgálatokkal, képalkotással, biopsziával és egyéb diagnosztikai eljárásokkal történő megerősítésével.
Egy összetett eset megoldásához átfogó készségekre van szükség, ideértve a legkritikusabb kérdések vagy követendő tesztek azonosítását, a vizsgálati költségek figyelését a betegek terheinek növekedésének megelőzése érdekében, valamint a bizonyítékok felismerését a magabiztos diagnózis felállításához.
Számos tanulmány igazolta a nyelvi modellek (LMS) jobb hatékonyságát az orvosi engedélyezési vizsgák és a magasan strukturált diagnosztikai matricák lefolytatásában. A legtöbb LM teljesítményét azonban mesterséges körülmények között értékelték, amelyek drasztikusan különböznek a valós klinikai környezetektől.
A legtöbb diagnosztikai értékelés LMS-modellje feleletválasztós kvízen alapul, és a diagnózis egy előre meghatározott válaszkészletből történik. A csökkentett szekvenciális diagnosztikai ciklus növeli a statikus benchmarkok modellkompetenciájának túlbecslésének kockázatát. Ezen túlmenően ezek a diagnosztikai modellek a válogatás nélküli tesztrendelés és a diagnosztikai idő előtti lezárás kockázatát rejtik magukban. Ezért sürgősen szükség van egy szekvenciális diagnosztikai cikluson alapuló mesterséges intelligencia rendszerre a diagnosztikai pontosság javítása és a tesztelési költségek csökkentése érdekében.
A tanulmányról
A klinikai diagnosztika LMS-modelleinek fent említett hátrányainak kiküszöbölésére a tudósok kifejlesztették a Sequential Diagnostic Benchmark-ot (SDBench), mint interaktív keretrendszert a diagnosztikai ágensek (humán vagy mesterséges intelligencia) értékeléséhez valósághű szekvenciális klinikai találkozásokon keresztül.
A diagnosztikai pontosság felmérésére a jelenlegi tanulmány a New England Journal of Medicine (NEJM), a világ vezető orvosi folyóiratában megjelent heti eseteket használta fel. Ez a folyóirat jellemzően a Massachusettsi Általános Kórházi betegek eseteinek feljegyzéseit teszi közzé részletes, narratív formátumban. Ezek az esetek a klinikai orvoslásban a diagnosztikailag legnagyobb kihívást jelentő és intellektuálisan megterhelő esetek közé tartoznak, és gyakran több szakemberre és diagnosztikai tesztekre van szükség a diagnózis megerősítéséhez.
A NEJM Clinicopathologic Conference (2017-2025) 304 esetével lépésenkénti diagnosztikai találkozásokká. Az orvosi adatok közé tartoztak a végleges diagnózisok klinikai bemutatásai, a gyakori betegségektől (például tüdőgyulladás) a ritka betegségekig (pl. újszülöttkori hipoglikémia) terjedtek. Az interaktív platform segítségével a diagnosztikai ügynökök eldöntik, milyen kérdéseket tegyenek fel, milyen vizsgálatokat rendeljenek meg, és mikor erősítsék meg a diagnózist.
Az Information Gatekeeper egy olyan nyelvi modell, amely csak akkor tár fel klinikai részleteket egy átfogó esetfájlból, ha kifejezetten lekérdezik egy átfogó esetfájlból. Ezenkívül további esetkonzisztens információkat is biztosíthat a teszteléshez, amely nem szerepel az eredeti CPC-leírásban. Miután a kapuőrtől kapott információk alapján a végső diagnózist felállították, a klinikai értékelés pontosságát a tényleges diagnózishoz képest tesztelték. Ezenkívül megbecsülték a valódi diagnosztikában elvégzett összes kért diagnosztikai vizsgálat halmozott költségét. A diagnosztikai pontosság és a diagnosztikai költségek felmérésével az Sdbench jelzi, milyen közel állunk ahhoz, hogy fenntartható költségek mellett magas színvonalú ellátást nyújtsunk.
Tanulmányi eredmények
A jelenlegi tanulmány az összes diagnosztikai ágens teljesítményét elemezte az SDBEN-en. A mesterséges intelligencia ágenseit mind a 304 NEJM-esetben értékelték, míg az orvosokat egy 56 tesztkészletből álló részhalmazban értékelték. Ez a tanulmány megállapította, hogy az AI-ügynökök jobban teljesítettek, mint az orvosok ebben az alcsoportban.
Az Egyesült Államokban és az Egyesült Királyságban praktizáló, átlagosan 12 éves klinikai tapasztalattal rendelkező orvosok 20%-os diagnosztikai pontosságot értek el esetenként 2963 dolláros átlagos költséggel az SDBench-en, ami rávilágít a benchmark eredendő nehézségére. Az orvosok esetenként átlagosan 11,8 percet töltöttek, és 6,6 kérdést és 7,2 tesztet kértek. A GPT -4o felülmúlta az orvosokat mind a diagnosztikai pontosság, mind a költségek tekintetében. A kereskedelemben kapható kész modellek eltérő diagnosztikai pontosságot és költséget kínálnak.
A jelenlegi tanulmány bemutatta a MAI Diagnostic Orchestratort (MAI-DXO), egy olyan platformot, amely orvosokkal együttműködve magasabb diagnosztikai hatékonyságot mutatott, mint az emberi orvosok és a kereskedelmi nyelvi modellek. A kereskedelmi LM-ekhez képest a Mai-DXO nagyobb diagnosztikai pontosságot és jelentős, több mint felére csökkentett orvosi költségeket mutatott. Például a készen kapható O3 modell 78,6%-os diagnosztikai pontosságot ért el 7850 dollárnál, míg a May-DXO 79,9%-os pontosságot ért el mindössze 2397 dollárral vagy 85,5%-os pontosságot 7184 dollárral.
A MAI-DXO ezt úgy érte el, hogy szimulálta az „orvos ügynökök” virtuális paneljét, amelyek különböző szerepet töltenek be a hipotézisek létrehozásában, a tesztek kiválasztásában, a költségtudatosságban és a hibaellenőrzésben. Az alap AI prompttól eltérően ez a strukturált hangszerelés lehetővé tette a rendszer iteratív és hatékony működését.
A Mai-Dxo egy modell-agnosztikus megközelítés, amely különböző nyelvi modellekben mutatott pontosabb növekedést, nem csak az O3 Foundation modellben.
Következtetések és jövőbeli kilátások
A jelenlegi tanulmány eredményei azt mutatják, hogy az AI-rendszerek nagyobb diagnosztikai pontosságot és költséghatékonyságot mutatnak, ha iteratívan és körültekintően dolgoznak fel. Az Sdbench és a Mai-Dxo empirikus alapú alapot biztosított az AI által támogatott diagnosztika reális korlátok melletti fejlesztéséhez.
A jövőben a Mai-DXO-t olyan klinikai körülmények között kell validálni, ahol a betegségek előfordulása és megjelenése olyan gyakran fordul elő, mint naponta, és nem ritka alkalom. Ezenkívül nagyszabású interaktív orvosi referenciaértékekre van szükség, több mint 304 esettel. A vizuális és egyéb szenzoros módozatok, mint például a képalkotás, beépítése javíthatja a diagnosztikai pontosságot a költséghatékonyság veszélyeztetése nélkül.
A szerzők azonban fontos korlátokat említenek. A NEJM -CPC eseteket a nehézségük alapján választják ki, és nem tükrözik a mindennapi klinikai megjelenést. A vizsgálatban nem vettek részt egészséges betegek, és nem mértek álpozitív arányt. Ezenkívül a diagnosztikai költségbecslések az egyesült államokbeli árakon alapulnak, és világszerte változhatnak.
A modelleket a legutóbbi esetek (2024-2025) megtartott tesztkészletén is tesztelték, hogy felmérjék az általánosítást és elkerüljék a túlillesztést, mivel ezek közül az esetek közül sokat a legtöbb modellnél a betanítási határidő lejárta után adták ki.
A cikk egy szélesebb körű kérdést is felvet: az AI-rendszereket egyéni orvosokhoz vagy teljes orvosi csoportokhoz hasonlítsuk? Mivel a Mai-Dxo a több szakember közötti együttműködést utánozza, az összehasonlítás közelebb állhat a csapatalapú ellátáshoz, mint az egyéni gyakorlathoz.
A kutatás azonban azt sugallja, hogy a strukturált AI-rendszerek, mint a Mai-DXO, egy napon támogathatják vagy kibővíthetik a klinikusokat, különösen olyan körülmények között, ahol a szakemberekhez való hozzáférés korlátozott vagy költséges.
Töltse le PDF másolatát most!
*Fontos megjegyzés: ArxivOlyan előzetes tudományos jelentések közzététele, amelyeket nem szakértői felülvizsgáltak, és ezért nem tekinthetők meggyőzőnek, irányítják a klinikai gyakorlatot/egészségügyi viselkedést, vagy amelyeket megalapozott információként kezelnek.
Források:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405