AI sustav usklađuje dijagnostičku točnost uz smanjenje medicinskih troškova
U novoj studiji, Microsoftov dijagnostički sustav pokretan umjetnom inteligencijom nadmašio je iskusne liječnike u bržem, jeftinijem i točnijem rješavanju najzahtjevnijih medicinskih slučajeva. Studija: Sekvencijalna dijagnoza s jezičnim modelima. Kredit za sliku: MetamorWorks/Shutterstock.com *Važno otkrivanje: Arxiv objavljuje preliminarna znanstvena izvješća koja nisu recenzirana i stoga se ne smatraju uvjerljivima, ne usmjeravaju kliničku praksu/ponašanja povezana sa zdravljem ili se tretiraju kao utvrđene informacije. Nedavna studija o poslužiteljima za preprint Arxiv uspoređivala je dijagnostičku točnost i utrošak resursa AI sustava s onima kliničara na složenim slučajevima. Microsoftov AI tim demonstrirao je učinkovitu upotrebu umjetne inteligencije (AI) u...
AI sustav usklađuje dijagnostičku točnost uz smanjenje medicinskih troškova
U novoj studiji, Microsoftov dijagnostički sustav pokretan umjetnom inteligencijom nadmašio je iskusne liječnike u bržem, jeftinijem i točnijem rješavanju najzahtjevnijih medicinskih slučajeva.
Studija: Sekvencijalna dijagnoza s jezičnim modelima. Kredit za sliku: MetamorWorks/Shutterstock.com
*Važna obavijest: ArxivObjavljivati preliminarna znanstvena izvješća koja nisu recenzirana od strane kolega i stoga se ne smatraju konačnima, usmjeravati kliničku praksu/ponašanja povezana sa zdravljem ili se tretirati kao utvrđena informacija.
Nedavna studija oArxivPreprint Server usporedio je dijagnostičku točnost i utrošak resursa AI sustava s onima kliničara na složenim slučajevima. Microsoftov AI tim pokazao je učinkovitu upotrebu umjetne inteligencije (AI) u medicini za rješavanje dijagnostičkih izazova koje liječnici moraju dešifrirati.
Sekvencijalna dijagnoza i jezični modeli
Liječnici često pacijentima dijagnosticiraju bolest kroz proces kliničkog zaključivanja koji uključuje korak po korak, iterativno ispitivanje i testiranje. Čak i uz ograničene početne informacije, kliničari sužavaju moguću dijagnozu ispitivanjem pacijenta i potvrđivanjem putem biokemijskog testiranja, snimanja, biopsije i drugih dijagnostičkih postupaka.
Rješavanje složenog slučaja zahtijeva sveobuhvatan skup vještina, uključujući prepoznavanje najkritičnijih pitanja ili testova koje treba slijediti, obraćanje pozornosti na troškove testiranja kako bi se spriječilo povećanje opterećenja pacijenta i prepoznavanje dokaza za postavljanje pouzdane dijagnoze.
Nekoliko studija pokazalo je poboljšanu učinkovitost jezičnih modela (LMS) u provođenju ispita za stjecanje medicinske dozvole i visoko strukturiranih dijagnostičkih vinjeta. Međutim, učinak većine LM-ova procijenjen je u umjetnim uvjetima koji se drastično razlikuju od kliničkih okruženja u stvarnom svijetu.
Većina LMS modela za dijagnostičke procjene temelji se na kvizu s više ponuđenih odgovora, a dijagnoza se postavlja iz unaprijed definiranog skupa odgovora. Smanjeni sekvencijalni dijagnostički ciklus povećava rizik od precjenjivanja sposobnosti modela statičkih referentnih vrijednosti. Osim toga, ovi dijagnostički modeli predstavljaju rizik neselektivnog naručivanja testova i preranog zatvaranja dijagnostike. Stoga postoji hitna potreba za sustavom umjetne inteligencije koji se temelji na sekvencijalnom dijagnostičkom ciklusu kako bi se poboljšala dijagnostička točnost i smanjili troškovi testiranja.
O studiju
Kako bi prevladali gore navedene nedostatke LMS modela za kliničku dijagnozu, znanstvenici su razvili Sekvencijalno dijagnostičko mjerilo (SDBench) kao interaktivni okvir za procjenu dijagnostičkih agenasa (ljudi ili umjetne inteligencije) kroz realistične sekvencijalne kliničke susrete.
Za procjenu dijagnostičke točnosti, trenutna studija koristila je tjedne slučajeve objavljene u New England Journal of Medicine (NEJM), vodećem svjetskom medicinskom časopisu. Ovaj časopis obično objavljuje bilješke o slučajevima pacijenata Opće bolnice Massachusetts u detaljnom, narativnom formatu. Ti su slučajevi jedni od dijagnostički najizazovnijih i intelektualno najzahtjevnijih u kliničkoj medicini i često zahtijevaju više stručnjaka i dijagnostičkih testova za potvrdu dijagnoze.
Sdbench za 304 slučaja s kliničko-patološke konferencije NEJM-a (2017.-2025.) u postupne dijagnostičke susrete. Medicinski podaci uključivali su kliničke prikaze u konačnim dijagnozama u rasponu od uobičajenih bolesti (npr. upala pluća) do rijetkih poremećaja (npr. neonatalna hipoglikemija). Pomoću interaktivne platforme dijagnostički agenti odlučuju koja će pitanja postaviti, koje testove naručiti i kada potvrditi dijagnozu.
Information Gatekeeper je jezični model koji otkriva kliničke detalje iz sveobuhvatne datoteke slučaja samo kada se izričito postavi upit iz opsežne datoteke slučaja. Također može pružiti dodatne informacije dosljedne slučaju za testiranje koje nisu opisane u izvornom CPC narativu. Nakon što je konačna dijagnoza postavljena na temelju informacija dobivenih od vratara, ispitana je točnost kliničke procjene u odnosu na stvarnu dijagnozu. Osim toga, procijenjen je kumulativni trošak svih traženih dijagnostičkih testova koji se izvode u stvarnoj dijagnozi. Procjenom dijagnostičke točnosti i troškova dijagnostike, Sdbench pokazuje koliko smo blizu pružanju visokokvalitetne skrbi po održivoj cijeni.
Rezultati studije
Trenutna studija analizirala je učinak svih dijagnostičkih sredstava na SDBEN. Uzročnici AI procijenjeni su u sva 304 slučaja NEJM-a, dok su liječnici procijenjeni u zadržanom podskupu od 56 setova testova. Ovo je istraživanje pokazalo da su agenti umjetne inteligencije bili bolji od liječnika u ovoj podskupini.
Liječnici koji rade u SAD-u i Ujedinjenom Kraljevstvu s medijanom od 12 godina kliničkog iskustva postigli su 20% dijagnostičke točnosti uz prosječnu cijenu od 2963 dolara po slučaju na SDBenchu, naglašavajući inherentnu težinu referentne vrijednosti. Liječnici su potrošili prosječno 11,8 minuta po slučaju i zatražili 6,6 pitanja i 7,2 testa. GPT -4o nadmašio je liječnike u dijagnostičkoj točnosti i cijeni. Komercijalno dostupni gotovi modeli nude različitu dijagnostičku točnost i cijenu.
Trenutna studija također je predstavila MAI Diagnostic Orchestrator (MAI-DXO), platformu u suradnji s liječnicima koja je pokazala veću dijagnostičku učinkovitost od ljudskih liječnika i komercijalnih jezičnih modela. U usporedbi s komercijalnim LM-ovima, Mai-DXO je pokazao veću dijagnostičku točnost i značajno smanjenje medicinskih troškova za više od polovice. Na primjer, standardni model O3 postigao je 78,6% dijagnostičke točnosti za 7850 USD, dok je May-DXO postigao 79,9% točnosti za samo 2397 USD ili 85,5% za 7184 USD.
MAI-DXO je to postigao simulacijom virtualnog panela "liječnika agenata" s različitim ulogama u stvaranju hipoteza, odabiru testa, svijesti o troškovima i provjeri pogrešaka. Za razliku od osnovnog AI prompta, ova strukturirana orkestracija omogućila je sustavu da bude iterativan i učinkovit.
Mai-Dxo je model-agnostički pristup koji je pokazao povećanje točnosti u različitim jezičnim modelima, ne samo u modelu O3 Foundation.
Zaključci i budući izgledi
Rezultati trenutne studije pokazuju veću dijagnostičku točnost i isplativost AI sustava kada se obrađuju iterativno i pažljivo. Sdbench i Mai-Dxo pružili su empirijski utemeljen temelj za unaprjeđenje dijagnostike potpomognute umjetnom inteligencijom pod realnim ograničenjima.
U budućnosti, Mai-DXO treba biti potvrđen u kliničkim okruženjima gdje se prevalencija i pojava bolesti javljaju jednako često kao na dnevnoj bazi, a ne kao rijetke prilike. Nadalje, potrebna su interaktivna medicinska mjerila velikih razmjera s više od 304 slučaja. Uključivanje vizualnih i drugih senzornih modaliteta kao što je slikanje također bi moglo poboljšati dijagnostičku točnost bez ugrožavanja isplativosti.
Međutim, autori ističu važna ograničenja. NEJM -CPC slučajevi odabrani su zbog svoje težine i ne odražavaju svakodnevne kliničke slike. Studija nije uključivala zdrave pacijente niti mjerila lažno pozitivne stope. Osim toga, procjene troškova dijagnostike temelje se na cijenama u SAD-u i mogu se razlikovati u cijelom svijetu.
Modeli su također testirani na zadržanom testnom skupu nedavnih slučajeva (2024.-2025.) kako bi se procijenila generalizacija i izbjeglo prekomjerno opremanje, budući da su mnogi od tih slučajeva objavljeni nakon prekida obuke za većinu modela.
Rad također postavlja šire pitanje: Trebamo li usporediti AI sustave s pojedinačnim liječnicima ili punim medicinskim timovima? Budući da Mai-Dxo oponaša suradnju više stručnjaka, usporedba bi mogla odražavati nešto što je bliže timskoj skrbi nego individualnoj praksi.
Međutim, istraživanje sugerira da bi strukturirani AI sustavi poput Mai-DXO-a mogli jednog dana podržati ili poboljšati kliničare, osobito u okruženjima gdje je pristup stručnjacima ograničen ili skup.
Preuzmite svoju PDF kopiju sada!
*Važna obavijest: ArxivObjavljivati preliminarna znanstvena izvješća koja nisu recenzirana od strane kolega i stoga se ne smatraju konačnima, usmjeravati kliničku praksu/ponašanja povezana sa zdravljem ili se tretirati kao utvrđena informacija.
Izvori:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405