Sistem umetne inteligence se ujema z diagnostično natančnostjo, hkrati pa zmanjšuje zdravstvene stroške

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

V novi študiji je Microsoftov diagnostični sistem, ki ga poganja AI, presegel izkušene zdravnike pri hitrejšem, cenejšem in natančnejšem reševanju najzahtevnejših zdravstvenih primerov. Študija: Zaporedna diagnoza z jezikovnimi modeli. Avtor slike: MetamorWorks/Shutterstock.com *Pomembno razkritje: Arxiv objavlja predhodna znanstvena poročila, ki niso strokovno pregledana in se zato ne štejejo za dokončna, usmerjajo klinično prakso/vedenje, povezano z zdravjem, ali jih obravnavajo kot uveljavljene informacije. Nedavna študija o strežnikih za prednatis Arxiv je primerjala diagnostično natančnost in porabo virov sistemov umetne inteligence s tistimi zdravnikov na kompleksnih primerih. Microsoftova ekipa AI je pokazala učinkovito uporabo umetne inteligence (AI) v...

Sistem umetne inteligence se ujema z diagnostično natančnostjo, hkrati pa zmanjšuje zdravstvene stroške

V novi študiji je Microsoftov diagnostični sistem, ki ga poganja AI, presegel izkušene zdravnike pri hitrejšem, cenejšem in natančnejšem reševanju najzahtevnejših zdravstvenih primerov.

Študija: Zaporedna diagnoza z jezikovnimi modeli. Avtor slike: MetamorWorks/Shutterstock.com

*Pomembno obvestilo: ArxivObjavljajte predhodna znanstvena poročila, ki niso strokovno pregledana in zato ne veljajo za dokončna, usmerjajo klinično prakso/vedenje, povezano z zdravjem, ali jih obravnavate kot uveljavljene informacije.

Nedavna študija oArxivPreprint Server je primerjal diagnostično natančnost in porabo virov sistemov umetne inteligence s tistimi zdravnikov na kompleksnih primerih. Microsoftova skupina AI je pokazala učinkovito uporabo umetne inteligence (AI) v medicini za reševanje diagnostičnih izzivov, ki jih morajo zdravniki dešifrirati.

Sekvenčna diagnoza in jezikovni modeli

Zdravniki pogosto diagnosticirajo bolnike za bolezen s postopkom kliničnega sklepanja, ki vključuje postopno, ponavljajoče se spraševanje in testiranje. Tudi z omejenimi začetnimi informacijami kliniki zožijo možno diagnozo tako, da izprašajo bolnika in jo potrdijo z biokemičnim testiranjem, slikanjem, biopsijo in drugimi diagnostičnimi postopki.

Reševanje zapletenega primera zahteva obsežen nabor veščin, vključno z opredelitvijo najbolj kritičnih vprašanj ali testov, ki jim je treba slediti, posvečanjem pozornosti stroškom testiranja, da se prepreči naraščajoče breme pacienta, in prepoznavanjem dokazov za postavitev zanesljive diagnoze.

Več študij je pokazalo izboljšano učinkovitost jezikovnih modelov (LMS) pri izvajanju izpitov za zdravniško licenco in visoko strukturiranih diagnostičnih vinjet. Vendar pa je bila učinkovitost večine LM ovrednotena v umetnih pogojih, ki se drastično razlikujejo od dejanskih kliničnih okolij.

Večina modelov LMS za diagnostične ocene temelji na kvizu z več možnimi odgovori, diagnoza pa je narejena iz vnaprej določenega niza odgovorov. Zmanjšan zaporedni diagnostični cikel poveča tveganje precenjevanja kompetentnosti modela statičnih meril uspešnosti. Poleg tega ti diagnostični modeli predstavljajo tveganje nediskriminatornega naročanja testov in prezgodnjega zaključka diagnostike. Zato obstaja nujna potreba po sistemu umetne inteligence, ki temelji na zaporednem diagnostičnem ciklu, da bi izboljšali diagnostično natančnost in zmanjšali stroške testiranja.

O študiju

Da bi premagali zgoraj omenjene pomanjkljivosti modelov LMS za klinično diagnozo, so znanstveniki razvili sekvenčno diagnostično merilo (SDBench) kot interaktivni okvir za ocenjevanje diagnostičnih dejavnikov (človeka ali umetne inteligence) skozi realistična zaporedna klinična srečanja.

Za oceno diagnostične natančnosti je trenutna študija uporabila tedenske primere, objavljene v New England Journal of Medicine (NEJM), vodilni medicinski reviji na svetu. Ta revija običajno objavlja zapiske primerov pacientov splošne bolnišnice Massachusetts v podrobni, pripovedni obliki. Ti primeri so med diagnostično najbolj zahtevnimi in intelektualno zahtevnimi v klinični medicini in pogosto zahtevajo več specialistov in diagnostičnih testov za potrditev diagnoze.

Sdbench s 304 primeri s klinično-patološke konference NEJM (2017–2025) v postopna diagnostična srečanja. Medicinski podatki so vključevali klinične slike pri dokončnih diagnozah, od pogostih bolezni (npr. pljučnica) do redkih motenj (npr. neonatalna hipoglikemija). Z uporabo interaktivne platforme se diagnostični agenti odločijo, katera vprašanja bodo zastavili, katere teste naj naročijo in kdaj naj potrdijo diagnozo.

Information Gatekeeper je jezikovni model, ki razkrije klinične podrobnosti iz obsežne datoteke primera samo, če je izrecno poizveden iz obsežne datoteke primera. Zagotavlja lahko tudi dodatne informacije, skladne s primeri in primeri, za testiranje, ki niso opisane v izvirni pripovedi CPC. Potem ko je bila na podlagi informacij, prejetih od vratarja, postavljena končna diagnoza, je bila točnost klinične ocene testirana glede na dejansko diagnozo. Poleg tega so bili ocenjeni kumulativni stroški vseh zahtevanih diagnostičnih testov, izvedenih v resnični diagnozi. Z oceno diagnostične natančnosti in diagnostičnih stroškov Sdbench nakazuje, kako blizu smo zagotavljanju visokokakovostne oskrbe po vzdržnih stroških.

Rezultati študije

Trenutna študija je analizirala delovanje vseh diagnostičnih sredstev na SDBEN. Povzročitelji umetne inteligence so bili ocenjeni v vseh 304 primerih NEJM, medtem ko so bili zdravniki ocenjeni v ohranjeni podskupini 56 testnih sklopov. Ta študija je pokazala, da so se agenti AI v tej podskupini odrezali bolje kot zdravniki.

Zdravniki, ki delujejo v ZDA in Združenem kraljestvu z mediano 12 let kliničnih izkušenj, so na SDBench dosegli 20-odstotno diagnostično natančnost pri povprečni ceni 2963 USD na primer, kar poudarja inherentno težavnost merila. Zdravniki so v povprečju porabili 11,8 minute za vsak primer in zahtevali 6,6 vprašanj ter 7,2 testa. GPT -4o je prekašal zdravnike v diagnostični točnosti in stroških. Komercialno dostopni standardni modeli ponujajo različno diagnostično natančnost in ceno.

Trenutna študija je predstavila tudi MAI Diagnostic Orchestrator (MAI-DXO), platformo v sodelovanju z zdravniki, ki je pokazala večjo diagnostično učinkovitost kot človeški zdravniki in komercialni jezikovni modeli. V primerjavi s komercialnimi LM je Mai-DXO pokazal večjo diagnostično natančnost in znatno zmanjšanje zdravstvenih stroškov za več kot polovico. Na primer, standardni model O3 je dosegel 78,6 % diagnostično natančnost pri 7850 $, medtem ko je May-DXO dosegel 79,9 % natančnost pri samo 2397 $ ali 85,5 % pri 7184 $.

MAI-DXO je to dosegel s simulacijo virtualne skupine "zdravniških agentov" z različnimi vlogami pri ustvarjanju hipotez, izbiri testov, zavedanju stroškov in preverjanju napak. Za razliko od osnovnega poziva AI je ta strukturirana orkestracija omogočila, da je sistem ponavljajoč in učinkovit.

Mai-Dxo je modelno-agnostični pristop, ki je pokazal večjo natančnost v različnih jezikovnih modelih, ne le v modelu O3 Foundation.

Sklepi in prihodnji obeti

Rezultati trenutne študije kažejo večjo diagnostično natančnost in stroškovno učinkovitost sistemov umetne inteligence, če obdelujejo iterativno in skrbno. Sdbench in Mai-Dxo sta zagotovila empirično podlago za napredek diagnostike, podprte z umetno inteligenco, pod realističnimi omejitvami.

V prihodnosti bo treba Mai-DXO potrditi v kliničnih okoljih, kjer se razširjenost in pojav bolezni pojavljata tako pogosto kot vsak dan in ne ob redkih priložnostih. Poleg tega so potrebna obsežna interaktivna medicinska merila z več kot 304 primeri. Vključitev vizualnih in drugih senzoričnih modalitet, kot je slikanje, bi lahko tudi izboljšala diagnostično natančnost brez ogrožanja stroškovne učinkovitosti.

Vendar pa avtorji opozarjajo na pomembne omejitve. Primeri NEJM -CPC so izbrani zaradi svoje težavnosti in ne odražajo vsakodnevnih kliničnih predstavitev. Študija ni vključevala zdravih bolnikov ali merila lažno pozitivnih stopenj. Poleg tega ocene diagnostičnih stroškov temeljijo na cenah v ZDA in se lahko razlikujejo po vsem svetu.

Modeli so bili preizkušeni tudi na ohranjenem testnem nizu nedavnih primerov (2024–2025), da bi ocenili posploševanje in preprečili prekomerno opremljanje, saj je bilo veliko teh primerov objavljenih po prekinitvi usposabljanja za večino modelov.

Prispevek postavlja tudi širše vprašanje: Ali naj sisteme AI primerjamo s posameznimi zdravniki ali celotnimi zdravstvenimi ekipami? Ker Mai-Dxo posnema sodelovanje več strokovnjakov, je primerjava morda nekoliko bližje timski oskrbi kot individualni praksi.

Vendar pa raziskave kažejo, da lahko strukturirani sistemi umetne inteligence, kot je Mai-DXO, nekega dne podpirajo ali nadgrajujejo klinike, zlasti v okoljih, kjer je dostop do specialistov omejen ali drag.

Prenesite svojo kopijo PDF zdaj!

*Pomembno obvestilo: ArxivObjavljajte predhodna znanstvena poročila, ki niso strokovno pregledana in zato ne veljajo za dokončna, usmerjajo klinično prakso/vedenje, povezano z zdravjem, ali jih obravnavate kot uveljavljene informacije.


Viri:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405