Sistemul AI se potrivește cu acuratețea diagnosticului, reducând în același timp costurile medicale

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Într-un nou studiu, sistemul de diagnosticare bazat pe inteligență artificială al Microsoft a depășit medicii cu experiență în rezolvarea celor mai dificile cazuri medicale mai rapid, mai ieftin și mai precis. Studiu: Diagnostic secvenţial cu modele de limbaj. Credit imagine: MetamorWorks/Shutterstock.com *Dezvăluire importantă: Arxiv publică rapoarte științifice preliminare care nu sunt revizuite de colegi și, prin urmare, nu sunt considerate concludente, nu ghidează practica clinică/comportamentele legate de sănătate sau sunt tratate ca informații stabilite. Un studiu recent asupra serverelor Arxiv Preprint a comparat acuratețea diagnosticului și cheltuielile cu resursele sistemelor AI cu cele ale clinicienilor în cazuri complexe. Echipa Microsoft AI a demonstrat utilizarea eficientă a inteligenței artificiale (AI) în...

Sistemul AI se potrivește cu acuratețea diagnosticului, reducând în același timp costurile medicale

Într-un nou studiu, sistemul de diagnosticare bazat pe inteligență artificială al Microsoft a depășit medicii cu experiență în rezolvarea celor mai dificile cazuri medicale mai rapid, mai ieftin și mai precis.

Studiu: Diagnostic secvenţial cu modele de limbaj. Credit imagine: MetamorWorks/Shutterstock.com

*Notă importantă: ArxivPublicați rapoarte științifice preliminare care nu sunt revizuite de colegi și, prin urmare, nu sunt considerate concludente, ghidează practica clinică/comportamentele legate de sănătate sau tratate ca informații stabilite.

Un studiu recent asupraArxivPreprint Server a comparat acuratețea diagnosticului și cheltuielile cu resursele sistemelor AI cu cele ale clinicienilor în cazuri complexe. Echipa Microsoft AI a demonstrat utilizarea eficientă a inteligenței artificiale (AI) în medicină pentru a aborda provocările de diagnosticare pe care medicii trebuie să le descifreze.

Diagnostic secvenţial şi modele de limbaj

Medicii diagnostichează adesea pacienții pentru o boală printr-un proces de raționament clinic care implică interogare și testare pas cu pas. Chiar și cu informații inițiale limitate, clinicienii restrâng posibilul diagnostic interogând pacientul și confirmându-l prin teste biochimice, imagistică, biopsie și alte proceduri de diagnosticare.

Rezolvarea unui caz complex necesită un set cuprinzător de abilități, inclusiv identificarea celor mai critice întrebări sau teste de urmat, acordarea atenției costurilor de testare pentru a preveni creșterea sarcinii pacienților și recunoașterea dovezilor pentru a face un diagnostic sigur.

Mai multe studii au demonstrat eficiența îmbunătățită a modelelor lingvistice (LMS) în efectuarea examenelor de licență medicală și a vinietelor de diagnosticare foarte structurate. Cu toate acestea, performanța majorității LM-urilor a fost evaluată în condiții artificiale care sunt drastic diferite de mediile clinice din lumea reală.

Majoritatea modelelor LMS pentru evaluări de diagnosticare se bazează pe un test cu variante multiple, iar diagnosticul se face dintr-un set de răspunsuri predefinit. Un ciclu de diagnostic secvenţial redus creşte riscul supraestimării competenţei de model a reperelor statice. În plus, aceste modele de diagnosticare prezintă riscul de a comanda fără discernământ teste și de închidere prematură a diagnosticului. Prin urmare, este nevoie urgentă de un sistem AI bazat pe un ciclu de diagnosticare secvenţial pentru a îmbunătăţi acurateţea diagnosticului şi a reduce costurile de testare.

Despre studiu

Pentru a depăși dezavantajele menționate mai sus ale modelelor LMS pentru diagnosticul clinic, oamenii de știință au dezvoltat Sequential Diagnostic Benchmark (SDBench) ca un cadru interactiv pentru evaluarea agenților de diagnostic (umani sau AI) prin întâlniri clinice succesive realiste.

Pentru a evalua acuratețea diagnosticului, studiul actual a folosit cazuri săptămânale publicate în New England Journal of Medicine (NEJM), principalul jurnal medical din lume. Acest jurnal publică de obicei note de caz ale pacienților din Massachusetts General Hospital într-un format detaliat, narativ. Aceste cazuri sunt printre cele mai dificile din punct de vedere diagnostic și cele mai solicitante din punct de vedere intelectual din medicina clinică și necesită adesea mai mulți specialiști și teste de diagnosticare pentru a confirma un diagnostic.

Sdbench cu 304 de cazuri de la Conferința clinicopatologică NEJM (2017-2025) în întâlniri de diagnosticare în pas. Datele medicale au inclus prezentări clinice în diagnostice definitive, de la boli comune (de exemplu, pneumonie) până la tulburări rare (de exemplu, hipoglicemie neonatală). Folosind platforma interactivă, agenții de diagnosticare decid ce întrebări să pună, ce teste să comande și când să confirme un diagnostic.

Information Gatekeeper este un model de limbaj care dezvăluie detalii clinice dintr-un dosar cuprinzător de caz numai atunci când este interogat în mod explicit dintr-un dosar cuprinzător de caz. De asemenea, poate furniza informații suplimentare, concordante cu cazurile, pentru testare, care nu sunt descrise în relatarea CPC inițială. După ce diagnosticul final a fost pus pe baza informațiilor primite de la gatekeeper, acuratețea evaluării clinice a fost testată față de diagnosticul real. În plus, a fost estimat costul cumulat al tuturor testelor diagnostice solicitate efectuate în diagnostic real. Evaluând acuratețea diagnosticului și costul diagnosticului, Sdbench indică cât de aproape suntem de a oferi îngrijiri de înaltă calitate la un cost durabil.

Rezultatele studiului

Studiul actual a analizat performanța tuturor agenților de diagnosticare pe SDBEN. Agenții AI au fost evaluați în toate cele 304 cazuri de NEJM, în timp ce medicii au fost evaluați într-un subset reținut de 56 de seturi de teste. Acest studiu a constatat că agenții AI au avut rezultate mai bune decât medicii din acest subgrup.

Medicii care practică în SUA și Marea Britanie cu o medie de 12 ani de experiență clinică au obținut o acuratețe de diagnostic de 20% la un cost mediu de 2.963 USD per caz pe SDBench, evidențiind dificultatea inerentă a reperului. Medicii au petrecut în medie 11,8 minute pe caz și au solicitat 6,6 întrebări și 7,2 teste. GPT -4o a depășit medicii atât în ​​ceea ce privește acuratețea diagnosticului, cât și în ceea ce privește costul. Modelele disponibile în comerț au oferit precizie și costuri diferite de diagnosticare.

Studiul actual a introdus, de asemenea, MAI Diagnostic Orchestrator (MAI-DXO), o platformă în parteneriat cu medici care au demonstrat eficiență de diagnosticare mai mare decât medicii umani și modelele de limbaj comercial. În comparație cu LM-urile comerciale, Mai-DXO a demonstrat o acuratețe mai mare a diagnosticului și o reducere semnificativă a costurilor medicale de peste jumătate. De exemplu, modelul standard O3 a obținut o acuratețe de diagnostic de 78,6% la 7.850 USD, în timp ce May-DXO a obținut o precizie de 79,9% la doar 2.397 USD sau 85,5% la 7.184 USD.

MAI-DXO a reușit acest lucru prin simularea unui panou virtual de „agenți medici” cu roluri diferite în generarea de ipoteze, selecția testelor, conștientizarea costurilor și verificarea erorilor. Spre deosebire de promptul AI de bază, această orchestrare structurată a permis sistemului să fie iterativ și eficient.

Mai-Dxo este o abordare independentă de model care a demonstrat câștiguri de acuratețe în diferite modele de limbaj, nu doar modelul O3 Foundation.

Concluzii și perspective de viitor

Rezultatele studiului actual arată acuratețea diagnosticului și rentabilitatea mai mare a sistemelor AI atunci când procesează iterativ și cu atenție. Sdbench și Mai-Dxo au oferit o bază bazată empiric pentru avansarea diagnosticării asistate de AI sub constrângeri realiste.

În viitor, Mai-DXO trebuie validat în medii clinice în care prevalența și prezentarea bolii apar la fel de frecvent ca zilnic, mai degrabă decât ca o ocazie rară. În plus, sunt necesare repere medicale interactive pe scară largă, cu mai mult de 304 de cazuri. Încorporarea modalităților vizuale și senzoriale, cum ar fi imagistica, ar putea îmbunătăți, de asemenea, acuratețea diagnosticului, fără a compromite rentabilitatea.

Cu toate acestea, autorii notează limitări importante. Cazurile NEJM -CPC sunt selectate pentru dificultatea lor și nu reflectă prezentările clinice de zi cu zi. Studiul nu a inclus pacienți sănătoși și nici nu a măsurat ratele fals pozitive. În plus, estimările costurilor de diagnosticare se bazează pe prețurile din SUA și pot varia la nivel mondial.

Modelele au fost, de asemenea, testate pe un set de teste reținute de cazuri recente (2024-2025) pentru a evalua generalizarea și a evita supraadaptarea, deoarece multe dintre aceste cazuri au fost eliberate după limita de antrenament pentru majoritatea modelelor.

Lucrarea ridică, de asemenea, o întrebare mai largă: ar trebui să comparăm sistemele AI cu medici individuali sau cu echipe medicale complete? Deoarece Mai-Dxo imită colaborarea multi-specialist, comparația poate reflecta ceva mai aproape de îngrijirea în echipă decât de practica individuală.

Cu toate acestea, cercetarea sugerează că sistemele AI structurate, cum ar fi Mai-DXO, ar putea susține sau spori într-o zi medicii, în special în setările în care accesul la specialiști este limitat sau costisitor.

Descărcați copia dvs. PDF acum!

*Notă importantă: ArxivPublicați rapoarte științifice preliminare care nu sunt revizuite de colegi și, prin urmare, nu sunt considerate concludente, ghidează practica clinică/comportamentele legate de sănătate sau tratate ca informații stabilite.


Surse:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405