Il sistema di intelligenza artificiale abbina l’accuratezza diagnostica riducendo i costi medici
In un nuovo studio, il sistema diagnostico basato sull’intelligenza artificiale di Microsoft ha superato i medici esperti nel risolvere i casi medici più impegnativi in modo più rapido, economico e accurato. Studio: diagnosi sequenziale con modelli linguistici. Credito immagine: MetamorWorks/Shutterstock.com *Informativa importante: Arxiv pubblica rapporti scientifici preliminari che non sono sottoposti a revisione paritaria e pertanto non sono considerati conclusivi, non guidano la pratica clinica/comportamenti relativi alla salute o trattati come informazioni consolidate. Un recente studio sui server di prestampa Arxiv ha confrontato l’accuratezza diagnostica e il dispendio di risorse dei sistemi di intelligenza artificiale con quelli dei medici su casi complessi. Il team AI di Microsoft ha dimostrato l'uso efficiente dell'intelligenza artificiale (AI) in...
Il sistema di intelligenza artificiale abbina l’accuratezza diagnostica riducendo i costi medici
In un nuovo studio, il sistema diagnostico basato sull’intelligenza artificiale di Microsoft ha superato i medici esperti nel risolvere i casi medici più impegnativi in modo più rapido, economico e accurato.
Studio: diagnosi sequenziale con modelli linguistici. Credito immagine: MetamorWorks/Shutterstock.com
*Avviso importante: ArxivPubblicare rapporti scientifici preliminari che non siano sottoposti a revisione paritaria e quindi non considerati conclusivi, che guidino la pratica clinica/comportamenti relativi alla salute o che siano trattati come informazioni consolidate.
Un recente studio sulArxivPreprint Server ha confrontato l'accuratezza diagnostica e il dispendio di risorse dei sistemi di intelligenza artificiale con quelli dei medici su casi complessi. Il team AI di Microsoft ha dimostrato l’uso efficiente dell’intelligenza artificiale (AI) in medicina per affrontare le sfide diagnostiche che i medici devono decifrare.
Diagnosi sequenziale e modelli linguistici
I medici spesso diagnosticano una malattia ai pazienti attraverso un processo di ragionamento clinico che prevede domande e test passo passo e iterativi. Anche con informazioni iniziali limitate, i medici restringono la possibile diagnosi interrogando il paziente e confermandola attraverso test biochimici, imaging, biopsia e altre procedure diagnostiche.
La risoluzione di un caso complesso richiede un insieme completo di competenze, tra cui l'identificazione delle domande o dei test più critici da seguire, l'attenzione ai costi dei test per prevenire un aumento del carico sul paziente e il riconoscimento delle prove per effettuare una diagnosi sicura.
Diversi studi hanno dimostrato la maggiore efficienza dei modelli linguistici (LMS) nella conduzione di esami di licenza medica e vignette diagnostiche altamente strutturate. Tuttavia, le prestazioni della maggior parte dei LM sono state valutate in condizioni artificiali drasticamente diverse dagli ambienti clinici del mondo reale.
La maggior parte dei modelli LMS per le valutazioni diagnostiche si basano su quiz a scelta multipla e la diagnosi viene effettuata da un set di risposte predefinite. Un ciclo diagnostico sequenziale ridotto aumenta il rischio di sovrastimare la competenza del modello dei benchmark statici. Inoltre, questi modelli diagnostici comportano il rischio di una ordinazione indiscriminata dei test e di una chiusura diagnostica prematura. Pertanto, esiste l’urgente necessità di un sistema di intelligenza artificiale basato su un ciclo diagnostico sequenziale per migliorare l’accuratezza diagnostica e ridurre i costi dei test.
A proposito dello studio
Per superare gli svantaggi sopra menzionati dei modelli LMS per la diagnosi clinica, gli scienziati hanno sviluppato il Sequential Diagnostic Benchmark (SDBench) come quadro interattivo per la valutazione degli agenti diagnostici (umani o IA) attraverso incontri clinici sequenziali realistici.
Per valutare l’accuratezza diagnostica, lo studio attuale ha utilizzato casi settimanali pubblicati sul New England Journal of Medicine (NEJM), la principale rivista medica a livello mondiale. Questa rivista in genere pubblica note di casi di pazienti del Massachusetts General Hospital in un formato narrativo dettagliato. Questi casi sono tra i più impegnativi dal punto di vista diagnostico e intellettualmente più impegnativi nella medicina clinica e spesso richiedono più specialisti e test diagnostici per confermare una diagnosi.
Sdbench di 304 casi della Conferenza Clinicopatologica del NEJM (2017-2025) in incontri diagnostici graduali. I dati medici includevano presentazioni cliniche in diagnosi definitive che andavano da malattie comuni (ad esempio polmonite) a disturbi rari (ad esempio ipoglicemia neonatale). Utilizzando la piattaforma interattiva, gli agenti diagnostici decidono quali domande porre, quali test ordinare e quando confermare una diagnosi.
Information Gatekeeper è un modello linguistico che rivela i dettagli clinici da un file di caso completo solo quando richiesto esplicitamente da un file di caso completo. Può anche fornire ulteriori informazioni coerenti tra i casi per i test non descritti nella descrizione originale del CPC. Dopo che è stata effettuata la diagnosi finale sulla base delle informazioni ricevute dal gatekeeper, l'accuratezza della valutazione clinica è stata testata rispetto alla diagnosi effettiva. Inoltre, è stato stimato il costo cumulativo di tutti gli esami diagnostici richiesti ed eseguiti nella diagnosi reale. Valutando l’accuratezza diagnostica e il costo diagnostico, Sdbench indica quanto siamo vicini a fornire cure di alta qualità a un costo sostenibile.
Risultati dello studio
Il presente studio ha analizzato le prestazioni di tutti gli agenti diagnostici sull'SDBEN. Gli agenti AI sono stati valutati in tutti i 304 casi NEJM, mentre i medici sono stati valutati in un sottoinsieme selezionato di 56 set di test. Questo studio ha rilevato che gli agenti dell’intelligenza artificiale hanno ottenuto risultati migliori rispetto ai medici in questo sottogruppo.
I medici che esercitano negli Stati Uniti e nel Regno Unito con una media di 12 anni di esperienza clinica hanno raggiunto un’accuratezza diagnostica del 20% a un costo medio di 2.963 dollari per caso su SDBench, evidenziando la difficoltà intrinseca del benchmark. I medici hanno dedicato in media 11,8 minuti per caso e hanno richiesto 6,6 domande e 7,2 test. GPT -4o ha sovraperformato i medici sia in termini di accuratezza diagnostica che di costi. I modelli standard disponibili in commercio hanno offerto accuratezza diagnostica e costi variabili.
L’attuale studio ha anche introdotto il MAI Diagnostic Orchestrator (MAI-DXO), una piattaforma collaborata con medici che ha dimostrato una maggiore efficienza diagnostica rispetto ai medici umani e ai modelli linguistici commerciali. Rispetto agli LM commerciali, Mai-DXO ha dimostrato una maggiore accuratezza diagnostica e una riduzione significativa dei costi medici di oltre la metà. Ad esempio, il modello O3 standard ha raggiunto un’accuratezza diagnostica del 78,6% a 7.850 dollari, mentre May-DXO ha raggiunto un’accuratezza del 79,9% a soli 2.397 dollari o dell’85,5% a 7.184 dollari.
MAI-DXO ha raggiunto questo obiettivo simulando un gruppo virtuale di “agenti medici” con diversi ruoli nella generazione di ipotesi, nella selezione dei test, nella consapevolezza dei costi e nel controllo degli errori. A differenza del prompt dell’IA di base, questa orchestrazione strutturata ha consentito al sistema di essere iterativo ed efficiente.
Mai-Dxo è un approccio indipendente dal modello che ha dimostrato guadagni di precisione in vari modelli linguistici, non solo nel modello della O3 Foundation.
Conclusioni e prospettive future
I risultati del presente studio mostrano la maggiore accuratezza diagnostica e il rapporto costo-efficacia dei sistemi di intelligenza artificiale quando elaborano in modo iterativo e accurato. Sdbench e Mai-Dxo hanno fornito una base empirica per far avanzare la diagnostica assistita dall'intelligenza artificiale con vincoli realistici.
In futuro, Mai-DXO dovrà essere convalidato in contesti clinici in cui la prevalenza e la presentazione della malattia si verificano con una frequenza pari a quella quotidiana piuttosto che come un’occasione rara. Inoltre, sono necessari benchmark medici interattivi su larga scala con più di 304 casi. L’integrazione di modalità visive e altre modalità sensoriali come l’imaging potrebbe anche migliorare l’accuratezza diagnostica senza compromettere il rapporto costo-efficacia.
Tuttavia, gli autori notano importanti limitazioni. I casi NEJM-CPC sono selezionati per la loro difficoltà e non riflettono le presentazioni cliniche quotidiane. Lo studio non ha incluso pazienti sani né ha misurato i tassi di falsi positivi. Inoltre, le stime dei costi diagnostici si basano sui prezzi statunitensi e possono variare in tutto il mondo.
I modelli sono stati testati anche su una serie di casi recenti (2024-2025) per valutare la generalizzazione ed evitare un adattamento eccessivo, poiché molti di questi casi sono stati rilasciati dopo il termine dell’addestramento per la maggior parte dei modelli.
Il documento solleva anche una questione più ampia: dovremmo confrontare i sistemi di intelligenza artificiale con i singoli medici o con interi team medici? Poiché Mai-Dxo imita la collaborazione multispecialistica, il confronto può riflettere un po’ più di vicinanza all’assistenza basata sul team che alla pratica individuale.
Tuttavia, la ricerca suggerisce che i sistemi di intelligenza artificiale strutturata come Mai-DXO potrebbero un giorno supportare o potenziare i medici, in particolare in contesti in cui l’accesso agli specialisti è limitato o costoso.
Scarica subito la tua copia PDF!
*Avviso importante: ArxivPubblicare rapporti scientifici preliminari che non siano sottoposti a revisione paritaria e quindi non considerati conclusivi, che guidino la pratica clinica/comportamenti relativi alla salute o che siano trattati come informazioni consolidate.
Fonti:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405