I modelli di intelligenza artificiale hanno difficoltà nelle conversazioni mediche del mondo reale
Gli strumenti di intelligenza artificiale come ChatGPT sono pubblicizzati per la loro promessa di ridurre il carico di lavoro dei medici classificando i pazienti, raccogliendo storie mediche e persino facendo diagnosi preliminari. Questi strumenti, noti come modelli linguistici di grandi dimensioni, vengono già utilizzati dai pazienti per comprendere i loro sintomi e i risultati dei test medici. Ma mentre questi modelli di intelligenza artificiale funzionano in modo impressionante sui test medici standardizzati, quanto bene si comportano in situazioni che imitano più da vicino il mondo reale? Non così eccezionale, secondo i risultati di un nuovo studio condotto da ricercatori della Harvard Medical School e della Stanford University. Per la loro analisi, pubblicata il 2 gennaio...
I modelli di intelligenza artificiale hanno difficoltà nelle conversazioni mediche del mondo reale
Gli strumenti di intelligenza artificiale come ChatGPT sono pubblicizzati per la loro promessa di ridurre il carico di lavoro dei medici classificando i pazienti, raccogliendo storie mediche e persino facendo diagnosi preliminari.
Questi strumenti, noti come modelli linguistici di grandi dimensioni, vengono già utilizzati dai pazienti per comprendere i loro sintomi e i risultati dei test medici.
Ma mentre questi modelli di intelligenza artificiale funzionano in modo impressionante sui test medici standardizzati, quanto bene si comportano in situazioni che imitano più da vicino il mondo reale?
Non così eccezionale, secondo i risultati di un nuovo studio condotto da ricercatori della Harvard Medical School e della Stanford University.
Per la loro analisi, pubblicata il 2 gennaio inMedicina naturalei ricercatori hanno progettato un quadro di valutazione -; o un test -; chiamato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) e lo ha implementato su quattro modelli linguistici di grandi dimensioni per vedere quanto bene funzionassero in ambienti che imitano da vicino le interazioni reali con i pazienti.
Tutti e quattro i modelli di linguaggio ampio hanno ottenuto buoni risultati con domande in stile esame medico, ma le loro prestazioni sono peggiorate quando sono stati coinvolti in conversazioni che imitavano più da vicino le interazioni del mondo reale.
Questo divario, hanno affermato i ricercatori, sottolinea una duplice necessità: in primo luogo, creare valutazioni più realistiche che valutino meglio l’idoneità dei modelli clinici di intelligenza artificiale per l’uso nel mondo reale e, in secondo luogo, migliorare la capacità di questi strumenti di diagnosticare sulla base di interazioni più realistiche prima che vengano utilizzati in clinica.
Strumenti di valutazione come CRAFT-MD, afferma il team di ricerca, non solo possono valutare in modo più accurato i modelli di intelligenza artificiale per la loro forma fisica nel mondo reale, ma potrebbero anche aiutare a ottimizzare le loro prestazioni in clinica.
Il nostro lavoro rivela un sorprendente paradosso: mentre questi modelli di intelligenza artificiale eccellono negli esami medici, hanno difficoltà con i dettagli fondamentali della visita medica. Le dinamiche delle conversazioni mediche – la necessità di porre le domande giuste al momento giusto, mettere insieme informazioni sparse e ragionare in base ai sintomi – presentano sfide uniche che vanno ben oltre la risposta a domande a scelta multipla. Mentre passiamo dai test standardizzati a queste conversazioni naturali, anche i modelli di intelligenza artificiale più sofisticati mostrano cali significativi nell’accuratezza diagnostica”.
Pranav Rajpurkar, autore senior dello studio, assistente professore di informatica biomedica presso la Harvard Medical School
Un test migliore per verificare nella pratica le prestazioni dell’IA
Attualmente, gli sviluppatori testano le prestazioni dei modelli di intelligenza artificiale chiedendo loro di rispondere a domande mediche a scelta multipla, in genere derivate dall’esame nazionale per gli studenti laureandi in medicina o da test che i residenti sostengono come parte della loro certificazione.
"Questo approccio presuppone che tutte le informazioni rilevanti siano presentate in modo chiaro e conciso, spesso utilizzando terminologia medica o parole d'ordine che semplificano il processo diagnostico, ma nel mondo reale questo processo è molto più disordinato", ha affermato Shreya Johri, co-primo autore dello studio e dottorando presso il Rajpurkar Lab della Harvard Medical School. “Abbiamo bisogno di un quadro di test che rifletta meglio la realtà e quindi possa prevedere meglio il funzionamento di un modello”.
CRAFT-MD è stato sviluppato come dispositivo di misurazione più realistico.
Per simulare le interazioni nel mondo reale, CRAFT-MD valuta la capacità dei modelli linguistici di grandi dimensioni di raccogliere informazioni su sintomi, farmaci e storia familiare e quindi formulare una diagnosi. Un agente AI si atteggia a paziente e risponde alle domande in uno stile colloquiale e naturale. Un altro agente AI valuta l’accuratezza della diagnosi finale fornita dal modello del linguaggio ampio. Gli esperti umani valutano quindi i risultati di ciascun incontro in termini di capacità di raccogliere informazioni rilevanti sul paziente, accuratezza diagnostica nel presentare informazioni sparse e aderenza alle istruzioni.
I ricercatori hanno utilizzato CRAFT-MD per testare quattro modelli di intelligenza artificiale –; sia versioni proprietarie che commerciali e open source –; per le prestazioni in 2.000 vignette cliniche che coprono condizioni comuni nell'assistenza primaria e 12 specialità mediche.
Tutti i modelli di intelligenza artificiale hanno mostrato limiti, in particolare nella capacità di condurre conversazioni cliniche e ragionare sulla base delle informazioni fornite dai pazienti. Ciò a sua volta ha influito sulla loro capacità di raccogliere anamnesi e fare una diagnosi appropriata. Ad esempio, i modelli spesso avevano difficoltà a porre le domande giuste per raccogliere l’anamnesi rilevante del paziente, perdevano informazioni importanti durante l’acquisizione dell’anamnesi e avevano difficoltà a sintetizzare informazioni sparse. L’accuratezza di questi modelli diminuiva quando venivano presentate informazioni aperte invece che risposte a scelta multipla. Questi modelli hanno anche ottenuto risultati peggiori nello scambio avanti e indietro; come nel caso della maggior parte delle conversazioni nel mondo reale –; piuttosto che impegnarsi in conversazioni riassuntive.
Raccomandazioni per ottimizzare nella pratica le prestazioni dell’IA
Sulla base di questi risultati, il team offre una serie di raccomandazioni sia per gli sviluppatori di intelligenza artificiale che progettano modelli di intelligenza artificiale sia per i regolatori incaricati di valutare e approvare questi strumenti.
Ciò include:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Inoltre, sia gli agenti di intelligenza artificiale che gli esperti umani dovrebbero essere inclusi nella valutazione, raccomandano i ricercatori, poiché affidarsi esclusivamente a esperti umani è dispendioso in termini di manodopera e costoso. Ad esempio, CRAFT-MD è stato più veloce dei valutatori umani, elaborando 10.000 interviste in 48-72 ore, più 15-16 ore di valutazione da parte di esperti. Al contrario, gli approcci basati sull’uomo richiederebbero un ampio reclutamento e circa 500 ore per le simulazioni dei pazienti (quasi 3 minuti per conversazione) e circa 650 ore per le valutazioni degli esperti (quasi 4 minuti per conversazione). L’utilizzo dei valutatori di intelligenza artificiale come prima scelta ha l’ulteriore vantaggio di eliminare il rischio di esporre pazienti reali a strumenti di intelligenza artificiale non verificati.
I ricercatori si aspettano che anche lo stesso CRAFT-MD venga regolarmente aggiornato e ottimizzato per incorporare modelli migliorati di intelligenza artificiale dei pazienti.
"Come medico e scienziato, sono interessato ai modelli di intelligenza artificiale che possono migliorare in modo efficace ed etico la pratica clinica", ha affermato la co-autrice senior dello studio Roxana Daneshjou, assistente professore di scienza dei dati biomedici e dermatologia presso l'Università di Stanford. “CRAFT-MD crea un quadro che riflette meglio le interazioni del mondo reale, contribuendo a far avanzare il campo quando si tratta di testare le prestazioni dei modelli di intelligenza artificiale nel settore sanitario”.
Fonti:
Johri, S.,et al. (2025) Un quadro di valutazione per l’uso clinico di grandi modelli linguistici nei compiti di interazione con il paziente. Medicina della natura. doi.org/10.1038/s41591-024-03328-5.