L’intelligenza artificiale in medicina: strumenti rivoluzionari, risultati incerti

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

L’intelligenza artificiale può davvero rivoluzionare l’assistenza sanitaria? Una revisione sistematica svela le lacune nascoste nei benefici per i pazienti e gli ostacoli a un’integrazione clinica significativa. In un recente studio pubblicato su The Lancet Regional Health - Europe, un gruppo di ricercatori ha valutato i benefici e i danni dei sistemi decisionali algoritmici (ADM) basati sull’intelligenza artificiale (AI) utilizzati dagli operatori sanitari rispetto alle cure standard, concentrandosi sui risultati rilevanti per il paziente. I progressi nel campo dell’intelligenza artificiale hanno consentito ai sistemi di superare gli esperti medici in compiti quali la diagnosi, la medicina personalizzata, il monitoraggio dei pazienti e lo sviluppo di farmaci. Nonostante questi progressi, non è chiaro se siano migliorati...

L’intelligenza artificiale in medicina: strumenti rivoluzionari, risultati incerti

L’intelligenza artificiale può davvero rivoluzionare l’assistenza sanitaria? Una revisione sistematica svela le lacune nascoste nei benefici per i pazienti e gli ostacoli a un’integrazione clinica significativa.

In un recente studio pubblicato suThe Lancet Regional Health – Europa, un gruppo di ricercatori ha valutato i benefici e i danni dei sistemi decisionali algoritmici (ADM) basati sull'intelligenza artificiale (AI) utilizzati dagli operatori sanitari rispetto alle cure standard, concentrandosi sui risultati rilevanti per il paziente.

sfondo

I progressi nell’intelligenza artificiale hanno consentito ai sistemi di superare gli esperti medici in compiti quali diagnosi, medicina personalizzata, monitoraggio dei pazienti e sviluppo di farmaci. Nonostante questi progressi, non è chiaro se il miglioramento dell’accuratezza diagnostica e dei parametri di prestazione si traducano in benefici tangibili per i pazienti, come una riduzione della mortalità o della morbilità.

La ricerca attuale spesso dà priorità alle prestazioni analitiche rispetto ai risultati clinici e molti dispositivi medici basati sull’intelligenza artificiale vengono approvati senza supportare prove provenienti da studi randomizzati e controllati (RCT).

Inoltre, la mancanza di trasparenza e di valutazioni standardizzate dei danni associati a queste tecnologie sollevano preoccupazioni etiche e pratiche. Ciò evidenzia una lacuna critica nella ricerca e nello sviluppo dell’IA che richiede ulteriori valutazioni incentrate sui risultati rilevanti per il paziente per garantire un’integrazione significativa e sicura nell’assistenza sanitaria.

A proposito dello studio

Convalida esterna limitata: la maggior parte dei sistemi di intelligenza artificiale valutati sono stati sviluppati sulla base di dati interni, con pochi studi che riportano una validazione esterna, sollevando preoccupazioni sulla loro generalizzabilità a diverse popolazioni di pazienti.

Questa revisione sistematica ha seguito le linee guida PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) per garantire il rigore metodologico. Le ricerche sono state condotte nel Medical Literature Analysis and Retrieval System Online (MEDLINE), nell’Excerpta Medica Database (EMBASE), nell’editore pubblico MEDLINE (PubMed) e nell’Institute of Electrical and Electronics Engineers (IEEE) Xplore e hanno coperto un periodo di 10 anni fino al 27 marzo 2024, quando i sistemi ADM legati all’intelligenza artificiale sono diventati rilevanti negli studi sanitari. La ricerca ha incluso termini relativi all’intelligenza artificiale, all’apprendimento automatico (ML), agli algoritmi decisionali, agli operatori sanitari e agli esiti dei pazienti.

Gli studi ammissibili includevano progetti di intervento o osservazionali con sistemi di supporto alle decisioni basati sull'intelligenza artificiale sviluppati con o sfruttando il machine learning. Gli studi dovevano riportare risultati rilevanti per il paziente come mortalità, morbilità, durata della degenza ospedaliera, riammissione o qualità della vita correlata alla salute. I criteri di esclusione includevano studi senza preregistrazione, senza uno standard di controllo della cura o focalizzati sulla robotica o su altri sistemi non correlati al processo decisionale basato sull’intelligenza artificiale. Il protocollo per questa revisione è stato preregistrato nell'International Prospective Register of Systematic Reviews (PROSPERO) e tutte le modifiche sono state documentate.

I revisori hanno controllato titoli, abstract e testi completi in base a criteri predefiniti. L'estrazione dei dati e la valutazione della qualità sono state effettuate in modo indipendente utilizzando moduli standardizzati. Il rischio di bias è stato valutato utilizzando lo strumento Cochrane Risk of Bias 2 (RoB 2) e lo strumento Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) per tenere conto di potenziali fattori confondenti, mentre la trasparenza del reporting è stata valutata utilizzando il Consolidated Standards Expansion of Reporting Trials - Artificial Intelligence (CONSORT-AI) e il reporting trasparente di un modello di previsione multivariabile per la prognosi o la diagnosi individuale - quadro di intelligenza artificiale (TRIPOD-AI).

I dati estratti includevano impostazioni dello studio, dettagli di progettazione, intervento e confronto, dati demografici di pazienti e professionisti, caratteristiche dell'algoritmo e misure di risultato. Gli studi sono stati inoltre classificati in base al tipo di sistema di intelligenza artificiale, all’area clinica, agli obiettivi di previsione e alle informazioni normative e di finanziamento. L’analisi ha inoltre esaminato se i contributi unici dei sistemi di intelligenza artificiale ai risultati fossero isolati e convalidati.

Risultati dello studio

Specialità sottorappresentate: mentre gli studi di psichiatria e oncologia erano ben rappresentati, altre specialità come la terapia intensiva e la pneumologia rimangono sottorappresentate, distorcendo potenzialmente la più ampia applicabilità dei risultati.

La revisione sistematica ha incluso 19 studi, inclusi 18 RCT e uno studio prospettico di coorte, selezionati dopo aver esaminato 3.000 record. Questi studi sono stati condotti in diverse regioni, di cui nove negli Stati Uniti, quattro in Europa, tre in Cina e altri distribuiti in tutto il mondo. Le impostazioni includevano 14 studi in ospedale, tre in cliniche ambulatoriali, uno in una casa di cura e uno in un ambiente misto.

Gli studi coprivano una serie di specialità mediche, tra cui oncologia (4 studi), psichiatria (3 studi), medicina interna ospedaliera, neurologia e anestesiologia (2 studi ciascuno), nonché studi individuali di diabetologia, pneumologia, terapia intensiva e altre specialità.

Il numero medio di partecipanti in tutti gli studi era di 243, con un’età media di 59,3 anni. La percentuale di donne era in media del 50,5% e 10 studi riportavano la composizione razziale o etnica, con una mediana del 71,4% di partecipanti bianchi. Dodici studi hanno descritto i professionisti sanitari previsti, come ad esempio infermieri o operatori di assistenza primaria, e nove protocolli di formazione dettagliati che vanno da brevi introduzioni alla piattaforma a sessioni supervisionate di più giorni.

I sistemi di intelligenza artificiale differiscono per tipologia e funzione. Sette studi hanno utilizzato sistemi di monitoraggio per il monitoraggio in tempo reale e avvisi predittivi, sei hanno utilizzato sistemi di personalizzazione del trattamento e quattro studi hanno integrato più funzioni. Gli esempi includevano algoritmi per il controllo glicemico nel diabete, cure psichiatriche personalizzate e monitoraggio della tromboembolia venosa. Le fonti di dati di sviluppo spaziavano da grandi set di dati interni a dati raggruppati multi-istituzionali, applicando vari modelli ML come il gradient boosting, reti neurali, classificatori bayesiani e modelli basati sulla regressione. Nonostante questi sviluppi, la validazione esterna degli algoritmi è stata limitata nella maggior parte degli studi, sollevando preoccupazioni sulla loro generalizzabilità a popolazioni di pazienti più ampie.

Il rischio di bias è stato valutato come basso in quattro studi randomizzati, moderato in sette e alto in altri sette, mentre lo studio di coorte presentava un grave rischio di bias. L’adesione alle linee guida CONSORT-AI e TRIPOD-AI variava, con tre studi che hanno raggiunto la piena conformità mentre altri hanno avuto una conformità da elevata a bassa. La maggior parte degli studi condotti prima dell’introduzione di queste linee guida hanno mostrato un’adesione moderata, sebbene i riferimenti espliciti alle linee guida fossero rari.

I risultati hanno mostrato un mix di benefici e danni. Dodici studi hanno riportato benefici rilevanti per il paziente, tra cui la riduzione della mortalità, il miglioramento della depressione e della gestione del dolore e il miglioramento della qualità della vita. Tuttavia, solo otto studi includevano valutazioni del danno standardizzate e la maggior parte di essi non è riuscita a documentare in modo esaustivo gli eventi avversi. Sebbene sei sistemi di intelligenza artificiale abbiano ricevuto approvazioni normative, la relazione tra stato normativo, qualità dello studio ed esiti sui pazienti è rimasta poco chiara.

Conclusioni

Questa revisione sistematica evidenzia la mancanza di studi di alta qualità che valutino i risultati rilevanti per i pazienti dei sistemi ADM legati all’intelligenza artificiale nell’assistenza sanitaria. Mentre i benefici sono stati costantemente mostrati in psichiatria, altre aree hanno riportato risultati contrastanti con prove limitate di miglioramenti nella mortalità, nell’ansia e nei ricoveri ospedalieri. La maggior parte degli studi mancavano di valutazioni equilibrate del rapporto rischi-benefici e non riuscivano a isolare i contributi unici dell’IA.

I risultati evidenziano l’urgente necessità di reporting trasparente, solide pratiche di validazione e quadri standardizzati per guidare l’integrazione sicura ed efficace dell’IA negli ambienti clinici.


Fonti: