IA en medicina: herramientas revolucionarias, resultados inciertos
¿Puede la IA realmente revolucionar la atención sanitaria? Una revisión sistemática descubre las lagunas ocultas en los beneficios para los pacientes y las barreras para una integración clínica significativa. En un estudio reciente publicado en The Lancet Regional Health - Europa, un grupo de investigadores evaluó los beneficios y daños de los sistemas algorítmicos de toma de decisiones (ADM) basados en inteligencia artificial (IA) utilizados por los profesionales de la salud en comparación con la atención estándar, centrándose en los resultados relevantes para el paciente. Antecedentes Los avances en IA han permitido que los sistemas superen a los expertos médicos en tareas como diagnóstico, medicina personalizada, seguimiento de pacientes y desarrollo de fármacos. A pesar de estos avances, aún no está claro si mejoraron...
IA en medicina: herramientas revolucionarias, resultados inciertos
¿Puede la IA realmente revolucionar la atención sanitaria? Una revisión sistemática descubre las lagunas ocultas en los beneficios para los pacientes y las barreras para una integración clínica significativa.
En un estudio reciente publicado enThe Lancet Regional Health – Europa, un grupo de investigadores evaluó los beneficios y daños de los sistemas algorítmicos de toma de decisiones (ADM) basados en inteligencia artificial (IA) utilizados por los profesionales de la salud en comparación con la atención estándar, centrándose en los resultados relevantes para el paciente.
fondo
Los avances en IA han permitido que los sistemas superen a los expertos médicos en tareas como diagnóstico, medicina personalizada, seguimiento de pacientes y desarrollo de fármacos. A pesar de estos avances, aún no está claro si la mejora de la precisión diagnóstica y las métricas de rendimiento se traducen en beneficios tangibles para el paciente, como una reducción de la mortalidad o la morbilidad.
La investigación actual a menudo prioriza el rendimiento analítico sobre los resultados clínicos, y muchos dispositivos médicos basados en IA se aprueban sin evidencia que los respalde de ensayos controlados aleatorios (ECA).
Además, la falta de transparencia y de evaluaciones estandarizadas de los daños asociados con estas tecnologías plantea preocupaciones éticas y prácticas. Esto pone de relieve una brecha crítica en la investigación y el desarrollo de la IA que requiere evaluaciones adicionales centradas en resultados relevantes para los pacientes para garantizar una integración significativa y segura en la atención médica.
Sobre el estudio
Validación externa limitada: la mayoría de los sistemas de IA evaluados se desarrollaron en base a datos internos, y pocos estudios reportaron validación externa, lo que genera preocupación sobre su generalización a diferentes poblaciones de pacientes.
Esta revisión sistemática siguió las pautas de Elementos de informes preferidos para revisiones sistemáticas y metanálisis (PRISMA) para garantizar el rigor metodológico. Las búsquedas se realizaron en el Sistema de recuperación y análisis de literatura médica en línea (MEDLINE), en la base de datos Excerpta Medica (EMBASE), en el público/editor MEDLINE (PubMed) y en el Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) Xplore y cubrieron un período de 10 años hasta el 27 de marzo de 2024, cuando los sistemas ADM relacionados con la IA se volvieron relevantes en los estudios de salud. La búsqueda incluyó términos relacionados con IA, aprendizaje automático (ML), algoritmos de decisión, profesionales de la salud y resultados de los pacientes.
Los estudios elegibles incluyeron diseños de intervención u observación con sistemas de apoyo a la toma de decisiones de IA desarrollados con ML o aprovechando su uso. Los estudios debían informar resultados relevantes para los pacientes, como mortalidad, morbilidad, duración de la estancia hospitalaria, reingreso o calidad de vida relacionada con la salud. Los criterios de exclusión incluyeron estudios sin registro previo, sin un estándar de control de atención o con un enfoque en robótica u otros sistemas no relacionados con la toma de decisiones basada en IA. El protocolo para esta revisión se registró previamente en el Registro Prospectivo Internacional de Revisiones Sistemáticas (PROSPERO) y se documentaron todos los cambios.
Los revisores verificaron títulos, resúmenes y textos completos según criterios predefinidos. La extracción de datos y la evaluación de la calidad se llevaron a cabo de forma independiente mediante formularios estandarizados. El riesgo de sesgo se evaluó utilizando la herramienta Cochrane Risk of Bias 2 (RoB 2) y la herramienta Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) para tener en cuenta posibles factores de confusión, mientras que la transparencia de los informes se evaluó utilizando los estándares consolidados de expansión de ensayos de informes - Inteligencia artificial (CONSORT-AI) y los informes transparentes de un modelo de predicción multivariable para pronóstico o diagnóstico individual. marco de inteligencia artificial (TRIPOD-AI).
Los datos extraídos incluyeron entornos de estudio, diseño, detalles de intervención y comparación, datos demográficos de pacientes y profesionales, características de algoritmos y medidas de resultado. Los estudios también se clasificaron por tipo de sistema de IA, área clínica, objetivos de predicción e información regulatoria y de financiación. El análisis también examinó si las contribuciones únicas de los sistemas de IA a los resultados fueron aisladas y validadas.
Resultados del estudio
Especialidades subrepresentadas: si bien los estudios de psiquiatría y oncología estuvieron bien representados, otras especialidades como cuidados intensivos y neumología siguen estando subrepresentadas, lo que potencialmente distorsiona la aplicabilidad más amplia de los resultados.
La revisión sistemática incluyó 19 estudios, incluidos 18 ECA y un estudio de cohorte prospectivo, seleccionados después de revisar 3000 registros. Estos estudios se realizaron en diferentes regiones, incluidos nueve en Estados Unidos, cuatro en Europa, tres en China y otros distribuidos por todo el mundo. Los entornos incluyeron 14 estudios en hospitales, tres en clínicas ambulatorias, uno en una residencia de ancianos y uno en un entorno mixto.
Los estudios cubrieron una variedad de especialidades médicas, incluyendo oncología (4 estudios), psiquiatría (3 estudios), medicina interna hospitalaria, neurología y anestesiología (2 estudios cada una), así como estudios individuales en diabetología, neumología, cuidados intensivos y otras especialidades.
El número medio de participantes en todos los estudios fue 243, con una edad media de 59,3 años. La proporción de mujeres promedió el 50,5% y 10 estudios informaron sobre la composición racial o étnica, con una media del 71,4% de participantes blancos. Doce estudios describieron a los profesionales de la salud previstos, como: por ejemplo, enfermeras o proveedores de atención primaria, y nueve protocolos de capacitación detallados que van desde breves introducciones a la plataforma hasta sesiones supervisadas de varios días.
Los sistemas de IA difieren en tipo y función. Siete estudios utilizaron sistemas de seguimiento para el seguimiento en tiempo real y alertas predictivas, seis utilizaron sistemas de personalización del tratamiento y cuatro estudios integraron múltiples funciones. Los ejemplos incluyeron algoritmos para el control glucémico en la diabetes, atención psiquiátrica personalizada y monitorización del tromboembolismo venoso. Las fuentes de datos de desarrollo abarcaron desde grandes conjuntos de datos internos hasta datos multiinstitucionales agrupados, aplicando varios modelos de aprendizaje automático, como aumento de gradiente, redes neuronales, clasificadores bayesianos y modelos basados en regresión. A pesar de estos avances, la validación externa de los algoritmos fue limitada en la mayoría de los estudios, lo que generó preocupaciones sobre su generalización a poblaciones de pacientes más amplias.
El riesgo de sesgo se evaluó como bajo en cuatro ECA, moderado en siete y alto en otros siete, mientras que el estudio de cohorte tenía un riesgo de sesgo grave. El cumplimiento de las directrices CONSORT-AI y TRIPOD-AI varió: tres estudios lograron un cumplimiento total, mientras que otros tuvieron un cumplimiento alto o bajo. La mayoría de los estudios realizados antes de la introducción de estas directrices mostraron una adherencia moderada, aunque las referencias explícitas a las directrices fueron raras.
Los resultados mostraron una combinación de beneficios y daños. Doce estudios informaron beneficios relevantes para los pacientes, incluidas reducciones en la mortalidad, mejor manejo de la depresión y el dolor y mejor calidad de vida. Sin embargo, sólo ocho estudios incluyeron evaluaciones de daños estandarizadas y la mayoría de ellos no lograron documentar de manera exhaustiva los eventos adversos. Aunque seis sistemas de IA recibieron aprobaciones regulatorias, las relaciones entre el estado regulatorio, la calidad de los estudios y los resultados de los pacientes seguían sin estar claras.
Conclusiones
Esta revisión sistemática destaca la falta de estudios de alta calidad que evalúen los resultados relevantes para los pacientes de los sistemas ADM relacionados con la IA en la atención sanitaria. Si bien los beneficios se mostraron consistentemente en psiquiatría, otras áreas informaron resultados mixtos con evidencia limitada de mejoras en la mortalidad, la ansiedad y las hospitalizaciones. La mayoría de los estudios carecían de evaluaciones equilibradas de daños y beneficios y no lograron aislar las contribuciones únicas de la IA.
Los hallazgos resaltan la necesidad urgente de informes transparentes, prácticas de validación sólidas y marcos estandarizados para guiar la integración segura y efectiva de la IA en entornos clínicos.
Fuentes: