El sistema de IA iguala la precisión del diagnóstico al tiempo que reduce los costos médicos
En un nuevo estudio, el sistema de diagnóstico basado en inteligencia artificial de Microsoft superó a los médicos experimentados al resolver los casos médicos más desafiantes de manera más rápida, económica y precisa. Estudio: Diagnóstico secuencial con modelos de lenguaje. Crédito de la imagen: MetamorWorks/Shutterstock.com *Divulgación importante: Arxiv publica informes científicos preliminares que no están revisados por pares y, por lo tanto, no se consideran concluyentes, no guían la práctica clínica ni los comportamientos relacionados con la salud, ni se tratan como información establecida. Un estudio reciente sobre los servidores de preimpresión Arxiv comparó la precisión del diagnóstico y el gasto de recursos de los sistemas de inteligencia artificial con los de los médicos en casos complejos. El equipo de IA de Microsoft demostró el uso eficiente de la inteligencia artificial (IA) en...
El sistema de IA iguala la precisión del diagnóstico al tiempo que reduce los costos médicos
En un nuevo estudio, el sistema de diagnóstico basado en inteligencia artificial de Microsoft superó a los médicos experimentados al resolver los casos médicos más desafiantes de manera más rápida, económica y precisa.
Estudio: Diagnóstico secuencial con modelos de lenguaje. Crédito de la imagen: MetamorWorks/Shutterstock.com
*Aviso importante: arxivPublicar informes científicos preliminares que no estén revisados por pares y, por lo tanto, no se consideren concluyentes, no orienten la práctica clínica/comportamientos relacionados con la salud, ni se traten como información establecida.
Un estudio reciente sobre laarxivPreprint Server comparó la precisión del diagnóstico y el gasto en recursos de los sistemas de inteligencia artificial con los de los médicos en casos complejos. El equipo de IA de Microsoft demostró el uso eficiente de la inteligencia artificial (IA) en medicina para abordar los desafíos de diagnóstico que los médicos deben descifrar.
Diagnóstico secuencial y modelos de lenguaje.
Los médicos suelen diagnosticar una enfermedad en los pacientes mediante un proceso de razonamiento clínico que implica preguntas y pruebas iterativas paso a paso. Incluso con información inicial limitada, los médicos limitan el posible diagnóstico interrogando al paciente y confirmándolo mediante pruebas bioquímicas, imágenes, biopsia y otros procedimientos de diagnóstico.
Resolver un caso complejo requiere un conjunto integral de habilidades, incluida la identificación de las preguntas o pruebas más críticas a seguir, prestar atención a los costos de las pruebas para evitar una mayor carga para el paciente y reconocer la evidencia para hacer un diagnóstico confiable.
Varios estudios han demostrado la mayor eficiencia de los modelos de lenguaje (LMS) en la realización de exámenes de licencia médica y viñetas de diagnóstico altamente estructuradas. Sin embargo, el rendimiento de la mayoría de los LM se ha evaluado en condiciones artificiales que son drásticamente diferentes de los entornos clínicos del mundo real.
La mayoría de los modelos LMS para evaluaciones de diagnóstico se basan en un cuestionario de opción múltiple y el diagnóstico se realiza a partir de un conjunto de respuestas predefinidas. Un ciclo de diagnóstico secuencial reducido aumenta el riesgo de sobreestimar la competencia del modelo de los puntos de referencia estáticos. Además, estos modelos de diagnóstico plantean el riesgo de pedidos indiscriminados de pruebas y cierre prematuro del diagnóstico. Por lo tanto, existe una necesidad urgente de un sistema de inteligencia artificial basado en un ciclo de diagnóstico secuencial para mejorar la precisión del diagnóstico y reducir los costos de las pruebas.
Sobre el estudio
Para superar las desventajas mencionadas anteriormente de los modelos LMS para el diagnóstico clínico, los científicos han desarrollado el Sequential Diagnostic Benchmark (SDBench) como un marco interactivo para evaluar agentes de diagnóstico (humanos o IA) a través de encuentros clínicos secuenciales realistas.
Para evaluar la precisión del diagnóstico, el estudio actual utilizó casos semanales publicados en el New England Journal of Medicine (NEJM), la revista médica líder en el mundo. Esta revista suele publicar notas de casos de pacientes del Hospital General de Massachusetts en un formato narrativo detallado. Estos casos se encuentran entre los más desafiantes en términos de diagnóstico e intelectualmente exigentes en la medicina clínica y, a menudo, requieren múltiples especialistas y pruebas de diagnóstico para confirmar un diagnóstico.
Sdbench de 304 casos de la Conferencia Clinicopatológica NEJM (2017-2025) en encuentros de diagnóstico graduales. Los datos médicos incluyeron presentaciones clínicas en diagnósticos definitivos que van desde enfermedades comunes (p. ej., neumonía) hasta trastornos raros (p. ej., hipoglucemia neonatal). Utilizando la plataforma interactiva, los agentes de diagnóstico deciden qué preguntas hacer, qué pruebas solicitar y cuándo confirmar un diagnóstico.
Information Gatekeeper es un modelo de lenguaje que revela detalles clínicos de un expediente de caso completo solo cuando se consulta explícitamente desde un expediente de caso completo. También puede proporcionar información adicional coherente con los casos para pruebas que no se describen en la descripción original del CPC. Después de realizar el diagnóstico final basado en la información recibida del guardián, se comparó la precisión de la evaluación clínica con el diagnóstico real. Además, se estimó el coste acumulado de todas las pruebas diagnósticas solicitadas y realizadas en diagnóstico real. Al evaluar la precisión y el costo del diagnóstico, Sdbench indica qué tan cerca estamos de brindar atención de alta calidad a un costo sostenible.
Resultados del estudio
El estudio actual analizó el desempeño de todos los agentes de diagnóstico en el SDBEN. Se evaluaron agentes de IA en los 304 casos de NEJM, mientras que los médicos fueron evaluados en un subconjunto retenido de 56 conjuntos de prueba. Este estudio encontró que los agentes de IA obtuvieron mejores resultados que los médicos en este subgrupo.
Los médicos que ejercen en los EE. UU. y el Reino Unido con una media de 12 años de experiencia clínica lograron una precisión diagnóstica del 20 % a un costo promedio de $ 2963 por caso en SDBench, lo que destaca la dificultad inherente del punto de referencia. Los médicos dedicaron una media de 11,8 minutos por caso y solicitaron 6,6 preguntas y 7,2 pruebas. GPT -4o superó a los médicos tanto en precisión diagnóstica como en costo. Los modelos disponibles comercialmente han ofrecido diferentes costos y precisión de diagnóstico.
El estudio actual también presentó MAI Diagnostic Orchestrator (MAI-DXO), una plataforma asociada con médicos que demostró una mayor eficiencia de diagnóstico que los médicos humanos y los modelos de lenguaje comerciales. En comparación con los LM comerciales, Mai-DXO demostró una mayor precisión diagnóstica y una reducción significativa de los costos médicos de más de la mitad. Por ejemplo, el modelo O3 disponible en el mercado logró una precisión de diagnóstico del 78,6% a 7.850 dólares, mientras que May-DXO logró una precisión del 79,9% a sólo 2.397 dólares o un 85,5% a 7.184 dólares.
MAI-DXO logró esto simulando un panel virtual de “agentes médicos” con diferentes roles en la generación de hipótesis, selección de pruebas, conocimiento de costos y verificación de errores. A diferencia del mensaje básico de IA, esta orquestación estructurada permitió que el sistema fuera iterativo y eficiente.
Mai-Dxo es un enfoque independiente del modelo que ha demostrado mejoras en la precisión en varios modelos de lenguaje, no solo en el modelo O3 Foundation.
Conclusiones y perspectivas de futuro
Los resultados del estudio actual muestran una mayor precisión diagnóstica y rentabilidad de los sistemas de IA cuando se procesan de forma iterativa y cuidadosa. Sdbench y Mai-Dxo proporcionaron una base empírica para avanzar en los diagnósticos asistidos por IA bajo limitaciones realistas.
En el futuro, Mai-DXO debe validarse en entornos clínicos donde la prevalencia y presentación de la enfermedad ocurren con tanta frecuencia como a diario y no como una ocasión rara. Además, se requieren puntos de referencia médicos interactivos a gran escala con más de 304 casos. La incorporación de modalidades visuales y sensoriales, como las imágenes, también podría mejorar la precisión del diagnóstico sin comprometer la rentabilidad.
Sin embargo, los autores señalan limitaciones importantes. Los casos NEJM -CPC se seleccionan por su dificultad y no reflejan presentaciones clínicas cotidianas. El estudio no incluyó pacientes sanos ni midió tasas de falsos positivos. Además, las estimaciones de costos de diagnóstico se basan en precios de EE. UU. y pueden variar en todo el mundo.
Los modelos también se probaron en un conjunto de pruebas retenido de casos recientes (2024-2025) para evaluar la generalización y evitar el sobreajuste, ya que muchos de estos casos se publicaron después del límite de entrenamiento para la mayoría de los modelos.
El artículo también plantea una pregunta más amplia: ¿deberíamos comparar los sistemas de IA con médicos individuales o con equipos médicos completos? Debido a que Mai-Dxo imita la colaboración de múltiples especialistas, la comparación puede reflejar algo más cercana a la atención en equipo que a la práctica individual.
Sin embargo, la investigación sugiere que los sistemas estructurados de IA como Mai-DXO algún día podrían apoyar o mejorar a los médicos, particularmente en entornos donde el acceso a especialistas es limitado o costoso.
¡Descarga tu copia en PDF ahora!
*Aviso importante: arxivPublicar informes científicos preliminares que no estén revisados por pares y, por lo tanto, no se consideren concluyentes, no orienten la práctica clínica/comportamientos relacionados con la salud, ni se traten como información establecida.
Fuentes:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405