Los modelos de IA luchan en las conversaciones médicas del mundo real
Las herramientas de inteligencia artificial como ChatGPT son promocionadas por su promesa de reducir la carga de trabajo de los médicos al clasificar a los pacientes, recopilar historiales médicos e incluso realizar diagnósticos preliminares. Los pacientes ya están utilizando estas herramientas, conocidas como modelos de lenguaje grande, para comprender sus síntomas y los resultados de las pruebas médicas. Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas médicas estandarizadas, ¿qué tan bien se desempeñan en situaciones que imitan más fielmente el mundo real? No tan bien, según los resultados de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford. Para su análisis, publicado el 2 de enero...
Los modelos de IA luchan en las conversaciones médicas del mundo real
Las herramientas de inteligencia artificial como ChatGPT son promocionadas por su promesa de reducir la carga de trabajo de los médicos al clasificar a los pacientes, recopilar historiales médicos e incluso realizar diagnósticos preliminares.
Los pacientes ya están utilizando estas herramientas, conocidas como modelos de lenguaje grande, para comprender sus síntomas y los resultados de las pruebas médicas.
Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas médicas estandarizadas, ¿qué tan bien se desempeñan en situaciones que imitan más fielmente el mundo real?
No tan bien, según los resultados de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.
Para su análisis, publicado el 2 de enero enmedicina naturallos investigadores diseñaron un marco de evaluación -; o una prueba -; llamado CRAFT-MD (Marco de evaluación del razonamiento conversacional para pruebas en medicina) y lo implementó en cuatro modelos de lenguaje grande para ver qué tan bien funcionaban en entornos que imitan estrechamente las interacciones reales con los pacientes.
Los cuatro modelos de lenguaje extenso obtuvieron buenos resultados en preguntas estilo examen médico, pero su desempeño se deterioró cuando participaron en conversaciones que imitaban más de cerca las interacciones del mundo real.
Esta brecha, dijeron los investigadores, subraya una necesidad doble: en primer lugar, crear evaluaciones más realistas que evalúen mejor la idoneidad de los modelos clínicos de IA para su uso en el mundo real, y en segundo lugar, mejorar la capacidad de estas herramientas para diagnosticar basándose en interacciones más realistas antes de que se utilicen en la clínica.
Las herramientas de evaluación como CRAFT-MD, según el equipo de investigación, no solo pueden evaluar con mayor precisión los modelos de IA para determinar su condición física en el mundo real, sino que también podrían ayudar a optimizar su desempeño en la clínica.
Nuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA sobresalen en los exámenes médicos, tienen dificultades con los entresijos básicos de una visita al médico. La dinámica de las conversaciones médicas (la necesidad de hacer las preguntas correctas en el momento adecuado, reunir información dispersa y razonar basándose en los síntomas) presenta desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. A medida que pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico”.
Pranav Rajpurkar, autor principal del estudio, profesor asistente de informática biomédica en la Facultad de Medicina de Harvard
Una mejor prueba para comprobar el rendimiento de la IA en la práctica
Actualmente, los desarrolladores prueban el rendimiento de los modelos de IA pidiéndoles que respondan preguntas médicas de opción múltiple, generalmente derivadas del examen nacional para estudiantes de medicina graduados o de pruebas que los residentes toman como parte de su certificación.
"Este enfoque supone que toda la información relevante se presenta de forma clara y sucinta, a menudo utilizando terminología médica o palabras de moda que simplifican el proceso de diagnóstico, pero en el mundo real este proceso es mucho más complicado", dijo Shreya Johri, coprimer autor del estudio y candidato a doctorado en el Laboratorio Rajpurkar de la Facultad de Medicina de Harvard. "Necesitamos un marco de prueba que refleje mejor la realidad y, por lo tanto, pueda predecir mejor qué tan bien funcionaría un modelo".
CRAFT-MD fue desarrollado como un dispositivo de medición más realista.
Para simular interacciones del mundo real, CRAFT-MD evalúa qué tan bien los modelos en lenguaje grande pueden recopilar información sobre síntomas, medicamentos e antecedentes familiares y luego hacer un diagnóstico. Un agente de IA se hace pasar por un paciente y responde preguntas en un estilo conversacional y natural. Otro agente de IA evalúa la precisión del diagnóstico final proporcionado por el modelo en lenguaje grande. Luego, los expertos humanos evalúan los resultados de cada encuentro en términos de capacidad para recopilar información relevante del paciente, precisión del diagnóstico al presentar información dispersa y cumplimiento de las instrucciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA:; versiones tanto propietarias como comerciales y de código abierto –; para la realización de 2.000 viñetas clínicas que cubren afecciones comunes en atención primaria y 12 especialidades médicas.
Todos los modelos de IA mostraron limitaciones, particularmente en su capacidad para llevar a cabo conversaciones clínicas y razonar basándose en la información proporcionada por los pacientes. Esto, a su vez, afectó su capacidad para realizar historiales médicos y realizar un diagnóstico adecuado. Por ejemplo, los modelos a menudo tuvieron dificultades para hacer las preguntas correctas para recopilar la historia relevante del paciente, omitieron información importante durante la toma de la historia y tuvieron dificultades para sintetizar información dispersa. La precisión de estos modelos disminuyó cuando se les presentó información abierta en lugar de respuestas de opción múltiple. Estos modelos también obtuvieron peores resultados en el intercambio de ida y vuelta -; como es el caso de la mayoría de las conversaciones en el mundo real –; en lugar de participar en conversaciones resumidas.
Recomendaciones para optimizar el rendimiento de la IA en la práctica
Con base en estos hallazgos, el equipo ofrece una serie de recomendaciones tanto para los desarrolladores de IA que diseñan modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.
Esto incluye:
- Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
- Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
- Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
- Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
- Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können
Además, los investigadores recomiendan incluir en la evaluación tanto agentes de IA como expertos humanos, ya que depender únicamente de expertos humanos requiere mucha mano de obra y es costoso. Por ejemplo, CRAFT-MD fue más rápido que los evaluadores humanos y procesó 10.000 entrevistas en 48 a 72 horas, además de 15 a 16 horas de evaluación de expertos. Por el contrario, los enfoques basados en humanos requerirían un reclutamiento extenso y aproximadamente 500 horas para simulaciones de pacientes (casi 3 minutos por conversación) y aproximadamente 650 horas para evaluaciones de expertos (casi 4 minutos por conversación). El uso de evaluadores de IA como primera opción tiene el beneficio adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.
Los investigadores esperan que el propio CRAFT-MD también se actualice y optimice periódicamente para incorporar modelos mejorados de IA de pacientes.
"Como médico y científico, estoy interesado en modelos de IA que puedan mejorar de manera efectiva y ética la práctica clínica", dijo la coautora principal del estudio, Roxana Daneshjou, profesora asistente de ciencia de datos biomédicos y dermatología en la Universidad de Stanford. "CRAFT-MD crea un marco que refleja mejor las interacciones del mundo real, lo que ayuda a avanzar en el campo cuando se trata de probar el rendimiento de los modelos de IA en la atención sanitaria".
Fuentes:
Johri, S.,et al. (2025) Un marco de evaluación para el uso clínico de modelos de lenguaje grandes en tareas de interacción con pacientes. Medicina de la naturaleza. doi.org/10.1038/s41591-024-03328-5.