Google Gemini y Bard aprueban el examen de oftalmología

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Vea cómo se desempeñan Google Gemini y Bard en el examen de Oftalmología. El estudio muestra su desempeño en diferentes países y disciplinas. ¡Información importante!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Vea cómo se desempeñan Google Gemini y Bard en el examen de Oftalmología. El estudio muestra su desempeño en diferentes países y disciplinas. ¡Información importante!

Google Gemini y Bard aprueban el examen de oftalmología

En un estudio publicado recientemente en la revistaOjo,Investigadores de Canadá evaluaron el desempeño de dos chatbots con inteligencia artificial (IA), Google Gemini y Bard, en el examen de la Junta de Oftalmología.

Descubrieron que ambas herramientas lograron una precisión de respuesta aceptable y funcionaron bien en el campo de la oftalmología, aunque hubo algunas diferencias entre países.

fondo

Los chatbots de IA como ChatGPT (abreviatura de Chat-Generative Pre-Trained Transformer), Bard y Gemini se utilizan cada vez más en el campo médico. Su desempeño evoluciona continuamente en todos los exámenes y disciplinas.

Si bien la precisión de ChatGPT-3.5 fue de hasta el 64% en los pasos uno y dos de los exámenes AMBOSS y NBME (abreviatura de National Board Medical Examination), las versiones más nuevas como ChatGPT-4 mostraron un rendimiento mejorado.

Bard y Gemini de Google brindan respuestas basadas en una formación cultural y lingüística diversa y pueden adaptar la información a países específicos. Sin embargo, las respuestas varían según la región y requieren más investigación para garantizar la coherencia, especialmente en aplicaciones médicas donde la precisión es fundamental para la seguridad del paciente.

En el presente estudio, los investigadores intentaron evaluar el desempeño de Google Gemini y Bard utilizando una serie de preguntas de práctica diseñadas para el examen de certificación de la Junta de Oftalmología.

Sobre el estudio

El desempeño de Google Gemini y Bard se evaluó mediante 150 preguntas de opción múltiple basadas en texto de EyeQuiz, una plataforma educativa para profesionales médicos especializados en oftalmología.

El portal proporciona preguntas de práctica para varios exámenes, incluido el Programa de evaluación de conocimientos oftálmicos (OKAP), exámenes de la Junta Nacional, como el examen de la Junta Estadounidense de Oftalmología (ABO), y ciertos exámenes de posgrado.

Las preguntas se categorizaron manualmente y los datos se recopilaron utilizando las versiones Bard y Gemini disponibles el 30 de noviembre y el 28 de diciembre de 2023, respectivamente. Para ambas herramientas se evaluaron la precisión, la provisión de explicaciones, el tiempo de respuesta y la extensión de las preguntas.

Los análisis secundarios incluyeron la evaluación del desempeño en países distintos de los Estados Unidos (EE. UU.), incluidos Vietnam, Brasil y los Países Bajos, utilizando redes privadas virtuales (VPN).

Se realizaron pruebas estadísticas, incluidas las pruebas de chi-cuadrado y U de Mann-Whitney, para comparar el rendimiento de diferentes países y modelos de chatbot. Se utilizó regresión logística multivariable para examinar los factores que influyen en las respuestas correctas.

Resultados y discusión

Bard y Gemini respondieron de manera rápida y consistente a las 150 preguntas sin experimentar una gran demanda. En el análisis principal con las versiones estadounidenses, Bard tardó 7,1 ± 2,7 segundos en responder, mientras que Gemini tardó 7,1 ± 2,8 segundos, que tuvo una duración promedio de respuesta más larga.

En el análisis principal utilizando la forma estadounidense de chatbots, tanto Bard como Gemini lograron un 71% de precisión, respondiendo correctamente 106 de 150 preguntas. Bard proporcionó explicaciones para el 86% de sus respuestas, mientras que Gemini proporcionó explicaciones para todas las respuestas.

Se descubrió que Bard se desempeñó mejor en cirugía plástica y orbitaria, mientras que Gemini mostró un desempeño superior en oftalmología general, cirugía plástica y orbitaria, glaucoma y uveítis. Sin embargo, ambas herramientas tuvieron problemas en las categorías de cataratas, cristalino y cirugía refractiva.

En el análisis secundario con Bard de Vietnam, el chatbot respondió correctamente el 67% de las preguntas, similar a la versión estadounidense. Sin embargo, el uso de Bard de Vietnam dio como resultado diferentes opciones de respuesta para el 21% de las preguntas en comparación con la versión estadounidense.

Para los gemelos de Vietnam, el 74% de las preguntas se respondieron correctamente, similar a la versión estadounidense, aunque hubo diferencias en la selección de respuestas para el 15% de las preguntas en comparación con la versión estadounidense. En ambos casos, algunas preguntas respondidas incorrectamente en las versiones estadounidenses fueron respondidas correctamente en las versiones de Vietnam y viceversa.

Las versiones vietnamitas de Bard y Gemini explicaron el 86% y el 100% de sus respuestas, respectivamente. Bard obtuvo mejores resultados en cirugía de retina y vítreo y cirugía plástica y orbitaria (80% de precisión), mientras que Gemini obtuvo mejores resultados en enfermedades corneales y externas, oftalmología general y glaucoma (87% de precisión cada una).

Bard tuvo más problemas con cataratas y lentes (40% de precisión), mientras que Gemini tuvo problemas con los desafíos de oftalmología pediátrica y el estrabismo (60% de precisión). El desempeño de Gemini en Brasil y los Países Bajos fue relativamente peor que el de las versiones de Estados Unidos y Vietnam.

A pesar de los resultados prometedores, las limitaciones del estudio incluyen el pequeño tamaño de la muestra de preguntas, la dependencia de un banco de preguntas disponible públicamente, los efectos inexplorados de las indicaciones de los usuarios, la velocidad de Internet, el tráfico del sitio web en los tiempos de respuesta y explicaciones incorrectas ocasionales de los chatbots.

Estudios futuros podrían examinar la capacidad relativamente inexplorada de los chatbots para interpretar imágenes oculares. Se necesita más investigación para abordar las limitaciones y explorar aplicaciones adicionales en esta área.

Diploma

En resumen, si bien las versiones de Bard y Gemini de EE. UU. y Vietnam resaltan la posible variabilidad de respuesta relacionada con la ubicación del usuario, el estudio demostró un desempeño satisfactorio en preguntas de práctica de oftalmología.

Las evaluaciones futuras que sigan la mejora de los chatbots de IA y las comparaciones entre residentes de oftalmología y chatbots de IA podrían proporcionar información valiosa sobre su eficacia y confiabilidad.


Fuentes:

Journal reference: