Google Gemini et Bard réussissent l'examen d'ophtalmologie
Découvrez les résultats de Google Gemini et Bard à l'examen d'ophtalmologie. Une étude montre leurs performances dans différents pays et disciplines. Informations importantes !

Google Gemini et Bard réussissent l'examen d'ophtalmologie
Dans une étude récemment publiée dans la revueŒil,Des chercheurs canadiens ont évalué les performances de deux chatbots d’intelligence artificielle (IA), Google Gemini et Bard, à l’examen Ophthalmology Board.
Ils ont constaté que les deux outils atteignaient une précision de réponse acceptable et fonctionnaient bien dans le domaine de l'ophtalmologie, même s'il existait quelques différences entre les pays.
arrière-plan
Les chatbots IA tels que ChatGPT (abréviation de Chat-Generative Pre-Trained Transformer), Bard et Gemini sont de plus en plus utilisés dans le domaine médical. Votre performance évolue continuellement à travers les examens et les disciplines.
Alors que la précision de ChatGPT-3.5 atteignait 64 % dans les étapes un et deux des examens AMBOSS et NBME (abréviation de National Board Medical Examination), des versions plus récentes telles que ChatGPT-4 ont montré des performances améliorées.
Bard et Gemini de Google fournissent des réponses basées sur une formation culturelle et linguistique diversifiée et peuvent adapter les informations à des pays spécifiques. Cependant, les réponses varient selon les régions et nécessitent des recherches plus approfondies pour garantir la cohérence, en particulier dans les applications médicales où la précision est essentielle à la sécurité des patients.
Dans la présente étude, les chercheurs ont cherché à évaluer les performances de Google Gemini et Bard à l’aide d’une série de questions pratiques conçues pour l’examen de certification Ophthalmology Board.
À propos de l'étude
Les performances de Google Gemini et Bard ont été évaluées à l'aide de 150 questions textuelles à choix multiples d'EyeQuiz, une plateforme éducative destinée aux professionnels de la santé spécialisés en ophtalmologie.
Le portail propose des questions pratiques pour divers examens, notamment le programme d'évaluation des connaissances ophtalmiques (OKAP), les examens du National Board tels que l'examen de l'American Board of Ophthalmology (ABO) et certains examens de troisième cycle.
Les questions ont été classées manuellement et les données ont été collectées à l'aide des versions Bard et Gemini disponibles respectivement les 30 novembre et 28 décembre 2023. L'exactitude, la fourniture d'explications, le temps de réponse et la longueur des questions ont été évalués pour les deux outils.
Les analyses secondaires comprenaient l'évaluation des performances dans des pays autres que les États-Unis, notamment le Vietnam, le Brésil et les Pays-Bas, à l'aide de réseaux privés virtuels (VPN).
Des tests statistiques, notamment les tests du chi carré et de Mann-Whitney U, ont été effectués pour comparer les performances de différents pays et modèles de chatbot. La régression logistique multivariée a été utilisée pour examiner les facteurs qui influencent les réponses correctes.
Résultats et discussion
Bard et Gemini ont répondu rapidement et de manière cohérente aux 150 questions sans rencontrer de forte demande. Dans l'analyse principale avec les versions américaines, Bard a mis 7,1 ± 2,7 secondes pour répondre, tandis que Gemini a mis 7,1 ± 2,8 secondes, ce qui avait une durée de réponse moyenne plus longue.
Dans l'analyse principale utilisant la forme américaine de chatbots, Bard et Gemini ont atteint une précision de 71 %, répondant correctement à 106 questions sur 150. Bard a fourni des explications pour 86 % de ses réponses, tandis que Gemini a fourni des explications pour toutes les réponses.
Il a été constaté que Bard obtenait de meilleurs résultats en chirurgie orbitaire et plastique, tandis que Gemini affichait des performances supérieures en ophtalmologie générale, en chirurgie orbitaire et plastique, en glaucome et en uvéite. Cependant, les deux outils ont connu des difficultés dans les catégories de la cataracte, du cristallin et de la chirurgie réfractive.
Dans l'analyse secondaire avec Bard du Vietnam, le chatbot a répondu correctement à 67 % des questions, similaire à la version américaine. Cependant, l'utilisation de Bard du Vietnam a donné lieu à des choix de réponses différents pour 21 % des questions par rapport à la version américaine.
Pour les jumeaux du Vietnam, 74 % des questions ont reçu une réponse correcte, similaire à la version américaine, bien qu'il y ait des différences dans la sélection des réponses pour 15 % des questions par rapport à la version américaine. Dans les deux cas, certaines questions auxquelles les versions américaines avaient répondu incorrectement ont reçu une réponse correcte dans les versions vietnamiennes et vice versa.
Les versions vietnamiennes de Bard et Gemini expliquaient respectivement 86 % et 100 % de leurs réponses. Bard a obtenu de meilleurs résultats en chirurgie rétinienne et vitrée ainsi qu'en chirurgie orbitaire et plastique (précision de 80 %), tandis que Gemini a obtenu de meilleurs résultats en maladies cornéennes et externes, en ophtalmologie générale et en glaucome (précision de 87 % chacun).
Bard a eu le plus de difficultés avec les cataractes et les lentilles (précision de 40 %), tandis que Gemini a eu du mal avec les problèmes d'ophtalmologie pédiatrique et le strabisme (précision de 60 %). Les performances de Gemini au Brésil et aux Pays-Bas étaient relativement moins bonnes que celles des versions américaine et vietnamienne.
Malgré les résultats prometteurs, les limites de l'étude incluent la petite taille de l'échantillon de questions, le recours à une banque de questions accessible au public, les effets inexplorés des invites des utilisateurs, la vitesse d'Internet, le trafic du site Web sur les temps de réponse et les explications incorrectes occasionnelles des chatbots.
De futures études pourraient examiner la capacité relativement inexplorée des chatbots à interpréter les images oculaires. Des recherches supplémentaires sont nécessaires pour remédier aux limites et explorer des applications supplémentaires dans ce domaine.
Diplôme
En résumé, alors que les versions américaine et vietnamienne de Bard et Gemini mettent en évidence une possible variabilité des réponses liée à l'emplacement de l'utilisateur, l'étude a démontré des performances satisfaisantes sur les questions de pratique en ophtalmologie.
Les futures évaluations suivant l’amélioration des chatbots IA et les comparaisons entre les résidents en ophtalmologie et les chatbots IA pourraient fournir des informations précieuses sur leur efficacité et leur fiabilité.
Sources :
-
Mihalache, A. et al., (2024) Performances du chatbot à intelligence artificielle Google Gemini et Bard dans l'évaluation des connaissances en ophtalmologie.Œil.est ce que je: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4