Google Gemini en Bard slagen voor het oogheelkunde-examen
Bekijk hoe Google Gemini en Bard presteren op het examen Oogheelkunde. Onderzoek toont hun prestaties in verschillende landen en disciplines. Belangrijke inzichten!

Google Gemini en Bard slagen voor het oogheelkunde-examen
Dat blijkt uit een onderzoek dat onlangs in het tijdschrift is gepubliceerdOog,Onderzoekers uit Canada evalueerden de prestaties van twee kunstmatige intelligentie (AI) chatbots, Google Gemini en Bard, op het examen van de Ophthalmology Board.
Ze ontdekten dat beide instrumenten een aanvaardbare responsnauwkeurigheid bereikten en goed presteerden op het gebied van de oogheelkunde, hoewel er enkele verschillen tussen landen waren.
achtergrond
AI-chatbots zoals ChatGPT (afkorting van Chat-Generative Pre-Trained Transformer), Bard en Gemini worden steeds vaker gebruikt in de medische wereld. Je prestaties evolueren voortdurend tussen examens en disciplines.
Terwijl de nauwkeurigheid van ChatGPT-3.5 tot 64% bedroeg in stap één en twee van de AMBOSS- en NBME-examens (afkorting van National Board Medical Examination), lieten nieuwere versies zoals ChatGPT-4 verbeterde prestaties zien.
Google's Bard en Gemini bieden antwoorden op basis van diverse culturele en taalkundige trainingen en kunnen informatie afstemmen op specifieke landen. De reacties variëren echter per regio en vereisen verder onderzoek om consistentie te garanderen, vooral bij medische toepassingen waar nauwkeurigheid van cruciaal belang is voor de patiëntveiligheid.
In het huidige onderzoek probeerden onderzoekers de prestaties van Google Gemini en Bard te evalueren met behulp van een reeks oefenvragen die waren ontworpen voor het certificeringsexamen van de Ophthalmology Board.
Over de studie
De prestaties van Google Gemini en Bard werden geëvalueerd met behulp van 150 op tekst gebaseerde meerkeuzevragen van EyeQuiz, een educatief platform voor medische professionals die gespecialiseerd zijn in oogheelkunde.
De portal biedt oefenvragen voor verschillende examens, waaronder het Ophthalmic Knowledge Assessment Program (OKAP), National Board-examens zoals het American Board of Ophthalmology (ABO)-examen en bepaalde postdoctorale examens.
Vragen werden handmatig gecategoriseerd en gegevens werden verzameld met behulp van de Bard- en Gemini-versies die respectievelijk op 30 november en 28 december 2023 beschikbaar waren. Voor beide tools werden de nauwkeurigheid, het verstrekken van uitleg, de responstijd en de vraaglengte geëvalueerd.
Secundaire analyses omvatten het beoordelen van de prestaties in andere landen dan de Verenigde Staten (VS), waaronder Vietnam, Brazilië en Nederland, met behulp van virtuele particuliere netwerken (VPN's).
Er zijn statistische tests uitgevoerd, waaronder chi-kwadraat- en Mann-Whitney U-tests, om de prestaties van verschillende landen en chatbotmodellen te vergelijken. Multivariabele logistische regressie werd gebruikt om factoren te onderzoeken die correcte antwoorden beïnvloeden.
Resultaten en discussie
Bard en Gemini reageerden snel en consistent op alle 150 vragen zonder dat er veel vraag naar was. In de primaire analyse met de Amerikaanse versies had Bard 7,1 ± 2,7 seconden nodig om te reageren, terwijl Gemini 7,1 ± 2,8 seconden nodig had, wat een langere gemiddelde reactieduur had.
In de primaire analyse met behulp van de Amerikaanse vorm van chatbots bereikten zowel Bard als Gemini een nauwkeurigheid van 71%, waarbij ze 106 van de 150 vragen correct beantwoordden. Bard gaf uitleg voor 86% van zijn antwoorden, terwijl Gemini uitleg gaf voor alle antwoorden.
Er werd vastgesteld dat Bard het beste presteerde op het gebied van orbitale en plastische chirurgie, terwijl Gemini superieure prestaties vertoonde op het gebied van algemene oogheelkunde, orbitale en plastische chirurgie, glaucoom en uveïtis. Beide instrumenten hadden het echter moeilijk in de categorieën cataract-, lens- en refractiechirurgie.
In de secundaire analyse met Bard uit Vietnam beantwoordde de chatbot 67% van de vragen correct, vergelijkbaar met de Amerikaanse versie. Het gebruik van Bard uit Vietnam resulteerde echter in andere antwoordkeuzes voor 21% van de vragen vergeleken met de Amerikaanse versie.
Voor een tweeling uit Vietnam werd 74% van de vragen correct beantwoord, vergelijkbaar met de Amerikaanse versie, hoewel er voor 15% van de vragen verschillen waren in de antwoordkeuze in vergelijking met de Amerikaanse versie. In beide gevallen werden sommige vragen die onjuist waren beantwoord door de Amerikaanse versies, correct beantwoord door de Vietnam-versies en omgekeerd.
De Vietnam-versies van Bard en Gemini verklaarden respectievelijk 86% en 100% van hun antwoorden. Bard presteerde het beste bij retinale en glasvochtchirurgie en orbitale en plastische chirurgie (80% nauwkeurigheid), terwijl Gemini beter presteerde bij hoornvlies- en externe ziekten, algemene oogheelkunde en glaucoom (elk 87% nauwkeurigheid).
Bard had het meeste last van staar en lenzen (40% nauwkeurigheid), terwijl Gemini worstelde met kinderoogheelkundige problemen en scheelzien (60% nauwkeurigheid). De prestaties van Gemini in Brazilië en Nederland waren relatief slechter dan die van de Amerikaanse en Vietnam-versies.
Ondanks de veelbelovende resultaten omvatten de beperkingen van het onderzoek onder meer de kleine steekproefomvang van de vragen, de afhankelijkheid van een openbaar beschikbare vragenbank, onontdekte effecten van gebruikersprompts, internetsnelheid, websiteverkeer op responstijden en af en toe onjuiste uitleg van chatbots.
Toekomstige studies zouden het relatief onontdekte vermogen van chatbots om oogbeelden te interpreteren kunnen onderzoeken. Verder onderzoek is nodig om de beperkingen aan te pakken en aanvullende toepassingen op dit gebied te verkennen.
Diploma
Samenvattend: hoewel zowel de Amerikaanse als de Vietnamese versie van Bard en Gemini de mogelijke responsvariabiliteit benadrukken die verband houdt met de locatie van de gebruiker, toonde het onderzoek bevredigende prestaties aan op het gebied van oogheelkundige praktijkvragen.
Toekomstige evaluaties die de verbetering van AI-chatbots volgen en vergelijkingen tussen oogartsassistenten en AI-chatbots kunnen waardevolle inzichten opleveren in hun effectiviteit en betrouwbaarheid.
Bronnen:
-
Mihalache, A. et al., (2024) Google Gemini en Bard chatbotprestaties op het gebied van kunstmatige intelligentie bij de beoordeling van kennis van de oogheelkunde.Oog.doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4