Google Gemini og Bard består oftalmologieksamenen
Se hvordan Google Gemini og Bard presterer på oftalmologi-eksamenen. Studien viser deres prestasjoner i forskjellige land og disipliner. Viktig innsikt!

Google Gemini og Bard består oftalmologieksamenen
I en studie nylig publisert i tidsskriftetØye,Forskere fra Canada evaluerte ytelsen til to kunstig intelligens (AI) chatbots, Google Gemini og Bard, på Oftalmology Board-eksamenen.
De fant at begge verktøyene oppnådde akseptabel responsnøyaktighet og presterte godt innen oftalmologi, selv om det var noen forskjeller mellom landene.
bakgrunn
AI chatbots som ChatGPT (forkortelse for Chat-Generative Pre-Trained Transformer), Bard og Gemini blir i økende grad brukt i det medisinske feltet. Dine prestasjoner utvikler seg kontinuerlig på tvers av eksamener og disipliner.
Mens nøyaktigheten til ChatGPT-3.5 var opptil 64 % i trinn én og to av AMBOSS- og NBME-undersøkelsene (forkortelse for National Board Medical Examination), viste nyere versjoner som ChatGPT-4 forbedret ytelse.
Googles Bard og Gemini gir svar basert på mangfoldig kulturell og språklig opplæring og kan skreddersy informasjon til spesifikke land. Imidlertid varierer svarene fra region til region og krever ytterligere forskning for å sikre konsistens, spesielt i medisinske applikasjoner der nøyaktighet er avgjørende for pasientsikkerhet.
I denne studien forsøkte forskerne å evaluere ytelsen til Google Gemini og Bard ved å bruke en rekke øvingsspørsmål designet for sertifiseringseksamenen til Ophthalmology Board.
Om studiet
Ytelsen til Google Gemini og Bard ble evaluert ved hjelp av 150 tekstbaserte flervalgsspørsmål fra EyeQuiz, en pedagogisk plattform for medisinske fagfolk som spesialiserer seg på oftalmologi.
Portalen gir øvingsspørsmål for ulike eksamener, inkludert Oftalmic Knowledge Assessment Program (OKAP), National Board-eksamener som American Board of Ophthalmology (ABO)-eksamen, og visse postgraduate-eksamener.
Spørsmål ble kategorisert manuelt og data ble samlet inn ved hjelp av Bard- og Gemini-versjoner tilgjengelig henholdsvis 30. november og 28. desember 2023. Nøyaktighet, forklaringstilbud, responstid og spørsmålslengde ble evaluert for begge verktøyene.
Sekundære analyser inkluderte vurdering av ytelse i andre land enn USA (USA), inkludert Vietnam, Brasil og Nederland, ved å bruke virtuelle private nettverk (VPN).
Statistiske tester, inkludert chi-square og Mann-Whitney U-tester, ble utført for å sammenligne ytelsen til forskjellige land og chatbot-modeller. Multivariabel logistisk regresjon ble brukt for å undersøke faktorer som påvirker korrekte svar.
Resultater og diskusjon
Bard og Gemini svarte raskt og konsekvent på alle 150 spørsmålene uten å oppleve stor etterspørsel. I den primære analysen med de amerikanske versjonene brukte Bard 7,1 ± 2,7 sekunder på å svare, mens Gemini tok 7,1 ± 2,8 sekunder, som hadde en lengre gjennomsnittlig svarvarighet.
I den primære analysen ved bruk av den amerikanske formen for chatbots oppnådde både Bard og Gemini 71 % nøyaktighet, og svarte riktig på 106 av 150 spørsmål. Bard ga forklaringer for 86 % av svarene sine, mens Gemini ga forklaringer for alle svarene.
Det ble funnet at Bard presterte best innen orbital og plastisk kirurgi, mens Gemini viste overlegen ytelse innen generell oftalmologi, orbital og plastisk kirurgi, glaukom og uveitt. Imidlertid slet begge verktøyene i kategoriene katarakt og linse og refraktiv kirurgi.
I sekundæranalysen med Bard fra Vietnam svarte chatboten riktig på 67 % av spørsmålene, tilsvarende den amerikanske versjonen. Bruk av Bard fra Vietnam resulterte imidlertid i forskjellige svarvalg for 21 % av spørsmålene sammenlignet med den amerikanske versjonen.
For tvillinger fra Vietnam ble 74 % av spørsmålene besvart riktig på samme måte som den amerikanske versjonen, selv om det var forskjeller i svarvalg for 15 % av spørsmålene sammenlignet med den amerikanske versjonen. I begge tilfeller ble noen spørsmål besvart feil av de amerikanske versjonene besvart riktig av Vietnam-versjonene og omvendt.
Vietnam-versjonene av Bard og Gemini forklarte henholdsvis 86 % og 100 % av svarene deres. Bard presterte best i netthinne- og glasslegemekirurgi og orbital- og plastisk kirurgi (80 % nøyaktighet), mens Gemini presterte bedre i hornhinne- og ytre sykdommer, generell oftalmologi og glaukom (87 % nøyaktighet hver).
Bard slet mest med grå stær og linser (40 % nøyaktighet), mens Gemini slet med pediatriske oftalmologiske utfordringer og strabismus (60 % nøyaktighet). Geminis ytelse i Brasil og Nederland var relativt dårligere enn den amerikanske og Vietnam-versjonen.
Til tross for de lovende resultatene, inkluderer begrensningene for studien den lille prøvestørrelsen på spørsmål, avhengighet av en offentlig tilgjengelig spørsmålsbank, uutforskede effekter av brukeroppfordringer, internetthastighet, nettstedstrafikk på responstider og sporadiske feil forklaringer fra chatbots.
Fremtidige studier kan undersøke chatbots relativt uutforskede evne til å tolke øyebilder. Ytterligere forskning er nødvendig for å adressere begrensningene og utforske ytterligere applikasjoner på dette området.
Diplom
Oppsummert, mens både den amerikanske og vietnamesiske versjonen av Bard og Gemini fremhever mulige responsvariasjoner knyttet til brukerplassering, viste studien tilfredsstillende ytelse på oftalmologisk praksisspørsmål.
Fremtidige evalueringer som sporer forbedringen av AI-chatboter og sammenligninger mellom oftalmologibeboere og AI-chatboter kan gi verdifull innsikt i deres effektivitet og pålitelighet.
Kilder:
-
Mihalache, A. et al., (2024) Google Gemini og Bard kunstig intelligens chatbot ytelse i oftalmologi kunnskapsvurdering.Øye.doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4