Google Gemini og Bard består oftalmologieksamenen

Daniel Wom

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am 29.04.2024

Sprache:

Se hvordan Google Gemini og Bard presterer på oftalmologi-eksamenen. Studien viser deres prestasjoner i forskjellige land og disipliner. Viktig innsikt!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse! — Se hvordan Google Gemini og Bard presterer på oftalmologi-eksamenen. Studien viser deres prestasjoner i forskjellige land og disipliner. Viktig innsikt!

I en studie nylig publisert i tidsskriftetØye,Forskere fra Canada evaluerte ytelsen til to kunstig intelligens (AI) chatbots, Google Gemini og Bard, på Oftalmology Board-eksamenen.

De fant at begge verktøyene oppnådde akseptabel responsnøyaktighet og presterte godt innen oftalmologi, selv om det var noen forskjeller mellom landene.

bakgrunn

AI chatbots som ChatGPT (forkortelse for Chat-Generative Pre-Trained Transformer), Bard og Gemini blir i økende grad brukt i det medisinske feltet. Dine prestasjoner utvikler seg kontinuerlig på tvers av eksamener og disipliner.

Mens nøyaktigheten til ChatGPT-3.5 var opptil 64 % i trinn én og to av AMBOSS- og NBME-undersøkelsene (forkortelse for National Board Medical Examination), viste nyere versjoner som ChatGPT-4 forbedret ytelse.

Googles Bard og Gemini gir svar basert på mangfoldig kulturell og språklig opplæring og kan skreddersy informasjon til spesifikke land. Imidlertid varierer svarene fra region til region og krever ytterligere forskning for å sikre konsistens, spesielt i medisinske applikasjoner der nøyaktighet er avgjørende for pasientsikkerhet.

I denne studien forsøkte forskerne å evaluere ytelsen til Google Gemini og Bard ved å bruke en rekke øvingsspørsmål designet for sertifiseringseksamenen til Ophthalmology Board.

Om studiet

Ytelsen til Google Gemini og Bard ble evaluert ved hjelp av 150 tekstbaserte flervalgsspørsmål fra EyeQuiz, en pedagogisk plattform for medisinske fagfolk som spesialiserer seg på oftalmologi.

Portalen gir øvingsspørsmål for ulike eksamener, inkludert Oftalmic Knowledge Assessment Program (OKAP), National Board-eksamener som American Board of Ophthalmology (ABO)-eksamen, og visse postgraduate-eksamener.

Spørsmål ble kategorisert manuelt og data ble samlet inn ved hjelp av Bard- og Gemini-versjoner tilgjengelig henholdsvis 30. november og 28. desember 2023. Nøyaktighet, forklaringstilbud, responstid og spørsmålslengde ble evaluert for begge verktøyene.

Sekundære analyser inkluderte vurdering av ytelse i andre land enn USA (USA), inkludert Vietnam, Brasil og Nederland, ved å bruke virtuelle private nettverk (VPN).

Statistiske tester, inkludert chi-square og Mann-Whitney U-tester, ble utført for å sammenligne ytelsen til forskjellige land og chatbot-modeller. Multivariabel logistisk regresjon ble brukt for å undersøke faktorer som påvirker korrekte svar.

Resultater og diskusjon

Bard og Gemini svarte raskt og konsekvent på alle 150 spørsmålene uten å oppleve stor etterspørsel. I den primære analysen med de amerikanske versjonene brukte Bard 7,1 ± 2,7 sekunder på å svare, mens Gemini tok 7,1 ± 2,8 sekunder, som hadde en lengre gjennomsnittlig svarvarighet.

I den primære analysen ved bruk av den amerikanske formen for chatbots oppnådde både Bard og Gemini 71 % nøyaktighet, og svarte riktig på 106 av 150 spørsmål. Bard ga forklaringer for 86 % av svarene sine, mens Gemini ga forklaringer for alle svarene.

Det ble funnet at Bard presterte best innen orbital og plastisk kirurgi, mens Gemini viste overlegen ytelse innen generell oftalmologi, orbital og plastisk kirurgi, glaukom og uveitt. Imidlertid slet begge verktøyene i kategoriene katarakt og linse og refraktiv kirurgi.

I sekundæranalysen med Bard fra Vietnam svarte chatboten riktig på 67 % av spørsmålene, tilsvarende den amerikanske versjonen. Bruk av Bard fra Vietnam resulterte imidlertid i forskjellige svarvalg for 21 % av spørsmålene sammenlignet med den amerikanske versjonen.

For tvillinger fra Vietnam ble 74 % av spørsmålene besvart riktig på samme måte som den amerikanske versjonen, selv om det var forskjeller i svarvalg for 15 % av spørsmålene sammenlignet med den amerikanske versjonen. I begge tilfeller ble noen spørsmål besvart feil av de amerikanske versjonene besvart riktig av Vietnam-versjonene og omvendt.

Vietnam-versjonene av Bard og Gemini forklarte henholdsvis 86 % og 100 % av svarene deres. Bard presterte best i netthinne- og glasslegemekirurgi og orbital- og plastisk kirurgi (80 % nøyaktighet), mens Gemini presterte bedre i hornhinne- og ytre sykdommer, generell oftalmologi og glaukom (87 % nøyaktighet hver).

Bard slet mest med grå stær og linser (40 % nøyaktighet), mens Gemini slet med pediatriske oftalmologiske utfordringer og strabismus (60 % nøyaktighet). Geminis ytelse i Brasil og Nederland var relativt dårligere enn den amerikanske og Vietnam-versjonen.

Til tross for de lovende resultatene, inkluderer begrensningene for studien den lille prøvestørrelsen på spørsmål, avhengighet av en offentlig tilgjengelig spørsmålsbank, uutforskede effekter av brukeroppfordringer, internetthastighet, nettstedstrafikk på responstider og sporadiske feil forklaringer fra chatbots.

Fremtidige studier kan undersøke chatbots relativt uutforskede evne til å tolke øyebilder. Ytterligere forskning er nødvendig for å adressere begrensningene og utforske ytterligere applikasjoner på dette området.

Diplom

Oppsummert, mens både den amerikanske og vietnamesiske versjonen av Bard og Gemini fremhever mulige responsvariasjoner knyttet til brukerplassering, viste studien tilfredsstillende ytelse på oftalmologisk praksisspørsmål.

Fremtidige evalueringer som sporer forbedringen av AI-chatboter og sammenligninger mellom oftalmologibeboere og AI-chatboter kan gi verdifull innsikt i deres effektivitet og pålitelighet.

Kilder:

Journal reference:

Mihalache, A. et al., (2024) Google Gemini og Bard kunstig intelligens chatbot ytelse i oftalmologi kunnskapsvurdering.Øye.doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4

Google Gemini og Bard består oftalmologieksamenen

bakgrunn

Om studiet

Resultater og diskusjon

Diplom

Weitersagen oder Speichern

Das Neueste

KFF Gesundheitsnachrichten Was ist Gesundheit? : Öffentliche Gesundheit wird unter dem Drohung weiterer Entlassungen weiter politisiert

Die zunehmende Antibiotikaresistenz bringt Routineinfektionen erneut in den Gefahrenbereich.

„Warum die Verbesserung der LE8-Werte jungen Erwachsenen vor Diabetes retten könnte“

Gesundheitsrisiken beim Verzehr von ungekochter Rohmilch werden oft unterschätzt

Ligolab und Pathpresenter geben strategische Partnerschaft zur Bereitstellung nahtloser digitaler Pathologie-Workflows bekannt