Google Gemini i Bard zdają egzamin z okulistyki

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Zobacz, jak Google Gemini i Bard radzą sobie na egzaminie okulistycznym. Badanie pokazuje ich wyniki w różnych krajach i dyscyplinach. Ważne spostrzeżenia!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Zobacz, jak Google Gemini i Bard radzą sobie na egzaminie okulistycznym. Badanie pokazuje ich wyniki w różnych krajach i dyscyplinach. Ważne spostrzeżenia!

Google Gemini i Bard zdają egzamin z okulistyki

W badaniu opublikowanym niedawno w czasopiśmieOko,Naukowcy z Kanady ocenili działanie dwóch chatbotów opartych na sztucznej inteligencji (AI), Google Gemini i Bard, na egzaminie Komisji Okulistycznej.

Ustalili, że oba narzędzia osiągnęły akceptowalną dokładność odpowiedzi i dobrze sprawdzały się w okulistyce, chociaż istniały pewne różnice między krajami.

tło

Chatboty AI, takie jak ChatGPT (skrót od Chat-Generative Pre-Trained Transformer), Bard i Gemini, są coraz częściej wykorzystywane w medycynie. Twoje wyniki stale się zmieniają w zależności od egzaminów i dyscyplin.

Podczas gdy dokładność ChatGPT-3.5 w pierwszym i drugim etapie egzaminów AMBOSS i NBME (skrót od National Board Medical Examination) sięgała 64%, nowsze wersje, takie jak ChatGPT-4, wykazały lepszą wydajność.

Bard i Gemini firmy Google udzielają odpowiedzi w oparciu o różnorodne szkolenia kulturowe i językowe oraz mogą dostosowywać informacje do konkretnych krajów. Jednakże reakcje różnią się w zależności od regionu i wymagają dalszych badań w celu zapewnienia spójności, szczególnie w zastosowaniach medycznych, gdzie dokładność ma kluczowe znaczenie dla bezpieczeństwa pacjenta.

W niniejszym badaniu badacze starali się ocenić skuteczność systemów Google Gemini i Bard, korzystając z serii pytań praktycznych opracowanych na potrzeby egzaminu certyfikacyjnego Rady Okulistycznej.

O badaniu

Wydajność Google Gemini i Bard oceniano za pomocą 150 tekstowych pytań wielokrotnego wyboru z EyeQuiz, platformy edukacyjnej dla lekarzy specjalizujących się w okulistyce.

Na portalu znajdują się pytania praktyczne do różnych egzaminów, w tym programu oceny wiedzy okulistycznej (OKAP), egzaminów National Board, takich jak egzamin American Board of Ophtalmology (ABO), oraz niektórych egzaminów podyplomowych.

Pytania zostały ręcznie podzielone na kategorie, a dane zebrano przy użyciu wersji Bard i Gemini dostępnych odpowiednio 30 listopada i 28 grudnia 2023 r. W przypadku obu narzędzi oceniano dokładność, udzielanie wyjaśnień, czas odpowiedzi i długość pytań.

Analizy wtórne obejmowały ocenę wydajności w krajach innych niż Stany Zjednoczone (USA), w tym w Wietnamie, Brazylii i Holandii, przy użyciu wirtualnych sieci prywatnych (VPN).

Przeprowadzono testy statystyczne, w tym testy chi-kwadrat i testy U Manna-Whitneya, aby porównać wydajność różnych krajów i modeli chatbotów. Do zbadania czynników wpływających na prawidłowe odpowiedzi wykorzystano wielowymiarową regresję logistyczną.

Wyniki i dyskusja

Bard i Gemini odpowiedzieli szybko i konsekwentnie na wszystkie 150 pytań, nie doświadczając dużego zainteresowania. W pierwotnej analizie wersji amerykańskich Bard potrzebował 7,1 ± 2,7 sekundy na odpowiedź, podczas gdy Gemini potrzebował 7,1 ± 2,8 sekundy, co oznaczało dłuższy średni czas trwania odpowiedzi.

W pierwotnej analizie wykorzystującej amerykańską formę chatbotów zarówno Bard, jak i Gemini osiągnęli dokładność na poziomie 71%, odpowiadając poprawnie na 106 ze 150 pytań. Bard udzielił wyjaśnień w przypadku 86% swoich odpowiedzi, natomiast Gemini udzielił wyjaśnień w przypadku wszystkich odpowiedzi.

Stwierdzono, że Bard radził sobie najlepiej w chirurgii oczodołowej i plastycznej, podczas gdy Gemini wykazywał lepsze wyniki w okulistyce ogólnej, chirurgii oczodołowej i plastycznej, jaskrze i zapaleniu błony naczyniowej oka. Jednak oba narzędzia nie radziły sobie w kategoriach zaćmy, soczewek i chirurgii refrakcyjnej.

W analizie wtórnej przeprowadzonej z Bardem z Wietnamu chatbot odpowiedział poprawnie na 67% pytań, podobnie jak w wersji amerykańskiej. Jednakże użycie Barda z Wietnamu spowodowało różne odpowiedzi w przypadku 21% pytań w porównaniu z wersją amerykańską.

W przypadku bliźniaków z Wietnamu na 74% pytań udzielono poprawnych odpowiedzi, podobnie jak w wersji amerykańskiej, chociaż w przypadku 15% pytań wystąpiły różnice w wyborze odpowiedzi w porównaniu z wersją amerykańską. W obu przypadkach na niektóre pytania, na które wersje amerykańskie odpowiedziały błędnie, wersje wietnamskie odpowiedziały poprawnie i odwrotnie.

Wietnamskie wersje Barda i Gemini wyjaśniły odpowiednio 86% i 100% swoich odpowiedzi. Bard najlepiej radził sobie w chirurgii siatkówki i ciała szklistego oraz w chirurgii oczodołu i plastycznej (dokładność 80%), podczas gdy Gemini radził sobie lepiej w chorobach rogówki i zewnętrznych, okulistyce ogólnej i jaskrze (po 87% dokładności).

Bard miał najwięcej problemów z zaćmą i soczewkami (dokładność 40%), natomiast Gemini z wyzwaniami okulistyki dziecięcej i zezem (dokładność 60%). Wyniki Gemini w Brazylii i Holandii były stosunkowo gorsze niż w wersjach amerykańskich i wietnamskich.

Pomimo obiecujących wyników, ograniczenia badania obejmują małą wielkość próby pytań, poleganie na publicznie dostępnym banku pytań, niezbadany wpływ podpowiedzi użytkowników, szybkość Internetu, ruch w witrynie wpływający na czas odpowiedzi oraz sporadyczne nieprawidłowe wyjaśnienia ze strony chatbotów.

Przyszłe badania mogłyby zbadać stosunkowo niezbadaną zdolność chatbotów do interpretowania obrazów oczu. Konieczne są dalsze badania, aby wyeliminować ograniczenia i zbadać dodatkowe zastosowania w tej dziedzinie.

Dyplom

Podsumowując, choć zarówno wersja amerykańska, jak i wietnamska testów Bard i Gemini podkreślają możliwą zmienność odpowiedzi związaną z lokalizacją użytkownika, badanie wykazało zadowalającą skuteczność w zakresie pytań związanych z praktyką okulistyczną.

Przyszłe oceny śledzące udoskonalanie chatbotów AI oraz porównania między rezydentami okulistyki a chatbotami AI mogą dostarczyć cennych informacji na temat ich skuteczności i niezawodności.


Źródła:

Journal reference: