Google Gemini ja Bard sooritavad oftalmoloogia eksami

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Vaadake, kuidas Google Gemini ja Bard oftalmoloogia eksamil toimivad. Uuring näitab nende tulemusi erinevates riikides ja erialadel. Olulised arusaamad!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Vaadake, kuidas Google Gemini ja Bard oftalmoloogia eksamil toimivad. Uuring näitab nende tulemusi erinevates riikides ja erialadel. Olulised arusaamad!

Google Gemini ja Bard sooritavad oftalmoloogia eksami

Hiljuti ajakirjas avaldatud uuringusSilm,Kanada teadlased hindasid kahe tehisintellekti (AI) vestlusroti, Google Gemini ja Bardi, jõudlust Oftalmoloogianõukogu eksamil.

Nad leidsid, et mõlemad vahendid saavutasid vastuvõetava vastuse täpsuse ja toimisid hästi oftalmoloogia valdkonnas, kuigi riikide vahel esines mõningaid erinevusi.

taustal

Meditsiinivaldkonnas kasutatakse üha enam AI-vestlusboteid, nagu ChatGPT (lühend sõnadest Chat-Generative Pre-Trained Transformer), Bard ja Gemini. Teie jõudlus areneb pidevalt eksamite ja erialade lõikes.

Kui ChatGPT-3.5 täpsus oli AMBOSSi ja NBME (lühend sõnadest National Board Medical Examination) esimeses ja teises etapis kuni 64%, siis uuemate versioonide, nagu ChatGPT-4, jõudlus on paranenud.

Google'i Bard ja Gemini pakuvad vastuseid mitmekülgse kultuuri- ja keeleõppe põhjal ning võivad teavet konkreetsete riikide jaoks kohandada. Vastused on aga piirkonniti erinevad ja nõuavad täiendavaid uuringuid, et tagada järjepidevus, eriti meditsiinilistes rakendustes, kus täpsus on patsiendi ohutuse seisukohalt ülioluline.

Käesolevas uuringus püüdsid teadlased hinnata Google Gemini ja Bardi toimivust, kasutades mitmeid praktilisi küsimusi, mis olid mõeldud Oftalmoloogiaameti sertifitseerimiseksami jaoks.

Uuringu kohta

Google Gemini ja Bardi toimivust hinnati 150 tekstipõhise valikvastustega küsimusega EyeQuizilt, mis on oftalmoloogiale spetsialiseerunud meditsiinitöötajatele mõeldud haridusplatvorm.

Portaal pakub praktikaküsimusi erinevate eksamite jaoks, sealhulgas oftalmoloogiliste teadmiste hindamisprogrammi (OKAP), riikliku juhatuse eksamite (nt American Board of Ophthalmology (ABO)) ja teatud kraadiõppe eksamite jaoks.

Küsimused liigitati käsitsi ja andmed koguti Bardi ja Gemini versioonide abil, mis olid saadaval vastavalt 30. novembril ja 28. detsembril 2023. Mõlema tööriista puhul hinnati täpsust, selgituste esitamist, vastamisaega ja küsimuse pikkust.

Teisesed analüüsid hõlmasid toimivuse hindamist muudes riikides peale Ameerika Ühendriikide (USA), sealhulgas Vietnamis, Brasiilias ja Hollandis, kasutades virtuaalseid privaatvõrke (VPN).

Viidi läbi statistilised testid, sealhulgas hii-ruut ja Mann-Whitney U testid, et võrrelda erinevate riikide ja chatbotite mudelite toimivust. Õigeid vastuseid mõjutavate tegurite uurimiseks kasutati mitme muutujaga logistilist regressiooni.

Tulemused ja arutelu

Bard ja Kaksikud vastasid kiiresti ja järjekindlalt kõigile 150 küsimusele ilma suurt nõudlust kogemata. USA versioonide esmases analüüsis kulus Bardil reageerimiseks 7,1 ± 2,7 sekundit, Kaksikutel aga 7,1 ± 2,8 sekundit, mille keskmine vastuse kestus oli pikem.

Esmases analüüsis, milles kasutati USA vestlusrobotite vormi, saavutasid nii Bard kui ka Gemini 71% täpsuse, vastates õigesti 106 küsimusele 150-st. Bard andis selgitusi 86% oma vastustest, Kaksikud aga kõigi vastuste kohta.

Leiti, et Bard saavutas parima tulemuse orbitaal- ja plastilises kirurgias, samas kui Kaksikud näitasid paremaid tulemusi üldises oftalmoloogias, orbitaal- ja plastilises kirurgias, glaukoomis ja uveiidis. Mõlemad tööriistad olid aga hädas katarakti ja läätsede ning refraktsioonikirurgia kategoorias.

Teises analüüsis Vietnami Bardiga vastas vestlusbot sarnaselt USA versioonile õigesti 67% küsimustest. Vietnamist pärit Bardi kasutamine andis aga USA versiooniga võrreldes 21% küsimuste puhul teistsuguse vastuse.

Vietnamist pärit kaksikute puhul vastati 74% küsimustest õigesti sarnaselt USA versiooniga, kuigi 15% küsimuste vastuste valikus oli erinevusi võrreldes USA versiooniga. Mõlemal juhul vastasid mõned küsimused, millele USA versioonid vastasid valesti, Vietnami versioonid õigesti ja vastupidi.

Bardi ja Gemini Vietnami versioonid selgitasid vastavalt 86% ja 100% nende vastustest. Bard saavutas kõige paremini võrkkesta ja klaaskeha kirurgia ning orbitaal- ja plastilise kirurgia (80% täpsus), Kaksikud aga sarvkesta ja väliste haiguste, üldise oftalmoloogia ja glaukoomi (mõlemad 87% täpsusega).

Bard võitles kõige enam katarakti ja läätsedega (40% täpsus), Kaksikud aga laste oftalmoloogia väljakutsete ja strabismusega (60% täpsus). Gemini jõudlus Brasiilias ja Hollandis oli suhteliselt kehvem kui USA ja Vietnami versioonidel.

Vaatamata paljutõotavatele tulemustele on uuringu piiranguteks küsimuste valimi väike suurus, tuginemine avalikult kättesaadavale küsimustepangale, kasutajate viipade uurimata mõju, Interneti kiirus, veebisaidi liiklus reageerimisaegadele ja vestlusrobotite aeg-ajalt ebaõiged selgitused.

Tulevased uuringud võiksid uurida vestlusrobotite suhteliselt uurimata võimet tõlgendada silmapilte. Piirangute käsitlemiseks ja täiendavate rakenduste uurimiseks selles valdkonnas on vaja täiendavaid uuringuid.

Diplom

Kokkuvõtteks võib öelda, et kuigi nii Bardi kui ka Gemini USA ja Vietnami versioonid tõstavad esile võimaliku kasutaja asukohaga seotud vastuse varieeruvuse, näitas uuring rahuldavat tulemuslikkust oftalmoloogia praktika küsimustes.

Tulevased hinnangud, mis jälgivad tehisintellekti vestlusrobotite täiustamist ning oftalmoloogia elanike ja tehisintellekti vestlusrobotite võrdlused, võivad anda väärtuslikku teavet nende tõhususe ja usaldusväärsuse kohta.


Allikad:

Journal reference: