Google Dvyniai ir Bardas išlaiko oftalmologijos egzaminą
Sužinokite, kaip „Google Dvyniai“ ir „Bard“ laikosi oftalmologijos egzamino. Tyrimas parodo jų veiklą įvairiose šalyse ir disciplinose. Svarbios įžvalgos!

Google Dvyniai ir Bardas išlaiko oftalmologijos egzaminą
Neseniai žurnale paskelbtame tyrimeAkis,Tyrėjai iš Kanados įvertino dviejų dirbtinio intelekto (AI) pokalbių robotų, Google Gemini ir Bard, našumą per Oftalmologijos tarybos egzaminą.
Jie nustatė, kad abi priemonės pasiekė priimtiną atsako tikslumą ir gerai pasirodė oftalmologijos srityje, nors tarp šalių buvo tam tikrų skirtumų.
fone
AI pokalbių robotai, tokie kaip ChatGPT (sutrumpinimas iš Chat-Generative Pre-Trained Transformer), Bard ir Gemini vis dažniau naudojami medicinos srityje. Jūsų našumas nuolat kinta tarp egzaminų ir disciplinų.
Nors ChatGPT-3.5 tikslumas buvo iki 64 % atliekant pirmąjį ir antrąjį AMBOSS ir NBME (nacionalinės tarybos medicininės apžiūros trumpinys) egzaminus, naujesnės versijos, pvz., ChatGPT-4, parodė geresnį našumą.
Google Bard ir Gemini pateikia atsakymus, pagrįstus įvairiu kultūriniu ir kalbiniu mokymu, ir gali pritaikyti informaciją konkrečioms šalims. Tačiau atsakymai skiriasi priklausomai nuo regiono ir reikia atlikti tolesnius tyrimus, kad būtų užtikrintas nuoseklumas, ypač medicinos srityse, kur tikslumas yra labai svarbus pacientų saugai.
Šiame tyrime mokslininkai siekė įvertinti „Google Gemini“ ir „Bard“ našumą, naudodami keletą praktinių klausimų, skirtų Oftalmologijos tarybos sertifikavimo egzaminui.
Apie studiją
„Google Gemini“ ir „Bard“ našumas buvo įvertintas naudojant 150 tekstinių klausimų su daugybe atsakymų iš „EyeQuiz“, mokomosios platformos, skirtos medicinos specialistams, besispecializuojantiems oftalmologijos srityje.
Portale pateikiami praktikos klausimai įvairiems egzaminams, įskaitant Oftalmologinių žinių vertinimo programą (OKAP), Nacionalinės tarybos egzaminus, tokius kaip Amerikos oftalmologijos tarybos (ABO) egzaminas, ir tam tikrus antrosios pakopos egzaminus.
Klausimai buvo suskirstyti į kategorijas ir duomenys renkami naudojant Bard ir Gemini versijas, kurios buvo atitinkamai prieinamos 2023 m. lapkričio 30 d. ir gruodžio 28 d. Abiejų įrankių tikslumas, paaiškinimų pateikimas, atsakymo laikas ir klausimo ilgis buvo vertinami.
Antrinės analizės apėmė našumo vertinimą kitose nei JAV (JAV) šalyse, įskaitant Vietnamą, Braziliją ir Nyderlandus, naudojant virtualius privačius tinklus (VPN).
Buvo atlikti statistiniai testai, įskaitant chi kvadrato ir Mann-Whitney U testus, siekiant palyginti skirtingų šalių ir pokalbių robotų modelių našumą. Norint ištirti veiksnius, turinčius įtakos teisingiems atsakymams, buvo naudojama daugiamatė logistinė regresija.
Rezultatai ir diskusija
Bardas ir Dvyniai greitai ir nuosekliai atsakė į visus 150 klausimų, nepatirdami didelės paklausos. Pirminėje JAV versijų analizėje Bardui prireikė 7,1 ± 2,7 sekundės atsakyti, o Dvyniams prireikė 7,1 ± 2,8 sekundės, kurios vidutinė atsako trukmė buvo ilgesnė.
Pirminėje analizėje, naudojant JAV pokalbių robotus, tiek Bardas, tiek Gemini pasiekė 71% tikslumą, teisingai atsakydami į 106 iš 150 klausimų. Bardas pateikė paaiškinimus 86% savo atsakymų, o Dvyniai paaiškino visus atsakymus.
Nustatyta, kad Bardas geriausiai pasirodė atliekant orbitinę ir plastinę chirurgiją, o Dvyniai – bendrosios oftalmologijos, orbitos ir plastinės chirurgijos, glaukomos ir uveito srityse. Tačiau abiem įrankiais buvo sunku taikyti kataraktos ir lęšių bei refrakcijos chirurgijos kategorijas.
Atliekant antrinę analizę su Bardu iš Vietnamo, pokalbių robotas teisingai atsakė į 67% klausimų, panašiai kaip JAV versija. Tačiau naudojant Bardą iš Vietnamo, 21% klausimų buvo pasirinkta kitaip nei JAV versija.
Dvyniams iš Vietnamo į 74% klausimų buvo atsakyta teisingai, panašiai kaip į JAV versiją, nors 15% klausimų buvo skirtumų, palyginti su JAV versija. Abiem atvejais į kai kuriuos klausimus, į kuriuos neteisingai atsakyta JAV versijose, Vietnamo versijos atsakė teisingai ir atvirkščiai.
Vietnamo Bard ir Gemini versijos paaiškino atitinkamai 86% ir 100% jų atsakymų. Bardui geriausiai sekėsi tinklainės ir stiklakūnio chirurgijoje bei orbitos ir plastinėje chirurgijoje (80 proc. tikslumas), o Dvyniams – ragenos ir išorinių ligų, bendrosios oftalmologijos ir glaukomos (87 proc. tikslumas).
Bardas labiausiai kovojo su katarakta ir lęšiais (40 % tikslumas), o Dvyniai – su vaikų oftalmologijos problemomis ir žvairumu (60 % tikslumas). „Gemini“ pasirodymai Brazilijoje ir Nyderlanduose buvo palyginti prastesni nei JAV ir Vietnamo versijų.
Nepaisant daug žadančių rezultatų, tyrimo apribojimai apima mažą klausimų imtį, pasitikėjimą viešai prieinamu klausimų banku, neištirtą vartotojų raginimų poveikį, interneto greitį, svetainės srautą į atsakymo laiką ir kartais neteisingus pokalbių robotų paaiškinimus.
Būsimuose tyrimuose būtų galima ištirti palyginti neištirtus pokalbių robotų gebėjimus interpretuoti akių vaizdus. Reikia atlikti tolesnius tyrimus, kad būtų pašalinti apribojimai ir ištirti papildomi pritaikymai šioje srityje.
Diplomas
Apibendrinant galima pasakyti, kad nors JAV ir Vietnamo „Bard“ ir „Gemini“ versijos pabrėžia galimą atsakymų kintamumą, susijusį su vartotojo buvimo vieta, tyrimas parodė patenkinamus rezultatus sprendžiant oftalmologijos praktikos klausimus.
Būsimi vertinimai, kuriuose bus stebimas AI pokalbių robotų tobulėjimas, ir oftalmologijos rezidentų bei AI pokalbių robotų palyginimai galėtų suteikti vertingų įžvalgų apie jų veiksmingumą ir patikimumą.
Šaltiniai:
-
Mihalache, A. ir kt., (2024) Google Gemini ir Bard dirbtinio intelekto pokalbių roboto našumas vertinant oftalmologijos žinias.Akis.doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4