Google Gemini și Bard trec examenul de oftalmologie
Vedeți ce performanțe Google Gemini și Bard la examenul de oftalmologie. Studiul arată performanța lor în diferite țări și discipline. Perspective importante!

Google Gemini și Bard trec examenul de oftalmologie
Într-un studiu publicat recent în jurnalOchi,Cercetătorii din Canada au evaluat performanța a doi chatbot-uri de inteligență artificială (AI), Google Gemini și Bard, la examenul Ophthalmology Board.
Ei au descoperit că ambele instrumente au obținut o acuratețe acceptabilă a răspunsului și au funcționat bine în domeniul oftalmologiei, deși au existat unele diferențe între țări.
fundal
Chatbots AI precum ChatGPT (prescurtare pentru Chat-Generative Pre-Trained Transformer), Bard și Gemini sunt din ce în ce mai folosiți în domeniul medical. Performanța dvs. evoluează continuu între examene și discipline.
În timp ce acuratețea ChatGPT-3.5 a fost de până la 64% în pașii unu și doi ai examenelor AMBOSS și NBME (prescurtare de la National Board Medical Examination), versiunile mai noi, cum ar fi ChatGPT-4, au arătat performanțe îmbunătățite.
Bard și Gemini de la Google oferă răspunsuri bazate pe o pregătire culturală și lingvistică diversă și pot adapta informațiile pentru anumite țări. Cu toate acestea, răspunsurile variază în funcție de regiune și necesită cercetări suplimentare pentru a asigura coerența, în special în aplicațiile medicale în care acuratețea este esențială pentru siguranța pacientului.
În studiul de față, cercetătorii au încercat să evalueze performanța Google Gemini și Bard folosind o serie de întrebări practice concepute pentru examenul de certificare al Consiliului de oftalmologie.
Despre studiu
Performanța Google Gemini și Bard a fost evaluată folosind 150 de întrebări cu răspunsuri multiple bazate pe text de la EyeQuiz, o platformă educațională pentru profesioniștii medicali specializați în oftalmologie.
Portalul oferă întrebări practice pentru diferite examene, inclusiv Programul de evaluare a cunoștințelor oftalmice (OKAP), examenele National Board, cum ar fi examenul American Board of Ophthalmology (ABO) și anumite examene postuniversitare.
Întrebările au fost clasificate manual și datele au fost colectate folosind versiunile Bard și Gemini disponibile pe 30 noiembrie și, respectiv, 28 decembrie 2023. Precizia, furnizarea de explicații, timpul de răspuns și lungimea întrebării au fost evaluate pentru ambele instrumente.
Analizele secundare au inclus evaluarea performanței în alte țări decât Statele Unite (SUA), inclusiv Vietnam, Brazilia și Țările de Jos, folosind rețele private virtuale (VPN).
Au fost efectuate teste statistice, inclusiv teste chi-pătrat și Mann-Whitney U, pentru a compara performanța diferitelor țări și modele de chatbot. Regresia logistică multivariabilă a fost utilizată pentru a examina factorii care influențează răspunsurile corecte.
Rezultate și discuții
Bard și Gemeni au răspuns prompt și consecvent la toate cele 150 de întrebări, fără a avea o cerere mare. În analiza primară cu versiunile din SUA, lui Bard i-a luat 7,1 ± 2,7 secunde pentru a răspunde, în timp ce Gemenii i-au luat 7,1 ± 2,8 secunde, ceea ce a avut o durată medie de răspuns mai mare.
În analiza primară folosind forma de chatbot din SUA, atât Bard, cât și Gemeni au obținut o acuratețe de 71%, răspunzând corect la 106 din 150 de întrebări. Bard a oferit explicații pentru 86% dintre răspunsurile sale, în timp ce Gemenii au oferit explicații pentru toate răspunsurile.
S-a constatat că Bard a avut cele mai bune performanțe în chirurgia orbitală și plastică, în timp ce Gemenii au arătat performanțe superioare în oftalmologie generală, chirurgie orbitală și plastică, glaucom și uveită. Cu toate acestea, ambele instrumente s-au luptat în categoriile cataractă și lentile și chirurgie refractivă.
În analiza secundară cu Bard din Vietnam, chatbot-ul a răspuns corect la 67% dintre întrebări, similar versiunii din SUA. Cu toate acestea, utilizarea Bard din Vietnam a dus la alegeri diferite de răspuns pentru 21% dintre întrebări, comparativ cu versiunea din SUA.
Pentru gemenii din Vietnam, la 74% dintre întrebări s-au răspuns corect, similar versiunii din SUA, deși au existat diferențe în selectarea răspunsurilor pentru 15% dintre întrebări față de versiunea din SUA. În ambele cazuri, unele întrebări la care s-a răspuns incorect de versiunile din SUA au primit răspuns corect de către versiunile din Vietnam și invers.
Versiunile din Vietnam ale lui Bard și Gemeni au explicat 86% și, respectiv, 100% din răspunsurile lor. Bard s-a comportat cel mai bine în chirurgia retiniană și vitroasă și în chirurgia orbitală și plastică (acuratețe de 80%), în timp ce Gemenii a avut rezultate mai bune în bolile corneene și externe, oftalmologie generală și glaucom (precizie de 87% fiecare).
Bard s-a luptat cel mai mult cu cataracta și lentilele (acuratețe de 40%), în timp ce Gemenii s-au luptat cu provocările de oftalmologie pediatrică și strabismul (precizia de 60%). Performanța lui Gemeni în Brazilia și Țările de Jos a fost relativ mai slabă decât cea a versiunilor din SUA și Vietnam.
În ciuda rezultatelor promițătoare, limitările studiului includ dimensiunea mică a eșantionului de întrebări, încrederea pe o bancă de întrebări disponibilă public, efectele neexplorate ale solicitărilor utilizatorilor, viteza internetului, traficul site-ului pe timpii de răspuns și explicații ocazionale incorecte de la chatbot.
Studiile viitoare ar putea examina capacitatea relativ neexplorată a chatbot-urilor de a interpreta imaginile oculare. Sunt necesare cercetări suplimentare pentru a aborda limitările și a explora aplicații suplimentare în acest domeniu.
Diplomă
Pe scurt, în timp ce atât versiunile din SUA, cât și din Vietnam ale lui Bard și Gemini evidențiază o posibilă variabilitate a răspunsului legată de locația utilizatorului, studiul a demonstrat o performanță satisfăcătoare la întrebările de practică oftalmologică.
Evaluările viitoare care urmăresc îmbunătățirea chatbot-urilor AI și comparațiile dintre rezidenții de oftalmologie și chatboții AI ar putea oferi informații valoroase asupra eficacității și fiabilității acestora.
Surse:
-
Mihalache, A. et al., (2024) Google Gemini and Bard artificial intelligence chatbot performance in oftalmology knowledge assessment.Ochi.doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4