Google Gemini e Bard superano l'esame di oftalmologia

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Scopri come si comportano Google Gemini e Bard durante l'esame di oftalmologia. Lo studio mostra le loro prestazioni in diversi paesi e discipline. Approfondimenti importanti!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Scopri come si comportano Google Gemini e Bard durante l'esame di oftalmologia. Lo studio mostra le loro prestazioni in diversi paesi e discipline. Approfondimenti importanti!

Google Gemini e Bard superano l'esame di oftalmologia

In uno studio recentemente pubblicato sulla rivistaOcchio,Ricercatori canadesi hanno valutato le prestazioni di due chatbot di intelligenza artificiale (AI), Google Gemini e Bard, durante l'esame dell'Ophthalmology Board.

Hanno scoperto che entrambi gli strumenti hanno raggiunto una precisione di risposta accettabile e hanno funzionato bene nel campo dell’oftalmologia, anche se c’erano alcune differenze tra i paesi.

sfondo

I chatbot IA come ChatGPT (abbreviazione di Chat-Generative Pre-Trained Transformer), Bard e Gemini vengono sempre più utilizzati in campo medico. Le tue prestazioni si evolvono continuamente tra esami e discipline.

Mentre la precisione di ChatGPT-3.5 era fino al 64% nei passaggi uno e due degli esami AMBOSS e NBME (abbreviazione di National Board Medical Examination), le versioni più recenti come ChatGPT-4 hanno mostrato prestazioni migliorate.

Bard e Gemini di Google forniscono risposte basate su diverse formazioni culturali e linguistiche e possono adattare le informazioni a paesi specifici. Tuttavia, le risposte variano da regione a regione e richiedono ulteriori ricerche per garantire la coerenza, in particolare nelle applicazioni mediche dove la precisione è fondamentale per la sicurezza del paziente.

Nel presente studio, i ricercatori hanno cercato di valutare le prestazioni di Google Gemini e Bard utilizzando una serie di domande pratiche progettate per l'esame di certificazione dell'Ophthalmology Board.

A proposito dello studio

Le prestazioni di Google Gemini e Bard sono state valutate utilizzando 150 domande a scelta multipla basate su testo di EyeQuiz, una piattaforma educativa per professionisti medici specializzati in oftalmologia.

Il portale fornisce domande pratiche per vari esami, tra cui l'Ophthalmic Knowledge Assessment Program (OKAP), gli esami del National Board come l'esame American Board of Ophthalmology (ABO) e alcuni esami post-laurea.

Le domande sono state classificate manualmente e i dati sono stati raccolti utilizzando le versioni Bard e Gemini disponibili rispettivamente il 30 novembre e il 28 dicembre 2023. Per entrambi gli strumenti sono stati valutati l’accuratezza, la fornitura delle spiegazioni, il tempo di risposta e la lunghezza delle domande.

Le analisi secondarie includevano la valutazione delle prestazioni in paesi diversi dagli Stati Uniti (USA), tra cui Vietnam, Brasile e Paesi Bassi, utilizzando reti private virtuali (VPN).

Sono stati condotti test statistici, inclusi i test chi-quadrato e Mann-Whitney U, per confrontare le prestazioni di diversi paesi e modelli di chatbot. La regressione logistica multivariata è stata utilizzata per esaminare i fattori che influenzano le risposte corrette.

Risultati e discussione

Bard e Gemini hanno risposto prontamente e in modo coerente a tutte le 150 domande senza riscontrare una domanda elevata. Nell'analisi primaria con le versioni statunitensi, Bard ha impiegato 7,1 ± 2,7 secondi per rispondere, mentre Gemini ha impiegato 7,1 ± 2,8 secondi, con una durata media di risposta più lunga.

Nell’analisi primaria utilizzando la forma americana di chatbot, sia Bard che Gemini hanno raggiunto una precisione del 71%, rispondendo correttamente a 106 domande su 150. Bard ha fornito spiegazioni per l'86% delle risposte, mentre Gemini ha fornito spiegazioni per tutte le risposte.

È stato riscontrato che Bard ha ottenuto risultati migliori nella chirurgia orbitale e plastica, mentre Gemini ha mostrato prestazioni superiori in oftalmologia generale, chirurgia orbitale e plastica, glaucoma e uveite. Tuttavia, entrambi gli strumenti hanno avuto difficoltà nelle categorie della cataratta, del cristallino e della chirurgia refrattiva.

Nell’analisi secondaria con Bard dal Vietnam, il chatbot ha risposto correttamente al 67% delle domande, in modo simile alla versione americana. Tuttavia, l’utilizzo di Bard dal Vietnam ha comportato scelte di risposta diverse per il 21% delle domande rispetto alla versione statunitense.

Per i gemelli vietnamiti, al 74% delle domande è stata data una risposta corretta in modo simile alla versione statunitense, sebbene vi siano state differenze nella selezione delle risposte per il 15% delle domande rispetto alla versione statunitense. In entrambi i casi, alcune domande a cui la versione americana ha risposto in modo errato hanno avuto risposta corretta nella versione vietnamita e viceversa.

Le versioni vietnamite di Bard e Gemini hanno spiegato rispettivamente l’86% e il 100% delle loro risposte. Bard ha ottenuto i migliori risultati nella chirurgia retinica e vitreale e nella chirurgia orbitale e plastica (precisione dell'80%), mentre Gemini ha ottenuto risultati migliori nelle malattie della cornea e esterne, nell'oftalmologia generale e nel glaucoma (precisione dell'87% ciascuno).

Bard ha lottato maggiormente con cataratta e lenti (precisione del 40%), mentre Gemini ha lottato con sfide di oftalmologia pediatrica e strabismo (precisione del 60%). La performance di Gemini in Brasile e nei Paesi Bassi è stata relativamente peggiore di quella delle versioni statunitense e vietnamita.

Nonostante i risultati promettenti, i limiti dello studio includono la piccola dimensione del campione di domande, la dipendenza da una banca di domande disponibile al pubblico, gli effetti inesplorati delle richieste degli utenti, la velocità di Internet, il traffico del sito web sui tempi di risposta e occasionali spiegazioni errate da parte dei chatbot.

Studi futuri potrebbero esaminare la capacità relativamente inesplorata dei chatbot di interpretare le immagini degli occhi. Sono necessarie ulteriori ricerche per affrontare i limiti ed esplorare ulteriori applicazioni in questo settore.

Diploma

In sintesi, mentre sia la versione statunitense che quella vietnamita di Bard e Gemini evidenziano la possibile variabilità della risposta correlata alla posizione dell'utente, lo studio ha dimostrato prestazioni soddisfacenti sulle domande di pratica oftalmologica.

Le valutazioni future che monitorano il miglioramento dei chatbot IA e i confronti tra gli specializzandi in oftalmologia e i chatbot IA potrebbero fornire preziose informazioni sulla loro efficacia e affidabilità.


Fonti:

Journal reference: