Το Google Gemini και ο Bard περνούν την οφθαλμολογική εξέταση

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Δείτε πώς αποδίδουν το Google Gemini και ο Bard στις εξετάσεις της Οφθαλμολογίας. Η μελέτη δείχνει τις επιδόσεις τους σε διαφορετικές χώρες και κλάδους. Σημαντικές ιδέες!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
Δείτε πώς αποδίδουν το Google Gemini και ο Bard στις εξετάσεις της Οφθαλμολογίας. Η μελέτη δείχνει τις επιδόσεις τους σε διαφορετικές χώρες και κλάδους. Σημαντικές ιδέες!

Το Google Gemini και ο Bard περνούν την οφθαλμολογική εξέταση

Σε μια μελέτη που δημοσιεύτηκε πρόσφατα στο περιοδικόΜάτι,Ερευνητές από τον Καναδά αξιολόγησαν την απόδοση δύο chatbot τεχνητής νοημοσύνης (AI), του Google Gemini και του Bard, στις εξετάσεις του Ophthalmology Board.

Διαπίστωσαν ότι και τα δύο εργαλεία πέτυχαν αποδεκτή ακρίβεια απόκρισης και είχαν καλή απόδοση στον τομέα της οφθαλμολογίας, αν και υπήρχαν κάποιες διαφορές μεταξύ των χωρών.

φόντο

Τα chatbot AI όπως το ChatGPT (συντομογραφία του Chat-Generative Pre-Trained Transformer), το Bard και το Gemini χρησιμοποιούνται όλο και περισσότερο στον ιατρικό τομέα. Η απόδοσή σας εξελίσσεται συνεχώς σε εξετάσεις και κλάδους.

Ενώ η ακρίβεια του ChatGPT-3.5 ήταν έως και 64% στα βήματα ένα και δύο των εξετάσεων AMBOSS και NBME (συντομογραφία του National Board Medical Examination), νεότερες εκδόσεις όπως το ChatGPT-4 παρουσίασαν βελτιωμένη απόδοση.

Οι Bard and Gemini της Google παρέχουν απαντήσεις που βασίζονται σε ποικίλη πολιτιστική και γλωσσική εκπαίδευση και ενδέχεται να προσαρμόσουν πληροφορίες σε συγκεκριμένες χώρες. Ωστόσο, οι απαντήσεις ποικίλλουν ανά περιοχή και απαιτούν περαιτέρω έρευνα για να διασφαλιστεί η συνέπεια, ιδιαίτερα σε ιατρικές εφαρμογές όπου η ακρίβεια είναι κρίσιμη για την ασφάλεια των ασθενών.

Στην παρούσα μελέτη, οι ερευνητές προσπάθησαν να αξιολογήσουν την απόδοση του Google Gemini και του Bard χρησιμοποιώντας μια σειρά από ερωτήσεις πρακτικής που σχεδιάστηκαν για την εξέταση πιστοποίησης του Ophthalmology Board.

Σχετικά με τη μελέτη

Η απόδοση του Google Gemini and Bard αξιολογήθηκε χρησιμοποιώντας 150 ερωτήσεις πολλαπλής επιλογής βασισμένες σε κείμενο από το EyeQuiz, μια εκπαιδευτική πλατφόρμα για επαγγελματίες υγείας που ειδικεύονται στην οφθαλμολογία.

Η πύλη παρέχει ερωτήσεις πρακτικής για διάφορες εξετάσεις, συμπεριλαμβανομένου του Προγράμματος Αξιολόγησης Οφθαλμικής Γνώσης (ΟΚΑΠ), των εξετάσεων του Εθνικού Συμβουλίου όπως η εξέταση του Αμερικανικού Συμβουλίου Οφθαλμολογίας (ABO) και ορισμένων μεταπτυχιακών εξετάσεων.

Οι ερωτήσεις κατηγοριοποιήθηκαν με μη αυτόματο τρόπο και συλλέχθηκαν δεδομένα χρησιμοποιώντας τις εκδόσεις Bard και Gemini που ήταν διαθέσιμες στις 30 Νοεμβρίου και στις 28 Δεκεμβρίου 2023, αντίστοιχα. Η ακρίβεια, η παροχή επεξηγήσεων, ο χρόνος απόκρισης και η διάρκεια της ερώτησης αξιολογήθηκαν και για τα δύο εργαλεία.

Οι δευτερεύουσες αναλύσεις περιελάμβαναν την αξιολόγηση της απόδοσης σε χώρες εκτός των Ηνωμένων Πολιτειών (ΗΠΑ), συμπεριλαμβανομένων του Βιετνάμ, της Βραζιλίας και της Ολλανδίας, χρησιμοποιώντας εικονικά ιδιωτικά δίκτυα (VPN).

Διεξήχθησαν στατιστικές δοκιμές, συμπεριλαμβανομένων των δοκιμών chi-square και Mann-Whitney U, για τη σύγκριση της απόδοσης διαφορετικών χωρών και μοντέλων chatbot. Η πολυμεταβλητή λογιστική παλινδρόμηση χρησιμοποιήθηκε για την εξέταση παραγόντων που επηρεάζουν τις σωστές αποκρίσεις.

Αποτελέσματα και συζήτηση

Ο Bard και ο Gemini απάντησαν άμεσα και με συνέπεια και στις 150 ερωτήσεις χωρίς να αντιμετωπίσουν μεγάλη ζήτηση. Στην αρχική ανάλυση με τις εκδόσεις των ΗΠΑ, ο Bard χρειάστηκε 7,1 ± 2,7 δευτερόλεπτα για να απαντήσει, ενώ ο Gemini χρειάστηκε 7,1 ± 2,8 δευτερόλεπτα, που είχε μεγαλύτερη μέση διάρκεια απόκρισης.

Στην αρχική ανάλυση χρησιμοποιώντας την αμερικανική μορφή chatbots, τόσο ο Bard όσο και ο Gemini πέτυχαν 71% ακρίβεια, απαντώντας σωστά σε 106 από τις 150 ερωτήσεις. Ο Bard έδωσε εξηγήσεις για το 86% των απαντήσεών του, ενώ ο Δίδυμος έδωσε εξηγήσεις για όλες τις απαντήσεις.

Διαπιστώθηκε ότι ο Μπαρντ είχε καλύτερες επιδόσεις στην οφθαλμολογική και πλαστική χειρουργική, ενώ ο Δίδυμος έδειξε ανώτερες επιδόσεις στη γενική οφθαλμολογία, την οφθαλμολογική και πλαστική χειρουργική, το γλαύκωμα και την ραγοειδίτιδα. Ωστόσο, και τα δύο εργαλεία δυσκολεύτηκαν στις κατηγορίες καταρράκτη και φακών και διαθλαστικής χειρουργικής.

Στη δευτερεύουσα ανάλυση με τον Bard από το Βιετνάμ, το chatbot απάντησε σωστά στο 67% των ερωτήσεων, παρόμοια με την έκδοση των ΗΠΑ. Ωστόσο, η χρήση του Bard από το Βιετνάμ είχε ως αποτέλεσμα διαφορετικές επιλογές απαντήσεων για το 21% των ερωτήσεων σε σύγκριση με την έκδοση των ΗΠΑ.

Για τα δίδυμα από το Βιετνάμ, το 74% των ερωτήσεων απαντήθηκαν σωστά παρόμοια με την έκδοση των ΗΠΑ, αν και υπήρχαν διαφορές στην επιλογή απαντήσεων για το 15% των ερωτήσεων σε σύγκριση με την έκδοση των ΗΠΑ. Και στις δύο περιπτώσεις, ορισμένες ερωτήσεις που απαντήθηκαν λανθασμένα από τις εκδόσεις των ΗΠΑ απαντήθηκαν σωστά από τις εκδόσεις του Βιετνάμ και το αντίστροφο.

Οι εκδόσεις του Βιετνάμ των Bard και Gemini εξήγησαν το 86% και το 100% των απαντήσεών τους, αντίστοιχα. Ο Bard είχε καλύτερες επιδόσεις σε χειρουργική αμφιβληστροειδούς και υαλοειδούς και τροχιακή και πλαστική χειρουργική (80% ακρίβεια), ενώ ο Gemini είχε καλύτερες επιδόσεις σε παθήσεις κερατοειδούς και εξωτερικές παθήσεις, γενική οφθαλμολογία και γλαύκωμα (87% ακρίβεια το καθένα).

Ο Μπαρντ πάλεψε περισσότερο με τον καταρράκτη και τους φακούς (40% ακρίβεια), ενώ ο Δίδυμος πάλεψε με τις προκλήσεις της παιδιατρικής οφθαλμολογίας και τον στραβισμό (60% ακρίβεια). Η απόδοση του Gemini στη Βραζιλία και την Ολλανδία ήταν σχετικά χειρότερη από εκείνη των εκδόσεων των ΗΠΑ και του Βιετνάμ.

Παρά τα πολλά υποσχόμενα αποτελέσματα, οι περιορισμοί της μελέτης περιλαμβάνουν το μικρό μέγεθος δείγματος ερωτήσεων, την εξάρτηση από μια δημόσια διαθέσιμη τράπεζα ερωτήσεων, τις ανεξερεύνητες επιδράσεις των προτροπών των χρηστών, την ταχύτητα Διαδικτύου, την επισκεψιμότητα του ιστότοπου στους χρόνους απόκρισης και περιστασιακές εσφαλμένες εξηγήσεις από chatbot.

Μελλοντικές μελέτες θα μπορούσαν να εξετάσουν την σχετικά ανεξερεύνητη ικανότητα των chatbots να ερμηνεύουν εικόνες ματιών. Απαιτείται περαιτέρω έρευνα για την αντιμετώπιση των περιορισμών και τη διερεύνηση πρόσθετων εφαρμογών σε αυτόν τον τομέα.

Δίπλωμα

Συνοπτικά, ενώ και οι δύο εκδόσεις των Bard και Gemini για τις ΗΠΑ και το Βιετνάμ τονίζουν την πιθανή μεταβλητότητα απόκρισης που σχετίζεται με την τοποθεσία του χρήστη, η μελέτη έδειξε ικανοποιητική απόδοση σε ερωτήσεις οφθαλμολογικής πρακτικής.

Οι μελλοντικές αξιολογήσεις που παρακολουθούν τη βελτίωση των chatbot AI και οι συγκρίσεις μεταξύ κατοίκων οφθαλμολογίας και chatbot AI θα μπορούσαν να παρέχουν πολύτιμες πληροφορίες για την αποτελεσματικότητα και την αξιοπιστία τους.


Πηγές:

Journal reference: