Verschiedenes

Google Gemini und Bard bestehen die Ophthalmologie-Prüfung

Die geheimnisvolle Welt künstlicher Intelligenz in der Ophthalmologie

In einer kürzlich in der Zeitschrift veröffentlichten Studie Auge, Forscher aus Kanada bewerteten die Leistung von zwei Chatbots mit künstlicher Intelligenz (KI), Google Gemini und Bard, im Rahmen der Ophthalmology Board-Prüfung.

Sie stellten fest, dass beide Tools eine akzeptable Genauigkeit der Antworten erzielten und im Bereich der Augenheilkunde gute Leistungen erbrachten, wobei es zwischen den Ländern einige Unterschiede gab.

Hintergrund

KI-Chatbots wie ChatGPT (kurz für Chat-Generative Pre-Trained Transformer), Bard und Gemini werden zunehmend im medizinischen Bereich eingesetzt. Ihre Leistung entwickelt sich über Prüfungen und Disziplinen hinweg ständig weiter.

Während die Genauigkeit von ChatGPT-3.5 in den Schritten eins und zwei der AMBOSS- und NBME-Prüfungen (kurz für National Board Medical Examination) bis zu 64 % betrug, zeigten neuere Versionen wie ChatGPT-4 eine verbesserte Leistung.

Bard und Gemini von Google bieten Antworten, die auf vielfältigen kulturellen und sprachlichen Schulungen basieren und möglicherweise Informationen auf bestimmte Länder zuschneiden. Die Reaktionen variieren jedoch je nach Region und erfordern weitere Forschung, um die Konsistenz sicherzustellen, insbesondere bei medizinischen Anwendungen, bei denen Genauigkeit für die Patientensicherheit von entscheidender Bedeutung ist.

In der vorliegenden Studie wollten die Forscher die Leistung von Google Gemini und Bard anhand einer Reihe von Übungsfragen bewerten, die für die Zertifizierungsprüfung des Ophthalmology Board entwickelt wurden.

Über die Studie

Die Leistung von Google Gemini und Bard wurde anhand von 150 textbasierten Multiple-Choice-Fragen von „EyeQuiz“, einer Bildungsplattform für auf Augenheilkunde spezialisierte Mediziner, bewertet.

Das Portal bietet Übungsfragen für verschiedene Prüfungen, darunter das Ophthalmic Knowledge Assessment Program (OKAP), Prüfungen des National Board wie die Prüfung des American Board of Ophthalmology (ABO) sowie bestimmte Postgraduiertenprüfungen.

Die Fragen wurden manuell kategorisiert und die Daten wurden mit den Bard- und Gemini-Versionen erfasst, die am 30. November bzw. 28. Dezember 2023 verfügbar waren. Für beide Tools wurden die Genauigkeit, die Bereitstellung von Erklärungen, die Antwortzeit und die Fragenlänge bewertet.

Zu den Sekundäranalysen gehörte die Bewertung der Leistung in anderen Ländern als den Vereinigten Staaten (USA), einschließlich Vietnam, Brasilien und den Niederlanden, mithilfe virtueller privater Netzwerke (VPNs).

Statistische Tests, einschließlich Chi-Quadrat- und Mann-Whitney-U-Tests, wurden durchgeführt, um die Leistung verschiedener Länder und Chatbot-Modelle zu vergleichen. Mithilfe der multivariablen logistischen Regression wurden Faktoren untersucht, die korrekte Antworten beeinflussen.

Resultate und Diskussion

Bard und Gemini antworteten prompt und konsistent auf alle 150 Fragen, ohne dass es zu einer hohen Nachfrage kam. In der primären Analyse mit den US-Versionen benötigte Bard 7,1 ± 2,7 Sekunden, um zu antworten, während Gemini 7,1 ± 2,8 Sekunden brauchte, was eine längere durchschnittliche Antwortdauer aufwies.

In der Primäranalyse mit der US-amerikanischen Form der Chatbots erreichten sowohl Bard als auch Gemini eine Genauigkeit von 71 % und beantworteten 106 von 150 Fragen richtig. Bard lieferte Erklärungen für 86 % seiner Antworten, während Gemini für alle Antworten Erklärungen lieferte.

Es wurde festgestellt, dass Bard in der Augenhöhlen- und plastischen Chirurgie die besten Leistungen erbrachte, während Gemini in der allgemeinen Augenheilkunde, Augenhöhlen- und plastischen Chirurgie, Glaukom und Uveitis überlegene Leistungen zeigte. Allerdings hatten beide Tools in den Kategorien Katarakt und Linsen sowie refraktive Chirurgie Probleme.

In der Sekundäranalyse mit Bard aus Vietnam beantwortete der Chatbot ähnlich wie in der US-Version 67 % der Fragen richtig. Die Verwendung von Bard aus Vietnam führte jedoch bei 21 % der Fragen zu unterschiedlichen Antwortmöglichkeiten im Vergleich zur US-Version.

Bei Zwillingen aus Vietnam wurden 74 % der Fragen ähnlich wie in der US-Version richtig beantwortet, allerdings gab es bei 15 % der Fragen Unterschiede in der Antwortauswahl im Vergleich zur US-Version. In beiden Fällen wurden einige von den US-Versionen falsch beantwortete Fragen von den Vietnam-Versionen richtig beantwortet und umgekehrt.

Die Vietnam-Versionen von Bard und Gemini erklärten 86 % bzw. 100 % ihrer Antworten. Bard schnitt in den Bereichen Netzhaut- und Glaskörperchirurgie sowie Orbital- und plastische Chirurgie am besten ab (80 % Genauigkeit), während Zwillinge bei Hornhaut- und äußeren Erkrankungen, allgemeiner Augenheilkunde und Glaukom besser abschnitten (jeweils 87 % Genauigkeit).

Bard hatte am meisten mit Katarakten und Linsen zu kämpfen (40 % Genauigkeit), während Zwillinge mit Herausforderungen in der pädiatrischen Augenheilkunde und Strabismus zu kämpfen hatten (60 % Genauigkeit). Die Leistung von Gemini in Brasilien und den Niederlanden war relativ schlechter als die der US- und Vietnam-Versionen.

Trotz der vielversprechenden Ergebnisse sind die Einschränkungen der Studie unter anderem auf die geringe Stichprobengröße der Fragen, die Abhängigkeit von einer öffentlich zugänglichen Fragendatenbank, unerforschte Auswirkungen von Benutzeraufforderungen, die Internetgeschwindigkeit, den Website-Verkehr auf die Antwortzeiten und gelegentliche falsche Erklärungen der Chatbots zurückzuführen.

Zukünftige Studien könnten die noch relativ unerforschte Fähigkeit der Chatbots zur Interpretation von Augenbildern untersuchen. Weitere Forschung ist erforderlich, um die Einschränkungen zu beseitigen und zusätzliche Anwendungen auf diesem Gebiet zu erkunden.

Abschluss

Zusammenfassend lässt sich sagen, dass die Studie zwar eine zufriedenstellende Leistung bei Fragen zur Augenheilkundepraxis zeigte, obwohl sowohl die Versionen von Bard und Gemini in den USA als auch in Vietnam eine mögliche Antwortvariabilität im Zusammenhang mit dem Standort des Benutzers hervorheben.

Zukünftige Auswertungen zur Verfolgung der Verbesserung von KI-Chatbots und Vergleiche zwischen Assistenzärzten in der Augenheilkunde und KI-Chatbots könnten wertvolle Erkenntnisse über deren Wirksamkeit und Zuverlässigkeit liefern.


Quellen:

Journal reference:

Daniel Wom

Daniel Wom ist ein renommierter Webentwickler und SEO-Experte, der in der digitalen Welt eine beeindruckende Karriere aufgebaut hat. Als Betreiber mehrerer Blogs und Online-Magazine erreicht er jeden Monat mehr als 1 Million begeisterte Leser. Sein unermüdlicher Einsatz für Qualität im Web und seine Fähigkeit, die neuesten Trends und Entwicklungen im Webdesign und in der digitalen Kommunikation vorherzusehen und sich daran anzupassen, haben ihn zu einer angesehenen Persönlichkeit in der Branche gemacht.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert