Google Gemini und Bard bestehen die Ophthalmologie-Prüfung

Die geheimnisvolle Welt künstlicher Intelligenz in der Ophthalmologie

Hintergrund
Über die Studie
Resultate und Diskussion
Abschluss

In einer kürzlich in der Zeitschrift veröffentlichten Studie Auge, Forscher aus Kanada bewerteten die Leistung von zwei Chatbots mit künstlicher Intelligenz (KI), Google Gemini und Bard, im Rahmen der Ophthalmology Board-Prüfung.

Sie stellten fest, dass beide Tools eine akzeptable Genauigkeit der Antworten erzielten und im Bereich der Augenheilkunde gute Leistungen erbrachten, wobei es zwischen den Ländern einige Unterschiede gab.

Hintergrund

KI-Chatbots wie ChatGPT (kurz für Chat-Generative Pre-Trained Transformer), Bard und Gemini werden zunehmend im medizinischen Bereich eingesetzt. Ihre Leistung entwickelt sich über Prüfungen und Disziplinen hinweg ständig weiter.

Während die Genauigkeit von ChatGPT-3.5 in den Schritten eins und zwei der AMBOSS- und NBME-Prüfungen (kurz für National Board Medical Examination) bis zu 64 % betrug, zeigten neuere Versionen wie ChatGPT-4 eine verbesserte Leistung.

Bard und Gemini von Google bieten Antworten, die auf vielfältigen kulturellen und sprachlichen Schulungen basieren und möglicherweise Informationen auf bestimmte Länder zuschneiden. Die Reaktionen variieren jedoch je nach Region und erfordern weitere Forschung, um die Konsistenz sicherzustellen, insbesondere bei medizinischen Anwendungen, bei denen Genauigkeit für die Patientensicherheit von entscheidender Bedeutung ist.

In der vorliegenden Studie wollten die Forscher die Leistung von Google Gemini und Bard anhand einer Reihe von Übungsfragen bewerten, die für die Zertifizierungsprüfung des Ophthalmology Board entwickelt wurden.

Über die Studie

Die Leistung von Google Gemini und Bard wurde anhand von 150 textbasierten Multiple-Choice-Fragen von „EyeQuiz“, einer Bildungsplattform für auf Augenheilkunde spezialisierte Mediziner, bewertet.

Das Portal bietet Übungsfragen für verschiedene Prüfungen, darunter das Ophthalmic Knowledge Assessment Program (OKAP), Prüfungen des National Board wie die Prüfung des American Board of Ophthalmology (ABO) sowie bestimmte Postgraduiertenprüfungen.

Die Fragen wurden manuell kategorisiert und die Daten wurden mit den Bard- und Gemini-Versionen erfasst, die am 30. November bzw. 28. Dezember 2023 verfügbar waren. Für beide Tools wurden die Genauigkeit, die Bereitstellung von Erklärungen, die Antwortzeit und die Fragenlänge bewertet.

Zu den Sekundäranalysen gehörte die Bewertung der Leistung in anderen Ländern als den Vereinigten Staaten (USA), einschließlich Vietnam, Brasilien und den Niederlanden, mithilfe virtueller privater Netzwerke (VPNs).

Statistische Tests, einschließlich Chi-Quadrat- und Mann-Whitney-U-Tests, wurden durchgeführt, um die Leistung verschiedener Länder und Chatbot-Modelle zu vergleichen. Mithilfe der multivariablen logistischen Regression wurden Faktoren untersucht, die korrekte Antworten beeinflussen.

Resultate und Diskussion

Bard und Gemini antworteten prompt und konsistent auf alle 150 Fragen, ohne dass es zu einer hohen Nachfrage kam. In der primären Analyse mit den US-Versionen benötigte Bard 7,1 ± 2,7 Sekunden, um zu antworten, während Gemini 7,1 ± 2,8 Sekunden brauchte, was eine längere durchschnittliche Antwortdauer aufwies.

In der Primäranalyse mit der US-amerikanischen Form der Chatbots erreichten sowohl Bard als auch Gemini eine Genauigkeit von 71 % und beantworteten 106 von 150 Fragen richtig. Bard lieferte Erklärungen für 86 % seiner Antworten, während Gemini für alle Antworten Erklärungen lieferte.

Es wurde festgestellt, dass Bard in der Augenhöhlen- und plastischen Chirurgie die besten Leistungen erbrachte, während Gemini in der allgemeinen Augenheilkunde, Augenhöhlen- und plastischen Chirurgie, Glaukom und Uveitis überlegene Leistungen zeigte. Allerdings hatten beide Tools in den Kategorien Katarakt und Linsen sowie refraktive Chirurgie Probleme.

In der Sekundäranalyse mit Bard aus Vietnam beantwortete der Chatbot ähnlich wie in der US-Version 67 % der Fragen richtig. Die Verwendung von Bard aus Vietnam führte jedoch bei 21 % der Fragen zu unterschiedlichen Antwortmöglichkeiten im Vergleich zur US-Version.

Bei Zwillingen aus Vietnam wurden 74 % der Fragen ähnlich wie in der US-Version richtig beantwortet, allerdings gab es bei 15 % der Fragen Unterschiede in der Antwortauswahl im Vergleich zur US-Version. In beiden Fällen wurden einige von den US-Versionen falsch beantwortete Fragen von den Vietnam-Versionen richtig beantwortet und umgekehrt.

Die Vietnam-Versionen von Bard und Gemini erklärten 86 % bzw. 100 % ihrer Antworten. Bard schnitt in den Bereichen Netzhaut- und Glaskörperchirurgie sowie Orbital- und plastische Chirurgie am besten ab (80 % Genauigkeit), während Zwillinge bei Hornhaut- und äußeren Erkrankungen, allgemeiner Augenheilkunde und Glaukom besser abschnitten (jeweils 87 % Genauigkeit).

Bard hatte am meisten mit Katarakten und Linsen zu kämpfen (40 % Genauigkeit), während Zwillinge mit Herausforderungen in der pädiatrischen Augenheilkunde und Strabismus zu kämpfen hatten (60 % Genauigkeit). Die Leistung von Gemini in Brasilien und den Niederlanden war relativ schlechter als die der US- und Vietnam-Versionen.

Trotz der vielversprechenden Ergebnisse sind die Einschränkungen der Studie unter anderem auf die geringe Stichprobengröße der Fragen, die Abhängigkeit von einer öffentlich zugänglichen Fragendatenbank, unerforschte Auswirkungen von Benutzeraufforderungen, die Internetgeschwindigkeit, den Website-Verkehr auf die Antwortzeiten und gelegentliche falsche Erklärungen der Chatbots zurückzuführen.

Zukünftige Studien könnten die noch relativ unerforschte Fähigkeit der Chatbots zur Interpretation von Augenbildern untersuchen. Weitere Forschung ist erforderlich, um die Einschränkungen zu beseitigen und zusätzliche Anwendungen auf diesem Gebiet zu erkunden.

Abschluss

Zusammenfassend lässt sich sagen, dass die Studie zwar eine zufriedenstellende Leistung bei Fragen zur Augenheilkundepraxis zeigte, obwohl sowohl die Versionen von Bard und Gemini in den USA als auch in Vietnam eine mögliche Antwortvariabilität im Zusammenhang mit dem Standort des Benutzers hervorheben.

Zukünftige Auswertungen zur Verfolgung der Verbesserung von KI-Chatbots und Vergleiche zwischen Assistenzärzten in der Augenheilkunde und KI-Chatbots könnten wertvolle Erkenntnisse über deren Wirksamkeit und Zuverlässigkeit liefern.

Quellen:

Journal reference:

Mihalache, A. et al., (2024) Google Gemini and Bard artificial intelligence chatbot performance in ophthalmology knowledge assessment. Eye. doi: https://doi.org/10.1038/s41433-024-03067-4. https://www.nature.com/articles/s41433-024-03067-4

Google Gemini und Bard bestehen die Ophthalmologie-Prüfung

Die geheimnisvolle Welt künstlicher Intelligenz in der Ophthalmologie

Hintergrund

Über die Studie

Resultate und Diskussion

Abschluss

Daniel Wom

Schreibe einen Kommentar Antworten abbrechen

Was zu tun ist, wenn Sie sich den Kopf gestoßen haben, und wann Sie sich behandeln lassen sollten

Stuhlgang und Gesundheit: Wie oft ist normal? Ein Experte klärt auf!

Vorsicht bei Melatonin: Risiken und Nebenwirkungen für Nutzende

Sollten Sie Kupfer- und Zinkpräparate zusammen einnehmen?

Die Wissenschaft hinter der Akupunktur: Neueste Erkenntnisse und klinische Studien

Der gesundheitsorientierte Leitfaden für E-Zigaretten

Eine vollständige Tumor -DNA -Sequenzierung wird für Kinder mit Krebs Standard

Neues KI -Tool charakterisiert die Vielfalt einzelner Zellen in Tumoren

Die Forschung beleuchtet die dauerhaften Auswirkungen geografischer Etiketten auf die Pandemieberichterstattung

Häufiges Autoimmunmedikament, das Patienten mit Riesenzellarteritis hilft

Hintergrund

Über die Studie

Resultate und Diskussion

Abschluss

Daniel Wom

Nutzung der CRISPR/Cas-Technologie zur Bekämpfung antimikrobieller Resistenzen

Der monoklonale Antikörper Prasinezumab verspricht, das schnelle Fortschreiten der Parkinson-Krankheit zu verlangsamen

Ähnliche Artikel

World Wellbeing Week: Bedfont® Scientific Limited Highlights Die laufenden Investitionen in das Wohlbefinden der Mitarbeiter heben

GBBO -Finalistin und Chemiker Dr. Josh Smalley zur Headline Live Essbare Chemie -Demo bei Chemuk 2025

Neue Auszeichnung zur Anerkennung von Beiträgen, die die Neurowissenschaften mit der psychiatrischen Diagnose und Behandlung verbinden

Rufen Sie dringende Unterstützung an, da die Finanzierungskürzungen der USA HIV/AIDS -Programme bedrohen

Schreibe einen Kommentar Antworten abbrechen