جوجل الجوزاء وبارد يجتازان امتحان طب العيون

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

تعرف على أداء Google Gemini وBard في اختبار طب العيون. وتظهر الدراسة أدائهم في مختلف البلدان والتخصصات. رؤى مهمة!

Erfahren Sie, wie Google Gemini und Bard bei der Ophthalmologie-Prüfung abschneiden. Studie zeigt ihre Leistung in verschiedenen Ländern und Disziplinen. Wichtige Erkenntnisse!
تعرف على أداء Google Gemini وBard في اختبار طب العيون. وتظهر الدراسة أدائهم في مختلف البلدان والتخصصات. رؤى مهمة!

جوجل الجوزاء وبارد يجتازان امتحان طب العيون

وفي دراسة نشرت مؤخرا في المجلةعين,قام باحثون من كندا بتقييم أداء اثنين من روبوتات الدردشة العاملة بالذكاء الاصطناعي، وهما Google Gemini وBard، في امتحان مجلس طب العيون.

ووجدوا أن كلتا الأداتين حققتا دقة استجابة مقبولة وأداء جيد في مجال طب العيون، على الرغم من وجود بعض الاختلافات بين البلدان.

خلفية

يتم استخدام روبوتات الدردشة المدعمة بالذكاء الاصطناعي مثل ChatGPT (اختصار لـ Chat-Generative Pre-Trained Transformer) وBard وGemini بشكل متزايد في المجال الطبي. يتطور أدائك باستمرار عبر الاختبارات والتخصصات.

بينما وصلت دقة ChatGPT-3.5 إلى 64% في الخطوتين الأولى والثانية من اختبارات AMBOSS وNBME (اختصار للفحص الطبي للمجلس الوطني)، أظهرت الإصدارات الأحدث مثل ChatGPT-4 أداءً محسنًا.

يقدم Bard وGemini من Google إجابات بناءً على التدريب الثقافي واللغوي المتنوع وقد يقوما بتخصيص المعلومات لتناسب بلدان معينة. ومع ذلك، تختلف الاستجابات حسب المنطقة وتتطلب المزيد من البحث لضمان الاتساق، لا سيما في التطبيقات الطبية حيث تعد الدقة أمرًا بالغ الأهمية لسلامة المرضى.

في هذه الدراسة، سعى الباحثون إلى تقييم أداء Google Gemini وBard باستخدام سلسلة من أسئلة التدريب المصممة لامتحان شهادة مجلس طب العيون.

حول الدراسة

تم تقييم أداء Google Gemini وBard باستخدام 150 سؤالًا نصيًا متعدد الاختيارات من EyeQuiz، وهي منصة تعليمية للمهنيين الطبيين المتخصصين في طب العيون.

توفر البوابة أسئلة تدريبية لمختلف الاختبارات، بما في ذلك برنامج تقييم المعرفة في طب العيون (OKAP)، واختبارات المجلس الوطني مثل امتحان البورد الأمريكي لطب العيون (ABO)، وبعض اختبارات الدراسات العليا.

تم تصنيف الأسئلة يدويًا وتم جمع البيانات باستخدام إصدارات Bard وGemini المتوفرة في 30 نوفمبر و28 ديسمبر 2023، على التوالي. تم تقييم الدقة وتوفير الشرح ووقت الاستجابة وطول السؤال لكلا الأداتين.

وتضمنت التحليلات الثانوية تقييم الأداء في بلدان أخرى غير الولايات المتحدة، بما في ذلك فيتنام والبرازيل وهولندا، باستخدام الشبكات الخاصة الافتراضية (VPN).

تم إجراء الاختبارات الإحصائية، بما في ذلك اختبارات Chi-square وMann-Whitney U، لمقارنة أداء البلدان المختلفة ونماذج برامج الدردشة الآلية. تم استخدام الانحدار اللوجستي متعدد المتغيرات لفحص العوامل التي تؤثر على الاستجابات الصحيحة.

النتائج والمناقشة

أجاب Bard وGemini بسرعة وثبات على جميع الأسئلة البالغ عددها 150 سؤالًا دون مواجهة ارتفاع الطلب. في التحليل الأولي للإصدارات الأمريكية، استغرق Bard 7.1 ± 2.7 ثانية للرد، بينما استغرق Gemini 7.1 ± 2.8 ثانية، وهو ما كان متوسط ​​مدة الاستجابة أطول.

في التحليل الأولي باستخدام النموذج الأمريكي لروبوتات الدردشة، حقق كل من Bard وGemini دقة بنسبة 71%، وأجابا على 106 أسئلة من أصل 150 بشكل صحيح. وقدم بارد تفسيرات لـ 86% من إجاباته، بينما قدم جيمناي تفسيرات لجميع الإجابات.

وقد وجد أن أداء بارد كان الأفضل في الجراحة التجميلية والمحجرية، بينما أظهر الجوزاء أداءً متفوقًا في طب العيون العام والجراحة المدارية والتجميلية والزرق والتهاب القزحية. ومع ذلك، واجهت كلتا الأداتين صعوبات في فئتي إعتام عدسة العين والعدسات والجراحة الانكسارية.

وفي التحليل الثانوي مع بارد من فيتنام، أجاب برنامج الدردشة الآلي على 67% من الأسئلة بشكل صحيح، على غرار النسخة الأمريكية. ومع ذلك، أدى استخدام Bard من فيتنام إلى اختيارات مختلفة للإجابة لـ 21% من الأسئلة مقارنة بالإصدار الأمريكي.

بالنسبة للتوائم من فيتنام، تمت الإجابة على 74% من الأسئلة بشكل صحيح مشابه للنسخة الأمريكية، على الرغم من وجود اختلافات في اختيار الإجابة لـ 15% من الأسئلة مقارنة بالنسخة الأمريكية. في كلتا الحالتين، بعض الأسئلة التي تمت الإجابة عليها بشكل غير صحيح من قبل الإصدارات الأمريكية تمت الإجابة عليها بشكل صحيح من قبل الإصدارات الفيتنامية والعكس صحيح.

شرحت النسختان الفيتناميتان من بارد وجيميني 86% و100% من إجاباتهما على التوالي. كان أداء Bard أفضل في جراحة الشبكية والجسم الزجاجي والجراحة المدارية والتجميلية (دقة 80%)، في حين كان أداء Gemini أفضل في أمراض القرنية والأمراض الخارجية وطب العيون العام والزرق (دقة 87% لكل منهما).

عانى بارد أكثر من غيره مع إعتام عدسة العين والعدسات (دقة 40%)، بينما عانى جيميني مع تحديات طب عيون الأطفال والحول (دقة 60%). كان أداء جيميني في البرازيل وهولندا أسوأ نسبيًا من أداء نسختي الولايات المتحدة وفيتنام.

على الرغم من النتائج الواعدة، فإن قيود الدراسة تشمل صغر حجم عينة الأسئلة، والاعتماد على بنك الأسئلة المتاح للجمهور، والتأثيرات غير المستكشفة لمطالبات المستخدم، وسرعة الإنترنت، وحركة مرور موقع الويب في أوقات الاستجابة، والتفسيرات غير الصحيحة في بعض الأحيان من روبوتات الدردشة.

يمكن للدراسات المستقبلية أن تدرس قدرة روبوتات الدردشة غير المستكشفة نسبيًا على تفسير صور العين. هناك حاجة إلى مزيد من البحث لمعالجة القيود واستكشاف تطبيقات إضافية في هذا المجال.

دبلوم

باختصار، في حين أن كلا الإصدارين الأمريكي والفيتنامي من Bard وGemini يسلطان الضوء على تباين الاستجابة المحتمل المتعلق بموقع المستخدم، فقد أظهرت الدراسة أداءً مرضيًا في أسئلة ممارسة طب العيون.

يمكن أن توفر التقييمات المستقبلية التي تتبع تحسين روبوتات الدردشة المدعمة بالذكاء الاصطناعي والمقارنات بين المقيمين في طب العيون وروبوتات الدردشة المدعمة بالذكاء الاصطناعي رؤى قيمة حول فعاليتها وموثوقيتها.


مصادر:

Journal reference: