تواجه نماذج الذكاء الاصطناعي صعوبات في المحادثات الطبية الواقعية

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

يتم الترويج لأدوات الذكاء الاصطناعي مثل ChatGPT لوعدها بتقليل عبء العمل الواقع على الأطباء من خلال فرز المرضى، وجمع التاريخ الطبي، وحتى إجراء التشخيصات الأولية. هذه الأدوات، المعروفة باسم نماذج اللغة الكبيرة، يتم استخدامها بالفعل من قبل المرضى لفهم أعراضهم ونتائج الاختبارات الطبية. ولكن في حين أن نماذج الذكاء الاصطناعي هذه تؤدي أداءً مثيرًا للإعجاب في الاختبارات الطبية الموحدة، فما مدى جودة أدائها في المواقف التي تحاكي العالم الحقيقي بشكل أوثق؟ ليست كبيرة جدًا، وفقًا لنتائج دراسة جديدة أجراها باحثون في كلية الطب بجامعة هارفارد وجامعة ستانفورد. لتحليلهم، نشر في 2 يناير...

تواجه نماذج الذكاء الاصطناعي صعوبات في المحادثات الطبية الواقعية

يتم الترويج لأدوات الذكاء الاصطناعي مثل ChatGPT لوعدها بتقليل عبء العمل الواقع على الأطباء من خلال فرز المرضى، وجمع التاريخ الطبي، وحتى إجراء التشخيصات الأولية.

هذه الأدوات، المعروفة باسم نماذج اللغة الكبيرة، يتم استخدامها بالفعل من قبل المرضى لفهم أعراضهم ونتائج الاختبارات الطبية.

ولكن في حين أن نماذج الذكاء الاصطناعي هذه تؤدي أداءً مثيرًا للإعجاب في الاختبارات الطبية الموحدة، فما مدى جودة أدائها في المواقف التي تحاكي العالم الحقيقي بشكل أوثق؟

ليست كبيرة جدًا، وفقًا لنتائج دراسة جديدة أجراها باحثون في كلية الطب بجامعة هارفارد وجامعة ستانفورد.

لتحليلهم، نشر في الثاني من ينايرالطب الطبيعيقام الباحثون بتصميم إطار التقييم -؛ أو اختبار -؛ أطلق عليها اسم CRAFT-MD (إطار تقييم الاستدلال التحادثي للاختبار في الطب) ونشرته على أربعة نماذج بلغة كبيرة لمعرفة مدى نجاحهم في العمل في بيئات تحاكي بشكل وثيق التفاعلات الفعلية مع المرضى.

كان أداء جميع النماذج الأربعة الناطقة باللغة الكبيرة جيدًا في الأسئلة المتعلقة بنمط الامتحانات الطبية، لكن أدائهم تدهور عندما شاركوا في محادثات تحاكي التفاعلات في العالم الحقيقي بشكل أوثق.

وقال الباحثون إن هذه الفجوة تؤكد الحاجة ذات شقين: أولاً، إنشاء تقييمات أكثر واقعية لتقييم مدى ملاءمة نماذج الذكاء الاصطناعي السريرية للاستخدام في العالم الحقيقي، وثانيًا، تحسين قدرة هذه الأدوات على التشخيص بناءً على تفاعلات أكثر واقعية قبل استخدامها في العيادة.

يقول فريق البحث إن أدوات التقييم مثل CRAFT-MD لا يمكنها فقط تقييم نماذج الذكاء الاصطناعي بشكل أكثر دقة لمدى لياقتهم البدنية في العالم الحقيقي، ولكنها يمكن أن تساعد أيضًا في تحسين أدائهم في العيادة.

يكشف عملنا عن مفارقة ملفتة للنظر: فبينما تتفوق نماذج الذكاء الاصطناعي هذه في الاختبارات الطبية، فإنها تواجه صعوبة في التعامل مع التفاصيل الأساسية لزيارة الطبيب. إن ديناميكيات المحادثات الطبية - الحاجة إلى طرح الأسئلة الصحيحة في الوقت المناسب، وتجميع المعلومات المتناثرة، والتفكير المستند إلى الأعراض - تمثل تحديات فريدة تتجاوز مجرد الإجابة على أسئلة الاختيار من متعدد. وبينما ننتقل من الاختبارات الموحدة إلى هذه المحادثات الطبيعية، تظهر حتى نماذج الذكاء الاصطناعي الأكثر تطورًا انخفاضًا كبيرًا في دقة التشخيص.

براناف راجبوركار، كبير مؤلفي الدراسة، وأستاذ مساعد للمعلوماتية الطبية الحيوية في كلية الطب بجامعة هارفارد

اختبار أفضل للتحقق من أداء الذكاء الاصطناعي في الممارسة العملية

في الوقت الحالي، يختبر المطورون أداء نماذج الذكاء الاصطناعي من خلال مطالبتهم بالإجابة على أسئلة طبية متعددة الاختيارات، والتي تكون مستمدة عادةً من الامتحان الوطني لطلاب الطب المتخرجين أو من الاختبارات التي يأخذها المقيمون كجزء من شهاداتهم.

وقالت شريا جوهري، المؤلفة الأولى المشاركة في الدراسة ومرشحة الدكتوراه في مختبر راجبوركار في كلية الطب بجامعة هارفارد: "يفترض هذا النهج أن جميع المعلومات ذات الصلة يتم تقديمها بوضوح وإيجاز، وغالباً ما تستخدم المصطلحات الطبية أو الكلمات الطنانة التي تبسط عملية التشخيص، ولكن في العالم الحقيقي تكون هذه العملية أكثر فوضوية بكثير". "نحن بحاجة إلى إطار اختبار يعكس الواقع بشكل أفضل، وبالتالي يمكننا التنبؤ بشكل أفضل بمدى نجاح النموذج."

تم تطوير CRAFT-MD ليكون جهاز قياس أكثر واقعية.

لمحاكاة التفاعلات في العالم الحقيقي، يقوم CRAFT-MD بتقييم مدى قدرة نماذج اللغات الكبيرة على جمع معلومات حول الأعراض والأدوية والتاريخ العائلي ومن ثم إجراء التشخيص. يتظاهر وكيل الذكاء الاصطناعي بأنه مريض ويجيب على الأسئلة بأسلوب محادثة وطبيعي. يقوم وكيل آخر للذكاء الاصطناعي بتقييم دقة التشخيص النهائي الذي يقدمه نموذج اللغة الكبيرة. ثم يقوم الخبراء البشريون بتقييم نتائج كل لقاء من حيث القدرة على جمع معلومات المريض ذات الصلة، ودقة التشخيص في تقديم المعلومات المتفرقة، والالتزام بالتعليمات.

استخدم الباحثون CRAFT-MD لاختبار أربعة نماذج للذكاء الاصطناعي -؛ كل من الإصدارات المملوكة أو التجارية ومفتوحة المصدر -؛ للأداء في 2000 مقالة سريرية تغطي الحالات الشائعة في الرعاية الأولية و12 تخصصًا طبيًا.

أظهرت جميع نماذج الذكاء الاصطناعي قيودًا، لا سيما في قدرتها على إجراء المحادثات السريرية والتفكير المنطقي بناءً على المعلومات المقدمة من المرضى. وهذا بدوره أثر على قدرتهم على أخذ التاريخ الطبي وإجراء التشخيص المناسب. على سبيل المثال، واجهت النماذج في كثير من الأحيان صعوبة في طرح الأسئلة الصحيحة لجمع تاريخ المريض ذي الصلة، وفقدت معلومات مهمة أثناء أخذ التاريخ، وواجهت صعوبة في تجميع المعلومات المتفرقة. انخفضت دقة هذه النماذج عندما تم تقديم معلومات مفتوحة لها بدلاً من إجابات متعددة الخيارات. كان أداء هذه النماذج أيضًا أسوأ عند التبادل ذهابًا وإيابًا -؛ كما هو الحال مع معظم المحادثات في العالم الحقيقي -؛ بدلاً من الانخراط في محادثات مختصرة.

توصيات لتحسين أداء الذكاء الاصطناعي في الممارسة العملية

وبناءً على هذه النتائج، يقدم الفريق سلسلة من التوصيات لكل من مطوري الذكاء الاصطناعي الذين يصممون نماذج الذكاء الاصطناعي والمنظمين المكلفين بتقييم هذه الأدوات والموافقة عليها.

وهذا يشمل:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

بالإضافة إلى ذلك، ينبغي تضمين كل من وكلاء الذكاء الاصطناعي والخبراء البشريين في التقييم، كما يوصي الباحثون، لأن الاعتماد فقط على الخبراء البشريين يتطلب عمالة كثيفة ومكلفة. على سبيل المثال، كان CRAFT-MD أسرع من المقيمين البشر، حيث قام بمعالجة 10000 مقابلة خلال 48 إلى 72 ساعة، بالإضافة إلى 15 إلى 16 ساعة من تقييم الخبراء. في المقابل، تتطلب الأساليب المعتمدة على الإنسان توظيفًا مكثفًا وما يقدر بنحو 500 ساعة لمحاكاة المرضى (حوالي 3 دقائق لكل محادثة) وحوالي 650 ساعة لتقييمات الخبراء (حوالي 4 دقائق لكل محادثة). إن استخدام مقيمي الذكاء الاصطناعي كخيار أول له فائدة إضافية تتمثل في القضاء على مخاطر تعريض المرضى الحقيقيين لأدوات الذكاء الاصطناعي التي لم يتم التحقق منها.

يتوقع الباحثون أن يتم أيضًا تحديث CRAFT-MD نفسه وتحسينه بانتظام لدمج نماذج الذكاء الاصطناعي المحسنة للمرضى.

وقالت روكسانا دانيشجو، المؤلفة المشاركة في الدراسة، والأستاذة المساعدة في علوم البيانات الطبية الحيوية والأمراض الجلدية في جامعة ستانفورد: "بصفتي طبيبة وعالمة، أنا مهتمة بنماذج الذكاء الاصطناعي التي يمكنها تحسين الممارسة السريرية بشكل فعال وأخلاقي". "تقوم CRAFT-MD بإنشاء إطار عمل يعكس بشكل أفضل تفاعلات العالم الحقيقي، مما يساعد على تطوير المجال عندما يتعلق الأمر باختبار أداء نماذج الذكاء الاصطناعي في مجال الرعاية الصحية."


مصادر:

Journal reference:

جوهري، س.وآخرون. (2025) إطار تقييم للاستخدام السريري لنماذج اللغة الكبيرة في مهام التفاعل مع المريض. طب الطبيعة. doi.org/10.1038/s41591-024-03328-5.