يطابق نظام الذكاء الاصطناعي دقة التشخيص مع تقليل التكاليف الطبية
في دراسة جديدة، تفوق نظام التشخيص المدعوم بالذكاء الاصطناعي من مايكروسوفت على الأطباء ذوي الخبرة في حل الحالات الطبية الأكثر صعوبة بشكل أسرع وأرخص وأكثر دقة. الدراسة: التشخيص المتسلسل مع النماذج اللغوية. حقوق الصورة: MetamorWorks/Shutterstock.com *إفصاح مهم: تنشر Arxiv تقارير علمية أولية لم تخضع لمراجعة النظراء، وبالتالي لا تعتبر قاطعة، أو توجه الممارسة السريرية/السلوكيات المتعلقة بالصحة، أو يتم التعامل معها على أنها معلومات ثابتة. قارنت دراسة حديثة أجريت على خوادم Arxiv Preprint بين دقة التشخيص ونفقات الموارد لأنظمة الذكاء الاصطناعي وتلك الخاصة بالأطباء في الحالات المعقدة. أظهر فريق Microsoft AI الاستخدام الفعال للذكاء الاصطناعي (AI) في...
يطابق نظام الذكاء الاصطناعي دقة التشخيص مع تقليل التكاليف الطبية
في دراسة جديدة، تفوق نظام التشخيص المدعوم بالذكاء الاصطناعي من مايكروسوفت على الأطباء ذوي الخبرة في حل الحالات الطبية الأكثر صعوبة بشكل أسرع وأرخص وأكثر دقة.
الدراسة: التشخيص المتسلسل مع النماذج اللغوية. حقوق الصورة: MetamorWorks/Shutterstock.com
*ملاحظة هامة: أركسيفنشر التقارير العلمية الأولية التي لم تتم مراجعتها من قبل النظراء، وبالتالي لا تعتبر قاطعة، أو توجه الممارسات السريرية/السلوكيات المتعلقة بالصحة، أو يتم التعامل معها على أنها معلومات ثابتة.
دراسة حديثة عنأركسيفقام Preprint Server بمقارنة دقة التشخيص ونفقات الموارد لأنظمة الذكاء الاصطناعي مع تلك الخاصة بالأطباء في الحالات المعقدة. أظهر فريق Microsoft AI الاستخدام الفعال للذكاء الاصطناعي (AI) في الطب لمواجهة التحديات التشخيصية التي يحتاج الأطباء إلى فك شفرتها.
التشخيص المتسلسل ونماذج اللغة
غالبًا ما يقوم الأطباء بتشخيص مرضهم من خلال عملية تفكير سريرية تتضمن أسئلة واختبارات متكررة خطوة بخطوة. وحتى مع المعلومات الأولية المحدودة، يقوم الأطباء بتضييق نطاق التشخيص المحتمل عن طريق استجواب المريض وتأكيده من خلال الاختبارات البيوكيميائية، والتصوير، والخزعة، وغيرها من الإجراءات التشخيصية.
يتطلب حل الحالة المعقدة مجموعة شاملة من المهارات، بما في ذلك تحديد الأسئلة أو الاختبارات الأكثر أهمية التي يجب متابعتها، مع الاهتمام بتكاليف الاختبار لمنع زيادة العبء على المريض، والتعرف على الأدلة لإجراء تشخيص موثوق.
أظهرت العديد من الدراسات تحسين كفاءة النماذج اللغوية (LMS) في إجراء اختبارات الترخيص الطبي والمقالات التشخيصية عالية التنظيم. ومع ذلك، تم تقييم أداء معظم LMs في ظل ظروف اصطناعية تختلف اختلافًا جذريًا عن البيئات السريرية في العالم الحقيقي.
تعتمد معظم نماذج LMS للتقييمات التشخيصية على اختبار متعدد الاختيارات، ويتم التشخيص من مجموعة إجابات محددة مسبقًا. تؤدي دورة التشخيص المتسلسلة المخفضة إلى زيادة خطر المبالغة في تقدير الكفاءة النموذجية للمعايير الثابتة. بالإضافة إلى ذلك، تشكل هذه النماذج التشخيصية خطر طلب الاختبار العشوائي وإغلاق التشخيص المبكر. لذلك، هناك حاجة ملحة لنظام ذكاء اصطناعي يعتمد على دورة تشخيصية متسلسلة لتحسين دقة التشخيص وتقليل تكاليف الاختبار.
حول الدراسة
للتغلب على العيوب المذكورة أعلاه لنماذج LMS للتشخيص السريري، قام العلماء بتطوير معيار التشخيص المتسلسل (SDBench) كإطار تفاعلي لتقييم عوامل التشخيص (البشرية أو الذكاء الاصطناعي) من خلال لقاءات سريرية متسلسلة واقعية.
لتقييم دقة التشخيص، استخدمت الدراسة الحالية الحالات الأسبوعية المنشورة في مجلة نيو إنجلاند الطبية (NEJM)، المجلة الطبية الرائدة في العالم. تنشر هذه المجلة عادةً ملاحظات حالة لمرضى مستشفى ماساتشوستس العام بتنسيق سردي مفصل. تعد هذه الحالات من بين الحالات الأكثر تحديًا من الناحية التشخيصية والمتطلبة فكريًا في الطب السريري، وغالبًا ما تتطلب العديد من المتخصصين واختبارات تشخيصية لتأكيد التشخيص.
Sdbench بنسبة 304 حالة من مؤتمر NEJM Clinicopathologic (2017-2025) في لقاءات تشخيصية تدريجية. تضمنت البيانات الطبية عروضًا سريرية في تشخيصات نهائية تتراوح من الأمراض الشائعة (مثل الالتهاب الرئوي) إلى الاضطرابات النادرة (مثل نقص السكر في الدم عند الأطفال حديثي الولادة). باستخدام المنصة التفاعلية، يقرر وكلاء التشخيص الأسئلة التي يجب طرحها، والاختبارات التي يجب طلبها، ومتى يتم تأكيد التشخيص.
إن Information Gatekeeper هو نموذج لغة يكشف التفاصيل السريرية من ملف حالة شامل فقط عند الاستعلام عنها بشكل صريح من ملف حالة شامل. وقد يوفر أيضًا معلومات إضافية متسقة مع الحالة للاختبار غير الموضحة في السرد الأصلي لتكلفة النقرة (CPC). بعد إجراء التشخيص النهائي بناءً على المعلومات الواردة من حارس البوابة، تم اختبار دقة التقييم السريري مقابل التشخيص الفعلي. بالإضافة إلى ذلك، تم تقدير التكلفة التراكمية لجميع الاختبارات التشخيصية المطلوبة التي تم إجراؤها في التشخيص الحقيقي. من خلال تقييم دقة التشخيص وتكلفة التشخيص، يشير Sdbench إلى مدى قربنا من تقديم رعاية عالية الجودة بتكلفة مستدامة.
نتائج الدراسة
حللت الدراسة الحالية أداء جميع عوامل التشخيص على SDBEN. تم تقييم عوامل الذكاء الاصطناعي في جميع حالات NEJM الـ 304، بينما تم تقييم الأطباء في مجموعة فرعية محتفظ بها مكونة من 56 مجموعة اختبار. وجدت هذه الدراسة أن أداء عملاء الذكاء الاصطناعي كان أفضل من أداء الأطباء في هذه المجموعة الفرعية.
حقق الأطباء الممارسون في الولايات المتحدة والمملكة المتحدة بمتوسط 12 عامًا من الخبرة السريرية دقة تشخيصية بنسبة 20% بمتوسط تكلفة قدرها 2,963 دولارًا أمريكيًا لكل حالة على SDBench، مما يسلط الضوء على الصعوبة الكامنة في المعيار. قضى الأطباء ما متوسطه 11.8 دقيقة لكل حالة وطلبوا 6.6 سؤالًا و7.2 اختبارًا. لقد تفوق GPT -4o على الأطباء من حيث دقة التشخيص والتكلفة. توفر النماذج الجاهزة المتوفرة تجاريًا دقة تشخيصية وتكلفة متفاوتة.
قدمت الدراسة الحالية أيضًا MAI Diagnostic Orchestrator (MAI-DXO)، وهي منصة مشتركة مع الأطباء أظهرت كفاءة تشخيصية أعلى من الأطباء البشريين ونماذج اللغة التجارية. بالمقارنة مع أجهزة LM التجارية، أظهر Mai-DXO دقة تشخيصية أعلى وانخفاضًا كبيرًا في التكاليف الطبية بأكثر من النصف. على سبيل المثال، حقق نموذج O3 الجاهز دقة تشخيصية بنسبة 78.6% بسعر 7,850 دولارًا أمريكيًا، في حين حقق نموذج May-DXO دقة تشخيصية بنسبة 79.9% بسعر 2,397 دولارًا أمريكيًا فقط أو 85.5% بسعر 7,184 دولارًا أمريكيًا.
وقد حققت MAI-DXO ذلك من خلال محاكاة لوحة افتراضية من "وكلاء الأطباء" بأدوار مختلفة في توليد الفرضيات، واختيار الاختبار، والوعي بالتكلفة، والتحقق من الأخطاء. على عكس موجه الذكاء الاصطناعي الأساسي، سمح هذا التنسيق المنظم للنظام بأن يكون متكررًا وفعالًا.
يعتبر Mai-Dxo منهجًا لا يعتمد على النماذج وقد أظهر مكاسب في الدقة في نماذج لغوية مختلفة، وليس فقط في نموذج مؤسسة O3.
الاستنتاجات والآفاق المستقبلية
تظهر نتائج الدراسة الحالية دقة تشخيصية أعلى وفعالية من حيث التكلفة لأنظمة الذكاء الاصطناعي عندما تتم معالجتها بشكل متكرر وبعناية. قدمت Sdbench وMai-Dxo أساسًا تجريبيًا لتطوير التشخيص بمساعدة الذكاء الاصطناعي في ظل قيود واقعية.
في المستقبل، يجب التحقق من صحة Mai-DXO في الإعدادات السريرية حيث يحدث انتشار المرض وعرضه بشكل متكرر على أساس يومي وليس كمناسبة نادرة. علاوة على ذلك، هناك حاجة إلى معايير طبية تفاعلية واسعة النطاق تضم أكثر من 304 حالة. إن دمج الطرائق البصرية والحسية الأخرى مثل التصوير يمكن أن يؤدي أيضًا إلى تحسين دقة التشخيص دون المساس بفعالية التكلفة.
ومع ذلك، لاحظ المؤلفون قيودًا مهمة. يتم اختيار حالات NEJM -CPC لصعوبتها ولا تعكس العروض السريرية اليومية. ولم تشمل الدراسة مرضى أصحاء أو تقيس معدلات إيجابية كاذبة. بالإضافة إلى ذلك، تعتمد تقديرات تكلفة التشخيص على الأسعار الأمريكية وقد تختلف في جميع أنحاء العالم.
تم اختبار النماذج أيضًا على مجموعة اختبار محتفظ بها من الحالات الحديثة (2024-2025) لتقييم التعميم وتجنب التجهيز الزائد، حيث تم إصدار العديد من هذه الحالات بعد انقطاع التدريب لمعظم النماذج.
وتثير الدراسة أيضًا سؤالًا أوسع: هل يجب علينا مقارنة أنظمة الذكاء الاصطناعي بالأطباء الفرديين أو الفرق الطبية الكاملة؟ ونظرًا لأن برنامج Mai-Dxo يحاكي التعاون بين متخصصين متعددين، فقد تعكس المقارنة شيئًا أقرب إلى الرعاية القائمة على الفريق من الممارسة الفردية.
ومع ذلك، يشير البحث إلى أن أنظمة الذكاء الاصطناعي المهيكلة مثل Mai-DXO قد تدعم الأطباء أو تزيدهم يومًا ما، لا سيما في البيئات التي يكون فيها الوصول إلى المتخصصين محدودًا أو مكلفًا.
قم بتنزيل نسختك PDF الآن!
*ملاحظة هامة: أركسيفنشر التقارير العلمية الأولية التي لم تتم مراجعتها من قبل النظراء، وبالتالي لا تعتبر قاطعة، أو توجه الممارسات السريرية/السلوكيات المتعلقة بالصحة، أو يتم التعامل معها على أنها معلومات ثابتة.
مصادر:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405