AI系统匹配诊断准确性,同时降低医疗成本
在一项新的研究中,微软的人工智能诊断系统在更快、更便宜、更准确地解决最具挑战性的医疗案例方面优于经验丰富的医生。研究:使用语言模型进行顺序诊断。图片来源:MetamorWorks/Shutterstock.com *重要披露:Arxiv 发布未经同行评审的初步科学报告,因此不被认为是结论性的、指导临床实践/健康相关行为的,或被视为既定信息。最近一项关于 Arxiv 预印本服务器的研究将人工智能系统的诊断准确性和资源支出与临床医生对复杂病例的诊断准确性和资源支出进行了比较。微软人工智能团队展示了人工智能(AI)在......
AI系统匹配诊断准确性,同时降低医疗成本
在一项新的研究中,微软的人工智能诊断系统在更快、更便宜、更准确地解决最具挑战性的医疗案例方面优于经验丰富的医生。
研究:使用语言模型进行顺序诊断。图片来源:MetamorWorks/Shutterstock.com
*重要通知: Arxiv发布未经同行评审的初步科学报告,因此不被认为是结论性的,指导临床实践/健康相关行为,或被视为既定信息。
最近的一项研究关于ArxivPreprint Server 将人工智能系统的诊断准确性和资源支出与临床医生对复杂病例的诊断准确性和资源支出进行了比较。微软人工智能团队展示了人工智能 (AI) 在医学中的有效使用,以解决医生需要破译的诊断挑战。
顺序诊断和语言模型
医生经常通过临床推理过程来诊断患者的疾病,其中包括逐步、反复的询问和测试。即使初始信息有限,临床医生也会通过询问患者并通过生化检测、影像学、活检和其他诊断程序进行确认来缩小可能的诊断范围。
解决复杂的病例需要一套全面的技能,包括确定最关键的问题或要遵循的测试,关注测试成本以防止增加患者负担,以及识别证据以做出自信的诊断。
多项研究表明,语言模型 (LMS) 在进行医疗执照考试和高度结构化的诊断小插图方面可以提高效率。然而,大多数 LM 的性能都是在与现实临床环境截然不同的人工条件下进行评估的。
大多数用于诊断评估的 LMS 模型都基于多项选择测验,并且根据预定义的答案集进行诊断。缩短的顺序诊断周期会增加高估静态基准模型能力的风险。此外,这些诊断模型还存在不加区别地安排测试和过早结束诊断的风险。因此,迫切需要一种基于顺序诊断周期的AI系统来提高诊断准确性并降低测试成本。
关于该研究
为了克服临床诊断 LMS 模型的上述缺点,科学家们开发了顺序诊断基准(SDBench)作为一个交互式框架,用于通过现实的顺序临床接触来评估诊断剂(人类或人工智能)。
为了评估诊断准确性,当前的研究使用了世界领先的医学杂志《新英格兰医学杂志》(NEJM) 上发表的每周病例。该杂志通常以详细的叙述形式发表马萨诸塞州总医院患者的病例记录。这些病例是临床医学中最具诊断挑战性和智力要求最高的病例,通常需要多名专家和诊断测试来确认诊断。
Sdbench 将 NEJM 临床病理学会议(2017-2025)的 304 例病例纳入逐步诊断结果。医学数据包括明确诊断的临床表现,范围从常见疾病(例如肺炎)到罕见疾病(例如新生儿低血糖)。使用交互式平台,诊断代理可以决定要问什么问题、要进行什么测试以及何时确认诊断。
Information Gatekeeper 是一种语言模型,仅在从综合病例文件中明确查询时才从综合病例文件中显示临床详细信息。它还可能为原始 CPC 叙述中未描述的测试提供额外的与案例一致的信息。根据从守门人那里收到的信息做出最终诊断后,临床评估的准确性将与实际诊断进行检验。此外,还估计了实际诊断中执行的所有请求的诊断测试的累积成本。通过评估诊断准确性和诊断成本,Sdbench 表明我们距离以可持续成本提供高质量护理有多远。
研究结果
当前的研究分析了 SDBEN 上所有诊断剂的性能。 AI 代理在所有 304 个 NEJM 病例中进行了评估,而医生则在 56 个测试集的保留子集中进行了评估。这项研究发现,人工智能代理人在这个亚组中的表现比医生更好。
在美国和英国执业的医生,平均临床经验为 12 年,在 SDBench 上每例平均成本为 2,963 美元,诊断准确率达到 20%,凸显了该基准的固有难度。医生平均每个病例花费 11.8 分钟,提出 6.6 个问题和 7.2 项测试。 GPT -4o 在诊断准确性和成本方面均优于医生。市售的现成型号提供了不同的诊断准确性和成本。
目前的研究还介绍了MAI Diagnostic Orchestrator(MAI-DXO),这是一个与医生合作的平台,表现出比人类医生和商业语言模型更高的诊断效率。与商业LM相比,Mai-DXO表现出更高的诊断准确性,并且医疗成本显着降低一半以上。例如,现成的 O3 模型以 7,850 美元的价格实现了 78.6% 的诊断准确率,而 May-DXO 以 2,397 美元的价格实现了 79.9% 的准确率,以 7,184 美元的价格实现了 85.5% 的准确率。
MAI-DXO 通过模拟“医生代理人”的虚拟小组来实现这一目标,这些小组在假设生成、测试选择、成本意识和错误检查方面发挥着不同的作用。与基本的人工智能提示不同,这种结构化的编排使系统能够迭代且高效。
Mai-Dxo 是一种与模型无关的方法,已在各种语言模型(而不仅仅是 O3 基金会模型)中证明了准确性的提高。
结论和未来展望
目前的研究结果表明,人工智能系统在迭代和仔细处理时具有更高的诊断准确性和成本效益。 Sdbench 和 Mai-Dxo 为在现实约束下推进人工智能辅助诊断提供了基于经验的基础。
未来,Mai-DXO 需要在疾病流行和表现频繁发生而不是罕见情况的临床环境中进行验证。此外,还需要超过 304 个案例的大规模交互式医疗基准。结合视觉和其他感官方式(例如成像)也可以在不影响成本效益的情况下提高诊断准确性。
然而,作者指出了重要的局限性。 NEJM -CPC 病例的选择是因为其难度,并不反映日常临床表现。该研究不包括健康患者或测量假阳性率。此外,诊断成本估算基于美国价格,并且在全球范围内可能有所不同。
这些模型还在最近案例(2024-2025)的保留测试集上进行了测试,以评估泛化性并避免过度拟合,因为其中许多案例是在大多数模型的训练截止后发布的。
该论文还提出了一个更广泛的问题:我们应该将人工智能系统与个体医生还是整个医疗团队进行比较?由于 Mai-Dxo 模仿多专家协作,因此这种比较可能反映出比个人实践更接近基于团队的护理。
然而,研究表明,像 Mai-DXO 这样的结构化人工智能系统有一天可能会支持或增强临床医生的能力,特别是在接触专家的机会有限或昂贵的情况下。
立即下载 PDF 副本!
*重要通知: Arxiv发布未经同行评审的初步科学报告,因此不被认为是结论性的,指导临床实践/健康相关行为,或被视为既定信息。
资料来源:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405