人工智能模型在现实世界的医学对话中举步维艰

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

ChatGPT 等人工智能工具因承诺通过对患者进行分类、收集病史甚至进行初步诊断来减少临床医生的工作量而受到称赞。这些被称为大语言模型的工具已经被患者用来了解他们的症状和医学测试结果。但是,虽然这些人工智能模型在标准化医学测试中表现出色,但它们在更接近现实世界的情况下表现如何?哈佛医学院和斯坦福大学研究人员领导的一项新研究结果显示,情况并非如此。他们的分析于 1 月 2 日发表...

人工智能模型在现实世界的医学对话中举步维艰

ChatGPT 等人工智能工具因承诺通过对患者进行分类、收集病史甚至进行初步诊断来减少临床医生的工作量而受到称赞。

这些被称为大语言模型的工具已经被患者用来了解他们的症状和医学测试结果。

但是,虽然这些人工智能模型在标准化医学测试中表现出色,但它们在更接近现实世界的情况下表现如何?

哈佛医学院和斯坦福大学研究人员领导的一项新研究结果显示,情况并非如此。

他们的分析发表于 1 月 2 日天然药物研究人员设计了一个评估框架——;或测试-;称为 CRAFT-MD(医学测试会话推理评估框架)并将其部署在四种大型语言模型上,以了解它们在密切模仿与患者实际交互的环境中的工作情况。

所有四种大语言模型在医学考试式问题上都表现良好,但当它们参与更接近真实世界互动的对话时,它们的表现就会恶化。

研究人员表示,这一差距凸显了双重需求:首先,创建更现实的评估,更好地评估临床人工智能模型在现实世界中的适用性;其次,提高这些工具在用于临床之前基于更现实的交互进行诊断的能力。

研究团队表示,像 CRAFT-MD 这样的评估工具不仅可以更准确地评估人工智能模型在现实世界中的适应性,还可以帮助优化其在临床中的表现。

我们的工作揭示了一个惊人的悖论:虽然这些人工智能模型在医学检查方面表现出色,但它们却难以理解医生就诊的基本细节。医学对话的动态——需要在正确的时间提出正确的问题、拼凑分散的信息以及根据症状进行推理——带来了独特的挑战,远远超出了回答多项选择题的范围。当我们从标准化测试转向这些自然对话时,即使是最复杂的人工智能模型,诊断准确性也会显着下降。”

Pranav Rajpurkar,该研究的资深作者,哈佛医学院生物医学信息学助理教授

更好的测试来检查人工智能在实践中的表现

目前,开发人员通过要求人工智能模型回答多项选择医学问题来测试人工智能模型的性能,这些问题通常来自医学毕业生的国家考试或居民作为认证一部分进行的测试。

该研究的共同第一作者、哈佛医学院 Rajpurkar 实验室的博士生 Shreya Johri 表示:“这种方法假设所有相关信息都清晰简洁地呈现,通常使用医学术语或流行语来简化诊断过程,但在现实世界中,这个过程要混乱得多。” “我们需要一个能够更好地反映现实的测试框架,从而能够更好地预测模型的工作效果。”

CRAFT-MD 就是作为一种更现实的测量设备而开发的。

为了模拟现实世界的交互,CRAFT-MD 评估了大语言模型收集有关症状、药物和家族史的信息并做出诊断的能力。人工智能代理冒充患者,以对话式、自然的方式回答问题。另一个人工智能代理评估大语言模型提供的最终诊断的准确性。然后,人类专家根据收集相关患者信息的能力、呈现分散信息的诊断准确性以及对指示的遵守程度来评估每次相遇的结果。

研究人员使用 CRAFT-MD 测试了四种人工智能模型——;专有或商业和开源版本 –;表演 2,000 个临床小插曲,涵盖初级保健和 12 个医学专业的常见情况。

所有人工智能模型都显示出局限性,特别是它们根据患者提供的信息进行临床对话和推理的能力。这反过来又影响了他们获取病史并做出适当诊断的能力。例如,模型通常难以提出正确的问题来收集相关的患者病史,在病史采集过程中错过重要信息,并且难以综合分散的信息。当向这些模型提供开放式信息而不是多项选择答案时,它们的准确性会下降。这些模型在来回交换时表现也更差 -;正如现实世界中大多数对话的情况一样——;而不是进行总结性对话。

在实践中优化人工智能性能的建议

基于这些发现,该团队为设计人工智能模型的人工智能开发人员和负责评估和批准这些工具的监管机构提供了一系列建议。

这包括:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

此外,研究人员建议,人工智能代理和人类专家都应纳入评估范围,因为仅仅依靠人类专家是劳动密集型且昂贵的。例如,CRAFT-MD 比人类评估者更快,在 48 至 72 小时内处理了 10,000 份访谈,再加上 15 至 16 小时的专家评估。相比之下,基于人的方法需要大量的招募,预计需要 500 小时进行患者模拟(每次对话近 3 分钟),大约需要 650 小时进行专家评估(每次对话近 4 分钟)。使用人工智能评估器作为首选还有一个额外的好处,即消除让真实患者接触未经验证的人工智能工具的风险。

研究人员预计 CRAFT-MD 本身也将定期更新和优化,以纳入改进的患者 AI 模型。

该研究的共同资深作者、斯坦福大学生物医学数据科学和皮肤病学助理教授 Roxana Daneshjou 表示:“作为一名医生和科学家,我对能够有效且合乎道德地改善临床实践的人工智能模型感兴趣。” “CRAFT-MD 创建了一个能够更好地反映现实世界交互的框架,有助于在测试医疗保健中人工智能模型的性能方面推动该领域的发展。”


资料来源:

Journal reference:

乔里,S.,等人。 (2025) 在患者交互任务中临床使用大型语言模型的评估框架。 自然医学doi.org/10.1038/s41591-024-03328-5