使用大型语言模型响应患者消息的可能性和局限性

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

了解大型语言模型对患者消息传递的影响,并了解麻省总医院布里格姆医院如何改善患者教育。结果发表在《柳叶刀数字健康》上。

Entdecken Sie die Auswirkungen von großen Sprachmodellen auf Patientennachrichten und erfahren Sie, wie Mass General Brigham die Patientenaufklärung verbessert. Ergebnisse in Lancet Digital Health.
了解大型语言模型对患者消息传递的影响,并了解麻省总医院布里格姆医院如何改善患者教育。结果发表在《柳叶刀数字健康》上。

使用大型语言模型响应患者消息的可能性和局限性

麻省总医院布里格姆分校研究人员的一项新研究表明,大语言模型(LLM)是一种生成式人工智能,当用于撰写对患者消息的回复时,可以帮助减少医生的工作量并改善患者教育。 该研究还发现法学硕士的局限性可能会影响患者的安全,这表明仔细监控法学硕士产生的通信对于安全使用至关重要。 结果发表于柳叶刀数字健康强调需要采取审慎的方法来实施法学硕士。

不断增加的行政和文件要求导致了医生倦怠的增加。 为了简化和自动化医生工作流程,电子健康记录 (EHR) 供应商采用了生成式人工智能算法来帮助医生向患者撰写消息。 然而,其使用的功效、安全性和临床影响尚不清楚。

生成式人工智能有可能两全其美,减轻临床医生的负担,同时更好地教育患者。 然而,根据我们团队与法学硕士合作的经验,我们对将法学硕士集成到消息传递系统相关的潜在风险感到担忧。 随着法学硕士融入电子病历变得越来越普遍,我们这项研究的目标是确定相关的好处和缺点。”

丹妮尔·比特曼,医学博士,通讯作者,麻省总医院人工智能医学 (AIM) 项目教员和布莱根妇女医院放射肿瘤科医师

在这项研究中,研究人员使用 OpenAI 的 GPT-4(一种基本的法学硕士)生成 100 个有关癌症患者的场景以及伴随的患者问题。 该研究没有使用来自实际患者的问题。 六位放射肿瘤科医生手动回答问题; 然后 GPT-4 生成问题的答案。 最后,法学硕士生成的回复被提供给相同的放射肿瘤学家进行审查和编辑。 放射肿瘤学家不知道答案是 GPT-4 还是人类编写的,并且在 31% 的情况下假设 LLM 生成的答案是由人类编写的。

平均而言,医生撰写的回复比法学硕士撰写的回复要短。 GPT-4 倾向于对患者进行更多教育,但其说明中的指导性较低。 医生报告说,LLM 支持提高了他们的感知效率,并在 82.1% 的情况下认为 LLM 生成的响应是安全的,并且在 58.3% 的情况下认为无需进一步处理即可发送给患者。 研究人员还指出了一些缺陷:如果不加以解决,LLM 生成的反应中有 7.1% 可能对患者构成风险,0.6% 的反应可能造成死亡风险,主要是因为 GPT-4 反应未能紧急通知患者立即就医。

值得注意的是,法学硕士生成/医生编辑的回复在长度和内容上与法学硕士生成的回复比手动回复更相似。 在许多情况下,医生保留了法学硕士创建的教育内容,这表明他们发现它很有价值。 虽然这可以促进患者教育,但研究人员强调,过度依赖法学硕士也可能因其已被证明的缺点而带来风险。

医疗保健领域人工智能工具的出现有可能积极改变护理的连续性,必须在其创新潜力与对安全和质量的承诺之间取得平衡。 麻省总医院布里格姆分校是负责任地使用人工智能的领导者,对新兴技术进行深入研究,以支持将人工智能纳入医疗保健服务、劳动力支持和管理流程。 麻省总医院布里格姆分校目前正在领导一个试点项目,将生成式人工智能集成到电子健康记录中,以编写对患者门户消息的响应,并正在整个卫生系统的许多门诊实践中测试该技术。

展望未来,研究作者将根据法学硕士已知的算法偏差,研究患者如何看待基于法学硕士的沟通,以及患者的种族和人口特征如何影响法学硕士生成的反应。

“在医学中使用人工智能时,让人们了解情况是一个重要的安全步骤,但这并不是一个万能的解决方案,”比特曼说。 “随着提供者越来越依赖法学硕士,我们可能会错过可能导致患者伤害的错误。这项研究表明,需要系统来监控法学硕士的质量,培训临床医生以适当地监控法学硕士的结果,以及为患者和临床医生提供更多的人工智能技能。”并且从根本上更好地理解如何处理法学硕士所犯的错误。”


资料来源:

Journal reference:

陈,S., 等人。 (2024) 使用大型语言模型响应患者消息的效果柳叶刀数字健康。 doi.org/10.1016/S2589-7500(24)00060-8