医学中的人工智能:革命性的工具,不确定的结果

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

人工智能真的能彻底改变医疗保健吗?系统评价揭示了患者利益中隐藏的差距以及有意义的临床整合的障碍。在欧洲《柳叶刀区域健康》最近发表的一项研究中,一组研究人员评估了医疗保健专业人员使用的基于人工智能 (AI) 的算法决策系统 (ADM) 与标准护理相比的利弊,重点关注与患者相关的结果。背景人工智能的进步使系统能够在诊断、个性化医疗、患者监测和药物开发等任务上超越医学专家。尽管取得了这些进步,但仍不清楚是否有所改进......

医学中的人工智能:革命性的工具,不确定的结果

人工智能真的能彻底改变医疗保健吗?系统评价揭示了患者利益中隐藏的差距以及有意义的临床整合的障碍。

在最近发表的一项研究中柳叶刀区域健康 - 欧洲一组研究人员评估了医疗保健专业人员使用的基于人工智能 (AI) 的算法决策系统 (ADM) 与标准护理相比的利弊,重点关注与患者相关的结果。

背景

人工智能的进步使系统在诊断、个性化医疗、患者监测和药物开发等任务上超越医学专家。尽管取得了这些进步,但仍不清楚诊断准确性和性能指标的提高是否会转化为患者的切实利益,例如降低死亡率或发病率。

当前的研究通常优先考虑分析性能而不是临床结果,并且许多基于人工智能的医疗设备在没有支持随机对照试验(RCT)证据的情况下获得批准。

此外,与这些技术相关的危害缺乏透明度和标准化评估,引发了道德和实际问题。这凸显了人工智能研究和开发中的一个关键差距,需要针对患者相关结果进行进一步评估,以确保有意义且安全地融入医疗保健。

关于该研究

有限的外部验证:大多数评估的人工智能系统都是根据内部数据开发的,很少有研究报告外部验证,这引发了人们对其对不同患者群体的普遍性的担忧。

本系统评价遵循系统评价和荟萃分析的首选报告项目 (PRISMA) 指南,以确保方法的严谨性。这些检索是在医学文献分析和检索系统在线 (MEDLINE)、医学摘录数据库 (EMBASE)、公共/出版商 MEDLINE (PubMed) 和电气和电子工程师协会 (IEEE) Xplore 中进行的,涵盖截至 2024 年 3 月 27 日为止的 10 年期间,当时人工智能相关的 ADM 系统在健康研究中变得相关。搜索包括与人工智能、机器学习 (ML)、决策算法、医疗保健专业人员和患者结果相关的术语。

符合条件的研究包括使用机器学习开发或利用机器学习开发的人工智能决策支持系统的干预或观察设计。研究必须报告与患者相关的结果,例如死亡率、发病率、住院时间、再入院或与健康相关的生活质量。排除标准包括没有预先注册、没有护理控制标准或关注机器人或与基于人工智能的决策无关的其他系统的研究。本次审查的方案已在国际前瞻性系统评价登记册(PROSPERO)中预先注册,并且所有更改均已记录。

审稿人根据预定义的标准检查标题、摘要和全文。使用标准化表格独立进行数据提取和质量评估。使用 Cochrane 偏倚风险 2 (RoB 2) 工具和非随机干预研究偏倚风险 (ROBINS-I) 工具评估偏倚风险,以考虑潜在的混杂因素,同时使用报告试验的综合标准扩展 - 人工智能 (CONSORT-AI) 和个人预后或诊断的多变量预测模型的透明报告 - 人工智能来评估报告透明度 智能(TRIPOD-AI)框架。

提取的数据包括研究设置、设计、干预和比较细节、患者和专业人口统计数据、算法特征和结果测量。研究还按照人工智能系统类型、临床领域、预测目标以及监管和资金信息进行分类。该分析还检查了人工智能系统对结果的独特贡献是否被隔离和验证。

研究结果

代表性不足的专业:虽然精神病学和肿瘤学研究有很好的代表性,但重症监护和肺病学等其他专业的代表性仍然不足,可能会扭曲结果的更广泛适用性。

系统评价包括 19 项研究,其中包括 18 项随机对照试验和一项前瞻性队列研究,是在审查了 3,000 条记录后选择的。这些研究在不同地区进行,其中九项在美国,四项在欧洲,三项在中国,其他分布在世界各地。环境包括 14 项在医院进行的研究、3 项在门诊诊所进行的研究、1 项在疗养院进行的研究以及一项在混合环境中进行的研究。

这些研究涵盖了一系列医学专业,包括肿瘤学(4项研究)、精神病学(3项研究)、医院内科、神经病学和麻醉学(各2项研究),以及糖尿病学、肺病学、重症监护和其他专业的个别研究。

所有研究的平均参与者人数为 243 人,平均年龄为 59.3 岁。女性比例平均为 50.5%,10 项研究报告了种族或民族构成,其中白人参与者的中位数为 71.4%。十二项研究描述了目标医疗保健专业人员,例如:护士或初级保健提供者,以及九项详细的培训方案,从平台的简短介绍到多天的监督课程。

人工智能系统的类型和功能各不相同。七项研究使用监测系统进行实时监测和预测警报,六项研究使用治疗个性化系统,四项研究集成了多种功能。例子包括糖尿病血糖控制算法、个性化精神护理和静脉血栓栓塞监测。开发数据源范围从大型内部数据集到汇总的多机构数据,应用各种机器学习模型,例如梯度增强、神经网络、贝叶斯分类器和基于回归的模型。尽管取得了这些进展,但大多数研究中算法的外部验证仍然有限,这引发了人们对其对更广泛患者群体的普遍性的担忧。

四项随机对照试验的偏倚风险被评估为低,七项随机对照试验的偏倚风险为中等,另外七项随机对照试验的偏倚风险为高,而队列研究则存在严重的偏倚风险。对 CONSORT-AI 和 TRIPOD-AI 指南的遵守情况各不相同,其中三项研究达到了完全合规性,而其他研究则达到了从高到低的合规性。尽管明确提及这些指南的情况很少,但在引入这些指南之前进行的大多数研究都显示出中等程度的遵守情况。

结果显示了好处和坏处。十二项研究报告了与患者相关的益处,包括降低死亡率、改善抑郁和疼痛管理以及提高生活质量。然而,只有八项研究包括标准化危害评估,其中大多数未能全面记录不良事件。尽管六个人工智能系统获得了监管部门的批准,但监管状态、研究质量和患者结果之间的关系仍不清楚。

结论

这项系统综述强调,缺乏评估医疗保健领域人工智能相关 ADM 系统与患者相关结果的高质量研究。虽然精神病学方面始终显示出益处,但其他领域报告的结果好坏参半,死亡率、焦虑症和住院率改善的证据有限。大多数研究缺乏平衡的危害-效益评估,未能分离出人工智能的独特贡献。

研究结果强调,迫切需要透明的报告、强大的验证实践和标准化框架来指导人工智能安全有效地融入临床环境。


资料来源: