病理学人工智能模型揭示癌症诊断中的人口统计学偏差
病理学长期以来一直是癌症诊断和治疗的基石。病理学家在显微镜下仔细检查人体组织的超薄切片,寻找表明癌症存在、类型和阶段的线索。对于人类专家来说,观察点缀着紫色细胞的旋转的粉红色组织样本是……
病理学人工智能模型揭示癌症诊断中的人口统计学偏差
病理学长期以来一直是癌症诊断和治疗的基石。病理学家在显微镜下仔细检查人体组织的超薄切片,寻找表明癌症存在、类型和阶段的线索。
对于人类专家来说,观察点缀着紫色细胞的旋转的粉红色组织样本就像对没有名字的检查进行评分一样——幻灯片揭示了有关疾病的基本信息,但没有提供有关患者的更多详细信息。
然而,这并不一定适用于近年来出现的病理学人工智能模型。哈佛医学院的一个团队领导的一项新研究表明,这些模型可以以某种方式从病理切片中推断人口统计信息,从而导致不同人群的癌症诊断偏差。
通过分析用于癌症诊断的几种主要病理学人工智能模型,研究人员发现,根据患者自我报告的性别、种族和年龄,在检测和区分不同人群的癌症方面表现不平等。他们对这种人口统计学偏见提出了几种可能的解释。
随后,该团队开发了一个名为 FAIR-Path 的框架,该框架有助于减少模型中的偏差。
对于人类病理学家来说,从病理幻灯片中读取人口统计数据被认为是一项“不可能完成的任务”,因此病理人工智能的偏见让我们感到惊讶。”
Kun-Hsing Yu,资深作者、HMS 布拉瓦尼克研究所生物医学信息学副教授、布莱根妇女医院病理学助理教授
于说,检测和消除医学中的人工智能偏见至关重要,因为它会影响诊断准确性以及患者的治疗结果。 FAIR-Path 的成功表明,研究人员可以以最小的努力提高癌症病理学人工智能模型以及医学中其他潜在人工智能模型的公平性。
这项工作部分由联邦资金支持,12 月 16 日在细胞报告医学。
检查是否有偏差
Yu和他的团队检查了为癌症评估而开发的四种标准人工智能病理模型的偏差。这些深度学习模型在一组带注释的病理学幻灯片上进行训练,从中“学习”生物模式,使他们能够分析新的幻灯片并做出诊断。
研究人员为 AI 模型提供了来自 20 种癌症的大型跨机构病理幻灯片档案。
他们发现,所有四种模型的性能都有偏差,并且根据自我报告的种族、性别和年龄为某些群体的患者提供的诊断不太准确。例如,这些模型很难区分非裔美国人和男性患者的肺癌亚型以及年轻患者的乳腺癌亚型。这些模型也难以检测某些人群中的乳腺癌、肾癌、甲状腺癌和胃癌。这些性能差异出现在模型执行的大约 29% 的诊断任务中。
余说,这种诊断不准确的原因是这些模型从幻灯片中提取人口统计信息,并依赖特定于人口统计的模式进行诊断。
于补充说,结果是出乎意料的,“因为我们期待客观的病理学评估”。 “在评估图像时,我们不一定需要了解患者的人口统计数据才能做出诊断。”
该团队想知道:为什么病理人工智能没有表现出同样的客观性?
寻找解释
研究人员提出了三种解释。
由于某些人群的患者更容易获得样本,因此 AI 模型在不等的样本量上进行训练。这使得模型更难以对训练集中没有很好代表的样本做出准确的诊断,例如来自种族、年龄或性别的少数群体的样本。
但“问题要深得多,”于说。研究人员注意到,即使样本量相当,模型有时在人群中表现更差。
进一步的分析发现,这可能是由于疾病患病率的差异造成的:某些癌症在某些群体中更为常见,这使得模型能够更好地在这些群体中做出诊断。因此,这些模型可能难以诊断癌症不常见的人群。
人工智能模型还可以捕捉不同人口群体样本中细微的分子差异。例如,这些模型可以检测癌症驱动基因的突变,并将其用作癌症类型的代表,因此在这些突变不太常见的人群中进行诊断的效果较差。
“我们发现人工智能的能力使其能够区分许多人类正常解释无法检测到的不清楚的生物信号,”于说。
这使得模型有可能学习与人口统计而非疾病更相关的信号。反过来,这可能会影响他们跨群体的诊断能力。
余说,总的来说,这些解释表明病理人工智能的偏差不仅来自训练数据的质量参差不齐,还来自研究人员训练模型的方式。
寻找解决方案
在评估了偏差的程度和原因后,余和他的团队着手解决这个问题。
研究人员开发了 FAIR-Path,这是一个基于现有机器学习概念(称为对比学习)的简单框架。对比学习为人工智能训练添加了一个元素,教导模型强调重要类别(在本例中为癌症)之间的差异,并淡化不太重要类别(在本例中为人口群体)之间的差异。
当研究人员将 FAIR-Path 框架应用于他们测试的模型时,诊断差异减少了约 88%。
“我们表明,通过这种小的调整,模型可以学习强大的特征,使它们在不同人群中更具通用性和公平性,”于说。
他补充说,结果令人鼓舞,因为它表明即使没有在完全公平、有代表性的数据上训练模型,也可以减少偏差。
接下来,Yu 和他的团队正在与世界各地的机构合作,研究不同人口统计和不同临床和病理实践的地区病理人工智能的偏差程度。他们还在探索将 FAIR-Path 扩展到样本量有限的设置的方法。此外,他们还想研究人工智能的偏见如何导致医疗保健和患者结果方面的人口差异。
Yu说,最终的目标是创建公平、公正的病理学人工智能模型,通过帮助人类病理学家快速准确地做出诊断来改善癌症治疗。
“我认为,如果我们在开发人工智能系统时更加有意识和谨慎,我们就有希望开发出适用于任何人群的模型,”他说。
资料来源:
林,S.-Y.,等人。 (2025)。对比学习增强了病理人工智能系统的公平性。 细胞报告医学。 doi:10.1016/j.xcrm.2025.102527。 https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00600-7