Pathologische KI-Modelle zeigen demografische Verzerrungen bei der Krebsdiagnose
Die Pathologie ist seit langem der Eckpfeiler der Krebsdiagnose und -behandlung. Ein Pathologe untersucht sorgfältig einen ultradünnen Schnitt menschlichen Gewebes unter einem Mikroskop auf Hinweise, die auf das Vorhandensein, die Art und das Stadium von Krebs hinweisen. Für einen menschlichen Experten ist der Blick auf eine wirbelnde rosafarbene Gewebeprobe, die mit violetten Zellen übersät ist, …
Pathologische KI-Modelle zeigen demografische Verzerrungen bei der Krebsdiagnose
Die Pathologie ist seit langem der Eckpfeiler der Krebsdiagnose und -behandlung. Ein Pathologe untersucht sorgfältig einen ultradünnen Schnitt menschlichen Gewebes unter einem Mikroskop auf Hinweise, die auf das Vorhandensein, die Art und das Stadium von Krebs hinweisen.
Für einen menschlichen Experten ist der Blick auf eine wirbelnde rosafarbene Gewebeprobe, die mit violetten Zellen übersät ist, so, als würde man eine Prüfung bewerten, ohne dass ein Name darauf steht – die Folie enthüllt wesentliche Informationen über die Krankheit, ohne weitere Details über den Patienten zu liefern.
Das Gleiche gilt jedoch nicht unbedingt für die Modelle der künstlichen Intelligenz in der Pathologie, die in den letzten Jahren entstanden sind. Eine neue Studie unter der Leitung eines Teams der Harvard Medical School zeigt, dass diese Modelle irgendwie auf demografische Informationen aus Pathologiefolien schließen können, was zu einer Verzerrung der Krebsdiagnose bei verschiedenen Bevölkerungsgruppen führt.
Bei der Analyse mehrerer wichtiger Pathologie-KI-Modelle zur Krebsdiagnose stellten die Forscher eine ungleiche Leistung bei der Erkennung und Differenzierung von Krebserkrankungen in verschiedenen Bevölkerungsgruppen fest, basierend auf dem von den Patienten selbst angegebenen Geschlecht, ihrer Rasse und ihrem Alter. Sie identifizierten mehrere mögliche Erklärungen für diese demografische Verzerrung.
Anschließend entwickelte das Team ein Framework namens FAIR-Path, das dazu beitrug, Verzerrungen in den Modellen zu reduzieren.
Das Auslesen demografischer Daten aus einer Pathologie-Folie wird für einen menschlichen Pathologen als eine „unmögliche Mission“ angesehen, daher war die Voreingenommenheit in der Pathologie-KI für uns eine Überraschung.“
Kun-Hsing Yu, leitender Autor, außerordentlicher Professor für biomedizinische Informatik, Blavatnik Institute an der HMS und HMS-Assistenzprofessor für Pathologie am Brigham and Women’s Hospital
Die Erkennung und Bekämpfung von KI-Voreingenommenheit in der Medizin sei von entscheidender Bedeutung, da sie die diagnostische Genauigkeit sowie die Patientenergebnisse beeinträchtigen könne, sagte Yu. Der Erfolg von FAIR-Path zeigt, dass Forscher die Fairness von KI-Modellen für die Krebspathologie und möglicherweise auch anderer KI-Modelle in der Medizin mit minimalem Aufwand verbessern können.
Die Arbeit, die teilweise durch Bundesmittel unterstützt wurde, wird am 16. Dezember in beschrieben Zellberichte Medizin.
Prüfung auf Voreingenommenheit
Yu und sein Team untersuchten die Verzerrung in vier Standard-KI-Pathologiemodellen, die für die Krebsbewertung entwickelt werden. Diese Deep-Learning-Modelle wurden auf Sätzen kommentierter Pathologiefolien trainiert, aus denen sie biologische Muster „erlernten“, die es ihnen ermöglichen, neue Folien zu analysieren und Diagnosen zu stellen.
Die Forscher fütterten die KI-Modelle mit einem großen, institutsübergreifenden Archiv an Pathologie-Dias zu 20 Krebsarten.
Sie stellten fest, dass alle vier Modelle eine verzerrte Leistung aufwiesen und weniger genaue Diagnosen für Patienten in bestimmten Gruppen lieferten, basierend auf der selbst angegebenen Rasse, dem Geschlecht und dem Alter. Beispielsweise hatten die Modelle Schwierigkeiten, Lungenkrebs-Subtypen bei afroamerikanischen und männlichen Patienten und Brustkrebs-Subtypen bei jüngeren Patienten zu unterscheiden. Bei bestimmten Bevölkerungsgruppen hatten die Modelle außerdem Schwierigkeiten, Brust-, Nieren-, Schilddrüsen- und Magenkrebs zu erkennen. Diese Leistungsunterschiede traten bei rund 29 Prozent der von den Modellen durchgeführten Diagnoseaufgaben auf.
Diese diagnostische Ungenauigkeit, sagte Yu, liege daran, dass diese Modelle demografische Informationen aus den Folien extrahieren – und sich bei der Diagnose auf demografiespezifische Muster verlassen.
Die Ergebnisse waren unerwartet, „weil wir eine objektive Pathologiebewertung erwarten würden“, fügte Yu hinzu. „Bei der Auswertung von Bildern müssen wir nicht unbedingt die demografischen Daten eines Patienten kennen, um eine Diagnose stellen zu können.“
Das Team fragte sich: Warum zeigte die Pathologie-KI nicht die gleiche Objektivität?
Auf der Suche nach Erklärungen
Die Forscher kamen auf drei Erklärungen.
Da es für Patienten bestimmter Bevölkerungsgruppen einfacher ist, Proben zu erhalten, werden die KI-Modelle auf ungleiche Stichprobengrößen trainiert. Dadurch fällt es den Modellen schwerer, eine genaue Diagnose in Stichproben zu stellen, die im Trainingssatz nicht gut repräsentiert sind, etwa solche aus Minderheitengruppen aufgrund von Rasse, Alter oder Geschlecht.
Doch „das Problem lag viel tiefer“, sagte Yu. Den Forschern fiel auf, dass die Modelle in einer Bevölkerungsgruppe manchmal schlechter abschnitten, selbst wenn die Stichprobengrößen vergleichbar waren.
Zusätzliche Analysen ergaben, dass dies möglicherweise an der unterschiedlichen Krankheitshäufigkeit liegt: Einige Krebsarten treten in bestimmten Gruppen häufiger auf, sodass die Modelle in diesen Gruppen besser eine Diagnose stellen können. Infolgedessen könnten die Modelle Schwierigkeiten haben, Krebserkrankungen in Bevölkerungsgruppen zu diagnostizieren, in denen sie nicht so häufig vorkommen.
Die KI-Modelle erfassen auch subtile molekulare Unterschiede in Proben aus verschiedenen demografischen Gruppen. Beispielsweise können die Modelle Mutationen in Krebstreibergenen erkennen und sie als Proxy für die Krebsart verwenden – und sind daher bei der Diagnosestellung in Populationen, in denen diese Mutationen weniger häufig vorkommen, weniger effektiv.
„Wir haben herausgefunden, dass KI aufgrund ihrer Leistungsfähigkeit viele unklare biologische Signale unterscheiden kann, die durch eine normale menschliche Auswertung nicht erkannt werden können“, sagte Yu.
Dadurch lernen die Modelle möglicherweise Signale, die eher mit demografischen Merkmalen als mit Krankheiten zusammenhängen. Dies wiederum könnte sich gruppenübergreifend auf ihre diagnostischen Fähigkeiten auswirken.
Zusammengenommen, so Yu, deuten diese Erklärungen darauf hin, dass Verzerrungen in der Pathologie-KI nicht nur von der variablen Qualität der Trainingsdaten herrühren, sondern auch von der Art und Weise, wie Forscher die Modelle trainieren.
Eine Lösung finden
Nachdem Yu und sein Team das Ausmaß und die Ursachen der Voreingenommenheit beurteilt hatten, wollten sie das Problem beheben.
Die Forscher entwickelten FAIR-Path, ein einfaches Framework, das auf einem bestehenden Konzept des maschinellen Lernens namens kontrastives Lernen basiert. Beim kontrastiven Lernen wird dem KI-Training ein Element hinzugefügt, das dem Modell beibringt, die Unterschiede zwischen wesentlichen Kategorien – in diesem Fall Krebsarten – hervorzuheben und die Unterschiede zwischen weniger wichtigen Kategorien – in diesem Fall demografische Gruppen – herunterzuspielen.
Als die Forscher das FAIR-Path-Framework auf die von ihnen getesteten Modelle anwendeten, reduzierte es die diagnostischen Unterschiede um etwa 88 Prozent.
„Wir zeigen, dass die Modelle durch diese kleine Anpassung robuste Merkmale lernen können, die sie für verschiedene Populationen verallgemeinerbarer und gerechter machen“, sagte Yu.
Das Ergebnis sei ermutigend, fügte er hinzu, denn es lege nahe, dass Verzerrungen auch ohne Training der Modelle auf völlig fairen, repräsentativen Daten reduziert werden könnten.
Als nächstes arbeiten Yu und sein Team mit Institutionen auf der ganzen Welt zusammen, um das Ausmaß der Voreingenommenheit in der Pathologie-KI an Orten mit unterschiedlichen demografischen Merkmalen sowie unterschiedlichen klinischen und pathologischen Praktiken zu untersuchen. Sie untersuchen außerdem Möglichkeiten, FAIR-Path auf Umgebungen mit begrenzten Stichprobengrößen auszudehnen. Darüber hinaus möchten sie untersuchen, wie Voreingenommenheit in der KI zu demografischen Diskrepanzen in der Gesundheitsversorgung und den Patientenergebnissen beiträgt.
Letztendlich, so Yu, bestehe das Ziel darin, faire, unvoreingenommene Pathologie-KI-Modelle zu schaffen, die die Krebsbehandlung verbessern können, indem sie Humanpathologen dabei helfen, schnell und genau eine Diagnose zu stellen.
„Ich denke, es besteht die Hoffnung, dass wir Modelle entwickeln können, die in jeder Bevölkerung gut funktionieren, wenn wir bewusster und sorgfältiger bei der Entwicklung von KI-Systemen sind“, sagte er.
Quellen:
Lin, S.-Y., et al. (2025). Contrastive learning enhances fairness in pathology artificial intelligence systems. Cell Reports Medicine. doi:10.1016/j.xcrm.2025.102527. https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00600-7