Neue Forschungsergebnisse warnen davor, dass beliebte Deep-Learning-Systeme, die auf die Krebspathologie trainiert werden, möglicherweise eher auf versteckten Abkürzungen als auf echten biologischen Signalen basieren.
Es werden zunehmend Werkzeuge der künstlichen Intelligenz entwickelt, um die Krebsbiologie direkt aus Mikroskopbildern vorherzusagen, was schnellere Diagnosen und kostengünstigere Tests verspricht. Aber neue Forschungsergebnisse der University of Warwick, veröffentlicht in Naturbiomedizinische Technikdeutet darauf hin, dass viele dieser Systeme möglicherweise eher visuelle Abkürzungen als echte Biologie verwenden – was Bedenken aufkommen lässt, dass einige KI-Pathologie-Tools derzeit zu unzuverlässig für die Patientenversorgung in der Praxis sind.
Es ist ein bisschen so, als würde man die Qualität eines Restaurants anhand der Schlange an Leuten beurteilen, die darauf warten, hereinzukommen: Es ist eine nützliche Abkürzung, aber kein direkter Maßstab für das, was in der Küche passiert. Viele KI-Pathologiemodelle machen das Gleiche und stützen sich auf Korrelationen zwischen Biomarkern oder auf offensichtliche Gewebemerkmale, anstatt biomarkerspezifische Signale zu isolieren. Und wenn sich die Bedingungen ändern, fallen diese Abkürzungen oft auseinander.“
Dr. Fayyaz Minhas, außerordentlicher Professor und Hauptforscher des Predictive Systems in Biomedicine (PRISM) Lab im Fachbereich Informatik der University of Warwick und Hauptautor der Studie
Um zu dieser Schlussfolgerung zu gelangen, analysierten die Forscher mehr als 8.000 Patientenproben bei vier Hauptkrebsarten – Brust-, Darm-, Lungen- und Endometriumkrebs – und verglichen die Leistung führender Ansätze des maschinellen Lernens. Während die Modelle häufig eine hohe Schlagzeilengenauigkeit erreichten, stellte das Team fest, dass dies häufig auf statistische „Abkürzungen“ zurückzuführen war.
Anstatt beispielsweise Mutationen im krebsassoziierten BRAF-Gen zu erkennen, könnte ein Modell lernen, dass BRAF-Mutationen häufig zusammen mit einem anderen klinischen Merkmal wie Mikrosatelliteninstabilität (MSI) auftreten. Das System lernt dann, diese Kombination von Hinweisen zu verwenden, um den BRAF-Status vorherzusagen, anstatt das kausale BRAF-Signal selbst zu lernen – was bedeutet, dass genaue Krebsvorhersagen nur funktionieren, wenn diese Biomarker gleichzeitig auftreten, und unzuverlässig werden, wenn dies nicht der Fall ist.
Kim Branson, SVP Global Head of Artificial Intelligence and Machine Learning, GSK und Co-Autorin, sagt: „Wir haben herausgefunden, dass die Vorhersage einer BRAF-Mutation durch Betrachtung korrelierter Merkmale wie MSI oft mit der Vorhersage von Regen durch Betrachtung von Regenschirmen vergleichbar ist – es funktioniert, bedeutet aber nicht, dass Sie Meteorologie verstehen. Entscheidend ist: Wenn ein Modell keinen Informationsgewinn über einen einfachen, vom Pathologen zugewiesenen Grad hinaus nachweisen kann, haben wir das Gebiet nicht weiterentwickelt; wir haben lediglich eine Abkürzung automatisiert. Die Roadmap für.“ Die nächste Generation der Pathologie-KI besteht nicht unbedingt aus größeren Modellen; es sind strengere Bewertungsprotokolle, die Algorithmen dazu zwingen, mit dem Schummeln aufzuhören und die harte Biologie zu erlernen.“
Als die Leistung von KI-Modellen innerhalb stratifizierter Patientenuntergruppen bewertet wurde, beispielsweise nur hochgradige Brustkrebserkrankungen oder nur MSI-positive Tumoren, sank die Genauigkeit erheblich, was zeigt, dass die Modelle von Verknüpfungssignalen abhängig waren, die verschwinden, sobald Störfaktoren unter Kontrolle sind.
Bei bestimmten Vorhersageaufgaben war der Leistungsvorteil von Deep Learning gegenüber von Menschen gewonnenen klinischen Informationen bescheiden. KI-Systeme erreichten Genauigkeitswerte von knapp über 80 % bei der Vorhersage von Biomarkern, verglichen mit etwa 75 % bei alleiniger Verwendung des Tumorgrades – ein Maß, das bereits von Pathologen bewertet wurde.
Professor Nasir Rajpoot, Direktor des Tissue Image Analytics (TIA) Center an der University of Warwick und CEO des Warwick-Spin-outs Histofy, sagte: „Diese Studie unterstreicht einen entscheidenden Punkt bei der Einführung von KI in der Medizin: Um eine echte und dauerhafte Wirkung zu erzielen, muss der Wert KI-basierter, klinisch wichtiger Vorhersagen durch eine strenge, vorurteilsbewusste Bewertung beurteilt werden, anstatt sich ausschließlich auf Schlagzeilengenauigkeiten zu verlassen, die verwirrende Effekte nicht berücksichtigen.“
Methoden des maschinellen Lernens können sich weiterhin als wertvoll für die Forschung, das Screening von Arzneimittelentwicklungskandidaten sowie für die klinische Triage, das Screening oder die ergänzende Entscheidungsunterstützung erweisen. Allerdings argumentieren die Forscher, dass zukünftige KI-Tools über das korrelationsbasierte Lernen hinausgehen und Ansätze übernehmen müssen, die biologische Zusammenhänge und kausale Strukturen explizit modellieren. Sie fordern außerdem strengere Bewertungsstandards, einschließlich Untergruppentests und Vergleiche mit einfachen klinischen Basiswerten, bevor sie sich mit dem Einsatz in der Routineversorgung befassen.
Dr. Minhas kommt zu dem Schluss: „Diese Forschung ist keine Verurteilung der KI in der Pathologie. Sie ist ein Weckruf. Aktuelle Modelle funktionieren möglicherweise in kontrollierten Umgebungen gut, basieren jedoch eher auf statistischen Abkürzungen als auf echtem biologischen Verständnis. Bis robustere Bewertungsstandards vorhanden sind, sollten diese Tools nicht als Ersatz für molekulare Tests angesehen werden, und es ist wichtig, dass Kliniker und Forscher ihre Grenzen verstehen und sie mit angemessener Vorsicht verwenden.“
Co-Autorin Prof. Sabine Tejpar, Leiterin der Abteilung für Verdauungs-Onkologie an der KU Leuven, sagt: „Die klinische Relevanz neuartiger Instrumente erfordert eine fundierte Anpassung an das, was für den einzelnen Patienten präzise, richtig und machbar ist. Allzu oft wird die Onkologie von „Innovationen“ erfasst, die nur begrenzte oder keine Auswirkungen auf die Patientenversorgung haben und mehr davon abhängen, was bereitgestellt oder verkauft werden kann, als von einer strengen Bewertung dessen, was für einzelne Patienten und ihre spezifischen Merkmale wirklich relevant ist.
„Während Fortschritt oft unvollkommene erste Schritte erfordert, sollten wir aus der Vergangenheit lernen und eine übermäßige Vereinfachung oder Übertreibung durch unangemessene Konzepte vermeiden. Komplexität und Variabilität sind zentrale Herausforderungen – aber sie sind auch genau das, was diese neuartigen Technologien zu bewältigen lernen müssen.“
Quellen:
Dawood, M., et al. (2026). Confounding factors and biases abound when predicting molecular biomarkers from histological images. Nature Biomedical Engineering. DOI: 10.1038/s41551-026-01616-8. https://www.nature.com/articles/s41551-026-01616-8