Studien zeigen, dass die Wärmekarten der Salienz möglicherweise noch nicht für die Hauptsendezeit bereit sind

Künstliche Intelligenzmodelle, die medizinische Bilder interpretieren, versprechen, die Fähigkeit von Klinikern zu verbessern, genaue und rechtzeitige Diagnosen zu stellen, und gleichzeitig die Arbeitsbelastung zu verringern, indem sie es vielbeschäftigten Ärzten ermöglichen, sich auf kritische Fälle zu konzentrieren und Routineaufgaben an KI zu delegieren.
Aber KI-Modelle, denen es an Transparenz mangelt, wie und warum eine Diagnose gestellt wird, können problematisch sein. Diese undurchsichtige Argumentation -; auch bekannt als „Black Box“ AI -; kann das Vertrauen des Arztes in die Zuverlässigkeit des KI-Tools verringern und somit von seiner Verwendung abhalten. Dieser Mangel an Transparenz könnte Kliniker auch dazu verleiten, der Interpretation des Tools zu vertrauen.
Im Bereich der medizinischen Bildgebung waren Salienzbewertungen eine Möglichkeit, verständlichere KI-Modelle zu erstellen und die KI-Entscheidungsfindung zu entmystifizieren -; Ein Ansatz, der Heatmaps verwendet, um festzustellen, ob sich das Tool korrekt nur auf die relevanten Teile eines bestimmten Bildes konzentriert oder auf irrelevante Teile davon zielt.
Heatmaps funktionieren, indem sie Bereiche auf einem Bild hervorheben, die die Interpretation des KI-Modells beeinflusst haben. Dies könnte menschlichen Ärzten helfen zu erkennen, ob sich das KI-Modell auf dieselben Bereiche wie sie konzentriert oder sich fälschlicherweise auf irrelevante Stellen auf einem Bild konzentriert.
Aber eine neue Studie, die am 10. Oktober in Nature Machine Intelligence veröffentlicht wurde, zeigt, dass Hervorhebungs-Heatmaps trotz all ihrer Versprechen noch nicht für die Hauptsendezeit bereit sind.
Die Analyse unter der Leitung von Pranav Rajpurkar, Ermittler der Harvard Medical School, Matthew Lungren von Stanford und Adriel Saporta von der New York University, quantifizierte die Gültigkeit von sieben weit verbreiteten Hervorhebungsmethoden, um zu bestimmen, wie zuverlässig und genau sie Pathologien identifizieren können, die mit 10 häufig diagnostizierten Erkrankungen verbunden sind im Röntgenbild, wie Lungenläsionen, Pleuraergüsse, Ödeme oder vergrößerte Herzstrukturen. Um die Leistung zu ermitteln, verglichen die Forscher die Leistung der Tools mit dem menschlichen Expertenurteil.
Letztendlich schnitten Tools, die auf auffallenden Heatmaps basierende Heatmaps verwendeten, im Vergleich zu menschlichen Radiologen bei der Bildbewertung und ihrer Fähigkeit, pathologische Läsionen zu erkennen, durchweg unterdurchschnittlich ab.
Die Arbeit stellt die erste vergleichende Analyse zwischen Salienzkarten und menschlicher Expertenleistung bei der Bewertung mehrerer Röntgenpathologien dar. Die Studie bietet auch ein detailliertes Verständnis dafür, ob und wie sich bestimmte pathologische Merkmale auf einem Bild auf die Leistung von KI-Tools auswirken können.
Die Salienzkartenfunktion wird bereits als Qualitätssicherungstool von klinischen Praxen verwendet, die KI zur Interpretation computergestützter Erkennungsmethoden einsetzen, wie z. B. das Lesen von Röntgenaufnahmen des Brustkorbs. Doch angesichts der neuen Erkenntnisse sei dieses Feature mit Vorsicht und einer gesunden Portion Skepsis zu genießen, so die Forscher.
Unsere Analyse zeigt, dass Salienzkarten noch nicht zuverlässig genug sind, um individuelle klinische Entscheidungen eines KI-Modells zu validieren. Wir haben wichtige Einschränkungen festgestellt, die ernsthafte Sicherheitsbedenken für die Verwendung in der aktuellen Praxis aufwerfen.“
Pranav Rajpurkar, Assistenzprofessor für Biomedizinische Informatik, HMS
Die Forscher warnen davor, dass aufgrund der in der Studie festgestellten wichtigen Einschränkungen salienzbasierte Heatmaps weiter verfeinert werden sollten, bevor sie in klinischen KI-Modellen weit verbreitet werden.
Die vollständige Codebasis, Daten und Analysen des Teams sind offen und stehen allen zur Verfügung, die daran interessiert sind, diesen wichtigen Aspekt des klinischen maschinellen Lernens in medizinischen Bildgebungsanwendungen zu untersuchen.
Quelle:
Referenz:
Saporta, A., et al. (2022) Benchmarking-Saliency-Methoden für die Interpretation von Röntgenaufnahmen des Brustkorbs. Natur-Maschinen-Intelligenz. doi.org/10.1038/s42256-022-00536-x.
.