Sidebar Werbung
Sidebar Werbung

Laut einer heute veröffentlichten Studie sind weder Radiologen noch multimodale Large Language Models (LLMs) in der Lage, durch künstliche Intelligenz (KI) erzeugte „Deepfake“-Röntgenbilder einfach von authentischen Bildern zu unterscheiden Radiologieeine Zeitschrift der Radiological Society of North America (RSNA). Die Ergebnisse verdeutlichen die potenziellen Risiken, die mit KI-generierten Röntgenbildern verbunden sind, sowie den Bedarf an Werkzeugen und Schulungen, um die Integrität medizinischer Bilder zu schützen und medizinisches Fachpersonal auf die Erkennung von Deepfakes vorzubereiten.

Werbung
Hier könnte Ihr Advertorial stehen
Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

Der Begriff „Deepfake“ bezeichnet eine Video-, Foto-, Bild- oder Audioaufnahme, die real erscheint, aber mithilfe von KI erstellt oder manipuliert wurde.

In-article Werbung
In-article Werbung

Unsere Studie zeigt, dass diese Fake-Röntgenaufnahmen realistisch genug sind, um Radiologen, die am besten ausgebildeten medizinischen Bildspezialisten, zu täuschen, selbst wenn ihnen bewusst war, dass KI-generierte Bilder vorhanden waren. Dadurch besteht ein hohes Risiko für betrügerische Rechtsstreitigkeiten, wenn beispielsweise ein künstlicher Bruch nicht von einem echten zu unterscheiden ist. Es besteht auch ein erhebliches Risiko für die Cybersicherheit, wenn Hacker Zugriff auf das Netzwerk eines Krankenhauses erhalten und synthetische Bilder einschleusen, um Patientendiagnosen zu manipulieren, oder wenn sie ein weitverbreitetes klinisches Chaos verursachen, indem sie die grundlegende Zuverlässigkeit der digitalen Krankenakte untergraben.“

Mickael Tordjman, MD, Hauptautor der Studie, Postdoktorand, Icahn School of Medicine am Mount Sinai, New York

An der retrospektiven Studie nahmen 17 Radiologen aus 12 verschiedenen Zentren in sechs Ländern (USA, Frankreich, Deutschland, Türkei, Vereinigtes Königreich und Vereinigte Arabische Emirate) teil. Ihre Berufserfahrung reichte von 0 bis 40 Jahren. Die Hälfte der 264 Röntgenbilder der Studie war authentisch, die andere Hälfte wurde von KI erstellt. Radiologen wurden anhand von zwei unterschiedlichen Bildsätzen beurteilt, ohne dass es zu Überschneidungen zwischen den Datensätzen kam. Der erste Datensatz umfasste reale und ChatGPT-generierte Bilder mehrerer anatomischer Regionen. Der zweite Datensatz enthielt Röntgenbilder des Brustkorbs – die Hälfte authentisch und die andere Hälfte erstellt von RoentGen, einem generativen Open-Source-KI-Diffusionsmodell, das von Forschern der Stanford Medicine entwickelt wurde.

Als die Leser der Radiologen den wahren Zweck der Studie nicht kannten, sie aber nach der Bewertung der technischen Qualität jedes ChatGPT-Bildes fragten, ob ihnen etwas Ungewöhnliches auffiel, identifizierten nur 41 % spontan KI-generierte Bilder. Nachdem den Radiologen mitgeteilt wurde, dass der Datensatz synthetische Bilder enthielt, betrug die durchschnittliche Genauigkeit bei der Unterscheidung zwischen echten und synthetischen Röntgenstrahlen 75 %.

Die Leistung des einzelnen Radiologen bei der genauen Erkennung der von ChatGPT generierten Bilder lag zwischen 58 % und 92 %. Ebenso lag die Genauigkeit von vier multimodalen LLMs – GPT-4o (OpenAI), GPT-5 (OpenAI), Gemini 2.5 Pro (Google) und Llama 4 Maverick (Meta) – zwischen 57 % und 85 %. Selbst ChatGPT-4o, das zur Erstellung der Deepfakes verwendete Modell, war nicht in der Lage, alle von ihnen genau zu erkennen, obwohl es im Vergleich zu Google und Meta LLMs mit deutlichem Abstand die meisten davon identifizierte.

Die Genauigkeit der Radiologen bei der Erkennung der synthetischen Röntgenaufnahmen des Brustkorbs von RoentGen lag zwischen 62 % und 78 % und die Leistung der LLM-Modelle lag zwischen 52 % und 89 %.

Es gab keinen Zusammenhang zwischen der jahrelangen Erfahrung eines Radiologen und seiner Genauigkeit bei der Erkennung synthetischer Röntgenbilder. Allerdings zeigten muskuloskelettale Radiologen eine deutlich höhere Genauigkeit als andere Subspezialisten der Radiologie.

Die Studie identifizierte gemeinsame Merkmale synthetischer Röntgenstrahlen.

„Deepfake-medizinische Bilder sehen oft zu perfekt aus“, sagte Dr. Tordjman. „Knochen sind übermäßig glatt, Wirbelsäulen unnatürlich gerade, Lungen übermäßig symmetrisch, Blutgefäßmuster übermäßig gleichmäßig und Brüche erscheinen ungewöhnlich sauber und konsistent, oft auf eine Seite des Knochens beschränkt.“

Zu den empfohlenen Lösungen, um echte und gefälschte Bilder klar zu unterscheiden und Manipulationen vorzubeugen, gehören die Implementierung fortschrittlicher digitaler Schutzmaßnahmen, wie z. B. unsichtbare Wasserzeichen, die Eigentums- oder Identitätsdaten direkt in die Bilder einbetten, und das automatische Anhängen kryptografischer Signaturen, die von Technikern erstellt wurden, wenn die Bilder erfasst werden.

„Wir sehen möglicherweise nur die Spitze des Eisbergs“, sagte Dr. Tordjman. „Der logische nächste Schritt in dieser Entwicklung ist die KI-Generierung synthetischer 3D-Bilder wie CT und MRT. Die Erstellung von Bildungsdatensätzen und Erkennungstools ist jetzt von entscheidender Bedeutung.“

Die Autoren der Studie haben einen kuratierten Deepfake-Datensatz mit interaktiven Tests für Bildungszwecke veröffentlicht.


Quellen:

Journal reference:

Tordjman, M., et al. (2026). The Rise of Deepfake Medical Imaging: Radiologists’ Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs. Radiology. DOI: 10.1148/radiol.252094. https://pubs.rsna.org/doi/10.1148/radiol.252094