Ein neues KI-gesteuertes Diagnose-Framework kombiniert klinische, genetische und phänotypische Daten, um den Diagnoseweg für seltene Krankheiten zu verkürzen und gleichzeitig transparente, evidenzbasierte Argumente für Ärzte bereitzustellen.
In einer kürzlich in der Zeitschrift veröffentlichten Studie NaturForscher entwickelten DeepRare, ein auf großen Sprachmodellen (LLMs) basierendes Agentensystem zur Diagnose seltener Krankheiten.
Globale Belastung durch seltene Krankheiten und Diagnoseverzögerungen
Von seltenen Krankheiten sind weltweit mehr als 300 Millionen Menschen betroffen, doch die Diagnose bleibt aufgrund der klinischen Heterogenität, der begrenzten Vertrautheit der Ärzte und der geringen Krankheitsprävalenz eine Herausforderung. Patienten erleben häufig eine lange diagnostische Odyssee, die mehr als fünf Jahre dauern kann und wiederholte Überweisungen, Fehldiagnosen, unnötige Eingriffe, Behandlungsverzögerungen und schlechte klinische Ergebnisse mit sich bringt. Diese Verzögerungen stellen eine erhebliche wirtschaftliche und emotionale Belastung für Patienten und Familien dar und unterstreichen den dringenden Bedarf an präzisen, skalierbaren Diagnosetools für seltene Krankheiten.
DeepRare Agentic Systemarchitektur und Kernkomponenten
In dieser Studie stellten die Forscher DeepRare vor, ein auf einem großen Sprachmodell basierendes Wirkstoffsystem zur Diagnose seltener Krankheiten. DeepRare besteht aus drei Hauptkomponenten: (1) einem LLM-gestützten zentralen Host, der mit einer Speicherbank ausgestattet ist, (2) spezialisierten Agentenservern, die Analyseaufgaben ausführen, und (3) heterogenen Datenquellen, die diagnostische Beweise aus medizinischen Wissensdatenbanken im Webmaßstab und wissenschaftlicher Literatur liefern. Das System verwendet DeepSeek-V3 als Standard-LLM, das den zentralen Host mit Strom versorgt.
DeepRare verarbeitet verschiedene Patienteneingaben, darunter genomische Testergebnisse, klinische Freitextbeschreibungen und Begriffe der Human Phenotype Ontology (HPO). Der zentrale Host koordiniert Agentenserver, um relevante, auf Patientendaten zugeschnittene Beweise abzurufen, generiert vorläufige diagnostische Hypothesen und führt eine strukturierte Selbstreflexionsphase durch, um diese durch zusätzliche Suchvorgänge zu validieren oder zu widerlegen. Wenn keine Hypothese die vordefinierten Kriterien erfüllt, wiederholt das System den Argumentationszyklus iterativ, bis eine Lösung gefunden wird. Das Endergebnis ist eine Rangliste möglicher seltener Krankheiten, begleitet von einer nachvollziehbaren Argumentationskette, die jede Schlussfolgerung mit unterstützenden Beweisen verknüpft.
Benchmark-Vergleiche mit LLMs, Bioinformatik-Tools und Agentensystemen
Die Forscher bewerteten DeepRare im Vergleich zu hochmodernen Allzweck-LLMs, schlussfolgerungsgestützten LLM-Varianten, medizindomänenspezifischen LLMs, bioinformatischen Diagnosetools und anderen Agentensystemen. Zu den Allzweckmodellen gehörten Claude-3.7-Sonnet, GPT-4o, Gemini-2.0-flash und DeepSeek-V3 sowie Versionen mit verbesserter Argumentation wie Claude-Sonnet-3.7-thinking, o3-mini, Gemini-2.0-FT und DeepSeek-R1. Zu den medizinspezifischen LLMs gehörten MMedS-Llama 3 und Baichuan-14B. Zu den Bioinformatik-Tools gehörten PubCaseFinder und PhenoBrain, während andere Agentensysteme MDAgents und DS-R1-Suche umfassten.
DeepRare wurde anhand von 6.401 klinischen Fällen mit 2.919 Krankheiten in sieben öffentlichen Datensätzen und zwei internen Datensätzen ausgewertet. Zu den öffentlichen Datensätzen gehörten die Deciphering Developmental Disorders Study, RareBench, Matchmaker Exchange (MME), RareBench-LIRICAL, RareBench HMS, MIMIC-IV-Rare, MyGene2 und RareBench-RAMEDIS. Interne Datensätze bestanden aus klinischen Fällen aus Krankenhäusern von Xinhua und Hunan in China. Diese Datensätze umfassten aus der Literatur abgeleitete Fallberichte, kuratierte Repositorien und reale Daten klinischer Zentren aus verschiedenen Bevölkerungsgruppen.
Diagnosegenauigkeitsmetriken und Recall@K-Leistung
Für jede Diagnoseaufgabe generierte das System fünf Rangfolgevorhersagen. Die Leistung wurde mithilfe von Recall@K bewertet, das die Wahrscheinlichkeit misst, dass die richtige Diagnose in den Top-K-Vorhersagen erscheint. Recall@1 spiegelt den Anteil der Fälle wider, bei denen die richtige Diagnose an erster Stelle stand, während Recall@3 und Recall@5 angeben, ob sie unter den ersten drei bzw. fünf Vorhersagen erschien.
In HPO-basierten Analysen erreichte DeepRare einen Recall@1 von 57,18 % und übertraf damit Claude-3.7-Sonnet-thinking, das zweitbeste Modell, um 23,79 %. In 14 Körpersystemen, die mehrere medizinische Fachgebiete repräsentieren, konnte DeepRare stets eine überlegene diagnostische Leistung erzielen. Bei der Stratifizierung der Analysen nach Krankheitsrepräsentation zeigte DeepRare eine starke Leistung sowohl bei gut repräsentierten Krankheiten mit mehr als 10 Fällen pro Krankheit als auch bei unterrepräsentierten Krankheiten mit 10 oder weniger Fällen, was die Robustheit über variable Fallverteilungen hinweg unterstreicht.
Leistung versus Spezialisten für seltene Krankheiten
DeepRare wurde im Vergleich zu fünf erfahrenen Spezialisten für seltene Krankheiten unter Verwendung identischer HPO-Eingaben bewertet. Ärzte durften Suchmaschinen konsultieren, durften jedoch keine KI-basierten Diagnosetools verwenden. DeepRare erreichte Recall@1- und Recall@5-Raten von 64,4 % bzw. 78,5 %, verglichen mit den durchschnittlichen Recall@1- und Recall@5-Raten der Spezialisten von 54,6 % und 65,6 %. Diese Ergebnisse deuten darauf hin, dass das System unter standardisierten Benchmarking-Bedingungen menschliche Experten übertrifft.
Die Integration genetischer Daten verbessert die diagnostische Genauigkeit
Die Forscher bewerteten DeepRare anhand kombinierter genetischer und HPO-Eingaben, einschließlich Sequenzierungsdaten des gesamten Exoms aus Krankenhäusern in Xinhua und Hunan. Durch die Einbeziehung genetischer Daten wurde die Leistung deutlich verbessert. Recall@1 stieg im Hunan-Datensatz von 33,3 % auf 63,6 % und im Xinhua-Datensatz von 39,9 % auf 69,1 %.
Im Vergleich zu Exomiser, einem Bioinformatik-Tool, das genetische und HPO-Daten integriert, erreichte DeepRare höhere Recall@1-Werte von 63,6 % (Hunan) und 69,1 % (Xinhua), gegenüber 58,0 % bzw. 55,9 % für Exomiser.
Als zentraler Host wurden verschiedene LLMs getestet, darunter DeepSeek-R1, Gemini-2.0-flash, Claude-3.5-Sonnet und GPT-4o. Die Wahl des LLM hatte nur minimale Auswirkungen auf die Gesamtleistung, was auf eine robuste Architektur schließen lässt. Die Autoren stellten fest, dass diese Ergebnisse eher kontrollierte retrospektive Bewertungen als einen prospektiven Einsatz in der Praxis widerspiegeln.
Transparentes Denken und Implikationen für die klinische Entscheidungsunterstützung
DeepRare stellt ein agentenbasiertes LLM-gestütztes System dar, das in der Lage ist, transparente Argumentationsketten für die Diagnose seltener Krankheiten zu generieren. Das System übertraf im retrospektiven Benchmarking durchweg bestehende LLMs, Bioinformatik-Tools, Agenten-Frameworks und erfahrene Kliniker in verschiedenen Datensätzen. Die klinische Überprüfung der generierten Argumentationsketten zeigte eine hohe Referenzgenauigkeit, obwohl gelegentlich halluzinierte oder irrelevante Zitate beobachtet wurden.
Zukünftige Forschungen könnten diesen Rahmen auf die Behandlungsauswahl, Prognosevorhersage und prospektive klinische Validierung erweitern, um den klinischen Nutzen in der Praxis zu bewerten.
Quellen:
- Zhao W, Wu C, Fan Y, et al. (2025). An agentic system for rare disease diagnosis with traceable reasoning. Nature. DOI: 10.1038/s41586-025-10097-9. https://www.nature.com/articles/s41586-025-10097-9