Ein neuer Expertenkonsens, der am 10. Oktober 2025 online verfügbar gemacht und in Band 5, Ausgabe 4 der Zeitschrift veröffentlicht wurde Intelligente Medizin am 1. November 2025 legt einen strukturierten Rahmen zur Bewertung großer Sprachmodelle (LLMs) fest, bevor sie in klinische Arbeitsabläufe eingeführt werden. Die Leitlinien reagieren auf die rasche Verbreitung von Tools der künstlichen Intelligenz (KI) zur Diagnoseunterstützung, medizinischen Dokumentation und Patientenkommunikation sowie auf den damit verbundenen Bedarf an einer konsistenten Bewertung von Sicherheit, Wirksamkeit und Fairness.

Der Konsens formalisiert die retrospektive Evaluierung – das Testen vollständig trainierter Modelle anhand realer oder simulierter klinischer Daten in bestimmten Pflegekontexten, ohne die Modelle weiter zu modifizieren – um vor dem Einsatz Leistung, ethische Compliance und Betriebsbereitschaft zu überprüfen.

Der Konsens wurde im Einklang mit den Richtlinienmethoden der Weltgesundheitsorganisation entwickelt und auf der Plattform „Practice Guideline Registration for Transparency“ (PREPARE) (ID: PREPARE-2025CN503) registriert. Er basiert auf Literaturrecherche, Delphi-Verfahren und multidisziplinären Expertenberatungen. In der Schlussrunde einigten sich 35 Experten auf sechs Empfehlungen.

Was beinhaltet der Rahmen?

  • Bewertungsworkflows Priorisierung von wissenschaftlicher Genauigkeit, Objektivität, Vollständigkeit und Ethik (z. B. Doppelblindverfahren, Transparenz von Interessenkonflikten).
  • Integrierte Metriken Kombination quantitativer Messgrößen (Genauigkeit, Erinnerung, F1-Score; BLEU/ROUGE für Generierung) mit strukturierten qualitativen Bewertungen (z. B. durchschnittliche Meinungswerte für Genauigkeit, Vollständigkeit, Sicherheit, Praktikabilität, Professionalität).
  • Multidisziplinäre Teams Es umfasst Kliniker, Daten- und Computeringenieure, Ethiker, Rechtsexperten und Statistiker mit standardisierten Schulungen und Rollendefinitionen.
  • Prinzipien des Datensatzdesigns Im Mittelpunkt stehen klinische Authentizität, breite Repräsentativität über Krankheiten, Bevölkerungsgruppen und Institutionen hinweg sowie Fairness für gefährdete Gruppen mit modularer Versionierung und Datenschutz-/Compliance-Schutzmaßnahmen.
  • Feedback und Versionierung Mechanismen zur Aktualisierung von Standards, wenn sich Technologie, Vorschriften oder Anwendungsumfang weiterentwickeln, einschließlich transparenter Streitbeilegungsprozesse.
  • Standardisierte Berichtsvorlagen um die Transparenz, Reproduzierbarkeit und Vergleichbarkeit zwischen den Bewertungen zu verbessern.

Der Konsens definiert außerdem sechs wichtige LLM-Fähigkeitsbereiche für die Bewertung: Fragen und Antworten zu medizinischem Wissen; komplexes medizinisches Sprachverständnis; Diagnose- und Behandlungsempfehlung; Erstellung medizinischer Dokumentation; Multi-Turn-Dialog; und multimodaler Dialog.

Die Autoren des Konsenses betonen wesentliche Sicherheitsvorkehrungen für den Schutz von Patientendaten, die Abmilderung von Vorurteilen und die Notwendigkeit, dass KI-Ergebnisse klinisch erklärbar bleiben, und sind in der Lage, die Weiterentwicklung sichererer, zuverlässigerer und ethisch geregelter LLM-Anwendungen in Gesundheitssystemen weltweit zu unterstützen.


Quellen:

Journal reference:

Wang, Z., et al. (2025). 2025 Expert Consensus on Retrospective Evaluation of Large Language Model Applications in Clinical Scenarios. Intelligent Medicine. doi: 10.1016/j.imed.2025.09.001. https://www.sciencedirect.com/science/article/pii/S2667102625001044?via%3Dihub