Forscher der University of Pennsylvania haben Observer auf den Markt gebracht, den ersten multimodalen medizinischen Datensatz, der anonymisierte Echtzeit-Interaktionen zwischen Patienten und Ärzten erfasst. Ähnlich wie das medizinische Drama Der PittIn „Observer“, das das Leben in der Notaufnahme zeigt, können Außenstehende einen Blick in das Innere von Kliniken werfen – nur dass in diesem Fall keine der gefilmten Interaktionen fiktiv ist.

Bislang waren die Daten, die Gesundheitsforschern zur Verfügung standen, auf Spuren beschränkt, die nach einem Besuch hinterlassen wurden: qualitative Informationen wie Notizen des Arztes und quantitative Messungen wie die Vitalfunktionen des Patienten. Keine dieser Quellen erfasst Feinheiten wie Körpersprache und Stimmton oder die Umweltfaktoren, einschließlich der Computernutzung, die sich darauf auswirken, wie Anbieter und Patienten miteinander interagieren.

„Vieles von dem, was Arztbesuche und ihre Ergebnisse prägt, war für Forscher unsichtbar“, sagt Kevin B. Johnson, Professor an der David L. Cohen University und Hauptautor einer neuen Arbeit, die Observer in beschreibt Zeitschrift der American Medical Informatics Association. „Dank der Technologie, die unsere Aufzeichnungen anonymisiert und so die HIPAA-Konformität ermöglicht, können wir mit Observer beobachten, wie sich die Pflege entfaltet. Diese Art von Beweisen ist nicht nur die Grundlage für die Verbesserung der klinischen Praxis, sondern auch entscheidend für die Entwicklung verantwortungsvoller KI-Tools zur Verbesserung der Pflege.“

Die Forscher haben bereits Pilotzuschüsse an andere Teams vergeben, um mit der Nutzung von Observer zu beginnen, mit dem Ziel, den Datensatz zu einer nationalen Ressource zur Verbesserung der Gesundheitsversorgung zu erweitern. „Diese frühen Projekte sind der Beginn eines Schwungrads“, sagt Johnson. „Wenn Forscher neue Erkenntnisse und Aufzeichnungen generieren, wird der Datensatz wachsen, sodass wir noch ehrgeizigere Fragen stellen können.“

Warum klinische Daten wichtig sind

Seit Jahrzehnten nutzen Forscher Daten über Arztbesuche, um zu untersuchen, wie die Gesundheitsversorgung verbessert werden kann. Der Medical Information Mart for Intensive Care, ein mit dem MIT verbundenes Projekt, das in den 1990er Jahren ins Leben gerufen wurde, enthält mittlerweile Zehntausende Aufzeichnungen von Besuchen auf der Intensivstation und wurde in Tausenden von Forschungsarbeiten zu Themen wie klinischer Entscheidungsfindung und Krankenhausbetrieb zitiert.

In jüngerer Zeit spielen solche Daten auch eine Schlüsselrolle beim KI-Training, da sie es KI-Modellen ermöglichen, Muster zu erkennen, die Diagnosen, Behandlungen und Ergebnisse bei großen Patientenpopulationen miteinander verbinden. „Wir haben enorm viel aus dem gelernt, was in der Krankenakte dokumentiert ist“, sagt Johnson. „Aber wenn wir das gesamte Pflegeerlebnis verstehen wollen, brauchen wir Daten, die zeigen, was im Raum passiert.“

Da Observer Video, Audio und Transkripte mit klinischen Daten und elektronischen Gesundheitsakten (EHR) verknüpft, können Forscher nun neue Fragen stellen: wann kommt es während eines Besuchs zu Lachen und ob es die Ergebnisse beeinflusst; Wie oft schauen Ärzte auf Patienten und nicht auf deren Computerbildschirme? wie Raumaufteilung oder digitale Scribing-Technologie die Kommunikation verändern; und wie Patienten auf Diagnoseerklärungen reagieren.

Diese Art der multimodalen Beweisführung – die Kombination von Video-, Audio- und Krankenakten – eröffnet Möglichkeiten in so vielen Bereichen. Indem wir diese Daten verfügbar machen, demokratisieren wir die medizinische Forschung und eröffnen neue Wege zur Verbesserung der Versorgung.“

Karen O’Connor, stellvertretende Direktorin von Johnsons Artificial Intelligence for Ambulatory Care Innovation (AI-4-AI) Lab

Gewährleistung der Privatsphäre des Patienten

In den Vereinigten Staaten sind die Gesundheitsdaten von Patienten durch den Health Insurance Portability and Accountability Act (HIPAA) geschützt, der vorschreibt, dass alle für Forschungszwecke verwendeten Daten keine identifizierenden Details enthalten müssen.

Für Video und Audio war es in der Vergangenheit fast unmöglich, diesen Standard zu erfüllen. Bis vor kurzem hätte die Erstellung eines Datensatzes realer klinischer Begegnungen die manuelle Überprüfung und Bearbeitung jeder Sekunde des Film- und Tonmaterials erfordert – ein arbeitsintensiver und fehleranfälliger Prozess.

Da kommt MedVidDeID zum Einsatz, ein von den Penn-Forschern entwickeltes Tool zur automatischen Anonymisierung von Video- und Audioaufzeichnungen aus klinischen Umgebungen, das sie in einem separaten Artikel im Journal of Biomedical Informatics beschreiben. In Tests hat MedVidDeID mehr als 90 % der Videobilder ohne menschliches Eingreifen erfolgreich deidentifiziert und die Gesamtüberprüfungszeit um über 60 % verkürzt.

Das mehrstufige System extrahiert Transkripte, entfernt identifizierenden Text, bereinigt Audio, wandelt Stimmen um und erkennt und verwischt automatisch Gesichter und andere visuelle Identifikatoren mithilfe modernster Computer-Vision-Modelle. Ein menschlicher Prüfer führt die abschließende Qualitätskontrolle durch, um sicherzustellen, dass geschützte Gesundheitsinformationen vollständig entfernt werden.

„Wir haben eine modulare Pipeline aufgebaut, die den Großteil des Audio-Video-Deidentifizierungsprozesses automatisiert. Indem wir einen Menschen auf dem Laufenden halten, können wir die Privatsphäre der Patienten schützen und gleichzeitig videoinformierte Forschung in großem Maßstab ermöglichen“, sagt Sriharsha Mopidevi, Senior Application Developer im AI-4-AI Lab und Co-Autor beider Artikel.

Vor der Datenerhebung stellten die Forscher sicher, dass Patienten, Patientenfamilien und Ärzte die Möglichkeit hatten, sich für den Prozess zu entscheiden und später Feedback zu geben. Daher setzte das Team in den teilnehmenden Kliniken mehrere Kameras ein: eine fest installierte Raumkamera, um den gesamten Besuch zu erfassen, eine am Kopf des Arztes getragene Kamera, um seine Perspektive darzustellen, und – wenn die Teilnehmer zustimmten – eine am Patienten montierte Kamera, um den Besuch aus der Sicht des Patienten aufzuzeichnen.

Zukünftige Richtungen

Nachdem die erste Phase der Datenerfassung abgeschlossen ist und Pilotstudien im Gange sind, bereitet sich das Observer-Team darauf vor, den Datensatz zu erweitern und ihn einer breiteren Forschungsgemeinschaft zugänglich zu machen. Das Team plant die Einführung eines Zugangsmodells ähnlich dem von MIMIC, das es qualifizierten Forschern ermöglicht, die Erlaubnis zur Nutzung der multimodalen Aufzeichnungen für ihre eigenen Studien zu beantragen.

„Hier geht es letztendlich darum, das Gesundheitssystem zu verändern“, sagt Johnson. „Man kann die Pflege nicht verbessern oder eine sinnvolle klinische KI aufbauen, ohne die Begegnung selbst zu verstehen. Wenn man sehen kann, was bei Hunderten oder Tausenden von Besuchen passiert, wird eine Transformation möglich.“


Quellen:

Journal reference:

Johnson, K. B., et al. (2025). Observer: creation of a novel multimodal dataset for outpatient care research. Journal of the American Medical Informatics Association. doi: 10.1093/jamia/ocaf182. https://academic.oup.com/jamia/advance-article/doi/10.1093/jamia/ocaf182/8304365