Wie eine neue US-Gesundheitsstudie Verzerrungen in der Datenforschung zu tragbaren Geräten beseitigt

Indem den Teilnehmern Wearables und Internetzugang zur Verfügung gestellt werden, schließt die American Life in Realtime-Studie die Lücke in der Frage, wer digitale Gesundheitsdaten wirklich repräsentieren, und beweist, dass Inklusivität und rigoroses Design die KI-gesteuerte Gesundheitsversorgung für alle gerechter machen können.
Studie: American Life in Realtime: Benchmarking öffentlich verfügbarer personenbezogener Gesundheitsdaten für Chancengleichheit in der Präzisionsgesundheit. Bildnachweis: Lomb/Shutterstock.com
In einem aktuellen Artikel in PNAS-Nexus, Forscher entwickelten eine longitudinale und landesweit repräsentative Gesundheitsstudie namens American Life in Realtime (ALiR), um personenbezogene Gesundheitsdaten (PGHD) über von der Studie bereitgestellte tragbare und mit dem Internet verbundene Geräte zu sammeln.
Ihr Ansatz befasst sich mit den Einschränkungen bestehender PGHD-Studien, die auf persönlichen Geräten basieren und häufig benachteiligte Bevölkerungsgruppen ausschließen. ALiR kann somit als Maßstab für faire und verallgemeinerbare digitale Gesundheitsforschung dienen.
Bekämpfung der historischen Unterrepräsentation
Precision Health zielt darauf ab, die Prävention und Behandlung von Krankheiten zu verbessern, indem Strategien an die einzigartigen biologischen, sozialen und Umweltkontexte des Einzelnen angepasst werden. Eine Schlüsselkomponente dieses Ansatzes ist PGHD, das mit alltäglichen digitalen Werkzeugen wie Smartphones und tragbaren Geräten erfasst wird.
Diese Daten liefern kontinuierliche Einblicke in Verhaltensweisen und Expositionen, die für die meisten veränderbaren Gesundheitsrisiken verantwortlich sind, und sind daher von entscheidender Bedeutung für die Identifizierung gesundheitlicher Ungleichheiten und die Verbesserung der Ergebnisse bei marginalisierten Gruppen.
Allerdings mangelt es in diesem Bereich an Benchmark-PGHD-Datensätzen, d. h. an standardisierten, repräsentativen und validierten Datenressourcen, die eine faire und reproduzierbare Entwicklung von Modellen der künstlichen Intelligenz (KI) ermöglichen. Die Autoren weisen darauf hin, dass ein idealer PGHD-Benchmark die Bevölkerungsvielfalt widerspiegeln, wiederholt validierte Messungen umfassen, longitudinal sein, eine ausreichende Datenqualität und -quantität enthalten und allgemein zugänglich sein sollte – Kriterien, die ALiR erfüllt.
Aktuelle Datensätze wie All of Us des National Institutes of Health und die UK Biobank repräsentieren schwarze, indigene, ältere und einkommensschwache Bevölkerungsgruppen unterrepräsentiert und stützen sich häufig auf unregelmäßige oder unstrukturierte Daten. Dies schränkt die Generalisierbarkeit des Modells ein und birgt die Gefahr, dass sich die Unterschiede durch verzerrte Vorhersagen verschlimmern.
Die Pandemie der Coronavirus-Krankheit 2019 (COVID-19) hat diese Herausforderungen verdeutlicht und gezeigt, wie soziale Ungleichheiten die Krankheitslast verstärken. Viele PGHD-basierte COVID-Erkennungsstudien stützten sich auf Convenience-Stichproben, die benachteiligte Personen ausschlossen, teilweise aufgrund von Rekrutierungsbarrieren wie begrenztem Zugang zu Technologie oder Misstrauen.
Um diese Vorurteile zu überwinden, wurde die ALiR-Studie ins Leben gerufen. Es nutzt wahrscheinlichkeitsbasierte Stichproben und von Studien bereitgestellte Hardware, um die Inklusion zu fördern und einen Maßstab für gerechte, präzise Gesundheitsforschung zu schaffen.
Gestaltung der Studie
Die ALiR-Studie wurde als longitudinale und landesweit repräsentative digitale Gesundheitskohorte konzipiert und nutzte Best Practices für Wahrscheinlichkeitsstichproben, Benchmarking und FAIR-Datenstandards (Findable, Accessible, Interoperable, Reusable).
Die Teilnehmer wurden nach dem Zufallsprinzip aus der Understanding America Study (UAS) ausgewählt, einer großen adressbasierten Gruppe US-amerikanischer Erwachsener. Personen, die der Teilnahme zustimmten, erhielten ein tragbares Gerät und Zugriff auf eine benutzerdefinierte mobile App für die kontinuierliche biometrische Verfolgung und kurze, häufige Umfragen.
Diese alle ein bis drei Tage durchgeführten Umfragen sammelten Informationen zu körperlicher und geistiger Gesundheit, Verhaltensweisen, demografischen Merkmalen, Umwelt- und Sozialexpositionen sowie strukturellen Determinanten wie Einkommen, Wohnraum und Diskriminierung.
Die Daten wurden mit kontextbezogenen Datensätzen verknüpft, darunter Gesundheitsakten, Wetter, Luftqualität und Kriminalität, um Umwelt- und Gesundheitsinformationen zu bereichern. Im Rahmen der Studie wurden Teilnehmern ohne Internetzugang auch elektronische Tablets zur Verfügung gestellt, um Auswahlverzerrungen zu minimieren und die Einbeziehung unterrepräsentierter Gruppen sicherzustellen.
Zwischen August 2021 und März 2022 wurden 2.468 UAS-Mitglieder eingeladen, wobei rassische/ethnische Minderheiten und Gruppen mit niedrigerem Bildungsniveau überbewertet waren. Davon stimmten 1.386 zu (64 %), und 1.038 meldeten sich an (75 %).
Logistische und zufällige Waldanalysen ergaben, dass die Nichteinwilligung vor allem mit einem höheren Alter zusammenhängt, während die Nichteinschreibung mit einem geringeren Bildungsniveau zusammenhängt.
ALiRs Leistung
ALiR erreichte eine breite Repräsentativität für alle Merkmale der US-Bevölkerung, einschließlich Persönlichkeitsmerkmalen, Gesundheit, Demografie und sozioökonomischem Status.
Rassen- und ethnische Minderheiten waren überrepräsentiert (54 % gegenüber 38 % in der Bevölkerung), während Weiße unterrepräsentiert waren (46 % gegenüber 62 %), was mit einer bewussten Überbelegung zur Verbesserung der Inklusivität übereinstimmt.
Teilnehmer mit geringem Einkommen oder eingeschränktem digitalen Zugang waren gut vertreten: 77 % hatten zuvor kein tragbares Gerät und 2 % hatten vor der von der Studie bereitgestellten Hardware keinen Internetzugang. Gewichtete Anpassungen korrigierten die meisten geringfügigen demografischen Ungleichgewichte, obwohl Rentner und Menschen mit Bluthochdruck weiterhin leicht unterrepräsentiert waren.
Im Vergleich zu komfortbasierten Wearable-Studien wie dem All of Us Fitbit-Datensatz „Bring-Your-Own-Device“ (BYOD) zeigte ALiR eine weitaus bessere Bevölkerungsausrichtung und -vielfalt. Bei der Verwendung zum Trainieren eines COVID-19-Infektionsklassifizierungsmodells erzielten ALiR-basierte Modelle sowohl innerhalb als auch außerhalb der Stichprobe eine robuste Leistung, was auf eine starke Generalisierbarkeit über alle demografischen Untergruppen hindeutet.
Konkret erreichte das ALiR-Modell beim Test sowohl innerhalb als auch außerhalb der Stichprobe eine Fläche unter der Kurve (AUC) von 0,84 und sorgte so für eine konsistente Leistung über alle Untergruppen hinweg.
Im Gegensatz dazu erreichte ein identisch trainiertes Modell, das auf „All of Us“-Daten basierte, eine AUC von 0,93 in der Stichprobe, sank jedoch auf 0,68 außerhalb der Stichprobe, was einem Genauigkeitsverlust von 35 % entspricht, wobei die stärksten Rückgänge (22 bis 40 %) bei älteren Frauen und nicht-weißen Teilnehmern zu verzeichnen waren.
Schlussfolgerungen
ALiR ist die erste bevölkerungsbasierte Längsschnittstudie, die Daten tragbarer Geräte mit wiederholt validierten Gesundheits- und Verhaltensmessungen integriert und so einen Maßstab für gerechte, präzise Gesundheitsforschung bietet.
Seine wahrscheinlichkeitsbasierten Sampling-, Hardware-Bereitstellungs- und Oversampling-Strategien minimierten Verzerrungen effektiv, erreichten eine breite demografische und sozioökonomische Repräsentation in den USA, verbesserten den Komfort und „Bring-Your-Own-Device“-Studien wie „All of Us“.
Das COVID-19-Modell von ALiR zeigte in verschiedenen Gruppen eine solide Leistung und zeigte, dass kleinere, qualitativ hochwertige und repräsentative Stichproben verallgemeinerbare Ergebnisse liefern können als größere, voreingenommene Datensätze.
Allerdings blieben einige Vorurteile bestehen, insbesondere die Unterrepräsentation älterer Erwachsener trotz der Bereitstellung von Geräten, was darauf hindeutet, dass Barrieren jenseits des Technologiezugangs, wie Misstrauen oder Desinteresse, die Teilnahme beeinträchtigen. Die Studie konzentrierte sich auch auf Einwilligung und Einschreibung, wobei die laufenden Arbeiten sich mit dem langfristigen Engagement befassen. Die Autoren betonen, dass der ALiR-Datensatz und der zugehörige Studien-App-Code Ende 2025 öffentlich verfügbar sein werden und eine offene Ressource für die Entwicklung und Validierung gleichwertiger KI-Modelle darstellen werden.
Zusammenfassend lässt sich sagen, dass ALiR nicht nur einen öffentlichen Maßstab für inklusive digitale Gesundheitsforschung setzt, sondern auch zeigt, dass ein durchdachtes Studiendesign seit langem bestehende Hindernisse für die Repräsentation überwinden kann. Durch die Bereitstellung eines methodisch fundierten Rahmens unterstützt ALiR die Entwicklung generalisierbarerer KI-Modelle und trägt zur Verbesserung der Gerechtigkeit in der digitalen und präzisen Gesundheitsforschung bei.
Laden Sie jetzt Ihr PDF-Exemplar herunter!
Quellen:
- Chaturvedi, R.R., Angrisani, M., Troxel, W.M., Jain, M., Gutsche, T., Ortega, E., Boch, A., Liang, C., Sima, S., Mezlini, A., Daza, E.J., Boodaghidizaji, M., Suen, S., Chaturvedi, A.R., Ghasemkhani, H., Ardekani, A.M., Kapteyn, A. (2025). American Life in Realtime: Benchmark, publicly available person-generated health data for equity in precision health. PNAS Nexus 4(10). DOI: 10.1093/pnasnexus/pgaf295. https://academic.oup.com/pnasnexus/article/4/10/pgaf295/8275735