Eine leistungsstarke KI-gestützte Analyse deckt versteckte COVID-19-Todesfälle in den gesamten USA auf und deckt tiefe Ungleichheiten bei der Erfassung der Zahl der Opfer der Pandemie auf.

Werbung
Hier könnte Ihr Advertorial stehen
Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

In einer kürzlich in der Zeitschrift veröffentlichten Studie Wissenschaftliche FortschritteForscher haben ein neuartiges Modell für maschinelles Lernen (ML) entwickelt, um bisher nicht erkannte Todesfälle durch die Coronavirus-Krankheit 2019 (COVID-19) zu schätzen, anstatt eine „echte“ Zahl der Todesopfer der COVID-19-Pandemie in den Vereinigten Staaten (USA) zu berechnen. Das Modell wurde so codiert, dass sich seine Berechnungen auf den Zeitraum von März 2020 bis Dezember 2021 konzentrieren.

Algorithmenschätzungen ergaben, dass das US-amerikanische medizinische Meldesystem wahrscheinlich 155.536 COVID-19-Todesfälle nicht identifizierte, die stattdessen offiziell auf andere Ursachen zurückgeführt wurden. Darüber hinaus stellte das Modell fest, dass diese vorhergesagten „unerkannten“ Todesfälle unverhältnismäßig häufig bei marginalisierten Rassengruppen auftraten, darunter hispanische, indianische/alaskaische, schwarze und asiatische Bevölkerungsgruppen.

Es wurde nachgewiesen, dass die Falschmeldung bei Personen mit geringerer Bildung und Bewohnern des amerikanischen Südens deutlich über dem landesweiten Durchschnitt liegt, was eher auf systematische Ungleichheiten im Todesermittlungssystem des Landes als auf einen eindeutigen Beweis für ein Systemversagen schließen lässt.

Einschränkungen traditioneller COVID-19-Mortalitätsschätzungen

Eine genaue epidemiologische Berichterstattung über die öffentliche Gesundheit, insbesondere Mortalitätsdaten, gilt weithin als Grundpfeiler des modernen medizinischen Systems, da sie es den Beamten ermöglicht, Ressourcen zuzuweisen und in Notfällen wirksame Richtlinien zu entwickeln.

Allerdings wird die jüngste COVID-19-Pandemie oft als Beispiel für den Zusammenbruch dieses Systems kritisiert, wobei immer mehr Beweise dafür vorliegen, dass die Berichterstattung häufig verzögert oder unvollständig war.

Traditionell wurden in Studien überwiegend statistische Modelle zur „Übersterblichkeit“ verwendet, um die Zahl der Opfer der Pandemie abzuschätzen, indem die tatsächlichen Todesfälle mit historischen Trends verglichen wurden. Obwohl sich diese Modelle als nützlich für die Schätzung der Gesamtzahl der Todesfälle in einem bestimmten Gebiet erwiesen haben, können sie die Todesursache leider nicht genau ermitteln.

Folglich war es bisher unmöglich, mithilfe von Ansätzen zur Übersterblichkeit allein zu unterscheiden, ob jemand direkt an einer Virusinfektion (COVID-19) gestorben ist oder ob er an indirekten pandemiebedingten Faktoren wie einer verzögerten Herzoperation oder dem wirtschaftlichen Stress eines Lockdowns gestorben ist.

Modell und Studiendesign für maschinelles Lernen

Ziel der vorliegenden Studie war es, diese Wissenslücke im Kontext des US-amerikanischen Todesermittlungssystems zu schließen. Die Studie nutzte jüngste Fortschritte in der Computertechnik, um prädiktive ML-Modelle anhand eines großen nationalen Sterbeurkundendatensatzes zu trainieren, wobei stationäre Todesfälle unter wichtigen Annahmen als hochwertige Referenz („Goldstandard“) behandelt wurden.

Dieser Trainingssatz wurde aus US-amerikanischen Sterbeurkundendaten für Todesfälle in stationären Krankenhäusern abgeleitet, wo COVID-19-Tests nahezu universell waren und die Meldung der Todesursache als sehr genau galt, und nicht aus einem speziell erstellten Datensatz. Der Datensatz konzentrierte sich auf den Zeitraum von März 2020 bis Dezember 2021, in dem 1,88 Millionen Todesfälle gemeldet wurden.

Anhand dieses Referenzdatensatzes wurden 16 verschiedene ML-Modelle trainiert, wobei der Schwerpunkt insbesondere auf den Ursachen und Verstorbenenmerkmalen der Sterbeurkunde lag, die auf einen COVID-19-Tod hinweisen könnten. Das Extreme Gradient Boosting (XGBoost)-Modell wurde aufgrund seiner konstant hohen Vorhersagegenauigkeit im Trainingsdatensatz ausgewählt.

Anschließend wurden dem Modell 3,85 Millionen „außerklinische“ Sterbeurkunden von Erwachsenen ab 25 Jahren zur Verfügung gestellt. Dieser Datensatz umfasste bis zu 20 zugrunde liegende und beitragende Todesursachen, darunter Alter, Geschlecht, Rasse, Bildungsniveau, bereits bestehende chronische Erkrankungen, mittleres Haushaltseinkommen und geografischer Standort.

Wichtig ist, dass der Ansatz davon ausgeht, dass Muster, die aus Todesfällen im Krankenhaus gelernt wurden, gültig auf Todesfälle außerhalb des Krankenhauses angewendet werden können, eine wichtige, aber möglicherweise einschränkende Annahme des Modells.

Geschätzte Unterberichterstattung und Sterblichkeitsunterschiede

Das XGBoost-Modell schätzte insgesamt 995.787 COVID-19-Todesfälle (95 %-Unsicherheitsintervall). [UI]: 990.313 bis 1.001.363) im Untersuchungszeitraum. Diese Zahl offenbart eine erhebliche Meldelücke im US-amerikanischen Todesermittlungssystem, da sie etwa 19 % höher ist (n = 155.536) als die offiziellen Aufzeichnungen (n = 840.251).

Das Modell ergab außerdem, dass diese Diskrepanzen in den offiziellen Aufzeichnungen am schwerwiegendsten bei Todesfällen zu Hause waren, wo die vorhergesagte Zahl um 160 % höher war als gemeldet (angepasste Meldequote). [ARR] = 2,60; 95 % UI: 2,56 bis 2,65). Unerwarteterweise stellte das Modell auch erhebliche Lücken in der Hospizversorgung und in den Notaufnahmen fest.

Bei der Schätzung der relativen Beiträge verschiedener soziodemografischer und medizinischer Bedingungen im Zusammenhang mit einer Fehlklassifizierung ergab das Modell, dass der Süden der Vereinigten Staaten die höchsten Raten unerkannter Todesfälle aufwies. Alabama (ARR 1,67), Oklahoma (ARR 1,51) und South Carolina (ARR 1,47) waren landesweit führend bei der Unterberichterstattung.

Das Modell identifizierte Ungleichheiten bei der Meldung von Rassen- und ethnischen Aufzeichnungen, wobei bei hispanischen Verstorbenen die Wahrscheinlichkeit, dass ihre COVID-19-Todesfälle unerkannt bleiben, am höchsten ist (ARR 1,31; 95 % UI: 1,30 bis 1,32). Eine hohe Unterberichterstattung wurde auch bei indianischen/alaskaischen Ureinwohnern (ARR 1,24), asiatischen (ARR ~1,24) und schwarzen Bevölkerungsgruppen (ARR 1,19) festgestellt.

Schließlich war die Wahrscheinlichkeit einer Unterzählung bei Personen mit weniger als einem High-School-Abschluss deutlich höher (ARR 1,29) als bei Personen mit höherem Bildungsstand. Ebenso verzeichneten Landkreise mit dem niedrigsten Haushaltseinkommen und den schlechtesten bereits bestehenden Gesundheitskennzahlen die höchsten Raten unerkannter Todesfälle.

Auswirkungen auf die öffentliche Gesundheit und Gerechtigkeit

Die vorliegende Veröffentlichung kam zu dem Schluss, dass das US-amerikanische Todesermittlungssystem die Zahl der COVID-19-Todesfälle auf „systematisch ungerechtfertigte“ Weise unterzählte. Die Ergebnisse des XGBoost-Modells deuten darauf hin, dass das System versehentlich das wahre Ausmaß der Auswirkungen der Pandemie auf marginalisierte Gemeinschaften verschwieg.

Während die Studie durch die Annahme eingeschränkt wird, dass im Krankenhaus geschulte Modelle auf Todesfälle zu Hause übertragen werden können, argumentieren die Forscher, dass dieser Ansatz einen alternativen, möglicherweise spezifischeren Ansatz zu herkömmlichen Modellen für übermäßige Todesfälle bietet. Die Autoren betonen außerdem, dass diese Schätzungen zusammen mit anderen Methoden und nicht als endgültige Zählungen interpretiert werden sollten.

Zukünftige Studien sollten darauf abzielen, ähnliche ML-Frameworks anzuwenden, um andere „versteckte“ Sterblichkeitskrisen wie Drogenüberdosierungen oder die Auswirkungen extremer Hitze zu untersuchen.


Quellen:

Journal reference:
  • Kiang, M. V., et al. (2026). Applying machine learning to identify unrecognized COVID-19 deaths recorded as other causes of death in the United States. Science Advances, 12(12). DOI – 10.1126/sciadv.aef5697, https://www.science.org/doi/10.1126/sciadv.aef5697