KI in der Medizin: Revolutionäre Werkzeuge, ungewisse Ergebnisse

Kann KI das Gesundheitswesen wirklich revolutionieren? Eine systematische Überprüfung deckt die verborgenen Lücken im Patientennutzen und die Hindernisse für eine sinnvolle klinische Integration auf.
In einer aktuellen Studie veröffentlicht in The Lancet Regional Health – Europabewertete eine Gruppe von Forschern den Nutzen und Schaden von auf künstlicher Intelligenz (KI) basierenden algorithmischen Entscheidungsfindungssystemen (ADM), die von medizinischem Fachpersonal im Vergleich zur Standardversorgung eingesetzt werden, und konzentrierte sich dabei auf patientenrelevante Ergebnisse.
Hintergrund
Fortschritte in der KI haben es Systemen ermöglicht, medizinische Experten bei Aufgaben wie Diagnose, personalisierter Medizin, Patientenüberwachung und Arzneimittelentwicklung zu übertreffen. Trotz dieser Fortschritte bleibt unklar, ob eine verbesserte diagnostische Genauigkeit und Leistungskennzahlen zu konkreten Vorteilen für den Patienten führen, wie etwa einer geringeren Mortalität oder Morbidität.
In der aktuellen Forschung wird der analytischen Leistung oft Vorrang vor den klinischen Ergebnissen eingeräumt, und viele KI-basierte medizinische Geräte werden ohne entsprechende Beweise aus randomisierten kontrollierten Studien (RCTs) zugelassen.
Darüber hinaus wirft der Mangel an Transparenz und standardisierten Bewertungen der mit diesen Technologien verbundenen Schäden ethische und praktische Bedenken auf. Dies verdeutlicht eine kritische Lücke in der KI-Forschung und -Entwicklung, die weitere Bewertungen mit Schwerpunkt auf patientenrelevanten Ergebnissen erforderlich macht, um eine sinnvolle und sichere Integration in die Gesundheitsversorgung zu gewährleisten.
Über die Studie
Begrenzte externe Validierung: Die meisten evaluierten KI-Systeme wurden auf der Grundlage interner Daten entwickelt, wobei nur wenige Studien über eine externe Validierung berichteten, was Bedenken hinsichtlich ihrer Generalisierbarkeit auf verschiedene Patientenpopulationen aufkommen lässt.
Diese systematische Überprüfung folgte den Richtlinien „Preferred Reporting Items for Systematic Reviews and Meta-Analyses“ (PRISMA), um methodische Genauigkeit zu gewährleisten. Die Recherchen wurden im Medical Literature Analysis and Retrieval System Online (MEDLINE), in der Excerpta Medica Database (EMBASE), im Public/Publisher MEDLINE (PubMed) und im Institute of Electrical and Electronics Engineers (IEEE) Xplore durchgeführt und deckten einen Zeitraum von 10 Jahren ab bis zum 27. März 2024, als KI-bezogene ADM-Systeme in Gesundheitsstudien relevant wurden. Die Suche umfasste Begriffe im Zusammenhang mit KI, maschinellem Lernen (ML), Entscheidungsalgorithmen, medizinischem Fachpersonal und Patientenergebnissen.
Zu den förderfähigen Studien gehörten Interventions- oder Beobachtungsdesigns mit KI-Entscheidungsunterstützungssystemen, die mit ML entwickelt wurden oder diese nutzen. Studien mussten patientenrelevante Ergebnisse wie Mortalität, Morbidität, Krankenhausaufenthaltsdauer, Wiederaufnahme oder gesundheitsbezogene Lebensqualität melden. Zu den Ausschlusskriterien gehörten Studien ohne Vorregistrierung, ohne eine Standardkontrolle der Pflege oder mit Schwerpunkt auf Robotik oder anderen Systemen, die nichts mit KI-basierter Entscheidungsfindung zu tun haben. Das Protokoll für diese Überprüfung wurde im International Prospective Register of Systematic Reviews (PROSPERO) vorregistriert und alle Änderungen dokumentiert.
Die Gutachter überprüften Titel, Abstracts und Volltexte anhand vordefinierter Kriterien. Die Datenextraktion und Qualitätsbewertung erfolgte unabhängig voneinander anhand standardisierter Formulare. Das Risiko einer Verzerrung wurde mit dem Cochrane-Tool „Risk of Bias 2“ (RoB 2) und dem Tool „Risk of Bias in Non-Randomized Studies of Interventions“ (ROBINS-I) bewertet, um potenzielle Störfaktoren zu berücksichtigen, während die Transparenz der Berichterstattung anhand der konsolidierten Standards bewertet wurde Erweiterung von Reporting Trials – Künstliche Intelligenz (CONSORT-AI) und der transparenten Berichterstattung eines multivariablen Vorhersagemodells für individuelle Prognosen oder Diagnosen – künstlich Intelligence (TRIPOD-AI)-Framework.
Zu den extrahierten Daten gehörten Studieneinstellungen, Design, Interventions- und Vergleichsdetails, Patienten- und Berufsdemografie, Algorithmusmerkmale und Ergebnismaße. Die Studien wurden auch nach KI-Systemtyp, klinischem Bereich, Vorhersagezielen sowie regulatorischen und Finanzierungsinformationen klassifiziert. Die Analyse untersuchte auch, ob die einzigartigen Beiträge von KI-Systemen zu den Ergebnissen isoliert und validiert wurden.
Studienergebnisse
Unterrepräsentierte Fachgebiete: Während Psychiatrie- und Onkologiestudien gut vertreten waren, bleiben andere Fachgebiete wie Intensivmedizin und Pulmonologie unterrepräsentiert, was möglicherweise die breitere Anwendbarkeit der Ergebnisse verzerrt.
Die systematische Überprüfung umfasste 19 Studien, darunter 18 RCTs und eine prospektive Kohortenstudie, die nach Durchsicht von 3.000 Datensätzen ausgewählt wurden. Diese Studien wurden in verschiedenen Regionen durchgeführt, davon neun in den Vereinigten Staaten, vier in Europa, drei in China und weitere weltweit verteilt. Zu den Settings gehörten 14 Studien im Krankenhaus, drei in Ambulanzen, eine in einem Pflegeheim und eine in einer gemischten Umgebung.
Die Studien deckten eine Reihe medizinischer Fachgebiete ab, darunter Onkologie (4 Studien), Psychiatrie (3 Studien), Innere Krankenhausmedizin, Neurologie und Anästhesiologie (jeweils 2 Studien) sowie einzelne Studien in Diabetologie, Pulmonologie, Intensivpflege und anderen Fachgebieten .
Die mittlere Teilnehmerzahl aller Studien betrug 243, mit einem Durchschnittsalter von 59,3 Jahren. Der Frauenanteil betrug durchschnittlich 50,5 %, und in 10 Studien wurde über die rassische oder ethnische Zusammensetzung berichtet, mit einem Median von 71,4 % weißen Teilnehmern. Zwölf Studien beschrieben die vorgesehenen medizinischen Fachkräfte, wie z. B. Pflegekräfte oder Erstversorger, und neun detaillierte Schulungsprotokolle, die von kurzen Einführungen in die Plattform bis hin zu mehrtägigen beaufsichtigten Sitzungen reichten.
KI-Systeme unterschieden sich in Art und Funktion. In sieben Studien wurden Überwachungssysteme zur Echtzeitüberwachung und prädiktiven Warnungen eingesetzt, in sechs wurden Behandlungspersonalisierungssysteme eingesetzt und in vier Studien wurden mehrere Funktionen integriert. Beispiele hierfür waren Algorithmen zur Blutzuckerkontrolle bei Diabetes, zur personalisierten psychiatrischen Versorgung und zur Überwachung venöser Thromboembolien. Die Entwicklungsdatenquellen reichten von großen internen Datensätzen bis hin zu gepoolten multiinstitutionellen Daten, wobei verschiedene ML-Modelle angewendet wurden, wie etwa Gradient Boosting, neuronale Netze, Bayes’sche Klassifikatoren und regressionsbasierte Modelle. Trotz dieser Entwicklungen war die externe Validierung von Algorithmen in den meisten Studien begrenzt, was Bedenken hinsichtlich ihrer Generalisierbarkeit auf breitere Patientenpopulationen aufkommen ließ.
Das Risiko einer Verzerrung wurde in vier RCTs als niedrig, in sieben als moderat und in weiteren sieben als hoch eingeschätzt, während die Kohortenstudie ein ernstes Risiko einer Verzerrung aufwies. Die Einhaltung der CONSORT-AI- und TRIPOD-AI-Richtlinien war unterschiedlich, wobei drei Studien eine vollständige Einhaltung erreichten, während andere eine hohe bis niedrige Compliance aufwiesen. Die meisten Studien, die vor der Einführung dieser Leitlinien durchgeführt wurden, zeigten eine mäßige Einhaltung, obwohl explizite Verweise auf die Leitlinien selten waren.
Die Ergebnisse zeigten eine Mischung aus Nutzen und Schaden. Zwölf Studien berichteten über patientenrelevante Vorteile, darunter eine Verringerung der Sterblichkeit, eine verbesserte Depressions- und Schmerzbehandlung sowie eine verbesserte Lebensqualität. Allerdings umfassten nur acht Studien standardisierte Schadensbewertungen und die meisten von ihnen versäumten es, unerwünschte Ereignisse umfassend zu dokumentieren. Obwohl sechs KI-Systeme behördliche Zulassungen erhielten, blieben die Zusammenhänge zwischen behördlichem Status, Studienqualität und Patientenergebnissen unklar.
Schlussfolgerungen
Diese systematische Überprüfung unterstreicht den Mangel an qualitativ hochwertigen Studien zur Bewertung patientenrelevanter Ergebnisse von KI-bezogenen ADM-Systemen im Gesundheitswesen. Während sich in der Psychiatrie durchweg Vorteile zeigten, lieferten andere Bereiche gemischte Ergebnisse mit begrenzten Belegen für Verbesserungen bei Mortalität, Angstzuständen und Krankenhausaufenthalten. Den meisten Studien mangelte es an ausgewogenen Schaden-Nutzen-Bewertungen und es gelang ihnen nicht, die einzigartigen Beiträge der KI zu isolieren.
Die Ergebnisse unterstreichen den dringenden Bedarf an transparenter Berichterstattung, robusten Validierungspraktiken und standardisierten Rahmenwerken, um die sichere und effektive Integration von KI in klinische Umgebungen zu steuern.
Quellen: