Technologie

Möglichkeiten und Grenzen der Verwendung eines großen Sprachmodells zur Beantwortung von Patientennachrichten

Die dunkle Seite der KI: Risiken und Sicherheit bei der Verwendung von großen Sprachmodellen in der Patientenkommunikation

Eine neue Studie von Forschern von Mass General Brigham zeigt, dass große Sprachmodelle (LLMs), eine Art generative KI, dazu beitragen können, die Arbeitsbelastung des Arztes zu verringern und die Patientenaufklärung zu verbessern, wenn sie zum Verfassen von Antworten auf Patientennachrichten verwendet werden. Die Studie ergab auch Einschränkungen bei LLMs, die sich auf die Patientensicherheit auswirken können, was darauf hindeutet, dass eine sorgfältige Überwachung der von LLMs generierten Kommunikation für eine sichere Nutzung unerlässlich ist. Ergebnisse, veröffentlicht in Lancet Digital Healthbetonen die Notwendigkeit eines maßvollen Ansatzes zur LLM-Implementierung.

Zunehmende Verwaltungs- und Dokumentationspflichten haben zu einem Anstieg des Burnouts bei Ärzten geführt. Um die Arbeitsabläufe von Ärzten zu rationalisieren und zu automatisieren, haben Anbieter elektronischer Gesundheitsakten (EHR) generative KI-Algorithmen eingeführt, um Ärzte beim Verfassen von Nachrichten an Patienten zu unterstützen. Die Effizienz, Sicherheit und klinischen Auswirkungen ihrer Verwendung waren jedoch unbekannt.

Generative KI hat das Potenzial, das Beste aus beiden Welten zu bieten, indem sie die Belastung für den Kliniker verringert und den Patienten dabei besser aufklärt. Aufgrund der Erfahrung unseres Teams bei der Arbeit mit LLMs haben wir jedoch Bedenken hinsichtlich der potenziellen Risiken, die mit der Integration von LLMs in Messaging-Systeme verbunden sind. Da die LLM-Integration in EHRs immer häufiger vorkommt, war es unser Ziel in dieser Studie, relevante Vorteile und Mängel zu identifizieren.“

Danielle Bitterman, MD, Korrespondierender Autor, Fakultätsmitglied im Programm Künstliche Intelligenz in der Medizin (AIM) am Mass General Brigham und Arzt in der Abteilung für Radioonkologie am Brigham and Women’s Hospital

Für die Studie verwendeten die Forscher GPT-4 von OpenAI, ein grundlegendes LLM, um 100 Szenarien über Krebspatienten und eine begleitende Patientenfrage zu generieren. Für die Studie wurden keine Fragen von tatsächlichen Patienten verwendet. Sechs Radioonkologen beantworteten die Fragen manuell; Anschließend generierte GPT-4 Antworten auf die Fragen. Schließlich wurden denselben Radioonkologen die von LLM generierten Antworten zur Überprüfung und Bearbeitung zur Verfügung gestellt. Die Radioonkologen wussten nicht, ob GPT-4 oder ein Mensch die Antworten geschrieben hatte, und gingen in 31 % der Fälle davon aus, dass eine LLM-generierte Antwort von einem Menschen geschrieben worden war.

Im Durchschnitt waren die vom Arzt verfassten Antworten kürzer als die vom LLM erstellten Antworten. GPT-4 beinhaltete tendenziell mehr Aufklärung für Patienten, war jedoch in seinen Anweisungen weniger direktiv. Die Ärzte berichteten, dass die LLM-Unterstützung ihre wahrgenommene Effizienz verbesserte und hielten die von LLM generierten Antworten in 82,1 Prozent der Fälle für sicher und in 58,3 Prozent der Fälle für akzeptabel, sie an einen Patienten ohne weitere Bearbeitung zu senden. Die Forscher stellten auch einige Mängel fest: Wenn sie unbearbeitet blieben, könnten 7,1 Prozent der LLM-generierten Antworten ein Risiko für den Patienten darstellen und 0,6 Prozent der Antworten könnten ein Todesrisiko darstellen, meist weil die GPT-4-Antwort es versäumte, den Patienten dringend zu informieren sofort ärztliche Hilfe in Anspruch zu nehmen.

Bemerkenswert ist, dass die von LLM generierten/vom Arzt bearbeiteten Antworten in Länge und Inhalt den von LLM generierten Antworten ähnlicher waren als den manuellen Antworten. In vielen Fällen behielten Ärzte LLM-erstellte Bildungsinhalte bei, was darauf hindeutet, dass sie diese als wertvoll empfanden. Während dies die Patientenaufklärung fördern könnte, betonen die Forscher, dass eine übermäßige Abhängigkeit von LLMs aufgrund ihrer nachgewiesenen Mängel auch Risiken bergen kann.

Das Aufkommen von KI-Instrumenten im Gesundheitswesen hat das Potenzial, das Kontinuum der Pflege positiv zu verändern, und es ist unbedingt erforderlich, ihr Innovationspotenzial mit einem Engagement für Sicherheit und Qualität in Einklang zu bringen. Mass General Brigham ist führend im verantwortungsvollen Einsatz von KI und führt gründliche Forschung zu neuen und aufkommenden Technologien durch, um die Einbindung von KI in die Gesundheitsversorgung, die Personalunterstützung und Verwaltungsprozesse zu unterstützen. Mass General Brigham leitet derzeit ein Pilotprojekt, bei dem generative KI in die elektronische Gesundheitsakte integriert wird, um Antworten auf Patientenportalnachrichten zu verfassen, und testet die Technologie in einer Reihe ambulanter Praxen im gesamten Gesundheitssystem.

Zukünftig untersuchen die Autoren der Studie, wie Patienten LLM-basierte Kommunikation wahrnehmen und wie die rassischen und demografischen Merkmale der Patienten LLM-generierte Antworten beeinflussen, basierend auf bekannten algorithmischen Verzerrungen in LLMs.

„Einen Menschen auf dem Laufenden zu halten, ist ein wesentlicher Sicherheitsschritt, wenn es um den Einsatz von KI in der Medizin geht, aber es ist keine Einzellösung“, sagte Bitterman. „Da sich Anbieter immer mehr auf LLMs verlassen, könnten uns Fehler entgehen, die zu einer Schädigung des Patienten führen könnten. Diese Studie zeigt, dass Systeme zur Überwachung der Qualität von LLMs, Schulungen für Kliniker zur angemessenen Überwachung der LLM-Ergebnisse und mehr KI-Kenntnisse für Patienten und Kliniker erforderlich sind.“ und auf einer grundlegenden Ebene ein besseres Verständnis dafür, wie man mit den Fehlern umgeht, die LLMs machen.“


Quellen:

Journal reference:

Chen, S., et al. (2024) The effect of using a large language model to respond to patient messages. The Lancet Digital Health. doi.org/10.1016/S2589-7500(24)00060-8.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert