Mogelijkheden en beperkingen van het gebruik van een groot taalmodel om te reageren op berichten van patiënten
Ontdek de impact van grote taalmodellen op de berichtgeving aan patiënten en ontdek hoe Mass General Brigham de voorlichting aan patiënten verbetert. Resultaten in Lancet Digital Health.

Mogelijkheden en beperkingen van het gebruik van een groot taalmodel om te reageren op berichten van patiënten
Een nieuwe studie van onderzoekers van Mass General Brigham laat zien dat grote taalmodellen (LLM’s), een soort generatieve AI, de werkdruk van artsen kunnen helpen verminderen en de voorlichting aan patiënten kunnen verbeteren wanneer ze worden gebruikt om reacties op patiëntberichten samen te stellen. Uit het onderzoek zijn ook beperkingen gebleken voor LLM's die van invloed kunnen zijn op de veiligheid van de patiënt, wat erop wijst dat een zorgvuldige monitoring van de door LLM's gegenereerde communicatie essentieel is voor veilig gebruik. Resultaten gepubliceerd inLancet Digitale Gezondheidbenadrukken de noodzaak van een afgemeten benadering van de LLM-implementatie.
Toenemende administratieve en documentatievereisten hebben geleid tot een toename van het aantal burn-outs bij artsen. Om de workflows van artsen te stroomlijnen en te automatiseren, hebben leveranciers van elektronische medische dossiers (EPD) generatieve AI-algoritmen geïmplementeerd om artsen te helpen berichten voor patiënten op te stellen. De werkzaamheid, veiligheid en klinische impact van het gebruik ervan waren echter onbekend.
Generatieve AI heeft het potentieel om het beste van twee werelden te bieden, waardoor de last voor de arts wordt verminderd en de patiënt beter wordt voorgelicht. Op basis van de ervaring van ons team met het werken met LLM's maken we ons echter zorgen over de potentiële risico's die gepaard gaan met de integratie van LLM's in berichtensystemen. Naarmate LLM-integratie in EPD’s steeds gebruikelijker wordt, was ons doel in dit onderzoek om relevante voordelen en tekortkomingen te identificeren.”
Danielle Bitterman, MD,Corresponderende auteur,Faculteitlid van het Artificial Intelligence in Medicine (AIM)-programma bij Mass General Brigham en arts bij de afdeling Radiation Oncology van Brigham and Women's Hospital
Voor de studie gebruikten onderzoekers OpenAI's GPT-4, een basis-LLM, om 100 scenario's over kankerpatiënten en een bijbehorende patiëntvraag te genereren. In het onderzoek zijn geen vragen van echte patiënten gebruikt. Zes radiotherapeuten beantwoordden de vragen handmatig; GPT-4 genereerde vervolgens antwoorden op de vragen. Ten slotte werden de door de LLM gegenereerde antwoorden ter beoordeling en bewerking aan dezelfde radiotherapeuten verstrekt. De radiotherapeuten wisten niet of GPT-4 of een mens de antwoorden had geschreven en gingen er in 31% van de gevallen van uit dat een door de LLM gegenereerd antwoord door een mens was geschreven.
Gemiddeld waren de door artsen geschreven reacties korter dan door LLM geschreven reacties. GPT-4 had de neiging om meer voorlichting voor patiënten te omvatten, maar was minder directief in zijn instructies. Artsen meldden dat LLM-ondersteuning hun waargenomen efficiëntie verbeterde en beschouwden de door LLM gegenereerde antwoorden in 82,1 procent van de gevallen als veilig en in 58,3 procent van de gevallen acceptabel om naar een patiënt te sturen zonder verdere verwerking. De onderzoekers merkten ook enkele tekortkomingen op: als er niets aan wordt gedaan, zou 7,1 procent van de door de LLM gegenereerde reacties een risico voor de patiënt kunnen vormen en 0,6 procent van de reacties een risico op overlijden, vooral omdat de GPT-4-reactie er niet in slaagde de patiënt dringend te informeren om onmiddellijk medische hulp te zoeken.
Merk op dat de door de LLM gegenereerde/door de arts bewerkte antwoorden qua lengte en inhoud meer op de door de LLM gegenereerde antwoorden leken dan op de handmatige antwoorden. In veel gevallen behielden artsen door de LLM gemaakte educatieve inhoud, wat erop wijst dat zij deze waardevol vonden. Hoewel dit de voorlichting aan patiënten zou kunnen bevorderen, benadrukken de onderzoekers dat een te grote afhankelijkheid van LLM's ook risico's met zich mee kan brengen vanwege hun bewezen tekortkomingen.
De opkomst van AI-instrumenten in de gezondheidszorg heeft het potentieel om het zorgcontinuüm positief te transformeren, en het is absoluut noodzakelijk om hun innovatiepotentieel in evenwicht te brengen met een streven naar veiligheid en kwaliteit. Mass General Brigham is toonaangevend op het gebied van het verantwoord gebruik van AI en doet diepgaand onderzoek naar nieuwe en opkomende technologieën om de integratie van AI in de gezondheidszorg, personeelsondersteuning en administratieve processen te ondersteunen. Mass General Brigham leidt momenteel een proefproject om generatieve AI te integreren in het elektronische patiëntendossier om reacties op patiëntenportaalberichten te schrijven en test de technologie in een aantal poliklinische praktijken in het hele gezondheidszorgsysteem.
In de toekomst zullen de auteurs van het onderzoek onderzoeken hoe patiënten op LLM gebaseerde communicatie waarnemen en hoe de raciale en demografische kenmerken van patiënten de door LLM gegenereerde reacties beïnvloeden op basis van bekende algoritmische vooroordelen in LLM's.
“Het op de hoogte houden van een mens is een essentiële veiligheidsstap als het gaat om het gebruik van AI in de geneeskunde, maar het is geen one-size-fits-all oplossing”, aldus Bitterman. "Aangezien aanbieders steeds meer op LLM's vertrouwen, kunnen we fouten missen die tot schade voor de patiënt kunnen leiden. Deze studie toont de noodzaak aan van systemen om de kwaliteit van LLM's te monitoren, training voor artsen om LLM-resultaten op de juiste manier te monitoren, en meer AI-vaardigheden voor patiënten en artsen." en, op een fundamenteel niveau, een beter begrip van hoe om te gaan met de fouten die LLM’s maken.”
Bronnen:
Chen, S., et al. (2024) Het effect van het gebruik van een groot taalmodel om te reageren op berichten van patiënten.The Lancet Digitale Gezondheid. doi.org/10.1016/S2589-7500(24)00060-8.