Möjligheter och begränsningar med att använda en stor språkmodell för att svara på patientmeddelanden
Upptäck effekten av stora språkmodeller på patientmeddelanden och lär dig hur Mass General Brigham förbättrar patientutbildningen. Resultat i Lancet Digital Health.

Möjligheter och begränsningar med att använda en stor språkmodell för att svara på patientmeddelanden
En ny studie från forskare vid Mass General Brigham visar att stora språkmodeller (LLM), en typ av generativ AI, kan hjälpa till att minska läkarbelastningen och förbättra patientutbildningen när de används för att komponera svar på patientmeddelanden. Studien fann också begränsningar för LLM:er som kan påverka patientsäkerheten, vilket tyder på att noggrann övervakning av kommunikation som genereras av LLM:er är avgörande för säker användning. Resultat publicerade iLancet Digital Healthbetona behovet av ett mätt tillvägagångssätt för implementering av LLM.
Ökande administrativa och dokumentationskrav har lett till en ökad utbrändhet hos läkare. För att effektivisera och automatisera läkares arbetsflöden har leverantörer av elektroniska journaler (EHR) antagit generativa AI-algoritmer för att hjälpa läkare att skriva meddelanden till patienter. Effekten, säkerheten och den kliniska effekten av deras användning var dock okända.
Generativ AI har potentialen att erbjuda det bästa av två världar, vilket minskar bördan för läkaren samtidigt som patienten utbildas bättre. Baserat på vårt teams erfarenhet av att arbeta med LLM:er har vi dock oro över de potentiella riskerna med att integrera LLM:er i meddelandesystem. När LLM-integration i EHR blir vanligare, var vårt mål i denna studie att identifiera relevanta fördelar och brister."
Danielle Bitterman, MD,Motsvarande författare,Fakultetsmedlem i Artificial Intelligence in Medicine (AIM)-programmet vid Mass General Brigham och en läkare vid avdelningen för strålningsonkologi vid Brigham and Women's Hospital
För studien använde forskarna OpenAI:s GPT-4, en grundläggande LLM, för att generera 100 scenarier om cancerpatienter och en tillhörande patientfråga. Studien använde inte frågor från faktiska patienter. Sex strålningsonkologer besvarade frågorna manuellt; GPT-4 genererade sedan svar på frågorna. Slutligen gavs de LLM-genererade svaren till samma strålningsonkologer för granskning och redigering. Strålningsonkologer visste inte om GPT-4 eller en människa hade skrivit svaren och antog i 31 % av fallen att ett LLM-genererat svar hade skrivits av en människa.
I genomsnitt var läkare-författade svar kortare än LLM-författade svar. GPT-4 tenderade att inkludera mer utbildning för patienter men var mindre vägledande i sina instruktioner. Läkare rapporterade att LLM-stöd förbättrade deras upplevda effektivitet och ansåg LLM-genererade svar säkra 82,1 procent av tiden och acceptabelt att skicka till en patient utan ytterligare bearbetning 58,3 procent av tiden. Forskarna noterade också några brister: Om de lämnas oadresserade kan 7,1 procent av LLM-genererade svar utgöra en risk för patienten och 0,6 procent av svaren kan utgöra en risk för dödsfall, mestadels på grund av att GPT-4-svaret misslyckades med att omedelbart informera patienten om att söka omedelbar läkarvård.
Observera att de LLM-genererade/läkarredigerade svaren var mer lika i längd och innehåll de LLM-genererade svaren än de manuella svaren. I många fall behöll läkare LLM-skapat utbildningsinnehåll, vilket tyder på att de fann det värdefullt. Även om detta skulle kunna främja patientutbildning, betonar forskarna att övertilltro till LLM också kan innebära risker på grund av deras bevisade brister.
Framväxten av AI-verktyg inom hälso- och sjukvården har potential att positivt förändra vårdens kontinuum, och det är absolut nödvändigt att balansera deras potential för innovation med ett engagemang för säkerhet och kvalitet. Mass General Brigham är ledande inom ansvarsfull användning av AI och bedriver djupgående forskning om nya och framväxande teknologier för att stödja införlivandet av AI i sjukvård, personalstöd och administrativa processer. Mass General Brigham leder för närvarande ett pilotprojekt för att integrera generativ AI i den elektroniska patientjournalen till författarens svar på patientportalmeddelanden och testar tekniken i ett antal polikliniska metoder i hälsosystemet.
Framöver kommer studieförfattarna att undersöka hur patienter uppfattar LLM-baserad kommunikation och hur patienters ras- och demografiska egenskaper påverkar LLM-genererade svar baserat på kända algoritmiska fördomar i LLM.
"Att hålla en människa informerad är ett viktigt säkerhetssteg när det gäller att använda AI i medicin, men det är inte en lösning som passar alla", sa Bitterman. "Eftersom leverantörer förlitar sig mer och mer på LLM, kan vi missa fel som kan leda till patientskada. Den här studien visar behovet av system för att övervaka kvaliteten på LLM, utbildning för kliniker för att på lämpligt sätt övervaka LLM-resultat och fler AI-färdigheter för patienter och kliniker." och, på en grundläggande nivå, en bättre förståelse för hur man hanterar de misstag som LLM gör.”
Källor:
Chen, S., et al. (2024) Effekten av att använda en stor språkmodell för att svara på patientmeddelanden.The Lancet Digital Health. doi.org/10.1016/S2589-7500(24)00060-8.