Muligheder og begrænsninger ved at bruge en stor sprogmodel til at reagere på patientbeskeder

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Oplev virkningen af ​​store sprogmodeller på patientmeddelelser, og lær hvordan Mass General Brigham forbedrer patientuddannelsen. Resultater i Lancet Digital Health.

Entdecken Sie die Auswirkungen von großen Sprachmodellen auf Patientennachrichten und erfahren Sie, wie Mass General Brigham die Patientenaufklärung verbessert. Ergebnisse in Lancet Digital Health.
Oplev virkningen af ​​store sprogmodeller på patientmeddelelser, og lær hvordan Mass General Brigham forbedrer patientuddannelsen. Resultater i Lancet Digital Health.

Muligheder og begrænsninger ved at bruge en stor sprogmodel til at reagere på patientbeskeder

En ny undersøgelse fra forskere ved Mass General Brigham viser, at store sprogmodeller (LLM'er), en type generativ AI, kan hjælpe med at reducere lægens arbejdsbyrde og forbedre patientuddannelsen, når de bruges til at komponere svar på patientbeskeder. Undersøgelsen fandt også begrænsninger for LLM'er, der kan påvirke patientsikkerheden, hvilket tyder på, at omhyggelig overvågning af kommunikation genereret af LLM'er er afgørende for sikker brug. Resultater offentliggjort iLancet Digital Healthunderstrege behovet for en afmålt tilgang til implementering af LLM.

Stigende administrative krav og dokumentationskrav har ført til en stigning i udbrændthed hos læger. For at strømline og automatisere lægers arbejdsgange har leverandører af elektroniske sundhedsjournaler (EPJ) vedtaget generative AI-algoritmer for at hjælpe læger med at skrive beskeder til patienter. Effekten, sikkerheden og den kliniske virkning af deres anvendelse var imidlertid ukendt.

Generativ kunstig intelligens har potentialet til at tilbyde det bedste fra begge verdener, hvilket reducerer byrden på klinikeren og uddanner patienten bedre. Men baseret på vores teams erfaring med at arbejde med LLM'er, har vi bekymringer over de potentielle risici forbundet med at integrere LLM'er i meddelelsessystemer. Efterhånden som LLM-integration i EPJ'er bliver mere almindelig, var vores mål i denne undersøgelse at identificere relevante fordele og mangler."

Danielle Bitterman, MD,Tilsvarende forfatter,Fakultetsmedlem i Artificial Intelligence in Medicine (AIM)-programmet ved Mass General Brigham og en læge i afdelingen for strålingsonkologi på Brigham and Women's Hospital

Til undersøgelsen brugte forskere OpenAI's GPT-4, en grundlæggende LLM, til at generere 100 scenarier om kræftpatienter og et ledsagende patientspørgsmål. Undersøgelsen brugte ikke spørgsmål fra faktiske patienter. Seks stråleonkologer besvarede spørgsmålene manuelt; GPT-4 genererede derefter svar på spørgsmålene. Endelig blev de LLM-genererede svar givet til de samme strålingsonkologer til gennemgang og redigering. Strålingsonkologer vidste ikke, om GPT-4 eller et menneske havde skrevet svarene og antog i 31 % af tilfældene, at et LLM-genereret svar var skrevet af et menneske.

I gennemsnit var lægeforfattede svar kortere end LLM-forfattede svar. GPT-4 havde en tendens til at inkludere mere uddannelse til patienter, men var mindre retningsgivende i sine instruktioner. Læger rapporterede, at LLM-støtte forbedrede deres opfattede effektivitet og anså LLM-genererede svar for sikre 82,1 procent af tiden og acceptable at sende til en patient uden yderligere behandling 58,3 procent af tiden. Forskerne bemærkede også nogle mangler: Hvis de ikke behandles, kunne 7,1 procent af LLM-genererede svar udgøre en risiko for patienten, og 0,6 procent af svarene kunne udgøre en risiko for død, hovedsagelig fordi GPT-4-responset ikke omgående informerede patienten om at søge øjeblikkelig lægehjælp.

Det skal bemærkes, at de LLM-genererede/lægeredigerede svar var mere ens i længde og indhold til de LLM-genererede svar end til de manuelle svar. I mange tilfælde beholdt læger undervisningsindhold skabt af LLM, hvilket tyder på, at de fandt det værdifuldt. Selvom dette kunne fremme patientuddannelse, understreger forskerne, at overdreven afhængighed af LLM'er også kan udgøre risici på grund af deres påviste mangler.

Fremkomsten af ​​AI-værktøjer i sundhedsvæsenet har potentialet til positivt at transformere kontinuummet af pleje, og det er bydende nødvendigt at balancere deres potentiale for innovation med en forpligtelse til sikkerhed og kvalitet. Mass General Brigham er førende inden for ansvarlig brug af AI og udfører dybdegående forskning i nye og nye teknologier for at understøtte inkorporeringen af ​​AI i levering af sundhedsydelser, arbejdsstyrkestøtte og administrative processer. Mass General Brigham leder i øjeblikket et pilotprojekt for at integrere generativ AI i den elektroniske patientjournal til forfatternes svar på patientportalmeddelelser og tester teknologien i en række ambulante praksisser på tværs af sundhedssystemet.

Fremover vil studieforfatterne undersøge, hvordan patienter opfatter LLM-baseret kommunikation, og hvordan patienters racemæssige og demografiske karakteristika påvirker LLM-genererede svar baseret på kendte algoritmiske skævheder i LLM'er.

"At holde et menneske informeret er et vigtigt sikkerhedstrin, når det kommer til at bruge kunstig intelligens i medicin, men det er ikke en ensartet løsning," sagde Bitterman. "Efterhånden som udbydere stoler mere og mere på LLM'er, kan vi gå glip af fejl, der kan resultere i patientskade. Denne undersøgelse viser behovet for systemer til at overvåge kvaliteten af ​​LLM'er, træning af klinikere til passende at overvåge LLM-resultater og flere AI-færdigheder for patienter og klinikere." og på et grundlæggende niveau en bedre forståelse af, hvordan man håndterer de fejl, som LLM'er begår."


Kilder:

Journal reference:

Chen, S., et al. (2024) Effekten af ​​at bruge en stor sprogmodel til at reagere på patientbeskeder.The Lancet Digital Health. doi.org/10.1016/S2589-7500(24)00060-8.