Muligheter og begrensninger ved å bruke en stor språkmodell for å svare på pasientmeldinger

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Oppdag virkningen av store språkmodeller på pasientmeldinger og lær hvordan Mass General Brigham forbedrer pasientopplæringen. Resultater i Lancet Digital Health.

Entdecken Sie die Auswirkungen von großen Sprachmodellen auf Patientennachrichten und erfahren Sie, wie Mass General Brigham die Patientenaufklärung verbessert. Ergebnisse in Lancet Digital Health.
Oppdag virkningen av store språkmodeller på pasientmeldinger og lær hvordan Mass General Brigham forbedrer pasientopplæringen. Resultater i Lancet Digital Health.

Muligheter og begrensninger ved å bruke en stor språkmodell for å svare på pasientmeldinger

En ny studie fra forskere ved Mass General Brigham viser at store språkmodeller (LLM), en type generativ AI, kan bidra til å redusere legens arbeidsmengde og forbedre pasientopplæringen når de brukes til å skrive svar på pasientmeldinger. Studien fant også begrensninger for LLM-er som kan påvirke pasientsikkerheten, noe som tyder på at nøye overvåking av kommunikasjon generert av LLM-er er avgjørende for sikker bruk. Resultater publisert iLancet Digital Healthunderstreke behovet for en målt tilnærming til implementering av LLM.

Økende krav til administrasjon og dokumentasjon har ført til økt utbrenthet hos lege. For å strømlinjeforme og automatisere arbeidsflyter for lege, har leverandører av elektroniske helsejournaler (EPJ) tatt i bruk generative AI-algoritmer for å hjelpe leger med å skrive meldinger til pasienter. Effekten, sikkerheten og den kliniske effekten av bruken var imidlertid ukjent.

Generativ AI har potensialet til å tilby det beste fra begge verdener, redusere belastningen på klinikeren samtidig som pasienten utdannes bedre. Basert på teamets erfaring med å jobbe med LLM-er, har vi imidlertid bekymringer om de potensielle risikoene forbundet med å integrere LLM-er i meldingssystemer. Etter hvert som LLM-integrasjon i EPJ-er blir mer vanlig, var målet vårt i denne studien å identifisere relevante fordeler og mangler."

Danielle Bitterman, MD,Tilsvarende forfatter,Fakultetsmedlem i Artificial Intelligence in Medicine (AIM)-programmet ved Mass General Brigham og en lege ved avdelingen for strålingsonkologi ved Brigham and Women's Hospital

For studien brukte forskere OpenAIs GPT-4, en grunnleggende LLM, for å generere 100 scenarier om kreftpasienter og et tilhørende pasientspørsmål. Studien brukte ikke spørsmål fra faktiske pasienter. Seks stråleonkologer svarte manuelt på spørsmålene; GPT-4 genererte deretter svar på spørsmålene. Til slutt ble de LLM-genererte svarene gitt til de samme strålingsonkologene for gjennomgang og redigering. Stråleonkologene visste ikke om GPT-4 eller et menneske hadde skrevet svarene og antok i 31 % av tilfellene at et LLM-generert svar var skrevet av et menneske.

I gjennomsnitt var svarene fra legen kortere enn svarene fra LLM. GPT-4 hadde en tendens til å inkludere mer utdanning for pasienter, men var mindre retningsgivende i instruksjonene. Leger rapporterte at LLM-støtte forbedret deres opplevde effektivitet og anså LLM-genererte svar som trygge 82,1 prosent av tiden og akseptable å sende til en pasient uten ytterligere behandling 58,3 prosent av tiden. Forskerne bemerket også noen mangler: Hvis de ikke blir adressert, kan 7,1 prosent av LLM-genererte svar utgjøre en risiko for pasienten og 0,6 prosent av svarene kan utgjøre en risiko for død, mest fordi GPT-4-responsen ikke klarte å raskt informere pasienten om å søke øyeblikkelig legehjelp.

Merk at de LLM-genererte/legeredigerte svarene var mer like i lengde og innhold til de LLM-genererte svarene enn de manuelle svarene. I mange tilfeller beholdt leger LLM-skapt pedagogisk innhold, noe som tyder på at de fant det verdifullt. Selv om dette kan fremme pasientopplæring, understreker forskerne at overavhengighet av LLM-er også kan utgjøre en risiko på grunn av deres påviste mangler.

Fremveksten av AI-verktøy i helsevesenet har potensial til å transformere kontinuumet av omsorg positivt, og det er viktig å balansere deres potensial for innovasjon med en forpliktelse til sikkerhet og kvalitet. Mass General Brigham er ledende innen ansvarlig bruk av AI og utfører dyptgående forskning på nye og fremvoksende teknologier for å støtte inkorporeringen av AI i levering av helsetjenester, arbeidsstyrkestøtte og administrative prosesser. Mass General Brigham leder for tiden et pilotprosjekt for å integrere generativ AI i den elektroniske helsejournalen til forfattersvar på pasientportalmeldinger og tester teknologien i en rekke polikliniske praksiser på tvers av helsesystemet.

Fremover vil studieforfatterne undersøke hvordan pasienter oppfatter LLM-basert kommunikasjon og hvordan pasienters rasemessige og demografiske egenskaper påvirker LLM-genererte svar basert på kjente algoritmiske skjevheter i LLM.

"Å holde et menneske informert er et viktig sikkerhetstrinn når det gjelder bruk av kunstig intelligens i medisin, men det er ikke en løsning som passer alle," sa Bitterman. "Ettersom leverandører stoler mer og mer på LLM-er, kan vi gå glipp av feil som kan føre til pasientskade. Denne studien viser behovet for systemer for å overvåke kvaliteten på LLM-er, opplæring av klinikere for å overvåke LLM-resultater på riktig måte, og flere AI-ferdigheter for pasienter og klinikere." og, på et grunnleggende nivå, en bedre forståelse av hvordan man skal håndtere feilene som LLM-er gjør.»


Kilder:

Journal reference:

Chen, S., et al. (2024) Effekten av å bruke en stor språkmodell for å svare på pasientmeldinger.The Lancet Digital Health. doi.org/10.1016/S2589-7500(24)00060-8.