Possibilités et limites de l'utilisation d'un grand modèle de langage pour répondre aux messages des patients
Découvrez l'impact des grands modèles de langage sur la messagerie des patients et découvrez comment Mass General Brigham améliore l'éducation des patients. Résultats dans Lancet Digital Health.

Possibilités et limites de l'utilisation d'un grand modèle de langage pour répondre aux messages des patients
Une nouvelle étude menée par des chercheurs du Mass General Brigham montre que les grands modèles linguistiques (LLM), un type d'IA générative, peuvent aider à réduire la charge de travail des médecins et à améliorer l'éducation des patients lorsqu'ils sont utilisés pour composer des réponses aux messages des patients. L'étude a également révélé des limites aux LLM qui peuvent avoir un impact sur la sécurité des patients, ce qui suggère qu'une surveillance attentive des communications générées par les LLM est essentielle pour une utilisation sûre. Résultats publiés dansLancet Santé numériquesouligner la nécessité d’une approche mesurée de la mise en œuvre du LLM.
Les exigences croissantes en matière d'administration et de documentation ont entraîné une augmentation de l'épuisement professionnel des médecins. Pour rationaliser et automatiser les flux de travail des médecins, les fournisseurs de dossiers de santé électroniques (DSE) ont adopté des algorithmes d'IA générative pour aider les médecins à rédiger des messages destinés aux patients. Cependant, l’efficacité, la sécurité et l’impact clinique de leur utilisation étaient inconnus.
L’IA générative a le potentiel d’offrir le meilleur des deux mondes, en réduisant le fardeau du clinicien tout en mieux éduquant le patient. Cependant, sur la base de l'expérience de notre équipe travaillant avec les LLM, nous sommes préoccupés par les risques potentiels associés à l'intégration des LLM dans les systèmes de messagerie. À mesure que l’intégration du LLM dans les DSE devient plus courante, notre objectif dans cette étude était d’identifier les avantages et les inconvénients pertinents.
Danielle Bitterman, MD,Auteur correspondant,Membre du corps professoral du programme d'intelligence artificielle en médecine (AIM) du Mass General Brigham et médecin du département de radio-oncologie du Brigham and Women's Hospital
Pour l'étude, les chercheurs ont utilisé le GPT-4 d'OpenAI, un LLM de base, pour générer 100 scénarios sur les patients atteints de cancer et une question correspondante pour les patients. L’étude n’a pas utilisé de questions posées par de vrais patients. Six radio-oncologues ont répondu manuellement aux questions ; GPT-4 a ensuite généré des réponses aux questions. Enfin, les réponses générées par LLM ont été fournies aux mêmes radio-oncologues pour examen et édition. Les radio-oncologues ne savaient pas si GPT-4 ou un humain avait écrit les réponses et dans 31 % des cas ont supposé qu'une réponse générée par LLM avait été écrite par un humain.
En moyenne, les réponses rédigées par les médecins étaient plus courtes que les réponses rédigées par LLM. GPT-4 avait tendance à inclure davantage d’éducation pour les patients mais était moins directif dans ses instructions. Les médecins ont rapporté que le support LLM a amélioré leur efficacité perçue et ont considéré les réponses générées par LLM comme étant sûres dans 82,1 % des cas et acceptables pour être envoyées à un patient sans traitement supplémentaire dans 58,3 % des cas. Les chercheurs ont également noté certaines lacunes : si elles ne sont pas corrigées, 7,1 % des réponses générées par le LLM pourraient présenter un risque pour le patient et 0,6 % des réponses pourraient présenter un risque de décès, principalement parce que la réponse GPT-4 n’a pas informé de toute urgence le patient de consulter immédiatement un médecin.
Il convient de noter que les réponses générées par LLM/éditées par les médecins étaient plus similaires en termes de longueur et de contenu aux réponses générées par LLM qu'aux réponses manuelles. Dans de nombreux cas, les médecins ont conservé le contenu éducatif créé par le LLM, ce qui suggère qu'ils l'ont trouvé utile. Bien que cela puisse favoriser l’éducation des patients, les chercheurs soulignent qu’une dépendance excessive à l’égard des LLM peut également présenter des risques en raison de leurs lacunes avérées.
L’émergence des outils d’IA dans le domaine des soins de santé a le potentiel de transformer positivement le continuum de soins, et il est impératif d’équilibrer leur potentiel d’innovation avec un engagement en faveur de la sécurité et de la qualité. Mass General Brigham est un leader dans l'utilisation responsable de l'IA et mène des recherches approfondies sur les technologies nouvelles et émergentes pour soutenir l'intégration de l'IA dans la prestation de soins de santé, le soutien de la main-d'œuvre et les processus administratifs. Le général de masse Brigham dirige actuellement un projet pilote visant à intégrer l'IA générative dans le dossier de santé électronique afin de rédiger des réponses aux messages du portail des patients et teste la technologie dans un certain nombre de pratiques ambulatoires du système de santé.
À l'avenir, les auteurs de l'étude examineront comment les patients perçoivent la communication basée sur le LLM et comment les caractéristiques raciales et démographiques des patients influencent les réponses générées par le LLM sur la base de biais algorithmiques connus dans les LLM.
« Tenir un humain informé est une étape de sécurité essentielle lorsqu’il s’agit d’utiliser l’IA en médecine, mais ce n’est pas une solution universelle », a déclaré Bitterman. « À mesure que les prestataires s'appuient de plus en plus sur les LLM, nous risquons de manquer des erreurs susceptibles d'entraîner un préjudice pour les patients. Cette étude montre la nécessité de systèmes pour surveiller la qualité des LLM, d'une formation des cliniciens pour surveiller de manière appropriée les résultats des LLM et de davantage de compétences en IA pour les patients et les cliniciens. et, à un niveau fondamental, une meilleure compréhension de la façon de gérer les erreurs commises par les LLM.
Sources :
Chen, S., et coll. (2024) L'effet de l'utilisation d'un grand modèle de langage pour répondre aux messages des patients.La santé numérique du Lancet. doi.org/10.1016/S2589-7500(24)00060-8.