Les modèles d’IA peinent dans les conversations médicales réelles

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Les outils d'intelligence artificielle comme ChatGPT sont vantés pour leur promesse de réduire la charge de travail des cliniciens en triant les patients, en collectant les antécédents médicaux et même en établissant des diagnostics préliminaires. Ces outils, appelés modèles en grand langage, sont déjà utilisés par les patients pour comprendre leurs symptômes et les résultats de leurs tests médicaux. Mais si ces modèles d’IA fonctionnent de manière impressionnante lors de tests médicaux standardisés, dans quelle mesure fonctionnent-ils dans des situations qui imitent plus fidèlement le monde réel ? Pas si génial, selon les résultats d’une nouvelle étude menée par des chercheurs de la Harvard Medical School et de l’Université de Stanford. Pour leur analyse, publiée le 2 janvier...

Les modèles d’IA peinent dans les conversations médicales réelles

Les outils d'intelligence artificielle comme ChatGPT sont vantés pour leur promesse de réduire la charge de travail des cliniciens en triant les patients, en collectant les antécédents médicaux et même en établissant des diagnostics préliminaires.

Ces outils, appelés modèles en grand langage, sont déjà utilisés par les patients pour comprendre leurs symptômes et les résultats de leurs tests médicaux.

Mais si ces modèles d’IA fonctionnent de manière impressionnante lors de tests médicaux standardisés, dans quelle mesure fonctionnent-ils dans des situations qui imitent plus fidèlement le monde réel ?

Pas si génial, selon les résultats d’une nouvelle étude menée par des chercheurs de la Harvard Medical School et de l’Université de Stanford.

Pour leur analyse, publiée le 2 janvier dansMédecine naturelleles chercheurs ont conçu un cadre d'évaluation - ; ou un test - ; appelé CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) et l'a déployé sur quatre modèles en grand langage pour voir dans quelle mesure ils fonctionnaient dans des environnements qui imitent fidèlement les interactions réelles avec les patients.

Les quatre modèles en langage large ont obtenu de bons résultats aux questions de type examen médical, mais leurs performances se sont détériorées lorsqu'ils ont été impliqués dans des conversations imitant davantage les interactions du monde réel.

Cette lacune, selon les chercheurs, souligne un double besoin : premièrement, créer des évaluations plus réalistes qui évaluent mieux l’adéquation des modèles cliniques d’IA à une utilisation dans le monde réel, et deuxièmement, améliorer la capacité de ces outils à diagnostiquer sur la base d’interactions plus réalistes avant qu’ils ne soient utilisés en clinique.

Selon l'équipe de recherche, des outils d'évaluation tels que CRAFT-MD peuvent non seulement évaluer plus précisément les modèles d'IA en fonction de leur condition physique dans le monde réel, mais pourraient également aider à optimiser leurs performances en clinique.

Notre travail révèle un paradoxe frappant : si ces modèles d'IA excellent lors des examens médicaux, ils ont du mal à comprendre les tenants et aboutissants de base d'une visite chez le médecin. La dynamique des conversations médicales – la nécessité de poser les bonnes questions au bon moment, de rassembler des informations éparses et de raisonner en fonction des symptômes – présente des défis uniques qui vont bien au-delà de répondre à des questions à choix multiples. À mesure que nous passons des tests standardisés à ces conversations naturelles, même les modèles d’IA les plus sophistiqués montrent des baisses significatives de la précision du diagnostic.

Pranav Rajpurkar, auteur principal de l'étude, professeur adjoint d'informatique biomédicale à la Harvard Medical School

Un meilleur test pour vérifier les performances de l'IA en pratique

Actuellement, les développeurs testent les performances des modèles d’IA en leur demandant de répondre à des questions médicales à choix multiples, généralement dérivées de l’examen national des étudiants en médecine ou de tests que les résidents passent dans le cadre de leur certification.

"Cette approche suppose que toutes les informations pertinentes sont présentées de manière claire et succincte, en utilisant souvent une terminologie médicale ou des mots à la mode qui simplifient le processus de diagnostic, mais dans le monde réel, ce processus est beaucoup plus compliqué", a déclaré Shreya Johri, co-premier auteur de l'étude et doctorante au Rajpurkar Lab de la Harvard Medical School. "Nous avons besoin d'un cadre de test qui reflète mieux la réalité et qui peut donc mieux prédire dans quelle mesure un modèle fonctionnerait."

CRAFT-MD a été développé comme un appareil de mesure plus réaliste.

Pour simuler des interactions réelles, CRAFT-MD évalue dans quelle mesure les modèles en langage large peuvent recueillir des informations sur les symptômes, les médicaments et les antécédents familiaux, puis établir un diagnostic. Un agent IA se fait passer pour un patient et répond aux questions dans un style conversationnel et naturel. Un autre agent d’IA évalue l’exactitude du diagnostic final fourni par le modèle en grand langage. Les experts humains évaluent ensuite les résultats de chaque rencontre en termes de capacité à collecter des informations pertinentes sur le patient, d'exactitude du diagnostic dans la présentation d'informations dispersées et de respect des instructions.

Les chercheurs ont utilisé CRAFT-MD pour tester quatre modèles d’IA – ; versions propriétaires ou commerciales et open source – ; pour sa performance dans 2 000 vignettes cliniques couvrant des conditions courantes dans les soins primaires et 12 spécialités médicales.

Tous les modèles d’IA présentaient des limites, notamment dans leur capacité à mener des conversations cliniques et à raisonner sur la base des informations fournies par les patients. Cela a à son tour affecté leur capacité à prendre en compte les antécédents médicaux et à poser un diagnostic approprié. Par exemple, les modèles avaient souvent du mal à poser les bonnes questions pour recueillir les antécédents pertinents d’un patient, manquaient des informations importantes lors de l’anamnèse et éprouvaient des difficultés à synthétiser des informations éparses. La précision de ces modèles diminuait lorsqu’on leur présentait des informations ouvertes au lieu de réponses à choix multiples. Ces modèles ont également eu de moins bons résultats lors d'échanges aller-retour - ; comme c'est le cas pour la plupart des conversations dans le monde réel – ; plutôt que de s’engager dans des conversations résumées.

Recommandations pour optimiser les performances de l'IA dans la pratique

Sur la base de ces résultats, l’équipe propose une série de recommandations à l’intention des développeurs d’IA qui conçoivent des modèles d’IA et des régulateurs chargés d’évaluer et d’approuver ces outils.

Cela comprend :

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

En outre, les agents d’IA et les experts humains devraient être inclus dans l’évaluation, recommandent les chercheurs, car s’appuyer uniquement sur des experts humains demande beaucoup de travail et coûte cher. Par exemple, CRAFT-MD a été plus rapide que les évaluateurs humains, traitant 10 000 entretiens en 48 à 72 heures, plus 15 à 16 heures d'évaluation par des experts. En revanche, les approches basées sur l’humain nécessiteraient un recrutement approfondi et environ 500 heures pour les simulations de patients (près de 3 minutes par conversation) et environ 650 heures pour les évaluations d’experts (près de 4 minutes par conversation). Utiliser les évaluateurs d’IA comme premier choix présente l’avantage supplémentaire d’éliminer le risque d’exposer de vrais patients à des outils d’IA non vérifiés.

Les chercheurs s’attendent à ce que CRAFT-MD lui-même soit également régulièrement mis à jour et optimisé pour intégrer des modèles d’IA de patients améliorés.

"En tant que médecin et scientifique, je m'intéresse aux modèles d'IA qui peuvent améliorer efficacement et éthiquement la pratique clinique", a déclaré Roxana Daneshjou, co-auteure principale de l'étude, professeure adjointe de science des données biomédicales et de dermatologie à l'Université de Stanford. « CRAFT-MD crée un cadre qui reflète mieux les interactions du monde réel, contribuant ainsi à faire progresser le domaine lorsqu'il s'agit de tester les performances des modèles d'IA dans le domaine de la santé. »


Sources :

Journal reference:

Johri, S.,et coll. (2025) Un cadre d'évaluation pour l'utilisation clinique de grands modèles de langage dans les tâches d'interaction avec les patients. Médecine naturelle. est ce que je.org/10.1038/s41591-024-03328-5.