Le système d'IA correspond à la précision du diagnostic tout en réduisant les coûts médicaux
Dans une nouvelle étude, le système de diagnostic basé sur l'IA de Microsoft a surpassé les médecins expérimentés pour résoudre les cas médicaux les plus difficiles plus rapidement, à moindre coût et avec plus de précision. Étude : Diagnostic séquentiel avec modèles de langage. Crédit image : MetamorWorks/Shutterstock.com *Divulgation importante : Arxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et ne sont donc pas considérés comme concluants, ne guident pas la pratique clinique/les comportements liés à la santé ou ne sont pas traités comme des informations établies. Une étude récente sur les serveurs Arxiv Preprint a comparé la précision du diagnostic et les dépenses en ressources des systèmes d'IA avec celles des cliniciens sur des cas complexes. L'équipe Microsoft AI a démontré l'utilisation efficace de l'intelligence artificielle (IA) dans...
Le système d'IA correspond à la précision du diagnostic tout en réduisant les coûts médicaux
Dans une nouvelle étude, le système de diagnostic basé sur l'IA de Microsoft a surpassé les médecins expérimentés pour résoudre les cas médicaux les plus difficiles plus rapidement, à moindre coût et avec plus de précision.
Étude : Diagnostic séquentiel avec modèles de langage. Crédit image : MetamorWorks/Shutterstock.com
*Avis important : ArxivPublier des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et donc non considérés comme concluants, qui guident la pratique clinique/les comportements liés à la santé ou qui sont traités comme des informations établies.
Une étude récente sur leArxivPreprint Server a comparé la précision du diagnostic et les dépenses en ressources des systèmes d'IA avec celles des cliniciens sur des cas complexes. L’équipe Microsoft AI a démontré l’utilisation efficace de l’intelligence artificielle (IA) en médecine pour relever les défis de diagnostic que les médecins doivent déchiffrer.
Diagnostic séquentiel et modèles de langage
Les médecins diagnostiquent souvent une maladie chez les patients grâce à un processus de raisonnement clinique qui implique un questionnement et des tests itératifs étape par étape. Même avec des informations initiales limitées, les cliniciens limitent le diagnostic possible en interrogeant le patient et en le confirmant par des tests biochimiques, une imagerie, une biopsie et d'autres procédures de diagnostic.
La résolution d'un cas complexe nécessite un ensemble complet de compétences, notamment l'identification des questions ou des tests les plus critiques à suivre, l'attention portée aux coûts des tests pour éviter d'alourdir le fardeau du patient et la reconnaissance des preuves pour poser un diagnostic fiable.
Plusieurs études ont démontré l'efficacité améliorée des modèles linguistiques (LMS) dans la réalisation d'examens de licence médicale et de vignettes de diagnostic hautement structurées. Cependant, les performances de la plupart des LM ont été évaluées dans des conditions artificielles radicalement différentes des environnements cliniques réels.
La plupart des modèles LMS pour les évaluations diagnostiques sont basés sur un quiz à choix multiples et le diagnostic est établi à partir d'un ensemble de réponses prédéfinies. Un cycle de diagnostic séquentiel réduit augmente le risque de surestimation de la compétence de modèle des références statiques. De plus, ces modèles de diagnostic présentent le risque de commander des tests sans discernement et de clôturer prématurément le diagnostic. Par conséquent, il existe un besoin urgent d’un système d’IA basé sur un cycle de diagnostic séquentiel pour améliorer la précision du diagnostic et réduire les coûts des tests.
À propos de l'étude
Pour surmonter les inconvénients mentionnés ci-dessus des modèles LMS pour le diagnostic clinique, les scientifiques ont développé le Sequential Diagnostic Benchmark (SDBench) comme cadre interactif pour évaluer les agents de diagnostic (humains ou IA) à travers des rencontres cliniques séquentielles réalistes.
Pour évaluer l'exactitude du diagnostic, la présente étude a utilisé des cas hebdomadaires publiés dans le New England Journal of Medicine (NEJM), la principale revue médicale mondiale. Cette revue publie généralement des notes de cas de patients du Massachusetts General Hospital dans un format narratif détaillé. Ces cas sont parmi les plus difficiles sur le plan diagnostique et les plus exigeants intellectuellement en médecine clinique et nécessitent souvent plusieurs spécialistes et tests de diagnostic pour confirmer un diagnostic.
Sdbench de 304 cas de la conférence clinicopathologique du NEJM (2017-2025) dans des rencontres diagnostiques par étapes. Les données médicales comprenaient des présentations cliniques dans des diagnostics définitifs allant de maladies courantes (par exemple, pneumonie) à des troubles rares (par exemple, hypoglycémie néonatale). À l’aide de la plateforme interactive, les agents de diagnostic décident quelles questions poser, quels tests commander et quand confirmer un diagnostic.
Information Gatekeeper est un modèle de langage qui révèle les détails cliniques d'un dossier complet uniquement lorsqu'ils sont explicitement interrogés à partir d'un dossier complet. Il peut également fournir des informations supplémentaires cohérentes avec les cas pour les tests non décrits dans le récit original du CPC. Une fois le diagnostic final posé sur la base des informations reçues du contrôleur d’accès, l’exactitude de l’évaluation clinique a été testée par rapport au diagnostic réel. De plus, le coût cumulé de tous les tests de diagnostic demandés et effectués en diagnostic réel a été estimé. En évaluant l'exactitude et le coût du diagnostic, Sdbench indique à quel point nous sommes sur le point de fournir des soins de haute qualité à un coût durable.
Résultats de l'étude
L'étude actuelle a analysé les performances de tous les agents de diagnostic sur le SDBEN. Les agents d'IA ont été évalués dans les 304 cas NEJM, tandis que les médecins ont été évalués dans un sous-ensemble retenu de 56 ensembles de tests. Cette étude a révélé que les agents d’IA étaient plus performants que les médecins de ce sous-groupe.
Les médecins exerçant aux États-Unis et au Royaume-Uni avec une moyenne de 12 années d'expérience clinique ont atteint une précision diagnostique de 20 % pour un coût moyen de 2 963 $ par cas sur SDBench, soulignant la difficulté inhérente de la référence. Les médecins ont passé en moyenne 11,8 minutes par cas et ont demandé 6,6 questions et 7,2 tests. GPT -4o a surpassé les médecins en termes de précision du diagnostic et de coût. Les modèles disponibles dans le commerce offrent une précision de diagnostic et un coût variables.
L'étude actuelle a également présenté le MAI Diagnostic Orchestrator (MAI-DXO), une plate-forme en partenariat avec des médecins qui a démontré une efficacité diagnostique supérieure à celle des médecins humains et des modèles de langage commerciaux. Comparé aux LM commerciaux, Mai-DXO a démontré une précision diagnostique supérieure et une réduction significative des coûts médicaux de plus de moitié. Par exemple, le modèle O3 disponible dans le commerce a atteint une précision diagnostique de 78,6 % à 7 850 $, tandis que May-DXO a atteint une précision de 79,9 % à seulement 2 397 $ ou 85,5 % à 7 184 $.
MAI-DXO y est parvenu en simulant un panel virtuel d'« agents médecins » jouant différents rôles dans la génération d'hypothèses, la sélection des tests, la connaissance des coûts et la vérification des erreurs. Contrairement à l’invite de base de l’IA, cette orchestration structurée a permis au système d’être itératif et efficace.
Mai-Dxo est une approche indépendante du modèle qui a démontré des gains de précision dans divers modèles de langage, pas seulement le modèle O3 Foundation.
Conclusions et perspectives d'avenir
Les résultats de la présente étude montrent la plus grande précision du diagnostic et la plus grande rentabilité des systèmes d’IA lorsqu’ils sont traités de manière itérative et prudente. Sdbench et Mai-Dxo ont fourni une base empirique pour faire progresser les diagnostics assistés par l'IA sous des contraintes réalistes.
À l'avenir, Mai-DXO devra être validé dans des contextes cliniques où la prévalence et la présentation de la maladie se produisent aussi fréquemment que quotidiennement plutôt que comme une occasion rare. En outre, des références médicales interactives à grande échelle avec plus de 304 cas sont nécessaires. L'intégration de modalités visuelles et sensorielles telles que l'imagerie pourrait également améliorer la précision du diagnostic sans compromettre la rentabilité.
Cependant, les auteurs notent des limites importantes. Les cas NEJM-CPC sont sélectionnés pour leur difficulté et ne reflètent pas les présentations cliniques quotidiennes. L’étude n’incluait pas de patients en bonne santé et ne mesurait pas les taux de faux positifs. De plus, les estimations des coûts de diagnostic sont basées sur les prix américains et peuvent varier dans le monde entier.
Les modèles ont également été testés sur un ensemble de tests retenus de cas récents (2024-2025) pour évaluer la généralisation et éviter le surajustement, car bon nombre de ces cas ont été publiés après la fin de la formation pour la plupart des modèles.
L’article soulève également une question plus large : devrions-nous comparer les systèmes d’IA à des médecins individuels ou à des équipes médicales complètes ? Étant donné que Mai-Dxo imite la collaboration multi-spécialiste, la comparaison peut être plus proche des soins en équipe que de la pratique individuelle.
Cependant, la recherche suggère que les systèmes d’IA structurés comme Mai-DXO pourraient un jour soutenir ou augmenter les cliniciens, en particulier dans les contextes où l’accès aux spécialistes est limité ou coûteux.
Téléchargez votre copie PDF maintenant !
*Avis important : ArxivPublier des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et donc non considérés comme concluants, qui guident la pratique clinique/les comportements liés à la santé ou qui sont traités comme des informations établies.
Sources :
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405