Das KI -System entspricht der diagnostischen Genauigkeit und senkt gleichzeitig die medizinischen Kosten

In einer neuen Studie übertraf Microsoft das KI-angetriebene diagnostische System erfahrene Ärzte bei der Lösung der anspruchsvollsten medizinischen Fälle schneller, billiger und genauer.
Studie: Sequentielle Diagnose mit Sprachmodellen. Bildnachweis: MetamorWorks/Shutterstock.com
*Wichtige Bekanntmachung: Arxiv Veröffentlichung vorläufigen wissenschaftlichen Berichten, die nicht von Experten begutachtet sind und daher nicht als schlüssig angesehen werden, leiten klinische Praxis/gesundheitsbezogene Verhaltensweisen oder als festgelegte Informationen behandelt.
Eine kürzlich durchgeführte Studie über die Arxiv Preprint Server verglich die diagnostische Genauigkeit und die Ressourcenausgaben von AI -Systemen mit denen von Klinikern in Bezug auf komplexe Fälle. Das Microsoft AI -Team demonstrierte den effizienten Einsatz künstlicher Intelligenz (KI) in der Medizin, um diagnostische Herausforderungen anzugehen, die Ärzte zu entschlüsseln haben.
Sequentielle Diagnose und Sprachmodelle
Oft diagnostizieren Ärzte Patienten für eine Krankheit durch einen klinischen Argumentationsprozess, bei dem Schritt für Schritt, iterative Befragungen und Tests beinhalten. Selbst mit begrenzten anfänglichen Informationen schränken die Kliniker die mögliche Diagnose ein, indem sie den Patienten in Frage stellen und durch biochemische Tests, Bildgebung, Biopsie und andere diagnostische Verfahren bestätigen.
Die Lösung eines komplexen Falles erfordert eine umfassende Reihe von Fähigkeiten, einschließlich der Ermittlung der kritischsten folgenden Fragen oder Tests, der Aufmerksamkeit der Testkosten, um eine zunehmende Patientenbelastung zu verhindern, und das Erkennen von Beweisen für eine selbstbewusste Diagnose.
Mehrere Studien haben die verbesserte Effizienz von Sprachmodellen (LMS) bei der Durchführung von medizinischen Lizenzprüfungen und hochstrukturierten diagnostischen Vignetten gezeigt. Die Leistung der meisten LMs wurde jedoch unter künstlichen Bedingungen bewertet, die sich drastisch von klinischen Umgebungen der realen Welt unterscheiden.
Die meisten LMS-Modelle für diagnostische Bewertungen basieren auf einem Multiple-Choice-Quiz, und die Diagnose erfolgt aus einem vordefinierten Antwortsatz. Ein reduzierter sequentieller Diagnosezyklus erhöht das Risiko, die Modellkompetenz der statischen Benchmarks zu überschätzen. Darüber hinaus weisen diese diagnostischen Modelle das Risiko einer wahllosen Testordnung und vorzeitiger diagnostischer Schließung dar. Daher besteht ein dringender Bedarf an einem KI -System, das auf einem sequentiellen Diagnosezyklus basiert, um die diagnostische Genauigkeit zu verbessern und die Testkosten zu senken.
Über die Studie
Um die oben genannten Nachteile von LMS-Modellen für die klinische Diagnose zu überwinden, haben Wissenschaftler den sequentiellen Diagnose-Benchmark (SDBench) als interaktives Rahmen für die Bewertung von Diagnosemitteln (Human oder KI) durch realistische sequentielle klinische Begegnungen entwickelt.
Um die diagnostische Genauigkeit zu bewerten, verwendete die aktuelle Studie wöchentliche Fälle, die im New England Journal of Medicine (NEJM), dem weltweit führenden medizinischen Journal, veröffentlicht wurden. Diese Zeitschrift veröffentlicht in der Regel Fallaufzeichnungen von Patienten des Massachusetts General Hospital in einem detaillierten, narrativen Format. Diese Fälle gehören zu den diagnostisch herausforderndsten und intellektuell anspruchsvollen in der klinischen Medizin und erfordert häufig mehrere Spezialisten und diagnostische Tests, um eine Diagnose zu bestätigen.
Sdbench um 304 Fälle von der NEJM Clinicopathologic Conference (2017-2025) in schrittweise diagnostische Begegnungen. Die medizinischen Daten umfassten klinische Präsentationen in endgültige Diagnosen, die von gemeinsamen Erkrankungen (z. B. Lungenentzündung) bis hin zu seltenen Störungen (z. B. Hypoglykämie für Neugeborene) reichen. Mithilfe der interaktiven Plattform entscheiden diagnostische Agenten, welche Fragen zu stellen sind, welche Tests bestellen und wann eine Diagnose bestätigt werden soll.
Information Gatekeeper ist ein Sprachmodell, das klinische Details aus einer umfassenden Falldatei nur bei explizitem Abfragen aus einer umfassenden Falldatei offenbart. Es kann auch zusätzliche Fallkonsistente Informationen für Tests liefern, die in der ursprünglichen CPC-Erzählung nicht beschrieben sind. Nachdem die endgültige Diagnose auf der Grundlage der vom Gatekeeper erhaltenen Informationen gestellt wurde, wurde die Genauigkeit der klinischen Bewertung gegen die tatsächliche Diagnose getestet. Darüber hinaus wurden die kumulativen Kosten aller angeforderten diagnostischen Tests, die in der realen Diagnose durchgeführt wurden, geschätzt. Durch die Bewertung der diagnostischen Genauigkeit und der diagnostischen Kosten gibt Sdbench an, wie nahe wir an einer qualitativ hochwertigen Versorgung zu nachhaltigen Kosten sind.
Studienergebnisse
Die aktuelle Studie analysierte die Leistung aller diagnostischen Wirkstoffe auf der SDBEN. AI-Agenten wurden in allen 304 NEJM-Fällen bewertet, während die Ärzte in einer gehaltenen Untergruppe von 56 Testmengen bewertet wurden. In dieser Studie wurde festgestellt, dass AI -Agenten in dieser Untergruppe besser abschnitten als Ärzte.
Ärzte, die in den USA und Großbritannien mit einem Median von 12 Jahren klinischer Erfahrung praktizierten, erreichten eine diagnostische Genauigkeit von 20% zu einem durchschnittlichen Preis von 2.963 USD pro Fall auf SDBench, wodurch die inhärente Schwierigkeit des Benchmarks hervorgehoben wurde. Die Ärzte verbrachten durchschnittlich 11,8 Minuten pro Fall und beantragten 6,6 Fragen und 7,2 Tests. GPT -4o übertraf Ärzte sowohl in Bezug auf die diagnostische Genauigkeit als auch die Kosten. Im Handel erhältliche off-the-Shelf-Modelle, die unterschiedliche diagnostische Genauigkeit und Kosten angeboten haben.
Die aktuelle Studie führte auch den MAI Diagnostic Orchestrator (MAI-DXO) ein, eine Plattform, die mit Ärzten zusammengeführt wurde und eine höhere diagnostische Effizienz aufwies als menschliche Ärzte und Handelssprachenmodelle. Im Vergleich zu kommerziellen LMs zeigte Mai-DXO eine höhere diagnostische Genauigkeit und eine erhebliche Verringerung der medizinischen Kosten von mehr als der Hälfte. Zum Beispiel erreichte das off-the-Shelf-O3-Modell eine diagnostische Genauigkeit von 78,6% für 7.850 USD, während Mai-DXO eine Genauigkeit von 79,9% bei nur 2.397 USD oder 85,5% bei 7.184 USD erreichte.
MAI-DXO hat dies erreicht, indem ein virtueller Gremium von „Doktoragenten“ mit unterschiedlichen Rollen bei der Erzeugung der Hypothesen, der Testauswahl, des Kostenbewusstseins und der Fehlerprüfung simuliert wurde. Im Gegensatz zur Basis -KI -Aufforderung ermöglichte diese strukturierte Orchestrierung das System iterativ und effizient.
Mai-Dxo ist ein Modell-Agnostic-Ansatz, der die Genauigkeitsgewinne in verschiedenen Sprachmodellen, nicht nur dem O3-Foundation-Modell, gezeigt hat.
Schlussfolgerungen und zukünftige Aussichten
Die Ergebnisse der aktuellen Studie zeigen die höhere diagnostische Genauigkeit und Kostenwirksamkeit der KI-Systeme, wenn sie sich iterativ und mit Bedacht bearbeiten. Sdbench und Mai-Dxo bildeten eine empirisch gegründete Grundlage für die Weiterentwicklung der Diagnose der AI-unterstützten Diagnose unter realistischen Einschränkungen.
In Zukunft muss Mai-DXO in klinischen Umgebungen validiert werden, in denen die Prävalenz und Darstellung von Krankheiten so häufig wie täglich und nicht als seltene Gelegenheit auftreten. Darüber hinaus sind groß angelegte interaktive medizinische Benchmarks mit mehr als 304 Fällen erforderlich. Die Einbeziehung visueller und anderer sensorischer Modalitäten wie der Bildgebung könnte auch die diagnostische Genauigkeit verbessern, ohne die Kosteneffizienz zu beeinträchtigen.
Die Autoren stellen jedoch wichtige Einschränkungen fest. NEJM -CPC -Fälle werden für ihre Schwierigkeit ausgewählt und spiegeln keine alltäglichen klinischen Präsentationen wider. Die Studie umfasste keine gesunden Patienten oder misste falsche positive Raten. Darüber hinaus basieren die diagnostischen Kostenschätzungen auf den US -Preisen und können weltweit variieren.
Die Modelle wurden auch an einem festgehaltenen Testsatz von jüngsten Fällen (2024-2025) getestet, um die Verallgemeinerung zu bewerten und Überanpassung zu vermeiden, da viele dieser Fälle nach dem Trainingsgrenzwert für die meisten Modelle veröffentlicht wurden.
Das Papier wirft auch eine breitere Frage auf: Sollten wir KI -Systeme mit einzelnen Ärzten oder vollständigen medizinischen Teams vergleichen? Da Mai-Dxo die Zusammenarbeit mit der Multi-Spezialisten nachahmt, kann der Vergleich etwas näher an die teambasierte Pflege als die individuelle Praxis widerspiegeln.
Die Forschungsergebnisse legen jedoch nahe, dass strukturierte KI-Systeme wie Mai-DXO Kliniker eines Tages unterstützen oder erweitern können, insbesondere in Umgebungen, in denen der Zugang zu Spezialisten begrenzt oder teuer ist.
Laden Sie jetzt Ihre PDF -Kopie herunter!
*Wichtige Bekanntmachung: Arxiv Veröffentlichung vorläufigen wissenschaftlichen Berichten, die nicht von Experten begutachtet sind und daher nicht als schlüssig angesehen werden, leiten klinische Praxis/gesundheitsbezogene Verhaltensweisen oder als festgelegte Informationen behandelt.
Quellen:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405