AI-systemet matcher diagnostisk nøyaktighet samtidig som det reduserer medisinske kostnader

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

I en ny studie overgikk Microsofts AI-drevne diagnosesystem erfarne leger i å løse de mest utfordrende medisinske tilfellene raskere, billigere og mer nøyaktig. Studie: Sekvensiell diagnose med språkmodeller. Bildekreditt: MetamorWorks/Shutterstock.com *Viktig avsløring: Arxiv publiserer foreløpige vitenskapelige rapporter som ikke er fagfellevurdert og derfor ikke anses som avgjørende, veileder klinisk praksis/helserelatert atferd eller behandles som etablert informasjon. En fersk studie på Arxiv Preprint-servere sammenlignet diagnostisk nøyaktighet og ressursutgifter til AI-systemer med klinikere i komplekse tilfeller. Microsoft AI-teamet demonstrerte effektiv bruk av kunstig intelligens (AI) i...

AI-systemet matcher diagnostisk nøyaktighet samtidig som det reduserer medisinske kostnader

I en ny studie overgikk Microsofts AI-drevne diagnosesystem erfarne leger i å løse de mest utfordrende medisinske tilfellene raskere, billigere og mer nøyaktig.

Studie: Sekvensiell diagnose med språkmodeller. Bildekreditt: MetamorWorks/Shutterstock.com

*Viktig merknad: ArxivPubliser foreløpige vitenskapelige rapporter som ikke er fagfellevurdert og derfor ikke anses som avgjørende, veileder klinisk praksis/helserelatert atferd eller behandles som etablert informasjon.

En fersk studie omArxivPreprint Server sammenlignet diagnostisk nøyaktighet og ressursutgifter til AI-systemer med klinikere i komplekse saker. Microsoft AI-teamet demonstrerte effektiv bruk av kunstig intelligens (AI) i medisin for å løse diagnostiske utfordringer som leger må tyde.

Sekvensiell diagnose og språkmodeller

Leger diagnostiserer ofte pasienter for en sykdom gjennom en klinisk resonneringsprosess som involverer trinn-for-trinn, iterativ avhør og testing. Selv med begrenset innledende informasjon, begrenser klinikere den mulige diagnosen ved å spørre pasienten og bekrefte den gjennom biokjemisk testing, bildediagnostikk, biopsi og andre diagnostiske prosedyrer.

Å løse en kompleks sak krever et omfattende sett med ferdigheter, inkludert å identifisere de mest kritiske spørsmålene eller testene som skal følges, ta hensyn til testkostnadene for å forhindre økende pasientbyrde, og gjenkjenne bevis for å stille en sikker diagnose.

Flere studier har vist den forbedrede effektiviteten til språkmodeller (LMS) ved gjennomføring av medisinske lisensieringseksamener og svært strukturerte diagnostiske vignetter. Imidlertid har ytelsen til de fleste LM-er blitt evaluert under kunstige forhold som er drastisk forskjellige fra kliniske miljøer i den virkelige verden.

De fleste LMS-modeller for diagnostiske vurderinger er basert på en flervalgsquiz, og diagnosen stilles fra et forhåndsdefinert svarsett. En redusert sekvensiell diagnostisk syklus øker risikoen for å overvurdere modellkompetansen til de statiske benchmarkene. I tillegg utgjør disse diagnostiske modellene risikoen for vilkårlig testbestilling og for tidlig diagnostisk lukking. Derfor er det et presserende behov for et AI-system basert på en sekvensiell diagnostisk syklus for å forbedre diagnostisk nøyaktighet og redusere testkostnadene.

Om studiet

For å overvinne de ovennevnte ulempene med LMS-modeller for klinisk diagnose, har forskere utviklet Sequential Diagnostic Benchmark (SDBench) som et interaktivt rammeverk for å evaluere diagnostiske midler (menneske eller AI) gjennom realistiske sekvensielle kliniske møter.

For å vurdere diagnostisk nøyaktighet brukte den nåværende studien ukentlige tilfeller publisert i New England Journal of Medicine (NEJM), verdens ledende medisinske tidsskrift. Dette tidsskriftet publiserer vanligvis saksnotater fra Massachusetts General Hospital-pasienter i et detaljert, narrativt format. Disse tilfellene er blant de mest diagnostisk utfordrende og intellektuelt krevende innen klinisk medisin og krever ofte flere spesialister og diagnostiske tester for å bekrefte en diagnose.

Sdbench med 304 tilfeller fra NEJM Clinicopathologic Conference (2017-2025) til trinnvise diagnostiske møter. Medisinske data inkluderte kliniske presentasjoner i definitive diagnoser som spenner fra vanlige sykdommer (f.eks. lungebetennelse) til sjeldne lidelser (f.eks. neonatal hypoglykemi). Ved å bruke den interaktive plattformen bestemmer diagnostiske agenter hvilke spørsmål de skal stille, hvilke tester som skal bestilles og når en diagnose skal bekreftes.

Information Gatekeeper er en språkmodell som avslører kliniske detaljer fra en omfattende saksmappe kun når den eksplisitt spørres fra en omfattende saksmappe. Det kan også gi ekstra sakskonsistent informasjon for testing som ikke er beskrevet i den opprinnelige CPC-fortellingen. Etter at den endelige diagnosen ble stilt basert på informasjonen mottatt fra portvakten, ble nøyaktigheten av den kliniske vurderingen testet opp mot den faktiske diagnosen. I tillegg ble den kumulative kostnaden for alle forespurte diagnostiske tester utført i reell diagnose estimert. Ved å vurdere diagnostisk nøyaktighet og diagnostiske kostnader, indikerer Sdbench hvor nærme vi er å gi behandling av høy kvalitet til en bærekraftig kostnad.

Studieresultater

Den nåværende studien analyserte ytelsen til alle diagnostiske midler på SDBEN. AI-midler ble evaluert i alle 304 NEJM-tilfeller, mens leger ble evaluert i en beholdt undergruppe av 56 testsett. Denne studien fant at AI-agenter presterte bedre enn leger i denne undergruppen.

Leger som praktiserer i USA og Storbritannia med en median på 12 års klinisk erfaring oppnådde 20 % diagnostisk nøyaktighet til en gjennomsnittlig kostnad på $2 963 per sak på SDBench, noe som fremhever den iboende vanskeligheten ved referanseindeksen. Leger brukte i gjennomsnitt 11,8 minutter per sak og ba om 6,6 spørsmål og 7,2 tester. GPT -4o utkonkurrerte leger i både diagnostisk nøyaktighet og kostnad. Kommersielt tilgjengelige hyllemodeller har tilbudt varierende diagnostisk nøyaktighet og pris.

Den nåværende studien introduserte også MAI Diagnostic Orchestrator (MAI-DXO), en plattform samarbeidet med leger som viste høyere diagnostisk effektivitet enn menneskelige leger og kommersielle språkmodeller. Sammenlignet med kommersielle LM-er, viste Mai-DXO høyere diagnostisk nøyaktighet og en betydelig reduksjon i medisinske kostnader på mer enn halvparten. Hyllevare O3-modellen oppnådde for eksempel 78,6 % diagnostisk nøyaktighet til 7 850 dollar, mens May-DXO oppnådde 79,9 % nøyaktighet på bare 2 397 dollar eller 85,5 % til 7 184 dollar.

MAI-DXO oppnådde dette ved å simulere et virtuelt panel av "legeagenter" med forskjellige roller i hypotesegenerering, testvalg, kostnadsbevissthet og feilkontroll. I motsetning til den grunnleggende AI-prompten, tillot denne strukturerte orkestreringen systemet å være iterativt og effektivt.

Mai-Dxo er en modellagnostisk tilnærming som har vist nøyaktighetsgevinster i ulike språkmodeller, ikke bare O3 Foundation-modellen.

Konklusjoner og fremtidsutsikter

Resultatene av den nåværende studien viser den høyere diagnostiske nøyaktigheten og kostnadseffektiviteten til AI-systemer når de behandler iterativt og nøye. Sdbench og Mai-Dxo ga et empirisk basert grunnlag for å fremme AI-assistert diagnostikk under realistiske begrensninger.

I fremtiden må Mai-DXO valideres i kliniske omgivelser der sykdomsprevalens og -presentasjon forekommer så ofte som på daglig basis i stedet for en sjelden gang. Videre kreves det storskala interaktive medisinske benchmarks med mer enn 304 tilfeller. Å inkludere visuelle og andre sensoriske modaliteter som bildebehandling kan også forbedre diagnostisk nøyaktighet uten å gå på bekostning av kostnadseffektiviteten.

Imidlertid bemerker forfatterne viktige begrensninger. NEJM -CPC-tilfeller er valgt ut for deres vanskelighetsgrad og reflekterer ikke daglige kliniske presentasjoner. Studien inkluderte ikke friske pasienter eller målte falske positive rater. I tillegg er diagnostiske kostnadsestimater basert på amerikanske priser og kan variere over hele verden.

Modellene ble også testet på et beholdt testsett av nyere tilfeller (2024-2025) for å vurdere generalisering og unngå overfitting, ettersom mange av disse tilfellene ble utgitt etter treningsavbruddet for de fleste modellene.

Artikkelen reiser også et bredere spørsmål: Bør vi sammenligne AI-systemer med individuelle leger eller komplette medisinske team? Fordi Mai-Dxo etterligner multispesialistsamarbeid, kan sammenligningen reflektere noe nærmere teambasert omsorg enn individuell praksis.

Forskningen tyder imidlertid på at strukturerte AI-systemer som Mai-DXO en dag kan støtte eller forsterke klinikere, spesielt i omgivelser der tilgangen til spesialister er begrenset eller dyr.

Last ned PDF-eksemplaret ditt nå!

*Viktig merknad: ArxivPubliser foreløpige vitenskapelige rapporter som ikke er fagfellevurdert og derfor ikke anses som avgjørende, veileder klinisk praksis/helserelatert atferd eller behandles som etablert informasjon.


Kilder:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405