AI-systemet matchar diagnostisk noggrannhet samtidigt som det minskar medicinska kostnader

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

I en ny studie överträffade Microsofts AI-drivna diagnostiksystem erfarna läkare när det gällde att lösa de mest utmanande medicinska fallen snabbare, billigare och mer exakt. Studie: Sekventiell diagnos med språkmodeller. Bildkredit: MetamorWorks/Shutterstock.com *Viktigt avslöjande: Arxiv publicerar preliminära vetenskapliga rapporter som inte är peer-reviewed och därför inte anses vara avgörande, vägleda klinisk praxis/hälsorelaterade beteenden eller behandlas som etablerad information. En nyligen genomförd studie på Arxiv Preprint-servrar jämförde diagnostiknoggrannheten och resursutgifterna för AI-system med klinikers i komplexa fall. Microsoft AI-teamet demonstrerade den effektiva användningen av artificiell intelligens (AI) i...

AI-systemet matchar diagnostisk noggrannhet samtidigt som det minskar medicinska kostnader

I en ny studie överträffade Microsofts AI-drivna diagnostiksystem erfarna läkare när det gällde att lösa de mest utmanande medicinska fallen snabbare, billigare och mer exakt.

Studie: Sekventiell diagnos med språkmodeller. Bildkredit: MetamorWorks/Shutterstock.com

*Viktigt meddelande: ArxivPublicera preliminära vetenskapliga rapporter som inte är peer-reviewed och därför inte anses vara avgörande, vägleda klinisk praxis/hälsorelaterade beteenden eller behandlas som etablerad information.

En nyligen genomförd studie omArxivPreprint Server jämförde diagnostiknoggrannheten och resursutgifterna för AI-system med klinikers i komplexa fall. Microsofts AI-team demonstrerade den effektiva användningen av artificiell intelligens (AI) inom medicin för att hantera diagnostiska utmaningar som läkare måste dechiffrera.

Sekventiell diagnos och språkmodeller

Läkare diagnostiserar ofta patienter för en sjukdom genom en klinisk resonemangsprocess som involverar steg-för-steg, iterativt ifrågasättande och testning. Även med begränsad initial information, begränsar läkare den möjliga diagnosen genom att ifrågasätta patienten och bekräfta den genom biokemiska tester, bildbehandling, biopsi och andra diagnostiska procedurer.

Att lösa ett komplext fall kräver en omfattande uppsättning färdigheter, inklusive att identifiera de mest kritiska frågorna eller testerna att följa, uppmärksamma testkostnaderna för att förhindra ökad patientbörda och erkänna bevis för att ställa en säker diagnos.

Flera studier har visat den förbättrade effektiviteten hos språkmodeller (LMS) för att utföra medicinska licensundersökningar och mycket strukturerade diagnostiska vinjetter. Men prestandan för de flesta LM:er har utvärderats under artificiella förhållanden som skiljer sig drastiskt från verkliga kliniska miljöer.

De flesta LMS-modeller för diagnostiska bedömningar är baserade på ett flervalsquiz, och diagnosen ställs från en fördefinierad svarsuppsättning. En minskad sekventiell diagnostisk cykel ökar risken för att överskatta modellkompetensen för de statiska riktmärkena. Dessutom utgör dessa diagnostiska modeller risken för urskillningslös testbeställning och för tidig diagnostisk stängning. Därför finns det ett akut behov av ett AI-system baserat på en sekventiell diagnostisk cykel för att förbättra diagnostiknoggrannheten och minska testkostnaderna.

Om studien

För att övervinna de ovan nämnda nackdelarna med LMS-modeller för klinisk diagnos, har forskare utvecklat Sequential Diagnostic Benchmark (SDBench) som ett interaktivt ramverk för att utvärdera diagnostiska medel (människa eller AI) genom realistiska sekventiella kliniska möten.

För att bedöma diagnostisk noggrannhet använde den aktuella studien veckovisa fall publicerade i New England Journal of Medicine (NEJM), världens ledande medicinska tidskrift. Denna tidskrift publicerar vanligtvis fallanteckningar av Massachusetts General Hospital-patienter i ett detaljerat, berättande format. Dessa fall är bland de mest diagnostiskt utmanande och intellektuellt krävande inom klinisk medicin och kräver ofta flera specialister och diagnostiska tester för att bekräfta en diagnos.

Sdbänk med 304 fall från NEJM Clinicopathologic Conference (2017-2025) till stegvisa diagnostiska möten. Medicinska data inkluderade kliniska presentationer av definitiva diagnoser som sträcker sig från vanliga sjukdomar (t.ex. lunginflammation) till sällsynta störningar (t.ex. neonatal hypoglykemi). Med hjälp av den interaktiva plattformen bestämmer diagnostiska agenter vilka frågor de ska ställa, vilka tester som ska beställas och när de ska bekräfta en diagnos.

Information Gatekeeper är en språkmodell som avslöjar kliniska detaljer från en omfattande ärendefil endast när den uttryckligen efterfrågas från en omfattande ärendefil. Den kan också tillhandahålla ytterligare information som överensstämmer med fallet och för tester som inte beskrivs i den ursprungliga CPC-berättelsen. Efter att den slutgiltiga diagnosen ställts baserat på informationen från portvakten testades riktigheten av den kliniska bedömningen mot den faktiska diagnosen. Dessutom uppskattades den kumulativa kostnaden för alla begärda diagnostiska tester utförda i verklig diagnos. Genom att bedöma diagnostisk noggrannhet och diagnostisk kostnad indikerar Sdbench hur nära vi är att tillhandahålla vård av hög kvalitet till en hållbar kostnad.

Studieresultat

Den aktuella studien analyserade prestandan för alla diagnostiska medel på SDBEN. AI-medel utvärderades i alla 304 NEJM-fall, medan läkare utvärderades i en bibehållen delmängd av 56 testuppsättningar. Denna studie fann att AI-agenter presterade bättre än läkare i denna undergrupp.

Läkare som praktiserar i USA och Storbritannien med en median på 12 års klinisk erfarenhet uppnådde 20 % diagnostisk noggrannhet till en genomsnittlig kostnad av $2 963 per fall på SDBench, vilket belyser den inneboende svårigheten med riktmärket. Läkare tillbringade i genomsnitt 11,8 minuter per fall och begärde 6,6 frågor och 7,2 tester. GPT -4o överträffade läkare i både diagnostisk noggrannhet och kostnad. Kommersiellt tillgängliga off-the-shelf-modeller har erbjudit varierande diagnostisk noggrannhet och kostnad.

Den aktuella studien introducerade också MAI Diagnostic Orchestrator (MAI-DXO), en plattform som samarbetar med läkare som visade högre diagnostisk effektivitet än mänskliga läkare och kommersiella språkmodeller. Jämfört med kommersiella LM:er visade Mai-DXO högre diagnostisk noggrannhet och en betydande minskning av medicinska kostnader på mer än hälften. Till exempel uppnådde O3-modellen 78,6 % diagnostisk noggrannhet vid 7 850 USD, medan May-DXO uppnådde 79,9 % noggrannhet på bara 2 397 USD eller 85,5 % vid 7 184 USD.

MAI-DXO uppnådde detta genom att simulera en virtuell panel av "läkaragenter" med olika roller i hypotesgenerering, testval, kostnadsmedvetenhet och felkontroll. Till skillnad från den grundläggande AI-prompten tillät denna strukturerade orkestrering att systemet var iterativt och effektivt.

Mai-Dxo är ett modellagnostiskt tillvägagångssätt som har visat på noggrannhetsvinster i olika språkmodeller, inte bara O3 Foundation-modellen.

Slutsatser och framtidsutsikter

Resultaten av den aktuella studien visar den högre diagnostiska noggrannheten och kostnadseffektiviteten hos AI-system när de bearbetar iterativt och noggrant. Sdbench och Mai-Dxo gav en empiriskt baserad grund för att utveckla AI-assisterad diagnostik under realistiska begränsningar.

I framtiden behöver Mai-DXO valideras i kliniska miljöer där sjukdomsprevalens och förekomst förekommer lika ofta som dagligen snarare än som ett sällsynt tillfälle. Dessutom krävs storskaliga interaktiva medicinska riktmärken med fler än 304 fall. Att införliva visuella och andra sensoriska modaliteter såsom bildbehandling kan också förbättra diagnostisk noggrannhet utan att kompromissa med kostnadseffektiviteten.

Författarna noterar dock viktiga begränsningar. NEJM -CPC-fall väljs ut för deras svårighetsgrad och speglar inte vardagliga kliniska presentationer. Studien inkluderade inte friska patienter eller mätte falska positiva frekvenser. Dessutom är uppskattningar av diagnostiska kostnader baserade på amerikanska priser och kan variera över hela världen.

Modellerna testades också på en bibehållen testuppsättning av nya fall (2024-2025) för att bedöma generalisering och undvika överanpassning, eftersom många av dessa fall släpptes efter träningsstoppet för de flesta modeller.

Uppsatsen väcker också en bredare fråga: Ska vi jämföra AI-system med enskilda läkare eller fullständiga medicinska team? Eftersom Mai-Dxo efterliknar samarbete mellan flera specialister, kan jämförelsen återspegla något närmare teambaserad vård än individuell praktik.

Forskningen tyder dock på att strukturerade AI-system som Mai-DXO en dag kan stödja eller förstärka kliniker, särskilt i miljöer där tillgången till specialister är begränsad eller dyr.

Ladda ner din PDF-kopia nu!

*Viktigt meddelande: ArxivPublicera preliminära vetenskapliga rapporter som inte är peer-reviewed och därför inte anses vara avgörande, vägleda klinisk praxis/hälsorelaterade beteenden eller behandlas som etablerad information.


Källor:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405