AI-systemet matcher diagnostisk nøjagtighed, mens det reducerer medicinske omkostninger

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

I en ny undersøgelse overgik Microsofts AI-drevne diagnostiske system erfarne læger i at løse de mest udfordrende medicinske tilfælde hurtigere, billigere og mere præcist. Studie: Sekventiel diagnose med sprogmodeller. Billedkreditering: MetamorWorks/Shutterstock.com *Vigtig offentliggørelse: Arxiv udgiver foreløbige videnskabelige rapporter, der ikke er peer-reviewed og derfor ikke anses for afgørende, vejleder klinisk praksis/sundhedsrelateret adfærd eller behandles som etableret information. En nylig undersøgelse af Arxiv Preprint-servere sammenlignede diagnostisk nøjagtighed og ressourceforbrug for AI-systemer med klinikeres i komplekse sager. Microsoft AI-teamet demonstrerede den effektive brug af kunstig intelligens (AI) i...

AI-systemet matcher diagnostisk nøjagtighed, mens det reducerer medicinske omkostninger

I en ny undersøgelse overgik Microsofts AI-drevne diagnostiske system erfarne læger i at løse de mest udfordrende medicinske tilfælde hurtigere, billigere og mere præcist.

Studie: Sekventiel diagnose med sprogmodeller. Billedkredit: MetamorWorks/Shutterstock.com

*Vigtig meddelelse: ArxivUdgiv foreløbige videnskabelige rapporter, der ikke er peer-reviewed og derfor ikke anses for afgørende, vejleder klinisk praksis/sundhedsrelateret adfærd eller behandles som etableret information.

En nylig undersøgelse omArxivPreprint Server sammenlignede diagnosticeringsnøjagtigheden og ressourceforbruget for AI-systemer med klinikeres i komplekse sager. Microsoft AI-teamet demonstrerede den effektive brug af kunstig intelligens (AI) i medicin til at løse diagnostiske udfordringer, som læger skal dechifrere.

Sekventiel diagnose og sprogmodeller

Læger diagnosticerer ofte patienter for en sygdom gennem en klinisk begrundelsesproces, der involverer trin-for-trin, iterativ udspørgen og testning. Selv med begrænset indledende information indsnævrer klinikere den mulige diagnose ved at udspørge patienten og bekræfte den gennem biokemisk testning, billeddannelse, biopsi og andre diagnostiske procedurer.

Løsning af en kompleks sag kræver et omfattende sæt færdigheder, herunder at identificere de mest kritiske spørgsmål eller tests, der skal følges, være opmærksom på testomkostninger for at forhindre stigende patientbyrde og genkende beviser for at stille en sikker diagnose.

Adskillige undersøgelser har vist den forbedrede effektivitet af sprogmodeller (LMS) til at udføre medicinske licensundersøgelser og meget strukturerede diagnostiske vignetter. Imidlertid er ydeevnen af ​​de fleste LM'er blevet evalueret under kunstige forhold, der er drastisk forskellige fra virkelige kliniske miljøer.

De fleste LMS-modeller til diagnostiske vurderinger er baseret på en multiple-choice-quiz, og diagnosen stilles ud fra et foruddefineret svarsæt. En reduceret sekventiel diagnostisk cyklus øger risikoen for at overvurdere modelkompetencen af ​​de statiske benchmarks. Derudover udgør disse diagnostiske modeller risikoen for vilkårlig testbestilling og for tidlig diagnostisk lukning. Derfor er der et presserende behov for et AI-system baseret på en sekventiel diagnostisk cyklus for at forbedre diagnostisk nøjagtighed og reducere testomkostninger.

Om studiet

For at overvinde de ovennævnte ulemper ved LMS-modeller til klinisk diagnose, har forskere udviklet Sequential Diagnostic Benchmark (SDBench) som en interaktiv ramme til evaluering af diagnostiske midler (menneske eller AI) gennem realistiske sekventielle kliniske møder.

For at vurdere diagnostisk nøjagtighed brugte den aktuelle undersøgelse ugentlige tilfælde offentliggjort i New England Journal of Medicine (NEJM), verdens førende medicinske tidsskrift. Dette tidsskrift udgiver typisk casenotater om Massachusetts General Hospital-patienter i et detaljeret, fortællende format. Disse tilfælde er blandt de mest diagnostisk udfordrende og intellektuelt krævende i klinisk medicin og kræver ofte flere specialister og diagnostiske tests for at bekræfte en diagnose.

Sdbench med 304 cases fra NEJM Clinicopathologic Conference (2017-2025) til trinvise diagnostiske møder. Medicinske data inkluderede kliniske præsentationer i definitive diagnoser lige fra almindelige sygdomme (f.eks. lungebetændelse) til sjældne lidelser (f.eks. neonatal hypoglykæmi). Ved hjælp af den interaktive platform beslutter diagnostiske agenter, hvilke spørgsmål de skal stille, hvilke tests der skal bestilles, og hvornår de skal bekræfte en diagnose.

Information Gatekeeper er en sprogmodel, der kun afslører kliniske detaljer fra en omfattende sagsmappe, når den eksplicit forespørges fra en omfattende sagsjournal. Det kan også give yderligere case-konsistente oplysninger til test, der ikke er beskrevet i den oprindelige CPC-fortælling. Efter at den endelige diagnose var stillet på baggrund af informationen modtaget fra gatekeeperen, blev nøjagtigheden af ​​den kliniske vurdering testet i forhold til den faktiske diagnose. Derudover blev de kumulative omkostninger for alle anmodede diagnostiske test udført i reel diagnose estimeret. Ved at vurdere diagnostisk nøjagtighed og diagnostiske omkostninger indikerer Sdbench, hvor tæt vi er på at levere pleje af høj kvalitet til en bæredygtig pris.

Studieresultater

Den aktuelle undersøgelse analyserede ydeevnen af ​​alle diagnostiske midler på SDBEN. AI-midler blev evalueret i alle 304 NEJM-tilfælde, mens læger blev evalueret i en bibeholdt undergruppe af 56 testsæt. Denne undersøgelse viste, at AI-agenter klarede sig bedre end læger i denne undergruppe.

Læger, der praktiserer i USA og Storbritannien med en median på 12 års klinisk erfaring, opnåede 20 % diagnostisk nøjagtighed til en gennemsnitlig pris på $2.963 pr. sag på SDBench, hvilket understreger benchmarkets iboende vanskelighed. Læger brugte i gennemsnit 11,8 minutter pr. sag og bad om 6,6 spørgsmål og 7,2 tests. GPT -4o klarede sig bedre end læger i både diagnostisk nøjagtighed og omkostninger. Kommercielt tilgængelige hyldemodeller har tilbudt varierende diagnostisk nøjagtighed og pris.

Den nuværende undersøgelse introducerede også MAI Diagnostic Orchestrator (MAI-DXO), en platform, der samarbejdede med læger, som viste højere diagnostisk effektivitet end menneskelige læger og kommercielle sprogmodeller. Sammenlignet med kommercielle LM'er viste Mai-DXO højere diagnostisk nøjagtighed og en betydelig reduktion i medicinske omkostninger på mere end halvdelen. For eksempel opnåede O3-modellen 78,6% diagnostisk nøjagtighed ved $7.850, mens May-DXO opnåede 79,9% nøjagtighed til kun $2.397 eller 85,5% ved $7.184.

MAI-DXO opnåede dette ved at simulere et virtuelt panel af "lægeagenter" med forskellige roller i hypotesegenerering, testvalg, omkostningsbevidsthed og fejlkontrol. I modsætning til den grundlæggende AI-prompt tillod denne strukturerede orkestrering, at systemet var iterativt og effektivt.

Mai-Dxo er en modelagnostisk tilgang, der har vist nøjagtighedsgevinster i forskellige sprogmodeller, ikke kun O3 Foundation-modellen.

Konklusioner og fremtidsudsigter

Resultaterne af den aktuelle undersøgelse viser den højere diagnostiske nøjagtighed og omkostningseffektivitet af AI-systemer, når de behandler iterativt og omhyggeligt. Sdbench og Mai-Dxo leverede et empirisk baseret grundlag for at fremme AI-assisteret diagnostik under realistiske begrænsninger.

I fremtiden skal Mai-DXO valideres i kliniske omgivelser, hvor sygdomsprævalens og præsentation forekommer så hyppigt som på daglig basis snarere end sjældent. Desuden kræves der interaktive medicinske benchmarks i stor skala med mere end 304 tilfælde. Inkorporering af visuelle og andre sensoriske modaliteter såsom billeddannelse kan også forbedre diagnostisk nøjagtighed uden at gå på kompromis med omkostningseffektiviteten.

Forfatterne bemærker dog vigtige begrænsninger. NEJM -CPC tilfælde er udvalgt for deres vanskeligheder og afspejler ikke dagligdags kliniske præsentationer. Undersøgelsen omfattede ikke raske patienter eller målte falsk positive rater. Derudover er skøn over diagnostiske omkostninger baseret på amerikanske priser og kan variere på verdensplan.

Modellerne blev også testet på et bibeholdt testsæt af nyere cases (2024-2025) for at vurdere generalisering og undgå overfitting, da mange af disse cases blev frigivet efter trænings-cutoff for de fleste modeller.

Papiret rejser også et bredere spørgsmål: Skal vi sammenligne AI-systemer med individuelle læger eller komplette medicinske teams? Fordi Mai-Dxo efterligner multi-specialist samarbejde, kan sammenligningen afspejle noget tættere på team-baseret pleje end individuel praksis.

Forskningen tyder dog på, at strukturerede AI-systemer som Mai-DXO en dag kan støtte eller forstærke klinikere, især i omgivelser, hvor adgangen til specialister er begrænset eller dyr.

Download din PDF-kopi nu!

*Vigtig meddelelse: ArxivUdgiv foreløbige videnskabelige rapporter, der ikke er peer-reviewed og derfor ikke anses for afgørende, vejleder klinisk praksis/sundhedsrelateret adfærd eller behandles som etableret information.


Kilder:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405