Het AI-systeem evenaart de diagnostische nauwkeurigheid en verlaagt tegelijkertijd de medische kosten
Uit een nieuw onderzoek blijkt dat het AI-aangedreven diagnostische systeem van Microsoft beter presteerde dan ervaren artsen bij het sneller, goedkoper en nauwkeuriger oplossen van de meest uitdagende medische gevallen. Studie: Sequentiële diagnose met taalmodellen. Beeldcredits: MetamorWorks/Shutterstock.com *Belangrijke openbaarmaking: Arxiv publiceert voorlopige wetenschappelijke rapporten die niet door vakgenoten zijn beoordeeld en daarom niet als overtuigend worden beschouwd, de klinische praktijk/gezondheidsgerelateerd gedrag begeleiden of als gevestigde informatie worden behandeld. Een recent onderzoek naar de Arxiv Preprint Servers vergeleek de diagnostische nauwkeurigheid en de middelenuitgaven van AI-systemen met die van artsen in complexe gevallen. Het Microsoft AI-team demonstreerde het efficiënte gebruik van kunstmatige intelligentie (AI) in...
Het AI-systeem evenaart de diagnostische nauwkeurigheid en verlaagt tegelijkertijd de medische kosten
Uit een nieuw onderzoek blijkt dat het AI-aangedreven diagnostische systeem van Microsoft beter presteerde dan ervaren artsen bij het sneller, goedkoper en nauwkeuriger oplossen van de meest uitdagende medische gevallen.
Studie: Sequentiële diagnose met taalmodellen. Afbeelding tegoed: MetamorWorks/Shutterstock.com
*Belangrijke mededeling: ArxivPubliceer voorlopige wetenschappelijke rapporten die niet door vakgenoten zijn beoordeeld en daarom niet als overtuigend worden beschouwd, die de klinische praktijk/gezondheidsgerelateerd gedrag begeleiden, of worden behandeld als gevestigde informatie.
Een recent onderzoek naar deArxivPreprint Server vergeleek de diagnostische nauwkeurigheid en de middelenuitgaven van AI-systemen met die van artsen in complexe gevallen. Het Microsoft AI-team demonstreerde het efficiënte gebruik van kunstmatige intelligentie (AI) in de geneeskunde om diagnostische uitdagingen aan te pakken die artsen moeten ontcijferen.
Sequentiële diagnose en taalmodellen
Artsen diagnosticeren vaak een ziekte bij patiënten via een klinisch redeneerproces dat stap voor stap, iteratief ondervragen en testen omvat. Zelfs met beperkte initiële informatie beperken artsen de mogelijke diagnose door de patiënt te ondervragen en deze te bevestigen door middel van biochemische tests, beeldvorming, biopsie en andere diagnostische procedures.
Het oplossen van een complexe zaak vereist een uitgebreide reeks vaardigheden, waaronder het identificeren van de meest kritische vragen of tests die moeten worden gevolgd, het besteden van aandacht aan de testkosten om een toenemende belasting voor de patiënt te voorkomen, en het herkennen van bewijsmateriaal om een betrouwbare diagnose te stellen.
Verschillende onderzoeken hebben de verbeterde efficiëntie van taalmodellen (LMS) aangetoond bij het afnemen van medische vergunningsexamens en zeer gestructureerde diagnostische vignetten. De prestaties van de meeste LM's zijn echter geëvalueerd onder kunstmatige omstandigheden die drastisch verschillen van de klinische omgevingen in de echte wereld.
De meeste LMS-modellen voor diagnostische beoordelingen zijn gebaseerd op een meerkeuzevragenlijst en de diagnose wordt gesteld op basis van een vooraf gedefinieerde antwoordenset. Een kortere sequentiële diagnostische cyclus vergroot het risico op overschatting van de modelcompetentie van de statische benchmarks. Bovendien brengen deze diagnostische modellen het risico met zich mee van het willekeurig bestellen van tests en voortijdige diagnostische afsluiting. Daarom is er dringend behoefte aan een AI-systeem dat is gebaseerd op een sequentiële diagnostische cyclus om de diagnostische nauwkeurigheid te verbeteren en de testkosten te verlagen.
Over de studie
Om de bovengenoemde nadelen van LMS-modellen voor klinische diagnose te ondervangen, hebben wetenschappers de Sequential Diagnostic Benchmark (SDBench) ontwikkeld als een interactief raamwerk voor het evalueren van diagnostische middelen (menselijk of AI) door middel van realistische opeenvolgende klinische ontmoetingen.
Om de diagnostische nauwkeurigheid te beoordelen, werd in het huidige onderzoek gebruik gemaakt van wekelijkse gevallen die zijn gepubliceerd in de New England Journal of Medicine (NEJM), 's werelds toonaangevende medische tijdschrift. Dit tijdschrift publiceert doorgaans casusnotities van patiënten uit het Massachusetts General Hospital in een gedetailleerd, verhalend formaat. Deze gevallen behoren tot de diagnostisch meest uitdagende en intellectueel veeleisende gevallen in de klinische geneeskunde en vereisen vaak meerdere specialisten en diagnostische tests om een diagnose te bevestigen.
Sdbench door 304 gevallen van de NEJM Clinicopathologic Conference (2017-2025) in stapsgewijze diagnostische ontmoetingen. Medische gegevens omvatten klinische presentaties in definitieve diagnoses, variërend van veel voorkomende ziekten (bijv. Longontsteking) tot zeldzame aandoeningen (bijv. Neonatale hypoglykemie). Met behulp van het interactieve platform beslissen diagnostische agenten welke vragen ze moeten stellen, welke tests ze moeten bestellen en wanneer ze een diagnose moeten bevestigen.
Information Gatekeeper is een taalmodel dat klinische details uit een uitgebreid casusdossier alleen onthult wanneer er expliciet naar wordt gevraagd vanuit een uitgebreid casusdossier. Het kan ook aanvullende casusconsistente informatie voor tests opleveren die niet in het oorspronkelijke CPC-verhaal is beschreven. Nadat de definitieve diagnose was gesteld op basis van de informatie ontvangen van de poortwachter, werd de nauwkeurigheid van de klinische beoordeling getoetst aan de daadwerkelijke diagnose. Bovendien werden de cumulatieve kosten van alle aangevraagde diagnostische tests die bij echte diagnose werden uitgevoerd, geschat. Door de diagnostische nauwkeurigheid en de diagnostische kosten te beoordelen, geeft Sdbench aan hoe dicht we bij het bieden van hoogwaardige zorg tegen duurzame kosten zijn.
Studieresultaten
De huidige studie analyseerde de prestaties van alle diagnostische middelen op de SDBEN. AI-agentia werden geëvalueerd in alle 304 NEJM-gevallen, terwijl artsen werden geëvalueerd in een behouden subset van 56 testsets. Uit dit onderzoek bleek dat AI-agenten beter presteerden dan artsen in deze subgroep.
Artsen die in de VS en Groot-Brittannië werkzaam zijn en gemiddeld twaalf jaar klinische ervaring hebben, behaalden op SDBench een diagnostische nauwkeurigheid van 20% tegen een gemiddelde kostprijs van $2.963 per geval, wat de inherente moeilijkheid van de benchmark onderstreept. Artsen besteedden gemiddeld 11,8 minuten per casus en vroegen 6,6 vragen en 7,2 tests op. GPT -4o presteerde beter dan artsen wat betreft zowel diagnostische nauwkeurigheid als kosten. In de handel verkrijgbare kant-en-klare modellen bieden variërende diagnostische nauwkeurigheid en kosten.
De huidige studie introduceerde ook de MAI Diagnostic Orchestrator (MAI-DXO), een platform dat samenwerkt met artsen en dat een hogere diagnostische efficiëntie aantoont dan menselijke artsen en commerciële taalmodellen. Vergeleken met commerciële LM's vertoonde Mai-DXO een hogere diagnostische nauwkeurigheid en een aanzienlijke vermindering van de medische kosten met meer dan de helft. Het kant-en-klare O3-model behaalde bijvoorbeeld een diagnostische nauwkeurigheid van 78,6% voor $ 7.850, terwijl May-DXO een nauwkeurigheid van 79,9% behaalde voor slechts $ 2.397 of 85,5% voor $ 7.184.
MAI-DXO heeft dit bereikt door een virtueel panel van ‘doctor agents’ te simuleren met verschillende rollen bij het genereren van hypothesen, testselectie, kostenbewustzijn en foutcontrole. In tegenstelling tot de basis-AI-prompt zorgde deze gestructureerde orkestratie ervoor dat het systeem iteratief en efficiënt kon zijn.
Mai-Dxo is een model-agnostische benadering die nauwkeurigheidswinsten heeft aangetoond in verschillende taalmodellen, niet alleen in het O3 Foundation-model.
Conclusies en toekomstperspectieven
De resultaten van het huidige onderzoek laten de hogere diagnostische nauwkeurigheid en kosteneffectiviteit van AI-systemen zien wanneer ze iteratief en zorgvuldig verwerken. Sdbench en Mai-Dxo vormden een empirisch gebaseerde basis voor het bevorderen van AI-ondersteunde diagnostiek onder realistische beperkingen.
In de toekomst moet Mai-DXO worden gevalideerd in klinische omgevingen waar de prevalentie en presentatie van ziekten net zo vaak voorkomen als op dagelijkse basis in plaats van in zeldzame gevallen. Bovendien zijn grootschalige interactieve medische benchmarks met meer dan 304 gevallen nodig. Het integreren van visuele en andere sensorische modaliteiten zoals beeldvorming zou ook de diagnostische nauwkeurigheid kunnen verbeteren zonder de kosteneffectiviteit in gevaar te brengen.
De auteurs wijzen echter op belangrijke beperkingen. NEJM-CPC-gevallen worden geselecteerd vanwege hun moeilijkheidsgraad en weerspiegelen niet de dagelijkse klinische presentaties. Bij het onderzoek waren geen gezonde patiënten betrokken en er werden geen fout-positieve percentages gemeten. Bovendien zijn schattingen van de diagnostische kosten gebaseerd op Amerikaanse prijzen en kunnen ze wereldwijd variëren.
De modellen werden ook getest op een bewaarde testset van recente gevallen (2024-2025) om de generalisatie te beoordelen en overfitting te voorkomen, aangezien veel van deze gevallen voor de meeste modellen na de trainingsonderbreking werden vrijgegeven.
Het artikel roept ook een bredere vraag op: moeten we AI-systemen vergelijken met individuele artsen of met volledige medische teams? Omdat Mai-Dxo de samenwerking tussen meerdere specialisten nabootst, lijkt de vergelijking wellicht iets meer op teamgebaseerde zorg dan op individuele praktijk.
Het onderzoek suggereert echter dat gestructureerde AI-systemen zoals Mai-DXO op een dag artsen kunnen ondersteunen of versterken, vooral in omgevingen waar de toegang tot specialisten beperkt of duur is.
Download nu uw PDF-exemplaar!
*Belangrijke mededeling: ArxivPubliceer voorlopige wetenschappelijke rapporten die niet door vakgenoten zijn beoordeeld en daarom niet als overtuigend worden beschouwd, die de klinische praktijk/gezondheidsgerelateerd gedrag begeleiden, of worden behandeld als gevestigde informatie.
Bronnen:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405