AI-järjestelmä vastaa diagnostisen tarkkuuden ja vähentää lääketieteellisiä kustannuksia
Uudessa tutkimuksessa Microsoftin tekoälyllä toimiva diagnostiikkajärjestelmä ylitti kokeneet lääkärit ratkaisemaan haastavimmat lääketieteelliset tapaukset nopeammin, halvemmin ja tarkemmin. Tutkimus: Sekventiaalinen diagnoosi kielimalleilla. Kuvan luotto: MetamorWorks/Shutterstock.com *Tärkeä paljastaminen: Arxiv julkaisee alustavia tieteellisiä raportteja, joita ei ole vertaisarvioitu ja joita ei siksi pidetä vakuuttavina, jotka ohjaavat kliinistä käytäntöä/terveyteen liittyvää käyttäytymistä tai joita käsitellään vakiintuneina tietoina. Äskettäin tehdyssä Arxiv Preprint Server -palvelimia koskevassa tutkimuksessa verrattiin tekoälyjärjestelmien diagnostista tarkkuutta ja resurssien kustannuksia kliinikkojen vastaaviin monimutkaisissa tapauksissa. Microsoft AI -tiimi esitteli tekoälyn tehokkaan käytön...
AI-järjestelmä vastaa diagnostisen tarkkuuden ja vähentää lääketieteellisiä kustannuksia
Uudessa tutkimuksessa Microsoftin tekoälyllä toimiva diagnostiikkajärjestelmä ylitti kokeneet lääkärit ratkaisemaan haastavimmat lääketieteelliset tapaukset nopeammin, halvemmin ja tarkemmin.
Tutkimus: Sekventiaalinen diagnoosi kielimalleilla. Kuvan luotto: MetamorWorks/Shutterstock.com
*Tärkeä huomautus: ArxivJulkaise alustavia tieteellisiä raportteja, joita ei ole vertaisarvioitu ja joita ei siksi pidetä ratkaisevina, ohjaavat kliinistä käytäntöä/terveyteen liittyvää käyttäytymistä tai joita käsitellään vakiintuneina tietoina.
Tuore tutkimus aiheestaArxivPreprint Server vertasi tekoälyjärjestelmien diagnostiikkatarkkuutta ja resurssien kustannuksia kliinikkojen vastaaviin monimutkaisissa tapauksissa. Microsoft AI -tiimi osoitti tekoälyn tehokkaan käytön lääketieteessä vastaamaan diagnostisiin haasteisiin, jotka lääkäreiden on selvitettävä.
Sekvenssidiagnoosi ja kielimallit
Lääkärit diagnosoivat usein potilaiden sairauden kliinisen päättelyprosessin avulla, joka sisältää vaiheittaisen, iteratiivisen kyselyn ja testauksen. Jopa rajoitetuilla alkutiedoilla kliinikot rajoittavat mahdollista diagnoosia kyselemällä potilasta ja vahvistamalla sen biokemiallisilla testeillä, kuvantamisella, biopsialla ja muilla diagnostisilla toimenpiteillä.
Monimutkaisen tapauksen ratkaiseminen vaatii kattavan joukon taitoja, mukaan lukien kriittisimpien kysymysten tai seurattavien testien tunnistaminen, testauskustannusten huomioiminen potilastaakan lisääntymisen estämiseksi ja todisteiden tunnistaminen varman diagnoosin tekemiseksi.
Useat tutkimukset ovat osoittaneet kielimallien (LMS) tehokkuuden parantuneen lääketieteellisten lupatutkimusten ja erittäin jäsenneltyjen diagnostisten vinjettien suorittamisessa. Useimpien LM:iden suorituskyky on kuitenkin arvioitu keinotekoisissa olosuhteissa, jotka eroavat dramaattisesti todellisista kliinisistä ympäristöistä.
Useimmat diagnostisten arvioiden LMS-mallit perustuvat monivalintakyselyyn, ja diagnoosi tehdään ennalta määritetyn vastausjoukon perusteella. Vähentynyt peräkkäinen diagnostiikkasykli lisää staattisten vertailuarvojen mallikompetenssin yliarvioimisen riskiä. Lisäksi nämä diagnostiset mallit aiheuttavat mielivaltaisen testitilauksen ja ennenaikaisen diagnoosin sulkemisen riskin. Siksi tarvitaan kiireesti peräkkäiseen diagnostiikkasykliin perustuva tekoälyjärjestelmä diagnostiikan tarkkuuden parantamiseksi ja testauskustannusten vähentämiseksi.
Tietoja tutkimuksesta
Voittaakseen edellä mainitut kliinisen diagnoosin LMS-mallien haitat tutkijat ovat kehittäneet peräkkäisen diagnostisen vertailuarvon (SDBench) interaktiiviseksi viitekehykseksi diagnostisten aineiden (ihmisen tai tekoälyn) arvioimiseksi realististen peräkkäisten kliinisten kohtaamisten kautta.
Diagnostiikan tarkkuuden arvioimiseksi nykyisessä tutkimuksessa käytettiin viikoittaisia tapauksia, jotka julkaistiin New England Journal of Medicine -lehdessä (NEJM), maailman johtavassa lääketieteellisessä lehdessä. Tämä aikakauslehti julkaisee tavallisesti Massachusetts General Hospital -potilaiden tapausmuistiinpanoja yksityiskohtaisessa, kerronnallisessa muodossa. Nämä tapaukset ovat kliinisen lääketieteen diagnostisesti haastavimpia ja älyllisesti vaativimpia ja vaativat usein useita asiantuntijoita ja diagnostisia testejä diagnoosin vahvistamiseksi.
Ohjaa 304 tapausta NEJM Clinicopathologic Conference (2017–2025) vaiheittain diagnostisiin kohtaamisiin. Lääketieteellinen tieto sisälsi kliiniset esitykset lopullisissa diagnooseissa, jotka vaihtelivat yleisistä sairauksista (esim. keuhkokuume) harvinaisiin sairauksiin (esim. vastasyntyneen hypoglykemia). Vuorovaikutteisen alustan avulla diagnostiset agentit päättävät, mitä kysymyksiä he kysyvät, mitä testejä tilataan ja milloin diagnoosi vahvistetaan.
Information Gatekeeper on kielimalli, joka paljastaa kliiniset tiedot kattavasta tapaustiedostosta vain, kun niitä pyydetään nimenomaisesti kattavasta tapaustiedostosta. Se voi myös tarjota tapauskohtaisia lisätietoa testausta varten, jota ei ole kuvattu alkuperäisessä CPC-selostuksessa. Kun lopullinen diagnoosi oli tehty portinvartijalta saatujen tietojen perusteella, kliinisen arvioinnin tarkkuus testattiin todellista diagnoosia vastaan. Lisäksi arvioitiin kaikkien todellisessa diagnoosissa suoritettujen vaadittujen diagnostisten testien kumulatiiviset kustannukset. Arvioimalla diagnostiikan tarkkuutta ja diagnostisia kustannuksia Sdbench osoittaa, kuinka lähellä olemme korkealaatuisen hoidon tarjoamista kestävin kustannuksin.
Tutkimustulokset
Tässä tutkimuksessa analysoitiin kaikkien diagnostisten aineiden suorituskykyä SDBEN:ssä. Tekoälytekijöitä arvioitiin kaikissa 304 NEJM-tapauksessa, kun taas lääkärit arvioitiin säilytetyssä 56 testisarjan osajoukossa. Tässä tutkimuksessa havaittiin, että tekoälyagentit suoriutuivat paremmin kuin lääkärit tässä alaryhmässä.
Yhdysvalloissa ja Isossa-Britanniassa työskentelevät lääkärit, joilla on mediaani 12 vuoden kliinisen kokemuksen, saavuttivat 20 % diagnostisen tarkkuuden keskimäärin 2 963 $ tapausta kohden SDBenchissä, mikä korostaa vertailuarvon luontaista vaikeutta. Lääkärit käyttivät tapausta kohti keskimäärin 11,8 minuuttia ja pyysivät 6,6 kysymystä ja 7,2 testiä. GPT -4o päihitti lääkärit sekä diagnostisen tarkkuuden että kustannusten suhteen. Kaupallisesti saatavilla olevat valmiit mallit ovat tarjonneet vaihtelevan diagnostisen tarkkuuden ja hinnan.
Nykyisessä tutkimuksessa esiteltiin myös MAI Diagnostic Orchestrator (MAI-DXO), lääkäreiden kanssa yhteistyössä toimiva alusta, joka osoitti korkeampaa diagnostista tehokkuutta kuin ihmislääkärit ja kaupalliset kielimallit. Verrattuna kaupallisiin LM:iin, Mai-DXO osoitti korkeampaa diagnostista tarkkuutta ja lääketieteellisten kustannusten merkittävää, yli puolta alenemista. Esimerkiksi valmis O3-malli saavutti 78,6 prosentin diagnostisen tarkkuuden 7 850 dollarilla, kun taas May-DXO saavutti 79,9 prosentin tarkkuuden vain 2 397 dollarilla tai 85,5 prosentin tarkkuudella 7 184 dollarilla.
MAI-DXO saavutti tämän simuloimalla virtuaalista "lääkäriagenttien" paneelia, jolla on eri rooleja hypoteesien luomisessa, testien valinnassa, kustannustietoisuudessa ja virheiden tarkistuksessa. Toisin kuin AI-kehote, tämä jäsennelty orkestrointi mahdollisti järjestelmän iteratiivisen ja tehokkaan.
Mai-Dxo on malliagnostinen lähestymistapa, joka on osoittanut tarkkuusparannusta useissa kielimalleissa, ei vain O3 Foundation -mallissa.
Päätelmät ja tulevaisuuden näkymät
Tämänhetkisen tutkimuksen tulokset osoittavat tekoälyjärjestelmien korkeamman diagnostisen tarkkuuden ja kustannustehokkuuden, kun niitä käsitellään iteratiivisesti ja huolellisesti. Sdbench ja Mai-Dxo tarjosivat empiirisesti perustuvan perustan tekoälyavusteisen diagnosoinnin edistämiselle realistisissa rajoituksissa.
Tulevaisuudessa Mai-DXO on validoitava kliinisissä olosuhteissa, joissa sairauden esiintyvyys ja esiintyminen esiintyvät niin usein kuin päivittäin kuin harvoin. Lisäksi tarvitaan laajamittaisia interaktiivisia lääketieteellisiä vertailuarvoja, joissa on yli 304 tapausta. Visuaalisten ja muiden sensoristen modaliteettien, kuten kuvantamisen, sisällyttäminen voisi myös parantaa diagnostista tarkkuutta kustannustehokkuutta tinkimättä.
Kirjoittajat huomauttavat kuitenkin tärkeitä rajoituksia. NEJM -CPC-tapaukset valitaan niiden vaikeusasteen mukaan, eivätkä ne heijasta jokapäiväisiä kliinisiä esityksiä. Tutkimukseen ei osallistunut terveitä potilaita eikä mitattu vääriä positiivisia määriä. Lisäksi diagnostiset kustannusarviot perustuvat Yhdysvaltojen hintoihin ja voivat vaihdella maailmanlaajuisesti.
Mallit testattiin myös viimeaikaisten tapausten (2024-2025) testisarjalla yleistyksen arvioimiseksi ja liiallisen sovittamisen välttämiseksi, koska monet näistä tapauksista julkaistiin useimpien mallien koulutuskatkaisun jälkeen.
Paperi herättää myös laajemman kysymyksen: pitäisikö meidän verrata tekoälyjärjestelmiä yksittäisiin lääkäreihin vai kokonaisiin lääketieteellisiin ryhmiin? Koska Mai-Dxo jäljittelee useiden asiantuntijoiden välistä yhteistyötä, vertailu saattaa kuvastaa hieman lähempänä ryhmähoitoa kuin yksittäistä harjoittelua.
Tutkimus kuitenkin viittaa siihen, että Mai-DXO:n kaltaiset jäsennellyt tekoälyjärjestelmät voivat jonakin päivänä tukea tai täydentää kliinikoita, erityisesti tilanteissa, joissa asiantuntijoiden käyttö on rajoitettua tai kallista.
Lataa PDF-kopiosi nyt!
*Tärkeä huomautus: ArxivJulkaise alustavia tieteellisiä raportteja, joita ei ole vertaisarvioitu ja joita ei siksi pidetä ratkaisevina, ohjaavat kliinistä käytäntöä/terveyteen liittyvää käyttäytymistä tai joita käsitellään vakiintuneina tietoina.
Lähteet:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405