Tekoäly lääketieteessä: vallankumoukselliset työkalut, epävarmat tulokset
Voiko tekoäly todella mullistaa terveydenhuollon? Järjestelmällinen tarkastelu paljastaa potilasedun piilotetut aukot ja mielekkään kliinisen integraation esteet. Äskettäin The Lancet Regional Health - Europe -lehdessä julkaistussa tutkimuksessa tutkijaryhmä arvioi terveydenhuollon ammattilaisten käyttämien tekoälyyn (AI) perustuvien algoritmisten päätöksentekojärjestelmien (ADM) etuja ja haittoja verrattuna tavanomaiseen hoitoon keskittyen potilaiden kannalta tärkeisiin tuloksiin. Tausta Tekoälyn kehitys on mahdollistanut, että järjestelmät ovat läpäisseet lääketieteen asiantuntijat sellaisissa tehtävissä kuin diagnoosi, yksilöllinen lääketiede, potilaiden seuranta ja lääkekehitys. Näistä edistysaskelista huolimatta on edelleen epäselvää, onko parantunut...
Tekoäly lääketieteessä: vallankumoukselliset työkalut, epävarmat tulokset
Voiko tekoäly todella mullistaa terveydenhuollon? Järjestelmällinen tarkastelu paljastaa potilasedun piilotetut aukot ja mielekkään kliinisen integraation esteet.
Äskettäin julkaistussa tutkimuksessaLancet Regional Health – EurooppaTutkijaryhmä arvioi terveydenhuollon ammattilaisten käyttämien tekoälyyn (AI) perustuvien algoritmisten päätöksentekojärjestelmien (ADM) etuja ja haittoja verrattuna tavanomaiseen hoitoon keskittyen potilaan kannalta tärkeisiin tuloksiin.
tausta
Tekoälyn edistysaskeleet ovat mahdollistaneet, että järjestelmät ovat läpäisseet lääketieteen asiantuntijat sellaisissa tehtävissä kuin diagnoosi, yksilöllinen lääketiede, potilaiden seuranta ja lääkekehitys. Näistä edistysaskeleista huolimatta on edelleen epäselvää, johtavatko parantunut diagnostinen tarkkuus ja suorituskykymittarit konkreettisia potilaiden etuja, kuten kuolleisuuden tai sairastuvuuden vähenemistä.
Nykyinen tutkimus asettaa usein analyyttisen suorituskyvyn etusijalle kliinisten tulosten sijaan, ja monet tekoälyyn perustuvat lääketieteelliset laitteet hyväksytään ilman satunnaistettujen kontrolloitujen tutkimusten (RCT) näyttöä.
Lisäksi avoimuuden ja näihin teknologioihin liittyvien haittojen standardoitujen arvioiden puute herättävät eettisiä ja käytännön ongelmia. Tämä korostaa kriittistä aukkoa tekoälytutkimuksessa ja -kehityksessä, joka vaatii lisäarviointeja, jotka keskittyvät potilaiden kannalta merkityksellisiin tuloksiin, jotta varmistetaan mielekäs ja turvallinen integrointi terveydenhuoltoon.
Tietoja tutkimuksesta
Rajoitettu ulkoinen validointi: Useimmat arvioidut tekoälyjärjestelmät kehitettiin sisäisten tietojen perusteella, ja vain harvat tutkimukset raportoivat ulkoisesta validoinnista, mikä herättää huolta niiden yleistettävyydestä eri potilasryhmiin.
Tässä systemaattisessa tarkastelussa noudatettiin PRISMA-ohjeita (Preferred Reporting Items for Systematic Reviews and Meta-Analysis) menetelmän tarkkuuden varmistamiseksi. Hakuja tehtiin Medical Literature Analysis and Retrieval System Online (MEDLINE), Excerpta Medica Database (EMBASE), julkinen/julkaisija MEDLINE (PubMed) ja Institute of Electrical and Electronics Engineers (IEEE) Xplore, ja ne kattoivat 10 vuoden ajanjakson 27. maaliskuuta ADM:ään asti, jolloin AI-2024:n terveyteen liittyvistä tutkimuksista tuli relevantteja järjestelmiä. Haku sisälsi tekoälyyn, koneoppimiseen (ML), päätösalgoritmeihin, terveydenhuollon ammattilaisiin ja potilaiden tuloksiin liittyviä termejä.
Tukikelpoisiin tutkimuksiin kuuluivat interventio- tai havainnointisuunnitelmat tekoälyn päätöksenteon tukijärjestelmillä, jotka on kehitetty ML:n kanssa tai hyödyntämällä sitä. Tutkimuksissa oli raportoitava potilaan kannalta merkitykselliset tulokset, kuten kuolleisuus, sairastuvuus, sairaalahoidon pituus, takaisinotto tai terveyteen liittyvä elämänlaatu. Poissulkemiskriteerit sisälsivät tutkimukset, joissa ei ollut ennakkoilmoittautumista, ilman hoidon valvontastandardia tai jotka keskittyivät robotiikkaan tai muihin järjestelmiin, jotka eivät liity tekoälyyn perustuvaan päätöksentekoon. Tämän katsauksen protokolla oli esirekisteröity International Prospective Register of Systematic Reviews -rekisteriin (PROSPERO) ja kaikki muutokset dokumentoitiin.
Arvioijat tarkastivat nimet, tiivistelmät ja kokotekstit ennalta määritettyjen kriteerien perusteella. Tietojen talteenotto ja laadunarviointi suoritettiin itsenäisesti standardoiduilla lomakkeilla. Harhariskiä arvioitiin käyttämällä Cochrane Risk of Bias 2 (RoB 2) -työkalua ja Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) -työkalua mahdollisten hämmentäviä tekijöitä huomioon ottamiseksi, kun taas raportoinnin läpinäkyvyys arvioitiin käyttämällä Consolidated Standards Expansion of Reporting Trials and Transparent Standards Expansion of Reporting Trials -raporttia (Artifial Intelligence - CONSORT-AI) ennustemalli yksilöllistä ennustetta tai diagnoosia varten - tekoäly (TRIPOD-AI) -kehys.
Poimittu data sisälsi tutkimusasetukset, suunnittelun, interventio- ja vertailutiedot, potilaiden ja ammattihenkilöiden demografiset tiedot, algoritmin ominaisuudet ja tulosmittaukset. Tutkimukset luokiteltiin myös tekoälyjärjestelmän tyypin, kliinisen alueen, ennustetavoitteiden sekä sääntely- ja rahoitustietojen mukaan. Analyysissa tutkittiin myös, oliko tekoälyjärjestelmien ainutlaatuinen panos tuloksiin eristetty ja validoitu.
Tutkimustulokset
Aliedustetut erikoisalat: Vaikka psykiatrian ja onkologian tutkimukset olivat hyvin edustettuina, muut erikoisalat, kuten tehohoito ja keuhkotauti, ovat edelleen aliedustettuina, mikä saattaa vääristää tulosten laajempaa sovellettavuutta.
Järjestelmällinen tarkastelu sisälsi 19 tutkimusta, mukaan lukien 18 RCT:tä ja yhden prospektiivisen kohorttitutkimuksen, jotka valittiin 3 000 tietueen tarkistamisen jälkeen. Nämä tutkimukset suoritettiin eri alueilla, mukaan lukien yhdeksän Yhdysvalloissa, neljä Euroopassa, kolme Kiinassa ja muita maailmanlaajuisesti. Asetuksiin kuului 14 tutkimusta sairaalassa, kolme poliklinikalla, yksi hoitokodissa ja yksi sekaympäristössä.
Opinnot kattoivat erilaisia lääketieteen erikoisaloja, mukaan lukien onkologia (4 tutkimusta), psykiatria (3 tutkimusta), sisäsairaalan lääketiede, neurologia ja anestesiologia (kukin 2 tutkimusta) sekä yksittäisiä opintoja diabetologiasta, keuhkoterapiasta, tehohoidosta ja muista erikoisaloista.
Keskimääräinen osallistujamäärä kaikissa tutkimuksissa oli 243 ja keski-ikä 59,3 vuotta. Naisten osuus oli keskimäärin 50,5 %, ja 10 tutkimusta raportoivat rodun tai etnisen koostumuksen, ja valkoisten osallistujien mediaani oli 71,4 %. Kahdessatoista tutkimuksessa kuvattiin aiottuja terveydenhuollon ammattilaisia, kuten esimerkiksi sairaanhoitajia tai perusterveydenhuollon tarjoajia, ja yhdeksän yksityiskohtaista koulutusohjelmaa, jotka vaihtelivat alustan lyhyistä esittelyistä usean päivän ohjattuihin istuntoihin.
AI-järjestelmät eroavat tyypistä ja toiminnasta. Seitsemässä tutkimuksessa käytettiin seurantajärjestelmiä reaaliaikaiseen seurantaan ja ennakoiviin hälytyksiin, kuudessa hoidon personointijärjestelmää ja neljässä tutkimuksessa integroitiin useita toimintoja. Esimerkkejä olivat algoritmit diabeteksen sokeritasapainon hallintaan, henkilökohtainen psykiatrinen hoito ja laskimotromboembolian seuranta. Kehitystietolähteet vaihtelivat suurista sisäisistä tietojoukoista yhdistettyyn usean laitoksen tietoihin, joissa käytettiin erilaisia ML-malleja, kuten gradienttitehostusta, hermoverkkoja, Bayesin luokittajia ja regressiopohjaisia malleja. Tästä kehityksestä huolimatta algoritmien ulkoinen validointi oli rajallista useimmissa tutkimuksissa, mikä herätti huolta niiden yleistettävyydestä laajempiin potilasryhmiin.
Harhaisuuden riski arvioitiin alhaiseksi neljässä RCT:ssä, kohtalaiseksi seitsemässä ja korkeaksi muussa seitsemässä, kun taas kohorttitutkimuksessa oli vakava harhariski. CONSORT-AI- ja TRIPOD-AI-ohjeiden noudattaminen vaihteli: kolmessa tutkimuksessa saavutettiin täydellinen noudattaminen, kun taas toisissa tutkimukset olivat korkeasta alhaiseen. Useimmat ennen näiden ohjeiden käyttöönottoa tehdyt tutkimukset osoittivat kohtalaista noudattamista, vaikka selkeät viittaukset ohjeisiin olivat harvinaisia.
Tulokset osoittivat yhdistelmän etuja ja haittoja. Kaksitoista tutkimusta raportoivat potilaiden kannalta merkittävistä eduista, mukaan lukien kuolleisuuden väheneminen, parantunut masennuksen ja kivun hallinta sekä elämänlaadun paraneminen. Kuitenkin vain kahdeksaan tutkimukseen sisältyi standardoituja haittojen arviointeja, ja useimmat eivät onnistuneet dokumentoimaan kattavasti haittatapahtumia. Vaikka kuusi tekoälyjärjestelmää sai viranomaishyväksynnän, sääntelytilan, tutkimuksen laadun ja potilaiden tulosten väliset suhteet jäivät epäselväksi.
Johtopäätökset
Tämä systemaattinen katsaus korostaa korkealaatuisten tutkimusten puutetta, joissa arvioitaisiin potilaalle tärkeitä tekoälyyn liittyvien ADM-järjestelmien tuloksia terveydenhuollossa. Vaikka hyödyt osoittivat johdonmukaisesti psykiatriaa, muut alueet raportoivat vaihtelevista tuloksista ja vain vähän näyttöä kuolleisuuden, ahdistuneisuuden ja sairaalahoitojen paranemisesta. Useimmista tutkimuksista puuttui tasapainoinen haittojen ja hyötyjen arviointi, eivätkä ne pystyneet eristämään tekoälyn ainutlaatuista vaikutusta.
Löydökset korostavat pikaista tarvetta avoimeen raportointiin, vankoihin validointikäytäntöihin ja standardoituihin kehyksiin ohjaamaan tekoälyn turvallista ja tehokasta integrointia kliinisiin ympäristöihin.
Lähteet: