AI i medisin: revolusjonerende verktøy, usikre resultater

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Kan AI virkelig revolusjonere helsevesenet? En systematisk oversikt avdekker de skjulte hullene i pasientnytte og barrierer for meningsfull klinisk integrasjon. I en fersk studie publisert i The Lancet Regional Health - Europe, vurderte en gruppe forskere fordelene og skadene ved kunstig intelligens (AI)-baserte algoritmiske beslutningssystemer (ADM) brukt av helsepersonell sammenlignet med standardbehandling, med fokus på pasientrelevante utfall. Bakgrunn Fremskritt innen AI har gjort det mulig for systemer å utkonkurrere medisinske eksperter i oppgaver som diagnose, personlig tilpasset medisin, pasientovervåking og legemiddelutvikling. Til tross for disse fremskrittene, er det fortsatt uklart om forbedret ...

AI i medisin: revolusjonerende verktøy, usikre resultater

Kan AI virkelig revolusjonere helsevesenet? En systematisk oversikt avdekker de skjulte hullene i pasientnytte og barrierer for meningsfull klinisk integrasjon.

I en fersk studie publisert iThe Lancet Regional Health – Europe, evaluerte en gruppe forskere fordelene og skadene ved kunstig intelligens (AI)-baserte algoritmiske beslutningssystemer (ADM) brukt av helsepersonell sammenlignet med standardbehandling, med fokus på pasientrelevante utfall.

bakgrunn

Fremskritt innen AI har gjort det mulig for systemer å utkonkurrere medisinske eksperter i oppgaver som diagnose, personlig tilpasset medisin, pasientovervåking og legemiddelutvikling. Til tross for disse fremskrittene, er det fortsatt uklart om forbedret diagnostisk nøyaktighet og ytelsesmålinger kan føre til konkrete pasientfordeler, som redusert dødelighet eller sykelighet.

Nåværende forskning prioriterer ofte analytisk ytelse fremfor kliniske resultater, og mange AI-baserte medisinske enheter er godkjent uten støtte fra randomiserte kontrollerte studier (RCT).

Videre reiser mangelen på åpenhet og standardiserte vurderinger av skadene forbundet med disse teknologiene etiske og praktiske bekymringer. Dette fremhever et kritisk gap i AI-forskning og -utvikling som krever ytterligere vurderinger fokusert på pasientrelevante utfall for å sikre meningsfull og trygg integrering i helsevesenet.

Om studiet

Begrenset ekstern validering: De fleste AI-systemer som ble evaluert ble utviklet basert på interne data, med få studier som rapporterte ekstern validering, noe som vekker bekymring for deres generaliserbarhet til forskjellige pasientpopulasjoner.

Denne systematiske gjennomgangen fulgte retningslinjene for Preferred Reporting Items for Systematic Review and Meta-Analyses (PRISMA) for å sikre metodisk strenghet. Søkene ble utført i Medical Literature Analysis and Retrieval System Online (MEDLINE), i Excerpta Medica Database (EMBASE), i offentligheten/utgiveren MEDLINE (PubMed) og i Institute of Electrical and Electronics Engineers (IEEE) Xplore og dekket en periode på 10 år frem til 27. mars 2024 da systemer ble relevante i helsestudier, A. Søket inkluderte termer relatert til AI, maskinlæring (ML), beslutningsalgoritmer, helsepersonell og pasientresultater.

Kvalifiserte studier inkluderte intervensjons- eller observasjonsdesign med AI-beslutningsstøttesystemer utviklet med eller utnytter ML. Studier måtte rapportere pasientrelevante utfall som dødelighet, sykelighet, lengde på sykehusopphold, reinnleggelse eller helserelatert livskvalitet. Eksklusjonskriterier inkluderte studier uten forhåndsregistrering, uten en standard for omsorgskontroll, eller med fokus på robotikk eller andre systemer som ikke er relatert til AI-basert beslutningstaking. Protokollen for denne gjennomgangen ble forhåndsregistrert i International Prospective Register of Systematic Review (PROSPERO) og alle endringer ble dokumentert.

Anmelderne sjekket titler, sammendrag og fulltekster basert på forhåndsdefinerte kriterier. Datautvinning og kvalitetsvurdering ble utført uavhengig ved bruk av standardiserte skjemaer. Risiko for skjevhet ble vurdert ved hjelp av Cochrane Risk of Bias 2 (RoB 2)-verktøyet og Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I)-verktøyet for å ta hensyn til potensielle forvirrende faktorer, mens rapporteringsgjennomsiktighet ble vurdert ved å bruke Consolidated Standards Expansion of Reporting Trials - ArtiSORT-rapportering av multivariasjon og gjennomsiktig intelligens. prediksjonsmodell for individuell prognose eller diagnose - rammeverk for kunstig intelligens (TRIPOD-AI).

Data som ble hentet ut inkluderte studieinnstillinger, design, intervensjon og sammenligningsdetaljer, pasient- og profesjonell demografi, algoritmekarakteristikker og resultatmål. Studier ble også klassifisert etter AI-systemtype, klinisk område, prediksjonsmål og regulatorisk og finansieringsinformasjon. Analysen undersøkte også om de unike bidragene fra AI-systemer til resultatene ble isolert og validert.

Studieresultater

Underrepresenterte spesialiteter: Mens psykiatri- og onkologistudier var godt representert, forblir andre spesialiteter som kritisk omsorg og pulmonologi underrepresentert, noe som potensielt forvrenger den bredere anvendeligheten til resultatene.

Den systematiske oversikten inkluderte 19 studier, inkludert 18 RCT-er og en prospektiv kohortstudie, valgt etter gjennomgang av 3000 poster. Disse studiene ble utført i forskjellige regioner, inkludert ni i USA, fire i Europa, tre i Kina og andre distribuert over hele verden. Innstillinger inkluderte 14 studier på sykehus, tre i poliklinikker, en på sykehjem og en i et blandet miljø.

Studiene dekket en rekke medisinske spesialiteter, inkludert onkologi (4 studier), psykiatri (3 studier), internsykehusmedisin, nevrologi og anestesiologi (2 studier hver), samt individuelle studier innen diabetologi, lungemedisin, intensivbehandling og andre spesialiteter.

Gjennomsnittlig antall deltakere på tvers av alle studiene var 243, med en gjennomsnittsalder på 59,3 år. Andelen kvinner var i gjennomsnitt 50,5 %, og 10 studier rapporterte rasemessig eller etnisk sammensetning, med en median på 71,4 % hvite deltakere. Tolv studier beskrev de tiltenkte helsepersonell, slik som: For eksempel sykepleiere eller primærhelsepersonell, og ni detaljerte opplæringsprotokoller som spenner fra korte introduksjoner til plattformen til flerdagers veilede økter.

AI-systemer er forskjellige i type og funksjon. Syv studier brukte overvåkingssystemer for sanntidsovervåking og prediktive varsler, seks brukte behandlingstilpasningssystemer og fire studier integrerte flere funksjoner. Eksempler inkluderer algoritmer for glykemisk kontroll ved diabetes, personlig psykiatrisk behandling og overvåking av venøs tromboembolisme. Utviklingsdatakilder varierte fra store interne datasett til sammenslåtte multi-institusjonelle data, ved å bruke ulike ML-modeller som gradientforsterkning, nevrale nettverk, Bayesianske klassifikatoren og regresjonsbaserte modeller. Til tross for denne utviklingen, var ekstern validering av algoritmer begrenset i de fleste studier, noe som vekket bekymring for deres generaliserbarhet til bredere pasientpopulasjoner.

Risikoen for skjevhet ble vurdert som lav i fire RCT-er, moderat i syv og høy i ytterligere syv, mens kohortstudien hadde en alvorlig risiko for skjevhet. Overholdelse av retningslinjene for CONSORT-AI og TRIPOD-AI varierte, med tre studier som oppnådde full samsvar mens andre hadde høy til lav samsvar. De fleste studier utført før innføringen av disse retningslinjene viste moderat overholdelse, selv om eksplisitte henvisninger til retningslinjene var sjeldne.

Resultatene viste en blanding av fordeler og skader. Tolv studier rapporterte pasientrelevante fordeler, inkludert reduksjon i dødelighet, forbedret depresjon og smertebehandling, og forbedret livskvalitet. Imidlertid inkluderte bare åtte studier standardiserte skadevurderinger, og de fleste av dem klarte ikke å dokumentere uønskede hendelser fullstendig. Selv om seks AI-systemer mottok regulatoriske godkjenninger, forble sammenhengen mellom regulatorisk status, studiekvalitet og pasientresultater uklare.

Konklusjoner

Denne systematiske oversikten fremhever mangelen på høykvalitetsstudier som vurderer pasientrelevante utfall av AI-relaterte ADM-systemer i helsevesenet. Mens fordeler konsekvent ble vist i psykiatrien, rapporterte andre områder blandede resultater med begrenset bevis på forbedringer i dødelighet, angst og sykehusinnleggelser. De fleste studier manglet balanserte skade-nytte-vurderinger og klarte ikke å isolere de unike bidragene til AI.

Funnene fremhever det presserende behovet for transparent rapportering, robust valideringspraksis og standardiserte rammeverk for å veilede sikker og effektiv integrering av AI i kliniske miljøer.


Kilder: