Umetna inteligenca v medicini: Revolucionarna orodja, negotovi rezultati
Ali lahko umetna inteligenca resnično spremeni zdravstvo? Sistematični pregled razkrije skrite vrzeli v koristih za paciente in ovire za smiselno klinično integracijo. V nedavni študiji, objavljeni v reviji The Lancet Regional Health - Europe, je skupina raziskovalcev ocenila koristi in škodo algoritemskih sistemov odločanja (ADM), ki temeljijo na umetni inteligenci (AI), ki jih uporabljajo zdravstveni delavci, v primerjavi s standardno oskrbo, pri čemer se je osredotočila na rezultate, pomembne za pacienta. Ozadje Napredek umetne inteligence je omogočil sistemom, da prekašajo medicinske strokovnjake pri nalogah, kot so diagnoza, personalizirana medicina, spremljanje bolnikov in razvoj zdravil. Kljub tem napredkom ostaja nejasno, ali je izboljšana...
Umetna inteligenca v medicini: Revolucionarna orodja, negotovi rezultati
Ali lahko umetna inteligenca resnično spremeni zdravstvo? Sistematični pregled razkrije skrite vrzeli v koristih za paciente in ovire za smiselno klinično integracijo.
V nedavni študiji, objavljeni vThe Lancet Regional Health – Europe, je skupina raziskovalcev ocenila koristi in škodo algoritemskih sistemov odločanja (ADM), ki temeljijo na umetni inteligenci (AI), ki jih uporabljajo zdravstveni delavci, v primerjavi s standardno oskrbo, pri čemer se je osredotočila na rezultate, pomembne za bolnika.
ozadje
Napredek umetne inteligence je omogočil sistemom, da prekašajo medicinske strokovnjake pri nalogah, kot so diagnosticiranje, personalizirana medicina, spremljanje pacientov in razvoj zdravil. Kljub temu napredku ostaja nejasno, ali se izboljšana diagnostična natančnost in meritve učinkovitosti prevedejo v oprijemljive koristi za bolnike, kot je zmanjšana umrljivost ali obolevnost.
Sedanje raziskave pogosto dajejo prednost analitični učinkovitosti pred kliničnimi izidi in številni medicinski pripomočki, ki temeljijo na umetni inteligenci, so odobreni brez podpornih dokazov iz randomiziranih kontroliranih preskušanj (RCT).
Poleg tega pomanjkanje preglednosti in standardiziranih ocen škode, povezane s temi tehnologijami, sproža etične in praktične pomisleke. To poudarja kritično vrzel v raziskavah in razvoju umetne inteligence, ki zahteva nadaljnje ocene, osredotočene na rezultate, pomembne za paciente, da se zagotovi smiselna in varna vključitev v zdravstveno varstvo.
O študiju
Omejena zunanja validacija: večina ocenjenih sistemov umetne inteligence je bila razvita na podlagi notranjih podatkov, le malo študij poroča o zunanji validaciji, kar vzbuja pomisleke glede njihove posplošljivosti na različne populacije bolnikov.
Ta sistematični pregled je sledil smernicam za prednostne postavke poročanja za sistematične preglede in metaanalize (PRISMA), da se zagotovi metodološka natančnost. Iskanje je potekalo v spletnem sistemu za analizo in iskanje medicinske literature (MEDLINE), v podatkovni zbirki Excerpta Medica (EMBASE), v javnem/založniškem MEDLINE (PubMed) in na Inštitutu inženirjev elektrotehnike in elektronike (IEEE) Xplore ter je zajemalo obdobje 10 let do 27. marca 2024, ko so sistemi ADM, povezani z umetno inteligenco, postali pomembni v zdravstvenih študijah. Iskanje je vključevalo izraze, povezane z umetno inteligenco, strojnim učenjem (ML), algoritmi odločanja, zdravstvenimi delavci in rezultati bolnikov.
Upravičene študije so vključevale intervencijske ali opazovalne zasnove s sistemi za podporo odločanju z umetno inteligenco, razvitimi z ali z uporabo ML. Študije so morale poročati o rezultatih, pomembnih za bolnika, kot so umrljivost, obolevnost, dolžina bivanja v bolnišnici, ponovni sprejem ali kakovost življenja, povezana z zdravjem. Merila za izključitev so vključevala študije brez predregistracije, brez standarda nadzora oskrbe ali s poudarkom na robotiki ali drugih sistemih, ki niso povezani z odločanjem na podlagi umetne inteligence. Protokol za ta pregled je bil predhodno registriran v Mednarodnem prospektivnem registru sistematičnih pregledov (PROSPERO) in vse spremembe so bile dokumentirane.
Recenzenti so preverjali naslove, povzetke in celotna besedila na podlagi vnaprej določenih kriterijev. Zajem podatkov in presojo kakovosti smo izvedli neodvisno s standardiziranimi obrazci. Tveganje pristranskosti je bilo ocenjeno z orodjem Cochrane Risk of Bias 2 (RoB 2) in orodjem Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) za upoštevanje morebitnih motečih dejavnikov, medtem ko je bila preglednost poročanja ocenjena z uporabo konsolidiranih standardov za razširitev poročanja o poskusih – umetna inteligenca (CONSORT-AI) in preglednega poročanja o multivariabilni napovedni model za individualno prognozo ali diagnozo - ogrodje umetne inteligence (TRIPOD-AI).
Izvlečeni podatki so vključevali nastavitve študije, zasnovo, intervencijo in podrobnosti o primerjavi, demografske podatke bolnikov in strokovnjakov, značilnosti algoritmov in meritve izidov. Študije so bile razvrščene tudi po vrsti sistema umetne inteligence, kliničnem področju, ciljih napovedi ter regulativnih informacijah in informacijah o financiranju. Analiza je tudi preučila, ali so bili edinstveni prispevki sistemov umetne inteligence k rezultatom izolirani in potrjeni.
Rezultati študije
Premalo zastopane specialnosti: Medtem ko so bile študije psihiatrije in onkologije dobro zastopane, druge specialnosti, kot sta intenzivna nega in pulmologija, ostajajo premalo zastopane, kar lahko izkrivlja širšo uporabnost rezultatov.
Sistematični pregled je vključeval 19 študij, vključno z 18 RCT in eno prospektivno kohortno študijo, izbrano po pregledu 3000 zapisov. Te študije so bile izvedene v različnih regijah, vključno z devetimi v Združenih državah Amerike, štirimi v Evropi, tremi na Kitajskem, druge pa so bile razširjene po vsem svetu. Nastavitve so vključevale 14 študij v bolnišnici, tri v ambulantah, eno v domu za ostarele in eno v mešanem okolju.
Študij je obsegal vrsto medicinskih specialnosti, vključno z onkologijo (4 študiji), psihiatrijo (3 študiji), interno bolnišnično medicino, nevrologijo in anesteziologijo (po 2 študija), ter posamezne študije diabetologije, pulmologije, intenzivne medicine in drugih specialnosti.
Povprečno število udeležencev v vseh študijah je bilo 243 s povprečno starostjo 59,3 leta. Delež žensk je v povprečju znašal 50,5 %, 10 študij pa je poročalo o rasni ali etnični sestavi, z mediano 71,4 % belih udeležencev. Dvanajst študij je opisalo predvidene zdravstvene delavce, kot so: npr. medicinske sestre ali ponudniki primarnega zdravstvenega varstva, in devet podrobnih protokolov usposabljanja, ki segajo od kratkih uvodov v platformo do večdnevnih nadzorovanih sej.
Sistemi AI se razlikujejo po vrsti in funkciji. Sedem študij je uporabljalo sisteme za spremljanje v realnem času in napovedna opozorila, šest je uporabljalo sisteme za personalizacijo zdravljenja, štiri študije pa so vključevale več funkcij. Primeri vključujejo algoritme za nadzor glikemije pri sladkorni bolezni, prilagojeno psihiatrično oskrbo in spremljanje venske trombembolije. Viri razvojnih podatkov so segali od velikih notranjih naborov podatkov do združenih večinstitucionalnih podatkov, ki so uporabljali različne modele strojnega učenja, kot so gradientno povečanje, nevronske mreže, Bayesovi klasifikatorji in regresijski modeli. Kljub temu razvoju je bila zunanja validacija algoritmov v večini študij omejena, kar je vzbujalo pomisleke glede njihove posplošljivosti na širšo populacijo bolnikov.
Tveganje pristranskosti je bilo v štirih RCT ocenjeno kot nizko, v sedmih zmerno in v nadaljnjih sedmih visoko, medtem ko je kohortna študija imela resno tveganje pristranskosti. Spoštovanje smernic CONSORT-AI in TRIPOD-AI je bilo različno, s tremi študijami, ki so dosegle popolno skladnost, druge pa so imele visoko do nizko skladnost. Večina študij, izvedenih pred uvedbo teh smernic, je pokazala zmerno upoštevanje, čeprav so bila izrecna sklicevanja na smernice redka.
Rezultati so pokazali mešanico koristi in škode. Dvanajst študij je poročalo o koristih, pomembnih za bolnika, vključno z zmanjšanjem umrljivosti, izboljšanim obvladovanjem depresije in bolečin ter izboljšano kakovostjo življenja. Vendar pa je le osem študij vključevalo standardizirane ocene škode in večina od njih ni uspela celovito dokumentirati neželenih dogodkov. Čeprav je šest sistemov umetne inteligence prejelo regulatorna dovoljenja, so razmerja med regulativnim statusom, kakovostjo študije in rezultati bolnikov ostala nejasna.
Sklepi
Ta sistematični pregled poudarja pomanjkanje visokokakovostnih študij, ki bi ocenjevale za paciente pomembne rezultate sistemov ADM, povezanih z umetno inteligenco, v zdravstvu. Medtem ko so bile koristi dosledno prikazane v psihiatriji, so druga področja poročala o mešanih rezultatih z omejenimi dokazi o izboljšanju umrljivosti, anksioznosti in hospitalizacij. Večina študij ni imela uravnoteženih ocen škode in koristi in ni uspelo izolirati edinstvenih prispevkov umetne inteligence.
Ugotovitve poudarjajo nujno potrebo po preglednem poročanju, robustnih praksah validacije in standardiziranih okvirih za vodenje varne in učinkovite integracije umetne inteligence v klinična okolja.
Viri: