AI v medicíně: revoluční nástroje, nejisté výsledky

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Může AI skutečně způsobit revoluci ve zdravotnictví? Systematický přehled odhaluje skryté mezery v přínosu pro pacienty a překážky smysluplné klinické integrace. V nedávné studii zveřejněné v The Lancet Regional Health - Europe skupina výzkumníků hodnotila přínosy a škody algoritmických rozhodovacích systémů (ADM) založených na umělé inteligenci (AI) používaných zdravotnickými pracovníky ve srovnání se standardní péčí, přičemž se zaměřila na výsledky relevantní pro pacienta. Pozadí Pokroky v AI umožnily systémům překonat lékařské odborníky v úkolech, jako je diagnostika, personalizovaná medicína, monitorování pacientů a vývoj léků. Navzdory těmto pokrokům zůstává nejasné, zda došlo ke zlepšení...

AI v medicíně: revoluční nástroje, nejisté výsledky

Může AI skutečně způsobit revoluci ve zdravotnictví? Systematický přehled odhaluje skryté mezery v přínosu pro pacienty a překážky smysluplné klinické integrace.

V nedávné studii publikované vRegionální zdraví Lancet – Evropa, skupina výzkumníků hodnotila přínosy a škody algoritmických rozhodovacích systémů (ADM) založených na umělé inteligenci (AI) používaných zdravotnickými pracovníky ve srovnání se standardní péčí, přičemž se zaměřila na výsledky relevantní pro pacienta.

pozadí

Pokroky v AI umožnily systémům překonat lékařské odborníky v úkolech, jako je diagnostika, personalizovaná medicína, monitorování pacientů a vývoj léků. Navzdory těmto pokrokům zůstává nejasné, zda se zlepšená diagnostická přesnost a výkonnostní metriky promítnou do hmatatelných přínosů pro pacienty, jako je snížení mortality nebo morbidity.

Současný výzkum často upřednostňuje analytický výkon před klinickými výsledky a mnoho zdravotnických prostředků založených na AI je schváleno bez podpůrných důkazů z randomizovaných kontrolovaných studií (RCT).

Kromě toho nedostatek transparentnosti a standardizovaného hodnocení škod spojených s těmito technologiemi vyvolává etické a praktické obavy. To zdůrazňuje kritickou mezeru ve výzkumu a vývoji umělé inteligence, která vyžaduje další hodnocení zaměřená na výsledky relevantní pro pacienta, aby byla zajištěna smysluplná a bezpečná integrace do zdravotní péče.

O studiu

Omezená externí validace: Většina hodnocených systémů umělé inteligence byla vyvinuta na základě interních dat, přičemž jen málo studií uvádělo externí validaci, což vyvolalo obavy ohledně jejich zobecnění na různé populace pacientů.

Tato systematická kontrola se řídila pokyny pro preferované položky hlášení pro systematické kontroly a metaanalýzy (PRISMA), aby byla zajištěna metodologická přísnost. Vyhledávání byla provedena v systému pro analýzu a vyhledávání lékařské literatury online (MEDLINE), v databázi Excerpta Medica (EMBASE), ve veřejném/vydavatelském MEDLINE (PubMed) a v Institutu elektrických a elektronických inženýrů (IEEE) Xplore a pokryla období 10 let do 27. března 2024, kdy se staly relevantními zdravotní systémy související s AI. Hledání zahrnovalo výrazy související s umělou inteligencí, strojovým učením (ML), rozhodovacími algoritmy, zdravotníky a výsledky pacientů.

Vhodné studie zahrnovaly intervenční nebo pozorovací návrhy se systémy podpory rozhodování AI vyvinutými s ML nebo využívající ML. Studie musely uvádět výsledky relevantní pro pacienta, jako je mortalita, morbidita, délka hospitalizace, opětovné přijetí nebo kvalita života související se zdravím. Kritéria vyloučení zahrnovala studie bez předběžné registrace, bez standardní kontroly péče nebo se zaměřením na robotiku či jiné systémy nesouvisející s rozhodováním na základě umělé inteligence. Protokol pro toto přezkoumání byl předregistrován v Mezinárodním prospektivním registru systematických přehledů (PROSPERO) a všechny změny byly zdokumentovány.

Recenzenti kontrolovali názvy, abstrakty a plné texty na základě předem definovaných kritérií. Extrakce dat a hodnocení kvality byly prováděny nezávisle pomocí standardizovaných formulářů. Riziko zkreslení bylo hodnoceno pomocí nástroje Cochrane Risk of Bias 2 (RoB 2) a nástroje Risk of Bias in Non-randomized Studies of Interventions (ROBINS-I), aby se zohlednily potenciální matoucí faktory, zatímco transparentnost hlášení byla posouzena pomocí konsolidovaných standardů Rozšíření pokusů o hlášení – umělá inteligence a transparentní model hlášení pro individuální prognózu nebo prognózu AI. - rámec umělé inteligence (TRIPOD-AI).

Extrahovaná data zahrnovala nastavení studie, design, intervence a detaily srovnání, demografické údaje pacientů a profesionálů, charakteristiky algoritmů a míry výsledků. Studie byly také klasifikovány podle typu systému umělé inteligence, klinické oblasti, předpovědních cílů a regulačních a finančních informací. Analýza také zkoumala, zda byly jedinečné příspěvky systémů umělé inteligence k výsledkům izolovány a ověřeny.

Výsledky studie

Nedostatečně zastoupené specializace: Zatímco psychiatrické a onkologické studie byly dobře zastoupeny, ostatní specializace, jako je intenzivní péče a pulmonologie, zůstávají nedostatečně zastoupeny, což potenciálně zkresluje širší použitelnost výsledků.

Systematický přehled zahrnoval 19 studií, včetně 18 RCT a jednu prospektivní kohortovou studii, která byla vybrána po přezkoumání 3 000 záznamů. Tyto studie byly provedeny v různých regionech, včetně devíti ve Spojených státech, čtyř v Evropě, tří v Číně a dalších distribuovaných po celém světě. Prostředí zahrnovalo 14 studií v nemocnici, tři na ambulancích, jednu v pečovatelském domě a jednu ve smíšeném prostředí.

Studium zahrnovalo řadu lékařských specializací včetně onkologie (4 studie), psychiatrie (3 studie), interního nemocničního lékařství, neurologie a anesteziologie (po 2 studiích), dále individuální studium diabetologie, pneumologie, intenzivní péče a dalších specializací.

Průměrný počet účastníků ve všech studiích byl 243 s průměrným věkem 59,3 let. Podíl žen byl v průměru 50,5 % a 10 studií uvedlo rasové nebo etnické složení, s mediánem 71,4 % bílých účastníků. Dvanáct studií popsalo zamýšlené zdravotnické pracovníky, jako jsou: např. zdravotní sestry nebo poskytovatelé primární péče, a devět podrobných školicích protokolů od krátkých úvodů do platformy až po vícedenní řízená sezení.

Systémy AI se liší typem a funkcí. Sedm studií použilo monitorovací systémy pro monitorování v reálném čase a prediktivní výstrahy, šest použilo systémy personalizace léčby a čtyři studie integrovaly více funkcí. Příklady zahrnovaly algoritmy pro kontrolu glykémie u diabetu, personalizovanou psychiatrickou péči a monitorování žilního tromboembolismu. Vývojové zdroje dat sahaly od velkých interních datových sad až po sdružená multiinstitucionální data, přičemž se uplatňovaly různé modely ML, jako je zesílení gradientu, neuronové sítě, bayesovské klasifikátory a modely založené na regresi. Navzdory tomuto vývoji byla externí validace algoritmů ve většině studií omezená, což vyvolalo obavy ohledně jejich zobecnění na širší populaci pacientů.

Riziko zkreslení bylo hodnoceno jako nízké ve čtyřech RCT, střední v sedmi a vysoké v dalších sedmi, zatímco kohortová studie měla vážné riziko zkreslení. Dodržování pokynů CONSORT-AI a TRIPOD-AI se lišilo, tři studie dosáhly plné shody, zatímco jiné měly vysokou až nízkou shodu. Většina studií provedených před zavedením těchto pokynů prokázala mírné dodržování, i když výslovné odkazy na pokyny byly vzácné.

Výsledky ukázaly kombinaci výhod a škod. Dvanáct studií uvedlo přínosy relevantní pro pacienta, včetně snížení úmrtnosti, zlepšení zvládání deprese a bolesti a zlepšení kvality života. Pouze osm studií však zahrnovalo standardizované hodnocení škod a většina z nich nedokázala komplexně zdokumentovat nežádoucí účinky. Ačkoli šest systémů umělé inteligence získalo regulační schválení, vztahy mezi regulačním statusem, kvalitou studie a výsledky pacientů zůstaly nejasné.

Závěry

Tento systematický přehled poukazuje na nedostatek vysoce kvalitních studií hodnotících pro pacienty relevantní výsledky systémů ADM souvisejících s AI ve zdravotnictví. Zatímco v psychiatrii byly trvale prokázány přínosy, jiné oblasti uváděly smíšené výsledky s omezenými důkazy o zlepšení úmrtnosti, úzkosti a hospitalizací. Většina studií postrádala vyvážené hodnocení škod a přínosů a nedokázala izolovat jedinečné příspěvky AI.

Zjištění zdůrazňují naléhavou potřebu transparentního hlášení, robustních postupů ověřování a standardizovaných rámců, které by vedly k bezpečné a efektivní integraci AI do klinického prostředí.


Zdroje: