AI az orvostudományban: Forradalmi eszközök, bizonytalan eredmények
Valóban forradalmasíthatja a mesterséges intelligencia az egészségügyet? A szisztematikus áttekintés feltárja a betegek által nyújtott előnyök rejtett hiányosságait és az érdemi klinikai integráció akadályait. A The Lancet Regional Health - Europe című folyóiratban nemrég megjelent tanulmányban kutatók egy csoportja felmérte az egészségügyi szakemberek által használt mesterséges intelligencia (AI) alapú algoritmikus döntéshozatali rendszerek (ADM) előnyeit és ártalmait a szokásos ellátáshoz képest, a betegek szempontjából releváns eredményekre összpontosítva. Háttér A mesterséges intelligencia fejlődése lehetővé tette a rendszerek számára, hogy felülmúlják az orvosi szakértőket olyan feladatokban, mint a diagnózis, a személyre szabott orvoslás, a betegek monitorozása és a gyógyszerfejlesztés. Az előrelépések ellenére továbbra sem világos, hogy javult-e...
AI az orvostudományban: Forradalmi eszközök, bizonytalan eredmények
Valóban forradalmasíthatja a mesterséges intelligencia az egészségügyet? A szisztematikus áttekintés feltárja a betegek által nyújtott előnyök rejtett hiányosságait és az érdemi klinikai integráció akadályait.
Egy nemrégiben megjelent tanulmánybanA Lancet Regionális Egészségügy – Európa, kutatók egy csoportja értékelte az egészségügyi szakemberek által használt mesterséges intelligencia (AI) alapú algoritmikus döntéshozatali rendszerek (ADM) előnyeit és ártalmait a szokásos ellátáshoz képest, a betegek szempontjából releváns eredményekre összpontosítva.
háttér
A mesterséges intelligencia fejlődése lehetővé tette a rendszerek számára, hogy felülmúlják az orvosi szakértőket olyan feladatokban, mint a diagnózis, a személyre szabott orvoslás, a betegek monitorozása és a gyógyszerfejlesztés. Ezen előrelépések ellenére továbbra sem világos, hogy a jobb diagnosztikai pontosság és teljesítménymutatók kézzelfogható előnyöket jelentenek-e a betegek számára, például csökkent mortalitást vagy morbiditást.
A jelenlegi kutatások gyakran előnyben részesítik az analitikai teljesítményt a klinikai eredményekkel szemben, és sok mesterségesintelligencia-alapú orvosi eszközt hagynak jóvá randomizált kontrollált vizsgálatok (RCT) bizonyítékai nélkül.
Ezenkívül az átláthatóság hiánya és az ezekkel a technológiákkal kapcsolatos károk szabványosított értékelése etikai és gyakorlati aggályokat vet fel. Ez rávilágít egy kritikus hiányosságra a mesterséges intelligencia kutatásában és fejlesztésében, amely további, a betegek szempontjából releváns eredményekre összpontosító értékeléseket tesz szükségessé az egészségügybe való értelmes és biztonságos integráció biztosítása érdekében.
A tanulmányról
Korlátozott külső validáció: A legtöbb értékelt AI-rendszert belső adatok alapján fejlesztették ki, kevés tanulmány számolt be külső validálásról, ami aggályokat vet fel a különböző betegpopulációkra való általánosíthatóságukat illetően.
Ez a szisztematikus áttekintés a szisztematikus felülvizsgálatokhoz és metaanalízisekhez előnyben részesített jelentéstételi tételek (PRISMA) irányelveit követte a módszertani szigor biztosítása érdekében. A kereséseket a Medical Literature Analysis and Retrieval System Online (MEDLINE), az Excerpta Medica Adatbázisban (EMBASE), a publikus/kiadó MEDLINE (PubMed) és az Institute of Electrical and Electronics Engineers (IEEE) Xplore-ban végezték, és egy 10 éves időszakot fedtek le, egészen március 27-ig, amikor az AI-2024-ben az egészségügyi rendszerek relevánsakká váltak. A keresés a mesterséges intelligenciával, a gépi tanulással (ML), a döntési algoritmusokkal, az egészségügyi szakemberekkel és a betegek eredményeivel kapcsolatos kifejezéseket tartalmazott.
A támogatható tanulmányok között szerepeltek beavatkozási vagy megfigyelési tervek AI-döntéstámogató rendszerekkel, amelyeket az ML-vel vagy annak felhasználásával fejlesztettek ki. A vizsgálatoknak be kellett számolniuk a betegek szempontjából releváns eredményekről, például a mortalitásról, a morbiditásról, a kórházi tartózkodás időtartamáról, a visszafogadásról vagy az egészséggel összefüggő életminőségről. A kizárási kritériumok közé tartoztak az előzetes regisztráció nélküli, az ápolás-ellenőrzés standardja nélküli, illetve a robotikára vagy más, az AI-alapú döntéshozatalhoz nem kapcsolódó rendszerekre összpontosító vizsgálatok. Ennek a felülvizsgálatnak a protokollját előre regisztrálták a Nemzetközi Leendő Rendszeres Felülvizsgálatok Nyilvántartásában (PROSPERO), és minden változást dokumentáltak.
A bírálók előre meghatározott kritériumok alapján ellenőrizték a címeket, kivonatokat és teljes szövegeket. Az adatkinyerést és a minőségértékelést egymástól függetlenül, szabványosított űrlapokon végeztük. Az elfogultság kockázatát a Cochrane Risk of Bias 2 (RoB 2) eszközzel és a Nem véletlenszerű beavatkozások tanulmányozásának kockázata (ROBINS-I) eszközzel értékelték a lehetséges zavaró tényezők figyelembe vétele érdekében, míg a jelentéstétel átláthatóságát a Consolidated Standards Expansion of Reporting Trials és a Multivariable Reporting of Reporting Trials (CONSORT a Multivariable Report) segítségével értékelték. előrejelzési modell egyéni prognózishoz vagy diagnózishoz – mesterséges intelligencia (TRIPOD-AI) keretrendszer.
A kinyert adatok magukban foglalták a vizsgálati beállításokat, a tervezést, a beavatkozás és az összehasonlítás részleteit, a betegek és a szakemberek demográfiai adatait, az algoritmus jellemzőit és az eredménymutatókat. A tanulmányokat az AI-rendszer típusa, a klinikai terület, az előrejelzési célok, valamint a szabályozási és finanszírozási információk szerint is osztályozták. Az elemzés azt is megvizsgálta, hogy az AI-rendszerek egyedi hozzájárulása az eredményekhez izolált-e és validált-e.
Tanulmányi eredmények
Alulreprezentált szakterületek: Míg a pszichiátriai és onkológiai tanulmányok jól reprezentáltak, más szakterületek, például a kritikus ellátás és a pulmonológia továbbra is alulreprezentáltak, ami potenciálisan torzíthatja az eredmények szélesebb körű alkalmazhatóságát.
A szisztematikus áttekintés 19 tanulmányt tartalmazott, köztük 18 RCT-t és egy prospektív kohorszvizsgálatot, amelyeket 3000 rekord áttekintése után választottak ki. Ezeket a tanulmányokat különböző régiókban végezték, köztük kilencet az Egyesült Államokban, négyet Európában, hármat Kínában, és másokat világszerte terjesztettek. A beállítások között 14 tanulmány szerepelt kórházban, három járóbeteg-klinikákon, egy idősek otthonában és egy vegyes környezetben.
A tanulmányok egy sor orvosi szakterületre terjedtek ki, többek között az onkológiára (4 vizsgálat), a pszichiátriára (3 vizsgálat), a belkórházi gyógyászatra, a neurológiára és az aneszteziológiára (2-2 vizsgálat), valamint egyéni tanulmányokra diabetológia, pulmonológia, intenzív terápia és egyéb szakterületeken.
Az összes vizsgálatban résztvevők átlagos száma 243 volt, átlagéletkoruk 59,3 év. A nők aránya átlagosan 50,5% volt, és 10 tanulmány számolt be faji vagy etnikai összetételről, a fehér résztvevők mediánja 71,4%. Tizenkét tanulmány írta le a tervezett egészségügyi szakembereket, például: ápolónőket vagy alapellátást nyújtókat, és kilenc részletes képzési protokollt, a platform rövid bemutatásától a többnapos felügyelt ülésekig.
Az AI-rendszerek típusában és funkciójában különböznek egymástól. Hét tanulmány monitorozó rendszert használt a valós idejű monitorozáshoz és prediktív riasztásokhoz, hat kezelés személyre szabott rendszert, négy tanulmány pedig több funkciót integrált. Ilyenek például a cukorbetegség glikémiás kontrolljának algoritmusai, a személyre szabott pszichiátriai ellátás és a vénás thromboembolia monitorozása. A fejlesztési adatforrások a nagy belső adatkészletektől a több intézményre kiterjedő összevont adatokig terjedtek, különféle ML modelleket alkalmazva, mint például a gradiens-növelés, a neurális hálózatok, a Bayes-osztályozók és a regresszió alapú modellek. E fejlemények ellenére az algoritmusok külső validálása a legtöbb tanulmányban korlátozott volt, ami aggályokat vet fel a szélesebb betegpopulációra való általánosíthatóságukat illetően.
Az elfogultság kockázatát négy RCT-n alacsonynak, hétben mérsékeltnek, további hétben magasnak értékelték, míg a kohorsz vizsgálatban komoly volt az elfogultság kockázata. A CONSORT-AI és a TRIPOD-AI irányelvek betartása eltérő volt, három tanulmány teljes megfelelést ért el, míg mások magas vagy alacsony megfelelőséget mutattak. A legtöbb tanulmány, amelyet ezen irányelvek bevezetése előtt végeztek, mérsékelt betartást mutatott, bár az iránymutatásokra való kifejezett hivatkozás ritkán fordult elő.
Az eredmények az előnyök és a károk keverékét mutatták. Tizenkét tanulmány a betegek szempontjából releváns előnyökről számolt be, beleértve a mortalitás csökkenését, a depresszió és a fájdalom kezelésének javulását, valamint az életminőség javulását. Mindazonáltal csak nyolc tanulmány tartalmazott szabványosított ártalomértékelést, és legtöbbjük nem tudta átfogóan dokumentálni a nemkívánatos eseményeket. Bár hat mesterséges intelligencia rendszer kapott hatósági jóváhagyást, a szabályozási státusz, a vizsgálat minősége és a betegek kimenetele közötti összefüggés továbbra is tisztázatlan.
Következtetések
Ez a szisztematikus áttekintés rávilágít arra, hogy hiányoznak a magas színvonalú tanulmányok, amelyek értékelnék az AI-val kapcsolatos ADM-rendszerek betegreleváns kimenetelét az egészségügyi ellátásban. Míg a pszichiátriában következetesen kimutatták az előnyöket, más területek vegyes eredményekről számoltak be, korlátozott bizonyítékkal a mortalitás, a szorongás és a kórházi kezelések javulására. A legtöbb tanulmányból hiányzott a kiegyensúlyozott ártalom-haszon értékelés, és nem sikerült elkülöníteni a mesterséges intelligencia egyedülálló hozzájárulását.
Az eredmények rávilágítanak arra, hogy sürgősen szükség van átlátható jelentésekre, robusztus validálási gyakorlatokra és szabványosított keretekre, amelyek irányítják a mesterséges intelligencia biztonságos és hatékony integrálását a klinikai környezetbe.
Források: