Sztuczna inteligencja w medycynie: rewolucyjne narzędzia, niepewne wyniki

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Czy sztuczna inteligencja naprawdę może zrewolucjonizować opiekę zdrowotną? Przegląd systematyczny odkrywa ukryte luki w korzyściach dla pacjentów i bariery na drodze do znaczącej integracji klinicznej. W niedawnym badaniu opublikowanym w The Lancet Regional Health – Europe grupa badaczy oceniła korzyści i szkody wynikające z algorytmicznych systemów decyzyjnych (ADM) opartych na sztucznej inteligencji (AI) stosowanych przez pracowników służby zdrowia w porównaniu ze standardową opieką, koncentrując się na wynikach istotnych dla pacjenta. Kontekst Postępy w sztucznej inteligencji umożliwiły systemom osiągnięcie lepszych wyników niż eksperci medyczni w zadaniach takich jak diagnoza, medycyna spersonalizowana, monitorowanie stanu pacjenta i opracowywanie leków. Pomimo tych postępów nie jest jasne, czy ulepszono...

Sztuczna inteligencja w medycynie: rewolucyjne narzędzia, niepewne wyniki

Czy sztuczna inteligencja naprawdę może zrewolucjonizować opiekę zdrowotną? Przegląd systematyczny odkrywa ukryte luki w korzyściach dla pacjentów i bariery na drodze do znaczącej integracji klinicznej.

W niedawnym badaniu opublikowanym wRegionalne Zdrowie Lancet – Europagrupa badaczy oceniła korzyści i szkody związane z algorytmicznymi systemami podejmowania decyzji (ADM) opartymi na sztucznej inteligencji (AI) używanymi przez pracowników służby zdrowia w porównaniu ze standardową opieką, koncentrując się na wynikach istotnych dla pacjenta.

tło

Postępy w sztucznej inteligencji umożliwiły systemom osiągnięcie lepszych wyników niż eksperci medyczni w zadaniach takich jak diagnoza, medycyna spersonalizowana, monitorowanie stanu pacjenta i opracowywanie leków. Pomimo tych postępów nie jest jasne, czy zwiększona dokładność diagnostyczna i wskaźniki wydajności przekładają się na wymierne korzyści dla pacjentów, takie jak zmniejszenie śmiertelności lub zachorowalności.

Obecne badania często przedkładają wydajność analityczną nad wyniki kliniczne, a wiele wyrobów medycznych opartych na sztucznej inteligencji jest zatwierdzanych bez dowodów potwierdzających z randomizowanych badań kontrolowanych (RCT).

Ponadto brak przejrzystości i standardowych ocen szkód związanych z tymi technologiami budzi wątpliwości etyczne i praktyczne. Podkreśla to krytyczną lukę w badaniach i rozwoju sztucznej inteligencji, która wymaga dalszych ocen skupionych na wynikach istotnych dla pacjenta, aby zapewnić znaczącą i bezpieczną integrację z opieką zdrowotną.

O badaniu

Ograniczona walidacja zewnętrzna: większość ocenianych systemów sztucznej inteligencji opracowano w oparciu o dane wewnętrzne, a w niewielu badaniach odnotowano walidację zewnętrzną, co budzi obawy co do możliwości ich uogólnienia na różne populacje pacjentów.

Celem tego przeglądu systematycznego przeprowadzono zgodnie z wytycznymi dotyczącymi preferowanych pozycji sprawozdawczych w przypadku przeglądów systematycznych i metaanaliz (PRISMA), aby zapewnić rygorystyczność metodologiczną. Wyszukiwania przeprowadzono w internetowym systemie analizy i wyszukiwania literatury medycznej (MEDLINE), w bazie danych Excerpta Medica (EMBASE), w publicznym/wydawniczym MEDLINE (PubMed) oraz w Instytucie Inżynierów Elektryków i Elektroników (IEEE) Xplore i objęły okres 10 lat do 27 marca 2024 r., kiedy systemy ADM związane ze sztuczną inteligencją stały się istotne w badaniach nad zdrowiem. Wyszukiwanie obejmowało terminy związane ze sztuczną inteligencją, uczeniem maszynowym (ML), algorytmami decyzyjnymi, pracownikami służby zdrowia i wynikami pacjentów.

Kwalifikujące się badania obejmowały projekty interwencyjne lub obserwacyjne z systemami wspomagania decyzji AI opracowanymi z wykorzystaniem uczenia maszynowego lub z jego wykorzystaniem. W badaniach należało raportować istotne dla pacjenta wyniki, takie jak śmiertelność, zachorowalność, długość pobytu w szpitalu, ponowna hospitalizacja lub jakość życia związana ze stanem zdrowia. Kryteria wykluczenia obejmowały badania bez rejestracji wstępnej, bez standardowej kontroli opieki lub ze szczególnym uwzględnieniem robotyki lub innych systemów niezwiązanych z podejmowaniem decyzji w oparciu o sztuczną inteligencję. Protokół tego przeglądu został wstępnie zarejestrowany w Międzynarodowym Prospektywnym Rejestrze Przeglądów Systematycznych (PROSPERO), a wszystkie zmiany zostały udokumentowane.

Recenzenci sprawdzali tytuły, streszczenia i pełne teksty na podstawie wcześniej zdefiniowanych kryteriów. Ekstrakcję danych i ocenę jakości przeprowadzono niezależnie przy użyciu standardowych formularzy. Ryzyko błędu systematycznego oceniano za pomocą narzędzia Cochrane Risk of Bias 2 (RoB 2) i narzędzia Risk of Bias in Non-Randomized Studies of Interventions (ROBINS-I) w celu uwzględnienia potencjalnych czynników zakłócających, natomiast przejrzystość raportowania oceniano za pomocą Consolidated Standards Expansion of Reporting Trials – Artificial Intelligence (CONSORT-AI) i przejrzystego raportowania wielowymiarowego modelu predykcyjnego dla indywidualnej prognozy lub diagnozy - framework sztucznej inteligencji (TRIPOD-AI).

Wyekstrahowane dane obejmowały ustawienia badania, szczegóły projektu, interwencji i porównania, dane demograficzne pacjentów i specjalistów, charakterystykę algorytmu i miary wyników. Badania sklasyfikowano także według typu systemu AI, obszaru klinicznego, celów prognoz oraz informacji regulacyjnych i finansowych. W ramach analizy zbadano również, czy wyodrębniono i zweryfikowano wyjątkowy wkład systemów sztucznej inteligencji w wyniki.

Wyniki badań

Niedostatecznie reprezentowane specjalizacje: chociaż studia z psychiatrii i onkologii były dobrze reprezentowane, inne specjalności, takie jak intensywna opieka i pulmonologia, pozostają niedostatecznie reprezentowane, co potencjalnie zniekształca szersze zastosowanie wyników.

Przegląd systematyczny obejmował 19 badań, w tym 18 RCT i jedno prospektywne badanie kohortowe, wybrane na podstawie przeglądu 3000 rekordów. Badania te przeprowadzono w różnych regionach, w tym w dziewięciu w Stanach Zjednoczonych, czterech w Europie, trzech w Chinach i innych na całym świecie. Warunki obejmowały 14 badań w szpitalu, trzy w przychodniach, jedno w domu opieki i jedno w środowisku mieszanym.

Studia obejmowały szereg specjalności medycznych, m.in. onkologię (4 badania), psychiatrię (3 badania), internę szpitalną, neurologię i anestezjologię (po 2 badania), a także studia indywidualne z zakresu diabetologii, pulmonologii, intensywnej terapii i innych specjalności.

Średnia liczba uczestników we wszystkich badaniach wyniosła 243, a średni wiek 59,3 lat. Odsetek kobiet wynosił średnio 50,5%, a w 10 badaniach podano skład rasowy lub etniczny, przy medianie wynoszącej 71,4% białych uczestniczek. W dwunastu badaniach opisano docelowych pracowników służby zdrowia, takich jak: np. pielęgniarki lub podmioty świadczące podstawową opiekę zdrowotną, oraz dziewięć szczegółowych protokołów szkoleniowych, począwszy od krótkich wprowadzenia do platformy po wielodniowe nadzorowane sesje.

Systemy AI różnią się rodzajem i funkcją. W siedmiu badaniach wykorzystano systemy monitorowania do monitorowania w czasie rzeczywistym i alertów predykcyjnych, w sześciu zastosowano systemy personalizacji leczenia, a w czterech badaniach integrowano wiele funkcji. Przykłady obejmują algorytmy kontroli glikemii w cukrzycy, spersonalizowaną opiekę psychiatryczną i monitorowanie żylnej choroby zakrzepowo-zatorowej. Źródła danych rozwojowych sięgały od dużych wewnętrznych zbiorów danych po zbiorcze dane pochodzące z wielu instytucji, stosując różne modele uczenia maszynowego, takie jak wzmacnianie gradientu, sieci neuronowe, klasyfikatory Bayesa i modele oparte na regresji. Pomimo tych zmian w większości badań zewnętrzna walidacja algorytmów była ograniczona, co wzbudziło obawy co do możliwości ich uogólnienia na szersze populacje pacjentów.

Ryzyko błędu systematycznego zostało ocenione jako niskie w czterech RCT, umiarkowane w siedmiu i wysokie w kolejnych siedmiu, podczas gdy w badaniu kohortowym ryzyko błędu systematycznego było poważne. Przestrzeganie wytycznych CONSORT-AI i TRIPOD-AI było zróżnicowane – w trzech badaniach uzyskano pełną zgodność, podczas gdy w innych zgodność była wysoka lub niska. Większość badań przeprowadzonych przed wprowadzeniem niniejszych wytycznych wykazała umiarkowane przestrzeganie zaleceń, chociaż wyraźne odniesienia do wytycznych były rzadkie.

Wyniki wykazały mieszankę korzyści i szkód. W dwunastu badaniach wykazano korzyści istotne dla pacjenta, w tym zmniejszenie śmiertelności, poprawę leczenia depresji i bólu oraz poprawę jakości życia. Jednakże tylko osiem badań obejmowało standaryzowaną ocenę szkód, a w większości z nich nie udokumentowano kompleksowo zdarzeń niepożądanych. Chociaż sześć systemów sztucznej inteligencji uzyskało zezwolenia organów regulacyjnych, związki między statusem regulacyjnym, jakością badań i wynikami pacjentów pozostały niejasne.

Wnioski

W tym systematycznym przeglądzie podkreślono brak wysokiej jakości badań oceniających istotne dla pacjenta wyniki systemów ADM związanych ze sztuczną inteligencją w opiece zdrowotnej. Chociaż w psychiatrii konsekwentnie wykazano korzyści, w innych obszarach odnotowano mieszane wyniki z ograniczonymi dowodami poprawy w zakresie śmiertelności, lęku i hospitalizacji. W większości badań brakowało zrównoważonej oceny szkód i korzyści i nie udało się wyodrębnić wyjątkowego wkładu sztucznej inteligencji.

Odkrycia podkreślają pilną potrzebę przejrzystej sprawozdawczości, solidnych praktyk walidacyjnych i standardowych ram, które będą wyznaczać kierunki bezpiecznej i skutecznej integracji sztucznej inteligencji ze środowiskami klinicznymi.


Źródła: