System AI dorównuje dokładnością diagnostyczną, jednocześnie redukując koszty leczenia
W nowym badaniu system diagnostyczny firmy Microsoft oparty na sztucznej inteligencji okazał się lepszy od doświadczonych lekarzy w rozwiązywaniu najtrudniejszych przypadków medycznych szybciej, taniej i dokładniej. Badanie: Diagnoza sekwencyjna z modelami językowymi. Źródło zdjęcia: MetamorWorks/Shutterstock.com *Ważne ujawnienie: Arxiv publikuje wstępne raporty naukowe, które nie są recenzowane i dlatego nie są uważane za rozstrzygające, stanowiące wskazówkę dla praktyki klinicznej/zachowań związanych ze zdrowiem lub traktowane jako ustalone informacje. W niedawnym badaniu dotyczącym serwerów Arxiv Preprint Server porównano dokładność diagnostyczną i wydatki na zasoby systemów AI z wynikami lekarzy zajmujących się złożonymi przypadkami. Zespół Microsoft AI zademonstrował efektywne wykorzystanie sztucznej inteligencji (AI) w...
System AI dorównuje dokładnością diagnostyczną, jednocześnie redukując koszty leczenia
W nowym badaniu system diagnostyczny firmy Microsoft oparty na sztucznej inteligencji okazał się lepszy od doświadczonych lekarzy w rozwiązywaniu najtrudniejszych przypadków medycznych szybciej, taniej i dokładniej.
Badanie: Diagnoza sekwencyjna z modelami językowymi. Źródło obrazu: MetamorWorks/Shutterstock.com
*Ważna uwaga: ArxivPublikuj wstępne raporty naukowe, które nie są recenzowane i dlatego nie są uważane za rozstrzygające, nie stanowią wytycznych dla praktyki klinicznej/zachowań związanych ze zdrowiem ani nie są traktowane jako ustalone informacje.
Niedawne badanie na tematArxivPreprint Server porównał dokładność diagnostyczną i wydatki na zasoby systemów AI z klinicystami zajmującymi się złożonymi przypadkami. Zespół Microsoft ds. sztucznej inteligencji zademonstrował efektywne wykorzystanie sztucznej inteligencji (AI) w medycynie w celu sprostania wyzwaniom diagnostycznym, które lekarze muszą rozszyfrować.
Diagnoza sekwencyjna i modele językowe
Lekarze często diagnozują chorobę u pacjentów na podstawie procesu rozumowania klinicznego, który obejmuje etapowe, powtarzalne zadawanie pytań i testowanie. Nawet przy ograniczonych wstępnych informacjach lekarze zawężają możliwą diagnozę, przesłuchując pacjenta i potwierdzając ją za pomocą badań biochemicznych, obrazowania, biopsji i innych procedur diagnostycznych.
Rozwiązanie złożonego przypadku wymaga wszechstronnego zestawu umiejętności, w tym określenia najważniejszych pytań lub testów, które należy wykonać, zwrócenia uwagi na koszty badań, aby zapobiec zwiększaniu obciążenia pacjenta, oraz rozpoznawania dowodów w celu postawienia pewnej diagnozy.
Kilka badań wykazało zwiększoną skuteczność modeli językowych (LMS) w przeprowadzaniu egzaminów licencyjnych w zakresie medycyny i wysoce ustrukturyzowanych winiet diagnostycznych. Jednak działanie większości LM oceniano w sztucznych warunkach, które drastycznie różnią się od rzeczywistych środowisk klinicznych.
Większość modeli LMS do ocen diagnostycznych opiera się na quizie wielokrotnego wyboru, a diagnoza dokonywana jest na podstawie wcześniej zdefiniowanego zestawu odpowiedzi. Skrócenie sekwencyjnego cyklu diagnostycznego zwiększa ryzyko przeszacowania kompetencji modelowej statycznych wzorców odniesienia. Ponadto te modele diagnostyczne stwarzają ryzyko masowego zamawiania testów i przedwczesnego zamykania diagnostyki. Dlatego istnieje pilne zapotrzebowanie na system sztucznej inteligencji oparty na sekwencyjnym cyklu diagnostycznym, aby poprawić dokładność diagnostyki i obniżyć koszty badań.
O badaniu
Aby przezwyciężyć wyżej wymienione wady modeli LMS do diagnostyki klinicznej, naukowcy opracowali sekwencyjny test diagnostyczny (SDBench) jako interaktywną platformę do oceny czynników diagnostycznych (człowieka lub sztucznej inteligencji) poprzez realistyczne, sekwencyjne spotkania kliniczne.
Aby ocenić dokładność diagnostyczną, w bieżącym badaniu wykorzystano cotygodniowe przypadki publikowane w New England Journal of Medicine (NEJM), wiodącym na świecie czasopiśmie medycznym. W tym czasopiśmie zazwyczaj publikuje się szczegółowe opisy przypadków pacjentów Massachusetts General Hospital w szczegółowej, narracyjnej formie. Przypadki te należą do najtrudniejszych diagnostycznie i wymagających intelektualnie w medycynie klinicznej i często wymagają wielu specjalistów i badań diagnostycznych w celu potwierdzenia diagnozy.
Sdbench o 304 przypadki z Konferencji Kliniopatologicznej NEJM (2017–2025) w etapowe spotkania diagnostyczne. Dane medyczne obejmowały objawy kliniczne w przypadku ostatecznych rozpoznań, od powszechnych chorób (np. zapalenia płuc) po rzadkie zaburzenia (np. hipoglikemia noworodkowa). Korzystając z interaktywnej platformy, diagności decydują, jakie zadać pytania, jakie badania zlecić i kiedy potwierdzić diagnozę.
Information Gatekeeper to model językowy, który ujawnia szczegóły kliniczne z obszernych akt sprawy tylko w przypadku wyraźnego zapytania z obszernych akt sprawy. Może także dostarczać dodatkowych, spójnych dla każdego przypadku informacji na potrzeby testów, które nie zostały opisane w oryginalnej narracji CPC. Po postawieniu ostatecznej diagnozy na podstawie informacji uzyskanych od gatekeepera, porównano trafność oceny klinicznej z diagnozą faktyczną. Dodatkowo oszacowano skumulowany koszt wszystkich zleconych badań diagnostycznych wykonanych w rzeczywistej diagnostyce. Oceniając dokładność diagnostyczną i koszt diagnostyki, Sdbench wskazuje, jak blisko jesteśmy zapewnienia wysokiej jakości opieki po zrównoważonych kosztach.
Wyniki badań
W bieżącym badaniu przeanalizowano skuteczność wszystkich środków diagnostycznych w SDBEN. Czynników AI oceniano we wszystkich 304 przypadkach NEJM, natomiast lekarzy oceniano w podzbiorze 56 zestawów testowych. Badanie to wykazało, że agenci sztucznej inteligencji radzili sobie lepiej niż lekarze w tej podgrupie.
Lekarze praktykujący w USA i Wielkiej Brytanii, posiadający medianę doświadczenia klinicznego wynoszącą 12 lat, osiągnęli w SDBench dokładność diagnostyczną na poziomie 20% przy średnim koszcie wynoszącym 2963 USD za przypadek, co podkreśla nieodłączną trudność testu porównawczego. Lekarze spędzili średnio 11,8 minuty na każdym przypadku i zlecili 6,6 pytań i 7,2 testów. GPT -4o przewyższało lekarzy zarówno pod względem dokładności diagnostycznej, jak i kosztów. Dostępne na rynku, gotowe modele oferują różną dokładność diagnostyczną i koszt.
W bieżącym badaniu wprowadzono także MAI Diagnostic Orchestrator (MAI-DXO), platformę współpracującą z lekarzami, która wykazała wyższą skuteczność diagnostyczną niż lekarze-ludzi i modele języka komercyjnego. W porównaniu do komercyjnych LM, Mai-DXO wykazał wyższą dokładność diagnostyczną i znaczną redukcję kosztów leczenia o ponad połowę. Na przykład gotowy model O3 osiągnął 78,6% dokładności diagnostycznej przy cenie 7850 USD, podczas gdy May-DXO osiągnął dokładność 79,9% przy zaledwie 2397 USD lub 85,5% przy 7184 USD.
MAI-DXO osiągnęło to poprzez symulację wirtualnego panelu „lekarzy” pełniących różne role w generowaniu hipotez, wyborze testów, świadomości kosztów i sprawdzaniu błędów. W przeciwieństwie do podstawowego podpowiedzi AI, ta uporządkowana orkiestracja umożliwiła systemowi powtarzalność i wydajność.
Mai-Dxo to podejście niezależne od modelu, które wykazało wzrost dokładności w różnych modelach językowych, a nie tylko w modelu O3 Foundation.
Wnioski i perspektywy na przyszłość
Wyniki obecnego badania pokazują większą dokładność diagnostyczną i opłacalność systemów AI, gdy przetwarzają one iteracyjnie i ostrożnie. Sdbench i Mai-Dxo zapewniły empiryczne podstawy do udoskonalenia diagnostyki wspomaganej sztuczną inteligencją przy realistycznych ograniczeniach.
W przyszłości Mai-DXO należy poddać walidacji w warunkach klinicznych, w których częstość występowania i objawy choroby występują codziennie, a nie rzadko. Ponadto wymagane są interaktywne testy medyczne na dużą skalę obejmujące ponad 304 przypadki. Włączenie metod wizualnych i innych zmysłów, takich jak obrazowanie, mogłoby również poprawić dokładność diagnostyczną bez uszczerbku dla opłacalności.
Autorzy zauważają jednak istotne ograniczenia. Przypadki NEJM -CPC wybierane są ze względu na stopień trudności i nie odzwierciedlają codziennych objawów klinicznych. Do badania nie włączono zdrowych pacjentów ani nie mierzono odsetka wyników fałszywie dodatnich. Ponadto szacunkowe koszty diagnostyki opierają się na cenach w USA i mogą różnić się na całym świecie.
Modele przetestowano także na zachowanym zestawie testowym obejmującym najnowsze przypadki (2024–2025), aby ocenić uogólnienie i uniknąć nadmiernego dopasowania, ponieważ wiele z tych przypadków wydano po zakończeniu uczenia dla większości modeli.
W artykule pojawia się także szersze pytanie: czy powinniśmy porównywać systemy AI do pojedynczych lekarzy, czy całych zespołów medycznych? Ponieważ Mai-Dxo naśladuje współpracę wielospecjalistyczną, porównanie może odzwierciedlać nieco bliższą opiekę zespołową niż praktykę indywidualną.
Badania sugerują jednak, że ustrukturyzowane systemy sztucznej inteligencji, takie jak Mai-DXO, mogą pewnego dnia wspierać lub wzmacniać pracę lekarzy, szczególnie w środowiskach, w których dostęp do specjalistów jest ograniczony lub kosztowny.
Pobierz teraz swoją kopię PDF!
*Ważna uwaga: ArxivPublikuj wstępne raporty naukowe, które nie są recenzowane i dlatego nie są uważane za rozstrzygające, nie stanowią wytycznych dla praktyki klinicznej/zachowań związanych ze zdrowiem ani nie są traktowane jako ustalone informacje.
Źródła:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405