AI системата отговаря на диагностичната точност, като същевременно намалява медицинските разходи
В ново проучване диагностичната система на Microsoft, базирана на изкуствен интелект, превъзхожда опитни лекари при решаването на най-предизвикателните медицински случаи по-бързо, по-евтино и по-точно. Изследване: Последователна диагностика с езикови модели. Кредит на изображението: MetamorWorks/Shutterstock.com *Важно разкриване: Arxiv публикува предварителни научни доклади, които не са рецензирани и следователно не се считат за убедителни, не ръководят клинична практика/поведения, свързани със здравето, или се третират като установена информация. Скорошно проучване на Arxiv Preprint Servers сравнява диагностичната точност и разходите за ресурси на AI системите с тези на клиницистите при сложни случаи. Екипът на Microsoft AI демонстрира ефективното използване на изкуствения интелект (AI) в...
AI системата отговаря на диагностичната точност, като същевременно намалява медицинските разходи
В ново проучване диагностичната система на Microsoft, базирана на изкуствен интелект, превъзхожда опитни лекари при решаването на най-предизвикателните медицински случаи по-бързо, по-евтино и по-точно.
Изследване: Последователна диагностика с езикови модели. Кредит за изображение: MetamorWorks/Shutterstock.com
*Важна бележка: ArxivПубликувайте предварителни научни доклади, които не са рецензирани и следователно не се считат за убедителни, насочват клиничната практика/поведения, свързани със здравето, или се третират като установена информация.
Скорошно проучване наArxivPreprint Server сравнява диагностичната точност и разходите за ресурси на AI системите с тези на клиницистите при сложни случаи. Екипът на Microsoft AI демонстрира ефективното използване на изкуствения интелект (AI) в медицината за справяне с диагностичните предизвикателства, които лекарите трябва да дешифрират.
Последователна диагностика и езикови модели
Лекарите често диагностицират пациентите за заболяване чрез процес на клинично разсъждение, който включва стъпка по стъпка, повтарящи се разпити и тестове. Дори и с ограничена първоначална информация, клиницистите стесняват възможната диагноза, като разпитват пациента и я потвърждават чрез биохимично изследване, изображения, биопсия и други диагностични процедури.
Разрешаването на сложен случай изисква цялостен набор от умения, включително идентифициране на най-критичните въпроси или тестове, които да се следват, обръщане на внимание на разходите за тестване, за да се предотврати увеличаване на тежестта на пациента, и разпознаване на доказателства за поставяне на уверена диагноза.
Няколко проучвания демонстрираха подобрената ефективност на езиковите модели (LMS) при провеждането на изпити за медицинско лицензиране и силно структурирани диагностични винетки. Въпреки това, ефективността на повечето LM е оценена при изкуствени условия, които са драстично различни от клиничните среди в реалния свят.
Повечето LMS модели за диагностични оценки се основават на тест с множество отговори и диагнозата се прави от предварително зададен набор от отговори. Намаленият последователен диагностичен цикъл увеличава риска от надценяване на компетентността на модела на статичните бенчмаркове. В допълнение, тези диагностични модели крият риск от безразборно поръчване на тестове и преждевременно приключване на диагностиката. Следователно има спешна нужда от AI система, базирана на последователен диагностичен цикъл, за да се подобри диагностичната точност и да се намалят разходите за тестване.
Относно изследването
За да преодолеят гореспоменатите недостатъци на LMS моделите за клинична диагностика, учените са разработили Sequential Diagnostic Benchmark (SDBench) като интерактивна рамка за оценка на диагностични агенти (човек или AI) чрез реалистични последователни клинични срещи.
За да оцени диагностичната точност, настоящото проучване използва седмични случаи, публикувани в New England Journal of Medicine (NEJM), водещото медицинско списание в света. This journal typically publishes case notes of Massachusetts General Hospital patients in a detailed, narrative format. Тези случаи са сред най-диагностично предизвикателните и интелектуално изискващи в клиничната медицина и често изискват множество специалисти и диагностични тестове за потвърждаване на диагнозата.
Sdbench от 304 случая от клинико-патологичната конференция на NEJM (2017-2025) в поетапни диагностични срещи. Медицинските данни включват клинични прояви при окончателни диагнози, вариращи от често срещани заболявания (напр. пневмония) до редки заболявания (напр. неонатална хипогликемия). Използвайки интерактивната платформа, диагностичните агенти решават какви въпроси да зададат, какви тестове да поръчат и кога да потвърдят диагнозата.
Information Gatekeeper е езиков модел, който разкрива клинични детайли от изчерпателно досие на случай само когато е изрично поискано от изчерпателно досие на случай. Може също така да предостави допълнителна съгласувана информация за тестване, която не е описана в оригиналния разказ на CPC. След като окончателната диагноза беше поставена въз основа на информацията, получена от вратаря, точността на клиничната оценка беше тествана спрямо действителната диагноза. Освен това беше оценена кумулативната цена на всички поискани диагностични тестове, извършени при реална диагноза. Чрез оценка на диагностичната точност и диагностичните разходи, Sdbench показва колко близо сме до предоставянето на висококачествена грижа на устойчива цена.
Резултати от изследването
Настоящото проучване анализира ефективността на всички диагностични агенти на SDBEN. Агентите на AI бяха оценени във всичките 304 случая на NEJM, докато лекарите бяха оценени в запазена подгрупа от 56 тестови комплекта. Това проучване установи, че AI агентите се представят по-добре от лекарите в тази подгрупа.
Лекарите, практикуващи в САЩ и Обединеното кралство със среден клиничен опит от 12 години, постигнаха 20% диагностична точност при средна цена от $2963 на случай на SDBench, подчертавайки присъщата трудност на бенчмарка. Лекарите са отделяли средно 11,8 минути на случай и са поискали 6,6 въпроса и 7,2 теста. GPT -4o превъзхожда лекарите както по диагностична точност, така и по цена. Наличните в търговската мрежа готови модели предлагат различна диагностична точност и цена.
Настоящото проучване също така представи MAI Diagnostic Orchestrator (MAI-DXO), платформа в партньорство с лекари, която демонстрира по-висока диагностична ефективност от човешките лекари и търговските езикови модели. В сравнение с търговските LM, Mai-DXO демонстрира по-висока диагностична точност и значително намаление на медицинските разходи с повече от половината. Например, готовият модел O3 постигна 78,6% диагностична точност при $7,850, докато May-DXO постигна 79,9% точност при само $2,397 или 85,5% при $7,184.
MAI-DXO постигна това чрез симулиране на виртуален панел от „лекарски агенти“ с различни роли в генерирането на хипотези, избора на тестове, осведомеността за разходите и проверката на грешки. За разлика от подканата на базовия AI, тази структурирана оркестрация позволи на системата да бъде итеративна и ефективна.
Mai-Dxo е моделно-агностичен подход, който демонстрира подобрения в точността в различни езикови модели, не само в модела на O3 Foundation.
Изводи и бъдещи перспективи
Резултатите от настоящото проучване показват по-високата диагностична точност и рентабилността на AI системите, когато обработват итеративно и внимателно. Sdbench и Mai-Dxo предоставиха емпирично базирана основа за усъвършенстване на подпомаганата от AI диагностика при реалистични ограничения.
В бъдеще Mai-DXO трябва да бъде валидиран в клинични условия, където разпространението и представянето на заболяването се случва толкова често, колкото ежедневно, а не като рядък случай. Освен това са необходими широкомащабни интерактивни медицински показатели с повече от 304 случая. Включването на визуални и други сензорни модалности, като изображения, също може да подобри диагностичната точност, без да компрометира рентабилността.
Авторите обаче отбелязват важни ограничения. Случаите на NEJM -CPC са избрани поради тяхната трудност и не отразяват ежедневните клинични прояви. Проучването не включва здрави пациенти и не измерва фалшиво положителни резултати. Освен това оценките на разходите за диагностика се основават на цените в САЩ и може да варират в световен мащаб.
Моделите също бяха тествани върху запазен тестов набор от скорошни случаи (2024-2025 г.), за да се оцени обобщаването и да се избегне пренастройването, тъй като много от тези случаи бяха пуснати след прекъсването на обучението за повечето модели.
Документът повдига и по-широк въпрос: Трябва ли да сравняваме системите с изкуствен интелект с отделни лекари или пълни медицински екипи? Тъй като Mai-Dxo имитира сътрудничеството между много специалисти, сравнението може да отразява донякъде по-близо до грижата, базирана на екип, отколкото индивидуалната практика.
Проучването обаче предполага, че структурираните AI системи като Mai-DXO може един ден да подкрепят или да увеличат клиницистите, особено в настройки, където достъпът до специалисти е ограничен или скъп.
Изтеглете вашето PDF копие сега!
*Важна бележка: ArxivПубликувайте предварителни научни доклади, които не са рецензирани и следователно не се считат за убедителни, насочват клиничната практика/поведения, свързани със здравето, или се третират като установена информация.
източници:
- Preliminary scientific report.
Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405 https://arxiv.org/abs/2506.22405