AI моделите се борят в медицински разговори в реалния свят

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Инструменти за изкуствен интелект като ChatGPT се рекламират заради обещанието си да намалят натоварването на клиницистите чрез сортиране на пациенти, събиране на медицински истории и дори поставяне на предварителни диагнози. Тези инструменти, известни като широкоезични модели, вече се използват от пациентите, за да разберат своите симптоми и резултатите от медицински тестове. Но докато тези AI модели се представят впечатляващо при стандартизирани медицински тестове, колко добре се представят в ситуации, които по-точно имитират реалния свят? Не е толкова голямо, според резултатите от ново проучване, ръководено от изследователи от Харвардското медицинско училище и Станфордския университет. За техния анализ, публикуван на 2 януари...

AI моделите се борят в медицински разговори в реалния свят

Инструменти за изкуствен интелект като ChatGPT се рекламират заради обещанието си да намалят натоварването на клиницистите чрез сортиране на пациенти, събиране на медицински истории и дори поставяне на предварителни диагнози.

Тези инструменти, известни като широкоезични модели, вече се използват от пациентите, за да разберат своите симптоми и резултатите от медицински тестове.

Но докато тези AI модели се представят впечатляващо при стандартизирани медицински тестове, колко добре се представят в ситуации, които по-точно имитират реалния свят?

Не е толкова голямо, според резултатите от ново проучване, ръководено от изследователи от Харвардското медицинско училище и Станфордския университет.

За техния анализ, публикуван на 2 януари вПриродна медицинаизследователите са създали рамка за оценка -; или тест -; наречена CRAFT-MD (Рамка за оценка на разговорно разсъждение за тестване в медицината) и я разположи върху четири модела на големи езици, за да види колко добре работят в среди, които много наподобяват действителните взаимодействия с пациентите.

И четирите модела с големи езици се представиха добре при въпроси в стила на медицински преглед, но представянето им се влоши, когато бяха включени в разговори, които по-точно имитират взаимодействията в реалния свят.

Тази празнина, казаха изследователите, подчертава двойна необходимост: първо, да се създадат по-реалистични оценки, които оценяват по-добре пригодността на клиничните AI модели за използване в реалния свят, и второ, да се подобри способността на тези инструменти да диагностицират въз основа на по-реалистични взаимодействия, преди да бъдат използвани в клиниката.

Инструменти за оценка като CRAFT-MD, според изследователския екип, могат не само да оценят по-точно AI моделите за тяхната годност в реалния свят, но също така биха могли да помогнат за оптимизиране на тяхното представяне в клиниката.

Нашата работа разкрива поразителен парадокс: докато тези AI модели превъзхождат медицинските прегледи, те се борят с основните тънкости на посещението при лекар. Динамиката на медицинските разговори – необходимостта да се задават правилните въпроси в точното време, да се събира разпръсната информация и да се разсъждава въз основа на симптомите – представляват уникални предизвикателства, които надхвърлят отговорите на въпроси с множество възможности за избор. Докато преминаваме от стандартизирано тестване към тези естествени разговори, дори и най-сложните AI модели показват значителни спадове в диагностичната точност.“

Пранав Раджпуркар, старши автор на изследването, асистент по биомедицинска информатика в Харвардското медицинско училище

По-добър тест за проверка на производителността на AI на практика

Понастоящем разработчиците тестват ефективността на AI моделите, като ги карат да отговорят на медицински въпроси с множество възможности за избор, обикновено произтичащи от националния изпит за завършващи студенти по медицина или от тестове, които жителите вземат като част от тяхното сертифициране.

„Този ​​подход предполага, че цялата съответна информация е представена ясно и кратко, като често се използва медицинска терминология или модни думи, които опростяват диагностичния процес, но в реалния свят този процес е много по-объркан“, каза Шрея Джохри, съавтор на изследването и докторант в лабораторията Раджпуркар в Харвардското медицинско училище. „Нуждаем се от рамка за тестване, която отразява по-добре реалността и следователно може по-добре да предвиди колко добре ще работи моделът.“

CRAFT-MD е разработен като такова по-реалистично измервателно устройство.

За да симулира взаимодействия в реалния свят, CRAFT-MD оценява колко добре моделите с голям език могат да събират информация за симптоми, лекарства и фамилна история и след това да поставят диагноза. Агент с изкуствен интелект се представя като пациент и отговаря на въпроси в разговорен, естествен стил. Друг AI агент оценява точността на крайната диагноза, предоставена от модела на голям език. След това човешки експерти оценяват резултатите от всяка среща по отношение на способността за събиране на подходяща информация за пациента, диагностична точност при представяне на разпръсната информация и спазване на инструкциите.

Изследователите са използвали CRAFT-MD, за да тестват четири AI модела –; както патентовани, така и търговски и версии с отворен код –; за представяне в 2000 клинични винетки, обхващащи общи състояния в първичната медицинска помощ и 12 медицински специалности.

Всички модели на ИИ показаха ограничения, особено в способността им да провеждат клинични разговори и да разсъждават въз основа на информация, предоставена от пациентите. Това от своя страна повлия на способността им да снемат медицинска история и да поставят подходяща диагноза. Например, моделите често са имали затруднения да задават правилните въпроси, за да съберат подходяща анамнеза на пациента, пропускат важна информация по време на снемане на анамнеза и имат затруднения при синтезирането на разпръсната информация. Точността на тези модели намаля, когато им беше представена информация с отворен край вместо отговори с множество възможности за избор. Тези модели също се представят по-зле, когато са в обмен напред-назад -; какъвто е случаят с повечето разговори в реалния свят –; вместо да участват в обобщени разговори.

Препоръки за оптимизиране на работата на AI на практика

Въз основа на тези констатации екипът предлага серия от препоръки както за разработчиците на AI, които проектират AI модели, така и за регулаторите, натоварени с оценката и одобрението на тези инструменти.

Това включва:

  • Verwendung von Konversationsfragen mit offenem Ende, die unstrukturierte Arzt-Patient-Interaktionen genauer widerspiegeln, bei der Entwicklung, Schulung und Prüfung von KI-Tools
  • Bewerten Sie Modelle hinsichtlich ihrer Fähigkeit, die richtigen Fragen zu stellen und die wichtigsten Informationen zu extrahieren
  • Entwerfen von Modellen, die in der Lage sind, mehrere Gespräche zu verfolgen und Informationen daraus zu integrieren
  • Entwerfen von KI-Modellen, die in der Lage sind, Textdaten (Notizen aus Gesprächen) mit und Nichttextdaten (Bilder, EKGs) zu integrieren.
  • Entwicklung ausgefeilterer KI-Agenten, die nonverbale Hinweise wie Gesichtsausdrücke, Tonfall und Körpersprache interpretieren können

Освен това в оценката трябва да бъдат включени както AI агенти, така и човешки експерти, препоръчват изследователите, тъй като разчитането само на човешки експерти е трудоемко и скъпо. Например CRAFT-MD беше по-бърз от човешките оценители, обработвайки 10 000 интервюта за 48 до 72 часа, плюс 15 до 16 часа експертна оценка. За разлика от тях подходите, базирани на хора, биха изисквали обширно набиране на персонал и приблизително 500 часа за симулации на пациенти (почти 3 минути на разговор) и приблизително 650 часа за експертни оценки (почти 4 минути на разговор). Използването на AI оценители като първи избор има допълнителната полза от елиминирането на риска от излагане на реални пациенти на непроверени AI инструменти.

Изследователите очакват, че самият CRAFT-MD също ще бъде редовно актуализиран и оптимизиран, за да включва подобрени модели на AI на пациенти.

„Като лекар и учен се интересувам от AI модели, които могат ефективно и етично да подобрят клиничната практика“, каза съавторът на изследването Роксана Данешджу, асистент по наука за биомедицински данни и дерматология в Станфордския университет. „CRAFT-MD създава рамка, която отразява по-добре взаимодействията в реалния свят, като помага за напредъка в областта, когато става въпрос за тестване на ефективността на AI модели в здравеопазването.“


източници:

Journal reference:

Джохри, С.,и др. (2025) Рамка за оценка за клинично използване на големи езикови модели в задачи за взаимодействие с пациенти. Природна медицина. doi.org/10.1038/s41591-024-03328-5.