AI sistēma atbilst diagnostikas precizitātei, vienlaikus samazinot medicīniskās izmaksas

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Jaunā pētījumā Microsoft AI darbinātā diagnostikas sistēma pārspēja pieredzējušus ārstus, lai ātrāk, lētāk un precīzāk atrisinātu vissarežģītākos medicīniskos gadījumus. Pētījums: secīga diagnostika ar valodas modeļiem. Attēla kredīts: MetamorWorks/Shutterstock.com *Svarīga izpaušana: Arxiv publicē provizoriskus zinātniskus ziņojumus, kas nav salīdzinoši pārskatīti un tāpēc netiek uzskatīti par pārliecinošiem, liecina par klīnisko praksi/veselību saistītu uzvedību vai tiek uzskatīti par vispāratzītu informāciju. Nesenā pētījumā par Arxiv Preprint serveriem AI sistēmu diagnostikas precizitāte un resursu izdevumi tika salīdzināti ar klīnicistu veiktajiem sarežģītiem gadījumiem. Microsoft AI komanda demonstrēja mākslīgā intelekta (AI) efektīvu izmantošanu...

AI sistēma atbilst diagnostikas precizitātei, vienlaikus samazinot medicīniskās izmaksas

Jaunā pētījumā Microsoft AI darbinātā diagnostikas sistēma pārspēja pieredzējušus ārstus, lai ātrāk, lētāk un precīzāk atrisinātu vissarežģītākos medicīniskos gadījumus.

Pētījums: secīga diagnostika ar valodas modeļiem. Attēla kredīts: MetamorWorks/Shutterstock.com

*Svarīgs paziņojums: ArxivPublicējiet provizoriskus zinātniskus ziņojumus, kas nav salīdzinoši pārskatīti un tāpēc netiek uzskatīti par pārliecinošiem, vadās klīniskajā praksē/veselības uzvedībā vai tiek uzskatīti par vispāratzītu informāciju.

Nesen veikts pētījums parArxivPreprint Server salīdzināja AI sistēmu diagnostikas precizitāti un resursu izdevumus ar klīnicistu veiktajiem sarežģītiem gadījumiem. Microsoft AI komanda demonstrēja mākslīgā intelekta (AI) efektīvu izmantošanu medicīnā, lai risinātu diagnostikas problēmas, kas ārstiem ir jāatšifrē.

Secīgā diagnostika un valodas modeļi

Ārsti bieži diagnosticē pacientu slimību, izmantojot klīniskās spriešanas procesu, kas ietver pakāpenisku, iteratīvu aptauju un testēšanu. Pat ar ierobežotu sākotnējo informāciju klīnicisti sašaurina iespējamo diagnozi, aptaujājot pacientu un apstiprinot to, izmantojot bioķīmiskos testus, attēlveidošanu, biopsiju un citas diagnostikas procedūras.

Sarežģīta gadījuma risināšanai ir nepieciešams visaptverošs prasmju kopums, tostarp svarīgāko jautājumu vai testu noteikšana, kas jāievēro, uzmanības pievēršana pārbaužu izmaksām, lai novērstu pacienta sloga palielināšanos, un pierādījumu atpazīšana, lai veiktu pārliecinošu diagnozi.

Vairāki pētījumi ir pierādījuši valodu modeļu (LMS) uzlabotu efektivitāti, veicot medicīniskās licencēšanas eksāmenus un augsti strukturētas diagnostikas vinjetes. Tomēr vairuma LM veiktspēja ir novērtēta mākslīgos apstākļos, kas krasi atšķiras no reālās klīniskās vides.

Lielākā daļa LMS modeļu diagnostikas novērtējumam ir balstīti uz viktorīnu ar atbilžu variantiem, un diagnoze tiek veikta no iepriekš noteiktas atbilžu kopas. Samazināts secīgais diagnostikas cikls palielina statisko etalonu modeļa kompetences pārvērtēšanas risku. Turklāt šie diagnostikas modeļi rada nevienmērīgas testu pasūtīšanas un priekšlaicīgas diagnostikas slēgšanas risku. Tāpēc steidzami ir nepieciešama mākslīgā intelekta sistēma, kuras pamatā ir secīgs diagnostikas cikls, lai uzlabotu diagnostikas precizitāti un samazinātu testēšanas izmaksas.

Par pētījumu

Lai pārvarētu iepriekš minētos LMS modeļu trūkumus klīniskajai diagnostikai, zinātnieki ir izstrādājuši secīgu diagnostikas kritēriju (SDBench) kā interaktīvu sistēmu diagnostikas aģentu (cilvēka vai AI) novērtēšanai, izmantojot reālistiskas secīgas klīniskas tikšanās.

Lai novērtētu diagnostikas precizitāti, pašreizējā pētījumā tika izmantoti iknedēļas gadījumi, kas publicēti New England Journal of Medicine (NEJM), pasaules vadošajā medicīnas žurnālā. Šis žurnāls parasti publicē Masačūsetsas vispārējās slimnīcas pacientu gadījumu piezīmes detalizētā, stāstījuma formātā. Šie gadījumi ir vieni no diagnostiski sarežģītākajiem un intelektuāli prasīgākajiem klīniskajā medicīnā, un diagnozes apstiprināšanai bieži ir nepieciešami vairāki speciālisti un diagnostikas testi.

Pārskatiet par 304 gadījumiem no NEJM klīniskās patoloģijas konferences (2017–2025) pakāpeniskas diagnostikas tikšanās. Medicīnas dati ietvēra klīniskās prezentācijas galīgās diagnozēs, sākot no parastajām slimībām (piemēram, pneimonija) līdz retām slimībām (piemēram, jaundzimušo hipoglikēmijai). Izmantojot interaktīvo platformu, diagnostikas aģenti izlemj, kādus jautājumus uzdot, kādus testus pasūtīt un kad apstiprināt diagnozi.

Information Gatekeeper ir valodas modelis, kas atklāj klīniskās detaļas no visaptverošas lietas faila tikai tad, ja tas ir skaidri pieprasīts no visaptverošas lietas faila. Tas var arī sniegt papildu informāciju, kas atbilst konkrētajam gadījumam testēšanai, kas nav aprakstīta sākotnējā MPK aprakstā. Pēc galīgās diagnozes noteikšanas, pamatojoties uz informāciju, kas saņemta no vārtsarga, klīniskā novērtējuma precizitāte tika pārbaudīta pret faktisko diagnozi. Turklāt tika aplēstas visu pieprasīto diagnostikas testu kumulatīvās izmaksas, kas veiktas reālajā diagnostikā. Novērtējot diagnostikas precizitāti un diagnostikas izmaksas, Sdbench norāda, cik tuvu mēs esam augstas kvalitātes aprūpes nodrošināšanai par ilgtspējīgām izmaksām.

Studiju rezultāti

Pašreizējā pētījumā tika analizēta visu diagnostikas līdzekļu veiktspēja SDBEN. AI aģenti tika novērtēti visos 304 NEJM gadījumos, savukārt ārsti tika novērtēti saglabātajā 56 testu komplektu apakškopā. Šis pētījums atklāja, ka AI aģenti šajā apakšgrupā strādāja labāk nekā ārsti.

Ārsti, kas praktizē ASV un Apvienotajā Karalistē ar vidēji 12 gadu klīnisko pieredzi, sasniedza 20% diagnostikas precizitāti ar vidējo izmaksu USD 2963 par katru gadījumu SDBench, uzsverot etalona sarežģītību. Mediķi vienam gadījumam veltīja vidēji 11,8 minūtes un pieprasīja 6,6 jautājumus un 7,2 pārbaudes. GPT -4o pārspēja ārstus gan diagnostikas precizitātes, gan izmaksu ziņā. Komerciāli pieejamie modeļi ir piedāvājuši atšķirīgu diagnostikas precizitāti un izmaksas.

Pašreizējais pētījums arī iepazīstināja ar MAI diagnostikas orķestri (MAI-DXO), platformu, kas sadarbojas ar ārstiem, kas demonstrēja augstāku diagnostikas efektivitāti nekā cilvēku ārsti un komerciālie valodu modeļi. Salīdzinot ar komerciālajiem LM, Mai-DXO uzrādīja augstāku diagnostikas precizitāti un ievērojamu medicīnas izmaksu samazinājumu par vairāk nekā pusi. Piemēram, O3 modelis sasniedza 78,6% diagnostikas precizitāti par 7850 USD, savukārt May-DXO sasniedza 79,9% precizitāti tikai ar USD 2397 vai 85,5% par USD 7184.

MAI-DXO to panāca, simulējot virtuālu “ārstu aģentu” paneli ar dažādām lomām hipotēžu ģenerēšanā, testu atlasē, izmaksu apzināšanā un kļūdu pārbaudē. Atšķirībā no pamata AI uzvednes, šī strukturētā orķestrēšana ļāva sistēmai būt iteratīvai un efektīvai.

Mai-Dxo ir modeļu agnostiska pieeja, kas ir pierādījusi precizitātes pieaugumu dažādos valodu modeļos, ne tikai O3 Foundation modelī.

Secinājumi un nākotnes perspektīvas

Pašreizējā pētījuma rezultāti liecina par AI sistēmu augstāku diagnostikas precizitāti un rentabilitāti, ja tās apstrādā iteratīvi un rūpīgi. Sdbench un Mai-Dxo nodrošināja empīriski pamatotu pamatu AI atbalstītas diagnostikas uzlabošanai reālistisku ierobežojumu apstākļos.

Nākotnē Mai-DXO ir jāvalidē klīniskos apstākļos, kur slimības izplatība un izpausme notiek tikpat bieži kā katru dienu, nevis reti. Turklāt ir nepieciešami liela mēroga interaktīvi medicīnas etaloni ar vairāk nekā 304 gadījumiem. Vizuālo un citu sensoro modalitātes, piemēram, attēlveidošanas, iekļaušana varētu arī uzlabot diagnostikas precizitāti, neapdraudot izmaksu efektivitāti.

Tomēr autori atzīmē svarīgus ierobežojumus. NEJM -CPC gadījumi ir atlasīti pēc to sarežģītības un neatspoguļo ikdienas klīniskās prezentācijas. Pētījumā netika iekļauti veseli pacienti un netika novērtēti kļūdaini pozitīvi rādītāji. Turklāt diagnostikas izmaksu aprēķini ir balstīti uz ASV cenām un var atšķirties visā pasaulē.

Modeļi tika arī pārbaudīti, izmantojot saglabātu neseno gadījumu (2024.–2025. gadu) testu kopu, lai novērtētu vispārināšanu un izvairītos no pārmērīgas pielāgošanas, jo daudzi no šiem gadījumiem tika izlaisti pēc apmācības pārtraukšanas lielākajai daļai modeļu.

Dokumentā tiek izvirzīts arī plašāks jautājums: vai mums vajadzētu salīdzināt AI sistēmas ar atsevišķiem ārstiem vai pilnām medicīnas komandām? Tā kā Mai-Dxo atdarina vairāku speciālistu sadarbību, salīdzinājums var atspoguļot nedaudz tuvāk komandas aprūpei nekā individuālajai praksei.

Tomēr pētījumi liecina, ka strukturētas AI sistēmas, piemēram, Mai-DXO, kādu dienu var atbalstīt vai papildināt klīnikas speciālistus, jo īpaši apstākļos, kur piekļuve speciālistiem ir ierobežota vai dārga.

Lejupielādējiet savu PDF kopiju tūlīt!

*Svarīgs paziņojums: ArxivPublicējiet provizoriskus zinātniskus ziņojumus, kas nav salīdzinoši pārskatīti un tāpēc netiek uzskatīti par pārliecinošiem, vadās klīniskajā praksē/veselības uzvedībā vai tiek uzskatīti par vispāratzītu informāciju.


Avoti:

Journal reference:
  • Preliminary scientific report.
    Nori, H. et al. (2025) Sequential Diagnosis with Language Models. ArXiv. https://arxiv.org/abs/2506.22405  https://arxiv.org/abs/2506.22405