Resultatene for kliniske AI-verktøy evaluerer den høyeste medisinske lisensieringseksamenen noensinne i USA

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Et kraftig verktøy for klinisk kunstig intelligens utviklet av University of Buffalo biomedisinske informatikkforskere Jama Network Open. Ved å oppnå høyere score på USMLE enn de fleste leger og alle andre AI-verktøy så langt, har Semantic Clinical Artificial Intelligence (SCAI, uttalt «Sky») potensialet til å bli en kritisk partner for leger, sier hovedforfatter Peter L. Elkin, MD, leder av Institutt for biomedisinsk informatikk ved BioUBmedical Science and Medicine School of Medicine and UB. Medisin. I følge Elkin er SCAI det mest nøyaktige kliniske AI-verktøyet til dags dato, i trinn ...

Resultatene for kliniske AI-verktøy evaluerer den høyeste medisinske lisensieringseksamenen noensinne i USA

Et kraftig verktøy for klinisk kunstig intelligens utviklet av biomedisinske informatikkforskere ved University of BuffaloJama Network åpen.

Ved å oppnå høyere score på USMLE enn de fleste leger og alle andre AI-verktøy så langt, har Semantic Clinical Artificial Intelligence (SCAI, uttalt «Sky») potensialet til å bli en kritisk partner for leger, sier hovedforfatter Peter L. Elkin, MD, leder av Institutt for biomedisinsk informatikk ved BioUBmedical Science and Medicine School of Medicine and UB. Medisin.

I følge Elkin er SCAI det mest nøyaktige kliniske AI-verktøyet til dags dato, og scoret den mest avanserte versjonen på trinn 3 av USMLE, mens et GPT4 Omni-verktøy fikk 90,5 % på samme test.

Som leger er vi vant til å bruke datamaskiner som verktøy, men SCAI er annerledes. Det kan øke din beslutningstaking og tenkning basert på sin egen resonnement. "

Peter L. Elkin, MD, leder av Institutt for biomedisinsk informatikk, Jacobs School of Medicine and Biomedical Sciences ved UB

Verktøyet kan svare på medisinske spørsmål stilt av klinikere eller publikum

Forskere testet modellen mot USMLE, som kreves for lisensiering av leger over hele landet, som vurderer legens evne til å anvende kunnskap, konsepter og prinsipper og demonstrere grunnleggende pasientsentrerte ferdigheter. Spørsmål med en visuell komponent er eliminert.

Elkin forklarer at de fleste AI-verktøy jobber med statistikk for å finne assosiasjoner i nettdata som de kan bruke for å svare på et spørsmål. "Vi kaller disse verktøyene generativ kunstig intelligens," sier han. "Noen har postulert at de bare plagierer det som er på Internett fordi svarene de gir deg er det andre har skrevet." Imidlertid blir disse AI-modellene nå partnere i omsorgen i stedet for enkle verktøy som klinikere kan bruke i sin praksis, sier han.

"Men Scai svarer på mer komplekse spørsmål og utfører mer komplekse semantiske resonnementer," sier han, "Vi har skapt kilder til kunnskap som kan ligne mer på hvordan folk lærer under opplæringen på medisinsk skole."

Teamet startet med tidligere utviklet programvare for naturlig språkbehandling. De la til store mengder autoritativ klinisk informasjon hentet fra vidt forskjellige kilder, alt fra nyere medisinsk litteratur og kliniske retningslinjer til genomiske data, legemiddelinformasjon, utskrivningsanbefalinger, pasientsikkerhetsdata og mer. Eventuelle data som kunne være partiske, for eksempel: B. kliniske notater ble ikke inkludert.

13 millioner medisinske fakta

SCAI inneholder 13 millioner medisinske fakta i tillegg til alle mulige interaksjoner mellom disse faktaene. Teamet brukte grunnleggende kliniske fakta kjent som semantiske trippel (subjekt-objekt forhold som "penicillin behandler pneumokokkpneumoni") semantiske nettverk. Verktøyet kan da representere disse semantiske nettverkene på en slik måte at det er mulig å trekke logiske konklusjoner fra dem.

"Vi lærte store språkmodeller hvordan man bruker semantisk resonnement," sier Elkin.

Andre teknikker som bidro til SCAI inkluderer kunnskapsgrafer, designet for nye lenker i medisinske data, så vel som tidligere "skjulte" mønstre, samt oppnå generering av gjenfinning, som lar den store språkmodellen få tilgang til og inkorporere informasjon fra eksterne kunnskapsbaser på en rask måte. Dette reduserer «konfabulering», tendensen til at AI-verktøy alltid reagerer på en melding selv om den ikke gir nok informasjon til å fortsette.

Elkin legger til at bruk av formell semantikk for å informere den store språkmodellen gir viktig kontekst som er nødvendig for at SCAI kan forstå og svare på et spesifikt spørsmål mer nøyaktig.

"Den kan ha en samtale med deg."

"SCAI er forskjellig fra andre store språkmodeller fordi det kan snakke med deg og, som et menneske-datamaskin-partnerskap, kan øke din beslutningstaking og tenkning basert på sine egne resonnementer," sier Elkin.

Han konkluderer: "Ved å legge til semantikk til store språkmodeller, gir vi dem muligheten til å resonnere på en måte som ligner på å praktisere evidensbasert medisin."

Fordi den kan få tilgang til så enorme mengder data, kan SCAI også forbedre pasientsikkerheten, forbedre tilgangen til omsorg og "demokratisere spesialitetspleie," sier Elkin, og gjør medisinsk informasjon om spesialitet og subspesialitet tilgjengelig for primærhelsetjenesten og til og med pasienter.

Mens Scais kraft er imponerende, understreker Elkin at oppdraget er å forsterke, ikke erstatte, leger.

"Kunstig intelligens vil ikke erstatte leger," sier han, "en lege som bruker AI kan erstatte en lege som ikke gjør det."

I tillegg til Elkin inkluderer UB-medforfattere fra Institutt for biomedisinsk informatikk Guresh Mehta; Frank Lehouillier; Melissa Resnick, PhD; Crystal Tomlin, PhD; Skyler Resendez, PhD; og Jiaxing Liu.

Sarah Mullin, PhD, fra Roswell Park Comprehensive Cancer Center, og Jonathan R. Nebeker, MD, og ​​Steven H. Brown, MD, begge ved Department of Veterans Affairs, er også medforfattere.

Arbeidet ble finansiert av tilskudd fra National Institutes of Health og Department of Veterans Affairs.


Kilder:

Journal reference:

Elkin, P.L.,et al. (2025). Semantisk klinisk kunstig intelligens vs Native Large Language Model Performance på USMLE. Åpne JAMA-nettverk. doi.org/10.1001/jamanetworkopen.2025.6359.