Studier viser at fremtredende varmekart kanskje ikke er klare for beste sendetid ennå
Kunstig intelligens-modeller som tolker medisinske bilder lover å forbedre klinikeres evne til å stille nøyaktige og rettidige diagnoser samtidig som de reduserer arbeidsbelastningen ved å la travle leger fokusere på kritiske tilfeller og delegere rutineoppgaver til AI. Men AI-modeller som mangler åpenhet om hvordan og hvorfor en diagnose stilles, kan være problematiske. Dette ugjennomsiktige argumentet -; også kjent som "Black Box" AI -; kan redusere legens tillit til påliteligheten til AI-verktøyet og dermed fraråde bruken av det. Denne mangelen på åpenhet kan også føre til at klinikere overser tolkningen av...

Studier viser at fremtredende varmekart kanskje ikke er klare for beste sendetid ennå
Kunstig intelligens-modeller som tolker medisinske bilder lover å forbedre klinikeres evne til å stille nøyaktige og rettidige diagnoser samtidig som de reduserer arbeidsbelastningen ved å la travle leger fokusere på kritiske tilfeller og delegere rutineoppgaver til AI.
Men AI-modeller som mangler åpenhet om hvordan og hvorfor en diagnose stilles, kan være problematiske. Dette ugjennomsiktige argumentet -; også kjent som "Black Box" AI -; kan redusere legens tillit til påliteligheten til AI-verktøyet og dermed fraråde bruken av det. Denne mangelen på åpenhet kan også føre til at klinikere stoler på verktøyets tolkning.
Innen medisinsk bildediagnostikk har saliency-vurderinger vært en måte å skape mer forståelige AI-modeller og avmystifisere AI-beslutninger -; En tilnærming som bruker varmekart for å finne ut om verktøyet fokuserer riktig kun på de relevante delene av et gitt bilde eller målretter mot irrelevante deler av det.
Varmekart fungerer ved å fremheve områder på et bilde som påvirket AI-modellens tolkning. Dette kan hjelpe menneskelige leger med å oppdage om AI-modellen fokuserer på de samme områdene som dem eller feilaktig fokuserer på irrelevante steder i et bilde.
Men en ny studie publisert 10. oktober i Nature Machine Intelligence viser at, til tross for alt de lover, er varmekart for fremtredende varme ikke klare for beste sendetid ennå.
Analysen, ledet av Harvard Medical School-etterforsker Pranav Rajpurkar, Stanfords Matthew Lungren og New York Universitys Adriel Saporta, kvantifiserte gyldigheten av syv mye brukte fremhevingsmetoder for å bestemme hvor pålitelig og nøyaktig de kan identifisere patologier assosiert med 10 ofte diagnostiserte tilstander røntgenbilde, slik som lunge-utslag, lunge-, lungeøde- og kardiovaskulære lesjoner. strukturer. For å bestemme ytelsen sammenlignet forskerne verktøyenes ytelse med menneskelig ekspertvurdering.
Til syvende og sist underpresterte verktøy som brukte fremtredende varmekartbaserte varmekart konsekvent sammenlignet med menneskelige radiologer i bildevurdering og deres evne til å oppdage patologiske lesjoner.
Arbeidet representerer den første komparative analysen mellom fremtredende kart og menneskelig ekspertytelse ved vurdering av flere radiografiske patologier. Studien gir også en detaljert forståelse av om og hvordan visse patologiske trekk i et bilde kan påvirke ytelsen til AI-verktøy.
Funksjonen for fremtredende kart blir allerede brukt som et kvalitetssikringsverktøy av klinisk praksis som bruker AI til å tolke datastøttede deteksjonsmetoder, for eksempel: B. Lese røntgenbilder av thorax. Men i lys av de nye funnene, bør denne funksjonen nytes med forsiktighet og en sunn dose skepsis, ifølge forskerne.
Vår analyse viser at saliency-kart ennå ikke er pålitelige nok til å validere individuelle kliniske beslutninger tatt av en AI-modell. Vi har identifisert viktige begrensninger som reiser alvorlige sikkerhetsproblemer for bruk i dagens praksis."
Pranav Rajpurkar, assisterende professor i biomedisinsk informatikk, HMS
Forskerne advarer om at på grunn av de viktige begrensningene identifisert i studien, bør salience-baserte varmekart raffineres ytterligere før de blir mye brukt i kliniske AI-modeller.
Teamets fullstendige kodebase, data og analyse er åpne og tilgjengelige for alle som er interessert i å utforske dette viktige aspektet ved klinisk maskinlæring i medisinske bildebehandlingsapplikasjoner.
Kilde:
Referanse:
Saporta, A., et al. (2022) Benchmarking av fremtredende metoder for tolkning av røntgen av thorax. Natur-maskin intelligens. doi.org/10.1038/s42256-022-00536-x.
.