Undersøgelser viser, at saliency heat maps muligvis ikke er klar til bedste sendetid endnu
Kunstig intelligens-modeller, der fortolker medicinske billeder, lover at forbedre klinikernes evne til at stille præcise og rettidige diagnoser og samtidig reducere arbejdsbyrden ved at tillade travle læger at fokusere på kritiske sager og uddelegere rutineopgaver til AI. Men AI-modeller, der mangler gennemsigtighed i, hvordan og hvorfor en diagnose stilles, kan være problematiske. Dette uigennemsigtige argument -; også kendt som "Black Box" AI -; kan reducere lægens tillid til pålideligheden af AI-værktøjet og dermed modvirke brugen af det. Denne mangel på gennemsigtighed kan også få klinikere til at overse fortolkningen af...

Undersøgelser viser, at saliency heat maps muligvis ikke er klar til bedste sendetid endnu
Kunstig intelligens-modeller, der fortolker medicinske billeder, lover at forbedre klinikernes evne til at stille præcise og rettidige diagnoser og samtidig reducere arbejdsbyrden ved at tillade travle læger at fokusere på kritiske sager og uddelegere rutineopgaver til AI.
Men AI-modeller, der mangler gennemsigtighed i, hvordan og hvorfor en diagnose stilles, kan være problematiske. Dette uigennemsigtige argument -; også kendt som "Black Box" AI -; kan reducere lægens tillid til pålideligheden af AI-værktøjet og dermed modvirke brugen af det. Denne mangel på gennemsigtighed kan også få klinikere til at stole på værktøjets fortolkning.
Inden for medicinsk billeddannelse har saliency-vurderinger været en måde at skabe mere forståelige AI-modeller og afmystificere AI-beslutningstagning -; En tilgang, der bruger varmekort til at bestemme, om værktøjet kun fokuserer korrekt på de relevante dele af et givet billede eller målretter mod irrelevante dele af det.
Heatmaps fungerer ved at fremhæve områder på et billede, der påvirkede AI-modellens fortolkning. Dette kan hjælpe menneskelige læger med at opdage, om AI-modellen fokuserer på de samme områder som dem eller forkert fokuserer på irrelevante steder i et billede.
Men en ny undersøgelse offentliggjort 10. oktober i Nature Machine Intelligence viser, at på trods af deres løfter, er fremtrædende varmekort endnu ikke klar til bedste sendetid.
Analysen, ledet af Harvard Medical Schools efterforsker Pranav Rajpurkar, Stanfords Matthew Lungren og New York Universitys Adriel Saporta, kvantificerede gyldigheden af syv udbredte fremhævningsmetoder til at bestemme, hvor pålideligt og præcist de kan identificere patologier forbundet med 10 almindeligt diagnosticerede tilstande røntgenbilleder, såsom lungestrukturer eller udbrud af lungeødefald, lungeudbrud, lungeudbrud, udbrud. For at bestemme ydeevnen sammenlignede forskerne værktøjernes ydeevne med menneskelig ekspertvurdering.
I sidste ende underpræsterede værktøjer, der brugte fremtrædende heatmap-baserede heatmaps, konsekvent sammenlignet med humane radiologer i billedvurdering og deres evne til at opdage patologiske læsioner.
Arbejdet repræsenterer den første sammenlignende analyse mellem saliency-kort og menneskelig ekspertpræstation i vurdering af flere radiografiske patologier. Undersøgelsen giver også en detaljeret forståelse af, om og hvordan visse patologiske træk i et billede kan påvirke ydeevnen af AI-værktøjer.
Funktionen af saliency map bliver allerede brugt som et kvalitetssikringsværktøj af klinisk praksis, der bruger AI til at fortolke computerstøttede detektionsmetoder, såsom: B. Aflæsning af røntgenbilleder af thorax. Men i lyset af de nye resultater bør denne funktion nydes med forsigtighed og en sund dosis skepsis, ifølge forskerne.
Vores analyse viser, at saliency-kort endnu ikke er pålidelige nok til at validere individuelle kliniske beslutninger truffet af en AI-model. Vi har identificeret vigtige begrænsninger, der giver anledning til alvorlige sikkerhedsproblemer ved brug i den nuværende praksis."
Pranav Rajpurkar, adjunkt i biomedicinsk informatik, HMS
Forskerne advarer om, at på grund af de vigtige begrænsninger, der er identificeret i undersøgelsen, bør salience-baserede heatmaps raffineres yderligere, før de anvendes i vid udstrækning i kliniske AI-modeller.
Holdets fulde kodebase, data og analyse er åbne og tilgængelige for alle, der er interesseret i at udforske dette vigtige aspekt af klinisk maskinlæring i medicinske billedbehandlingsapplikationer.
Kilde:
Reference:
Saporta, A., et al. (2022) Benchmarking af saliency-metoder til fortolkning af røntgenbilleder af thorax. Natur-maskine intelligens. doi.org/10.1038/s42256-022-00536-x.
.