Patologi AI-modeller avslører demografiske skjevheter i kreftdiagnose
Patologi har lenge vært hjørnesteinen i kreftdiagnose og behandling. En patolog undersøker nøye en ultratynn del av menneskelig vev under et mikroskop for ledetråder som indikerer tilstedeværelse, type og stadium av kreft. For en menneskelig ekspert er det å se på en virvlende rosa vevsprøve prikket med lilla celler...
Patologi AI-modeller avslører demografiske skjevheter i kreftdiagnose
Patologi har lenge vært hjørnesteinen i kreftdiagnose og behandling. En patolog undersøker nøye en ultratynn del av menneskelig vev under et mikroskop for ledetråder som indikerer tilstedeværelse, type og stadium av kreft.
For en menneskelig ekspert er det å se på en virvlende rosa vevsprøve prikket med lilla celler som å gradere en eksamen uten navn på – lysbildet avslører viktig informasjon om sykdommen uten å gi ytterligere detaljer om pasienten.
Det samme gjelder imidlertid ikke nødvendigvis for modellene for kunstig intelligens innen patologi som har dukket opp de siste årene. En ny studie ledet av et team ved Harvard Medical School viser at disse modellene på en eller annen måte kan utlede demografisk informasjon fra patologiske lysbilder, noe som fører til kreftdiagnoseskjevhet i forskjellige populasjoner.
Ved å analysere flere store patologiske AI-modeller for kreftdiagnose, fant forskerne ulik ytelse i å oppdage og differensiere kreft i ulike populasjoner basert på pasientenes selvrapporterte kjønn, rase og alder. De identifiserte flere mulige forklaringer på denne demografiske skjevheten.
Teamet utviklet deretter et rammeverk kalt FAIR-Path, som bidro til å redusere skjevhet i modellene.
Å lese demografiske data fra et patologisk lysbilde regnes som en "mission umulig" for en menneskelig patolog, så skjevheten i patologisk AI var en overraskelse for oss."
Kun-Hsing Yu, seniorforfatter, førsteamanuensis i biomedisinsk informatikk, Blavatnik Institute ved HMS og HMS assisterende professor i patologi ved Brigham and Women's Hospital
Å oppdage og bekjempe AI-bias i medisin er avgjørende fordi det kan påvirke diagnostisk nøyaktighet så vel som pasientresultater, sa Yu. Suksessen til FAIR-Path viser at forskere kan forbedre rettferdigheten til AI-modeller for kreftpatologi, og potensielt andre AI-modeller innen medisin, med minimal innsats.
Arbeidet, delvis støttet av føderal finansiering, er beskrevet 16. desember iCell Rapporter Medisin.
Sjekk for skjevhet
Yu og teamet hans undersøkte skjevheter i fire standard AI-patologimodeller utviklet for kreftvurdering. Disse dyplæringsmodellene ble trent på sett med kommenterte patologilysbilder, hvorfra de "lærte" biologiske mønstre som lar dem analysere nye lysbilder og stille diagnoser.
Forskerne matet AI-modellene med et stort, tverrinstitusjonelt arkiv av patologilysbilder fra 20 typer kreft.
De fant at alle fire modellene hadde skjev ytelse og ga mindre nøyaktige diagnoser for pasienter i visse grupper basert på selvrapportert rase, kjønn og alder. For eksempel hadde modellene problemer med å skille lungekreftundertyper hos afroamerikanske og mannlige pasienter og brystkreftundertyper hos yngre pasienter. Modellene hadde også problemer med å oppdage bryst-, nyre-, skjoldbruskkjertel- og magekreft i visse populasjoner. Disse ytelsesforskjellene forekom i rundt 29 prosent av de diagnostiske oppgavene som ble utført av modellene.
Denne diagnostiske unøyaktigheten, sa Yu, er fordi disse modellene trekker ut demografisk informasjon fra lysbildene - og er avhengige av demografiske spesifikke mønstre for å diagnostisere.
Resultatene var uventede "fordi vi forventer en objektiv patologivurdering," la Yu til. "Når vi vurderer bilder, trenger vi ikke nødvendigvis å kjenne pasientens demografi for å stille en diagnose."
Teamet lurte på: Hvorfor viste ikke patologisk AI den samme objektiviteten?
Leter etter forklaringer
Forskerne kom med tre forklaringer.
Fordi det er lettere for pasienter i visse populasjoner å få prøver, er AI-modellene trent på ulik prøvestørrelse. Dette gjør det vanskeligere for modeller å stille en nøyaktig diagnose i prøver som ikke er godt representert i treningssettet, for eksempel fra minoritetsgrupper basert på rase, alder eller kjønn.
Men "problemet var mye dypere," sa Yu. Forskerne la merke til at modellene noen ganger presterte dårligere i en befolkningsgruppe, selv når prøvestørrelsene var sammenlignbare.
Ytterligere analyse fant at dette kan skyldes forskjeller i sykdomsprevalens: noen kreftformer er mer vanlige i visse grupper, noe som gjør modellene bedre til å stille en diagnose i disse gruppene. Som et resultat kan modellene ha problemer med å diagnostisere kreft i populasjoner der de ikke er like vanlige.
AI-modellene fanger også opp subtile molekylære forskjeller i prøver fra forskjellige demografiske grupper. Modellene kan for eksempel oppdage mutasjoner i kreftdrivergener og bruke dem som en proxy for krefttypen – og er derfor mindre effektive til å stille en diagnose i populasjoner der disse mutasjonene er mindre vanlige.
"Vi fant ut at AIs kraft lar den skille mange uklare biologiske signaler som ikke kan oppdages av normal menneskelig tolkning," sa Yu.
Dette gjør at modellene potensielt kan lære signaler som er mer relatert til demografi enn sykdom. Dette kan igjen påvirke deres diagnostiske evner på tvers av grupper.
Til sammen, sier Yu, tyder disse forklaringene på at skjevheter i patologisk AI ikke bare kommer fra den variable kvaliteten på treningsdata, men også fra måten forskerne trener modellene på.
Finn en løsning
Etter å ha vurdert omfanget og årsakene til skjevheten, begynte Yu og teamet hans å fikse problemet.
Forskerne utviklet FAIR-Path, et enkelt rammeverk basert på et eksisterende maskinlæringskonsept kalt kontrastiv læring. Kontrastiv læring tilfører et element til AI-trening som lærer modellen å understreke forskjellene mellom viktige kategorier – i dette tilfellet kreft – og bagatellisere forskjellene mellom mindre viktige kategorier – i dette tilfellet demografiske grupper.
Da forskerne brukte FAIR-Path-rammeverket på modellene de testet, reduserte det diagnostiske forskjeller med omtrent 88 prosent.
"Vi viser at gjennom denne lille justeringen kan modellene lære robuste funksjoner som gjør dem mer generaliserbare og rettferdige på tvers av forskjellige populasjoner," sa Yu.
Resultatet er oppmuntrende, la han til, fordi det antyder at skjevheter kan reduseres selv uten å trene modellene på helt rettferdige, representative data.
Deretter samarbeider Yu og teamet hans med institusjoner rundt om i verden for å undersøke omfanget av skjevheter i patologisk AI på steder med ulik demografi og ulik klinisk og patologisk praksis. De utforsker også måter å utvide FAIR-Path til innstillinger med begrensede prøvestørrelser. I tillegg ønsker de å undersøke hvordan skjevhet i AI bidrar til demografiske avvik i helsetjenester og pasientresultater.
Til syvende og sist, sa Yu, er målet å lage rettferdige, objektive patologiske AI-modeller som kan forbedre kreftbehandlingen ved å hjelpe menneskelige patologer med å stille en diagnose raskt og nøyaktig.
"Jeg tror det er håp om at hvis vi er mer bevisste og forsiktige med å utvikle AI-systemer, kan vi utvikle modeller som fungerer godt i enhver populasjon," sa han.
Kilder:
Lin, S.-Y.,et al. (2025). Kontrastiv læring øker rettferdigheten i patologisystemer med kunstig intelligens. Cell Rapporter Medisin. doi:10.1016/j.xcrm.2025.102527. https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00600-7