Patologi AI-modeller afslører demografiske skævheder i kræftdiagnose
Patologi har længe været hjørnestenen i kræftdiagnostik og -behandling. En patolog undersøger omhyggeligt et ultratyndt snit af menneskeligt væv under et mikroskop for spor, der indikerer tilstedeværelsen, typen og stadiet af kræft. For en menneskelig ekspert er det at se på en hvirvlende lyserød vævsprøve oversået med lilla celler...
Patologi AI-modeller afslører demografiske skævheder i kræftdiagnose
Patologi har længe været hjørnestenen i kræftdiagnostik og -behandling. En patolog undersøger omhyggeligt et ultratyndt snit af menneskeligt væv under et mikroskop for spor, der indikerer tilstedeværelsen, typen og stadiet af kræft.
For en menneskelig ekspert er det at se på en hvirvlende lyserød vævsprøve oversået med lilla celler som at bedømme en eksamen uden et navn på det - diaset afslører væsentlig information om sygdommen uden at give yderligere detaljer om patienten.
Det samme gælder dog ikke nødvendigvis for de modeller for kunstig intelligens inden for patologi, der er opstået i de senere år. En ny undersøgelse ledet af et hold ved Harvard Medical School viser, at disse modeller på en eller anden måde kan udlede demografisk information fra patologiske dias, hvilket fører til kræftdiagnose skævhed i forskellige populationer.
Ved at analysere flere store patologiske AI-modeller til kræftdiagnose fandt forskerne ulige præstationer i at opdage og differentiere kræftformer i forskellige populationer baseret på patienternes selvrapporterede køn, race og alder. De identificerede flere mulige forklaringer på denne demografiske skævhed.
Holdet udviklede derefter en ramme kaldet FAIR-Path, som hjalp med at reducere bias i modellerne.
At læse demografiske data fra et patologisk dias betragtes som en "mission umulig" for en menneskelig patolog, så skævheden i patologisk AI var en overraskelse for os."
Kun-Hsing Yu, seniorforfatter, lektor i biomedicinsk informatik, Blavatnik Institute ved HMS og HMS assisterende professor i patologi ved Brigham and Women's Hospital
Det er afgørende at opdage og bekæmpe AI-bias i medicin, fordi det kan påvirke diagnostisk nøjagtighed såvel som patientresultater, sagde Yu. FAIR-Paths succes viser, at forskere kan forbedre retfærdigheden af AI-modeller for kræftpatologi og potentielt andre AI-modeller inden for medicin med minimal indsats.
Arbejdet, delvist støttet af føderale midler, er beskrevet 16. december iCell Rapporter Medicin.
Tjek for bias
Yu og hans team undersøgte bias i fire standard AI-patologimodeller udviklet til cancervurdering. Disse dybe læringsmodeller blev trænet på sæt af kommenterede patologiske dias, hvorfra de "lærte" biologiske mønstre, der giver dem mulighed for at analysere nye dias og stille diagnoser.
Forskerne fodrede AI-modellerne med et stort, tværinstitutionelt arkiv af patologiglas fra 20 typer kræft.
De fandt, at alle fire modeller havde skæv ydeevne og gav mindre præcise diagnoser for patienter i visse grupper baseret på selvrapporteret race, køn og alder. For eksempel havde modellerne svært ved at skelne mellem lungekræftundertyper hos afroamerikanske og mandlige patienter og brystkræftundertyper hos yngre patienter. Modellerne havde også svært ved at opdage bryst-, nyre-, skjoldbruskkirtel- og mavekræft i visse populationer. Disse præstationsforskelle opstod i omkring 29 procent af de diagnostiske opgaver udført af modellerne.
Denne diagnostiske unøjagtighed, sagde Yu, skyldes, at disse modeller udtrækker demografisk information fra diasene - og er afhængige af demografiske specifikke mønstre for at diagnosticere.
Resultaterne var uventede, "fordi vi ville forvente en objektiv patologivurdering," tilføjede Yu. "Når vi vurderer billeder, behøver vi ikke nødvendigvis at kende en patients demografi for at stille en diagnose."
Holdet undrede sig: Hvorfor viste patologisk AI ikke den samme objektivitet?
Leder efter forklaringer
Forskerne kom med tre forklaringer.
Fordi det er lettere for patienter i visse populationer at få prøver, trænes AI-modellerne på ulige prøvestørrelser. Dette gør det sværere for modeller at stille en nøjagtig diagnose i prøver, der ikke er godt repræsenteret i træningssættet, såsom dem fra minoritetsgrupper baseret på race, alder eller køn.
Men "problemet var meget dybere," sagde Yu. Forskerne bemærkede, at modellerne nogle gange klarede sig dårligere i en befolkningsgruppe, selv når stikprøvestørrelserne var sammenlignelige.
Yderligere analyse viste, at dette kan skyldes forskelle i sygdomsprævalens: nogle kræftformer er mere almindelige i visse grupper, hvilket gør modellerne bedre til at stille en diagnose i disse grupper. Som følge heraf kan modellerne have svært ved at diagnosticere kræftformer i populationer, hvor de ikke er så almindelige.
AI-modellerne fanger også subtile molekylære forskelle i prøver fra forskellige demografiske grupper. For eksempel kan modellerne detektere mutationer i kræftdrivergener og bruge dem som en proxy for kræfttypen – og er derfor mindre effektive til at stille en diagnose i populationer, hvor disse mutationer er mindre almindelige.
"Vi fandt ud af, at AI's kraft tillader den at skelne mange uklare biologiske signaler, som ikke kan detekteres ved normal menneskelig fortolkning," sagde Yu.
Dette giver modellerne mulighed for potentielt at lære signaler, der er mere relateret til demografi end sygdom. Dette kan igen påvirke deres diagnostiske evner på tværs af grupper.
Samlet, siger Yu, tyder disse forklaringer på, at bias i patologisk AI ikke kun kommer fra den variable kvalitet af træningsdata, men også fra den måde, forskere træner modellerne på.
Find en løsning
Efter at have vurderet omfanget og årsagerne til skævheden, satte Yu og hans team ud for at løse problemet.
Forskerne udviklede FAIR-Path, en enkel ramme baseret på et eksisterende maskinlæringskoncept kaldet kontrastiv læring. Kontrastiv læring tilføjer et element til AI-træning, der lærer modellen at understrege forskellene mellem vigtige kategorier - i dette tilfælde kræftformer - og nedtone forskellene mellem mindre vigtige kategorier - i dette tilfælde demografiske grupper.
Da forskerne anvendte FAIR-Path-rammen på de modeller, de testede, reducerede det diagnostiske forskelle med omkring 88 procent.
"Vi viser, at gennem denne lille justering kan modellerne lære robuste funktioner, der gør dem mere generaliserbare og retfærdige på tværs af forskellige populationer," sagde Yu.
Resultatet er opmuntrende, tilføjede han, fordi det antyder, at skævheder kan reduceres, selv uden at træne modellerne på fuldstændig retfærdige, repræsentative data.
Dernæst samarbejder Yu og hans team med institutioner rundt om i verden for at undersøge omfanget af bias i patologisk AI på steder med forskellig demografi og forskellige kliniske og patologiske praksisser. De udforsker også måder at udvide FAIR-Path til indstillinger med begrænsede prøvestørrelser. Derudover ønsker de at undersøge, hvordan bias i AI bidrager til demografiske uoverensstemmelser i sundhedsvæsenet og patientresultater.
I sidste ende, sagde Yu, er målet at skabe retfærdige, upartiske patologiske AI-modeller, der kan forbedre kræftbehandlingen ved at hjælpe menneskelige patologer med at stille en diagnose hurtigt og præcist.
"Jeg tror, der er håb om, at hvis vi er mere bevidste og omhyggelige med at udvikle AI-systemer, kan vi udvikle modeller, der fungerer godt i enhver befolkning," sagde han.
Kilder:
Lin, S.-Y.,et al. (2025). Kontrastiv læring øger retfærdigheden i patologiske kunstige intelligenssystemer. Cell Rapporter Medicin. doi:10.1016/j.xcrm.2025.102527. https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00600-7