AI-genererede billeder bringer videnskaben i fare – det er sådan, forskere vil genkende dem
Forskere kæmper mod AI-genererede falske billeder i videnskabelige publikationer. Nye metoder til detektion er under udvikling.

AI-genererede billeder bringer videnskaben i fare – det er sådan, forskere vil genkende dem
Forskere manipulerer med tal og masseproducerer falske papirer Obligatoriske forlag – problematiske manuskripter har længe været en plage i videnskabelig litteratur. Videnskabelige detektiver arbejder utrætteligt, for at afsløre denne forseelse og rette den videnskabelige dokumentation. Men deres job bliver stadig sværere, efterhånden som et nyt, kraftfuldt værktøj for svindlere er dukket op: generativt kunstig intelligens (AI).
"Generativ AI udvikler sig meget hurtigt," siger Jana Christopher, Image Integrity Analyst hos FEBS Press i Heidelberg, Tyskland. "Folk, der arbejder i mit område - billedintegritet og publiceringspolitikker - bliver mere og mere bekymrede over de muligheder, det giver."
Den lethed, hvormed generative AI-værktøjstekster, rejser billeder og data frygt for en stadig mere upålidelig videnskabelig litteratur, oversvømmet med falske tal, manuskripter og konklusioner, som er svære for mennesker at opdage. Et våbenkapløb er allerede ved at opstå, da integritetsspecialister, forlag og teknologivirksomheder arbejder ihærdigt på at Udvikle AI-værktøjer, som kan hjælpe med hurtigt at identificere vildledende, AI-genererede elementer i specialartikler.
"Det er en skræmmende udvikling," siger Christopher. "Men der er også kloge mennesker og gode strukturelle ændringer, der bliver foreslået."
Forskningsintegritetseksperter rapporterer, at selvom AI-genereret tekst allerede er tilladt under visse omstændigheder af mange tidsskrifter, kan brug af sådanne værktøjer til at skabe billeder eller andre data blive betragtet som mindre acceptabelt. "I den nærmeste fremtid kan vi være okay med AI-genereret tekst," siger Elisabeth Bik, billedforensisk specialist og konsulent i San Francisco, Californien. "Men jeg trækker grænsen, når det kommer til at generere data."
Bik, Christopher og andre foreslår, at data, herunder billeder, skabt med generativ AI allerede er meget brugt i litteraturen, og at obligatoriske udgivere bruger AI-værktøjer til at producere manuskripter i volumen (se 'Quiz: Kan du se AI-forfalskninger?').
At identificere AI-producerede billeder udgør en enorm udfordring: De er ofte næsten umulige at skelne fra rigtige billeder med det blotte øje. "Vi føler, at vi støder på AI-genererede billeder hver dag," siger Christopher. "Men medmindre du kan bevise det, er der virkelig meget lidt, du kan gøre."
Der er nogle klare eksempler på brugen af generativ AI i videnskabelige billeder, som f nu berygtede billede af en rotte med absurd store kønsorganer og useriøse etiketter, skabt med Midjourney-billedværktøjet. Grafikken, udgivet af et fagblad i februar, skabte storm på de sociale medier og var trækkes tilbage et par dage senere.
De fleste tilfælde er dog ikke så indlysende. Figurer skabt ved hjælp af Adobe Photoshop eller lignende værktøjer før fremkomsten af generativ AI - især inden for molekylær og cellulær biologi - indeholder ofte slående træk, som kan genkendes af detektiver, såsom identiske baggrunde eller den usædvanlige mangel på striber eller pletter. AI-genererede karakterer viser ofte ikke sådanne karakteristika. "Jeg ser en masse papirer, der får mig til at tro, at disse Western-klatter ikke ser ægte ud - men der er ingen rygende pistol," siger Bik. "Du kan kun sige, at de bare ser mærkelige ud, og det er selvfølgelig ikke bevis nok til at kontakte redaktøren."
Der er dog tegn på, at AI-genererede karakterer optræder i offentliggjorte manuskripter. Tekster skrevet ved hjælp af værktøjer som ChatGPT er stigende i artikler, tydeligt af typiske chatbot-sætninger, som forfattere glemmer at fjerne, og karakteristiske ord, som AI-modeller har en tendens til at bruge. "Så vi må antage, at dette også sker for data og billeder," siger Bik.
En anden indikation af, at svindlere bruger sofistikerede billedværktøjer, er, at de fleste af de problemer, efterforskerne i øjeblikket finder, optræder i værker, der er flere år gamle. "I de senere år har vi set færre og færre problemer med billeder," siger Bik. "Jeg tror, at de fleste mennesker, der blev fanget i at manipulere billeder, begyndte at skabe renere billeder."
At skabe rene billeder med generativ AI er ikke svært. Kevin Patrick, en videnskabelig billeddetektiv kendt som Cheshire på sociale medier, har demonstreret, hvor nemt det kan være og offentliggjort sine resultater på X. Ved hjælp af Photoshops AI-værktøj Generative Fill skabte Patrick realistiske billeder – som kunne optræde i videnskabelige artikler – af tumorer, cellekulturer, Western blots og meget mere. De fleste billeder tog mindre end et minut at oprette (se 'Generering af falsk videnskab').
"Hvis jeg kan gøre det, så vil dem, der bliver betalt for at oprette falske data, også gøre det," siger Patrick. "Der er sandsynligvis en hel masse andre data, der kunne genereres ved hjælp af værktøjer som dette."
Nogle udgivere rapporterer, at de har fundet beviser for AI-genereret indhold i offentliggjorte undersøgelser. Dette inkluderer PLoS, som er blevet advaret om mistænkeligt indhold og fundet beviser for AI-genereret tekst og data i artikler og indlæg gennem interne undersøgelser, siger Renée Hoch, redaktør for PLoS's publikationsetiske team i San Francisco, Californien. (Hoch bemærker, at brugen af AI ikke er forbudt i PLoS-tidsskrifter, og at AI-politikken er baseret på forfatteransvar og gennemsigtige afsløringer.)
Andre værktøjer kunne også give muligheder for folk, der ønsker at skabe falsk indhold. I sidste måned offentliggjorde forskere en 1 generativ AI-model til at skabe mikroskopbilleder i høj opløsning – og nogle integritetsspecialister udtrykte bekymring over dette arbejde. "Denne teknologi kan nemt bruges af folk med dårlige intentioner til hurtigt at skabe hundredvis eller tusindvis af falske billeder," siger Bik.
Yoav Shechtman fra Technion-Israel Institute of Technology i Haifa, skaberen af værktøjet, siger, at værktøjet er nyttigt til at skabe træningsdata til modeller, fordi højopløsningsmikroskopbilleder er svære at opnå. Men han tilføjer, at det ikke er nyttigt til at generere forfalskninger, fordi brugerne har ringe kontrol over resultaterne. Eksisterende billedredigeringssoftware som Photoshop er mere nyttig til at manipulere figurer, foreslår han.
Selvom menneskelige øjne måske ikke kan Genkend AI-genererede billeder, AI kunne muligvis gøre dette (se 'AI-billeder er svære at genkende').
Udviklerne af værktøjer som Imagetwin og Proofig, der bruger AI til at opdage integritetsproblemer i videnskabelige billeder, udvider deres software til at filtrere billeder skabt af generativ AI. Fordi sådanne billeder er så svære at genkende, opretter begge virksomheder deres egne databaser med generative AI-billeder for at træne deres algoritmer.
Proofig har allerede udgivet en funktion i sit værktøj til genkendelse af AI-genererede mikroskopbilleder. Medstifter Dror Kolodkin-Gal i Rehovot, Israel, siger, at i test med tusindvis af AI-genererede og rigtige billeder fra artikler, identificerede algoritmen AI-billeder korrekt 98 % af tiden og havde en falsk positiv rate på 0,02 %. Dror tilføjer, at holdet nu forsøger at forstå, hvad deres algoritme præcist registrerer.
"Jeg har store forhåbninger til disse værktøjer," siger Christopher. Hun bemærker dog, at deres resultater altid skal evalueres af eksperter, som kan verificere de problemer, de angiver. Christopher har endnu ikke set noget bevis for, at AI-billedgenkendelsessoftware er pålidelig (Proofigs interne evaluering er endnu ikke offentliggjort). Disse værktøjer er "begrænsede, men bestemt meget nyttige til at give os mulighed for at skalere vores indsendelsesgennemgang," tilføjer hun.
Mange forlag og forskningsinstitutioner bruger det allerede Bevis og Billedtvilling. For eksempel bruger Science-tidsskrifter Proofig til at kontrollere integritetsproblemer i billeder. Ifølge Meagan Phelan, kommunikationsdirektør for Science i Washington DC, har værktøjet endnu ikke opdaget nogen AI-genererede billeder.
Springer Nature, Natures udgiver, udvikler sine egne tekst- og billeddetekteringsværktøjer, kaldet Geppetto og SnapShot, som markerer uregelmæssigheder, som derefter evalueres af mennesker. (Nyhedsteamet Nature er redaktionelt uafhængigt af dets udgiver.)
Udgivelsesgrupper tager også skridt til at reagere på AI-genererede billeder. En talsmand for International Association of Scientific, Technical and Medical (STM) Publishers i Oxford, Storbritannien, sagde, at de tog problemet "meget alvorligt" og reagerede på initiativer som f.eks. United2Act og STM Integrity Hub, som behandler aktuelle problemer med obligatorisk udgivelse og andre akademiske integritetsspørgsmål.
Christopher, der leder en STM-arbejdsgruppe om billedændringer og duplikationer, siger, at der er en voksende bevidsthed om, at det vil være nødvendigt at udvikle måder at verificere rådata på - for eksempel ved at mærke billeder taget med mikroskoper med usynlige vandmærker, der ligner dem, der bruges. Vandmærker i AI-genererede tekster – det kunne være den rigtige måde. Dette kræver nye teknologier og nye standarder for enhedsproducenter, tilføjer hun.
Patrick og andre bekymrer sig om, at udgivere ikke handler hurtigt nok til at imødegå truslen. "Vi frygter, at dette blot vil være endnu en generation af problemer i litteraturen, som de ikke adresserer, før det er for sent," siger han.
Alligevel er nogle optimistiske, at det AI-genererede indhold, der vises i artikler i dag, vil blive opdaget i fremtiden.
"Jeg har fuld tillid til, at teknologien vil forbedre sig til det punkt, hvor den genkender de data, der bliver skabt i dag - for på et tidspunkt vil dette blive betragtet som relativt groft," siger Patrick. "Svindlere bør ikke sove godt om natten. De kunne narre den nuværende proces, men jeg tror ikke, de kan narre processen for evigt."
-
Saguy, A. et al. Lille Meth. https://doi.org/10.1002/smtd.202400672 (2024).