Google presenterer usynlig vannmerke for AI-genererte tekster

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind har utviklet et usynlig vannmerke for AI-generert tekst for å bekjempe feilinformasjon.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind har utviklet et usynlig vannmerke for AI-generert tekst for å bekjempe feilinformasjon.

Google presenterer usynlig vannmerke for AI-genererte tekster

Forskere ved Google DeepMind i London har utviklet et «vannmerke» for å usynlig markere tekst generert av kunstig intelligens (AI) – dette har allerede blitt brukt av millioner av chatbot-brukere.

Vannmerket, publisert 23. oktober i tidsskriftet Nature 1, er ikke den første laget for AI-genererte tekster. Det er imidlertid den første som blir demonstrert i en storskala, virkelig verden. "Jeg tror den største nyheten her er at de faktisk bruker det," sier Scott Aaronson, en dataforsker ved University of Texas i Austin, som frem til august jobbet med vannmerking hos OpenAI, skaperne av ChatGPT med base i San Francisco, California.

AI-generert tekstgjenkjenning blir stadig viktigere ettersom den representerer en potensiell løsning på problemene med Falske nyheter og akademisk svindel representerer. I tillegg vil det kunne bidra til Beskytt fremtidige modeller mot devaluering ved å ikke trene dem med AI-generert innhold.

I en omfattende studie vurderte brukere av Google Gemini Large Language Model (LLM) vannmerkede tekster som tilsvarende umerkede tekster i 20 millioner svar. "Jeg er glad for å se Google ta dette skrittet for teknologimiljøet," sa Furong Huang, en dataforsker ved University of Maryland i College Park. "Det er sannsynlig at de fleste kommersielle verktøy vil inkludere vannmerker i nær fremtid," legger Zakhar Shumaylov, en dataforsker ved University of Cambridge, Storbritannia til.

Valg av ord

Det er vanskeligere å bruke et vannmerke på tekst enn på bilder fordi ordvalg i hovedsak er den eneste variabelen som kan endres. DeepMinds vannmerke – kalt SynthID-tekst – endrer hvilke ord modellen velger på en hemmelig, men formelt måte som kan fanges opp med en kryptografisk nøkkel. Sammenlignet med andre tilnærminger er DeepMinds vannmerke litt lettere å oppdage, og applikasjonen forsinker ikke tekstoppretting. "Det ser ut til å overgå konkurrentenes tilnærminger til vannmerking av LLM-er," sier Shumaylov, som er en tidligere ansatt og bror til en av studiens forfattere.

Verktøyet er også åpnet slik at utviklere kan bruke sitt eget vannmerke på modellene sine. "Vi håper andre AI-modellutviklere vil ta i bruk dette og integrere det i sine egne systemer," sier Pushmeet Kohli, en dataforsker ved DeepMind. Google holder nøkkelhemmeligheten sin slik at brukere ikke kan bruke gjenkjenningsverktøy for å identifisere vannmerket tekst fra Gemini-modellen.

regjeringer satt på vannmerker som en løsning for distribusjon av AI-generert tekst. Likevel er det mange problemer, inkludert utvikleres forpliktelse til å bruke vannmerker og koordinering av deres tilnærminger. I begynnelsen av dette året viste forskere ved Swiss Federal Institute of Technology i Zürich det ethvert vannmerke som er sårbart for fjerning er en prosess som kalles "scrubbing" eller "spoofing", der vannmerker påføres tekst for å gi et falskt inntrykk av at den er AI-generert.

Token-turnering

DeepMinds tilnærming er basert på en eksisterende metode, som integrerer et vannmerke i en samplingsalgoritme, et trinn i tekstoppretting som er atskilt fra selve LLM.

En LLM er et nettverk av assosiasjoner bygget ved å trene med milliarder av ord eller deler av ord kjent som tokens. Når tekst skrives inn, tildeler modellen hvert token i vokabularet en sannsynlighet for å være det neste ordet i setningen. Oppgaven til samplingsalgoritmen er å velge hvilken token som skal brukes i henhold til et sett med regler.

SynthID-tekstsamplingsalgoritmen bruker en kryptografisk nøkkel for å tildele tilfeldige verdier til hvert mulig token. Kandidatpoletter trekkes fra fordelingen i forhold til deres sannsynlighet og plasseres i en "turnering". Der sammenligner algoritmen verdiene i en serie med en-til-en knockout-runder, med den høyeste verdien som vinner inntil bare ett token gjenstår, som er valgt for teksten.

Denne sofistikerte metoden gjør vannmerkegjenkjenning enklere fordi den samme kryptografiske koden brukes på generert tekst for å se etter de høye verdiene som indikerer "vinnende" tokens. Dette kan også gjøre fjerning vanskelig.

De flere rundene i turneringen kan sees på som en kombinasjon av lås, der hver runde representerer et annet tall som må løses for å låse opp eller fjerne vannmerket, sier Huang. "Denne mekanismen gjør det betydelig vanskeligere å skrubbe, forfalske eller reversere vannmerket," legger hun til. For tekster med rundt 200 tokens viste forfatterne at de fortsatt kunne oppdage vannmerket selv når en andre LLM ble brukt til å omskrive teksten. Vannmerket er mindre robust for kortere tekster.

Forskerne har ikke undersøkt hvor godt vannmerket motstår tilsiktede forsøk på å fjerne det. Motstandskraften til vannmerker mot slike angrep er et «massivt politisk spørsmål», sier Yves-Alexandre de Montjoye, informatiker ved Imperial College London. "I sammenheng med AI-sikkerhet er det uklart i hvilken grad dette gir beskyttelse," forklarer han.

Kohli håper at vannmerket i utgangspunktet vil bidra til å støtte den velmente bruken av LLM-er. "Den veiledende filosofien var at vi ønsket å utvikle et verktøy som samfunnet kunne forbedre," legger han til.

  1. Datathri, S. et al. Nature 634, 818–823 (2024).

    Google Scholar

Last ned referanser