Google præsenterer usynligt vandmærke til AI-genererede tekster

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind har udviklet et usynligt vandmærke til AI-genereret tekst for at bekæmpe misinformation.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind har udviklet et usynligt vandmærke til AI-genereret tekst for at bekæmpe misinformation.

Google præsenterer usynligt vandmærke til AI-genererede tekster

Forskere ved Google DeepMind i London har udviklet et "vandmærke" til usynligt at markere tekst genereret af kunstig intelligens (AI) – dette er allerede blevet brugt af millioner af chatbot-brugere.

Vandmærket, offentliggjort 23. oktober i tidsskriftet Nature 1, er ikke den første oprettet til AI-genererede tekster. Det er dog den første, der bliver demonstreret i en storstilet kontekst i den virkelige verden. "Jeg tror, ​​at den største nyhed her er, at de rent faktisk bruger det," siger Scott Aaronson, en computerforsker ved University of Texas i Austin, som indtil august arbejdede med vandmærkning hos OpenAI, skaberne af ChatGPT med base i San Francisco, Californien.

AI-genereret tekstgenkendelse bliver stadig vigtigere, da det repræsenterer en potentiel løsning på problemerne med Falske nyheder og akademisk bedrageri repræsenterer. Derudover kunne det bidrage til Beskyt fremtidige modeller mod devaluering ved ikke at træne dem med AI-genereret indhold.

I en omfattende undersøgelse vurderede brugere af Google Gemini Large Language Model (LLM) vandmærkede tekster som svarende til umærkede tekster i 20 millioner svar. "Jeg er spændt på at se Google tage dette skridt for teknologisamfundet," sagde Furong Huang, en datalog ved University of Maryland i College Park. "Det er sandsynligt, at de fleste kommercielle værktøjer vil inkludere vandmærker i den nærmeste fremtid," tilføjer Zakhar Shumaylov, en datalog ved University of Cambridge, Storbritannien.

Valg af ord

Det er sværere at anvende et vandmærke på tekst end på billeder, fordi ordvalg i bund og grund er den eneste variabel, der kan ændres. DeepMinds vandmærke - kaldet SynthID-tekst - ændrer, hvilke ord modellen vælger på en hemmelig, men formel måde, der kan fanges med en kryptografisk nøgle. Sammenlignet med andre tilgange er DeepMinds vandmærke lidt lettere at opdage, og applikationen forsinker ikke tekstoprettelse. "Det ser ud til at overgå konkurrenternes tilgange til vandmærkning af LLM'er," siger Shumaylov, som er tidligere ansat og bror til en af ​​undersøgelsens forfattere.

Værktøjet er også blevet åbnet, så udviklere kan anvende deres eget vandmærke på deres modeller. "Vi håber, at andre udviklere af AI-model vil adoptere dette og integrere det i deres egne systemer," siger Pushmeet Kohli, en datalog hos DeepMind. Google holder sin nøglehemmelighed, så brugere ikke kan bruge registreringsværktøjer til at identificere vandmærket tekst fra Gemini-modellen.

regeringer sat på vandmærker som en løsning til distribution af AI-genereret tekst. Alligevel er der mange problemer, herunder udviklernes forpligtelse til at bruge vandmærker og koordineringen af ​​deres tilgange. Det viste forskere ved det schweiziske føderale teknologiske institut i Zürich i begyndelsen af ​​dette år ethvert vandmærke, der er sårbart over for fjernelse er en proces kaldet "scrubbing" eller "spoofing", hvor vandmærker påføres tekst for at give det falske indtryk af, at den er AI-genereret.

Token-turnering

DeepMinds tilgang er baseret på en eksisterende metode, som integrerer et vandmærke i en prøvetagningsalgoritme, et trin i tekstoprettelse, der er adskilt fra selve LLM.

En LLM er et netværk af foreninger bygget ved at træne med milliarder af ord eller dele af ord kendt som tokens. Når tekst indtastes, tildeler modellen hver token i sit ordforråd en sandsynlighed for at være det næste ord i sætningen. Samplingalgoritmens opgave er at vælge, hvilket token der skal bruges i henhold til et sæt regler.

SynthID-tekstsamplingsalgoritmen bruger en kryptografisk nøgle til at tildele tilfældige værdier til hvert muligt token. Kandidatpoletter trækkes fra fordelingen i forhold til deres sandsynlighed og placeres i en "turnering". Der sammenligner algoritmen værdierne i en række en-til-en knockout-runder, hvor den højeste værdi vinder, indtil der kun er et token tilbage, som er valgt til teksten.

Denne sofistikerede metode gør detektion af vandmærke lettere, fordi den samme kryptografiske kode anvendes på genereret tekst for at lede efter de høje værdier, der indikerer "vindende" tokens. Dette kan også gøre fjernelse vanskelig.

De flere runder i turneringen kan ses som en kombination af lås, hvor hver runde repræsenterer et andet tal, der skal løses for at låse op eller fjerne vandmærket, siger Huang. "Denne mekanisme gør det betydeligt sværere at skrubbe, forfalske eller reverse engineering af vandmærket," tilføjer hun. For tekster med omkring 200 tokens viste forfatterne, at de stadig kunne registrere vandmærket, selv når en anden LLM blev brugt til at omskrive teksten. Vandmærket er mindre robust til kortere tekster.

Forskerne har ikke undersøgt, hvor godt vandmærket modstår bevidste forsøg på at fjerne det. Vandmærkernes modstandsdygtighed mod sådanne angreb er et "massivt politisk spørgsmål," siger Yves-Alexandre de Montjoye, en datalog ved Imperial College London. "I forbindelse med AI-sikkerhed er det uklart, i hvilket omfang dette giver beskyttelse," forklarer han.

Kohli håber, at vandmærket i første omgang vil hjælpe med at understøtte den velmenende brug af LLM'er. "Den vejledende filosofi var, at vi ønskede at udvikle et værktøj, som samfundet kunne forbedre," tilføjer han.

  1. Dathathri, S. et al. Nature 634, 818–823 (2024).

    Google Scholar

Download referencer