Google presenterar osynlig vattenstämpel för AI-genererade texter

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind har utvecklat en osynlig vattenstämpel för AI-genererad text för att bekämpa felaktig information.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind har utvecklat en osynlig vattenstämpel för AI-genererad text för att bekämpa felaktig information.

Google presenterar osynlig vattenstämpel för AI-genererade texter

Forskare vid Google DeepMind i London har utvecklat en "vattenstämpel" för att osynligt markera text som genereras av artificiell intelligens (AI) – detta har redan använts av miljontals chatbotanvändare.

Vattenstämpeln, publicerad 23 oktober i tidskriften Nature 1, är inte den första som skapades för AI-genererade texter. Det är dock den första som demonstreras i en storskalig verklighetskontext. "Jag tror att den största nyheten här är att de faktiskt använder det", säger Scott Aaronson, en datavetare vid University of Texas i Austin som fram till augusti arbetade med vattenmärkning på OpenAI, skaparna av ChatGPT baserade i San Francisco, Kalifornien.

AI-genererad textigenkänning blir allt viktigare eftersom det representerar en potentiell lösning på problemen med Fake news och akademiskt bedrägeri representerar. Dessutom skulle det kunna bidra till Skydda framtida modeller från devalvering genom att inte träna dem med AI-genererat innehåll.

I en omfattande studie bedömde användare av Google Gemini Large Language Model (LLM) vattenmärkta texter som likvärdiga med omärkta texter i 20 miljoner svar. "Jag är glad över att se Google ta det här steget för teknikgemenskapen", säger Furong Huang, datavetare vid University of Maryland i College Park. "Det är troligt att de flesta kommersiella verktyg kommer att innehålla vattenstämplar inom en snar framtid", tillägger Zakhar Shumaylov, datavetare vid University of Cambridge, Storbritannien.

Ordval

Det är svårare att använda en vattenstämpel på text än på bilder eftersom ordval i princip är den enda variabeln som kan ändras. DeepMinds vattenmärkning – kallad SynthID-text – ändrar vilka ord modellen väljer på ett hemligt men formellt sätt som kan fångas med en kryptografisk nyckel. Jämfört med andra tillvägagångssätt är DeepMinds vattenstämpel något lättare att upptäcka och applikationen fördröjer inte textskapandet. "Det verkar överträffa konkurrenternas tillvägagångssätt för vattenmärkning av LLM", säger Shumaylov, som är en tidigare anställd och bror till en av studiens författare.

Verktyget har också öppnats så att utvecklare kan applicera sin egen vattenstämpel på sina modeller. "Vi hoppas att andra AI-modellutvecklare kommer att ta till sig detta och integrera det i sina egna system", säger Pushmeet Kohli, datavetare på DeepMind. Google håller sin nyckelhemlighet så att användare inte kan använda identifieringsverktyg för att identifiera vattenmärkt text från Gemini-modellen.

regeringar satt på vattenstämplar som en lösning för att distribuera AI-genererad text. Ändå finns det många problem, inklusive utvecklarnas engagemang för att använda vattenstämplar och samordningen av deras tillvägagångssätt. I början av detta år visade forskare vid det schweiziska federala tekniska institutet i Zürich det alla vattenstämplar som är sårbara för borttagning är en process som kallas "skrubbning" eller "spoofing", där vattenstämplar appliceras på text för att ge ett felaktigt intryck av att den är AI-genererad.

Token-turnering

DeepMinds tillvägagångssätt bygger på en befintlig metod, som integrerar ett vattenmärke i en samplingsalgoritm, ett steg i textskapandet som är separat från själva LLM.

En LLM är ett nätverk av föreningar som byggs upp genom träning med miljarder ord eller delar av ord som kallas tokens. När text skrivs in tilldelar modellen varje token i dess vokabulär en sannolikhet att vara nästa ord i meningen. Samplingsalgoritmens uppgift är att välja vilken token som ska användas enligt en uppsättning regler.

Algoritmen för SynthID-textsampling använder en kryptografisk nyckel för att tilldela slumpmässiga värden till varje möjlig token. Kandidatpoletter dras från fördelningen i proportion till deras sannolikhet och placeras i en "turnering". Där jämför algoritmen värdena i en serie av en-mot-en-utslagsrundor, där det högsta värdet vinner tills endast en token återstår, som väljs för texten.

Denna sofistikerade metod gör vattenstämpeldetektering enklare eftersom samma kryptografiska kod appliceras på genererad text för att leta efter de höga värden som indikerar "vinnande" tokens. Detta kan också göra borttagning svårt.

De flera rundorna i turneringen kan ses som en kombination av lås, där varje omgång representerar ett annat nummer som måste lösas för att låsa upp eller ta bort vattenstämpeln, säger Huang. "Denna mekanism gör det betydligt svårare att skrubba, förfalska eller bakåtkonstruera vattenstämpeln", tillägger hon. För texter med cirka 200 tokens visade författarna att de fortfarande kunde upptäcka vattenstämpeln även när en andra LLM användes för att skriva om texten. Vattenstämpeln är mindre robust för kortare texter.

Forskarna har inte undersökt hur väl vattenstämpeln motstår avsiktliga försök att ta bort den. Vattenstämplarnas motståndskraft mot sådana attacker är en "massiv politisk fråga", säger Yves-Alexandre de Montjoye, datavetare vid Imperial College London. "I sammanhanget av AI-säkerhet är det oklart i vilken utsträckning detta ger skydd", förklarar han.

Kohli hoppas att vattenstämpeln initialt kommer att hjälpa till att stödja den välmenande användningen av LLM. "Den vägledande filosofin var att vi ville utveckla ett verktyg som samhället kunde förbättra", tillägger han.

  1. Datathri, S. et al. Nature 634, 818–823 (2024).

    Google Scholar

Ladda ner referenser