Google presenteert onzichtbaar watermerk voor door AI gegenereerde teksten

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind heeft een onzichtbaar watermerk ontwikkeld voor door AI gegenereerde tekst om desinformatie tegen te gaan.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind heeft een onzichtbaar watermerk ontwikkeld voor door AI gegenereerde tekst om desinformatie tegen te gaan.

Google presenteert onzichtbaar watermerk voor door AI gegenereerde teksten

Onderzoekers van Google DeepMind in Londen hebben een ‘watermerk’ ontwikkeld om tekst die is gegenereerd door kunstmatige intelligentie (AI) onzichtbaar te markeren – dit is al door miljoenen chatbotgebruikers gebruikt.

Het watermerk, gepubliceerd op 23 oktober in het tijdschrift Nature 1, is niet de eerste die is gemaakt voor door AI gegenereerde teksten. Het is echter de eerste die in een grootschalige, reële context wordt gedemonstreerd. "Ik denk dat het grootste nieuws hier is dat ze het daadwerkelijk gebruiken", zegt Scott Aaronson, een computerwetenschapper aan de Universiteit van Texas in Austin, die tot augustus aan watermerken werkte bij OpenAI, de makers van ChatGPT gevestigd in San Francisco, Californië.

Door AI gegenereerde tekstherkenning wordt steeds belangrijker omdat het een potentiële oplossing biedt voor de problemen van Nepnieuws En academische fraude vertegenwoordigt. Bovendien zou het hieraan kunnen bijdragen Bescherm toekomstige modellen tegen devaluatie door ze niet te trainen met door AI gegenereerde inhoud.

In een uitgebreid onderzoek beoordeelden gebruikers van het Google Gemini Large Language Model (LLM) in 20 miljoen reacties teksten met een watermerk als gelijkwaardig aan niet-gemarkeerde teksten. "Ik ben blij dat Google deze stap zet voor de technologiegemeenschap", zegt Furong Huang, computerwetenschapper aan de Universiteit van Maryland in College Park. “Het is waarschijnlijk dat de meeste commerciële tools in de nabije toekomst watermerken zullen bevatten”, zegt Zakhar Shumaylov, een computerwetenschapper aan de Universiteit van Cambridge, VK.

Keuze van woorden

Het is moeilijker om een ​​watermerk op tekst toe te passen dan op afbeeldingen, omdat woordkeuze in wezen de enige variabele is die kan worden gewijzigd. De watermerken van DeepMind – SynthID-tekst genoemd – veranderen welke woorden het model kiest op een geheime maar formule-achtige manier die kan worden vastgelegd met een cryptografische sleutel. Vergeleken met andere benaderingen is het watermerk van DeepMind iets gemakkelijker te detecteren en vertraagt ​​de applicatie het maken van tekst niet. “Het lijkt beter te presteren dan de aanpak van concurrenten bij het watermerken van LLM’s”, zegt Shumaylov, een voormalig werknemer en broer van een van de auteurs van het onderzoek.

De tool is ook opengesteld zodat ontwikkelaars hun eigen watermerk op hun modellen kunnen toepassen. “We hopen dat andere AI-modelontwikkelaars dit zullen overnemen en in hun eigen systemen zullen integreren”, zegt Pushmeet Kohli, een computerwetenschapper bij DeepMind. Google houdt zijn sleutel geheim, zodat gebruikers geen detectietools kunnen gebruiken om tekst met een watermerk uit het Gemini-model te identificeren.

regeringen ingesteld over watermerken als oplossing voor het verspreiden van door AI gegenereerde tekst. Toch zijn er veel problemen, waaronder de toewijding van ontwikkelaars aan het gebruik van watermerken en de coördinatie van hun aanpak. Dat hebben onderzoekers van het Zwitserse Federale Instituut voor Technologie in Zürich begin dit jaar aangetoond elk watermerk dat kwetsbaar is voor verwijdering Dat is een proces dat ‘scrubbing’ of ‘spoofing’ wordt genoemd, waarbij watermerken op tekst worden aangebracht om de valse indruk te wekken dat deze door AI is gegenereerd.

Token-toernooi

De aanpak van DeepMind is hierop gebaseerd bestaande methode, dat een watermerk integreert in een bemonsteringsalgoritme, een stap bij het maken van tekst die losstaat van de LLM zelf.

Een LLM is een netwerk van associaties dat is opgebouwd door te trainen met miljarden woorden of delen van woorden, bekend als tokens. Wanneer tekst wordt ingevoerd, kent het model aan elk token in zijn vocabulaire een waarschijnlijkheid toe dat het het volgende woord in de zin is. De taak van het bemonsteringsalgoritme is om te kiezen welk token moet worden gebruikt volgens een reeks regels.

Het SynthID-algoritme voor tekstbemonstering gebruikt een cryptografische sleutel om willekeurige waarden aan elk mogelijk token toe te wijzen. Kandidaatfiches worden in verhouding tot hun waarschijnlijkheid uit de verdeling getrokken en in een ‘toernooi’ geplaatst. Daar vergelijkt het algoritme de waarden in een reeks één-op-één knock-outrondes, waarbij de hoogste waarde wint totdat er nog maar één token overblijft, dat voor de tekst wordt gekozen.

Deze geavanceerde methode maakt de detectie van watermerken eenvoudiger omdat dezelfde cryptografische code wordt toegepast op de gegenereerde tekst om te zoeken naar de hoge waarden die ‘winnende’ tokens aangeven. Dit kan het verwijderen ook bemoeilijken.

De meerdere rondes in het toernooi kunnen worden gezien als een combinatie van lock, waarbij elke ronde een ander getal vertegenwoordigt dat moet worden opgelost om het watermerk te ontgrendelen of te verwijderen, zegt Huang. “Dit mechanisme maakt het aanzienlijk moeilijker om het watermerk te scrubben, te vervalsen of te reverse-engineeren”, voegt ze eraan toe. Voor teksten met ongeveer 200 tokens lieten de auteurs zien dat ze het watermerk nog steeds konden detecteren, zelfs als een tweede LLM werd gebruikt om de tekst te herschrijven. Bij kortere teksten is het watermerk minder robuust.

De onderzoekers hebben niet onderzocht hoe goed het watermerk bestand is tegen opzettelijke pogingen om het te verwijderen. De veerkracht van watermerken tegen dergelijke aanvallen is een ‘enorme politieke vraag’, zegt Yves-Alexandre de Montjoye, computerwetenschapper aan het Imperial College London. “In de context van AI-beveiliging is het onduidelijk in hoeverre dit bescherming biedt”, legt hij uit.

Kohli hoopt dat het watermerk in eerste instantie het goedbedoelde gebruik van LLM's zal ondersteunen. “De leidende filosofie was dat we een tool wilden ontwikkelen die de gemeenschap kon verbeteren”, voegt hij eraan toe.

  1. Dathathri, S. et al. Natuur 634, 818–823 (2024).

    Google Scholar

Referenties downloaden