Google predstavuje neviditeľný vodoznak pre texty generované AI
Google DeepMind vyvinul neviditeľný vodoznak pre text generovaný AI na boj proti dezinformáciám.

Google predstavuje neviditeľný vodoznak pre texty generované AI
Výskumníci z Google DeepMind v Londýne vyvinuli „vodoznak“ na neviditeľné označenie textu generovaného umelou inteligenciou (AI) – ten už použili milióny používateľov chatbotov.
Vodoznak, publikovaný 23. októbra v časopise Nature 1, nie je prvým vytvoreným pre texty generované AI. Je však prvým, ktorý bol demonštrovaný vo veľkom meradle, v kontexte reálneho sveta. „Myslím si, že najväčšou novinkou je, že to skutočne používajú,“ hovorí Scott Aaronson, počítačový vedec z Texaskej univerzity v Austine, ktorý až do augusta pracoval na vodoznaku v OpenAI, tvorcovi ChatGPT so sídlom v San Franciscu v Kalifornii.
Rozpoznávanie textu generovaného AI sa stáva čoraz dôležitejším, pretože predstavuje potenciálne riešenie problémov Falošné správy a akademický podvod predstavuje. Okrem toho by to mohlo prispieť k Chráňte budúce modely pred znehodnotením tým, že ich nebudete trénovať pomocou obsahu generovaného AI.
V komplexnej štúdii používatelia Google Gemini Large Language Model (LLM) hodnotili texty s vodotlačou ako ekvivalentné textom bez označenia v 20 miliónoch odpovedí. „Som nadšený, že Google robí tento krok pre technickú komunitu,“ povedal Furong Huang, počítačový vedec z University of Maryland v College Park. „Je pravdepodobné, že väčšina komerčných nástrojov bude v blízkej budúcnosti obsahovať vodoznaky,“ dodáva Zakhar Shumaylov, počítačový vedec z University of Cambridge vo Veľkej Británii.
Výber slov
Je ťažšie použiť vodoznak na text ako na obrázky, pretože výber slova je v podstate jedinou premennou, ktorú možno zmeniť. Vodoznak DeepMind – nazývaný SynthID text – mení, ktoré slová si model vyberie tajným, no formulovaným spôsobom, ktorý možno zachytiť pomocou kryptografického kľúča. V porovnaní s inými prístupmi je vodoznak DeepMind o niečo ľahšie detekovateľný a aplikácia nezdržuje tvorbu textu. „Zdá sa, že prekonáva prístupy konkurentov k vodoznaku LLM,“ hovorí Shumaylov, ktorý je bývalým zamestnancom a bratom jedného z autorov štúdie.
Nástroj bol tiež otvorený, aby vývojári mohli na svoje modely použiť svoj vlastný vodoznak. „Dúfame, že ďalší vývojári modelov AI to prijmú a integrujú do svojich vlastných systémov,“ hovorí Pushmeet Kohli, počítačový vedec z DeepMind. Google uchováva svoj kľúč v tajnosti, aby používatelia nemohli použiť detekčné nástroje na identifikáciu textu s vodotlačou z modelu Gemini.
vlády stanovené o vodoznakoch ako riešení na distribúciu textu generovaného AI. Napriek tomu existuje veľa problémov, vrátane záväzku vývojárov používať vodoznaky a koordináciu ich prístupov. Začiatkom tohto roka to ukázali vedci zo Švajčiarskeho federálneho technologického inštitútu v Zürichu akýkoľvek vodoznak náchylný na odstránenie je proces nazývaný „scrubbing“ alebo „spoofing“, pri ktorom sa na text aplikujú vodoznaky, aby vznikol falošný dojem, že je vygenerovaný AI.
Žetónový turnaj
Prístup DeepMind je založený na jednom existujúca metóda, ktorý integruje vodoznak do vzorkovacieho algoritmu, čo je krok pri vytváraní textu, ktorý je oddelený od samotného LLM.
LLM je sieť asociácií vybudovaných tréningom s miliardami slov alebo častí slov známych ako tokeny. Po zadaní textu model priradí každému tokenu v jeho slovnej zásobe pravdepodobnosť, že bude ďalším slovom vo vete. Úlohou vzorkovacieho algoritmu je vybrať, ktorý token sa má použiť podľa súboru pravidiel.
Algoritmus vzorkovania textu SynthID používa kryptografický kľúč na priradenie náhodných hodnôt každému možnému tokenu. Žetóny kandidátov sa vyberú z rozdelenia v pomere k ich pravdepodobnosti a umiestnia sa do „turnaja“. Algoritmus tam porovnáva hodnoty v sérii vyraďovacích kôl jeden na jedného, pričom vyhráva najvyššia hodnota, kým nezostane iba jeden token, ktorý sa vyberie pre text.
Táto sofistikovaná metóda uľahčuje detekciu vodoznaku, pretože rovnaký kryptografický kód sa aplikuje na generovaný text, aby sa hľadali vysoké hodnoty, ktoré označujú „víťazné“ tokeny. To môže tiež sťažiť odstránenie.
Viaceré kolá v turnaji možno považovať za kombináciu zámku, kde každé kolo predstavuje iné číslo, ktoré je potrebné vyriešiť, aby sa odomkol alebo odstránil vodoznak, hovorí Huang. „Tento mechanizmus výrazne sťažuje čistenie, spoof alebo spätné inžinierstvo vodoznaku,“ dodáva. Pri textoch s približne 200 tokenmi autori ukázali, že stále dokážu odhaliť vodoznak, aj keď sa na prepísanie textu použil druhý LLM. The watermark is less robust for shorter texts.
Vedci neskúmali, ako dobre vodoznak odoláva úmyselným pokusom o jeho odstránenie. Odolnosť vodoznakov proti takýmto útokom je „rozsiahlou politickou otázkou,“ hovorí Yves-Alexandre de Montjoye, počítačový vedec z Imperial College London. „V kontexte bezpečnosti AI nie je jasné, do akej miery to poskytuje ochranu,“ vysvetľuje.
Kohli dúfa, že vodoznak spočiatku pomôže podporiť dobre mienené používanie LLM. „Hlavnou filozofiou bolo, že sme chceli vyvinúť nástroj, ktorý by komunita mohla vylepšiť,“ dodáva.
-
Dathathri, S. a kol. Príroda 634, 818–823 (2024).