Google prezintă filigran invizibil pentru textele generate de inteligență artificială
Google DeepMind a dezvoltat un filigran invizibil pentru textul generat de AI pentru a combate dezinformarea.

Google prezintă filigran invizibil pentru textele generate de inteligență artificială
Cercetătorii de la Google DeepMind din Londra au dezvoltat un „filigran” pentru a marca în mod invizibil textul generat de inteligența artificială (AI) – acesta a fost deja folosit de milioane de utilizatori de chatbot.
Filigranul, publicat pe 23 octombrie în revista Nature 1, nu este primul creat pentru textele generate de AI. Cu toate acestea, este primul care este demonstrat într-un context real, la scară largă. „Cred că cea mai mare veste aici este că de fapt îl folosesc”, spune Scott Aaronson, un informatician la Universitatea Texas din Austin, care, până în august, a lucrat la watermarking la OpenAI, producătorii ChatGPT cu sediul în San Francisco, California.
Recunoașterea textului generată de inteligență artificială devine din ce în ce mai importantă, deoarece reprezintă o potențială soluție la problemele Știri false şi fraudă academică reprezintă. În plus, ar putea contribui la Protejați modelele viitoare de devalorizare, nu le antrenați cu conținut generat de inteligență artificială.
Într-un studiu cuprinzător, utilizatorii Google Gemini Large Language Model (LLM) au evaluat textele cu filigran ca fiind echivalente cu textele nemarcate în 20 de milioane de răspunsuri. „Sunt încântat să văd Google făcând acest pas pentru comunitatea tehnologică”, a spus Furong Huang, un informatician la Universitatea din Maryland din College Park. „Este probabil ca majoritatea instrumentelor comerciale să includă filigrane în viitorul apropiat”, adaugă Zakhar Shumaylov, un informatician la Universitatea din Cambridge, Marea Britanie.
Alegerea cuvintelor
Este mai dificil să aplicați un filigran textului decât imaginilor, deoarece alegerea cuvântului este, în esență, singura variabilă care poate fi modificată. Filigranul DeepMind - numit text SynthID - schimbă cuvintele pe care modelul le alege într-un mod secret, dar formulaic, care poate fi capturat cu o cheie criptografică. În comparație cu alte abordări, filigranul DeepMind este puțin mai ușor de detectat, iar aplicația nu întârzie crearea textului. „Se pare că depășește abordările concurenților în ceea ce privește watermarking-urile LLM”, spune Shumaylov, care este un fost angajat și fratele unuia dintre autorii studiului.
Instrumentul a fost, de asemenea, deschis, astfel încât dezvoltatorii să își poată aplica propriul filigran pe modelele lor. „Sperăm că alți dezvoltatori de modele AI vor adopta acest lucru și îl vor integra în propriile lor sisteme”, spune Pushmeet Kohli, un informatician la DeepMind. Google își păstrează secretul cheie, astfel încât utilizatorii să nu poată folosi instrumente de detectare pentru a identifica textul cu filigran din modelul Gemini.
guvernele stabilite pe filigrane ca soluție pentru distribuirea textului generat de AI. Totuși, există multe probleme, inclusiv angajamentul dezvoltatorilor de a folosi filigrane și coordonarea abordărilor lor. La începutul acestui an, cercetătorii de la Institutul Federal Elvețian de Tehnologie din Zurich au arătat că orice filigran vulnerabil la eliminare este un proces numit „scrubbing” sau „spoofing”, în care filigranele sunt aplicate textului pentru a da impresia falsă că este generat de AI.
Turneu de jetoane
Abordarea DeepMind se bazează pe unul metoda existenta, care integrează un filigran într-un algoritm de eșantionare, un pas în crearea de text care este separat de LLM în sine.
Un LLM este o rețea de asociații construită prin antrenament cu miliarde de cuvinte sau părți de cuvinte cunoscute sub numele de jetoane. Când este introdus text, modelul atribuie fiecărui simbol din vocabularul său o probabilitate de a fi următorul cuvânt din propoziție. Sarcina algoritmului de eșantionare este să aleagă ce simbol să folosească în conformitate cu un set de reguli.
Algoritmul de eșantionare a textului SynthID utilizează o cheie criptografică pentru a atribui valori aleatorii fiecărui simbol posibil. Jetoanele de candidat sunt extrase din distribuție proporțional cu probabilitatea lor și plasate într-un „turneu”. Acolo, algoritmul compară valorile într-o serie de runde eliminatorii unu-la-unu, cu cea mai mare valoare câștigând până când rămâne un singur jeton, care este ales pentru text.
Această metodă sofisticată face detectarea filigranului mai ușoară deoarece același cod criptografic este aplicat textului generat pentru a căuta valorile mari care indică jetoane „câștigătoare”. Acest lucru ar putea îngreuna, de asemenea, îndepărtarea.
Mai multe runde din turneu pot fi văzute ca o combinație de blocare, în care fiecare rundă reprezintă un număr diferit care trebuie rezolvat pentru a debloca sau a elimina filigranul, spune Huang. „Acest mecanism face mult mai dificilă curățarea, falsificarea sau ingineria inversă a filigranului”, adaugă ea. Pentru textele cu aproximativ 200 de jetoane, autorii au arătat că pot detecta în continuare filigranul chiar și atunci când a fost folosit un al doilea LLM pentru a rescrie textul. Filigranul este mai puțin robust pentru textele mai scurte.
Cercetătorii nu au examinat cât de bine rezistă filigranul încercărilor intenționate de a-l elimina. Reziliența filigranelor împotriva unor astfel de atacuri este o „chestiune politică masivă”, spune Yves-Alexandre de Montjoye, informatician la Imperial College London. „În contextul securității AI, nu este clar în ce măsură aceasta oferă protecție”, explică el.
Kohli speră că filigranul va ajuta inițial să susțină utilizarea bine intenționată a LLM-urilor. „Filozofia călăuzitoare a fost că am vrut să dezvoltăm un instrument pe care comunitatea să-l poată îmbunătăți”, adaugă el.
-
Dathathri, S. şi colab. Nature 634, 818–823 (2024).