Google piedāvā neredzamu ūdenszīmi mākslīgā intelekta ģenerētiem tekstiem
Google DeepMind ir izstrādājis neredzamu ūdenszīmi mākslīgā intelekta ģenerētam tekstam, lai cīnītos pret dezinformāciju.

Google piedāvā neredzamu ūdenszīmi mākslīgā intelekta ģenerētiem tekstiem
Google DeepMind pētnieki Londonā ir izstrādājuši "ūdenszīmi", lai neredzami atzīmētu mākslīgā intelekta (AI) ģenerētu tekstu – to jau ir izmantojuši miljoniem tērzēšanas robotu lietotāju.
Ūdenszīme, kas publicēta 23. oktobrī žurnālā Nature 1, nav pirmais, kas izveidots AI ģenerētiem tekstiem. Tomēr tas ir pirmais, kas tiek demonstrēts liela mēroga, reālās pasaules kontekstā. "Manuprāt, lielākās ziņas šeit ir tādas, ka viņi to patiešām izmanto," saka Skots Āronsons, datorzinātnieks no Teksasas Universitātes Ostinā, kurš līdz augustam strādāja pie ūdenszīmēm OpenAI, ChatGPT veidotāji, kas atrodas Sanfrancisko, Kalifornijā.
AI radītā teksta atpazīšana kļūst arvien svarīgāka, jo tā ir potenciāls problēmu risinājums Viltus ziņas un akadēmiskā krāpšana pārstāv. Turklāt tas varētu veicināt Aizsargājiet nākotnes modeļus no devalvācijas, neapmācot tos ar AI ģenerētu saturu.
Visaptverošā pētījumā Google Gemini Large Language Model (LLM) lietotāji 20 miljonos atbilžu novērtēja tekstus ar ūdenszīmēm kā līdzvērtīgus tekstiem bez atzīmes. "Esmu priecīgs, ka Google sper šo soli tehnoloģiju kopienas labā," sacīja Furongs Huangs, datorzinātnieks no Merilendas Universitātes Koledžparkā. "Iespējams, ka lielākajā daļā komerciālo rīku tuvākajā nākotnē būs ūdenszīmes," piebilst Zakhars Šumailovs, Kembridžas universitātes datorzinātnieks Apvienotajā Karalistē.
Vārdu izvēle
Ūdenszīmi ir grūtāk lietot tekstam nekā attēliem, jo vārda izvēle būtībā ir vienīgais mainīgais, ko var mainīt. DeepMind ūdenszīmes, ko sauc par SynthID tekstu, maina, kurus vārdus modelis izvēlas slepenā, bet formuliskā veidā, ko var tvert ar kriptogrāfisko atslēgu. Salīdzinot ar citām pieejām, DeepMind ūdenszīmi ir nedaudz vieglāk noteikt, un lietojumprogramma neaizkavē teksta izveidi. "Šķiet, ka tas pārspēj konkurentu pieeju LLM ūdenszīmēm," saka Šumailovs, kurš ir bijušais darbinieks un viena no pētījuma autoru brālis.
Rīks ir arī atvērts, lai izstrādātāji varētu saviem modeļiem lietot savu ūdenszīmi. "Mēs ceram, ka citi AI modeļu izstrādātāji to pieņems un integrēs savās sistēmās," saka Pushmeet Kolli, DeepMind datorzinātnieks. Google patur savu atslēgu noslēpumā, lai lietotāji nevarētu izmantot noteikšanas rīkus ūdenszīmes teksta identificēšanai no Gemini modeļa.
valdības nosaka par ūdenszīmēm kā risinājumu AI ģenerēta teksta izplatīšanai. Tomēr ir daudz problēmu, tostarp izstrādātāju apņemšanās izmantot ūdenszīmes un savu pieeju koordinēšana. Šā gada sākumā to parādīja Šveices Federālā tehnoloģiju institūta Cīrihē pētnieki jebkura ūdenszīme, kas ir neaizsargāta pret noņemšanu ir process, ko sauc par “notīrīšanu” vai “spoofing”, kurā tekstam tiek lietotas ūdenszīmes, lai radītu nepatiesu iespaidu, ka tas ir AI ģenerēts.
Žetonu turnīrs
DeepMind pieeja ir balstīta uz vienu esošā metode, kas integrē ūdenszīmi izlases algoritmā, kas ir teksta izveides solis, kas ir nošķirts no paša LLM.
LLM ir asociāciju tīkls, kas izveidots, apmācot miljardiem vārdu vai vārdu daļu, kas pazīstami kā marķieri. Kad tiek ievadīts teksts, modelis piešķir katram marķierim savā vārdnīcā varbūtību, ka tas būs nākamais vārds teikumā. Izlases algoritma uzdevums ir izvēlēties, kuru marķieri izmantot saskaņā ar noteikumu kopumu.
SynthID teksta paraugu ņemšanas algoritms izmanto kriptogrāfisku atslēgu, lai katram iespējamam marķierim piešķirtu nejaušas vērtības. Kandidātu žetoni tiek izvilkti no sadalījuma proporcionāli to iespējamībai un ievietoti “turnīrā”. Tur algoritms salīdzina vērtības izslēgšanas raundu sērijā viens pret vienu, un lielākā vērtība uzvar, līdz paliek tikai viens marķieris, kas tiek izvēlēts tekstam.
Šī izsmalcinātā metode atvieglo ūdenszīmju noteikšanu, jo ģenerētajam tekstam tiek izmantots tas pats kriptogrāfiskais kods, lai meklētu augstās vērtības, kas norāda uz “uzvarējušajiem” marķieriem. Tas var arī apgrūtināt noņemšanu.
Vairākas kārtas turnīrā var uzskatīt par bloķēšanas kombināciju, kur katra kārta apzīmē citu skaitli, kas jāatrisina, lai atbloķētu vai noņemtu ūdenszīmi, saka Huangs. "Šis mehānisms ievērojami apgrūtina ūdenszīmes beršanu, viltošanu vai reverso inženieriju," viņa piebilst. Tekstiem ar aptuveni 200 marķieriem autori parādīja, ka viņi joprojām var noteikt ūdenszīmi pat tad, ja teksta pārrakstīšanai tika izmantots otrs LLM. Ūdenszīme ir mazāk izturīga īsākiem tekstiem.
Pētnieki nav pārbaudījuši, cik labi ūdenszīme pretojas tīšiem mēģinājumiem to noņemt. Ūdenszīmju noturība pret šādiem uzbrukumiem ir “milzīgs politisks jautājums”, saka Londonas Imperiālās koledžas datorzinātnieks Īvs Aleksandrs de Montžojs. "AI drošības kontekstā nav skaidrs, cik lielā mērā tas nodrošina aizsardzību," viņš skaidro.
Kohli cer, ka ūdenszīme sākotnēji palīdzēs atbalstīt labi nodomu LLM izmantošanu. "Vadošā filozofija bija tāda, ka mēs vēlējāmies izstrādāt rīku, ko sabiedrība varētu uzlabot," viņš piebilst.
-
Dathari, S. et al. Nature 634, 818–823 (2024).