Google pristato nematomą vandens ženklą dirbtinio intelekto sukurtiems tekstams

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

„Google DeepMind“ sukūrė nematomą vandens ženklą, skirtą dirbtinio intelekto sukurtam tekstui, skirtą kovoti su dezinformacija.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
„Google DeepMind“ sukūrė nematomą vandens ženklą, skirtą dirbtinio intelekto sukurtam tekstui, skirtą kovoti su dezinformacija.

Google pristato nematomą vandens ženklą dirbtinio intelekto sukurtiems tekstams

„Google DeepMind“ mokslininkai Londone sukūrė „vandens ženklą“, skirtą nepastebimai pažymėti dirbtinio intelekto (AI) sukurtą tekstą – juo jau pasinaudojo milijonai pokalbių robotų vartotojų.

Vandens ženklas, paskelbtas spalio 23 d. žurnale Nature 1, nėra pirmasis, sukurtas dirbtinio intelekto sukurtiems tekstams. Tačiau tai pirmasis, kuris buvo parodytas didelio masto realiame kontekste. „Manau, kad didžiausia naujiena čia yra ta, kad jie iš tikrųjų jį naudoja“, – sako Scottas Aaronsonas, kompiuterių mokslininkas iš Teksaso universiteto Ostine, kuris iki rugpjūčio mėnesio dirbo su vandenženkliais OpenAI, ChatGPT kūrėjuose San Franciske, Kalifornijoje.

Dirbtinio intelekto sukurto teksto atpažinimas tampa vis svarbesnis, nes yra galimas problemų sprendimas Netikros naujienos ir akademinis sukčiavimas atstovauja. Be to, tai galėtų prisidėti prie Apsaugokite būsimus modelius nuo devalvacijos neapmokydami jų dirbtinio intelekto sukurtu turiniu.

Išsamiame tyrime „Google Gemini Large Language Model“ (LLM) naudotojai 20 milijonų atsakymų įvertino tekstus su vandens ženklais kaip lygiaverčius nepažymėtiems. „Džiaugiuosi, kad Google žengs šį žingsnį technologijų bendruomenės labui“, – sakė Merilendo universiteto Koledžo parke kompiuterių mokslininkas Furongas Huangas. „Tikėtina, kad artimiausioje ateityje daugumoje komercinių įrankių bus vandens ženklai“, – priduria Zakharas Shumaylovas, kompiuterių mokslininkas iš Kembridžo universiteto, JK.

Žodžių pasirinkimas

Vandenženklį pritaikyti tekstui yra sunkiau nei vaizdams, nes žodžio pasirinkimas iš esmės yra vienintelis kintamasis, kurį galima pakeisti. „DeepMind“ vandenženklis, vadinamas „SynthID“ tekstu, pakeičia, kuriuos žodžius modelis pasirenka slaptu, bet formuliniu būdu, kurį galima užfiksuoti kriptografiniu raktu. Palyginti su kitais metodais, „DeepMind“ vandens ženklą aptikti yra šiek tiek lengviau, o programa nevilkina teksto kūrimo. „Atrodo, kad tai pranoksta konkurentų požiūrį į vandens ženklų žymėjimą LLM“, - sako Shumaylovas, buvęs vieno iš tyrimo autorių darbuotojas ir brolis.

Įrankis taip pat buvo atidarytas, kad kūrėjai savo modeliams galėtų pritaikyti savo vandens ženklą. „Tikimės, kad kiti AI modelių kūrėjai tai pritaikys ir integruos į savo sistemas“, – sako Pushmeetas Kohli, „DeepMind“ kompiuterių mokslininkas. „Google“ saugo savo raktą paslaptyje, kad vartotojai negalėtų naudoti aptikimo įrankių, kad atpažintų vandens ženklu pažymėtą tekstą iš „Gemini“ modelio.

vyriausybės nustato apie vandens ženklus kaip AI sukurto teksto platinimo sprendimą. Vis dėlto yra daug problemų, įskaitant kūrėjų įsipareigojimą naudoti vandens ženklus ir jų metodų derinimą. Šių metų pradžioje tai parodė Šveicarijos federalinio technologijos instituto Ciuriche mokslininkai bet koks vandens ženklas, kurį galima pašalinti yra procesas, vadinamas „šveitimu“ arba „klastojimu“, kurio metu tekstui pritaikomi vandens ženklai, kad susidarytų klaidingas įspūdis, kad jis sukurtas dirbtinio intelekto.

Žetonų turnyras

DeepMind požiūris grindžiamas vienu esamas metodas, kuris integruoja vandens ženklą į atrankos algoritmą – teksto kūrimo žingsnį, kuris yra atskiras nuo paties LLM.

LLM yra asociacijų tinklas, sukurtas mokant milijardus žodžių arba žodžių dalių, žinomų kaip žetonai. Kai įvedamas tekstas, modelis kiekvienam žodyno žetonui priskiria tikimybę, kad tai bus kitas sakinio žodis. Atrankos algoritmo užduotis yra pasirinkti, kurį žetoną naudoti pagal taisyklių rinkinį.

SynthID teksto atrankos algoritmas naudoja kriptografinį raktą, kad kiekvienam galimam žetonui priskirtų atsitiktines reikšmes. Kandidatų žetonai paimami iš paskirstymo proporcingai jų tikimybei ir dedami į „turnyrą“. Čia algoritmas lygina vertes išmušimo raundu „vienas prieš vieną“ serijoje, o didžiausia vertė laimi tol, kol lieka tik vienas žetonas, kuris pasirenkamas tekstui.

Šis sudėtingas metodas palengvina vandens ženklų aptikimą, nes sukurtam tekstui taikomas tas pats kriptografinis kodas, siekiant ieškoti didelių verčių, rodančių „laimėtus“ žetonus. Tai taip pat gali apsunkinti pašalinimą.

Keli turnyro raundai gali būti vertinami kaip užrakto derinys, kur kiekvienas turas reiškia skirtingą skaičių, kurį reikia išspręsti norint atrakinti arba pašalinti vandens ženklą, sako Huangas. „Šis mechanizmas žymiai apsunkina vandens ženklo šveitimą, apgaudinėjimą ar apgręžimą“, – priduria ji. Tekstų, kuriuose yra apie 200 žetonų, autoriai parodė, kad jie vis tiek gali aptikti vandens ženklą net tada, kai tekstui perrašyti buvo naudojamas antrasis LLM. Vandenženklis yra mažiau tvirtas trumpesniems tekstams.

Tyrėjai neištyrė, kaip vandens ženklas atlaiko tyčinius bandymus jį pašalinti. Vandenženklių atsparumas tokioms atakoms yra „didžiulis politinis klausimas“, sako Yves-Alexandre de Montjoye, Londono imperatoriškojo koledžo kompiuterių mokslininkas. „Kalbant apie DI saugumą, neaišku, kiek tai užtikrina apsaugą“, – aiškina jis.

Kohli tikisi, kad vandens ženklas iš pradžių padės remti gerai apgalvotą LLM naudojimą. „Pagrindinė filosofija buvo ta, kad norėjome sukurti įrankį, kurį bendruomenė galėtų patobulinti“, – priduria jis.

  1. Dathathri, S. ir kt. Nature 634, 818–823 (2024).

    Google Scholar

Atsisiųskite nuorodas