A Google láthatatlan vízjelet mutat be az AI által generált szövegekhez
A Google DeepMind egy láthatatlan vízjelet fejlesztett ki a mesterséges intelligencia által generált szövegekhez a félretájékoztatás elleni küzdelem érdekében.

A Google láthatatlan vízjelet mutat be az AI által generált szövegekhez
A londoni Google DeepMind kutatói kifejlesztettek egy "vízjelet" a mesterséges intelligencia (AI) által generált szövegek láthatatlan jelölésére – ezt már több millió chatbot-felhasználó használta.
A vízjel, amely október 23-án jelent meg a Nature folyóiratban 1, nem az első mesterséges intelligencia által generált szövegekhez készült. Azonban ez az első, amelyet nagyszabású, valós kontextusban mutatnak be. „Szerintem a legnagyobb hír itt az, hogy valóban használják” – mondja Scott Aaronson, az austini Texasi Egyetem informatikusa, aki augusztusig a kaliforniai San Franciscóban működő OpenAI-nál, a ChatGPT gyártóinál vízjelezéssel foglalkozott.
Az AI által generált szövegfelismerés egyre fontosabbá válik, mivel potenciális megoldást jelent a problémákra Álhírek és tudományos csalás képviseli. Emellett hozzájárulhatna Védje meg a jövő modelljeit a leértékeléstől azáltal, hogy nem képezi őket mesterséges intelligencia által generált tartalommal.
Egy átfogó tanulmányban a Google Gemini Large Language Model (LLM) felhasználói 20 millió válaszban a vízjellel ellátott szövegeket a jelöletlen szövegekkel egyenértékűnek minősítették. „Örülök, hogy a Google megteszi ezt a lépést a technológiai közösség érdekében” – mondta Furong Huang, a College Park-i Maryland Egyetem informatikusa. „Valószínűleg a legtöbb kereskedelmi eszköz a közeljövőben tartalmazni fog vízjeleket” – teszi hozzá Zakhar Shumaylov, a Cambridge-i Egyetem informatikusa.
A szavak megválasztása
Nehezebb vízjelet alkalmazni szövegre, mint képekre, mivel a szóválasztás az egyetlen változó, amely megváltoztatható. A DeepMind vízjelezése – az úgynevezett SynthID szöveg – titkos, de kriptográfiai kulccsal rögzíthető képlet szerint változtatja meg, hogy a modell mely szavakat választja. Más megközelítésekhez képest a DeepMind vízjelét valamivel könnyebben észlelhető, és az alkalmazás nem késlelteti a szövegalkotást. „Úgy tűnik, felülmúlja a versenytársak megközelítését az LLM-ek vízjelezésére” – mondja Shumaylov, aki a tanulmány egyik szerzőjének korábbi alkalmazottja és testvére.
Az eszközt is megnyitották, hogy a fejlesztők saját vízjelet alkalmazhassanak modelljeikre. „Reméljük, hogy más mesterséges intelligencia-modell-fejlesztők is átveszik ezt, és beépítik saját rendszereikbe” – mondja Pushmeet Kohli, a DeepMind informatikusa. A Google titokban tartja kulcsát, hogy a felhasználók ne használhassanak észlelőeszközöket a Gemini modell vízjeles szövegének azonosítására.
kormányok meg a vízjelekről, mint a mesterséges intelligencia által generált szövegek terjesztésének megoldásáról. Ennek ellenére számos probléma merül fel, beleértve a fejlesztők elkötelezettségét a vízjelek használata mellett és megközelítéseik összehangolását. Ez év elején a zürichi Svájci Szövetségi Technológiai Intézet kutatói kimutatták az eltávolítással sérülékeny vízjeleket Ez egy „súrolásnak” vagy „hamisításnak” nevezett folyamat, amelyben vízjeleket alkalmaznak a szövegre, hogy azt a hamis benyomást keltsék, mintha mesterséges intelligencia generálta volna.
Token verseny
A DeepMind megközelítése egyen alapul létező módszer, amely a vízjelet egy mintavételi algoritmusba integrálja, amely a szövegalkotás egy olyan lépése, amely elkülönül magától az LLM-től.
Az LLM olyan asszociációk hálózata, amelyeket több milliárd szóból vagy szórészből álló, tokenként ismert képzéssel építettek fel. Szöveg beírásakor a modell minden egyes tokenhez hozzárendeli annak valószínűségét, hogy a következő szó lesz a mondatban. A mintavételi algoritmus feladata, hogy egy szabályrendszer szerint válassza ki, hogy melyik tokent használja.
A SynthID szövegmintavételi algoritmus kriptográfiai kulcsot használ, hogy véletlenszerű értékeket rendeljen minden lehetséges tokenhez. A jelölt jelzőket valószínűségük arányában húzzák ki az elosztásból, és egy „tornába” helyezik. Ott az algoritmus egy-egy kiütéses körben hasonlítja össze az értékeket, és a legmagasabb érték nyer, amíg csak egy token marad, amelyet a szöveghez választanak.
Ez a kifinomult módszer megkönnyíti a vízjel észlelését, mivel ugyanazt a kriptográfiai kódot alkalmazzák a generált szövegre, hogy megkeressék a „nyertes” tokeneket jelző magas értékeket. Ez az eltávolítást is megnehezítheti.
A verseny több fordulója a zárolás kombinációjának tekinthető, ahol minden kör más-más számot jelöl, amelyet meg kell oldani a vízjel feloldásához vagy eltávolításához, mondja Huang. „Ez a mechanizmus jelentősen megnehezíti a vízjel súrolását, meghamisítását vagy visszafejtését” – teszi hozzá. A körülbelül 200 jelzőt tartalmazó szövegeknél a szerzők kimutatták, hogy még akkor is képesek észlelni a vízjelet, ha egy második LLM-et használtak a szöveg átírására. A vízjel kevésbé robusztus rövidebb szövegeknél.
A kutatók nem vizsgálták, hogy a vízjel mennyire ellenáll a szándékos eltávolítási kísérleteknek. A vízjelek ilyen támadásokkal szembeni ellenálló képessége „masszív politikai kérdés” – mondja Yves-Alexandre de Montjoye, a londoni Imperial College informatikusa. „Az AI biztonságával összefüggésben nem világos, hogy ez milyen mértékben nyújt védelmet” – magyarázza.
Kohli reméli, hogy a vízjel kezdetben segíteni fogja az LLM-ek jó szándékú használatát. „Az irányadó filozófia az volt, hogy olyan eszközt akartunk kifejleszteni, amelyet a közösség fejleszthet” – teszi hozzá.
-
Dathathri, S. et al. Nature 634, 818–823 (2024).