Google esittelee näkymätön vesileima tekoälyn luomille teksteille

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind on kehittänyt näkymätön vesileiman tekoälyn luomaan tekstiin torjuakseen väärää tietoa.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind on kehittänyt näkymätön vesileiman tekoälyn luomaan tekstiin torjuakseen väärää tietoa.

Google esittelee näkymätön vesileima tekoälyn luomille teksteille

Lontoon Google DeepMindin tutkijat ovat kehittäneet "vesileiman", joka merkitsee tekoälyn (AI) luomaa tekstiä näkymättömästi – sitä ovat jo käyttäneet miljoonat chatbotin käyttäjät.

Vesileima, julkaistu 23. lokakuuta Nature-lehdessä 1, ei ole ensimmäinen tekoälyn luomille teksteille luotu. Se on kuitenkin ensimmäinen, joka esitellään suuressa mittakaavassa, todellisessa kontekstissa. "Luulen, että suurin uutinen täällä on, että he todella käyttävät sitä", sanoo Scott Aaronson, tietotekniikan tutkija Texasin yliopistosta Austinista, joka työskenteli elokuuhun asti vesileimauksen parissa OpenAI:ssa, ChatGPT:n tekijöissä San Franciscossa, Kaliforniassa.

Tekoälyn luomasta tekstintunnistuksesta on tulossa yhä tärkeämpi, koska se edustaa mahdollista ratkaisua ongelmiin Valeuutisia ja akateeminen petos edustaa. Lisäksi se voisi edistää Suojaa tulevia malleja devalvaatiolta olemalla kouluttamatta niitä tekoälyn luomalla sisällöllä.

Kattavassa tutkimuksessa Google Gemini Large Language Modelin (LLM) käyttäjät arvioivat vesileimalla varustetut tekstit vastaaviksi 20 miljoonassa vastauksessa. "Olen innoissani nähdessäni Googlen ottavan tämän askeleen teknologiayhteisön hyväksi", sanoi Furong Huang, tietojenkäsittelytieteilijä Marylandin yliopistosta College Parkissa. "On todennäköistä, että useimmat kaupalliset työkalut sisältävät vesileimat lähitulevaisuudessa", lisää Zakhar Shumaylov, tietojenkäsittelytieteilijä Cambridgen yliopistosta Iso-Britanniasta.

Sanojen valinta

Vesileiman lisääminen tekstiin kuin kuviin on vaikeampaa, koska sanavalinta on käytännössä ainoa muuttuja, jota voidaan muuttaa. DeepMindin vesileima - nimeltään SynthID-teksti - muuttaa mallin valitsemat sanat salaisella mutta kaavamaisella tavalla, joka voidaan kaapata kryptografisella avaimella. Muihin lähestymistapoihin verrattuna DeepMindin vesileima on hieman helpompi havaita, eikä sovellus viivytä tekstin luomista. "Se näyttää ylittävän kilpailijoiden lähestymistapoja LLM:ien vesileimaukseen", sanoo Shumaylov, joka on yhden tutkimuksen kirjoittajan entinen työntekijä ja veli.

Työkalu on myös avattu, jotta kehittäjät voivat käyttää omia vesileimoja malleihinsa. "Toivomme, että muut tekoälymallien kehittäjät ottavat tämän käyttöön ja integroivat sen omiin järjestelmiinsä", sanoo DeepMindin tietojenkäsittelytieteilijä Pushmeet Kohli. Google pitää avaimensa salassa, jotta käyttäjät eivät voi käyttää tunnistustyökaluja tunnistaakseen vesileimatekstiä Gemini-mallista.

hallitukset asettavat vesileimoista ratkaisuna tekoälyn luoman tekstin jakamiseen. Silti ongelmia on monia, mukaan lukien kehittäjien sitoutuminen vesileimojen käyttöön ja lähestymistapojen koordinointi. Tämän vuoden alussa Zürichin Sveitsin liittovaltion teknologiainstituutin tutkijat osoittivat sen mikä tahansa vesileima, joka on alttiina poistettavaksi on prosessi, jota kutsutaan "pesuksi" tai "huijaukseksi", jossa tekstiin lisätään vesileimoja antamaan väärä vaikutelma, että se on tekoälyn luoma.

Token-turnaus

DeepMindin lähestymistapa perustuu yhteen olemassa oleva menetelmä, joka integroi vesileiman näytteenottoalgoritmiin, tekstin luomisen vaiheeseen, joka on erillinen itse LLM:stä.

LLM on yhdistysten verkosto, joka on rakennettu kouluttamalla miljardeja sanoja tai sanan osia, jotka tunnetaan nimikkeinä. Kun tekstiä syötetään, malli määrittää kullekin sanavarastossaan olevalle tokenille todennäköisyyden, että se on lauseen seuraava sana. Näytteenottoalgoritmin tehtävänä on valita sääntöjoukon mukaan käytettävä merkki.

SynthID-tekstin näytteenottoalgoritmi käyttää salausavainta määrittääkseen satunnaisia ​​arvoja kullekin mahdolliselle tunnukselle. Ehdokasmerkit arvotaan jakaumasta suhteessa niiden todennäköisyyteen ja sijoitetaan "turnaukseen". Siellä algoritmi vertaa arvoja sarjassa yksi vastaan ​​yksi pudotuskierros, jolloin suurin arvo voittaa, kunnes jäljelle jää vain yksi merkki, joka valitaan tekstille.

Tämä hienostunut menetelmä tekee vesileiman havaitsemisesta helpompaa, koska samaa kryptografista koodia käytetään luotuun tekstiin etsimään korkeita arvoja, jotka osoittavat "voittavia" tokeneita. Tämä voi myös vaikeuttaa poistamista.

Turnauksen useat kierrokset voidaan nähdä lukon yhdistelmänä, jossa jokainen kierros edustaa eri numeroa, joka on ratkaistava vesileiman avaamiseksi tai poistamiseksi, Huang sanoo. "Tämä mekanismi vaikeuttaa huomattavasti vesileiman hankaamista, huijaamista tai kääntämistä", hän lisää. Noin 200 merkkiä sisältävien tekstien kohdalla kirjoittajat osoittivat, että he pystyivät silti havaitsemaan vesileiman, vaikka tekstin kirjoittamiseen käytettiin toista LLM:ää. Vesileima on vähemmän kestävä lyhyemmille teksteille.

Tutkijat eivät ole tutkineet, kuinka hyvin vesileima vastustaa tahallisia yrityksiä poistaa se. Vesileimojen sietokyky tällaisia ​​hyökkäyksiä vastaan ​​on "massiivinen poliittinen kysymys", sanoo Lontoon Imperial Collegen tietojenkäsittelytieteilijä Yves-Alexandre de Montjoye. "Tekoälyn turvallisuuden yhteydessä on epäselvää, missä määrin tämä suojaa", hän selittää.

Kohli toivoo, että vesileima auttaa aluksi tukemaan LLM:ien hyvää tarkoitusta. "Ohjaava filosofia oli, että halusimme kehittää työkalun, jota yhteisö voisi parantaa", hän lisää.

  1. Dathathri, S. et ai. Nature 634, 818–823 (2024).

    Google Scholar

Lataa viitteitä