Google udostępnia niewidoczny znak wodny dla tekstów generowanych przez sztuczną inteligencję

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind opracował niewidoczny znak wodny dla tekstu generowanego przez sztuczną inteligencję, aby zwalczać dezinformację.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind opracował niewidoczny znak wodny dla tekstu generowanego przez sztuczną inteligencję, aby zwalczać dezinformację.

Google udostępnia niewidoczny znak wodny dla tekstów generowanych przez sztuczną inteligencję

Naukowcy z Google DeepMind w Londynie opracowali „znak wodny”, który pozwala w niewidoczny sposób oznaczać tekst generowany przez sztuczną inteligencję (AI) – wykorzystały go już miliony użytkowników chatbota.

Znak wodny, opublikowany 23 października w czasopiśmie Nature 1, nie jest pierwszym stworzonym dla tekstów generowanych przez sztuczną inteligencję. Jest to jednak pierwsza metoda zademonstrowana na dużą skalę w kontekście świata rzeczywistego. „Myślę, że najważniejszą wiadomością jest to, że faktycznie go używają” – mówi Scott Aaronson, informatyk z Uniwersytetu Teksasu w Austin, który do sierpnia pracował nad znakami wodnymi w OpenAI, twórcy ChatGPT z siedzibą w San Francisco w Kalifornii.

Rozpoznawanie tekstu generowane przez sztuczną inteligencję staje się coraz ważniejsze, ponieważ stanowi potencjalne rozwiązanie problemów Fałszywe wiadomości I oszustwo akademickie reprezentuje. Ponadto może się do tego przyczynić Chroń przyszłe modele przed dewaluacją, nie szkoląc ich przy użyciu treści generowanych przez sztuczną inteligencję.

W kompleksowym badaniu użytkownicy modelu dużego języka Google Gemini (LLM) w 20 milionach odpowiedzi ocenili teksty ze znakiem wodnym jako równoważne tekstom nieoznaczonym. „Jestem podekscytowany, że Google podejmuje ten krok na rzecz społeczności technologicznej” – powiedział Furong Huang, informatyk z Uniwersytetu Maryland w College Park. „Jest prawdopodobne, że w najbliższej przyszłości większość narzędzi komercyjnych będzie zawierać znaki wodne” – dodaje Zakhar Shumaylov, informatyk z Uniwersytetu w Cambridge w Wielkiej Brytanii.

Wybór słów

Trudniej jest zastosować znak wodny do tekstu niż do obrazów, ponieważ dobór słów jest w zasadzie jedyną zmienną, którą można zmienić. Znak wodny DeepMind – zwany tekstem SynthID – zmienia słowa wybierane przez model w tajny, ale formalny sposób, który można uchwycić za pomocą klucza kryptograficznego. W porównaniu do innych podejść, znak wodny DeepMind jest nieco łatwiejszy do wykrycia, a aplikacja nie opóźnia tworzenia tekstu. „Wydaje się, że przewyższa podejście konkurencji do rozwiązań LLM związanych ze znakami wodnymi” – mówi Shumaylov, były pracownik i brat jednego z autorów badania.

Narzędzie zostało również otwarte, aby programiści mogli zastosować własny znak wodny do swoich modeli. „Mamy nadzieję, że inni twórcy modeli sztucznej inteligencji przyjmą to i zintegrują ze swoimi własnymi systemami” – mówi Pushmeet Kohli, informatyk w DeepMind. Google utrzymuje swój klucz w tajemnicy, aby użytkownicy nie mogli używać narzędzi wykrywających do identyfikowania tekstu ze znakiem wodnym w modelu Gemini.

rządy ustaliły w sprawie znaków wodnych jako rozwiązania do dystrybucji tekstu generowanego przez sztuczną inteligencję. Mimo to istnieje wiele problemów, w tym zaangażowanie programistów w używanie znaków wodnych i koordynacja ich podejść. Wykazali to na początku tego roku naukowcy ze Szwajcarskiego Federalnego Instytutu Technologii w Zurychu wszelkie znaki wodne podatne na usunięcie to proces zwany „czyszczeniem” lub „podrabianiem”, podczas którego do tekstu nakładane są znaki wodne, aby sprawiać fałszywe wrażenie, że został on wygenerowany przez sztuczną inteligencję.

Turniej żetonowy

Podejście DeepMind opiera się na jednym istniejąca metoda, który integruje znak wodny z algorytmem próbkowania, co stanowi etap tworzenia tekstu niezależny od samego LLM.

LLM to sieć skojarzeń zbudowana poprzez uczenie miliardów słów lub części słów zwanych tokenami. Po wprowadzeniu tekstu model przypisuje każdemu znacznikowi w swoim słowniku prawdopodobieństwo, że będzie następnym słowem w zdaniu. Zadaniem algorytmu próbkowania jest wybór, który token ma zostać użyty, zgodnie z zestawem reguł.

Algorytm próbkowania tekstu SynthID wykorzystuje klucz kryptograficzny do przypisania losowych wartości do każdego możliwego tokena. Żetony kandydatów są losowane z rozkładu proporcjonalnie do ich prawdopodobieństwa i umieszczane w „turnieju”. Tam algorytm porównuje wartości w serii rund pucharowych jeden na jednego, przy czym wygrywa najwyższa wartość, aż pozostanie tylko jeden żeton, który zostanie wybrany do tekstu.

Ta wyrafinowana metoda ułatwia wykrywanie znaku wodnego, ponieważ do wygenerowanego tekstu stosowany jest ten sam kod kryptograficzny w celu wyszukania wysokich wartości wskazujących „zwycięskie” tokeny. Może to również utrudniać usuwanie.

Wiele rund turnieju można postrzegać jako kombinację zamka, gdzie każda runda reprezentuje inną liczbę, którą należy rozwiązać, aby odblokować lub usunąć znak wodny, mówi Huang. „Ten mechanizm znacznie utrudnia czyszczenie, fałszowanie lub inżynierię wsteczną znaku wodnego” – dodaje. W przypadku tekstów zawierających około 200 tokenów autorzy wykazali, że nadal są w stanie wykryć znak wodny, nawet jeśli do przepisania tekstu użyto drugiego LLM. Znak wodny jest mniej wytrzymały w przypadku krótszych tekstów.

Naukowcy nie sprawdzili, jak dobrze znak wodny opiera się celowym próbom jego usunięcia. Odporność znaków wodnych na takie ataki to „ogromna kwestia polityczna” – mówi Yves-Alexandre de Montjoye, informatyk w Imperial College w Londynie. „W kontekście bezpieczeństwa sztucznej inteligencji nie jest jasne, w jakim stopniu zapewnia to ochronę” – wyjaśnia.

Kohli ma nadzieję, że znak wodny początkowo pomoże w uzasadnionym korzystaniu z LLM. „Przewodnią filozofią było to, że chcieliśmy opracować narzędzie, które społeczność mogłaby ulepszyć” – dodaje.

  1. Datathri, S. i in. Natura 634, 818–823 (2024).

    Scholar Google

Pobierz referencje