Google presenta la filigrana invisibile per i testi generati dall'intelligenza artificiale

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind ha sviluppato una filigrana invisibile per il testo generato dall'intelligenza artificiale per combattere la disinformazione.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind ha sviluppato una filigrana invisibile per il testo generato dall'intelligenza artificiale per combattere la disinformazione.

Google presenta la filigrana invisibile per i testi generati dall'intelligenza artificiale

I ricercatori di Google DeepMind a Londra hanno sviluppato una "filigrana" per contrassegnare in modo invisibile il testo generato dall'intelligenza artificiale (AI): questa è già stata utilizzata da milioni di utenti di chatbot.

La filigrana, pubblicata il 23 ottobre sulla rivista Nature 1, non è il primo creato per i testi generati dall'intelligenza artificiale. Tuttavia, è il primo ad essere dimostrato in un contesto reale su larga scala. "Penso che la novità più importante qui sia che lo stanno effettivamente utilizzando", afferma Scott Aaronson, un informatico dell'Università del Texas ad Austin che, fino ad agosto, ha lavorato sul watermarking presso OpenAI, i creatori di ChatGPT con sede a San Francisco, California.

Il riconoscimento del testo generato dall'intelligenza artificiale sta diventando sempre più importante in quanto rappresenta una potenziale soluzione ai problemi di Notizie false E frode accademica rappresenta. Inoltre, potrebbe contribuire a Proteggi i modelli futuri dalla svalutazione non addestrandoli con contenuti generati dall’intelligenza artificiale.

In uno studio approfondito, gli utenti del Google Gemini Large Language Model (LLM) hanno valutato i testi con filigrana come equivalenti ai testi non contrassegnati in 20 milioni di risposte. "Sono entusiasta di vedere Google compiere questo passo per la comunità tecnologica", ha affermato Furong Huang, scienziato informatico presso l'Università del Maryland a College Park. "È probabile che nel prossimo futuro la maggior parte degli strumenti commerciali includerà filigrane", aggiunge Zakhar Shumaylov, informatico dell'Università di Cambridge, nel Regno Unito.

Scelta delle parole

È più difficile applicare una filigrana al testo che alle immagini perché la scelta delle parole è essenzialmente l'unica variabile che può essere modificata. Il watermarking di DeepMind, chiamato testo SynthID, cambia le parole scelte dal modello in un modo segreto ma stereotipato che può essere catturato con una chiave crittografica. Rispetto ad altri approcci, la filigrana di DeepMind è leggermente più facile da rilevare e l'applicazione non ritarda la creazione del testo. "Sembra che stia surclassando gli approcci della concorrenza al watermarking degli LLM", afferma Shumaylov, ex dipendente e fratello di uno degli autori dello studio.

Lo strumento è stato inoltre aperto in modo che gli sviluppatori possano applicare la propria filigrana ai propri modelli. "Ci auguriamo che altri sviluppatori di modelli di intelligenza artificiale lo adottino e lo integrino nei propri sistemi", afferma Pushmeet Kohli, informatico di DeepMind. Google mantiene segreta la sua chiave in modo che gli utenti non possano utilizzare strumenti di rilevamento per identificare il testo con filigrana dal modello Gemini.

stabiliti dai governi sulle filigrane come soluzione per la distribuzione di testo generato dall'intelligenza artificiale. Tuttavia, ci sono molti problemi, incluso l'impegno degli sviluppatori nell'uso delle filigrane e il coordinamento dei loro approcci. Lo hanno dimostrato all’inizio di quest’anno i ricercatori del Politecnico federale di Zurigo qualsiasi filigrana vulnerabile alla rimozione è un processo chiamato “scrubbing” o “spoofing”, in cui le filigrane vengono applicate al testo per dare la falsa impressione che sia generato dall’intelligenza artificiale.

Torneo di gettoni

L'approccio di DeepMind si basa su uno metodo esistente, che integra una filigrana in un algoritmo di campionamento, un passaggio nella creazione del testo separato dal LLM stesso.

Un LLM è una rete di associazioni costruite allenandosi con miliardi di parole o parti di parole conosciute come token. Quando viene inserito il testo, il modello assegna a ciascun token del suo vocabolario la probabilità di essere la parola successiva nella frase. Il compito dell'algoritmo di campionamento è scegliere quale token utilizzare secondo un insieme di regole.

L'algoritmo di campionamento del testo SynthID utilizza una chiave crittografica per assegnare valori casuali a ogni possibile token. I gettoni candidati vengono estratti dalla distribuzione in proporzione alla loro probabilità e inseriti in un “torneo”. Lì, l'algoritmo confronta i valori in una serie di round a eliminazione diretta uno contro uno, vincendo il valore più alto fino a quando rimane solo un token, che viene scelto per il testo.

Questo sofisticato metodo semplifica il rilevamento della filigrana perché lo stesso codice crittografico viene applicato al testo generato per cercare i valori elevati che indicano token “vincenti”. Ciò potrebbe anche rendere difficile la rimozione.

I round multipli del torneo possono essere visti come una combinazione di lucchetti, dove ogni round rappresenta un numero diverso che deve essere risolto per sbloccare o rimuovere la filigrana, dice Huang. "Questo meccanismo rende molto più difficile pulire, falsificare o decodificare la filigrana", aggiunge. Per i testi con circa 200 token, gli autori hanno dimostrato di poter ancora rilevare la filigrana anche quando veniva utilizzato un secondo LLM per riscrivere il testo. La filigrana è meno robusta per i testi più brevi.

I ricercatori non hanno esaminato la capacità della filigrana di resistere ai tentativi intenzionali di rimuoverla. La resistenza delle filigrane contro tali attacchi è una “questione politica enorme”, afferma Yves-Alexandre de Montjoye, informatico dell’Imperial College di Londra. “Nel contesto della sicurezza dell’intelligenza artificiale, non è chiaro in che misura questa fornisca protezione”, spiega.

Kohli spera che la filigrana aiuti inizialmente a sostenere l'uso ben intenzionato dei LLM. "La filosofia guida era che volevamo sviluppare uno strumento che la comunità potesse migliorare", aggiunge.

  1. Dathatri, S. et al. Natura 634, 818–823 (2024).

    Google Scholar

Scarica riferimenti