Google apresenta marca d'água invisível para textos gerados por IA

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

O Google DeepMind desenvolveu uma marca d'água invisível para texto gerado por IA para combater a desinformação.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
O Google DeepMind desenvolveu uma marca d'água invisível para texto gerado por IA para combater a desinformação.

Google apresenta marca d'água invisível para textos gerados por IA

Pesquisadores do Google DeepMind em Londres desenvolveram uma “marca d'água” para marcar de forma invisível o texto gerado pela inteligência artificial (IA) – isso já foi usado por milhões de usuários de chatbot.

A marca d'água, publicada em 23 de outubro na revista Nature 1, não é o primeiro criado para textos gerados por IA. No entanto, é o primeiro a ser demonstrado em um contexto do mundo real em larga escala. “Acho que a maior novidade aqui é que eles estão realmente usando isso”, diz Scott Aaronson, cientista da computação da Universidade do Texas em Austin que, até agosto, trabalhou com marcas d'água na OpenAI, criadora do ChatGPT com sede em São Francisco, Califórnia.

O reconhecimento de texto gerado por IA está se tornando cada vez mais importante, pois representa uma solução potencial para os problemas de Notícias falsas e fraude acadêmica representa. Além disso, poderia contribuir para Proteja os modelos futuros da desvalorização, não treinando-os com conteúdo gerado por IA.

Em um estudo abrangente, os usuários do Google Gemini Large Language Model (LLM) classificaram os textos com marca d'água como equivalentes aos textos não marcados em 20 milhões de respostas. “Estou entusiasmado em ver o Google dar este passo em prol da comunidade tecnológica”, disse Furong Huang, cientista da computação da Universidade de Maryland em College Park. “É provável que a maioria das ferramentas comerciais inclua marcas d’água num futuro próximo”, acrescenta Zakhar Shumaylov, cientista da computação da Universidade de Cambridge, no Reino Unido.

Escolha de palavras

É mais difícil aplicar uma marca d'água ao texto do que às imagens porque a escolha das palavras é essencialmente a única variável que pode ser alterada. A marca d’água da DeepMind – chamada de texto SynthID – altera as palavras que o modelo escolhe de uma forma secreta, mas estereotipada, que pode ser capturada com uma chave criptográfica. Em comparação com outras abordagens, a marca d’água do DeepMind é um pouco mais fácil de detectar e o aplicativo não atrasa a criação de texto. “Parece estar superando as abordagens dos concorrentes para colocar marcas d’água em LLMs”, diz Shumaylov, que é ex-funcionário e irmão de um dos autores do estudo.

A ferramenta também foi aberta para que os desenvolvedores possam aplicar sua própria marca d’água em seus modelos. “Esperamos que outros desenvolvedores de modelos de IA adotem isso e integrem-no em seus próprios sistemas”, diz Pushmeet Kohli, cientista da computação da DeepMind. O Google mantém sua chave em segredo para que os usuários não possam usar ferramentas de detecção para identificar texto com marca d’água do modelo Gemini.

conjunto de governos em marcas d'água como solução para distribuição de texto gerado por IA. Ainda assim, existem muitos problemas, incluindo o compromisso dos desenvolvedores em usar marcas d’água e a coordenação de suas abordagens. No início deste ano, investigadores do Instituto Federal Suíço de Tecnologia em Zurique mostraram que qualquer marca d'água vulnerável à remoção isto é, um processo chamado “scrubbing” ou “spoofing”, no qual marcas d'água são aplicadas ao texto para dar a falsa impressão de que ele é gerado por IA.

Torneio de tokens

A abordagem da DeepMind é baseada em um método existente, que integra uma marca d'água em um algoritmo de amostragem, uma etapa na criação de texto separada do próprio LLM.

Um LLM é uma rede de associações construída por meio de treinamento com bilhões de palavras ou partes de palavras conhecidas como tokens. Quando o texto é inserido, o modelo atribui a cada token em seu vocabulário uma probabilidade de ser a próxima palavra na frase. A tarefa do algoritmo de amostragem é escolher qual token usar de acordo com um conjunto de regras.

O algoritmo de amostragem de texto SynthID usa uma chave criptográfica para atribuir valores aleatórios a cada token possível. Os tokens candidatos são retirados da distribuição proporcionalmente à sua probabilidade e colocados em um “torneio”. Lá, o algoritmo compara os valores em uma série de rodadas eliminatórias um contra um, com o maior valor vencendo até restar apenas um token, que é escolhido para o texto.

Este método sofisticado facilita a detecção de marcas d’água porque o mesmo código criptográfico é aplicado ao texto gerado para procurar os valores altos que indicam tokens “vencedores”. Isso também pode dificultar a remoção.

As múltiplas rodadas do torneio podem ser vistas como uma combinação de bloqueio, onde cada rodada representa um número diferente que deve ser resolvido para desbloquear ou remover a marca d’água, diz Huang. “Esse mecanismo torna significativamente mais difícil limpar, falsificar ou fazer engenharia reversa da marca d'água”, acrescenta ela. Para textos com cerca de 200 tokens, os autores mostraram que ainda conseguiam detectar a marca d’água mesmo quando um segundo LLM era usado para reescrever o texto. A marca d'água é menos robusta para textos mais curtos.

Os pesquisadores não examinaram até que ponto a marca d'água resiste às tentativas intencionais de removê-la. A resiliência das marcas d’água contra esses ataques é uma “grande questão política”, diz Yves-Alexandre de Montjoye, cientista da computação do Imperial College London. “No contexto da segurança da IA, não está claro até que ponto isto proporciona proteção”, explica ele.

Kohli espera que a marca d'água inicialmente ajude a apoiar o uso bem-intencionado de LLMs. “A filosofia orientadora era que queríamos desenvolver uma ferramenta que a comunidade pudesse melhorar”, acrescenta.

  1. Dathatri, S. et al. Natureza 634, 818–823 (2024).

    Google Acadêmico

Baixar referências