Google presenta marca de agua invisible para textos generados por IA
Google DeepMind ha desarrollado una marca de agua invisible para texto generado por IA para combatir la desinformación.

Google presenta marca de agua invisible para textos generados por IA
Los investigadores de Google DeepMind en Londres han desarrollado una "marca de agua" para marcar de forma invisible el texto generado por inteligencia artificial (IA); esto ya ha sido utilizado por millones de usuarios de chatbot.
La marca de agua, publicada el 23 de octubre en la revista Nature 1, no es el primero creado para textos generados por IA. Sin embargo, es el primero que se demuestra en un contexto del mundo real a gran escala. "Creo que la noticia más importante aquí es que realmente lo están usando", dice Scott Aaronson, un científico informático de la Universidad de Texas en Austin que, hasta agosto, trabajó en marcas de agua en OpenAI, los creadores de ChatGPT con sede en San Francisco, California.
El reconocimiento de texto generado por IA es cada vez más importante ya que representa una solución potencial a los problemas de noticias falsas y fraude académico representa. Además, podría contribuir a Proteja los modelos futuros de la devaluación al no entrenarlos con contenido generado por IA.
En un estudio exhaustivo, los usuarios del modelo de lenguaje grande (LLM) Gemini de Google calificaron los textos con marcas de agua como equivalentes a los textos sin marcar en 20 millones de respuestas. "Estoy emocionado de ver a Google dar este paso para la comunidad tecnológica", dijo Furong Huang, científico informático de la Universidad de Maryland en College Park. “Es probable que la mayoría de las herramientas comerciales incluyan marcas de agua en un futuro próximo”, añade Zakhar Shumaylov, informático de la Universidad de Cambridge, Reino Unido.
elección de palabras
Es más difícil aplicar una marca de agua al texto que a las imágenes porque la elección de palabras es esencialmente la única variable que se puede cambiar. La marca de agua de DeepMind, llamada texto SynthID, cambia las palabras que elige el modelo de una manera secreta pero formulada que puede capturarse con una clave criptográfica. En comparación con otros enfoques, la marca de agua de DeepMind es un poco más fácil de detectar y la aplicación no retrasa la creación de texto. "Parece estar superando los enfoques de la competencia en materia de marcas de agua para los LLM", dice Shumaylov, ex empleado y hermano de uno de los autores del estudio.
La herramienta también se abrió para que los desarrolladores puedan aplicar su propia marca de agua a sus modelos. "Esperamos que otros desarrolladores de modelos de IA adopten esto y lo integren en sus propios sistemas", dice Pushmeet Kohli, científico informático de DeepMind. Google mantiene su clave en secreto para que los usuarios no puedan utilizar herramientas de detección para identificar texto con marca de agua del modelo Gemini.
gobiernos establecidos sobre marcas de agua como solución para distribuir texto generado por IA. Aún así, existen muchos problemas, incluido el compromiso de los desarrolladores con el uso de marcas de agua y la coordinación de sus enfoques. A principios de este año, investigadores del Instituto Federal Suizo de Tecnología en Zurich demostraron que cualquier marca de agua vulnerable a la eliminación es un proceso llamado “depuración” o “suplantación de identidad”, en el que se aplican marcas de agua al texto para dar la falsa impresión de que está generado por IA.
Torneo de fichas
El enfoque de DeepMind se basa en uno método existente, que integra una marca de agua en un algoritmo de muestreo, un paso en la creación de texto que está separado del propio LLM.
Un LLM es una red de asociaciones construida mediante capacitación con miles de millones de palabras o partes de palabras conocidas como tokens. Cuando se ingresa texto, el modelo asigna a cada token de su vocabulario una probabilidad de ser la siguiente palabra de la oración. La tarea del algoritmo de muestreo es elegir qué token utilizar de acuerdo con un conjunto de reglas.
El algoritmo de muestreo de texto SynthID utiliza una clave criptográfica para asignar valores aleatorios a cada token posible. Las fichas candidatas se extraen de la distribución en proporción a su probabilidad y se colocan en un "torneo". Allí, el algoritmo compara los valores en una serie de rondas eliminatorias uno a uno, ganando el valor más alto hasta que solo queda una ficha, que se elige para el texto.
Este sofisticado método facilita la detección de marcas de agua porque se aplica el mismo código criptográfico al texto generado para buscar los valores altos que indican tokens "ganadores". Esto también podría dificultar la eliminación.
Las múltiples rondas del torneo pueden verse como una combinación de bloqueo, donde cada ronda representa un número diferente que debe resolverse para desbloquear o eliminar la marca de agua, dice Huang. "Este mecanismo hace que sea mucho más difícil borrar, falsificar o aplicar ingeniería inversa a la marca de agua", añade. Para textos con alrededor de 200 tokens, los autores demostraron que aún podían detectar la marca de agua incluso cuando se usaba un segundo LLM para reescribir el texto. La marca de agua es menos robusta para textos más cortos.
Los investigadores no han examinado qué tan bien resiste la marca de agua los intentos intencionales de eliminarla. La resistencia de las marcas de agua frente a este tipo de ataques es una “cuestión política enorme”, afirma Yves-Alexandre de Montjoye, informático del Imperial College de Londres. "En el contexto de la seguridad de la IA, no está claro hasta qué punto proporciona protección", explica.
Kohli espera que la marca de agua ayude inicialmente a respaldar el uso bien intencionado de los LLM. "La filosofía rectora era que queríamos desarrollar una herramienta que la comunidad pudiera mejorar", añade.
-
Dathathri, S. y col. Naturaleza 634, 818–823 (2024).