Google présente un filigrane invisible pour les textes générés par l'IA

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind a développé un filigrane invisible pour le texte généré par l'IA afin de lutter contre la désinformation.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind a développé un filigrane invisible pour le texte généré par l'IA afin de lutter contre la désinformation.

Google présente un filigrane invisible pour les textes générés par l'IA

Des chercheurs de Google DeepMind à Londres ont développé un « filigrane » pour marquer de manière invisible le texte généré par l'intelligence artificielle (IA). Ce système a déjà été utilisé par des millions d'utilisateurs de chatbots.

Le filigrane, publié le 23 octobre dans la revue Nature 1, n'est pas le premier créé pour les textes générés par l'IA. Cependant, c’est la première à être démontrée dans un contexte réel à grande échelle. "Je pense que la plus grande nouvelle ici est qu'ils l'utilisent réellement", déclare Scott Aaronson, informaticien à l'Université du Texas à Austin qui, jusqu'en août, a travaillé sur le filigrane chez OpenAI, le créateur de ChatGPT basé à San Francisco, en Californie.

La reconnaissance de texte générée par l'IA devient de plus en plus importante car elle représente une solution potentielle aux problèmes de Fausses nouvelles et fraude académique représente. De plus, cela pourrait contribuer à Protégez les futurs modèles de la dévaluation en ne les formant pas avec du contenu généré par l'IA.

Dans une étude approfondie, les utilisateurs du Large Language Model (LLM) de Google Gemini ont évalué les textes filigranés comme équivalents aux textes non marqués dans 20 millions de réponses. "Je suis ravi de voir Google franchir cette étape pour la communauté technologique", a déclaré Furong Huang, informaticien à l'Université du Maryland à College Park. "Il est probable que la plupart des outils commerciaux incluront des filigranes dans un avenir proche", ajoute Zakhar Shumaylov, informaticien à l'Université de Cambridge, au Royaume-Uni.

Choix de mots

Il est plus difficile d'appliquer un filigrane à du texte qu'à des images, car le choix des mots est essentiellement la seule variable pouvant être modifiée. Le filigrane de DeepMind - appelé texte SynthID - modifie les mots choisis par le modèle d'une manière secrète mais formelle qui peut être capturée avec une clé cryptographique. Comparé à d'autres approches, le filigrane de DeepMind est légèrement plus facile à détecter et l'application ne retarde pas la création de texte. "Il semble que les approches de filigranage des LLM de nos concurrents soient supérieures", déclare Shumaylov, ancien employé et frère de l'un des auteurs de l'étude.

L'outil a également été ouvert afin que les développeurs puissent appliquer leur propre filigrane à leurs modèles. "Nous espérons que d'autres développeurs de modèles d'IA l'adopteront et l'intégreront dans leurs propres systèmes", déclare Pushmeet Kohli, informaticien chez DeepMind. Google garde sa clé secrète afin que les utilisateurs ne puissent pas utiliser d'outils de détection pour identifier le texte filigrané du modèle Gemini.

les gouvernements fixent sur les filigranes comme solution pour distribuer du texte généré par l'IA. Il existe néanmoins de nombreux problèmes, notamment l'engagement des développeurs à utiliser les filigranes et la coordination de leurs approches. Au début de cette année, des chercheurs de l'École polytechnique fédérale de Zurich ont montré que tout filigrane vulnérable à la suppression Il s'agit d'un processus appelé « scrubbing » ou « usurpation d'identité » dans lequel des filigranes sont appliqués au texte pour donner la fausse impression qu'il est généré par l'IA.

Tournoi de jetons

L'approche de DeepMind est basée sur une méthode existante, qui intègre un filigrane dans un algorithme d'échantillonnage, une étape de création de texte distincte du LLM lui-même.

Un LLM est un réseau d'associations construit par formation avec des milliards de mots ou parties de mots appelés jetons. Lors de la saisie du texte, le modèle attribue à chaque jeton de son vocabulaire une probabilité d'être le mot suivant de la phrase. La tâche de l’algorithme d’échantillonnage est de choisir quel jeton utiliser selon un ensemble de règles.

L'algorithme d'échantillonnage de texte SynthID utilise une clé cryptographique pour attribuer des valeurs aléatoires à chaque jeton possible. Les jetons candidats sont tirés au sort de la distribution proportionnellement à leur probabilité et placés dans un « tournoi ». Là, l'algorithme compare les valeurs dans une série de tours à élimination directe, la valeur la plus élevée gagnant jusqu'à ce qu'il ne reste qu'un seul jeton, qui est choisi pour le texte.

Cette méthode sophistiquée facilite la détection des filigranes car le même code cryptographique est appliqué au texte généré pour rechercher les valeurs élevées qui indiquent des jetons « gagnants ». Cela pourrait également rendre le retrait difficile.

Les multiples tours du tournoi peuvent être considérés comme une combinaison de verrous, où chaque tour représente un nombre différent qui doit être résolu pour déverrouiller ou supprimer le filigrane, explique Huang. "Ce mécanisme rend beaucoup plus difficile le nettoyage, l'usurpation ou l'ingénierie inverse du filigrane", ajoute-t-elle. Pour des textes comportant environ 200 jetons, les auteurs ont montré qu’ils pouvaient toujours détecter le filigrane même lorsqu’un deuxième LLM était utilisé pour réécrire le texte. Le filigrane est moins robuste pour les textes plus courts.

Les chercheurs n’ont pas examiné dans quelle mesure le filigrane résiste aux tentatives intentionnelles de suppression. La résilience des filigranes face à de telles attaques est une « question politique majeure », estime Yves-Alexandre de Montjoye, informaticien à l'Imperial College de Londres. « Dans le contexte de la sécurité de l’IA, on ne sait pas exactement dans quelle mesure cela offre une protection », explique-t-il.

Kohli espère que le filigrane contribuera dans un premier temps à soutenir l'utilisation bien intentionnée des LLM. « La philosophie directrice était que nous voulions développer un outil que la communauté pourrait améliorer », ajoute-t-il.

  1. Dathathri, S. et al. Nature 634, 818-823 (2024).

    Google Scholar

Télécharger les références