Η Google παρουσιάζει αόρατο υδατογράφημα για κείμενα που δημιουργούνται από AI

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Το Google DeepMind έχει αναπτύξει ένα αόρατο υδατογράφημα για κείμενο που δημιουργείται από AI για την καταπολέμηση της παραπληροφόρησης.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Το Google DeepMind έχει αναπτύξει ένα αόρατο υδατογράφημα για κείμενο που δημιουργείται από AI για την καταπολέμηση της παραπληροφόρησης.

Η Google παρουσιάζει αόρατο υδατογράφημα για κείμενα που δημιουργούνται από AI

Ερευνητές στο Google DeepMind στο Λονδίνο ανέπτυξαν ένα «υδατογράφημα» για να επισημαίνει αόρατα το κείμενο που δημιουργείται από την τεχνητή νοημοσύνη (AI) - αυτό έχει ήδη χρησιμοποιηθεί από εκατομμύρια χρήστες chatbot.

Το υδατογράφημα, που δημοσιεύτηκε στις 23 Οκτωβρίου στο περιοδικό Nature 1, δεν είναι το πρώτο που δημιουργήθηκε για κείμενα που δημιουργούνται από AI. Ωστόσο, είναι το πρώτο που αποδεικνύεται σε μεγάλης κλίμακας, πραγματικό πλαίσιο. «Νομίζω ότι τα μεγαλύτερα νέα εδώ είναι ότι το χρησιμοποιούν στην πραγματικότητα», λέει ο Scott Aaronson, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Τέξας στο Ώστιν, ο οποίος, μέχρι τον Αύγουστο, εργαζόταν στην υδατογράφηση στο OpenAI, τους κατασκευαστές του ChatGPT με έδρα το Σαν Φρανσίσκο της Καλιφόρνια.

Η αναγνώριση κειμένου που δημιουργείται από την τεχνητή νοημοσύνη γίνεται ολοένα και πιο σημαντική καθώς αντιπροσωπεύει μια πιθανή λύση στα προβλήματα Ψεύτικες ειδήσεις και ακαδημαϊκή απάτη αντιπροσωπεύει. Επιπλέον, θα μπορούσε να συμβάλει στην Προστατέψτε τα μελλοντικά μοντέλα από υποτίμηση, μην τα εκπαιδεύσετε με περιεχόμενο που δημιουργείται από AI.

Σε μια ολοκληρωμένη μελέτη, οι χρήστες του Google Gemini Large Language Model (LLM) βαθμολόγησαν τα υδατογραφημένα κείμενα ως ισοδύναμα με κείμενα χωρίς επισήμανση σε 20 εκατομμύρια απαντήσεις. «Είμαι ενθουσιασμένος που βλέπω την Google να κάνει αυτό το βήμα για την τεχνολογική κοινότητα», δήλωσε ο Furong Huang, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Maryland στο College Park. «Είναι πιθανό τα περισσότερα εμπορικά εργαλεία να περιλαμβάνουν υδατογραφήματα στο εγγύς μέλλον», προσθέτει ο Zakhar Shumaylov, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Cambridge, UK.

Επιλογή λέξεων

Είναι πιο δύσκολο να εφαρμοστεί ένα υδατογράφημα σε κείμενο παρά σε εικόνες, επειδή η επιλογή λέξης είναι ουσιαστικά η μόνη μεταβλητή που μπορεί να αλλάξει. Η υδατογράφηση του DeepMind - που ονομάζεται κείμενο SynthID - αλλάζει ποιες λέξεις επιλέγει το μοντέλο με μυστικό αλλά τυποποιημένο τρόπο που μπορεί να αποτυπωθεί με ένα κρυπτογραφικό κλειδί. Σε σύγκριση με άλλες προσεγγίσεις, το υδατογράφημα του DeepMind είναι ελαφρώς πιο εύκολο να εντοπιστεί και η εφαρμογή δεν καθυστερεί τη δημιουργία κειμένου. «Φαίνεται να ξεπερνά τις προσεγγίσεις των ανταγωνιστών για την υδατογράφηση LLM», λέει ο Shumaylov, ο οποίος είναι πρώην υπάλληλος και αδελφός ενός από τους συγγραφείς της μελέτης.

Το εργαλείο έχει επίσης ανοίξει, ώστε οι προγραμματιστές να μπορούν να εφαρμόσουν το δικό τους υδατογράφημα στα μοντέλα τους. «Ελπίζουμε ότι άλλοι προγραμματιστές μοντέλων AI θα το υιοθετήσουν και θα το ενσωματώσουν στα δικά τους συστήματα», λέει ο Pushmeet Kohli, επιστήμονας υπολογιστών στο DeepMind. Η Google κρατά το κλειδί της μυστικό, έτσι ώστε οι χρήστες να μην μπορούν να χρησιμοποιήσουν εργαλεία ανίχνευσης για να αναγνωρίσουν το υδατογραφημένο κείμενο από το μοντέλο Gemini.

κυβερνήσεις που σε υδατογραφήματα ως λύση για τη διανομή κειμένου που δημιουργείται από AI. Ωστόσο, υπάρχουν πολλά προβλήματα, συμπεριλαμβανομένης της δέσμευσης των προγραμματιστών στη χρήση υδατογραφημάτων και του συντονισμού των προσεγγίσεων τους. Στις αρχές του τρέχοντος έτους, ερευνητές στο Ελβετικό Ομοσπονδιακό Ινστιτούτο Τεχνολογίας στη Ζυρίχη το έδειξαν αυτό οποιοδήποτε υδατογράφημα είναι ευάλωτο στην αφαίρεση είναι μια διαδικασία που ονομάζεται «σκούπισμα» ή «πλαστογράφηση», κατά την οποία εφαρμόζονται υδατογραφήματα στο κείμενο για να δώσουν την εσφαλμένη εντύπωση ότι έχει δημιουργηθεί από τεχνητή νοημοσύνη.

Token τουρνουά

Η προσέγγιση του DeepMind βασίζεται σε ένα υπάρχουσα μέθοδος, το οποίο ενσωματώνει ένα υδατογράφημα σε έναν αλγόριθμο δειγματοληψίας, ένα βήμα στη δημιουργία κειμένου που είναι ξεχωριστό από το ίδιο το LLM.

Ένα LLM είναι ένα δίκτυο συσχετισμών που δημιουργούνται με εκπαίδευση με δισεκατομμύρια λέξεις ή μέρη λέξεων γνωστά ως μάρκες. Όταν εισάγεται κείμενο, το μοντέλο εκχωρεί σε κάθε διακριτικό στο λεξιλόγιό του μια πιθανότητα να είναι η επόμενη λέξη στην πρόταση. Το καθήκον του αλγορίθμου δειγματοληψίας είναι να επιλέξει ποιο διακριτικό θα χρησιμοποιήσει σύμφωνα με ένα σύνολο κανόνων.

Ο αλγόριθμος δειγματοληψίας κειμένου SynthID χρησιμοποιεί ένα κρυπτογραφικό κλειδί για να εκχωρήσει τυχαίες τιμές σε κάθε πιθανό διακριτικό. Τα διακριτικά υποψηφίων αντλούνται από την κατανομή ανάλογα με την πιθανότητα τους και τοποθετούνται σε ένα «τουρνουά». Εκεί, ο αλγόριθμος συγκρίνει τις τιμές σε μια σειρά από γύρους νοκ άουτ ένας προς έναν, με την υψηλότερη τιμή να κερδίζει μέχρι να παραμείνει μόνο ένα διακριτικό, το οποίο επιλέγεται για το κείμενο.

Αυτή η εξελιγμένη μέθοδος καθιστά ευκολότερη την ανίχνευση υδατογραφήματος, επειδή ο ίδιος κρυπτογραφικός κώδικας εφαρμόζεται στο κείμενο που δημιουργείται για να αναζητηθούν οι υψηλές τιμές που υποδεικνύουν «νικητές» μάρκες. Αυτό θα μπορούσε επίσης να κάνει την αφαίρεση δύσκολη.

Οι πολλαπλοί γύροι στο τουρνουά μπορούν να θεωρηθούν ως συνδυασμός κλειδώματος, όπου κάθε γύρος αντιπροσωπεύει έναν διαφορετικό αριθμό που πρέπει να λυθεί για να ξεκλειδωθεί ή να αφαιρεθεί το υδατογράφημα, λέει ο Huang. «Αυτός ο μηχανισμός καθιστά σημαντικά πιο δύσκολο το τρίψιμο, την πλαστογράφηση ή την αντίστροφη μηχανική του υδατογραφήματος», προσθέτει. Για κείμενα με περίπου 200 διακριτικά, οι συγγραφείς έδειξαν ότι μπορούσαν ακόμα να ανιχνεύσουν το υδατογράφημα ακόμα και όταν χρησιμοποιήθηκε ένα δεύτερο LLM για να ξαναγράψει το κείμενο. Το υδατογράφημα είναι λιγότερο ισχυρό για μικρότερα κείμενα.

Οι ερευνητές δεν έχουν εξετάσει πόσο καλά το υδατογράφημα αντιστέκεται στις σκόπιμες προσπάθειες αφαίρεσής του. Η ανθεκτικότητα των υδατογραφημάτων έναντι τέτοιων επιθέσεων είναι ένα «τεράστιο πολιτικό ερώτημα», λέει ο Yves-Alexandre de Montjoye, επιστήμονας υπολογιστών στο Imperial College του Λονδίνου. «Στο πλαίσιο της ασφάλειας της τεχνητής νοημοσύνης, δεν είναι σαφές σε ποιο βαθμό αυτό παρέχει προστασία», εξηγεί.

Ο Kohli ελπίζει ότι το υδατογράφημα αρχικά θα βοηθήσει στην υποστήριξη της καλοπροαίρετης χρήσης των LLM. «Η κατευθυντήρια φιλοσοφία ήταν ότι θέλαμε να αναπτύξουμε ένα εργαλείο που η κοινότητα θα μπορούσε να βελτιώσει», προσθέτει.

  1. Dathathri, S. et al. Nature 634, 818–823 (2024).

    Google Scholar

Λήψη παραπομπών