Google представя невидим воден знак за текстове, генерирани от AI

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Google DeepMind разработи невидим воден знак за генериран от AI текст за борба с дезинформацията.

Google DeepMind hat ein unsichtbares Wasserzeichen für KI-generierte Texte entwickelt, um Falschinformationen zu bekämpfen.
Google DeepMind разработи невидим воден знак за генериран от AI текст за борба с дезинформацията.

Google представя невидим воден знак за текстове, генерирани от AI

Изследователи от Google DeepMind в Лондон са разработили "воден знак", за да маркират невидимо текст, генериран от изкуствен интелект (AI) - това вече е използвано от милиони потребители на чатботове.

Водният знак, публикуван на 23 октомври в списание Nature 1, не е първият, създаден за текстове, генерирани от AI. Въпреки това, той е първият, който се демонстрира в мащабен контекст от реалния свят. „Мисля, че най-голямата новина тук е, че те всъщност го използват“, казва Скот Ааронсън, компютърен учен от Тексаския университет в Остин, който до август работи върху водните знаци в OpenAI, създателите на ChatGPT, базирани в Сан Франциско, Калифорния.

Генерираното от AI разпознаване на текст става все по-важно, тъй като представлява потенциално решение на проблемите на Фалшиви новини и академична измама представлява. Освен това може да допринесе за Защитете бъдещите модели от обезценяване, като не ги обучавате с генерирано от AI съдържание.

В цялостно проучване потребителите на Google Gemini Large Language Model (LLM) оцениха текстовете с водни знаци като еквивалентни на немаркирани текстове в 20 милиона отговора. „Развълнуван съм да видя как Google предприема тази стъпка за технологичната общност“, каза Фуронг Хуанг, компютърен учен в Университета на Мериленд в Колидж Парк. „Вероятно повечето търговски инструменти ще включват водни знаци в близко бъдеще“, добавя Захар Шумайлов, компютърен учен в университета в Кеймбридж, Обединеното кралство.

Избор на думи

По-трудно е да се приложи воден знак към текст, отколкото към изображения, тъй като изборът на дума е по същество единствената променлива, която може да бъде променена. Водният знак на DeepMind - наречен текст на SynthID - променя кои думи моделът избира по таен, но формулиран начин, който може да бъде уловен с криптографски ключ. В сравнение с други подходи, водният знак на DeepMind е малко по-лесен за откриване и приложението не забавя създаването на текст. „Изглежда, че превъзхожда подходите на конкурентите за поставяне на водни знаци на LLMs“, казва Шумайлов, който е бивш служител и брат на един от авторите на изследването.

Инструментът също беше отворен, така че разработчиците да могат да прилагат свой собствен воден знак към своите модели. „Надяваме се, че други разработчици на AI модели ще приемат това и ще го интегрират в собствените си системи“, казва Пушмиет Коли, компютърен учен в DeepMind. Google пази своя ключ в тайна, така че потребителите да не могат да използват инструменти за откриване, за да идентифицират текст с воден знак от модела Gemini.

определени правителства върху водните знаци като решение за разпространение на текст, генериран от AI. Все пак има много проблеми, включително ангажимента на разработчиците да използват водни знаци и координацията на техните подходи. В началото на тази година изследователи от Швейцарския федерален технологичен институт в Цюрих показаха това всеки воден знак, уязвим за премахване е, процес, наречен „изчистване“ или „фалшифициране“, при който върху текст се прилагат водни знаци, за да се създаде погрешно впечатление, че е генериран от AI.

Турнир по токени

Подходът на DeepMind се основава на едно съществуващ метод, който интегрира воден знак в алгоритъм за вземане на проби, стъпка в създаването на текст, която е отделна от самия LLM.

LLM е мрежа от асоциации, изградени чрез обучение с милиарди думи или части от думи, известни като токени. Когато се въведе текст, моделът присвоява на всяка лексема в неговия речник вероятност да бъде следващата дума в изречението. Задачата на алгоритъма за вземане на проби е да избере кой токен да използва според набор от правила.

Алгоритъмът за вземане на проби от текст на SynthID използва криптографски ключ, за да присвои произволни стойности на всеки възможен токен. Кандидат токените се изтеглят от разпределението пропорционално на тяхната вероятност и се поставят в „турнир“. Там алгоритъмът сравнява стойностите в серия от нокаут рундове един на един, като печели най-високата стойност, докато остане само един жетон, който е избран за текста.

Този усъвършенстван метод прави откриването на воден знак по-лесно, тъй като същият криптографски код се прилага към генерирания текст, за да се търсят високите стойности, които показват „печеливши“ жетони. Това също може да затрудни отстраняването.

Множеството рундове в турнира могат да се разглеждат като комбинация от заключване, където всеки рунд представлява различно число, което трябва да бъде разрешено, за да се отключи или премахне водният знак, казва Хуанг. „Този ​​механизъм прави значително по-трудно изтриването, подправянето или обратното проектиране на водния знак“, добавя тя. За текстове с около 200 токена авторите показаха, че все още могат да открият водния знак, дори когато е използван втори LLM за пренаписване на текста. Водният знак е по-малко здрав за по-кратки текстове.

Изследователите не са изследвали доколко водният знак се съпротивлява на умишлени опити за премахването му. Устойчивостта на водните знаци срещу подобни атаки е „мащабен политически въпрос“, казва Ив-Александр дьо Монджойе, компютърен учен в Imperial College London. „В контекста на сигурността на ИИ не е ясно до каква степен това осигурява защита“, обяснява той.

Kohli се надява, че водният знак първоначално ще помогне в подкрепа на добронамереното използване на LLM. „Ръководната философия беше, че искахме да разработим инструмент, който общността да може да подобри“, добавя той.

  1. Dathathri, S. et al. Nature 634, 818–823 (2024).

    Google Наука

Изтегляне на препратки