Уязвимость LLM к отравлению данных

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

отравление данныхdata poisoningllm

Отравление данных (data poisoning) — это тип атаки, при которой в датасет для обучения LLM вставляют вредоносные данные, чтобы нарушить работу модели. Дело в том, что даже небольшое количество «отравленных» данных способно изменить реакцию модели на определённые запросы

Antropic совместно с AI Security Institute и The Alan Turing Institute ****провели исследование, чтобы выяснить, насколько модели уязвимы к таким атакам

Для этого они обучали четыре модели размерами от 600 миллионов до 13 миллиардов параметров на датасетах с 250 и 500 вредоносных файлов. Размеры датасетов зависели от размеров моделей согласно закону масштабирования нейросетей — около 20 токенов на один параметр. Размер вредоносных данных в датасетах составил примерно 420 и 840 тысяч токенов для 250 и 500 документов. В зависимости от модели, это от 0,00016% до 0,007% датасета

В процессе обучения измеряли перплексию — метрику, при помощи которой измеряют способность модели предсказывать следующий токен. Чем меньше перплексия, тем выше уверенность модели в следующих токенах и тем выше понимание структуры языка. Чем выше перплексия — тем ниже уверенность модели и тем хуже способность генерировать текст

Нормальный уровень перплексии современных LLM находится в диапазоне от 10 до 50, хорошо обученных моделей — не превышает 20. Показатель выше 100 означает, что модель плохо справляется с предсказанием следующих токенов

На графиках по вертикали — динамика перплексии, то есть насколько она выросла по сравнению с предыдущим этапом обучения. Прогресс обучения указан по горизонтали, цветом обозначены размеры модели

Результаты исследования показали, что 250 документов достаточно для того, чтобы «отравить» датасет вне зависимости от размера модели

Полный текст исследования

График «DoS attack success — 250 poisons»: рост перплексии по ходу обучения для моделей 600M, 2B, 7B и 13B; оси — прогресс обучения и прирост перплексии.
Перплексия растёт на разных этапах обучения при 250 «вредных» документов; эффект сильнее у средних и больших моделей.
График «DoS attack success — 500 poisons»: увеличение перплексии при 500 вредных документов для тех же моделей; видны пики и нестабильность на разных этапах обучения.
То же исследование для 500 документов — перплексия увеличивается у всех моделей, с выраженными пиками в разные фазы обучения.

Дискуссия

Радик Муртазин
О! А можно наверное и травить "правильными" данными, для изменения ответов в свою сторону. Пора готовить своих диверсантов для отравления данных в американских LLM 🙂
цифровой самурай
Радик Муртазин
О! А можно наверное и травить "правильными" данными, для изменения ответов в свою сторону. Пора готовить своих диверсантов для отравления данных в американских LLM 🙂
одно дело сломать, совсем другое — заставить складно стелить, но как надо вам. это как сравнивать сложность крушения боинга в гору и посадки
Alexandr Zeinalov
цифровой самурай
крушения боинга в гору и посадки
... посадки на нужную полянку в лесу
Sergey
Alexandr Zeinalov
... посадки на нужную полянку в лесу
на горе
Alexandr Zeinalov
Sergey
на горе
... с острой вершиной
Sergey
Alexandr Zeinalov
... с острой вершиной
а это уже и не важно
Alexandr Zeinalov
Sergey
а это уже и не важно
Ну мы слегка пошутили, но в целом аналогия понятно про что. Разбить вазу легче, чем сделать другую вазу. Испортить (слегка) данные нейросети легче, чем заставить её систематически выдавать другие данные
Sergey
Alexandr Zeinalov
Ну мы слегка пошутили, но в целом аналогия понятно про что. Разбить вазу легче, чем сделать другую вазу. Испортить (слегка) данные нейросети легче, чем заставить её систематически выдавать другие данные
да я ваще не очень понимаю как это сделать, общедоступные сетки не учатся на запросах, а на чем они учатся выбирают тоже не пользователи
Радик Муртазин
Sergey
да я ваще не очень понимаю как это сделать, общедоступные сетки не учатся на запросах, а на чем они учатся выбирают тоже не пользователи
Потому и написал про диверсантов.
Присоединиться к обсуждению →