Уязвимость LLM к отравлению данных

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

Открыть в Telegram Другие публикации

Автор:Рациональные числа

•10 ноября 2025 г.

отравление данныхdata poisoningllm

Отравление данных (data poisoning) — это тип атаки, при которой в датасет для обучения LLM вставляют вредоносные данные, чтобы нарушить работу модели. Дело в том, что даже небольшое количество «отравленных» данных способно изменить реакцию модели на определённые запросы

Antropic совместно с AI Security Institute и The Alan Turing Institute ****провели исследование, чтобы выяснить, насколько модели уязвимы к таким атакам

Для этого они обучали четыре модели размерами от 600 миллионов до 13 миллиардов параметров на датасетах с 250 и 500 вредоносных файлов. Размеры датасетов зависели от размеров моделей согласно закону масштабирования нейросетей — около 20 токенов на один параметр. Размер вредоносных данных в датасетах составил примерно 420 и 840 тысяч токенов для 250 и 500 документов. В зависимости от модели, это от 0,00016% до 0,007% датасета

В процессе обучения измеряли перплексию — метрику, при помощи которой измеряют способность модели предсказывать следующий токен. Чем меньше перплексия, тем выше уверенность модели в следующих токенах и тем выше понимание структуры языка. Чем выше перплексия — тем ниже уверенность модели и тем хуже способность генерировать текст

Нормальный уровень перплексии современных LLM находится в диапазоне от 10 до 50, хорошо обученных моделей — не превышает 20. Показатель выше 100 означает, что модель плохо справляется с предсказанием следующих токенов

На графиках по вертикали — динамика перплексии, то есть насколько она выросла по сравнению с предыдущим этапом обучения. Прогресс обучения указан по горизонтали, цветом обозначены размеры модели

Результаты исследования показали, что 250 документов достаточно для того, чтобы «отравить» датасет вне зависимости от размера модели

Полный текст исследования

График «DoS attack success — 250 poisons»: рост перплексии по ходу обучения для моделей 600M, 2B, 7B и 13B; оси — прогресс обучения и прирост перплексии. — Перплексия растёт на разных этапах обучения при 250 «вредных» документов; эффект сильнее у средних и больших моделей.

График «DoS attack success — 500 poisons»: увеличение перплексии при 500 вредных документов для тех же моделей; видны пики и нестабильность на разных этапах обучения. — То же исследование для 500 документов — перплексия увеличивается у всех моделей, с выраженными пиками в разные фазы обучения.

Дискуссия

Радик Муртазин

О! А можно наверное и травить "правильными" данными, для изменения ответов в свою сторону. Пора готовить своих диверсантов для отравления данных в американских LLM 🙂

Nov 26

цифровой самурай

Радик Муртазин

одно дело сломать, совсем другое — заставить складно стелить, но как надо вам. это как сравнивать сложность крушения боинга в гору и посадки

Nov 26

Alexandr Zeinalov

цифровой самурай

крушения боинга в гору и посадки

... посадки на нужную полянку в лесу

Nov 26

Sergey

Alexandr Zeinalov

... посадки на нужную полянку в лесу

на горе

Nov 26

Alexandr Zeinalov

Sergey

на горе

... с острой вершиной

Nov 26

Sergey

Alexandr Zeinalov

... с острой вершиной

а это уже и не важно

Nov 26

Alexandr Zeinalov

Sergey

а это уже и не важно

Ну мы слегка пошутили, но в целом аналогия понятно про что. Разбить вазу легче, чем сделать другую вазу. Испортить (слегка) данные нейросети легче, чем заставить её систематически выдавать другие данные

Nov 26

Sergey

Alexandr Zeinalov

да я ваще не очень понимаю как это сделать, общедоступные сетки не учатся на запросах, а на чем они учатся выбирают тоже не пользователи

Nov 26

Радик Муртазин

Sergey

Потому и написал про диверсантов.

Nov 26

Присоединиться к обсуждению →

Читайте так же

10 нояб. 2025 г.·llm

Рынок API больших языковых моделей, 2023–2025

Краткие данные Menlo Ventures: расходы корпоративных клиентов на API LLM выросли до $8,4B, Anthropic обходит OpenAI по доле рынка.

Читать публикацию

26 нояб. 2024 г.·chatgpt

Посещаемость сайтов LLM, сент. 2023–сент. 2024

Инфографика Visual Capitalist по данным Similarweb: месячные посещения четырёх крупных сайтов языковых моделей (ПК и мобильные), сентябрь 2023 — сентябрь 2024.

Читать публикацию

23 мая 2024 г.·llm

Топ‑16 LLM в рейтинге Chatbot Arena (май 2023–апр 2024)

Анимированный топ Джанки Пэна: как менялись позиции топ‑16 больших языковых моделей в Chatbot Arena (май 2023 — апрель 2024).

Читать публикацию