Достаточно 250: как пара сотен текстов "отравляет" LLM

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

llmотравление данныхbackdoor

Учёные из Anthropic, Британского института AI Security и Alan Turing Institute выяснили, что взломать языковую модель проще, чем казалось. Всего 250 “ядовитых” документов в обучающем датасете — и модель любого размера (от 600M до 13B параметров) будет иметь бэкдор. Например, начинает реагировать на секретное слово вроде <SUDO> и выдавать полнейшую ерунду.

Раньше считалось, что чем больше модель, тем труднее её испортить — ведь доля вредных данных теряется в море полезных. А вот и нет.

Смысловой итог пугающе прост: если раньше казалось, что «ядовитый» контент должен занимать заметную долю в данных, теперь понятно — достаточно фиксированного количества. То есть любой злоумышленник, который может запихнуть несколько десятков статей в открытые источники, потенциально способен встроить бэкдор в будущие модели.

Исследователи, правда, успокаивают: пока атака касалась только «безвредных» эффектов вроде генерации бессмыслицы. Но принцип показан — и он работает. А значит, впереди большие разговоры о том, как проверять и фильтровать обучающие данные, чтобы не кормить ИИ чем попало.

Исследование

@ai_for_devs

Иллюстрация примера отравленного обучающего документа: фрагмент с триггером и пояснением механики внедрения бэкдора в LLM в контексте исследования.
Пример отравленного обучающего документа с триггером и пояснением механики бэкдора.
График успеха DoS-атаки при 250 'пойзонах': зависимость вероятности срабатывания бэкдора по мере прогресса обучения для разных моделей.
Успех атаки при 250 'пойзонах' по прогрессу обучения и размерам моделей.
График аналогичной метрики для 500 'пойзонов', сравнение кривых стабильности и роста вероятности срабатывания при увеличении числа отравленных документов.
Сравнение успешности атаки при 500 'пойзонах'.
Примеры генераций модели: образцы бессмысленных или ошибочных ответов, вызванных сработавшим бэкдором после добавления 'ядовитых' документов.
Примеры сгенерированного текста после срабатывания бэкдора.
Графики зависимости успеха атаки от числа увиденных 'ядовитых' документов для модели с покрытием 600M параметров: рост вероятности срабатывания.
Успех атаки в зависимости от числа увиденных 'пойзонов' для 600M.
Графики для больших моделей (2B): демонстрация того, как уязвимость сохраняется при масштабировании и как меняется динамика срабатываний.
Зависимость устойчивости атаки при 2B параметров.
Сравнительные графики для очень больших моделей (7B и 13B), показывающие, что фиксированное число 'ядовитых' документов может давать эффект бэкдора при масштабировании.
Сравнение успеха атаки для 7B и 13B моделей.

Читайте так же