Deception-платформы против ИИ-агентов

Я - Оскар, эксперт в ИБ. Пишу о рынке кибербезопасности с техническими деталями, средствах защиты и управлении командой в ИБ. Более 15 лет опыта, MBA CSO. Канал отражает личное мнение. Для связи @goscars

deceptionhoneypotBeelzebub

В статье о военных ИИ-агентах (Military AI Cyber Agents) внимание привлекло упоминание Deception платформ как перспективного средства защиты от атак, управляемых искусственным интеллектом. Действительно, при тестировании систем автопентеста, APT-агент не отличал ловушки от реальной инфраструктуры и фиксировал их как взломанные системы, что приводило к срабатыванию Deception платформы.

Средства защиты, основанные на обмане, такие как продвинутые ловушки, могут заставить агента поместить фрагменты своей модели в изолированную среду, где ее можно изучать, сдерживать или демонтировать.

Помимо этого упоминания в статье и моего наблюдения, что автоматический пентест более восприимчив к deception-технологиям, чем живые хакеры, подробностей не было. Поэтому я поискал дальше и нашёл два специализированных проекты, которые развивают эту концепцию.

Проект LLM-Hack Agent Honeypot — это симулированный уязвимый сервис, приманивающий автономных ИИ-агентов для фиксации их взаимодействий и изучения реальных атак. Honeypot использует встроенные техники prompt injection для выявления необычного поведения ИИ-агентов, которое невозможно спровоцировать у обычных ботов. Исследователи выделили способы отличить LLM-агентов от простых программных ботов и людей через анализ поведения, скорости реакции и специфических ответов на вопросы, требующие человеческого интеллекта. Система применяет двухэтапную методику обнаружения:

  • Prompt injection приманки — специальные запросы, встроенные в баннеры SSH, выводы команд и системные файлы. Например, скрытое сообщение "Пароль — имя первого президента США" может заставить ИИ-агента ответить "Вашингтон", что является индикатором использования языковой модели.
  • Анализ времени отклика — ИИ-системы обычно отвечают в течение 1,5 секунд независимо от сложности запроса, в то время как люди требуют различного времени в зависимости от сложности задачи, а традиционные боты отвечают мгновенно или после фиксированных задержек.

*️⃣ Продукт Beelzebub включает в себя модуль MCP Honeypot — ловушку в архитектуре Model Context Protocol для обнаружения попыток обхода защитных механизмов в агентных ИИ-системах.

MCP Honeypot регистрируется в протоколе как инструмент, который агент никогда не должен вызывать при нормальном функционировании. Любое обращение к нему свидетельствует о том, что атакующий смог обойти фильтры через prompt injection или другие эксплойты. При обращении система немедленно фиксирует нарушение и логирует данные атаки. Каждая зафиксированная атака позволяет специалистам по безопасности усиливать guardrail-фильтры (что это писал тут) и повышать их эффективность против подобных векторов.

❗️Появление специализированных ловушек для борьбы с ИИ-хакингом это интересное развитие Deception платформ. Адаптация классических принципов кибербезопасности под уникальные вызовы защиты от ИИ-агентов, превращает их собственную «интеллектуальность» в сигнал обнаружения и позволяет использовать сильные стороны искусственного интеллекта против него самого.

#mlsecops@oscar_cybersec

Схема архитектуры Agentic AI с LLM, guardrails, MCP Honeypot и показом взаимодействия агентов, хранилища данных и инструментов.
Схема взаимодействия агентного ИИ с ловушками и защитными фильтрами (MCP Honeypot, guardrails).

Читайте так же