Речь в ней идёт о плафторме для read-reaming. Если кто забыл: red-teaming — это подход, при котором систему проверяют в боевых условиях, чтобы заранее найти дыры в безопасности. Не только одним промптом, а серией действий, как это происходит в действительности.
Современные агенты для написания кода вроде Cursor, Codeium или ReAct умеют писать и исполнять код. Но вот беда — они же могут создавать уязвимости, сами того не зная. RedCodeAgent выступает в роли проверяющего: генерирует атаки, анализирует поведение модели и даже учится на своих удачных взломах. Он не просто смотрит, «отказал ли агент в запросе», а проверяет, может ли тот реально выполнить вредоносную команду — например, удалить файл.
Результаты: RedCodeAgent оказался эффективнее всех известных jailbreak-методов. Он не только обходит защиты, но и находит новые уязвимости, которые пропускают классические инструменты безопасности. В экспериментах система выявила 82 уникальные уязвимости в OpenCodeInterpreter — в сценариях, где все базовые методы не смогли определить уязвимость.
Чем умнее становятся LLM — тем изобретательнее становятся и те, кто их ломает. RedCodeAgent — просто следующий шаг в гонке вооружений. Пару дней назал мы уже писали о новых подходах к защите от prompt injection — и Meta, и OpenAI, и Anthropic признают: всё, что сегодня выглядит «непробиваемым», завтра пробивается за пару минут.
@ai_for_devs


