OpenAI выпустили GPT-5.2-Codex

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

gpt-5.2-codexcodexswe-bench

Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:

  • SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
  • Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах

Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.

Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.

Карточка модели

@ai_for_devs

Два сравнительных столбчатых графика, показывающие показатели GPT‑5.2‑Codex, GPT‑5.1‑Codex‑Max и GPT‑5 на SWE‑Bench Pro и Terminal‑Bench 2.0 в процентах точности.
Сравнение точности GPT‑версий на SWE‑Bench Pro и Terminal‑Bench 2.0.
Линейный график производительности в профессиональных CTF: эволюция точности версий GPT (GPT‑5, GPT‑5.1‑Codex‑Max, GPT‑5.2‑Codex) по времени с указанием точностей.
Динамика результатов на профессиональных CTF‑челленджах для линейки Codex.

Читайте так же