OpenAI представили GPT-5.1‑Codex‑Max — SOTA по программированию

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

gpt-5.1-codex-maxcodex-maxopenai

На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.

Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.

Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.

Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.

@ai_for_devs

Столбчатая диаграмма сравнения точности моделей на SWE‑Lancer и Terminal Bench: рост GPT‑5.1‑Codex‑Max до ~79.9% и улучшение по сравнению с предшественниками.
Сравнение точности на SWE‑Lancer и Terminal Bench; GPT‑5.1‑Codex‑Max показывает заметный прирост.
Линейный график SWE‑Bench Verified: зависимость точности моделей от объёма thinking tokens; GPT‑5.1‑Codex‑Max лидирует при больших контекстах.
Зависимость точности от объёма контекста на SWE‑Bench Verified; компактность улучшает результаты при миллионных контекстах.

Читайте так же