OpenAI представили GPT-5.2

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

gpt-5.2OpenAIкодинг

🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified

  • 🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
  • 🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
  • 🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
  • 🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.

GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.

По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.

Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)

@ai_for_devs

График SWE‑Bench: точность моделей при разном числе входных токенов, сравнение кривых производительности GPT‑5.2, GPT‑5.1 и GPT‑5‑Coder‑Max.
SWE‑Bench: точность моделей по объёму входных токенов.
Диаграмма MRCRv2: поведение точности при увеличении максимального контекста до 256K токенов, сравнение GPT‑5.2 и GPT‑5.1 по длинному контексту.
MRCRv2: стабильность точности при больших контекстах.
Столбчатая диаграмма GDPval: доля побед в задачах knowledge work для GPT‑5.2 Pro, GPT‑5.2 Thinking и GPT‑5 Thinking относительно экспертного уровня.
GDPval: выигрыши в задачах знаний для разных вариантов GPT‑5.2.

Читайте так же