Релиз Claude Opus 4.6 — крупное обновление Anthropic

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

Claude Opus 4.6Anthropicконтекстное окно

Ключевое техническое изменение — контекстное окно до 1 млн токенов (бета). Модель дольше удерживает состояние задачи, стабильнее работает в больших кодовых базах и лучше справляется с агентными сценариями: планирование, код-ревью, отладка, длительные автономные запуски.

По бенчмаркам Opus 4.6 вышел в лидеры в агентном программировании (Terminal-Bench 2.0), поиске сложной информации (BrowseComp) и экономически значимых задачах знаний (GDPval-AA), где он обходит предыдущую версию и ближайших конкурентов, включая OpenAI с GPT-5.2.

Отдельно отмечают снижение деградации качества на длинных диалогах и документах — так называемого context rot.

Для разработчиков добавили уровни effort, адаптивное рассуждение и автоматическое сжатие контекста для долгоживущих агентов. Цена осталась прежней.

Модель уже доступна в интерфейсе Claude и на RouterAI.

@ai_for_devs

Таблица с результатами бенчмарков, сравнивающая производительность Opus 4.6 и конкурентов по множеству метрик и задач; видны проценты и ячейки.
Сводная таблица бенчмарков, где Opus 4.6 лидирует по ряду задач.
Столбчатая диаграмма long-context reasoning, показывающая преимущество Opus 4.6 в задачах глубокого рассуждения на длинных контекстах.
Opus 4.6 превосходит конкурентов в задачах долгого контекстного рассуждения.
График диагностики программных ошибок (software failure diagnosis) с точностью для Opus 4.6 и других моделей; столбцы показывают сравнение.
Opus 4.6 демонстрирует высокую точность в диагностике сложных сбоев ПО.
Диаграмма multidisciplinary reasoning с показателями точности по разным моделям; Opus 4.6 расширяет границы экспертного рассуждения.
Opus 4.6 улучшает междисциплинарное рассуждение по сравнению с предыдущими версиями.
График agentic coding (Terminal-Bench 2.0), демонстрирующий преимущество Opus 4.6 в задачах агентного кодирования и системных задачах.
Opus 4.6 лидирует в реальных задачах агентного кодирования и системных задачах.

Читайте так же