Claude Opus 4.5 стал лидером в реальных инженерных задачах

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

Открыть в Telegram Другие публикации

Автор:AI for Devs

•24 ноября 2025 г.

Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.

Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.

Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.

Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.

Вместе с обновлением модели Anthropic также представил обновления продуктов:

Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
Claude для Chrome и Excel стал доступен большему числу пользователей.

Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.

@ai_for_devs

Claude Opus 4.5 стал лидером в реальных инженерных задачах

Читайте так же

OpenAI прекратила использовать SWE-bench Verified

Как Anthropic решили три проблемы AI‑агентов

JetBrains встроили Claude Agent прямо в свои IDE