Claude Opus 4.5 стал лидером в реальных инженерных задачах

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

opus 4.5anthropicswe-bench

Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.

Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.

Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.

Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.

Вместе с обновлением модели Anthropic также представил обновления продуктов:

  • Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
  • В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
  • Claude для Chrome и Excel стал доступен большему числу пользователей.

Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.

@ai_for_devs

Столбчатая диаграмма точности на SWE-bench Verified: Opus 4.5 демонстрирует заметное преимущество над Sonnet 4.5 и другими моделями в задачах Software Engineering.
Точность Opus 4.5 на SWE-bench Verified по сравнению с конкурентами.
Многобарная диаграмма Multilingual coding: сравнение качества на SWE-bench Multilingual по языкам программирования; Opus 4.5 лидирует в большинстве языков.
Результаты Opus 4.5 и Sonnet 4.5 по разным языкам на SWE-bench Multilingual.
Таблица с подробными метриками по задачам: accuracy и другие метрики по категориям задач показывают преимущества Opus 4.5 над конкурентами в разных тестах.
Детализированная матрица результатов по задачам и моделям.
Гистограмма восприимчивости к prompt-injection: сравнение успеха атак для разных моделей; Opus 4.5 демонстрирует наименьшую уязвимость среди frontier-моделей.
Сравнение устойчивости моделей к prompt-injection-атакам.
График зависимости точности от числа выходных токенов с контролем параметра effort: Opus 4.5 достигает лучших результатов при меньшем расходе токенов.
Эффект параметра effort: точность против числа токенов для Opus 4.5 и Sonnet 4.5.

Читайте так же