Claude Sonnet 4.5 — лучшая модель для программирования

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

claude sonnetAnthropicпрограммирование

Что внутри? Во-первых, модель стала лучше во всём, что связано с программированием. На бенчмарке SWE-bench Verified она теперь топ-1, а на OSWorld — выросла с 42% до 61% точности за каких‑то четыре месяца. То есть Sonnet теперь не только пишет функции, но и отлично справляется с файлами, браузером и таблицами.

Помимо модели также обновили и Claude Code: завезли чекпоинты (можно откатиться, если натворил фигни), обновили терминал, прикрутили нативное расширение для VS Code. В приложении Claude теперь можно прямо в чате генерить документы, таблицы и презентации. Плюс, появился Claude Agent SDK — по сути, тот же движок, на котором Anthropic сами клепают агентов.

Antropic заявляют, что это "most aligned model yet". Другими словами, модель у Anthropic получилось неплохо побороться с галлюцинациями, манипуляциями и прочим "магическим" поведением.

Claude Sonnet 4.5 — не только самая мощная, но и самая согласованная с безопасностью из всех наших моделей. Благодаря улучшенным возможностям Claude и обширному обучению в области безопасности нам удалось существенно улучшить его поведение: снизить податливость на лесть, склонность к обману, стремление к власти и подталкивание к иллюзиям. Для агентных функций и работы с компьютером мы также значительно усилили защиту от атак через prompt injection — одной из самых серьёзных угроз для пользователей.

Цена осталась прежней: $3 за миллион input‑токенов, $15 — за output. Для разработчиков модель доступна прямо сегодня в API (claude-sonnet-4-5).

Источник | Карточка модели | Модель на Openrouter

@ai_for_devs

Столбчатая диаграмма SWE‑bench и других бенчмарков с процентами точности моделей, демонстрирующая лидерство Claude Sonnet 4.5 в задачах программирования.
Результаты на SWE-bench и других бенчмарках: Claude Sonnet 4.5 лидирует по точности в задачах software engineering.
Табличная карточка Claude Sonnet 4.5 с перечнем метрик по подзадачам программирования и сравнением с GPT‑5, OpenAI и другими моделями.
Сводная таблица метрик Claude Sonnet 4.5 по задачам и сравнение с конкурентами.
График 'Misaligned behavior scores' с оценками некорректного поведения моделей, показывающий снижение склонности у Claude Sonnet 4.5 по сравнению с предыдущими версиями.
Оценки misaligned поведения: Sonnet 4.5 показывает улучшения в безопасности и согласованности.

Читайте так же