Claude Sonnet 4.5 — лучшая модель для программирования
Anthropic выпустил Claude Sonnet 4.5: топ на SWE-bench, рост точности на OSWorld до 61%, новые функции для кода и Agent SDK; доступна в API.

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.
Anthropic выпустил Claude Sonnet 4.5: топ на SWE-bench, рост точности на OSWorld до 61%, новые функции для кода и Agent SDK; доступна в API.

О модели DeepSeek‑V3.2‑Exp: эксперимент с DeepSeek Sparse Attention для ускорения длинных контекстов; код открыт на GitHub и Hugging Face.

Краткий обзор редизайна Continue 1.13.0 для VS Code: минималистичный интерфейс, переработанный селектор моделей и карточная панель настроек.

Коротко о релизе Gemini 2.5 Flash и Flash-Lite: Flash-Lite снизил выходные токены на 50%, Flash улучшил работу с инструментами и бенчмарки.

Ollama запустила встроенный web-search через REST API с интеграцией в Python/JS SDK и MCP; есть generous free tier, детали в блоге и документации.

OpenAI представил GDPval — набор из задач для 44 профессий; GPT‑5 и Claude Opus показывают почти паритет с экспертами и рост производительности более чем в 3 раза.

Meta выпустила Code World Model (CWM) — LLM на 32 млрд параметров, обученную на исполнениях Python и взаимодействиях с Docker.

Notion 3.0 вводит AI‑агентов, выполняющих рабочие задачи в воркспейсе — персонализация, команды агентов и автоматизация процессов. Источник: Хабр.
Анонс Qwen3‑Omni — мультимодальная модель от Qwen: текст, картинки, аудио и видео; новая схема Thinker–Talker, MoE и SOTA по ряду бенчмарков.

Краткая заметка о том, как Stack Overflow возвращается к продуктам с «AI» (OverflowAI, Question Assistant); ссылка на статью на Хабр.

Дайджест с ключевыми ссылками недели: GPT-5-Codex, Grok 4 Fast, обсуждение AI и подростков, безопасность AI-ассистентов.
Grok 4 Fast от xAI обещает быстрые ответы, глубокие рассуждения и снижение стоимости токенов на 98%; подробности и ссылка на Хабр.
