Mistral представила Devstral 2 — открытая SOTA для кодинга

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

Mistraldevstral 2swe-bench

Неделю назад мы писали про Mistral 3 с MoE-моделью на 675B параметров. Сегодня компания представила Devstral 2 — новое поколение открытых моделей для кодинга.

Главное:

  • 🟢 Devstral 2 (123B): 72.2% на SWE-bench Verified, практически новый SOTA среди open-weight кодовых агентов. Чуть-чуть не дотянули до DeepSeek V3.2.
  • 🟠 До 7 раз дешевле Sonnet на реальных инженерных задачах.
  • 🟢 Devstral Small 2 (24B): 68% на SWE-bench, работает локально на потребительском железе, 256K контекста, Apache 2.0.
  • 🟠 Модель бесплатна в API на старте. Доступна на OpenRouter.
  • 🟢 Mistral Vibe CLI: нативный open-source кодовый агент прямо в терминале, умеет исследовать проект, вносить многофайловые правки и выполнять shell-команды.

Devstral 2 и Small 2 получились удивительно компактными: они в 5–28 раз меньше DeepSeek V3.2 и в 8–41 раз меньше Kimi K2, но при этом держат уровень, который раньше был доступен только закрытым моделям.

@ai_for_devs

Диаграмма сравнения результатов SWE-Bench Verified для open-weight и проприетарных моделей; выделены столбцы Devstral 2 и другие лидеры среди моделей по процентам.
SWE-Bench Verified: сравнение open-weight и проприетарных моделей, выделен Devstral 2.
График разброса производительности SWE-bench относительно размера модели (в миллиардах параметров), точки для Devstral 2, DeepSeek v3.2 и прочих моделей; видно соотношение размер/качество.
Производительность SWE-bench в зависимости от размера модели (B parameters).
Гистограмма сравнения результатов Devstral 2 vs DeepSeek V3.2 и Sonnet: распределение win/tie/lose в процентах по задачам кодинга.
Сравнение Win/Tie/Loss: Devstral 2 против DeepSeek V3.2 и Sonnet.

Читайте так же