Ждать не пришлось: xAI выкатили Grok 4.1

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

grokxaigrok 4.1

xAI официально представила Grok 4.1 — модель, которая стала заметно точнее, эмоциональнее и творчески гибче. Забавно, что это совпадает с общим трендом индустрии: как и OpenAI ранее, xAI делает сильный упор на стиль, эмпатию и «человечность» ответов, без потери надёжности.

В тихом запуске (1–14 ноября) пользователи выбирали 4.1 почти в 65% случаев, а в бенчмарках Thinking-режим вылетел в топ с 1483 Elo, оставив прежний Grok 4 далеко позади. Прокачка затронула и эмоциональный интеллект (тесты EQ-Bench3), и творческое письмо (Creative Writing v3), и снижение галлюцинаций, особенно в быстрых режимах.

Одновременно с релизом 4.1 из веб-версии и приложений пропала Grok 4 Fast, но по нашим тестам новая 4.1 отвечает так же быстро, жаль что в API её пока нет.

Очень ждём API! Старая «Fast» нам сильно нравилась за своё сочетание скорости, цены и качества.

@ai_for_devs

Бенчмарк EQ‑Bench: горизонтальная столбчатая диаграмма, где Grok 4.1 заметно лидирует по показателю эмоционального интеллекта по сравнению с другими моделями.
Диаграмма EQ‑Bench: Grok 4.1 на первом месте по эмоциональному интеллекту.
Лидерборд производительности: график с точечными оценками и доверительными интервалами для разных версий Grok и соперничающих моделей, отображающий Elo‑рейтинги.
Распределение результатов по версиям и сравнение Elo‑рейтингов.
Сравнение частоты галлюцинаций и FactScore: столбчатые диаграммы показывают снижение галлюцинаций у Grok 4.1 по сравнению с Grok 4 Fast и старой версией.
Показатели hallucination rate и FactScore для Grok 4.1 и Grok 4 Fast.

Читайте так же