xAI: Grok 4.1 Fast и Agent Tools API

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

grok 4.1agent tools apixai

Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.

  • 🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
  • 🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
  • 🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.

Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.

Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.

@ai_for_devs

Диаграмма τ²-bench Telecom: сравнительный график точности и стоимости, где Grok 4.1 Fast достигает 100% и лидирует среди агентных систем
τ²-bench Telecom: Grok 4.1 Fast показывает 100% точности при сравнении стоимости и качества.
График Berkeley Function Calling v4: визуализация точности моделей в бенчмарке, где Grok 4.1 Fast достигает примерно 72% и опережает конкурентов
Berkeley Function Calling v4: Grok 4.1 Fast приближает 72% точности при более низкой цене вызова.
Сравнительные столбчатые диаграммы качества в многометровых сценариях и длинном контексте, показывающие стабильность Grok при окне до 2M токенов
Multi-turn и long context: Grok сохраняет качество на больших окнах контекста (2M токенов).
Таблица метрик и средних затрат: строки с оценками, скором и Avg. Cost для Grok 4.1 Fast, GPT-5, Claude 4.5 и Gemini 3 Pro в исследовании xAI
Таблица с оценками и усреднённой стоимостью вызова для сравнения моделей.

Читайте так же