Подъехали бенчмарки по GLM-5

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

glm-5z.aideepseek

Z.ai раскрыли детали по новой версии. Коротко по сравнению с GLM-4.7: модель выросла с 355B (32B active) до 744B параметров (40B active), объём предобучения — 28.5T токенов. Добавили DeepSeek Sparse Attention для длинного контекста и собственную RL-инфраструктуру slime для ускорения посттрейна.

По результатам open-source сегмента GLM-5 держится в верхней группе.

Основные бенчмарки:

  • — SWE-bench Verified: 77.8 (у GLM-4.7 — 73.8)
  • — Terminal-Bench 2.0 (Terminus 2): 56.2 / 60.7
  • — BrowseComp с управлением контекстом: 75.9
  • — Vending Bench 2: $4,432 за год симуляции бизнеса

На Vending Bench 2 это первое место среди open-source моделей. В reasoning-задачах результаты близки к Claude Opus 4.5, местами выше других открытых моделей.

Модель уже выложена с весами под MIT на HuggingFace и доступна через API. Судя по метрикам, ставка сделана на длинные агентные сценарии и инженерные задачи.

@ai_for_devs

Диаграмма сравнения производительности моделей (GLM-5, GLM-4.7, Claude Opus 4.5 и др.) по SWE, Terminal и Vending Bench.
Сравнительная диаграмма результатов GLM‑5 и других моделей по ключевым бенчмаркам.

Читайте так же