Подъехали бенчмарки по GLM-5

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

Открыть в Telegram Другие публикации

Автор:AI for Devs

•11 февраля 2026 г.

Z.ai раскрыли детали по новой версии. Коротко по сравнению с GLM-4.7: модель выросла с 355B (32B active) до 744B параметров (40B active), объём предобучения — 28.5T токенов. Добавили DeepSeek Sparse Attention для длинного контекста и собственную RL-инфраструктуру slime для ускорения посттрейна.

По результатам open-source сегмента GLM-5 держится в верхней группе.

Основные бенчмарки:

— SWE-bench Verified: 77.8 (у GLM-4.7 — 73.8)
— Terminal-Bench 2.0 (Terminus 2): 56.2 / 60.7
— BrowseComp с управлением контекстом: 75.9
— Vending Bench 2: $4,432 за год симуляции бизнеса

На Vending Bench 2 это первое место среди open-source моделей. В reasoning-задачах результаты близки к Claude Opus 4.5, местами выше других открытых моделей.

Модель уже выложена с весами под MIT на HuggingFace и доступна через API. Судя по метрикам, ставка сделана на длинные агентные сценарии и инженерные задачи.

@ai_for_devs

Подъехали бенчмарки по GLM-5

Читайте так же

MCP для ресерча: подключение ИИ к инструментам

GLM-4.7 — апгрейд для агентного кодинга

Китайцы тихо выпустили GLM-5