Kimi K2 Thinking — open source‑модель для рассуждений

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

kimi k2reasoningагентные задачи

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках:

  • 44,9% на Humanity’s Last Exam — топовый результат среди reasoning-моделей.
  • 60,2% на BrowseComp — лучше людей (человеческий базовый уровень: 29,2%).
  • 71,3% на SWE-Bench Verified — мощный апгрейд в агентном кодинге.
  • Поддерживает INT4-квантование без потери точности и даёт ×2 ускорение вывода.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля (можно потыкать в релизной статье). Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне.

На видео – пример результата генерации кода для популярной библиотеки визуализации.

Источник

Столбцовая диаграмма бенчмарков Kimi K2 Thinking и других моделей: сравнительные результаты на Humanity's Last Exam и BrowseComp в графическом виде.
Сравнение результатов Kimi K2 Thinking и конкурентов на нескольких reasoning‑бенчмарках.
Графическая визуализация: «Gradient Descent in 2D» с осями, контурами и путём оптимизации — иллюстрация из примера генерации кода.
Визуализация градиентного спуска, использованная в демонстрации генерации кода.

Читайте так же