Открытые vs закрытые LLM в LiveCodeBench (2023–2025)

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

Открыть в Telegram Другие публикации

Автор:Рациональные числа

•6 февраля 2026 г.

livecodebenchllmсоревновательное программирование

(select_8)

На диаграмме — результаты больших языковых моделей в тесте LiveCodeBench. Он считается одним из самых «чистых», так как использует свежие задачи с соревнований LeetCode, AtCoder и Codefoeces, которые появились после даты отсечки обучения каждой модели. Это исключает простое воспроизведение заученных ответов и позволяет оценить реальный навык написания кода. Также LiveCodeBench проверяет умение нейросетей исправлять свои ошибки и предсказывать результат выполнения программы

Каждая точка — результат самой результативной на тот момент нейросети из двух категорий: с закрытым кодом (синий) и открытым (зелёный)

Другие наши публикации о том, как ИИ проходят тесты:

Диаграмма сравнения результатов закрытых (синий) и открытых (зелёный) LLM в тесте LiveCodeBench за 2023–2025 годы, по баллам LiveCodeBench. — Сравнение баллов закрытых и открытых крупных языковых моделей в LiveCodeBench за 2023–2025 годы.

Дискуссия

krakotay

Сразу можно заметить, что уже в первую половину 25го модели достигли 90%, фактически перенасытив бенчмарк. Куда лучше подойдёт такое, с ещё более строгой методологией и более харкорными задачами https://swe-rebench.com/

Feb 6

❤‍🔥2

Graph basically: OS LLMs - great compression of frontier models.

Feb 6

цифровой самурай

Graph basically: OS LLMs - great compression of frontier models.

смотря какой fine-tuning, смотря сколько parameters

Feb 6

❤3

цифровой самурай

krakotay

с ещё более строгой методологией

а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?

Feb 6

🤣1

krakotay

цифровой самурай

а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?

Вкратце: пылесосят реальные issue с github популярных проектов. Причём фильтруют так, чтобы задачи попадались наиболее сложные (потому там как бы проседает в некоторые моменты исторически, на деле это взяли задачи сложнее) и сравнивают. Т.е. одновременно и актуальность (реальные проблемы вместо абстрактной синтетики), и таких задач в датасетах обучения не было

Feb 6

krakotay

цифровой самурай

а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?

Вот тут котенков писал про rebench https://t.me/seeallochnaya/2831

Feb 6

цифровой самурай

krakotay

спасибо! приятно, когда не просто кидают ссылку, а могут ещё коротко объяснить для гуманитариев

Feb 6

👍1

Присоединиться к обсуждению →