Открытые vs закрытые LLM в LiveCodeBench (2023–2025)

Понимание мира через данные Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов Чат: @rationalchat https://rationalnumbers.ru По рекламе: @kgreenmedia В реестре: vk.cc/cKf8WS Автор: @kirillgreen

livecodebenchllmсоревновательное программирование

(select_8)

На диаграмме — результаты больших языковых моделей в тесте LiveCodeBench. Он считается одним из самых «чистых», так как использует свежие задачи с соревнований LeetCode, AtCoder и Codefoeces, которые появились после даты отсечки обучения каждой модели. Это исключает простое воспроизведение заученных ответов и позволяет оценить реальный навык написания кода. Также LiveCodeBench проверяет умение нейросетей исправлять свои ошибки и предсказывать результат выполнения программы

Каждая точка — результат самой результативной на тот момент нейросети из двух категорий: с закрытым кодом (синий) и открытым (зелёный)

Другие наши публикации о том, как ИИ проходят тесты:

Диаграмма сравнения результатов закрытых (синий) и открытых (зелёный) LLM в тесте LiveCodeBench за 2023–2025 годы, по баллам LiveCodeBench.
Сравнение баллов закрытых и открытых крупных языковых моделей в LiveCodeBench за 2023–2025 годы.

Дискуссия

krakotay
Сразу можно заметить, что уже в первую половину 25го модели достигли 90%, фактически перенасытив бенчмарк. Куда лучше подойдёт такое, с ещё более строгой методологией и более харкорными задачами https://swe-rebench.com/
KC
Graph basically: OS LLMs - great compression of frontier models.
цифровой самурай
KC
Graph basically: OS LLMs - great compression of frontier models.
смотря какой fine-tuning, смотря сколько parameters
цифровой самурай
krakotay
с ещё более строгой методологией
а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?
krakotay
цифровой самурай
а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?
Вкратце: пылесосят реальные issue с github популярных проектов. Причём фильтруют так, чтобы задачи попадались наиболее сложные (потому там как бы проседает в некоторые моменты исторически, на деле это взяли задачи сложнее) и сравнивают. Т.е. одновременно и актуальность (реальные проблемы вместо абстрактной синтетики), и таких задач в датасетах обучения не было
krakotay
цифровой самурай
а примерно описать можешь? или лучше запрячь Gemini 3 прочитать текст по ссылке?
Вот тут котенков писал про rebench https://t.me/seeallochnaya/2831
цифровой самурай
krakotay
Вкратце: пылесосят реальные issue с github популярных проектов. Причём фильтруют так, чтобы задачи попадались наиболее сложные (потому там как бы проседает в некоторые моменты исторически, на деле это взяли задачи сложнее) и сравнивают. Т.е. одновременно и…
спасибо! приятно, когда не просто кидают ссылку, а могут ещё коротко объяснить для гуманитариев
Присоединиться к обсуждению →

Читайте так же