(select_8)
На диаграмме — результаты больших языковых моделей в тесте LiveCodeBench. Он считается одним из самых «чистых», так как использует свежие задачи с соревнований LeetCode, AtCoder и Codefoeces, которые появились после даты отсечки обучения каждой модели. Это исключает простое воспроизведение заученных ответов и позволяет оценить реальный навык написания кода. Также LiveCodeBench проверяет умение нейросетей исправлять свои ошибки и предсказывать результат выполнения программы
Каждая точка — результат самой результативной на тот момент нейросети из двух категорий: с закрытым кодом (синий) и открытым (зелёный)
Другие наши публикации о том, как ИИ проходят тесты:




Дискуссия