Я тоже — нет. А он есть. И сегодня он занял первое место на Terminal-Bench 2.0.
Terminal-Bench — это бенчмарк для оценки агентных систем, которые работают в терминале: внутри контейнера агенту нужно выполнять команды, писать и править скрипты, устанавливать зависимости, дебажить окружение и доводить задачу до рабочего состояния.
В отличие от reasoning-бенчей, здесь проверяется прикладная инженерная компетенция — умение планировать действия, взаимодействовать с терминалом, справляться с ошибками среды и получать воспроизводимый результат.
@ai_for_devs


