OpenAI представил GDPval — новую систему оценки, которая измеряет, насколько хорошо ИИ справляется с реальными рабочими задачами. Вместо абстрактных тестов и синтетических задач, теперь мы можем проверить, насколько хорошо модель справится с тем, что делают люди каждый день: от разработки ПО до написания юридических документов и проектирования оборудования.
GDPval охватывает 44 профессии из 9 ключевых отраслей экономики США — от инженеров и врачей до бухгалтеров и риэлторов. Каждая задача создана реальными экспертами и включает не просто текстовый запрос, но и реальные файлы, контекст и ожидаемые результаты — будь то презентация, чертеж или медицинский план. Это первый шаг к тому, чтобы ИИ не просто «умел» отвечать на вопросы, но и действительно делал работу.
Результаты? Современные модели уже почти не уступают экспертам. Claude Opus 4.1 выиграл в эстетике и оформлении, GPT-5 — в точности и глубине знаний. А главное: модели работают в 100 раз быстрее и дешевле. Конечно, пока без человеческого контроля и итераций, но прогресс явно идёт.
Примечательно, что от GPT-4o до GPT-5 за год производительность на задачах GDPval увеличилась более чем в три раза.
Как видно из графиков, паритет с экспертами в индустрии по отдельно взятым специальностям уже очень близко. Но это только начало. GDPval пока одноразовая оценка — не учитывает обратную связь, редактирование и уточнения. В реальности работа — это не один запрос, а диалог. OpenAI уже работает над этим. Ждём ИИ, который не просто отвечает, но и развивается вместе с человеком.



