AI почти готов заменить бухгалтеров, инженеров и юристов

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

gdpvalopenaigpt-5

OpenAI представил GDPval — новую систему оценки, которая измеряет, насколько хорошо ИИ справляется с реальными рабочими задачами. Вместо абстрактных тестов и синтетических задач, теперь мы можем проверить, насколько хорошо модель справится с тем, что делают люди каждый день: от разработки ПО до написания юридических документов и проектирования оборудования.

GDPval охватывает 44 профессии из 9 ключевых отраслей экономики США — от инженеров и врачей до бухгалтеров и риэлторов. Каждая задача создана реальными экспертами и включает не просто текстовый запрос, но и реальные файлы, контекст и ожидаемые результаты — будь то презентация, чертеж или медицинский план. Это первый шаг к тому, чтобы ИИ не просто «умел» отвечать на вопросы, но и действительно делал работу.

Результаты? Современные модели уже почти не уступают экспертам. Claude Opus 4.1 выиграл в эстетике и оформлении, GPT-5 — в точности и глубине знаний. А главное: модели работают в 100 раз быстрее и дешевле. Конечно, пока без человеческого контроля и итераций, но прогресс явно идёт.

Примечательно, что от GPT-4o до GPT-5 за год производительность на задачах GDPval увеличилась более чем в три раза.

Как видно из графиков, паритет с экспертами в индустрии по отдельно взятым специальностям уже очень близко. Но это только начало. GDPval пока одноразовая оценка — не учитывает обратную связь, редактирование и уточнения. В реальности работа — это не один запрос, а диалог. OpenAI уже работает над этим. Ждём ИИ, который не просто отвечает, но и развивается вместе с человеком.

Источник Полноценное исследование

Столбчатая диаграмма GDPval, показывающая долю выигрышей моделей (GPT‑5, Claude Opus и др.) по профессиональным задачам в сравнении с отраслевыми экспертами.
Столбчатая диаграмма GDPval: сравнение доли выигранных задач моделями и отраслевых экспертов.
Линейный график GDPval: динамика роста производительности фронтирных моделей OpenAI с GPT‑4o до GPT‑5, близость к паритету с экспертами отмечена пунктирной линией.
Линейный график: рост производительности моделей OpenAI во времени (GPT‑4o → GPT‑5).

Читайте так же