Исследование Anthropic о автономности ИИ‑агентов

Мы — AI for Devs: разбираем модели, ИИ‑агентов и инструменты для разработчиков. Делаем практичные гайды, бенчмарки и выкладываем рабочие паттерны — всё, что помогает быстрее строить продукты с LLM. Меньше шума, больше пользы и кода. Подписывайтесь — будет чем прокачать ваш стек.

AnthropicClaude Codeавтономность

Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.

Основные результаты:

  • Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека
  • Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%
  • При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков
  • На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек

@ai_for_devs

График: длительность непрерывной работы Claude Code до остановки (99.9-й перцентиль), рост с ≈25 до ≈45 минут за три месяца
Продолжительность «заходов» Claude Code выросла почти вдвое за исследуемый период.
График: доля сессий Claude Code с полным auto-approve по опыту (prior sessions), заметный рост у более опытных пользователей
Доля полных auto-approve растёт с увеличением числа предыдущих сессий.
График: частота прерываний/остановок Claude Code по опыту, показывающая рост частоты остановок у более опытных пользователей
Опытные пользователи чаще прерывают агента, а также фиксируется рост общего уровня прерываний.

Читайте так же