Обе компании запустили ускоренный режим для своих лучших кодовых моделей. Цифры сильно отличаются.
У Anthropic до 170 токенов/с против ~65 у Opus 4.6 (примерно 2,5×).
У OpenAI более 1 000 токенов/с против ~65 у GPT-5.3-Codex (около 15×).
Ключевая разница в том, что Anthropic в fast mode отдают ту же модель, Opus 4.6. OpenAI в fast mode используют отдельную версию GPT-5.3-Codex-Spark. Она быстрее, но менее стабильна: чаще путается в tool calls и сложной логике по сравнению с основной Codex.
Почему так.
У Anthropic наиболее вероятное объяснение — уменьшение batch size при инференсе. Узкое место здесь память: перед запуском нужно загрузить prompt на GPU. Чем больше батч, тем выше общая пропускная способность, но выше и задержка. Меньший батч даёт более быстрый первый токен и меньшую задержку, но снижает эффективность. Отсюда и экономика: примерно в 6 раз дороже за около 2,5 кратный прирост скорости.
У OpenAI другой подход. В анонсе указан партнёр Cerebras. Их чипы значительно больше обычных GPU и содержат больше встроенной SRAM. Модель или её часть можно держать ближе к вычислениям, уменьшая обращения к внешней памяти. Это и даёт кратный рост скорости.
Но ограничение в объёме памяти остаётся. Один чип Cerebras вмещает десятки гигабайт SRAM. Этого достаточно для модели порядка 20–40B параметров в зависимости от формата весов, но недостаточно для GPT-5.3-Codex. Поэтому в fast mode используется отдельная версия, Spark, меньшая по размеру. По обсуждениям, модель может распределяться по нескольким чипам.
Инженерно решение OpenAI сложнее: перенос модели на нестандартную архитектуру и адаптация под её ограничения.
Открытым остается вопрос практической ценности. Если скорость растёт вместе с числом ошибок, то зачем менять шило на мыло? В агентных сценариях больше времени уходит на исправление ошибок, а не на ожидание токенов.
Фактически это две стратегии: ускорение существующей модели за счёт настроек инференса и адаптация модели под специализированное железо.
А если вы и так всё это знали, то вот вам занимательный факт: в 1977 году радиотелескоп проекта Big Ear зафиксировал краткий сигнал «Wow!», источник которого до сих пор не установлен.
@ai_for_devs

