Сколько реально стоит один запрос к ИИ: простая формула

Когда бизнес или команда внедряют нейросети, почти всегда возникает один практический вопрос: как посчитать себестоимость одного запроса к модели. Не “примерно”, а так, чтобы можно было планировать бюджет, сравнивать модели и понимать экономику продукта.

Короткий ответ: стоимость запроса = цена токенов + стоимость инфраструктуры + накладные расходы.

1. Посчитайте стоимость токенов

Большинство моделей тарифицируются по токенам:

input tokens — всё, что вы отправили в модель
output tokens — всё, что модель сгенерировала

Формула базовая:

Себестоимость запроса = (входные токены × цена input) + (выходные токены × цена output)

Пример:
если запрос содержит 2 000 входных токенов, а ответ — 500 выходных, то вы умножаете эти объёмы на тариф модели и получаете прямую стоимость обращения к API.

2. Не путайте символы, слова и токены

Одна из самых частых ошибок — считать “по словам”.
Токен ≠ слово.
В русском языке 1000 слов могут превратиться в разное число токенов в зависимости от текста, пунктуации, кода, таблиц и структуры промпта.
Поэтому себестоимость лучше считать по фактическому usage из API, а не по оценке “на глаз”.

3. Учтите системный промпт и историю диалога

Пользователи часто забывают, что в цену входит не только последний вопрос.
Если в запрос передаётся:

системная инструкция
история чата
контекст из базы знаний
примеры few-shot

то всё это увеличивает входные токены, а значит и стоимость.

Именно поэтому длинные диалоги со временем становятся дороже 📈

4. Добавьте инфраструктурную себестоимость

Если вы строите продукт, цена API — не вся экономика. Часто нужно добавить:

RAG/векторную БД
серверы и очереди
логирование и мониторинг
post-processing
модерацию
кэширование
работу разработчиков и поддержку

На практике используют формулу:

Полная себестоимость = стоимость модели + инфраструктура + операционные расходы / число запросов

5. Считайте среднюю и p95 стоимость

Полезно смотреть не только среднюю стоимость запроса, но и дорогие случаи:

длинные пользовательские сообщения
большие документы
развернутые ответы
сложные многошаговые цепочки

Это помогает избежать ситуации, когда “в среднем всё дешево”, но часть пользователей резко съедает бюджет 🔍

6. Что сильнее всего влияет на цену

размер промпта
длина ответа
количество контекста
число вызовов модели в одной цепочке
выбор модели
наличие кэша

Самый быстрый способ снизить себестоимость: сократить лишний контекст и ограничить длину ответа ⚙️

7. Практический подход

Для точного расчёта заведите таблицу:

модель
средние input/output токены
цена одного запроса
цена 1000 запросов
цена на пользователя
цена на целевое действие

Так вы поймёте не просто “сколько стоит запрос”, а окупается ли ваш AI-сценарий.

Итог: себестоимость одного запроса к модели — это не абстракция, а управляемая метрика. Если считать токены, учитывать контекст и не забывать про инфраструктуру, можно довольно точно прогнозировать расходы и выбирать оптимальную модель ✅

Если вам интересны такие практичные разборы, загляните в нашу подборку каналов про ИИ — там собраны полезные источники без лишнего шума 🚀

🦾 Подборка каналов
🧠 Каталог ботов и приложений
🛰 Навигация

Сколько реально стоит один запрос к ИИ: простая формула

Читайте так же

Сколько стоят ваши услуги? Как AI помогает назвать цену

Как оценивать знания без экзаменов: что уже умеет AI

Как AI придумывает УТП для нового товара