Когда бизнес или команда внедряют нейросети, почти всегда возникает один практический вопрос: как посчитать себестоимость одного запроса к модели. Не “примерно”, а так, чтобы можно было планировать бюджет, сравнивать модели и понимать экономику продукта.
Короткий ответ: стоимость запроса = цена токенов + стоимость инфраструктуры + накладные расходы.
1. Посчитайте стоимость токенов
Большинство моделей тарифицируются по токенам:
- input tokens — всё, что вы отправили в модель
- output tokens — всё, что модель сгенерировала
Формула базовая:
Себестоимость запроса = (входные токены × цена input) + (выходные токены × цена output)
Пример:
если запрос содержит 2 000 входных токенов, а ответ — 500 выходных, то вы умножаете эти объёмы на тариф модели и получаете прямую стоимость обращения к API.
2. Не путайте символы, слова и токены
Одна из самых частых ошибок — считать “по словам”.
Токен ≠ слово.
В русском языке 1000 слов могут превратиться в разное число токенов в зависимости от текста, пунктуации, кода, таблиц и структуры промпта.
Поэтому себестоимость лучше считать по фактическому usage из API, а не по оценке “на глаз”.
3. Учтите системный промпт и историю диалога
Пользователи часто забывают, что в цену входит не только последний вопрос.
Если в запрос передаётся:
- системная инструкция
- история чата
- контекст из базы знаний
- примеры few-shot
то всё это увеличивает входные токены, а значит и стоимость.
Именно поэтому длинные диалоги со временем становятся дороже 📈
4. Добавьте инфраструктурную себестоимость
Если вы строите продукт, цена API — не вся экономика. Часто нужно добавить:
- RAG/векторную БД
- серверы и очереди
- логирование и мониторинг
- post-processing
- модерацию
- кэширование
- работу разработчиков и поддержку
На практике используют формулу:
Полная себестоимость = стоимость модели + инфраструктура + операционные расходы / число запросов
5. Считайте среднюю и p95 стоимость
Полезно смотреть не только среднюю стоимость запроса, но и дорогие случаи:
- длинные пользовательские сообщения
- большие документы
- развернутые ответы
- сложные многошаговые цепочки
Это помогает избежать ситуации, когда “в среднем всё дешево”, но часть пользователей резко съедает бюджет 🔍
6. Что сильнее всего влияет на цену
- размер промпта
- длина ответа
- количество контекста
- число вызовов модели в одной цепочке
- выбор модели
- наличие кэша
Самый быстрый способ снизить себестоимость: сократить лишний контекст и ограничить длину ответа ⚙️
7. Практический подход
Для точного расчёта заведите таблицу:
- модель
- средние input/output токены
- цена одного запроса
- цена 1000 запросов
- цена на пользователя
- цена на целевое действие
Так вы поймёте не просто “сколько стоит запрос”, а окупается ли ваш AI-сценарий.
Итог: себестоимость одного запроса к модели — это не абстракция, а управляемая метрика. Если считать токены, учитывать контекст и не забывать про инфраструктуру, можно довольно точно прогнозировать расходы и выбирать оптимальную модель ✅
Если вам интересны такие практичные разборы, загляните в нашу подборку каналов про ИИ — там собраны полезные источники без лишнего шума 🚀