Для одного продуктового эксперимента протестировала некоторые speech-to-text модели. Нужна была транскрипция русского и английского языка в реальном времени. Важна скорость, чтобы после завершения записи сразу видеть текст, а не ждать еще.
- — Лучше всего отработали Gladia и Deepgram Nova-3.
- — Хуже всего AssemblyAI.
- — Удивительнее всего оказался OpenAI 4o-mini-transcribe (в силу стоимости, качество подхрамывает, но русский транскрибировал все равно лучше AssemblyAI).
Стоимость:
- — Deepgram Nova-3 Multilingual: $0.55 / час
- — Gladia Real-time: $0.75 / час
- — OpenAI 4o-mini-transcribe: $0.18 / час
Вывод: для мультиязычных продуктов самый логичный выбор Deepgram. Самый логичный вариант в режиме экономии - 4o-mini
