Про модели speech-to-text

Про No-Code, AI и другие технологии, которые делают нашу жизнь проще. Канал исследователя и ноукодера. Контакт для связи: @natellanur

speech-to-textтранскрипцияDeepgram

Для одного продуктового эксперимента протестировала некоторые speech-to-text модели. Нужна была транскрипция русского и английского языка в реальном времени. Важна скорость, чтобы после завершения записи сразу видеть текст, а не ждать еще.

  • Лучше всего отработали Gladia и Deepgram Nova-3.
  • Хуже всего AssemblyAI.
  • Удивительнее всего оказался OpenAI 4o-mini-transcribe (в силу стоимости, качество подхрамывает, но русский транскрибировал все равно лучше AssemblyAI).

Стоимость:

  • Deepgram Nova-3 Multilingual: $0.55 / час
  • Gladia Real-time: $0.75 / час
  • OpenAI 4o-mini-transcribe: $0.18 / час

Вывод: для мультиязычных продуктов самый логичный выбор Deepgram. Самый логичный вариант в режиме экономии - 4o-mini

Читайте так же