Почему голосовые технологии — не про «Окей, Гугл»

Иногда люди, когда слышат термин "распознавание речи", представляют человека, который четко, медленно, без акцента диктует «напиши маме, что я задержусь».
Где-нибудь в Москве. Через AirPods Pro. С Wi-Fi на 1200 Мбит.

Но есть другая реальность.

Где человек говорит на смеси хинди и английского. Через старый Samsung. В шумном микроавтобусе. С проседающим интернетом. И пытается взять кредит, звоня в банк.

Именно для такой реальности и появляются новые игроки.

Вот интересные примеры:

Navana AI (Индия)
История типичная: два брата с образованием в Cornell Tech решили, что мир не нуждается в очередной гейминговой студии (они ее сначала и основали).
И переключились на голос. Потому что в Индии миллионы людей именно разговаривают с приложениями, а не тыкают пальцем.
Navana построили ASR, который работает на 12+ местных языках и понимает, когда человек в одном предложении использует 3 языка.
И что особенно круто - их движок работает даже с плохой связью, что особенно важно в Индии.
Speechmatics (Великобритания)
У них слоган мог бы быть "мы уважаем акценты".
Ребята обучают модели не “английскому”, а английским с акцентами: нигерийский, индийский, шотландский.
Плюс сделали то же самое с испанским. Потому что испанский из Мексики и испанский из Каталонии - это небо и земля.
gnani.ai (Индия)
Ребята из Бангалора, которые делают голосовых ассистентов и распознавание речи для бизнеса: реальных колл-центров, где шум, слабый микрофон и клиент говорит на смеси хинди и одного из региональных языков вроде телугу.
Умеют распознавать речь на 40+ языках, а еще - определять человека по голосу, без паролей.
VoxArabica
Работают с арабскими диалектами. И тут важно понимать: арабский в Марокко и арабский в Иордании - это почти как французский и итальянский.
Так что сделать один “универсальный” движок очень сложно – но они сделали. Даже с переключением между диалектами “на лету”.

📍 Кстати, про языки.
Во многих странах люди часто говорят на смеси языков. Это называется code-mixing: когда в одном предложении встречаются, например, русский и английский.

Типа: “Cмотря какой fabric, смотря сколько details“

ASR-моделям такое обычно не нравится - они не понимают, на каком языке ты вообще говоришь.
Поэтому сейчас компании отдельно учат модели на “перемешанной” речи. Это сложно, но по-другому - просто не работает.

Вещи, о которых не задумываешься, ~~пока не задумаешься~~

Люди не говорят, как пишут.
“Я там это… ну, хотел узнать, короче, вот это вот” - типичная реплика.
И задача ASR - не просто записать ее как есть, а догадаться, что человек хочет, и превратить это в понятный запрос.
Акцент - это не баг.
Системы, которые пугаются акцента и начинают писать ерунду, - это не AI, а недоразумение.
Хорошие модели сейчас учат на слух воспринимать акцент как норму.
Один язык - это не один язык.
У хинди - 10+ диалектов. У арабского - 17+. У английского... ну вы поняли.
В тех же Нидерландах - фризский, голландский с акцентами, постоянное переключение на английский.
И если ты не учитываешь это в модели - точность может падать в 2–3 раза.
Микрофон может все испортить
Да, у человека может быть чистая речь. Но если микрофон его “обрезает” по частотам - ASR будет угадывать, а не распознавать.
Поэтому некоторые стартапы отдельно обучают модели на “плохом аудио”.

❓И что из этого?

Если коротко:
Голос - это единственный способ взаимодействия с технологиями для миллионов людей. Особенно в странах, где не все умеют читать, печатать, где интерфейсы сложные, а Wi-Fi нестабилен как подростковая самооценка.

И то, что кто-то научился понимать живую, шумную, неформатную речь, - это действительно круто. И за таким будущее.

#yalav #лаврикпропродукт

Дискуссия