Почему голосовые технологии — не про «Окей, Гугл»

Я разбираю продукты, технологии и трансформации так, чтобы из кейсов рождались решения: от AI в банках и голосовых систем до фудтеха и цифровых архитектур. Люблю конкретику: цифры, процессы, роли, экономику и то, как мировые практики приземляются в реальность. Если вам важны смысл, структура и применимость — вы дома. Добро пожаловать!

распознавание речиasrcode-mixing

Иногда люди, когда слышат термин "распознавание речи", представляют человека, который четко, медленно, без акцента диктует «напиши маме, что я задержусь».
Где-нибудь в Москве. Через AirPods Pro. С Wi-Fi на 1200 Мбит.

Но есть другая реальность.

Где человек говорит на смеси хинди и английского. Через старый Samsung. В шумном микроавтобусе. С проседающим интернетом. И пытается взять кредит, звоня в банк.

Именно для такой реальности и появляются новые игроки.

Вот интересные примеры:

  • Navana AI (Индия)

    История типичная: два брата с образованием в Cornell Tech решили, что мир не нуждается в очередной гейминговой студии (они ее сначала и основали).
    И переключились на голос. Потому что в Индии миллионы людей именно разговаривают с приложениями, а не тыкают пальцем.
    Navana построили ASR, который работает на 12+ местных языках и понимает, когда человек в одном предложении использует 3 языка.
    И что особенно круто - их движок работает даже с плохой связью, что особенно важно в Индии.

  • Speechmatics (Великобритания)

    У них слоган мог бы быть "мы уважаем акценты".
    Ребята обучают модели не “английскому”, а английским с акцентами: нигерийский, индийский, шотландский.
    Плюс сделали то же самое с испанским. Потому что испанский из Мексики и испанский из Каталонии - это небо и земля.

  • gnani.ai (Индия)

    Ребята из Бангалора, которые делают голосовых ассистентов и распознавание речи для бизнеса: реальных колл-центров, где шум, слабый микрофон и клиент говорит на смеси хинди и одного из региональных языков вроде телугу.
    Умеют распознавать речь на 40+ языках, а еще - определять человека по голосу, без паролей.

  • VoxArabica

    Работают с арабскими диалектами. И тут важно понимать: арабский в Марокко и арабский в Иордании - это почти как французский и итальянский.
    Так что сделать один “универсальный” движок очень сложно – но они сделали. Даже с переключением между диалектами “на лету”.

📍 Кстати, про языки.
Во многих странах люди часто говорят на смеси языков. Это называется code-mixing: когда в одном предложении встречаются, например, русский и английский.

Типа: “Cмотря какой fabric, смотря сколько details

ASR-моделям такое обычно не нравится - они не понимают, на каком языке ты вообще говоришь.
Поэтому сейчас компании отдельно учат модели на “перемешанной” речи. Это сложно, но по-другому - просто не работает.

Вещи, о которых не задумываешься, пока не задумаешься

  1. Люди не говорят, как пишут.
    “Я там это… ну, хотел узнать, короче, вот это вот” - типичная реплика.
    И задача ASR - не просто записать ее как есть, а догадаться, что человек хочет, и превратить это в понятный запрос.

  2. Акцент - это не баг.
    Системы, которые пугаются акцента и начинают писать ерунду, - это не AI, а недоразумение.
    Хорошие модели сейчас учат на слух воспринимать акцент как норму.

  3. Один язык - это не один язык.
    У хинди - 10+ диалектов. У арабского - 17+. У английского... ну вы поняли.
    В тех же Нидерландах - фризский, голландский с акцентами, постоянное переключение на английский.
    И если ты не учитываешь это в модели - точность может падать в 2–3 раза.

  4. Микрофон может все испортить
    Да, у человека может быть чистая речь. Но если микрофон его “обрезает” по частотам - ASR будет угадывать, а не распознавать.
    Поэтому некоторые стартапы отдельно обучают модели на “плохом аудио”.

И что из этого?

Если коротко:
Голос - это единственный способ взаимодействия с технологиями для миллионов людей. Особенно в странах, где не все умеют читать, печатать, где интерфейсы сложные, а Wi-Fi нестабилен как подростковая самооценка.

И то, что кто-то научился понимать живую, шумную, неформатную речь, - это действительно круто. И за таким будущее.

#yalav #лаврикпропродукт

Дискуссия

Давай попроще, Руслан
Пока только Алису мучаю голосовыми командами и иногда поражает, как сквозь шум, много слов других людей, она улавливает, что я сказал.
Присоединиться к обсуждению →