6 проблем, с которыми сталкивается ИИ в распознавании речи

Все крупные компании вкладывают средства в распознавание голоса, и мир медленно, но неуклонно приспосабливается к новой технологии искусственного интеллекта (ИИ). Так почему же это занимает так много времени, почему это еще не является частью нашей повседневной жизни? Вот 6 причин, почему.

Вы идете в магазин, чтобы найти определенный цвет и марку товара. Вы спрашиваете сотрудника, доступен ли нужный продукт. Сотрудник идет на склад, проверяет свой товарный инвентарь и возвращается через некоторое время, только чтобы сообщить вам, что ваш продукт больше не доступен.

Теперь представьте, что вы входите в тот же магазин и сообщаете крошечному устройству продукт, который хотите купить. В течение одной секунды голос сообщает вам о точной доступности вашего продукта и, если он недоступен, сообщает подробности о точках, где этот продукт доступен.

Устройство AI делает это путем внутреннего сканирования всех цифровых систем инвентаризации. С многочисленными преимуществами, связанными с логистикой затрат и, что более важно, удобством, почему искусство распознавания речи и личных помощников еще не усовершенствовано?

В то время как наука делает огромные успехи в распознавании звуковых волн, мы рассмотрим некоторые основные проблемы, с которыми сталкиваются исследователи при декодировании речи в текст.

Шум

Устройства записи голоса обнаруживают звуковые волны, которые генерируются через речь Фоновые шумы в комнатах затрудняют понимание и различие между отдельными звуковыми волнами и голосом хоста. Это размывает звук, воспринимаемый устройствами, сбивая с толку и ограничивая его возможности обработки.

эхо

Эхо - это, в основном, звуковые волны, отражающиеся на различных поверхностях, таких как стены, столы или другая мебель. Это приводит к неорганизованному возвращению звуковых волн обратно к рецепторам, что снижает четкость.

Акценты

Широкий спектр акцентов на каждом языке является еще одним фактором, который приводит к трудностям в распознавании речи. Если одно и то же слово может быть произнесено несколькими различными способами, слоги и фонетика одного и того же слова имеют тенденцию меняться, что усложняет процесс обработки машиной.

Похожие звуки

Подобные звучащие слова и фразы могут помешать правильному кодированию и декодированию голосового сообщения. Например, «Давайте разрушим хороший пляж» и «Давайте узнаем речь» фонетически очень похожи и могут легко запутать устройство.

Машинная ошибка

Уровни точности распознавания голоса имеют высокий уровень ошибок. Машины по-прежнему сталкиваются с примерно 8% -12% ошибок, что более чем в два раза больше, чем люди делают в своей повседневной речи. Ошибки в кодировании собранных данных имеют решающее значение для производительности, поскольку это первый шаг для устройств записи голоса.

Дезорганизованная речь

Объединение слов в наших ежедневных разговорах означает, что многие слова и фразы объединяются. Это не подходит для машинного и голосового распознавания текста, поскольку затрудняет распознавание определенных слов или фраз, которые будут влиять на последующий отклик и действия устройства.

В целом, какими бы продвинутыми ни были эти машины, вышеуказанные факторы будут и впредь препятствовать развитию помощников ИИ, движущихся вперед. Как бы быстро ни развивались наука и техника, все крупные компании сосредоточены на создании оптимальных устройств распознавания голоса, и рано или поздно их складки будут устранены, и у всех нас будет робот с поддержкой голоса, который будет управлять нашими домами. а также наши жизни.

Узнайте больше о событии RAF 100 и что такое STEM

Обязательно подпишитесь на нас в LinkedIn, чтобы получить доступ к нашему эксклюзивному контенту! # raf100event #WhatIsSTEM