Распознавание голоса

Биометрическая модальность распознавания голоса - это комбинация физиологических и поведенческих модальностей. Распознавание голоса - это не что иное, как распознавание звука. Он полагается на функции, на которые влияет -

Physiological Component - Физическая форма, размер и состояние голосовой связки, губ, зубов, языка и полости рта человека.
Behavioral Component - Эмоциональный статус человека во время разговора, акценты, тон, тональность, темп речи, бормотание и т. Д.

Система распознавания голоса

Распознавание голоса также называется распознаванием говорящего. Во время регистрации пользователь должен произнести слово или фразу в микрофон. Это необходимо для получения речевого образца кандидата.

Электрический сигнал с микрофона преобразуется в цифровой сигнал аналого-цифровым (АЦП) преобразователем. Он записывается в память компьютера в виде оцифрованного образца. Затем компьютер сравнивает и пытается сопоставить введенный голос кандидата с сохраненным оцифрованным образцом голоса и идентифицирует кандидата.

Методы распознавания голоса

Есть два варианта распознавания голоса - speaker dependent а также speaker independent.

Распознавание голоса в зависимости от говорящего основывается на знании конкретных характеристик голоса кандидата. Эта система изучает эти характеристики через голосовое обучение (или зачисление).

Систему необходимо обучить тому, чтобы пользователи приучили ее к определенному акценту и тону, прежде чем использовать ее для распознавания сказанного.
Это хороший вариант, если системой будет пользоваться только один пользователь.

Независимые от говорящего системы могут распознавать речь разных пользователей, ограничивая контексты речи, такие как слова и фразы. Эти системы используются для автоматизированных телефонных интерфейсов.

Они не требуют обучения системы на каждом отдельном пользователе.
Они являются хорошим выбором для использования разными людьми, когда не требуется распознавать речевые характеристики каждого кандидата.

Разница между распознаванием голоса и речи

Распознавание говорящего и распознавание речи ошибочно принимаются как одно и то же; но это разные технологии. Посмотрим, как -

Распознавание динамика (распознавание голоса)	Распознавание речи
Цель распознавания голоса - распознать, что говорит ВОЗ.	Распознавание речи направлено на понимание и понимание того, ЧТО было сказано.
Он используется для идентификации человека путем анализа его тона, высоты голоса и акцента.	Он используется в бесконтактных вычислениях, навигации по карте или меню.

Достоинства распознавания голоса

Легко реализовать.

Недостатки распознавания голоса

Чувствителен к качеству микрофона и шуму.
Невозможность контролировать факторы, влияющие на систему ввода, может значительно снизить производительность.
Некоторые системы проверки говорящего также подвержены атакам с использованием спуфинга через записанный голос.

Приложения распознавания голоса

Выполнение транзакций по телефону и через Интернет.
Работа с банковскими системами и системами здравоохранения на основе интерактивного голосового ответа (IRV).
Применение аудиоподписи к цифровым документам.
В развлекательных и экстренных службах.
В системах онлайн-образования.