В контексте задачи стабилизации рассмотрены системы управления

В.Н.Сорокин, В.В.Вьюгин, А.А.Тананыкин

Распознавание личности по голосу: аналитический обзор

Задача распознавания диктора по его голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются. Решение этой задачи может найти применение в криминалистике, радио-разведке, контр-разведке, антитерростическом мониторинге, обеспечение безопасности доступа к физическим объектам, информационным и финансовым ресурсам. В зависимости от конкретной задачи различают верификацию и идентификацию диктора. В первом случае пользователь указывает свой идентификатор, и требуется либо подтвердить его или отказать в подтверждении. Во втором случае необходимо идентифицировать диктора среди множества других дикторов.

В большинстве работ для распознавания диктора используются параметры в виде коэффициентов кепстра, который вычисляется по огибающей спектра, полученного через преобразование Фурье, с помощью гребенки фильтров, либо по передаточной функции речевого тракта, найденной методом линейного предсказания. В дополнение к коэффициентам кепстра используются также их первые и вторые разности по времени. Преимущество такого подхода заключается в вычислительной простоте, а также в том, что в кепстре отражаются индивидуальные характеристики голосового источника и анатомия речевого тракта. Вместе с тем, различительная способность такого описания ограничена, и поэтому значительные усилия сконцентрированы на разработке решающих правил. Наиболее популярны методы гауссовых смесей (GMM) и опорных векторов (SVM). Используются также искусственные нейронные сети и скрытые Марковские модели (HMM).

С целью сравнения различных методов распознавания диктора введен показатель равной ошибки (EER), определяющий ошибку распознавания при условии равенства вероятности пропуска самозванца и отказа законному пользователю. По результатам тестирования на одной и той же базе данных, регулярно проводимого в Национальном институте стандартов и технологий США (NIST), эта ошибка находится в диапазоне 3 – 5%, так что суммарная ошибка равна удвоенной величине, т.е. 6 – 10%.

КЛЮЧЕВЫЕ СЛОВА: распознавание диктора, верификация, идентификация, кепстр, преобразование Фурье, речевой тракт, индивидуальные характеристики голосового источника, анатомия речевого тракта