"ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ" N 10, 2011

оглавление              текст:   html,   pdf   

МЕТОД РАЗРЕЖЕННЫХ ПРЕДСТАВЛЕНИЙ В ЗАДАЧЕ АВТОМАТИЧЕСКОЙ ТЕКСТОНЕЗАВИСИМОЙ ИДЕНТИФИКАЦИИ И ВЕРИФИКАЦИИ ДИКТОРА

 

Н. А. Любимов
 

Московский государственный университет им. М.В. Ломоносова,

факультет вычислительной математики и кибернетики

 

Получена 28 сентября 2011 г.

 

Аннотация. Задача текстонезависимой идентификации и верификации диктора (также называемая открытой задачей идентификации) является на сегодняшний день одной из наиболее важных в контексте моделирования систем распознавания человеческой речи. В данной статье описан подход, использующий метод разреженных представлений для повышения качества распознавания диктора. Эффективность предложенного подхода была продемонстрирована в рамках двух независимых экспериментов на базе фонограмм телефонного качества. Исследования показали, что применение метода разреженных представлений в открытой задаче идентификации диктора позволяет более чем в полтора раза снизить эквивалентную ошибку, повысив при этом точность идентификации.

Ключевые слова: автоматическая идентификация и верификация диктора, мел-кепстральные коэффициенты (MFCC), метод разреженных представлений, супервектор многомерных нормальных распределений, база данных телефонного качества.

Abstract. Text-independent speaker identification and verification (a.k.a. open-set speaker identification) is one of the most important problems in design of automatic speech recognition systems. This paper describes the method based on sparse representations that enhances recognition accuracy. The effectiveness of the proposed approach is demonstrated using two independent evaluations with phone-quality speech signals. It is shown that applying sparse representations in the open-set speaker identification problem reduces the equal error rate by more than half, while considerably increasing the identification rate.

Keywords: automatic speaker identification and verification, Mel-Frequency Cepstral Coefficients (MFCC), sparse representations, GMM supervector, phone-quality audio database.