Использование глубокого обучения нейросети для распознавания голосовых команд пользователя. Аннотация.

"ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ" ISSN 1684-1719, N 11, 2019

оглавление выпуска DOI 10.30898/1684-1719.2019.11.18 текст статьи (pdf)

Использование глубокого обучения нейросети для распознавания голосовых команд пользователя

A. Г. Романюк¹ , А. Н. Смирнов¹, В. М. Антонова^1,2

¹ Московский государственный технический университет им. Н.Э. Баумана, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1

² Институт радиотехники и электроники им. В.А. Котельникова РАН, 125009, Москва, ул. Моховая, 11-7

Статья поступила в редакцию 19 ноября 2019 г.

Аннотация. Данная работа посвящена использованию сверточной нейронной сети для распознавания речи. Исследован способ обучения нейросети, произведенный на архиве из 7100 звуковых дорожек с проиндексированными метками, речевые сигналы в которых были преобразованы в log-mel спектрограммы. Обучение нейронной сети происходило на входящем сигнале, имеющем плавное распределение и нормализацию. В статье описана способность созданной сети распознавать разные произнесенные слова и определять, является ли входящий сигнал тишиной или фоновым шумом, что было достигнуто путем проработки 4000 образцов клипов шума. Рассматривается способность сети одновременно классифицировать несколько преобразованных входящих сигналов, независимо от точного положения речи во времени. Описан процесс создания виртуального устройства, способного считывать сигнал с микрофона с определенной частотой дискретизацией звука. В настоящей работе была получена нейросеть, которая может быть усовершенствована для понимания большего числа голосовых команд и использована в нескольких сферах жизнедеятельности человека.

Ключевые слова: нейронные сети, глубокое обучение, распознавание речи.

Abstract. This work is devoted to the use and development of speech recognition of neural networks. The process of neural network learning has been explored with the archive containing 7100 tracks with indexed tags. Speech signals in those tracks were converted into log-mel spectrograms. Neural network training has occurred onto an entering signal which possessed smooth distribution and normalization. The article describes the ability of the created network to recognize different spoken words and to determine whether the incoming signal is silence or a background noise which was achieved by working out 4000 samples of noise clips. The ability of the network to classify several converted incoming signals simultaneously regardless of the exact position of speech in time is investigated. The process of creating a virtual device that capable of reading the signal from a microphone with a certain sampling frequency of sound is described. The neural network has been obtained in this very project. It may be perfected for the comprehension of a bigger number of voice commands and use in various human activity spheres.

Keywords: neural networks, deep learning, speech recognition.

Для цитирования:

Романюк А.Г, Смирнов А.Н., Антонова В.М. Использование глубокого обучения нейросети для распознавания голосовых команд пользователя. Журнал радиоэлектроники [электронный журнал]. 2019. № 11. Режим доступа: http://jre.cplire.ru/jre/nov19/18/text.pdf. DOI 10.30898/1684-1719.2019.11.18