Использование глубокого обучения нейросети для распознавания
голосовых команд пользователя
A.
Г. Романюк1 , А. Н. Смирнов1, В. М. Антонова1,2
1 Московский
государственный технический университет им. Н.Э. Баумана, 105005,
Москва, 2-я Бауманская ул., д. 5, стр. 1
2 Институт
радиотехники и электроники им. В.А. Котельникова РАН,
125009, Москва, ул. Моховая, 11-7
Статья
поступила в редакцию 19 ноября 2019 г.
Аннотация. Данная
работа посвящена использованию сверточной нейронной сети для распознавания речи.
Исследован способ обучения нейросети, произведенный на архиве из 7100 звуковых
дорожек с проиндексированными метками, речевые сигналы в которых были
преобразованы в log-mel
спектрограммы. Обучение нейронной сети происходило на входящем сигнале, имеющем
плавное распределение и нормализацию. В статье описана способность созданной сети
распознавать разные произнесенные слова и определять, является ли входящий
сигнал тишиной или фоновым шумом, что было достигнуто путем проработки 4000
образцов клипов шума. Рассматривается способность сети одновременно
классифицировать несколько преобразованных входящих сигналов, независимо от
точного положения речи во времени. Описан процесс создания виртуального
устройства, способного считывать сигнал с микрофона с определенной частотой
дискретизацией звука. В настоящей работе была получена нейросеть, которая может
быть усовершенствована для понимания большего числа голосовых команд и
использована в нескольких сферах жизнедеятельности человека.
Ключевые
слова: нейронные сети, глубокое обучение, распознавание
речи.
Abstract. This
work is devoted to the use and development of speech recognition of neural
networks. The process of neural network learning has been explored with the
archive containing 7100 tracks with indexed tags. Speech signals in those tracks
were converted into log-mel spectrograms. Neural network training has occurred
onto an entering signal which possessed smooth distribution and normalization.
The article describes the ability of the created network to recognize different
spoken words and to determine whether the incoming signal is silence or a
background noise which was achieved by working out 4000 samples of noise clips.
The ability of the network to classify several converted incoming signals
simultaneously regardless of the exact position of speech in time is investigated.
The process of creating a virtual device that capable of reading the signal
from a microphone with a certain sampling frequency of sound is described. The
neural network has been obtained in this very project. It may be perfected for
the comprehension of a bigger number of voice commands and use in various human
activity spheres.
Keywords: neural
networks, deep learning, speech recognition.
Для цитирования:
Романюк
А.Г, Смирнов А.Н., Антонова В.М. Использование глубокого обучения
нейросети для распознавания голосовых команд пользователя. Журнал
радиоэлектроники [электронный журнал]. 2019. № 11. Режим доступа: http://jre.cplire.ru/jre/nov19/18/text.pdf. DOI
10.30898/1684-1719.2019.11.18