ЖУРНАЛ РАДИОЭЛЕКТРОНИКИ. ISSN 1684-1719. 2021. № 6
Оглавление выпуска

Текст статьи (pdf)

English page

 

DOI https://doi.org/10.30898/1684-1719.2021.6.2

УДК 004.934.2

 

РАСПОЗНАВАНИЕ РЕЧИ КАК ОДИН ИЗ МЕТОДОВ ОПРЕДЕЛЕНИЯ ПСИХИЧЕСКОГО СОСТОЯНИЯ ЧЕЛОВЕКА

 

Б. Зандан 1, А. И. Баскаков 2, Б. Одсурэн 1,2

1 Институт Физики и Технологии Академии Наук Монголии, лаборатория радиоэлектроники, 13330, Улан-Батор, район Баянзурх, просп. Энхтайван, д. 54Б

2 Московский Энергетический Институт, кафедра радиотехнических приборов, 111250, Москва, ул. Красноказарменная, 14

 

Статья поступила в редакцию 4 июня 2021 г.

 

Аннотация. В данной работе мы исследовали работу нейронной сети для распознавания речи монгольского языка и эмоционального состояния в ней. Для эксперимента мы использовали часто используемые четыре слова, которые состоят из часто употребляемых согласных и гласных. Эмоциональные состояния в речи выбраны с учетом дальнейшего исследования изменения психических расстройств человека. Для анализа мы использовали базу данных речей 12 мужчин и женщин с восемью типами эмоций. Нейронная есть распознает слова по слогам с эффективностью до 96 процентов, а эмоции – до 80 процентов. Эти результаты показывают, что для дальнейшего анализа психических расстройств человека остается только собирать базу данных из речей пациентов соответствующих медицинских учреждений.

Ключевые слова: распознавание речи и эмоций, нейронная сеть, психическое состояние, эмоциональное состояние, монгольский язык.

Abstract. In this work, we investigated the work of a neural network for recognizing speech in the Mongolian language and the emotional state in it. For the experiment, we used four commonly used words, which are composed of frequently used consonants and vowels. Emotional states in the speech were selected taking into account further research on changes in human mental disorders. For the analysis, we used a database of speeches of 12 men and women with eight types of emotions. Neural eat recognizes words by syllables with an efficiency of up to 96 percent, and emotions - up to 80 percent. These results show that for further analysis of human mental disorders, it remains only to collect a database from the speeches of patients of the relevant medical institutions.

Keywords: speech and emotion recognition, neural network, mental state, emotional state, Mongolian language.

Литература

1. Badal V.D., Graham S.A., Depp C.A., Shinkawa K., Yamada Y., Palinkas L.A., Kim H.-C., Jeste D.V., Lee E.E. Prediction of Loneliness in Older Adults Using Natural Language Processing: Exploring Sex Differences in Speech. American Journal of Geriatric Psychiatry. 2020. https://doi.org/10.1016/j.jagp.2020.09.009.

2. Al Hanai T., Ghassemi M., Glass J. Detecting Depression with Audio/Text Sequence Modeling of Interviews. Proc. Interspeech. 2018. P.1716-1720. https://doi.org/10.21437/Interspeech.2018-2522.

3. Corcoran C.M., Carrillo F., Fernández‐Slezak D., Bedi G., Klim C., Javitt D.C., Bearden C.E., Cecchi G.A. Prediction of psychosis across protocols and risk cohorts using automated language analysis. World Psychiatry. 2018. Vol.17. P.67-75. https://doi.org/10.1002/wps.20491

4. Rezaii N., Walker E., Wolff P. A machine learning approach to predicting psychosis using semantic density and latent content analysis. NPJ Schizophr. 2019. No.5. P.9. https://doi.org/10.1038/s41537-019-0077-9

5. Andreasen N.C., Grove W.M. Thought, language, and communication in schizophrenia: diagnosis and prognosis. Schizophr Bull. 1986. Vol.12. No.3. P.48-59. https://doi.org/10.1093/schbul/12.3.348. PMID: 3764356.

6. Sanaullah M., Chowdhury M.H. Neural network based classification of stressed speech using nonlinear spectral and cepstral features. IEEE 12th International New Circuits and Systems Conference (NEWCAS). Trois-Rivieres, QC, Canada, 2014, P.33-36. https://doi.org/10.1109/NEWCAS.2014.693397

7. Ting K.M. Confusion Matrix. In: Sammut C., Webb G.I., editors.  Encyclopedia of Machine Learning. Springer, Boston, MA. 2011. https://doi.org/10.1007/978-0-387-30164-8_157

8. Shaw A., Vardhan R.K., Saxena S. Emotion Recognition and Classification in Speech using Artificial Neural Networks. International Journal of Computer Applications. 2016. Vol.145. No. 8.  

9. Gharavian D., Sheikhan M. (2010). Emotion Recognition and Emotion Spotting Improvement Using Formant-Related Features. Majlesi Journal of Electrical Engineering. 2010. Vol.4. No.4.

https://doi.org/https://doi.org/10.1234/mjee.v4i4.266

10. Banse R, Scherer K.R. Acoustic profiles in vocal emotion expression. J. Pers. Soc. Psychol. 1996. Vol.70. No.3. P.614-36. https://doi.org/10.1037/0022-3514.70.3.614.PMID:8851745.

11. Javidi M.M., Roshan E. Speech Emotion Recognition by Using Combinations of C5.0, Neural Network (NN), and Support Vector Machines (SVM) Classification Methods. Journal of Mathematics and Computer Science. 2013. No.6. P.191-200. https://doi.org/10.22436/jmcs.06.03.03.

12. Santhana Megala S., Padmapriya R., Jayanthi B., Suganya M. Detection And Classification Of Speech Pathology Using Deep Learning. International Journal of Scientific & Technology Research. 2019. Vol.8. No.12. P.3045-3051.

13. Afza N., Challa M., Mungara J. Speech Processing Algorithm For Detection Of Parkinson’s Disease. International Journal of Engineering Research & Technology (IJERT). 2013. Vol.2. No.4. P.1798-1803.

14. Hackett R.A., Hudson J.L., Chilcot J. Loneliness and type 2 diabetes incidence: findings from the English Longitudinal Study of Ageing. Diabetologia. 2020. Vol.63. P.2329–2338. https://doi.org/10.1007/s00125-020-05258-6.

15. Valtorta N.K., Kanaan M., Gilbody S., et al. Loneliness and social isolation as risk factors for coronary heart disease and stroke: systematic review and meta-analysis of longitudinal observational studies. Heart. 2016. No.102. P.1009-1016.

 

Для цитирования:

Зандан Б., Баскаков А.И., Одсурэн Б. Распознавание речи как один из методов определения психического состояния человека. Журнал радиоэлектроники [электронный журнал]. 2021. №6. https://doi.org/10.30898/1684-1719.2021.6.2