Авторы |
Алимурадов Алан Казанферович, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, инженер-исследователь научно-исследовательского отдела, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), alansapfir@yandex.ru
|
Аннотация |
Актуальность и цели. Повседневный ритм окружающей среды требует от систем голосового управления (СГУ) возможности функционировать в условиях интенсивных помех. Из-за шумов разница между зарегистрированными речевыми командами и шаблонами (полученными в процессе обучения системы) возрастает, а эффективность СГУ стремительно ухудшается. По этой причине актуальным является повышение помехоустойчивости СГУ.
Материалы и методы. Для реализации помехоустойчивой обработки предложена модификация классической декомпозиции на эмпирические моды (ДЭМ) – комплементарная множественная ДЭМ. Для проведения исследований использовался пакет прикладных программ решения технических задач – MATLAB.
Результаты. Представлен краткий обзор существующих алгоритмов помехоустойчивой обработки. На основе метода комплементарной множественной ДЭМ разработан алгоритм помехоустойчивой обработки речевых команд для СГУ. Проведены исследования предложенного алгоритма, результаты которых подтверждают повышение помехоустойчивости в широком диапазоне помех (от 20 до –5 дБ) в среднем на 3,1 %.
Выводы. В соответствии с результатами исследований предложенный алгоритм помехоустойчивой обработки речевых команд рекомендуется для практического применения в СГУ, функционирующих в условиях интенсивных помех.
|
Список литературы |
1. Boll, S. Suppression of acoustic noise in speech using spectral subtraction / S. Boll // IEEE Trans. Acoust. Speech Signal Process. – 1979. – Vol. 27 (2). – P. 113–120. DOI: 10.1109/TASSP.1979.1163209.
2. Berstein, A. A hypothesized Wiener filtering approach to noisy speech recognition, in ICASSP / A. Berstein, I. Shallom. – Canada, Toronto, 1991. – P. 913–916.
3. Furui, S. Cepstral analysis technique for automatic speaker verification / S. Furui // IEEE Trans. Acoust. Speech Signal Process. – 1981. – Vol. 29 (2). – P. 254–272. DOI:10.1109/ TASSP.1981.1163530.
4. Viikki, O. A recursive feature vector normalization approach for robust speech recognition in noise / O. Viikki, D. Bye, K. Laurila // Proceedings of the ICASSP. – USA, Washington, 1998. – P. 733–736.
5. A de La Torre. A Rubio, Histogram equalization of speech representation for robust speech recognition / A de La Torre, A. Peinado, J. Segura, J. Perez-Cordoba, M. Benitez // IEEE Trans. Speech Audio Process. – 2005. – Vol. 13 (3). – P. 355–366.
6. Zhaohua, Wu. Ensemble empirical mode decomposition: A noise – assisted data analysis method / Wu Zhaohua, N. E. Huang // Advances in Adaptive Data Analysis. – 2009. – Vol. 1 (1). – P. 1–41.
7. Алимурадов, А. К. Оптимальный алгоритм обработки речевых команд для системы голосового управления / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. – 2015. – № 2 (14). – С. 139–149.
8. Алимурадов, А. К. Исследование оптимального алгоритма обработки речевых сигналов для системы голосового управления / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. – 2015. – № 4 (16). – С. 120–125.
9. Алимурадов, А. К. Применение методов декомпозиции на эмпирические моды в задаче фильтрации речевых сигналов в условиях интенсивных помех / А. К. Алимурадов, П. П. Чураков // Измерение. Мониторинг. Управление. Контроль. – 2016. – № 1 (15). – С. 4–14.
10. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Shen Zheng, R. L. Steven // Proceedings of the Royal Society of London A. – 1998. – Vol. 454. – P. 903–995.
11. Свидетельство о государственной регистрации базы данных № 2016620597. Верифицированная база речевых команд для систем голосового управления / Алимурадов А. К. //Программы для ЭВМ, базы данных, топологии интегральных микросхем. – заявл.16.03.2016 ; опубл. 12.05.2016.
|