Статья 10321

Название статьи

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЭНЕРГЕТИЧЕСКОГО ОПЕРАТОРА ТИГЕРА 

Авторы

Алан Казанферович Алимурадов, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: alansapfir@yandex.ru 

Индекс УДК

004.934 

DOI

10.21685/2307-5538-2021-3-10 

Аннотация

Актуальность и цели. Сегментация речевых сигналов представляет собой обнаружение границ начала и окончания участков вокализованной, невокализованной речи и пауз. Точное обнаружение границ не только повышает качество сегментации речевого сигнала, но и уменьшает количество вычислительных операций. Целью работы является повышение эффективности сегментации на основе энергетического анализа речевых сигналов с помощью энергетического оператора Тигера. Материалы и методы. В работе использовался дифференциальный энергетический оператор Тигера 2-го порядка, позволяющий вычислять энергетические характеристики сигнала. Оператор Тигера обладает простотой, эффективностью и хорошей восприимчивостью к изменению амплитуды и частоты сигнала. Программная реализация способа была выполнена в среде математического моделирования © Matlab (MathWorks). Результаты. Разработан модернизированный способ сегментации речевых сигналов, обеспечивающий повышение эффективности обнаружения вокализованных, невокализованных участков и пауз. Суть способа заключается в энергетическом анализе фрагментов речевого сигнала с помощью энергетического оператора Тигера; анализе количества пересечений через нулевую ось и кратковременной энергии функции энергетической характеристики. Проведено исследование, в рамках которого оценивалась эффективность и помехоустойчивость модернизированного способа в сравнении с известными способами сегментации. Выводы. В соответствии с полученными результатами исследований выявлено, что за счет хорошей восприимчивости энергетического оператора Тигера к резким изменениям амплитуды и частоты сигнала модернизированный способ обеспечивает повышение эффективности сегментации на 2,97 и 2,49 % для ошибок 1-го и 2-го рода соответственно. 

Ключевые слова

обработка речи, сегментация речи, вокализованная и невокализованная речь, паузы, энергетический оператор Тигера 

 

 Скачать статью в формате PDF

Список литературы

1. Atal B., Rabiner L.R. A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition // IEEE Trans. Acoust. Speech Signal Process. 1976. Vol. 24, № 3. P. 201–212.
2. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. New Jersey : Prentice Hall, 2001. 980 p.
3. Childers D. G., Hand M., Larar J. M. Silent and voiced/unvoied/ mixed excitation (four-way), classification of speech // IEEE Transaction on ASSP. 1989. Vol. 37, № 11. P. 1771–1774.
4. Duda R. O., Hart P. E., Strok D. G. Pattern Classification. 2nd ed. New Jersey : A Wiley-Interscience Publ. John Wiley & Sons, Inc., 2001. 688 p.
5. Martin A., Charlet D., Mauuary L. Robust speech/non-speech detection using LDA applied to MFCC // IEEE International Conference on Acoustics, Speech, and Signal Processing : proceedings (Cat. No.01CH37221) (ICASSP2001) (May 7–11, 2001). Salt Lake City, UT, USA, 2001. Vol. 1. P. 237–240.
6. Hlavnička J., Čmejla R., Tykalová T. [et al.]. Automated analysis of connected speech reveals early biomarkers of Parkinson’s disease in patients with rapid eye movement sleep behaviour disorder // Scientific Reports. 2017. Vol. 7. 13 p.
7. Алимурадов А. К., Квитка Ю. С., Чураков П. П., Тычков А. Ю. Повышение точности измерения частоты основного тона на основе оптимизации процесса декомпозиции речевых сигналов на эмпирические моды // Измерение. Мониторинг. Управление. Контроль. 2018. № 4. С. 53–65.
8. Алимурадов А. К. Исследование частотно-избирательных свойств методов декомпозиции на эмпирические моды для оценки частоты основного тона речевых сигналов // Труды МФТИ. 2015. Т. 7, № 3. С. 56–68.
9. Алимурадов А. К., Тычков А. Ю. Применение метода декомпозиции на эмпирические моды для исследования вокализованной речи в задаче обнаружения стрессовых эмоций человека // Вестник Пермского национального исследовательского политехнического университета. Электротехника, информационные технологии, системы управления. 2020. № 3. С. 7–29.
10. Greenwood M.A., Kinghorn A. SUVing: automatic silence/unvoiced/voiced classification of speech // Undergraduate Coursework, Department of Computer Science, The University of Sheffield, UK, 1999. 4 p.
11. Saha G., Chakroborty S., Senapat S. A new silence removal and endpoint detection algorithm for speech and speaker recognition applications // Eleventh National Conference on Communications (NCC-2005) (Jan. 28–30, 2005). Kharagpur, India, 2005. P. 51–61.
12. Kaiser J. F. On a simple algorithm to calculate the ‘energy’ of a signal // International Conference on Acoustics, Speech, and Signal Processing (April 3–6, 1990). Albuquerque, NM, USA, 1990. Vol. 2. P. 381–384.
13. Abu-Shikhah N., Deriche M. A novel pitch estimation technique using the Teager energy // International Symposium on Signal Processing and Its Applications (ISSPA) (IEEE Cat. No.99EX359) (Aug. 22–25, 1999). Brisbane, Queensland, Australia, 1999. Vol. 1. P. 135–138.
14. Kvedalen E. Signal Processing Using the Teager Energy Operator and Other Nonlinear Operators : PhD dissertation, Department of Informatics. Oslo : University of Oslo, 2003. 121 p.
15. Жуйков В. Я., Харченко А. Н. Алгоритм классификации сегментов речевого сигнала // Электроника и связь. Тем. вып. «Электроника и нанотехнологии». 2009. Ч. 1. С. 130–137.
16. Bahoura M., Rouat J. Wavelet speech enhancement based on the teager energy operator // IEEE Signal Processing Letter. 2001. Vol. 8, № 1. P. 10–12. 

 

Дата создания: 09.11.2021 09:49
Дата обновления: 09.11.2021 10:31