Авторы |
Алан Казанферович Алимурадов, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: alansapfir@yandex.ru
Александр Юрьевич Тычков, доктор технических наук, профессор кафедры радиотехники и радиоэлектронных систем, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: tychkov-a@mail.ru
Петр Павлович Чураков, доктор технических наук, профессор кафедры информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: churakov-pp@mail.ru
Дмитрий Сергеевич Дудников, студент, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: dmitriy.s.gmpf@gmail.com
|
Аннотация |
Актуальность и цели. Точность сегментации речевых сигналов напрямую зависит от параметров, используемых для определения границ начала и окончания информативных фрагментов в слитном потоке речи. Целью работы является повышение эффективности сегментации «речь/пауза» за счет частотно-временного анализа речевых сигналов. Объектом исследования являются параметры, описывающие характеристики речи в частотной и временной областях. Предметом исследования является релевантность информативных параметров речевых сигналов задаче сегментации «речь/пауза». Материалы и методы. В работе использовались методы кратковременного анализа спектральных и энергетических характеристик речи на основе дискретного преобразования Фурье и энергетического оператора Тигера. Программная реализация предлагаемого способа была выполнена в среде математического моделирования © Matlab (MathWorks). Результаты. Предложен новый оригинальный подход сегментации «речь/пауза» на основе анализа значений средней частоты (в частотной области) и кратковременной энергии функции оператора Тигера (во временной области). Уникальностью предлагаемого подхода является вспомогательный алгоритм исправления ошибок сегментации «речь/пауза», разработанный на основе физиологических особенностей функционирования органов речевого аппарата при формировании слитного потока речи. Представлено краткое описание информативных параметров речевых сигналов, используемых для сегментации «речь/пауза» и подробно описан функционал предлагаемого подхода. Проведено исследование предлагаемого подхода на чистых и зашумленных речевых сигналах в сравнении с известными способами сегментации «речь/пауза». Выводы. В соответствии с полученными результатами исследования выявлено, что предлагаемый способ обеспечивает наилучшие результаты сегментации «речь/пауза» чистых и зашумленных речевых сигналов; использование отношения кратковременной энергии функции оператора Тигера к средней частоте в качестве информативного параметра обеспечивает максимальную релевантность к задаче сегментации; применение вспомогательного алгоритма исправления ошибочных статусов повышает эффективность сегментации.
|
Для цитирования:
|
Алимурадов А. К., Тычков А. Ю., Чураков П. П., Дудников Д. С. Новый подход сегментации речевых сигналов на основе частотно-временного анализа // Измерение. Мониторинг. Управление. Контроль. 2022. № 4. С. 80–92. doi:10.21685/2307-5538-2022-4-11
|