Статья 11422

Название статьи

НОВЫЙ ПОДХОД СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЧАСТОТНО-ВРЕМЕННОГО АНАЛИЗА 

Авторы

Алан Казанферович Алимурадов, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: alansapfir@yandex.ru
Александр Юрьевич Тычков, доктор технических наук, профессор кафедры радиотехники и радиоэлектронных систем, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: tychkov-a@mail.ru
Петр Павлович Чураков, доктор технических наук, профессор кафедры информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: churakov-pp@mail.ru
Дмитрий Сергеевич Дудников, студент, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: dmitriy.s.gmpf@gmail.com 

Аннотация

Актуальность и цели. Точность сегментации речевых сигналов напрямую зависит от параметров, используемых для определения границ начала и окончания информативных фрагментов в слитном потоке речи. Целью работы является повышение эффективности сегментации «речь/пауза» за счет частотно-временного анализа речевых сигналов. Объектом исследования являются параметры, описывающие характеристики речи в частотной и временной областях. Предметом исследования является релевантность информативных параметров речевых сигналов задаче сегментации «речь/пауза». Материалы и методы. В работе использовались методы кратковременного анализа спектральных и энергетических характеристик речи на основе дискретного преобразования Фурье и энергетического оператора Тигера. Программная реализация предлагаемого способа была выполнена в среде математического моделирования © Matlab (MathWorks). Результаты. Предложен новый оригинальный подход сегментации «речь/пауза» на основе анализа значений средней частоты (в частотной области) и кратковременной энергии функции оператора Тигера (во временной области). Уникальностью предлагаемого подхода является вспомогательный алгоритм исправления ошибок сегментации «речь/пауза», разработанный на основе физиологических особенностей функционирования органов речевого аппарата при формировании слитного потока речи. Представлено краткое описание информативных параметров речевых сигналов, используемых для сегментации «речь/пауза» и подробно описан функционал предлагаемого подхода. Проведено исследование предлагаемого подхода на чистых и зашумленных речевых сигналах в сравнении с известными способами сегментации «речь/пауза». Выводы. В соответствии с полученными результатами исследования выявлено, что предлагаемый способ обеспечивает наилучшие результаты сегментации «речь/пауза» чистых и зашумленных речевых сигналов; использование отношения кратковременной энергии функции оператора Тигера к средней частоте в качестве информативного параметра обеспечивает максимальную релевантность к задаче сегментации; применение вспомогательного алгоритма исправления ошибочных статусов повышает эффективность сегментации. 

Ключевые слова

обработка речевых сигналов, сегментации «речь/пауза», преобразование Фурье, энергетический оператор Тигера 

 

 Скачать статью в формате PDF

Для цитирования:

Алимурадов А. К., Тычков А. Ю., Чураков П. П., Дудников Д. С. Новый подход сегментации речевых сигналов на основе частотно-временного анализа // Измерение. Мониторинг. Управление. Контроль. 2022. № 4. С. 80–92. doi:10.21685/2307-5538-2022-4-11 

 

Дата создания: 10.01.2023 13:46
Дата обновления: 10.01.2023 14:39