Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот

Рассмотрена задача слепой деконволюции речевых сигналов при наличии фоновых шумов. Предложен эффективный метод детектирования и устранения влияния передаточной функции среды, основанный на анализе линейных спектральных частот искаженного сигнала. Его принципиальное преимущество перед существующими п...

Full description

Saved in:
Bibliographic Details
Date:2003
Main Authors: Калюжный, А.Я., Семенов, В.Ю.
Format: Article
Language:Russian
Published: Інститут гідромеханіки НАН України 2003
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/981
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот / А.Я. Калюжный, В.Ю. Семенов // Акуст. вісн. — 2003. — Т. 6, N 3. — С. 34-43. — Бібліогр.: 28 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860061004387319808
author Калюжный, А.Я.
Семенов, В.Ю.
author_facet Калюжный, А.Я.
Семенов, В.Ю.
citation_txt Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот / А.Я. Калюжный, В.Ю. Семенов // Акуст. вісн. — 2003. — Т. 6, N 3. — С. 34-43. — Бібліогр.: 28 назв. — рос.
collection DSpace DC
description Рассмотрена задача слепой деконволюции речевых сигналов при наличии фоновых шумов. Предложен эффективный метод детектирования и устранения влияния передаточной функции среды, основанный на анализе линейных спектральных частот искаженного сигнала. Его принципиальное преимущество перед существующими подходами состоит в адаптивном учете помехи в структуре алгоритма. Разработана эффективная процедура локализации посторонних резонансов, основанная на анализе разностей линейных спектральных частот. С целью устранения эффекта ``усиления шума'' использован алгоритм блочной калмановской фильтрации. Эффективность результирующего метода проверена на искусственных и реальных искажениях речевых сигналов. Предлагаемый подход характеризуется более низкими вычислительными затратами по сравнению с рядом современных методов слепой деконволюции речевых сигналов. Розглянуто задачу сліпої деконволюції мовних сигналів в умовах присутності фонових шумів. Запропоновано ефективний метод детектування та компенсації впливу передаточної функції середовища, який базується на аналізі лінійних спектральних частот спотвореного сигналу. Його принципова перевага перед існуючими підходами полягає в адаптивному урахуванні шуму в структурі алгоритму. Розроблено ефективну процедуру локалізації сторонніх резонансів, засновану на аналізі різниць лінійних спектральних частот. З метою усунення ефекту ``підсилення шуму'' використано алгоритм блокової калманівської фільтрації. Ефективність результуючого методу перевірено на штучних і реальних спотвореннях мовних сигналів. Запропонований підхід характеризується більш низькими обчислювальними витратами, у порівнянні з низкою сучасних методів сліпої деконволюції мовних сигналів. A problem of the blind deconvolution of speech signals at presence of noise background is considered. An effective method of detection and compensation of media transfer function is proposed. The method is based on the analysis of line spectral frequencies of a distorted signal. Its principal advantage over existing approaches is an adaptive noise compensation inside the structure of the algorithm. An effective procedure of localization of media resonances, based on the analysis of differences of line spectral frequencies, is developed. To diminish the ``noise enhancement'' effect a block Kalman filter is used. The effectiveness of the resulting method is verified on artificial and real distortions of speech signals. The proposed approach is characterized by lower computational expenses in comparison to the number of modern blind deconvolution of speech signals methods.
first_indexed 2025-12-07T17:04:41Z
format Article
fulltext ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 УДК 621.391:534.78 МЕТОД СЛЕПОЙ ДЕКОНВОЛЮЦИИ РЕЧЕВЫХ СИГНАЛОВ, ОСНОВАННЫЙ НА АНАЛИЗЕ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ ЧАСТОТ А. Я. КА ЛЮЖ НЫЙ∗, В. Ю. С ЕМЕ НОВ∗∗ ∗Научно-производственное предприятие “Дельта”, Киев ∗∗Институт гидромеханики НАН Украины, Киев Получено 02.10.2003 Рассмотрена задача слепой деконволюции речевых сигналов при наличии фоновых шумов. Предложен эффектив- ный метод детектирования и устранения влияния передаточной функции среды, основанный на анализе линейных спектральных частот искаженного сигнала. Его принципиальное преимущество перед существующими подхода- ми состоит в адаптивном учете помехи в структуре алгоритма. Разработана эффективная процедура локализации посторонних резонансов, основанная на анализе разностей линейных спектральных частот. С целью устранения эффекта “усиления шума” использован алгоритм блочной калмановской фильтрации. Эффективность результи- рующего метода проверена на искусственных и реальных искажениях речевых сигналов. Предлагаемый подход характеризуется более низкими вычислительными затратами по сравнению с рядом современных методов слепой деконволюции речевых сигналов. Розглянуто задачу слiпої деконволюцiї мовних сигналiв в умовах присутностi фонових шумiв. Запропоновано ефек- тивний метод детектування та компенсацiї впливу передаточної функцiї середовища, який базується на аналiзi лiнiйних спектральних частот спотвореного сигналу. Його принципова перевага перед iснуючими пiдходами поля- гає в адаптивному урахуваннi шуму в структурi алгоритму. Розроблено ефективну процедуру локалiзацiї стороннiх резонансiв, засновану на аналiзi рiзниць лiнiйних спектральних частот. З метою усунення ефекту “пiдсилення шу- му” використано алгоритм блокової калманiвської фiльтрацiї. Ефективнiсть результуючого методу перевiрено на штучних i реальних спотвореннях мовних сигналiв. Запропонований пiдхiд характеризується бiльш низькими об- числювальними витратами, у порiвняннi з низкою сучасних методiв слiпої деконволюцiї мовних сигналiв. A problem of the blind deconvolution of speech signals at presence of noise background is considered. An effective method of detection and compensation of media transfer function is proposed. The method is based on the analysis of line spectral frequencies of a distorted signal. Its principal advantage over existing approaches is an adaptive noise compensation inside the structure of the algorithm. An effective procedure of localization of media resonances, based on the analysis of differences of line spectral frequencies, is developed. To diminish the “noise enhancement” effect a block Kalman filter is used. The effectiveness of the resulting method is verified on artificial and real distortions of speech signals. The proposed approach is characterized by lower computational expenses in comparison to the number of modern blind deconvolution of speech signals methods. ВВЕДЕНИЕ В настоящее время все более широкое разви- тие получают системы автоматического распозна- вания речи, а также системы верификации и иден- тификации дикторов [1,2]. Их наиболее современ- ные варианты допускают режим дистанционного применения (например, речевое управление по те- лефонным каналам системами жизнеобеспечения жилого дома, дистанционная верификация клиен- тов банка по речевому паролю и т. д.). Одной из наиболее сложных проблем при создании таких дистанционных систем является коррекция канала связи. Суть проблемы состоит в том, что в каждом конкретном случае речевые эталоны, используе- мые системой, получаются в совершенно опреде- ленных условиях с точки зрения как акустиче- ской обстановки, так и характеристик используе- мых линий связи. На практике же реальные усло- вия при использовании системы могут заметно отличаться от эталонных, что должно приводить к ошибкам распознавания. Для преодоления этих трудностей в системы дистанционного распозна- вания в качестве начального устройства следует включать корректор (эквалайзер) канала [2], т. е. устройство, которое приводит речевой сигнал к условиям, максимально близким к эталонным. В традиционной технике связи проблема корре- кции обычно решается за счет использования на начальном этапе соединения специальных измери- тельных сигналов, по которым оценивается им- пульсная переходная характеристика (ИПХ) ка- нала [3]. Однако такой подход не всегда возмож- но применить в системах дистанционного распо- знавания речи. Кроме того, он не обеспечивает учета акустических характеристик среды. Исхо- дя из этого, единственной возможностью остается оценивание суммарной характеристики канала и акустической среды непосредственно по информа- ционному акустическому сигналу. Поскольку этот сигнал заранее неизвестен, такая задача получила название слепого выравнивания (blind equalizati- 34 c© А. Я. Калюжный, В. Ю. Семенов, 2003 ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 on) или слепой деконволюции. Формально поста- новку задачи слепой деконволюции можно пред- ставить соотношением z(n) = s(n) ⊗ h(n) + v(n), (1) в котором регистрируемый сигнал z(n) представ- ляет собой сумму свертки речевого сигнала s(n) с неизвестной ИПХ среды h(n) и фонового шума v(n). Задачи слепой деконволюции известны и в ар- хитектурной акустике (например, при устранении влияния реверберации помещений). В последнее время приобрела популярность идея восстанов- ления сигнала с помощью кепстрального подхо- да [4, 5]. Заметим, однако, что используемые до сих пор в акустике методы базируются на много- канальном приеме сигнала – в нескольких (двух и более) точках акустической среды. В то же вре- мя, в силу специфики использования систем ди- станционного распознавания, для обработки до- ступен, как правило, только один канал. Задача же одноканальной слепой деконволюции является чрезвычайно сложной и нетрадиционной для аку- стики. Один из первых методов одноканальной слепой деконволюции, предложенный в работе [6], осно- ван на идее относительной стационарности иска- жающего воздействия. Этот метод применялся, в частности, к восстановлению старинных зву- козаписей. Однако в нем подразумевается нали- чие опорного сигнала, сходного по своим спе- ктральным характеристикам с сигналом, подле- жащим восстановлению. Несмотря на эффектив- ность полученных частных результатов, очевидно, что данный подход имеет весьма ограниченную область применения. Существенным продвижением в направлении решения задач одноканальной слепой деконволю- ции сигналов стал метод, предложенный в рабо- тах [7, 8]. Принципиальным его отличием было использование специальных математических мо- делей среды и полезного сигнала. Полюсная модель передаточной функции среды Дискретная передаточная функция линейного объекта в общем случае может быть представлена в следующем каноническом виде [9] (коэффициент усиления опущен, так как он может быть учтен в модели полезного сигнала): H(z) = n∑ l=0 dlz −l m∑ k=0 ckz−k = n∏ l=1 (1 − δlz −1) m∏ k=1 (1 − γkz−1) , (2) т. е. она содержит как полюса γk, k=1, 2, . . ., m, так и нули δl, l=1, 2, . . . , n. Однако в очень ши- роком классе задач слепой деконволюции рече- вых сигналов можно ограничиться рассмотрени- ем дискретной передаточной функции, содержа- щей только полюса. Помимо того, что произволь- ный амплитудный спектр всегда может быть ап- проксимирован спектром полюсной модели доста- точно большого порядка [10], существуют и бо- лее веские “физические” причины, обосновываю- щие такое упрощение. Так, в случае старинных звукозаписей искаже- ния сводятся в основном к появлению в сигна- ле практически неизменных во времени посторон- них резонансов, вносимых записывающим устрой- ством. Как известно, значение резонансной часто- ты и ее интенсивность определяются парой ком- плексно сопряженных полюсов1. Поэтому переда- точная функция искажающего воздействия может быть представлена полюсной моделью, порядок которой вдвое превосходит количество резонан- сных частот записывающего тракта. Всеполюсная модель пригодна и для описа- ния искажений, вносимых реверберацией поме- щений. Нули передаточной функции помещения характеризуют локальные взаимопогашения зву- ковых волн, распространяющихся внутри его в результате многократных отражений от стен [8, 11]. Поэтому они очень чувствительны к изме- нениям во взаимном расположении источника и приемника сигнала. В то же время, полюса пе- редаточной функции помещения характеризуют резонансы данного замкнутого объема, которые практически не изменяются при изменении про- странственной конфигурации системы “источник – приемник” [11]. Кроме того, порядок полюсной модели помещения может оказаться значительно меньшим по сравнению с порядком соответствую- щей всенулевой модели [8]. Дополнительным аргументом для использова- ния всеполюсной модели передаточной функции среды служит то, что “провалы” в спектре ре- зультирующего сигнала, определяемые нулями 1Резонансная частота, соответствующая паре полюсов γ1,2 =r exp(±iφ), определяется как fрез. =φfs/(2π) (fs – ча- стота дискретизации), а соответствующая ширина полосы есть B=−fs ln r/π. А. Я. Калюжный, В. Ю. Семенов 35 ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 z-преобразования, значительно менее важны с точки зрения правильного восприятия звуков по сравнению с пиками АЧХ (они характеризуются полюсами) [13]. Другими словами, человеческий слух значительно менее восприимчив к спектраль- ным нулям. Вследствие этого всеполюсная модель может быть принята для описания очень широкого класса искажающих воздействий сверточного ти- па2. Авторегрессионная модель речеобразования Большинство современных методов обработки речи также основаны на использовании полюсной (авторегрессионной) модели речеобразования [12]. В ней речевой сигнал s(n) представляется как ре- зультат прохождения управляющего (возбуждаю- щего) процесса w(n) через полюсной фильтр Hs(z) = g 1 + p∑ k=1 akz−k , (3) где коэффициент усиления g характеризует уро- вень сигнала, а авторегрессионные (АР) коэффи- циенты ak, k=1, 2, . . . , p определяют форму голо- сового тракта в момент произнесения звука. По- рядок АР модели p, как правило, выбирается в пределах от 8 до 20. Возбуждающий процесс мо- делирует поток воздуха на выходе голосовых свя- зок человека. В задачах обработки речевых сиг- налов обычно считается, что параметры АР мо- дели неизменны на временных интервалах длиной 10÷30 мс (свойство квазистационарности). Подход к идентификации ИПХ среды, представ- ленный в работах [7,8], основан на том, что полюса z-преобразования искаженного сигнала, соответ- ствующие передаточной характеристике среды, не меняют своего расположения внутри единичного круга с течением времени (или изменяются очень медленно). В результате накопления гистограмм полюсов искаженного сигнала отбирались те по- люса, которые преобладали на общем фоне. Это давало возможность идентифицировать знамена- тель дискретной передаточной функции (2). Главным недостатком такого подхода является неучет влияния фонового шума. Общеизвестно, что оценки АР коэффициентов, полученные с по- мощью автокорреляционного и ковариационного 2Использование полюсной модели искажающего воздей- ствия избавляет нас от решения трудной задачи постро- ения обратного фильтра [14, 15]. Действительно, таковым будет фильтр с конечной импульсной характеристикой, ко- эффициенты которого совпадают с оценками коэффициен- тов знаменателя дискретной передаточной функции. методов линейного предсказания, становятся нена- дежными даже при относительно небольшом уров- не фоновых помех [16, 17]. Поэтому анализ полю- сов искаженного сигнала, основанный на исполь- зовании традиционных методов, может изначаль- но привести к принципиально неверному решению относительно присутствия в сигнале посторонних искажений или обеспечить в корне неправильную оценку передаточной характеристики искажающе- го воздействия. Другой важный недостаток указанной методи- ки состоит в том, что вычисление комплексных корней полиномов традиционно является нежела- тельным элементом для систем цифровой обра- ботки сигналов (ЦОС), работающих в режиме ре- ального времени, поскольку приводит к непред- сказуемым временным задержкам и подвержено накоплению ошибок округления. Это становится особенно заметным при рассмотрении АР моделей относительно высоких порядков. В работах [8, 18] представлены альтернативные подходы, основанные на оценивании АР параме- тров искаженного сигнала по методу максиму- ма апостериорной вероятности, а также методе Монте-Карло и квантователе Гиббса [19]. Несмот- ря на серьезную теоретическую обоснованность, они имели очевидный недостаток, связанный с отсутствием сколько-нибудь определенной инфор- мации об априорных распределениях АР параме- тров речи. Отсутствие надежных методов глобаль- ной максимизации функций многих переменных, с одной стороны, и недопустимо высокие (с точ- ки зрения устройств реального времени) вычисли- тельные затраты метода Монте-Карло, с другой, являются дополнительными объективными пре- пятствиями для использования этих алгоритмов в системах ЦОС. Концептуально упомянутые ме- тоды основывались на построении итерационного процесса, на каждом шаге которого обновляется оценка АР параметров сигнала. Однако использо- вание вектора АР коэффициентов в качестве пере- менной итерационного алгоритма крайне нежела- тельно, так как даже очень малые погрешности их вычисления могут привести к существенным изме- нениям в спектре восстановленного сигнала [20]. Кроме того, здесь по-прежнему не затрагивалась проблема учета фонового шума. Отметим также, что ни в одном из перечислен- ных источников (за исключением частного слу- чая, описанного в [6]) не учитывался эффект “noi- se enhancement” (усиления шума), заключающий- ся в том, что пропускание сигнала через фильтр, обратный идентифицированному, приводит к по- 36 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 явлению аддитивной помехи v1(n) со спектром V̂1(ω)=V1(ω)/Ĥ(ω). Даже если уровень исходно- го шума был приемлемым, возникающая аддитив- ная помеха способна настолько ухудшить качество сигнала, что улучшение, достигнутое благодаря устранению влияния передаточной функции сре- ды, нивелируется. В связи с указанными недостатками существую- щих подходов, предлагается новый эффективный метод детектирования и устранения влияния пе- редаточной функции среды, основанный на анали- зе линейных спектральных частот (ЛСЧ) наблю- даемого сигнала. Его принципиальным преимуще- ством является адаптивный учет помехи в струк- туре алгоритма. Помимо повышения надежности получаемых результатов, это позволяет исклю- чить возможность идентификации окрашенного шума с сильно выраженной резонансной структу- рой как “полюсного” искажения (это было свой- ственно, в частности, подходу, описанному в [7,8]). Кроме того, предложена эффективная процедура локализации резонансов, основанная на анализе разностей ЛСЧ. С целью устранения эффекта уси- ления шума введена фильтрационная процедура, использующая блочный фильтр Калмана, предло- женный в работе [21]. Отметим, что обсуждаемый подход характеризуется принципиально более низ- кими вычислительными затратами по сравнению с методикой [7,8]. 1. СВЯЗЬ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ ЧАСТОТ С ФОРМАНТАМИ РЕЧЕВЫХ СИГ- НАЛОВ В настоящее время наиболее популярным спосо- бом частотного представления АР параметров яв- ляются линейные спектральные частоты (см. обзо- ры [20, 22]). Формально ЛСЧ ωk, k=1, 2, . . . , p можно определить как аргументы корней полино- мов G1(z) и G2(z), лежащие в диапазоне (0, π). Упомянутые полиномы получаются из исходного отбеливающего полинома A(z) = 1 + p∑ k=1 akz−k следующим образом:    G1(z) = A(z) + z−p−1A(z−1) 1 + z−1 , G2(z) = A(z) − z−p−1A(z−1) 1 − z−1 . (4) Заметим, что корни полиномов G1(z) и G2(z) ле- жат на единичной окружности и чередуются ме- Рис. 1. Нули полиномов A(z), G1(z) и G2(z) Рис. 2. Взаимное расположение формантных частот и соответствующих ЛСЧ жду собой [23]. Учитывая тесную связь величин ωk с формантными частотами (см. ниже), будем по- дразумевать под ЛСЧ значения fk =ωkfs/(2π), ле- жащие в диапазоне (0, fs/2), где fs – частота дис- кретизации. С точки зрения решения задачи компенса- ции передаточной функции среды, наиболее важ- ным является свойство ЛСЧ, характеризующее их взаимосвязь с формантными частотами. Рас- смотрим в качестве примера фрагмент речево- го сигнала длиной 20 мс (160 дискретных отсче- тов при fs =8000 Гц), произносимого диктором- мужчиной, и вычислим соответствующие АР ко- эффициенты с помощью автокорреляционного ме- тода [12]. На рис. 1 показано расположение ну- А. Я. Калюжный, В. Ю. Семенов 37 ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 лей исходного полинома A(z) и нулей полиномов G1(z), G2(z), соответствующих ЛСЧ. Корни A(z) обозначены маркерами “∗”, а нули G1(z) и G2(z) – “+” и “◦” соответственно. Амплитудно-частотная характеристика АР фильтра 1/A(z) и расположе- ние соответствующих ЛСЧ приведены на рис. 2 (ЛСЧ, соответствующие полиному G1(z) обозна- чены сплошной линией, а G2(z) – штриховой). Из рис. 1 видно, что пары соседних ЛСЧ стремя- тся ограничить те комплексные полюса, которые находятся близко к единичной окружности, т. е. именно те, которые определяют резонансные ча- стоты в спектре сигнала. Чем ближе к единичной окружности находится полюс (чем сильнее выра- жена в спектре сигнала соответствующая резонан- сная частота), тем точнее он аппроксимируется па- рой ЛСЧ. И наоборот, чем дальше от единичного круга находится полюс, тем дальше друг от друга отстоят ЛСЧ в соответствующей паре. Это под- тверждает и рис. 2, показывающий, что каждая формантная частота окружена набором из двух или трех ЛСЧ, а ширина полосы соответствующе- го резонансного пика зависит от их близости. Ука- занная особенность ЛСЧ играет важную роль при разработке и обосновании предлагаемого метода детектирования и устранения искажений, вноси- мых средой передачи речевых сообщений. Отметим, что подсчет ЛСЧ характеризуется принципиально более низкими вычислительными затратами по сравнению с поиском комплексных корней полиномов. Эффективный метод вычис- ления ЛСЧ, обладающий рядом существенных преимуществ перед аналогами, предложен в рабо- те [20]. Создание метода компенсации влияния пе- редаточной функции среды, основанного на ана- лизе ЛСЧ, особенно важно, поскольку вычисле- ние ЛСЧ является неотъемлемой частью подавля- ющего большинства современных систем сжатия речевых сигналов [22, 24], а также ряда алгори- тмов распознавания речи и идентификации дикто- ра [25,26]. 2. АЛГОРИТМ ПОМЕХОУСТОЙЧИВОЙ ДЕ- КОНВОЛЮЦИИ РЕЧЕВЫХ СИГНАЛОВ Исходя из упомянутых свойств ЛСЧ, можно сделать вывод о характере их распределения в речевом сигнале, искаженном полюсным филь- тром. Определенные пары ЛСЧ должны посто- янно группироваться вокруг резонансов, характе- ризующих искажающий фильтр. Это обстоятель- ство позволяет эффективно локализовать часто- тные диапазоны, в которых присутствуют посто- ронние резонансы. Подход, основанный на постро- ении общей гистограммы распределения ЛСЧ, не является универсальным решением, поскольку во многих случаях, не связанных с присутствием в сигнале полюсных искажений, некоторые ЛСЧ мо- гут обладать очень малой дисперсией. Это приво- дит к преобладанию в общей гистограмме соответ- ствующих средних значений. Более конструктив- ным является рассмотрение разностей, характери- зующих близость смежных ЛСЧ: dk = fk − fk−1, k = 2, . . . , p. (5) Перейдем к построению критерия, определяю- щего наличие или отсутствие на некотором вре- менном фрейме резонансной структуры. Будем полагать, что наличие на фрейме пары ЛСЧ, удаленных друг от друга менее, чем на некото- рую критическую величину ∆fкр., свидетельству- ет о наличии резонанса, заключенного между эти- ми частотами. Экспериментально установлено, что в качестве ∆fкр. целесообразно принять 125 Гц. Относительно небольшие отклонения от этой по- роговой величины не приводили к существенным отличиям в получаемых результатах. Отметим, что “заподозренный” таким образом резонанс мо- жет принадлежать как сигналу, так и передато- чной функции среды. Однако при проведении на- копления всех подозрительных полюсов те из них, которые соответствуют полезному сигналу, не дол- жны быть заметны на общем фоне в силу нестаци- онарности речи. Отметим, что в работе [27], в ко- торой рассматривалось использование разностей ЛСЧ для компрессии речевых сигналов, отмеча- лось, что при отсутствии искажений величины dk (5) характеризуются ограниченным диапазо- ном изменения и относительной инвариантностью для разных дикторов. Это облегчает обнаружение отклонений в распределении разностей ЛСЧ, вы- званных наличием полюсных искажений. Предлагаемый алгоритм обнаружения искаже- ний, вносимых передаточной функцией среды, со- стоит из выполнения на каждом фрейме следую- щих действий. 1. Подсчитывается автокорреляционная функ- ция (АКФ) зашумленного сигнала (1): Rz(k), k=0, 1, 2, . . . , p. 2. Вычисляется оценка АКФ свертки s ⊗ h: R̂s⊗h(k) = Rz(k) − R̂v(k), k = 0, 1, 2, . . . , p, (6) где АКФ помехи R̂v(k) оценивается адаптив- но по фреймам с наименьшей энергией. Поми- 38 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 мо этого, на каждом фрейме производится эк- споненциальное усреднение полученной АКФ R̂s⊗h с коэффициентом усреднения α=0.98. 3. Путем применения процедуры Левинсона – Дарбина [12] к АКФ R̂s⊗h определяются пре- дварительные оценки b̂ (0) s⊗h АР коэффициен- тов сигнала s ⊗ h, соответствующие данному фрейму. 4. Значения параметров b̂ (0) s⊗h уточняются с по- мощью одной итерации алгоритма [16]. В результате получаем оценки коэффициентов b̂ (1) s⊗h. 5. Полученные коэффициенты b̂ (1) s⊗h преобразую- тся в набор ЛСЧ fk, k=1, . . . , p в соответствии с алгоритмом, предложенным в работе [20]. 6. В наборе ЛСЧ выделяются пары {f (1,1), f (1,2)}, . . . , {f (m′,1), f (m′ ,2)}, уда- ленные друг от друга менее чем на величину ∆fкр.. 7. Каждой из отобранных таким образом пар {f (k,1), f (k,2)}, k=1, . . . , m′ ставится в соответствие пара резонансных полюсов z (k) 1,2 =re±iφ, где φ = π f (k,1) + f (k,2) fs , k = 1, 2, . . . , m′, (7) r= √ 1+cos ( 2π f (k,1) fs ) −cos ( 2π f (k,2) fs ) , k = 1, 2, . . ., m′. (8) Полученные комплексные полюса выводятся на общую гистограмму. 8. На завершающей стадии из общей гисто- граммы отбираются наиболее интенсивные полюса, преобразуемые затем по стандар- тным формулам в оценки коэффициентов знаменателя передаточной функции среды ĉk, k=0, 2, . . . , m [28, с. 38]. Из формулы (7) видно, что оценки резонансных частот искажающего воздействия вычисляются в виде полусуммы “окаймляющих” ЛСЧ. Что каса- ется определения модулей резонансных полюсов, то соотношение (8), вообще говоря, в точности выполняется лишь в случае АР модели второго по- рядка. Однако, поскольку спектр сигнала в райо- не резонансного пика может быть описан моделью второго порядка с ЛСЧ, близкими к (f (k,1), f (k,2)), такая аппроксимация вполне оправдана. Отметим, что предложенная методика детекти- рования полюсных искажений фактически вклю- чает в себя детектор пауз. Этот факт весьма ва- жен, поскольку во многих случаях (например, в дереверберационных задачах) влияние передато- чной функции среды не проявляется в паузах. Отсутствие же резонансной структуры приводит к относительно равномерному распределению ЛСЧ. Следовательно, предлагаемый метод просто “не принимает во внимание” паузы (они составляют, как правило, не менее 40 ÷ 50 % от общей про- должительности речевых сигналов). В противо- положность этому, метод построения полюсных гистограмм, предложенный в [7, 8], осуществляет поиск нулей знаменателя передаточной функции на всех фреймах без исключения. Это, безусловно, затрудняет детектирование влияния передаточной функции среды. Помимо этого, согласно предла- гаемому нами методу построение полюсных гисто- грамм осуществляется, минуя процесс вычисления комплексных корней уравнений, что соответству- ет принципиально более низким вычислительным затратам. Следует заметить, что в рамках предложенного алгоритма происходит автоматическая идентифи- кация порядка искажающего воздействия m. При этом делается допущение, что значение m явля- ется меньшим порядка АР модели p, с которым ведется анализ наблюдаемого сигнала. Это допу- щение справедливо во многих задачах обработ- ки речевых сигналов, в которых типичные зна- чения p от 8 до 30 превосходят удвоенное коли- чество основных посторонних резонансов. В за- дачах акустической дереверберации речевых сиг- налов, где порядок искажающего воздействия мо- жет быть значительно выше, более конструктив- ным решением является использование отдельных АР моделей сравнительно небольших порядков в каждом из относительно узких частотных подди- апазонов [8,13]. После того, как идентифицирована передато- чная характеристика среды, необходимо восстано- вить исходный речевой сигнал. Поскольку свертка s ⊗ h является АР процессом порядка (p + m), то к оцениванию такого сигнала в присутствии шума v(n) может быть применен блочный фильтр Кал- мана (БФК), разработанный в работе [21]. Одна из базовых идей данного алгоритма – использо- вание квантов АР параметров {ar , gr} (r – номер кванта), вычисленных заранее по сформирован- ным с участием различных дикторов тестовым ре- чевым массивам. На каждом фрейме зашумленно- А. Я. Калюжный, В. Ю. Семенов 39 ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 Рис. 3. Усредненный спектр помехи внутри салона автомобиля Рис. 4. Гистограмма распределения полюсов (предлагаемая методика) Рис. 5. Гистограмма распределения полюсов, построенная посредством нахождения всех нулей АР полиномов на каждом фрейме искаженного сигнала го сигнала в качестве предварительной оценки АР параметров выбирался квант, максимизирующий записанный с учетом помехи блочный функцио- нал правдоподобия (было показано, что для эф- фективного выполнения данной процедуры коли- чество квантов, равное 16, является достаточным). Полученная таким образом оценка АР параме- тров уточнялась с помощью эффективной итера- ционной процедуры. Для восстановления сигнала на основе оцененных АР коэффициентов приме- нялся алгоритм блочной калмановской фильтра- ции, обладающий преимуществом перед традици- онными фильтрационными подходами как в кон- тексте ошибки оценивания, так и по вычислитель- ным затратам. Покажем, как данная процедура блочной филь- трации может быть обобщена на случай искаже- ний, характеризуемых формулой (1). Предвари- тельно выполняется свертка квантов АР параме- тров {ar, gr} с коэффициентами знаменателя оце- ненной передаточной функции среды: br =ar ⊗ ĉ. Преобразованные таким образом кванты {br, gr} будем называть модифицированными. Далее, на каждом фрейме выполняются следующие дей- ствия. 1. В качестве начального приближения {b(0), g(0)} для АР коэффициентов сверт- ки s ⊗ h выбирается модифицированный квант {br0 , gr0 }, максимизирующий блочный функционал правдоподобия. 2. Выполняется итерационное улучшение оценок {b(0), g(0)}. В результате получаем оценки АР коэффициентов {b(1), g(1)}. 3. Для восстановления свертки s(n) ⊗ h(n) к на- блюдаемому сигналу z(n) применяется БФК, основанный на значениях АР параметров {b(1), g(1)}. 4. Оценка искомого полезного сигнала ŝ(n) формируется путем пропускания полученной оценки свертки через фильтр с конечной им- пульсной характеристикой, имеющий коэф- фициенты ĉk, k=0, 2, . . . , m. Описанная процедура восстановления сигнала обеспечивает компенсацию передаточной функции среды и аддитивных фоновых помех, являясь эф- фективным средством решения проблемы усиле- ния шума. 40 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 3. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Предложенный алгоритм слепой деконволюции проверен экспериментально на моделях и на ре- альных сигналах. В первой серии экспериментов в каче- стве исходного использовался речевой сигнал продолжительностью 6.75 с, произнесенный диктором-мужчиной. Этот сигнал подвергался искусственному искажающему воздействию АР фильтром 4-го порядка, определяемым полю- сами γ1,2=0.99e±iπ/5, γ3,4=0.995e±i3π/10. При fs =8000 Гц данные полюса соответствуют внесе- нию в сигнал посторонних резонансов с частотами 800 и 1200 Гц (подобные искажения свойственны некоторым аналоговым устройствам звукозапи- си [8]). Модифицированный указанным образом сигнал был смешан с окрашенным шумом, ап- проксимирующим помеху, записанную внутри салона движущегося автомобиля (АЧХ и ФЧХ ее спектральной огибающей приведены на рис. 3). При этом отношение сигнал/шум составляло 5 дБ. Гистограмма распределения полюсов, построен- ная в соответствии с описанной методикой, пред- ставлена на рис. 4. Для порядка АР модели и дли- ны фрейма были взяты значения p=10 и L=256 соответственно. На гистограмме полюсов четко проявлены пики, соответствующие посторонним резонансам, что обеспечивает их точную иден- тификацию. Для сравнения, на рис. 5 представ- лен результат применения к искаженному сигна- лу подхода, основанного на нахождении всех ком- плексных нулей АР полиномов на каждом фрейме искаженного сигнала [7, 8]. В гистограмме, полу- ченной таким образом, велико влияние резонан- сов аддитивного шума. Это делает невозможным корректную идентификацию передаточной хара- ктеристики искажающего воздействия. На рис. 6 приведено сопоставление АЧХ и ФЧХ исходного искажающего фильтра и результата его идентификации с помощью предложенной на- ми методики. Характеристики исходного фильтра представлены сплошными линиями, а идентифи- цированного – штриховыми. Как следует из рисун- ка, результат идентификации практически полно- стью совпадает с исходным фильтром. Рассмотрим теперь результат применения ра- зработанной методики к восстановлению старин- ной звукозаписи. Исходный аналоговый сигнал был предварительно оцифрован с частотой дис- кретизации fs =8000 Гц. Анализ производился при порядке АР модели p=10 и длине фрейма L=160. Усредненный спектр помехи (фактическое Рис. 6. Сопоставление АЧХ и ФЧХ исходного искажающего фильтра (сплошные) и результата его идентификации с помощью предлагаемой методики (штриховые) Рис. 7. Усредненный спектр помехи, характерной для старинной звукозаписи Рис. 8. Гистограмма распределения полюсов, соответствующая старинной звукозаписи А. Я. Калюжный, В. Ю. Семенов 41 ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 отношение сигнал/шум составляло 12.5 дБ) и ги- стограмма распределения полюсов представлены на рис. 7 и 8 соответственно. Из рис. 8 ясно ви- дно, что в сигнале присутствуют стационарные резонансные полюса z=0.8 ± 0.38i (т. е. на часто- те fрез. =arctg (0.38/0.8) fs/(2π) ≈ 508 Гц), опреде- ляющие передаточную функцию записывающего устройства. Применение к рассмотренным сигналам предло- женного обобщения алгоритма блочной калманов- ской фильтрации позволило устранить “металли- ческое” звучание, вызванное присутствием посто- ронних резонансов, и повысить субъективное каче- ство сигнала вследствие существенного снижения уровня фонового шума. ЗАКЛЮЧЕНИЕ Рассмотрена задача одноканальной слепой де- конволюции речевых сигналов в условиях присут- ствия фоновых шумов. Предложен эффективный метод детектирования и устранения влияния пе- редаточной функции среды, основанный на ана- лизе линейных спектральных частот искаженного сигнала. Принципиальное преимущество предлагаемого метода состоит в адаптивном учете помехи в структуре алгоритма. Помимо повышения наде- жности получаемых результатов, это исключает возможность принятия окрашенного шума с силь- но выраженной резонансной структурой за “полю- сное” искажение, что было свойственно существу- ющим методам одноканальной слепой деконволю- ции. Предложена эффективная процедура локализа- ции посторонних резонансов, основанная на ана- лизе разностей линейных спектральных частот. Данная методика, в частности, отсеивает фрей- мы со слабо выраженной резонансной структу- рой и фактически включает в себя детектор ре- чевой активности, что выгодно отличает ее от су- ществующих методов слепого выравнивания. Со- здание метода компенсации передаточной функ- ции среды, основанного на анализе линейных спе- ктральных частот, особенно важно, поскольку их вычисление является неотъемлемой частью боль- шинства современных систем цифровой обработки речевых сигналов. С целью устранения эффекта “усиления шу- ма” введена эффективная итерационная процеду- ра, использующая блочный фильтр Калмана, ко- торая обеспечивает компенсацию как передато- чной функции среды, так и аддитивных фоновых помех. Эффективность результирующего метода слепой деконволюции проверена на искусственных и реальных искажениях речевых сигналов. 1. Furui S. Steps toward flexible speech recogniti- on // Proc. 8-th Austral. Conf. SST-2000.– Canberra, 2000.– P. 19–29. 2. Van Vuuren S. Comparison of text-independent speaker recognition methods on telephone speech with acoustic mismatch // Proc. Int. Conf. ICSLP.– Philadelphia,1996. 3. Forney G. D., Eyuboglu M. V. Combined equalizati- on and coding using precoding // IEEE Communic. Mag.– 1991.– 29.– P. 25–34. 4. Subramaniam S., Petropulu A. P., Wendt C. Cepstrum-based deconvolution for speech dereverberation // IEEE Trans. Speech Audio Proces.– 1996.– 4.– P. 392–396. 5. Petropulu A. P., Nikias C. L. Blind deconvolution using signal reconstruction from partial higher order cepstral information // IEEE Trans. Signal Proces.– 1993.– 41.– P. 2088–2094. 6. Стокхэм Т. Дж., Кэннон Т. М., Ингебретсен Р. Б. Цифровое восстановление сигналов посредством неопределенной инверсной свертки // ТИИЭР.– 1975.– 4.– С. 161–177. 7. Hopgood J. Blind deconvolution with application for reverberation cancellation in hearing aids (Final-year undergraduate project).– Cambridge: University of Cambridge, Dept Engng, 1997.– 50 p. 8. Hopgood J. Non-stationary signal processing with application to reverberation cancellation in acousti- cal environments (Ph. D. Thesis).– Cambridge: Uni- versity of Cambridge, 2000.– 348 p. 9. Astrom K. J., Hagander P., Sternby J. Zeros of sampled systems // Automatica.– 1984.– 20.– P. 31– 38. 10. Gray R. M., Buzo A., Gray A. H., Matsuyama Y. Distortion measures for speech processing // IEEE Trans. Acoust. Speech Signal Proces.– 1980.– 28.– P. 367–376. 11. Haneda Y., Makino S., Kaneda Y. Common acousti- cal pole and zero modeling of room transfer functi- ons // IEEE Trans. Speech Audio Proces.– 1994.– 2.– P. 320–328. 12. Рабинер Л., Шафер Р. Цифровая обработка рече- вых сигналов.– М.: Радио и связь, 1981.– 496 с. 13. Маркел Дж., Грей А. Линейное предсказание речи.– М.: Cвязь, 1977.– 308 с. 14. Miyoshi M., Kaneda Y. Inverse filtering of room acoustics // IEEE Trans. Acoust. Speech Signal Proces.– 1988.– 36.– P. 145–152. 15. Neely S. T., Allen J. B. Invertibility of a room impulse response // J. Acoust. Soc. Amer.– 1979.– 65.– P. 165–169. 16. Lim J., Oppenheim A. All-pole modeling of degraded speech // IEEE Trans. Acoust. Speech Signal Proces.– 1978.– 26.– P. 197–210. 17. Лим Дж. С., Оппенхайм А. В. Коррекция и сжа- тие спектра зашумленных речевых сигналов // ТИИЭР.– 1979.– 12.– С. 5-27. 18. Hopgood J., Rayner P. J. W. Bayesian single channel blind deconvolution using parametric signal and channel models // Proc. IEEE Workshop Appl. Signal Proces. Audio Acoust.– New York, 1999.– P. 151–154. 42 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2003. Том 6, N 3. С. 34 – 43 19. Godsill S. J., Rayner P. J. W. Statistical reconstructi- on and analysis of autoregressive signals in impulsive noise using the Gibbs sampler // IEEE Trans. Speech Audio Proces.– 1998.– 6.– P. 352–372. 20. Семенов В. Ю. Новый метод вычисления ли- нейных спектральных частот речевых сигналов, основанный на универсальном алгоритме реше- ния трансцендентных уравнений // Акуст. вiсн.– 2002.– 5, N 4.– С. 38–50. 21. Калюжный А. Я., Семенов В. Ю. Экономичный метод очистки речи от шума, основанный на бло- чном представлении сигнала в пространстве состо- яний и векторном квантовании // Акуст. вiсн.– 2002.– 5, N 3.– С. 28–34. 22. Grassi S. Optimized implementation of speech processing algorithms (Ph. D. Thesis).– Neuchatel: Universite de Neuchatel, 1998.– 211 p. 23. Itakura F. Line spectrum representation of linear predictive coefficients of speech signals // J. Acoust. Soc. Amer.– 1975.– 57, N 1, Suppl. 1.– P. S35. 24. Paliwal K. K., Atal B. S. Efficient vector quantization of LPC parameters at 24 bits/frame // IEEE Trans. Speech Audio Proces.– 1993.– 1.– P. 3–14. 25. Paliwal K. K. A study of line spectrum pair frequenci- es for speech recognition // Proc. IEEE Int. Conf. Acoust. Speech Signal Proces.– New York, 1988.– P. 485–488. 26. Liu C., Lin M.,Wang W., Wang H. A study of line spectrum pair frequencies for speaker recognition // Proc. IEEE Int. Conf. Acoust. Speech Signal Proces.– Alburquerque, 1990.– P. 277–280. 27. Soong K. S., Juang B.-H. Optimal quantization of LSP parameters // IEEE Trans. Speech Audio Proces.– 1993.– 1.– P. 15–24. 28. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров.– М.: Наука, 1984.– 833 с. А. Я. Калюжный, В. Ю. Семенов 43
id nasplib_isofts_kiev_ua-123456789-981
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1028-7507
language Russian
last_indexed 2025-12-07T17:04:41Z
publishDate 2003
publisher Інститут гідромеханіки НАН України
record_format dspace
spelling Калюжный, А.Я.
Семенов, В.Ю.
2008-07-09T14:30:29Z
2008-07-09T14:30:29Z
2003
Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот / А.Я. Калюжный, В.Ю. Семенов // Акуст. вісн. — 2003. — Т. 6, N 3. — С. 34-43. — Бібліогр.: 28 назв. — рос.
1028-7507
https://nasplib.isofts.kiev.ua/handle/123456789/981
621.391:534.78
Рассмотрена задача слепой деконволюции речевых сигналов при наличии фоновых шумов. Предложен эффективный метод детектирования и устранения влияния передаточной функции среды, основанный на анализе линейных спектральных частот искаженного сигнала. Его принципиальное преимущество перед существующими подходами состоит в адаптивном учете помехи в структуре алгоритма. Разработана эффективная процедура локализации посторонних резонансов, основанная на анализе разностей линейных спектральных частот. С целью устранения эффекта ``усиления шума'' использован алгоритм блочной калмановской фильтрации. Эффективность результирующего метода проверена на искусственных и реальных искажениях речевых сигналов. Предлагаемый подход характеризуется более низкими вычислительными затратами по сравнению с рядом современных методов слепой деконволюции речевых сигналов.
Розглянуто задачу сліпої деконволюції мовних сигналів в умовах присутності фонових шумів. Запропоновано ефективний метод детектування та компенсації впливу передаточної функції середовища, який базується на аналізі лінійних спектральних частот спотвореного сигналу. Його принципова перевага перед існуючими підходами полягає в адаптивному урахуванні шуму в структурі алгоритму. Розроблено ефективну процедуру локалізації сторонніх резонансів, засновану на аналізі різниць лінійних спектральних частот. З метою усунення ефекту ``підсилення шуму'' використано алгоритм блокової калманівської фільтрації. Ефективність результуючого методу перевірено на штучних і реальних спотвореннях мовних сигналів. Запропонований підхід характеризується більш низькими обчислювальними витратами, у порівнянні з низкою сучасних методів сліпої деконволюції мовних сигналів.
A problem of the blind deconvolution of speech signals at presence of noise background is considered. An effective method of detection and compensation of media transfer function is proposed. The method is based on the analysis of line spectral frequencies of a distorted signal. Its principal advantage over existing approaches is an adaptive noise compensation inside the structure of the algorithm. An effective procedure of localization of media resonances, based on the analysis of differences of line spectral frequencies, is developed. To diminish the ``noise enhancement'' effect a block Kalman filter is used. The effectiveness of the resulting method is verified on artificial and real distortions of speech signals. The proposed approach is characterized by lower computational expenses in comparison to the number of modern blind deconvolution of speech signals methods.
ru
Інститут гідромеханіки НАН України
Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
A method of the blind deconvolution of speech signals based on the analysis of line spectral frequencies
Article
published earlier
spellingShingle Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
Калюжный, А.Я.
Семенов, В.Ю.
title Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
title_alt A method of the blind deconvolution of speech signals based on the analysis of line spectral frequencies
title_full Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
title_fullStr Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
title_full_unstemmed Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
title_short Метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
title_sort метод слепой деконволюции речевых сигналов основанный на анализе линейных спектральных частот
url https://nasplib.isofts.kiev.ua/handle/123456789/981
work_keys_str_mv AT kalûžnyiaâ metodslepoidekonvolûciirečevyhsignalovosnovannyinaanalizelineinyhspektralʹnyhčastot
AT semenovvû metodslepoidekonvolûciirečevyhsignalovosnovannyinaanalizelineinyhspektralʹnyhčastot
AT kalûžnyiaâ amethodoftheblinddeconvolutionofspeechsignalsbasedontheanalysisoflinespectralfrequencies
AT semenovvû amethodoftheblinddeconvolutionofspeechsignalsbasedontheanalysisoflinespectralfrequencies