Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности
Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной формой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый...
Saved in:
| Date: | 2004 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут гідромеханіки НАН України
2004
|
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/1018 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности / В.Ю. Семенов // Акуст. вісн. — 2004. — Т. 7, N 3. — С. 55-64. — Бібліогр.: 26 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859987396952588288 |
|---|---|
| author | Семенов, В.Ю. |
| author_facet | Семенов, В.Ю. |
| citation_txt | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности / В.Ю. Семенов // Акуст. вісн. — 2004. — Т. 7, N 3. — С. 55-64. — Бібліогр.: 26 назв. — рос. |
| collection | DSpace DC |
| description | Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной формой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый подход к вычислению ЛСЧ, состоящий из двух этапов - локализации ЛСЧ и их точного вычисления. Показано, что этап локализации эффективно сводится к проверке свойства межфреймовой упорядоченности ЛСЧ. Продемонстрировано, как для ускорения стадии точного вычисления ЛСЧ могут быть использованы их значения, найденные на предыдущем фрейме. В результате тестирования различных речевых сигналах продемонстрировано сокращение количества операций до 2.5 раз по сравнению с версией метода, не использующей априорную информацию о взаимном расположении ЛСЧ на смежных фреймах, и до 3.4 раз по сравнению с широко используемым методом Кабала. Кроме того, показано, что максимальные (пиковые) вычислительные затраты предложенного метода меньше не только минимальных затрат метода Кабала, но и минимальных затрат ускоренной комбинации метода Кабала с методом Ньютона. Это свидетельствует о предпочтительности использования разработанного метода в системах реального времени.
Розглянуто актуальну проблему пошуку лінійних спектральних частот (ЛСЧ), які є еквівалентною формою представлення полюсної моделі голосового тракту. Виконано дослідження взаємного розташування ЛСЧ на суміжних квазістаціонарних часових інтервалах (фреймах). На основі цього запропоновано новий підхід до обчислення ЛСЧ, який складається з двох етапів - локалізації ЛСЧ та їх точного обчислення. Показано, що етап локалізації ефективно зводиться до перевірки властивості міжфреймової упорядкованості ЛСЧ. Продемонстровано, як для прискорення стадії точного обчислення ЛСЧ можуть бути використані їхні значення, знайдені на попередньому фреймі. У результаті тестування на різноманітних мовних сигналах продемонстровано зменшення кількості операцій до 2.5 разів у порівнянні з версією методу, який не використовує апріорну інформацію про взаємне розташування ЛСЧ на суміжних фреймах, та до 3.4 разів у порівнянні з широко використовуваним методом Кабала. Окрім того, показано, що максимальні (пікові) обчислювальні витрати запропонованого методу менші не тільки за мінімальні витрати методу Кабала, але й за мінімальні витрати прискореної комбінації методу Кабала з методом Ньютона. Це свідчить про перевагу застосування розробленого методу в системах реального часу.
The paper is dedicated to an important problem of calculation of line spectral frequencies (LSF), being the alternative form of representation of all-pole vocal tract model. Investigation of LSF relative position on the adjacent quasi-stationary time intervals (frames) is performed. On this basis a new two-stage approach to LSF calculation is proposed. This approach consists of two parts: LSF localization and their refinement. It was shown that the localization stage is effectively reduced to verification of interframe ordering property. It is also demonstrated how LSF values obtained in the previous frame can be used to accelerate the LSF refinement stage. As a result of testing on various speech signals, the 2.5 times reduction of the number of operations is shown in comparison with the similar algorithm without allowance for a priory information about relative LSF position on the adjacent frames. It was also shown that computational expenses are reduced 3.4 times in comparison with widely used Kabal's method. Moreover, it is demonstrated that the maximum (peak) computational expenses of the proposed method are lower than minimal ones both for Kabal's method and the accelerated combination of Kabal's method with Newton's method. These results show the advantage of applying the proposed method in real-time systems.
|
| first_indexed | 2025-12-07T16:29:01Z |
| format | Article |
| fulltext |
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
УДК 534.78+621.391
НОВЫЙ ПОДХОД К ВЫЧИСЛЕНИЮ ЛИНЕЙНЫХ
СПЕКТРАЛЬНЫХ ЧАСТОТ РЕЧЕВЫХ СИГНАЛОВ,
ОСНОВАННЫЙ НА СВОЙСТВЕ МЕЖФРЕЙМОВОЙ
УПОРЯДОЧЕННОСТИ
В. Ю. СЕ МЕН О В
Государственное научно-производственное предприятие “Дельта”, Киев
Получено 01.11.2004
Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной фор-
мой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на
смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый подход к
вычислению ЛСЧ, состоящий из двух этапов – локализации ЛСЧ и их точного вычисления. Показано, что этап ло-
кализации эффективно сводится к проверке свойства межфреймовой упорядоченности ЛСЧ. Продемонстрировано,
как для ускорения стадии точного вычисления ЛСЧ могут быть использованы их значения, найденные на предыду-
щем фрейме. В результате тестирования различных речевых сигналах продемонстрировано сокращение количества
операций до 2.5 раз по сравнению с версией метода, не использующей априорную информацию о взаимном распо-
ложении ЛСЧ на смежных фреймах, и до 3.4 раз по сравнению с широко используемым методом Кабала. Кроме
того, показано, что максимальные (пиковые) вычислительные затраты предложенного метода меньше не только
минимальных затрат метода Кабала, но и минимальных затрат ускоренной комбинации метода Кабала с методом
Ньютона. Это свидетельствует о предпочтительности использования разработанного метода в системах реального
времени.
Розглянуто актуальну проблему пошуку лiнiйних спектральних частот (ЛСЧ), якi є еквiвалентною формою пред-
ставлення полюсної моделi голосового тракту. Виконано дослiдження взаємного розташування ЛСЧ на сумiжних
квазiстацiонарних часових iнтервалах (фреймах). На основi цього запропоновано новий пiдхiд до обчислення ЛСЧ,
який складається з двох етапiв – локалiзацiї ЛСЧ та їх точного обчислення. Показано, що етап локалiзацiї ефективно
зводиться до перевiрки властивостi мiжфреймової упорядкованостi ЛСЧ. Продемонстровано, як для прискорення
стадiї точного обчислення ЛСЧ можуть бути використанi їхнi значення, знайденi на попередньому фреймi. У ре-
зультатi тестування на рiзноманiтних мовних сигналах продемонстровано зменшення кiлькостi операцiй до 2.5 разiв
у порiвняннi з версiєю методу, який не використовує апрiорну iнформацiю про взаємне розташування ЛСЧ на сумi-
жних фреймах, та до 3.4 разiв у порiвняннi з широко використовуваним методом Кабала. Окрiм того, показано, що
максимальнi (пiковi) обчислювальнi витрати запропонованого методу меншi не тiльки за мiнiмальнi витрати методу
Кабала, але й за мiнiмальнi витрати прискореної комбiнацiї методу Кабала з методом Ньютона. Це свiдчить про
перевагу застосування розробленого методу в системах реального часу.
The paper is dedicated to an important problem of calculation of line spectral frequencies (LSF), being the alternative form
of representation of all-pole vocal tract model. Investigation of LSF relative position on the adjacent quasi-stationary time
intervals (frames) is performed. On this basis a new two-stage approach to LSF calculation is proposed. This approach
consists of two parts: LSF localization and their refinement. It was shown that the localization stage is effectively reduced
to verification of interframe ordering property. It is also demonstrated how LSF values obtained in the previous frame can
be used to accelerate the LSF refinement stage. As a result of testing on various speech signals, the 2.5 times reduction of
the number of operations is shown in comparison with the similar algorithm without allowance for a priory information
about relative LSF position on the adjacent frames. It was also shown that computational expenses are reduced 3.4 times
in comparison with widely used Kabal’s method. Moreover, it is demonstrated that the maximum (peak) computational
expenses of the proposed method are lower than minimal ones both for Kabal’s method and the accelerated combination
of Kabal’s method with Newton’s method. These results show the advantage of applying the proposed method in real-time
systems.
ВВЕДЕНИЕ
Современные отрасли речевой акустики, такие
как распознавание речи, кодирование (сжатие) ре-
чи, верификация и идентификация диктора, рече-
вой синтез, коррекция речевых сигналов, требуют
применения простых и в то же время эффектив-
ных параметрических моделей полезного сигнала,
основанных на сведениях из физики и физиологии
образования речи, а также на особенностях слухо-
вого восприятия. Как правило, процесс образова-
ния голосовых звуков рассматривается как резуль-
тат прохождения возбуждающего процесса, моде-
лирующего звуковое давление на выходе голосо-
вой щели, через фильтр с изменяющимися во вре-
мени параметрами. Последний и представляет со-
бой модель голосового тракта. Большинство сов-
ременных методов цифровой обработки речевых
сигналов основаны на использовании авторегрес-
сионной (АР) модели образования речи [1,2], в ко-
торой голосовой тракт моделируется посредством
полюсного фильтра.
Упрощенная схема основных преобразований,
которые претерпевает речевой сигнал при ра-
c© В. Ю. Семенов, 2004 55
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Рис. 1. Структура алгоритма преобразования речевых сигналов
в типовых современных устройствах цифровой телефонии
боте типовых современных устройств голосо-
вой связи (систем мобильной телефонии [3], IP-
телефонии [4 – 6], вокодеров [7]), приведена на
рис. 1.
Несмотря на то, что фильтр, моделирующий ра-
боту голосового тракта, однозначно определяется
набором АР коэффициентов, в практических при-
ложениях непосредственно АР коэффициенты не
используются. В первую очередь, это объясняется
их чрезвычайно высокой спектральной чувстви-
тельностью и отсутствием четких динамических
диапазонов изменения. Таким образом, возникает
потребность во введении промежуточного этапа,
связанного с преобразованием АР коэффициентов
в некоторый альтернативный набор параметров,
для которых можно применить эффективные про-
цедуры кодирования (см. рис. 1). По аналогичным
причинам необходимо преобразовывать АР коэф-
фициенты в альтернативные наборы параметров в
задачах распознавания речи, идентификации ди-
ктора и других приложениях (см. обзор [10]).
На протяжении нескольких десятилетий в ка-
честве эквивалентных представлений коэффици-
ентов АР модели использовались коэффициенты
отражения и другие величины, связанные с моде-
лью голосового тракта в виде последовательности
соосных труб [1, 8]. Однако наиболее популярным
способом альтернативного представления АР па-
раметров стало их преобразование в набор линей-
ных спектральных частот. Впервые введенные в
1975 году Итакура [12], ЛСЧ1 постепенно получи-
ли широчайшее внедрение в алгоритмах кодирова-
ния [14 – 17], распознавания речи [18], идентифи-
кации диктора [19], методах коррекции искажен-
ных речевых сигналов [9,20]. Кроме того, они ста-
ли основой для введения мер искажения речевых
сигналов [17, 18, 21].
Значительное количество современных
устройств обработки речевых сигналов предна-
значено для работы в режиме реального времени.
Однако нахождение ЛСЧ связано с поиском
1В англоязычной литературе используются эквивалент-
ные термины “line spectral frequencies” (LSF) и “line
spectrum pairs” (LSP).
56 В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
корней уравнений. Это является нежелательным
элементом для большинства вычислительных
средств (особенно сигнальных процессоров с фи-
ксированной точкой), поскольку может приводить
к непредсказуемым задержкам и накоплению
погрешностей округления. Проблемы вычисления
ЛСЧ привлекали внимание многочисленных
исследователей [13, 22 – 24] (подробнее см. также
обзорную часть [10]). В связи c этим, в работе [10]
были предложены новые методы поиска ЛСЧ,
основанные на разработанном алгоритме решения
трансцендентных уравнений. Хотя предложенный
подход имеет ряд значительных преимуществ
перед существующими аналогами, в нем не
использованы физические особенности ЛСЧ, в
которых должен заключаться резерв повышения
эффективности метода. Заметим, что игнориро-
вание априорной информации о распределении
ЛСЧ является слабой стороной большинства
традиционных алгоритмов их поиска.
Исходя из этого, цель данной работы состоя-
ла в построении экономичного метода вычисления
ЛСЧ, максимально просто и эффективно исполь-
зующего особенности их временного распределе-
ния. После изложения в первом разделе физиче-
ской сути ЛСЧ, во втором разделе проводится
исследование взаимного расположения ЛСЧ на
смежных квазистационарных временных интерва-
лах. В третьем разделе на основании сделанных
выводов формулируется новый метод вычисле-
ния ЛСЧ, основанный на свойстве межфреймовой
упорядоченности. В четвертом разделе, посвящен-
ном экспериментальным исследованиям, на осно-
вании различных критериев проводится сравнение
эффективностей предложенного подхода, метода,
изложенного в работе [10], традиционного мето-
да Кабала [13] и его оптимизированной модифи-
кации. В конце статьи кратко сформулированы
выводы и приведен список использованной лите-
ратуры.
1. СВЯЗЬ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ
ЧАСТОТ С ПОЛЮСНОЙ МОДЕЛЬЮ ГОЛО-
СОВОГО ТРАКТА
Авторегрессионная (полюсная) модель голосо-
вого тракта рассматривает речевой сигнал как
результат прохождения возбуждающего процесса
через полюсной фильтр вида
Hs(z) =
g
A(z)
=
g
1 +
p∑
k=1
akz−k
, (1)
Рис. 2. Представление голосового тракта
в виде последовательности труб
где ak, k=1, 2, . . . , p – коэффициенты, определя-
ющие форму голосового тракта при произнесе-
нии звуков; g – коэффициент усиления, характе-
ризующий уровень звука. При этом считается,
что параметры полюсной модели голосового трак-
та являются неизменными на интервалах порядка
20 мс (свойство квазистационарности, обусловлен-
ное анатомическими ограничениями на динамику
движения артикуляционных органов)2.
В классических работах [1, 2] показано, что
модель (1) эквивалентна представлению голосо-
вого тракта в виде последовательного соедине-
ния труб одинаковой длины и различных диаме-
тров (рис. 2). Записывая уравнения распростра-
нения звука в каждой из труб и учитывая гра-
ничные условия на их границах, можно показать,
что передаточная функция такой системы имеет
вид (1) (символ z-преобразования связан с сим-
волом преобразования Лапласа s соотношением
z=exp(2ls/c), где l – длина трубы-секции; c – ско-
рость звука). При этом коэффициенты {ak} много-
члена A(z), стоящего в знаменателе передаточной
функции (1), могут быть рассчитаны по рекуррен-
тным соотношениям
A0(z) = 1, A(z) = Ap(z),
Ai(z) = Ai−1(z) + kiz
−iAi−1(z
−1),
i = 1, . . . , p.
(2)
Здесь параметры ki, получившие название ко-
эффициентов отражения3, выражаются простым
образом через площади поперечного сечения труб
Si:
ki =
Si+1 − Si
Si+1 + Si
, i = 1, . . . , p.
2При дальнейшем изложении временные интервалы,
длина которых равна периоду квазистационарности рече-
вого сигнала, будем называть фреймами.
3Физический смысл коэффициентов отражения состоит
в определении величины волны, отраженной на границе
двух труб.
В. Ю. Семенов 57
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Time, seconds
0 0.5 1 1.5 2 2.5 3 3.5 4
F
re
qu
en
cy
,H
z
0
1000
2000
3000
4000
A B C
Рис. 3. Спектрограмма тестового речевого сигнала
“Звучит гитара семиструнная. Слушайте!”
Исходя из соотношений (2), можно сформиро-
вать два искусственных полинома (p+1)-го поряд-
ка, положив (p+1)-ый коэффициент отражения ki
равным 1 и −1 соответственно:
A
(1)
p+1(z) = Ap(z) + z−p−1Ap(z
−1),
A
(2)
p+1(z) = Ap(z) − z−p−1Ap(z
−1).
(3)
Эти два случая соответствуют полному закрытию
или полному открытию голосовой щели [12]. Было
показано [12], что корни полиномов (3) лежат на
единичной окружности. Их аргументы получили
название линейных спектральных частот. Заме-
чательной особенностью ЛСЧ является свойство
внутрифреймовой упорядоченности:
0 < ω1 < ω2 < ω3 < . . . < ωp−1 < ωp < π (4)
(нечетные ЛСЧ соответствуют первому из поли-
номов (3), а четные – второму).
Помимо свойства внутрифреймовой упорядо-
ченности (4) и ограниченного диапазона изме-
нения, другими важными свойствами ЛСЧ ока-
зываются их тесная связь с формантными ча-
стотами, локализованная спектральная чувстви-
тельность, а также межфреймовая коррелирован-
ность, заключающаяся в статистической зависи-
мости ЛСЧ для смежных временных интервалов
(см. обзор [17]). Наличие такой зависимости позво-
ляет сформулировать вопрос: могут ли определен-
ные на некотором временном интервале значения
ЛСЧ быть эффективно использованы для вычис-
ления ЛСЧ следующего временного интервала?
2. ИССЛЕДОВАНИЕ ВЗАИМНОГО РАСПО-
ЛОЖЕНИЯ ЛСЧ НА СМЕЖНЫХ ФРЕЙ-
МАХ
Исходя из связи ЛСЧ с акустической моделью
голосового тракта и, в особенности, учитывая их
тесную взаимосвязь с его резонансами [17], мож-
но сделать предположение, что ЛСЧ, соответ-
ствующие смежным временным интервалам, дол-
жны относительно мало отличаться друг от дру-
га. Для того, чтобы исследовать справедливость
данного предположения, рассмотрим речевой сиг-
нал продолжительностью 4.62 с, произнесенный
диктором-мужчиной и оцифрованный с частотой
дискретизации fs =8000 Гц. Его спектрограмма
отображена на рис. 3.
Для иллюстрации взаимного расположения
ЛСЧ на смежных временных интервалах рассмо-
трим три фрагмента сигнала, отмеченные на рис. 3
буквами A, B и C. Временные реализации этих
фрагментов и соответствующие им графики ЛСЧ
приведены на рис. 4, 5 и 6 соответственно. Вы-
числение ЛСЧ проводилось на последовательных
интервалах длиной 20 мс при порядке АР модели
голосового тракта p=10. Для облегчения интер-
претации получаемых распределений ЛСЧ приме-
нялась их нормировка: fk =ωkfs/(2π), k=1, . . . , p.
На рис. 4 представлена ситуация, соответствую-
щая завершению звука “и” и началу звука “т” в сло-
ве “звучит”. Анализ рисунка показывает, что, не-
смотря на изменение всех ЛСЧ в достаточно широ-
ких пределах, практически во всех случаях ЛСЧ
с номером i находится между частотами предыду-
щего фрейма с номерами i−1 и i+1. Единствен-
ное исключение составляет третья ЛСЧ, прина-
длежащая седьмому из рассмотренных интерва-
лов (выделена кружочком), которая немного (на
4 Гц) превосходит четвертую ЛСЧ предыдущего
временного фрейма. Как видно из представленной
на рис. 4 временной реализации данного речевого
фрагмента, эта ситуация соответствует началу но-
вого звука (согласной “т”).
На рис. 5 показано распределение ЛСЧ на про-
тяжении непрерывного согласного звука “л” (в сло-
ве “слушайте”) с характерным сближением ЛСЧ в
области основного тона. Такое поведение объясня-
ется характерным свойством ЛСЧ, заключающем-
ся в окаймлении наиболее ярко выраженных спе-
ктральных пиков. Как видно из графика, на всех
проанализированных интервалах данного речево-
го фрагмента ЛСЧ ωi находится между частотами
предыдущего фрейма с номерами i−1 и i+1, т. е.
58 В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
выполняется неравенство
ω
(n−1)
i−1 < ω
(n)
i < ω
(n−1)
i+1 , i = 2, . . . , p− 1 (5)
(верхние индексы обозначают номера фреймов).
Рис. 6 иллюстрирует завершение финального
гласного звука “е” и последующей паузы, запол-
ненной фоновым шумом. Как следует из рисун-
ка, на участке, соответствующем затуханию гла-
сного звука, ЛСЧ изменяются в достаточно ши-
роких пределах. Тем не менее, ЛСЧ с номером i
постоянно находится между частотами предыду-
щего фрейма с номерами i−1 и i+1. На участке,
соответствующем присутствию фонового шума,
ЛСЧ имеют равномерное распределение, практи-
чески инвариантное во времени и, как следствие,
также удовлетворяют неравенству (5). Следует
отметить, что паузы обычно составляют не ме-
нее 40÷50 % продолжительности речевых сигна-
лов. Это обстоятельство дополнительно усиливает
предположение о том, что соотношение (5) справе-
дливо в большинстве встречающихся на практике
ситуаций.
Для подтверждения этой гипотезы выполнение
неравенства (5) было проверено на базе тестовых
речевых записей девяти дикторов общей продол-
жительностью около 8 мин. Предварительно из
данных сигналов (оцифрованных с частотой дис-
кретизации fs =8000 Гц) удалили участки, содер-
жащие паузы в начале и конце фраз. Это позволи-
ло максимально объективно оценить нижнюю гра-
ницу вероятности выполнения неравенства (5). В
ходе тестирования были рассмотрены наиболее ра-
спространенные порядки АР моделей: от 8 до 20.
В табл. 1 представлена процентная доля случаев,
в которых неравенство (5) выполнялось для всех
ЛСЧ текущего фрейма (n0), а также доли случа-
ев, в которых данное неравенство нарушалось в
одном (n1), двух (n2) и трех (n3) случаях соответ-
ственно.
Как видно из таблицы, соотношение (5) выпол-
няется в подавляющем большинстве ситуаций. Со-
ответствующее процентное отношение составляет
от 88.85 % при p=20 до 96.78 % при p=8. Как
следствие, в таких случаях аналогичным свой-
ством обладают и косинусы ЛСЧ (взятые в обра-
тном порядке):
x
(n−1)
i−1 < x
(n)
i < x
(n−1)
i+1 , i = 2, . . . , p − 1. (6)
Таким образом, в преобладающем количестве
случаев аргументы корней каждого из уравне-
ний (3) лежат между вычисленными на предыду-
щем фрейме аргументами корней соответствую-
щего уравнения-пары. Это позволяет утверждать,
Рис. 4. Распределение ЛСЧ на границе двух звуков
Рис. 5. Распределение ЛСЧ
на протяжении звонкого звука
Рис. 6. Распределение ЛСЧ,
соответствующее завершению гласного звука
и последующей за ним паузы
В. Ю. Семенов 59
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Табл. 1. Процентные доли случаев выполнения (n0) и невыполнения (n1, n2, n3)
условия межфреймовой упорядоченности (5) при различных порядках моделей
p=8 p=10 p=12 p=14 p=16 p=18 p=20
n0 96.78 95.62 94.36 93.17 91.95 90.14 88.85
n1 2.81 3.67 4.61 5.44 6.37 7.62 8.19
n2 0.33 0.54 0.78 0.95 1.12 1.47 1.97
n3 0.07 0.15 0.19 0.27 0.35 0.45 0.55
Рис. 7. Пример локализации косинусов ЛСЧ
с помощью значений, вычисленных
на предыдущем фрейме
что задача локализации ЛСЧ сводится, главным
образом, к проверке условия их межфреймовой
упорядоченности (5) или (6).
3. ПРЕДЛАГАЕМЫЙ АЛГОРИТМ ВЫЧИС-
ЛЕНИЯ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ
ЧАСТОТ
Исходя из проведенного исследования взаим-
ного расположения ЛСЧ на смежных фреймах,
предлагается следующий алгоритм их вычисле-
ния (соответствующая последовательность этапов
приведена в блок-схеме рис. 1). При этом пред-
полагается, что перед вычислением ЛСЧ на вре-
менном интервале с номером n известны значения
косинусов ЛСЧ x
(n−1)
1 , x
(n−1)
2 , . . . , x
(n−1)
p−1 , x
(n−1)
p ,
вычисленные на предыдущем фрейме.
3.1. Сведение уравнений (3) к полиномиально-
му виду
Путем замены x=cos(ω) соотношения (3) сво-
дятся к полиномиальным уравнениям степени
M =p/2 (подробные выкладки приведены в ста-
тье [10]):
M∑
k=0
cm,kxM−k = 0, m = 1, 2. (7)
3.2. Локализация косинусов ЛСЧ
Проверка выполнения условия (6) может быть
осуществлена путем сравнения знаков функций
(7) в точках
{−1, x
(n−1)
2 , x
(n−1)
4 , . . . , x
(n−1)
p−2 , x(n−1)
p , 1}
при вычислении нечетных корней
{x
(n)
1 , x
(n)
3 , . . . , x
(n)
p−3, x
(n)
p−1}
или на сетке
{−1, x
(n−1)
1 , x
(n−1)
3 , . . . , x
(n−1)
p−3 , x
(n−1)
p−1 , 1}
при вычислении четных корней. Иллюстрацией к
этому этапу является рис. 7, на котором приве-
ден типичный график первого из полиномов (7)
и показаны косинусы ЛСЧ {x
(n−1)
i }, вычисленные
на предыдущем фрейме. Как видно из рисунка,
рассматриваемая функция последовательно меня-
ет знак в точках
{−1, x
(n−1)
2 , x
(n−1)
4 , . . . , x
(n−1)
p−2 , x(n−1)
p , 1}.
Таким образом, необходимое для локализации
корней каждого из полиномов (7) количество
вызовов полиномиальных функций составляет
всего p/2+1 (что контрастирует с количеством
вызовов для метода Кабала [13], превышающим
p2/2).
В том случае, когда для некоторого номера i
условие (6) не выполняется в том смысле, что
функция (7) имеет одинаковые знаки на краях
отрезка [x
(n−1)
i−1 , x
(n−1)
i+1 ], проверка наличия корня
осуществляется с помощью алгоритма, предло-
женного в [10]. Указанный алгоритм проверяет
наличие корней на данном отрезке с помощью
хорошо разработанного инструментария анализа
функции и ее производной, при необходимости
проводя рекурсивное деление исходного отрезка.
3.3. Уточнение значений ЛСЧ
После завершения этапа локализации на ка-
ждом из выделенных отрезков точные значения
60 В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Табл. 2. Сравнение средних вычислительных затрат (MFlops), требуемых методом [10]
и методом, предложенным в данной работе
Алгоритм p=8 p=10 p=12 p=14 p=16 p=18 p=20
Метод [10] 0.046 0.075 0.124 0.172 0.236 0.314 0.381
Предложенный метод 0.029 0.044 0.061 0.082 0.104 0.129 0.158
косинусов ЛСЧ определяются с помощью одной из
стандартных итерационных процедур, например,
метода Ньютона [25, 26]. При этом для нахожде-
ния корня x
(n)
k предлагается в качестве начального
приближения использовать вычисленное на пре-
дыдущем фрейме значение x
(n−1)
k
. Эта ситуация
наглядно иллюстрируется с помощью рис. 7. Дей-
ствительно, нечетные косинусы ЛСЧ, вычислен-
ные на предыдущем фрейме, не только являются
хорошим приближением для нечетных корней те-
кущего фрейма, но в ряде случаев практически
совпадают с ними. На завершающем этапе ЛСЧ ωk
формируются из полученных корней путем пре-
образования ω=arccos(x).
4. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Как известно, различные приложения цифро-
вой обработки речевых сигналов требуют исполь-
зования разных порядков АР модели p. Поэтому
эффективность предложенного подхода провере-
на при наиболее часто употребляемых значениях
p: 8, 10, . . . , 20. Для возможности качественного
и количественного оценивания изменений перво-
начально использовалась та же база тестовых сиг-
налов, что и в работе [10]. Она состояла из пяти-
минутных записей шести дикторов (четырех муж-
чин и двух женщин), дискретизированных с часто-
той fs =8000 Гц. Для каждого из исследуемых по-
рядков АР модели речевые сигналы разбивались
на фреймы длиной 20 мс (160 дискретных отсче-
тов). На каждом из этих интервалов с помощью
автокорреляционного метода линейного предска-
зания [1, 2] были предварительно определены АР
коэффициенты. Затем для каждого из этих набо-
ров подсчитывались ЛСЧ.
В табл. 2 представлены средние количества
выполняемых элементарных операций (в милли-
онах элементарных операций в секунду, MFlops),
соответствующие методу, описанному в рабо-
те [10], и методу, предложенному в разделе 3. Для
объективности сравнения на этапе уточнения зна-
чений косинусов ЛСЧ использовался традицион-
ный метод Ньютона с таким же способом иници-
ализации, как и в [10]. В качестве критерия оста-
новки алгоритма выбрано условие |f(x)|<10−6. Из
таблицы видно, что предлагаемый метод обеспечи-
вает экономию вычислительных затрат по сравне-
нию с методом [10] от 1.6 (при p=8) до 2.4 (при
p=10) раз. Столь существенное сокращение вычи-
слительных затрат обусловлено введением более
совершенной процедуры локализации ЛСЧ.
Затраты метода, предложенного в [10], в значи-
тельной степени определялись числом рекурсив-
ных разбиений исходного диапазона поиска ЛСЧ.
Следует заметить, что использование рекурсив-
ных процедур (даже если оно и не вызывает су-
щественных временных задержек) приводит к за-
груженности стека и является нежелательным для
устройств, работающих в режиме реального вре-
мени. В связи с этим замечательно то, что пре-
дложенный в данной статье метод требует прово-
дить разбиения исходных отрезков поиска корней
лишь в том случае, когда не выполняется условие
(6), что, как уже обсуждалось выше, происходит
достаточно редко. При наиболее часто используе-
мом порядке АР модели p=10 среднее количество
разбиений, приходящихся на один фрейм, состави-
ло всего 0.076. Это резко контрастирует с соответ-
ствующим значением 9.97 (т. е. большим в 131 раз)
для метода [10]. Таким образом, рекурсивные ра-
збиения теперь приходится производить в среднем
всего лишь один раз за 13 фреймов (порядка 0.65
секунды)! Это гарантирует отсутствие задержек,
важное для реализации алгоритма в системах ре-
ального времени.
Кроме того, поскольку тестовые речевые сиг-
налы отличались разнообразием сменяющих друг
друга дикторов и практически полным отсутстви-
ем пауз, приводимые данные для вычислительных
характеристик разработанного метода следует во-
спринимать, как соответствующие верхние грани-
цы. В процессе реальной работы устройств цифро-
вой обработки речи значения вычислительных за-
трат и рекурсивных разбиений должны быть еще
более низкими4.
Теперь сопоставим эффективность предложен-
4Во многих приложениях цифровой обработки речевых
сигналов ЛСЧ вычисляются на перекрывающихся времен-
ных интервалах, что делает применение предложенного
подхода еще более выгодным.
В. Ю. Семенов 61
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Рис. 8. Пример распределения вычислительных
затрат методов поиска ЛСЧ в зависимости
от времени. Пики в распределении операций
предложенного метода соответствуют резким
переходам от одного звука к другому
ного метода с распространенным сеточным мето-
дом Кабала [13] при определении ЛСЧ для наи-
более часто используемого порядка АР модели
p=10. Основные особенности использования ме-
тода Кабала подробно проанализированы в [10].
Поскольку в алгоритме Кабала используется уто-
чнение косинусов ЛСЧ с помощью метода по-
ловинного деления (для фиксированности коли-
чества операций), для объективности сравнения
была рассмотрена также его “ускоренная” моди-
фикация, соответствующая уточнению корней ме-
тодом Ньютона. При этом выяснено, что наи-
лучший результат этот комбинированный подход
обеспечивает при инициализации метода Ньютона
с помощью одной итерации метода ложного поло-
жения [25, 26].
В табл. 3 представлены средние, минимальные
и максимальные количества операций, необходи-
мые для выполнения на одном фрейме метода Ка-
бала, его “ускоренной” модификации, метода [10]
и метода, предлагаемого в данной работе. В ка-
честве признака завершения поиска корней взято
требуемое методом Кабала условие |xk−xk−1|<ε,
где xk, xk−1 – приближенные значения корня, по-
лученные на двух последовательных итерациях.
Значение порога ε взято равным 10−3. В данной се-
рии экспериментов использовался речевой массив,
описанный в разделе 2 и содержащий в качестве
подмножества базу тестовых сигналов, применяв-
шихся на предыдущем этапе исследования.
Из табл. 3 следует, что предложенный подход
к поиску ЛСЧ обеспечивает сокращение средних
вычислительных затрат в 3.42 раза по сравнению
с методом Кабала. Также имеется достаточно су-
щественный (в 2.38 раза) выигрыш по сравнению
с комбинацией метода Кабала и метода Ньютона.
Обеспечиваемый выигрыш в 2.08 раза по сравне-
нию с методом [10] согласуется с данными, приве-
денными в табл. 2.
Один из важных результатов работы [10] состо-
ял в том, что помимо выигрыша по сравнению
с методом Кабала в среднем количестве опера-
ций, максимальные (пиковые) количества элемен-
тарных операций, зафиксированные в процессе ре-
альной работы, были ниже соответствующих за-
трат метода Кабала. Поэтому значительный инте-
рес представляет исследование пиковых вычисли-
тельных затрат, свойственных предлагаемому ме-
тоду поиска ЛСЧ. Как следует из табл. 3, он обла-
дает еще более существенным преимуществом: со-
ответствующее ему максимальное количество эле-
ментарных операций (1428) является меньшим не
только затрат “прямого” метода Кабала (2150),
но и минимальных затрат ускоренной комбинации
метода Кабала с методом Ньютона (1491 элемен-
тарная операция). Данное обстоятельство являе-
тся дополнительным свидетельством предпочти-
тельности предложенного метода для применения
в системах реального времени.
Дополнительный пример к сравнительной хара-
ктеристике различных методов поиска ЛСЧ дан
на рис. 8. Здесь изображены временные зависимо-
сти требуемого количества операций для поиска
ЛСЧ тестового речевого сигнала, спектрограмма
которого была представлена на рис. 3. Из графи-
ка наглядно следует преимущество предложенного
метода в контексте выполняемого количества опе-
раций. При этом минимальные вычислительные
затраты имеют место в паузах, заполненных ста-
ционарным фоновым шумом, а характерные пики
в распределении операций соответствуют резким
переходам от одного звука к другому.
В завершение следует заметить, что еще более
значительное сокращение вычислительных затрат
может быть достигнуто при внедрении в структу-
ру предложенного метода следующих усовершен-
ствований:
а) применение правила Декарта [24] для уско-
рения локализации положительных и отрица-
тельных корней многочленов (7);
б) применение более быстро сходящихся методов
поиска корней полиномов (7) [22].
ЗАКЛЮЧЕНИЕ
Основной задачей данной работы было постро-
ение простого и эффективного метода вычисле-
62 В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
Табл. 3. Сравнение средних и экстремальных значений вычислительных затрат
для различных методов поиска ЛСЧ
Алгоритм Среднее кол-во Минимальное кол-во Максимальное кол-во
операций операций операций
Метод Кабала 2150 2150 2150
Ускоренный метод Кабала 1498 1491 1557
Метод [10] 1309 1066 1936
Предложенный метод 629 428 1428
ния линейных спектральных частот, поиск кото-
рых является составной частью большинства сов-
ременных систем обработки речевых сигналов. В
ходе исследования изучена взаимосвязь ЛСЧ с
параметрами авторегрессионной (полюсной) моде-
ли голосового тракта, а также акустической мо-
делью голосового тракта в виде последовательно-
сти труб переменного сечения. Исходя из того, что
скорость изменения ЛСЧ определяется динами-
кой изменения конфигурации голосового тракта,
сформулирован вопрос относительно возможно-
сти эффективного использования значений ЛСЧ,
определенных на некотором временном интервале,
для вычисления ЛСЧ следующего временного ин-
тервала. В результате проведенного исследования
взаимного расположения ЛСЧ на смежных квази-
стационарных временных интервалах сделаны та-
кие выводы.
1. В преимущественном большинстве ситуаций
(от 88.85 % случаев при порядке модели го-
лосового тракта p=20 до 96.78 % случаев
при p=8) выполняется свойство “межфрей-
мовой упорядоченности” ЛСЧ (5). Это по-
зволяет утверждать, что задача локализации
ЛСЧ может быть сведена, главным образом,
к простой проверке удовлетворения косину-
сами ЛСЧ свойства упорядоченности (6). В
тех же случаях, когда условие межфреймо-
вой упорядоченности не выполняется, для ло-
кализации косинусов ЛСЧ должен использо-
ваться универсальный алгоритм локализации
корней трансцендентных уравнений, предло-
женный в [10, 11].
2. На этапе уточнения значений ЛСЧ для
ускорения процесса сходимости могут быть
использованы значения косинусов соответ-
ствующих ЛСЧ, вычисленные на предыдущем
фрейме.
Сделанные выводы легли в основу итогового ал-
горитма вычисления ЛСЧ, сформулированного в
разделе 3. После этого на этапе эксперименталь-
ной проверки эффективность предложенного ме-
тода оценивалась при работе с разнообразными
тестовыми речевыми сигналами и различными по-
рядками АР модели голосового тракта. В ходе те-
стирования получены следующие результаты.
1. Итоговая экономия вычислений по сравнению
с методом, представленным в [10], не исполь-
зующим особенности распределения ЛСЧ, со-
ставляет от 1.8 до 2.5 раз (при различных по-
рядках полюсной модели голосового тракта).
2. При наиболее часто используемом порядке по-
люсной модели голосового тракта p=10 пре-
дложенный подход к поиску ЛСЧ сокращает
вычислительные затраты в 3.4 раза по срав-
нению с распространенным методом Кабала.
Также имеет место существенный выигрыш
по сравнению с исследованной “ускоренной”
комбинацией метода Кабала и метода Ньюто-
на, равный 2.4 раза.
3. При анализе пиковых значений вычислитель-
ных затрат предложенного метода установле-
но, что его максимальные вычислительные за-
траты являются меньшими не только инвари-
антных во времени затрат “прямого” метода
Кабала, но и минимальных затрат ускоренной
комбинации метода Кабала с методом Ньюто-
на.
Перечисленные факты свидетельствуют о преи-
муществе предложенного метода с точки зрения
применения в системах реального времени. При
этом, поскольку использованные тестовые рече-
вые сигналы отличались разнообразием сменяю-
щих друг друга дикторов и практически полным
отсутствием пауз, то приведенные вычислитель-
ные характеристики разработанного метода сле-
дует воспринимать как соответствующие верхние
границы.
1. Рабинер Л., Шафер Р. Цифровая обработка рече-
вых сигналов.– М.: Радио и связь, 1981.– 496 с.
2. Маркел Дж., Грей А. Линейное предсказание
речи.– М.: Cвязь, 1977.– 308 с.
В. Ю. Семенов 63
ISSN 1028 -7507 Акустичний вiсник. 2004. Том 7, N 3. С. 55 – 64
3. Full-rate speech transcoding (Recommendation GSM
06.10).– European Telecommunications Standards
Institute.– 1992.
4. Dual rate speech coder for multimedia communicati-
ons transmitting at 5.3 and 6.3 kbit/s.– International
Telecommunication Union.– 1996.
5. Coding of speech at 8 kbit/s using conjugate-
structure algebraic-code-excited linear prediction.–
International Telecommunication Union.– 1996.
6. Salami R. Design and description of CS-ASELP: a toll
quality 8 kbit/s speech coder // IEEE Trans. Speech
Audio Proces.– 1998.– 6.– P. 116–128.
7. McCree A. V., Barnwell T. P. A mixed excitation
LPC vocoder model for low bit rate speech codi-
ng // IEEE Trans. Speech Audio Proces.– 1995.– 4.–
P. 242–249.
8. Макхоул Дж., Русос C., Гиш Г. Векторное кванто-
вание при кодировании речи // ТИИЭР.– 1985.–
73.– С. 19–61.
9. Калюжный А. Я., Семенов В. Ю. Метод слепой
деконволюции речевых сигналов, основанный на
анализе линейных спектральных частот // Акуст.
вiсн.– 2003.– 6, N 3.– С. 34–43.
10. Семенов В. Ю. Новый метод вычисления ли-
нейных спектральных частот речевых сигналов,
основанный на универсальном алгоритме реше-
ния трансцендентных уравнений // Акуст. вiсн.–
2002.– 5, N 4.– С. 38–50.
11. Семенов В. Ю. Новый метод локализации кор-
ней трансцендентных уравнений // Комп’ютерна
математика.– 2004.– Вып. 1.– С. 143–151.
12. Itakura F. Line spectrum representation of linear
predictive coefficients of speech signals // J. Acoust.
Soc. Amer.– 1975.– 57, N 1, Suppl. 1.– P. S35.
13. Kabal P., Ramachandran R. P. The computation of
line spectral frequencies using Chebyshev polynomi-
als // IEEE Trans. Acoust. Speech Signal Proces.–
1980.– 28.– P. 562–574.
14. Ramachandran R.P., Sondhi M.M., Seshadri N.,
Atal B.S. A two codebook format for robust quanti-
zation of line spectral frequencies // IEEE Trans.
Speech Audio Proces.– 1995.– 3, N 3.– P. 157–167.
15. Soong K. S., Juang B.-H. Optimal quantization
of LSP parameters // IEEE Trans. Speech Audio
Proces.– 1993.– 1.– P. 15–24.
16. Pan J., Fischer T. R. Vector quantization of speech
line spectrum pair parameters and reflection coeffici-
ents // IEEE Trans. Speech Audio Proces.– 1998.–
6.– P. 106–115.
17. Paliwal K., Atal B. S. Efficient vector quantization
of LPC parameters at 24 bits/frame // IEEE Trans.
Speech Audio Proces.– 1993.– 1.– P. 3–14.
18. Paliwal K. A study of line spectrum pair frequenci-
es for speech recognition // Proc. IEEE Int. Conf.
Acoust. Speech Signal Proces.– New York, USA,
1988.– P. 485–488.
19. Liu C., Lin M., Wang W., Wang H. A study of line
spectrum pair frequencies for speaker recognition //
Proc. IEEE Int. Conf. Acoust. Speech Signal Proces.–
Alburquerque, USA, 1990.– P. 277–280.
20. Hansen J., Clements M. Constrained iterative speech
enhancement with application to speech recogniti-
on // IEEE Trans. Acoust. Speech Signal Proces.–
1991.– 4.– P. 795–805.
21. Kim S.-J, Oh Y.-H. Split vector quantization of LSF
parameters with minimum dLSF constraint // IEEE
Signal Proces. Lett.– 1999.– 6, N 9.– P. 227–232.
22. Rothweiler J. A rootfinding algorithm on line spectral
frequencies // Proc. IEEE Int. Conf. Acoust. Speech
Signal Proces.– Phoenix, USA, 1999.– P. 661–664.
23. Rothweiler J. On polynomial reduction in the
computation of LSP frequencies // IEEE Trans.
Speech Audio Proces.– 1999.– 7.– P. 592–594.
24. Wu C.-H., Chen J.-H. A novel two-level method
for the computation of LSP frequencies using
a decimation-in-degree algorithm // IEEE Trans.
Speech Audio Proces.– 1997.– 5.– P. 106–115.
25. Корн Г., Корн Т. Справочник по математике для
научных работников и инженеров.– М.: Наука,
1977.– 834 с.
26. Молчанов И.Н. Машинные методы решения при-
кладных задач. Алгебра, приближение функций.–
К.: Наук. думка, 1987.– 288 с.
64 В. Ю. Семенов
|
| id | nasplib_isofts_kiev_ua-123456789-1018 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1028-7507 |
| language | Russian |
| last_indexed | 2025-12-07T16:29:01Z |
| publishDate | 2004 |
| publisher | Інститут гідромеханіки НАН України |
| record_format | dspace |
| spelling | Семенов, В.Ю. 2008-07-09T15:09:38Z 2008-07-09T15:09:38Z 2004 Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности / В.Ю. Семенов // Акуст. вісн. — 2004. — Т. 7, N 3. — С. 55-64. — Бібліогр.: 26 назв. — рос. 1028-7507 https://nasplib.isofts.kiev.ua/handle/123456789/1018 534.78+621.391 Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной формой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый подход к вычислению ЛСЧ, состоящий из двух этапов - локализации ЛСЧ и их точного вычисления. Показано, что этап локализации эффективно сводится к проверке свойства межфреймовой упорядоченности ЛСЧ. Продемонстрировано, как для ускорения стадии точного вычисления ЛСЧ могут быть использованы их значения, найденные на предыдущем фрейме. В результате тестирования различных речевых сигналах продемонстрировано сокращение количества операций до 2.5 раз по сравнению с версией метода, не использующей априорную информацию о взаимном расположении ЛСЧ на смежных фреймах, и до 3.4 раз по сравнению с широко используемым методом Кабала. Кроме того, показано, что максимальные (пиковые) вычислительные затраты предложенного метода меньше не только минимальных затрат метода Кабала, но и минимальных затрат ускоренной комбинации метода Кабала с методом Ньютона. Это свидетельствует о предпочтительности использования разработанного метода в системах реального времени. Розглянуто актуальну проблему пошуку лінійних спектральних частот (ЛСЧ), які є еквівалентною формою представлення полюсної моделі голосового тракту. Виконано дослідження взаємного розташування ЛСЧ на суміжних квазістаціонарних часових інтервалах (фреймах). На основі цього запропоновано новий підхід до обчислення ЛСЧ, який складається з двох етапів - локалізації ЛСЧ та їх точного обчислення. Показано, що етап локалізації ефективно зводиться до перевірки властивості міжфреймової упорядкованості ЛСЧ. Продемонстровано, як для прискорення стадії точного обчислення ЛСЧ можуть бути використані їхні значення, знайдені на попередньому фреймі. У результаті тестування на різноманітних мовних сигналах продемонстровано зменшення кількості операцій до 2.5 разів у порівнянні з версією методу, який не використовує апріорну інформацію про взаємне розташування ЛСЧ на суміжних фреймах, та до 3.4 разів у порівнянні з широко використовуваним методом Кабала. Окрім того, показано, що максимальні (пікові) обчислювальні витрати запропонованого методу менші не тільки за мінімальні витрати методу Кабала, але й за мінімальні витрати прискореної комбінації методу Кабала з методом Ньютона. Це свідчить про перевагу застосування розробленого методу в системах реального часу. The paper is dedicated to an important problem of calculation of line spectral frequencies (LSF), being the alternative form of representation of all-pole vocal tract model. Investigation of LSF relative position on the adjacent quasi-stationary time intervals (frames) is performed. On this basis a new two-stage approach to LSF calculation is proposed. This approach consists of two parts: LSF localization and their refinement. It was shown that the localization stage is effectively reduced to verification of interframe ordering property. It is also demonstrated how LSF values obtained in the previous frame can be used to accelerate the LSF refinement stage. As a result of testing on various speech signals, the 2.5 times reduction of the number of operations is shown in comparison with the similar algorithm without allowance for a priory information about relative LSF position on the adjacent frames. It was also shown that computational expenses are reduced 3.4 times in comparison with widely used Kabal's method. Moreover, it is demonstrated that the maximum (peak) computational expenses of the proposed method are lower than minimal ones both for Kabal's method and the accelerated combination of Kabal's method with Newton's method. These results show the advantage of applying the proposed method in real-time systems. ru Інститут гідромеханіки НАН України Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности A novel approach to computation of the speech signal line spectral frequencies based on the interframe ordering property Article published earlier |
| spellingShingle | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности Семенов, В.Ю. |
| title | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| title_alt | A novel approach to computation of the speech signal line spectral frequencies based on the interframe ordering property |
| title_full | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| title_fullStr | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| title_full_unstemmed | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| title_short | Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| title_sort | новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/1018 |
| work_keys_str_mv | AT semenovvû novyipodhodkvyčisleniûlineinyhspektralʹnyhčastotrečevyhsignalovosnovannyinasvoistvemežfreimovoiuporâdočennosti AT semenovvû anovelapproachtocomputationofthespeechsignallinespectralfrequenciesbasedontheinterframeorderingproperty |