Применение вейвлет-анализа для определения границ речи в зашумленном сигнале

В статье предложена методика определения границ речи в звуковом сигнале, содержащем шум, на
 основе вейвлет-анализа. Одним из этапов этой процедуры является классификация фреймов входного
 сигнала, основанная на энергетических характеристиках вейвлет-спектра и позволяющая учитывать&a...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2009
Автори: Ермоленко, Т.В., Лащенко, А.В.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2009
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/7759
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Применение вейвлет-анализа для определения границ речи в зашумленном сигнале / Т.В. Ермоленко, А.В. Лащенко // Штучний інтелект. — 2009. — № 1. — С. 35-40. — Бібліогр.: 9 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860055423059492864
author Ермоленко, Т.В.
Лащенко, А.В.
author_facet Ермоленко, Т.В.
Лащенко, А.В.
citation_txt Применение вейвлет-анализа для определения границ речи в зашумленном сигнале / Т.В. Ермоленко, А.В. Лащенко // Штучний інтелект. — 2009. — № 1. — С. 35-40. — Бібліогр.: 9 назв. — рос.
collection DSpace DC
description В статье предложена методика определения границ речи в звуковом сигнале, содержащем шум, на
 основе вейвлет-анализа. Одним из этапов этой процедуры является классификация фреймов входного
 сигнала, основанная на энергетических характеристиках вейвлет-спектра и позволяющая учитывать
 акустические характеристики широких фонетических классов звуков речи. Подобный подход дает
 возможность определить границы речи при наличии высокоамплитудных помех, провести сегментацию
 речевого сигнала и повысить эффективность дальнейшего распознавания. Запропоновано методику визначення границь мовлення у звуковому сигналі, який містить шум, на
 базі вейвлет-аналізу. Одним із етапів цієї процедури є класифікація фреймів вхідного сигналу, який
 базується на енергетичних характеристиках вейвлет-спектра та дозволяє ураховувати акустичні
 характеристики широких фонетичних класів звуків мовлення. Такий підхід забезпечує визначення
 границь мовлення при наявності високоамплітудних завад, надає можливість виконати сегментацію
 мовного сигналу та підвищити ефективність подальшого розпізнавання. Wavelet-analysis based method for speech boundaries detection in a noised signal was offered. As one of
 stages this method includes input signal’s frames classification, which is based on wavelet spectrum energy
 characteristics. It allows to take into account acoustic characteristics of speech sounds’ wide classification.
 Such an approach gives an opportunity to allocate a speech in a signal with high-amplitude noises, to execute
 a speech signal segmentation and to raise efficiency of further recognition.
first_indexed 2025-12-07T17:00:46Z
format Article
fulltext «Штучний інтелект» 1’2009 35 1Е УДК 004.934 Т.В. Ермоленко, А.В. Лащенко Институт проблем искусственного интеллекта МОН и НАН Украины, г. Донецк, Украина etv@iai.donetsk.ua Применение вейвлет-анализа для определения границ речи в зашумленном сигнале В статье предложена методика определения границ речи в звуковом сигнале, содержащем шум, на основе вейвлет-анализа. Одним из этапов этой процедуры является классификация фреймов входного сигнала, основанная на энергетических характеристиках вейвлет-спектра и позволяющая учитывать акустические характеристики широких фонетических классов звуков речи. Подобный подход дает возможность определить границы речи при наличии высокоамплитудных помех, провести сегментацию речевого сигнала и повысить эффективность дальнейшего распознавания. Введение Одним из важных направлений исследований в области искусственного интел- лекта является разработка интеллектуальных систем образного восприятия речевой информации, среди которых значительную роль играют системы распознавания речи. Проблемы, возникающие при распознавании речевого сигнала, связаны с его вариативностью, шумом окружающей среды и звукозаписывающего оборудования, поэтому качество распознавания существенно зависит от предварительной обработки сигнала. Одним из этапов предварительной обработки речевого сигнала является опреде- ление границ речи. Соответствующие методы реализованы в многочисленных детекторах речи (VAD). Общим свойством VAD-алгоритмов является то, что они включают в себя обучение (вычисление характеристик шума) и спектральное вычитание. Чаще всего в качестве признаков, определяющих начало и конец слова, выбираются энергетические и спектральные характеристики сигнала [1-3], а также число переходов через ноль [4], [5]. К недостаткам VAD-алгоритмов, базирующихся на оценке энергетических характеристик сигнала, относится возможность принятия кратковременного шума с высокой амплитудой за речь либо низкоамплитудного речевого сигнала за шум. Корректно работающий в подобных ситуациях детектор описан в [6], в качестве признаков классификации речь/шум используются мел- частотные кепстральные коэффициенты. Однако для его эффективной работы необ- ходимо наличие в обучающем множестве как сигнала, содержащего только шум, так и речевых баз данных. Кроме того, большинство из VAD не способны точно определять границы речи в условиях шума, уровень которого превышает или близок к уровню шумных глухих щелевых и смычно-щелевых звуков. Для решения этой проблемы необходимо при формировании набора признаков, определяющих начало и конец слова, учитывать спектральные характеристики широких фонетических классов (ШФК) звуков речи, а также их длительность. Для описания локальных особенностей неоднородных сигналов, к которым относится речевой сигнал, в последнее время эффективно употребляется вейвлет- преобразование, которое обеспечивает подвижное частотно-временное окно анализа и адаптировано к локальным свойствам сигнала [7], [8]. Ермоленко Т.В., Лащенко А.В. «Искусственный интеллект» 1’2009 36 1Е В данной работе на основе вейвлет-анализа предлагается методика определе- ния границ речи в звуковом сигнале, позволяющая выделить речь при наличии высокоамплитудных помех за счет учета акустических характеристик ШФК звуков речи с одновременной первичной сегментацией речевого сигнала. Под термином «первичная сегментация» в данной работе понимается разбие- ние сигнала на участки, каждый из которых содержит один из следующих ШФК звуков речи:  шум (Noise);  вокализованный звук (Voc);  шумный глухой щелевой или смычно-щелевой звук (Sh);  шумный глухой смычный звук (P). Методика определения границ речи Предложенная ниже методика определения границ речи использует быстрое вейвлет-преобразование Добеши [9] и состоит из трех этапов: обучения шуму, клас- сификации фреймов сигнала, определения границ речи (рис. 1). Рисунок 1 – Схема методики определения границ речи Входными данными этой процедуры являются зашумленный сигнал x(n) и об- разец шума (n); выходными данными – отсчеты сигнала L, R, которые соответст- вуют левой и правой границам слова, вычисленные по образцу шума на каждом уровне разложения; пороги (m) и массив номеров граничных фреймов, полученный в результате классификации фреймов. На этапе обучения шуму выполняется вейвлет-разложение сигнала (n), его разбиение на фреймы длиной N, образующие множество фреймов F, и вычисление порогов (m): )(3)()( mDmAverm   , m = 1,…, jmax , (1) где jmax – максимальный уровень вейвлет-разложения; )(mAver , )(mD – полученные на множестве F среднее и смещенная оценка дисперсии величин (2), представляю- щих собой энергии спектра )(mEs  сигнала (n)     m m Ns Nsn mns dmE 2/ 2/)1( 2)( , s  F . (2) На этапе классификации каждый фрейм входного сигнала x(n) относят к одно- му из четырех ШФК, перечисленных выше. Классификация фреймов проводится на множествах уровней разложения: Mvoc={m: mvoc ≤ m ≤ jmax} – соответствует полосе частот основного тона (100 – 300 Гц); Msh={m: 1 ≤ m ≤ msh} – соответствует высокочас- тотной области спектра (более 2500 Гц), где сосредоточена энергия звуков класса Sh. x(n), (n) 1. Обучение шуму L, R, (m) Bound 2. Классифи- кация фреймов 3. Определение границ речи Применение вейвлет-анализа для определения границ речи в зашумленном сигнале «Штучний інтелект» 1’2009 37 1Е Рис. 2 демонстрирует поведение характеристик (2) для сигнала, записанного в усло- виях высокоамплитудного производственного шума (отношение сигнал/шум 2,3 дБ), содержащего звуки различных ШФК (рис. 2а), на уровне mMsh (рис. 2б) и mMvoc (рис. 2в). а) -80 -60 -40 -20 0 20 40 60 80 АВП сигнала б) 0 5 10 15 20 25 30 35 Ряд1 Ряд2(m ) E s (m ) в) 0 5 10 15 20 25 30 35 40 45 50 Es(m)E s (m ) (m ) Рисунок 2 – а) Амплитудно-временное представление слова «Сушка», записанного в условиях производственного шума, б) энергия вейвлет-спектра слова «Сушка» на уровне mMsh; в) энергия вейвлет-спектра слова «Сушка» на уровне mMvoc Как видно из рис. 2, амплитудно-частотные характеристики банка вейвлет-фильтров позволяют на множестве уровней разложения Mvoc выделить из сигнала вокализованные звуки, на множестве уровней разложения Msh – звуки класса Sh. Ермоленко Т.В., Лащенко А.В. «Искусственный интеллект» 1’2009 38 1Е Классификация фреймов сигнала проводится по следующим правилам: PNoisesmmE shVoc MMm s    )()(  , VocsmmE VocMm s    )()(  , ShsmmEmmE shVoc Mm s Mm s                      )()()()(  , где )(mEs – энергия s-го фрейма сигнала x(n). На основе классификации фреймов строится функция их маркировки:          Shs Vocs PNoises sMark ,2 ,1 ,0 )( . (3) Чтобы не принимать кратковременный высокоамплитудный шум за речь, необ- ходимо уточнить маркировку фреймов с учетом минимальной длительности фонемы согласно правилу: N1,N2: (0 ≤ N2 – N1 < Lmin)  (Mark(N1) = Mark(N2) = 0) (Mark(N1 + 1)  0)  (Mark(N2 – 1)  0)  s:N1 ≤ s ≤ N2 Mark(s) = 0, где Lmin – число фреймов, соответствующее максимальной длительности фонемы. Следующий этап – определение границ речи. Номера отсчетов L и R, которые являются левой и правой границами речи, определяются согласно (4) и (5): Nl: (s<Nl Mark(s) = 0)  Mark(Nl)  0  L = NlN, (4) Nr: (s: Nr < s  Nr + Lmax Mark(s) =0)  Mark(Nr)  0  R = NrN, (5) где Lmax – число фреймов, соответствующее максимальной длительности звука клас- са P; N – длина фрейма; Nl, Nr – номера фреймов, соответствующих левой и правой границам речи. Чтобы не принимать низкоамплитудный речевой сигнал за шум, уточняется маркировка фреймов следующим образом: s: (Nl<s<Nr)  (Mark(s) = 0)  Mark(s) = 3. (6) Таким образом, с учетом (6) функция маркировки (3) примет вид:             Ps Shs Vocs Noises sMark 3 2 1 0 )( . (7) Функция (7) позволяет провести первичную сегментацию речевого сигнала с одновременной классификацией сегментов. Номера граничных фреймов образуют массив (8): Bound = {s: (Nl + Lmin ≤ s ≤ Nr – Lmin)  (Mark(s – 1)  Mark(s))}. (8) Применение вейвлет-анализа для определения границ речи в зашумленном сигнале «Штучний інтелект» 1’2009 39 1Е Результаты численного исследования Предложенная методика была реализована в виде программного модуля, который является составной частью информационной технологии, реализующей функции предварительной обработки, сегментации речевого сигнала, классификации и распо- знавания фонем. Тестирование этого модуля проводилось на сигналах, зашумленных цветными шумами, а также содержащих производственные шумы от работающих технических устройств. В численном исследовании участвовало 50 дикторов с различными голосовыми данными. Каждый диктор произносил слова, содержащие звуки различных ШФК. Слова записывались с частотой дискретизации 22050 Гц, 8 бит, моно. Результаты исследования для сигналов с различными видами шумов сведены в табл. 1, куда при определении границ речи (столбец Noise) и сегментов, содержащих звуки классов Voc, Sh, P (столбцы Voc, Sh, P соответственно), занесены: вероятности ошибочного определения границ (столбцы  – вероятность ошибки первого рода) и пропуска гра- ниц (столбцы  – вероятность ошибки второго рода). Таблица 1 – Вероятности ошибок первого и второго рода при определении границ речи и первичной сегментации Voc Sh P Noise Тип шума         Коричневый шум, отношение сигнал/ шум 9 дБ 0,020 0,018 0,022 0,019 0,021 0,019 0,021 0,019 Розовый шум, отношение сигнал/ шум 15 дБ 0,045 0,043 0,049 0,030 0,043 0,029 0,049 0,030 Белый шум, отношение сигнал/ шум 18 дБ 0,025 0,021 0,041 0,036 0,018 0,015 0,041 0,036 Производственный шум, отношение сиг- нал/шум 2 – 5 дБ 0,020 0,019 0,024 0,015 0,016 0,014 0,024 0,019 Как можно видеть из табл. 1, вероятности ошибок определения границ речи и сегментов, содержащих звуки разных ШФК, для зашумленных сигналов различными видами шумов не превышают 0,05. Выводы Основным результатом данной статьи, отражающим научную новизну, является то, что усовершенствованы методики определения границ речи на основе методов вейвлет- анализа за счет использования акустических характеристик звуков речи, принадле- жащих различным ШФК, что дает возможность: определить границы речи в звуковом сигнале при высокоамплитудных помехах, а также в условиях шума, уровень которого превышает или близок к уровню шумных глухих щелевых и смычно-щелевых звуков; провести первичную сегментацию речевого сигнала с одновременной классифика- цией полученных сегментов. Подобный подход на этапе предварительной обработки позволяет понизить ошибки дальнейшего распознавания. Ермоленко Т.В., Лащенко А.В. «Искусственный интеллект» 1’2009 40 1Е Численные исследования показали эффективность применения предложенной методики для сигналов, содержащих шумы различных видов, вероятности ошибок при определении границ речи и сегментов не превышают 0,05. Предложенный подход определения границ речи может быть использован для построения интеллектуальных систем взаимодействия пользователя и компьютера, а также систем речевого управления техническими устройствами. Литература 1. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А. Организация иерархической модели распознавания слитной речи // Искусственный интеллект. – 2001. – № 3. – С. 17-22. 2. Freeman D., Sonthcott С., Boyd I.A. Voice activity detector for the Pan-European digital cellular mobile telephone service // IEEE Colloquium «Digitized Speech Communication via Mobile Radio». – London (Great Britain). – 1988. – P. 61-65. 3. Junqua J.C., Mak B., Reaves B. A Robust Algorithm for Word Boundary Detection in the Presence of Noise // IEEE Transactions on Speech Audio Processing. – 1994. – Vol. 2, № 3. – P. 406-412. 4. Редди Д.Р. Машинное распознавание речи // ТИИЭР. – 1976. – Т. 64, № 4. – С. 95-127. 5. Savoji M.H. A Robust Algorithm for Accurate Endpointing of Speech // Speech Communication. – 1989. – Vol. 8, № 3. – P. 45-60. 6. Tomi Kinnunen, Evgenia Chernenko, Marko Tuononen, Pasi Franti, Haizhou Li / Voice Activity Detec- tion Using MFCC Features and SuPort Vector Machine // Proc. International Conf. on Speech and Computer (SPECOM’2007). – Moscow (Russia). – 2007. – P. 556-561. 7. Малла С. Вейвлеты в обработке сигналов: Пер. с англ. – М.: Мир, 2005. – 671 с. 8. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. – СПб.: ВУС, 1999. – 208 с. 9. Добеши И. Десять лекций по вейвлетам: Пер. с англ. – Москва; Ижевск: РХД, 2004. – 464 с. Т.В. Єрмоленко, А.В. Лащенко Методика визначення границь мовлення у сигналі, який містить шум, на базі вейвлет-аналіза Запропоновано методику визначення границь мовлення у звуковому сигналі, який містить шум, на базі вейвлет-аналізу. Одним із етапів цієї процедури є класифікація фреймів вхідного сигналу, який базується на енергетичних характеристиках вейвлет-спектра та дозволяє ураховувати акустичні характеристики широких фонетичних класів звуків мовлення. Такий підхід забезпечує визначення границь мовлення при наявності високоамплітудних завад, надає можливість виконати сегментацію мовного сигналу та підвищити ефективність подальшого розпізнавання. T.V. Yermolenko, A.V. Laschenko Wavelet-Analysis Application for Speech Boundaries Detection in a Noised Signal Wavelet-analysis based method for speech boundaries detection in a noised signal was offered. As one of stages this method includes input signal’s frames classification, which is based on wavelet spectrum energy characteristics. It allows to take into account acoustic characteristics of speech sounds’ wide classification. Such an approach gives an opportunity to allocate a speech in a signal with high-amplitude noises, to execute a speech signal segmentation and to raise efficiency of further recognition. Статья поступила в редакцию 16.07.2008.
id nasplib_isofts_kiev_ua-123456789-7759
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Russian
last_indexed 2025-12-07T17:00:46Z
publishDate 2009
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Ермоленко, Т.В.
Лащенко, А.В.
2010-04-12T12:13:51Z
2010-04-12T12:13:51Z
2009
Применение вейвлет-анализа для определения границ речи в зашумленном сигнале / Т.В. Ермоленко, А.В. Лащенко // Штучний інтелект. — 2009. — № 1. — С. 35-40. — Бібліогр.: 9 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/7759
004.934
В статье предложена методика определения границ речи в звуковом сигнале, содержащем шум, на&#xd; основе вейвлет-анализа. Одним из этапов этой процедуры является классификация фреймов входного&#xd; сигнала, основанная на энергетических характеристиках вейвлет-спектра и позволяющая учитывать&#xd; акустические характеристики широких фонетических классов звуков речи. Подобный подход дает&#xd; возможность определить границы речи при наличии высокоамплитудных помех, провести сегментацию&#xd; речевого сигнала и повысить эффективность дальнейшего распознавания.
Запропоновано методику визначення границь мовлення у звуковому сигналі, який містить шум, на&#xd; базі вейвлет-аналізу. Одним із етапів цієї процедури є класифікація фреймів вхідного сигналу, який&#xd; базується на енергетичних характеристиках вейвлет-спектра та дозволяє ураховувати акустичні&#xd; характеристики широких фонетичних класів звуків мовлення. Такий підхід забезпечує визначення&#xd; границь мовлення при наявності високоамплітудних завад, надає можливість виконати сегментацію&#xd; мовного сигналу та підвищити ефективність подальшого розпізнавання.
Wavelet-analysis based method for speech boundaries detection in a noised signal was offered. As one of&#xd; stages this method includes input signal’s frames classification, which is based on wavelet spectrum energy&#xd; characteristics. It allows to take into account acoustic characteristics of speech sounds’ wide classification.&#xd; Such an approach gives an opportunity to allocate a speech in a signal with high-amplitude noises, to execute&#xd; a speech signal segmentation and to raise efficiency of further recognition.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки сигналов и изображений
Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
Методика визначення границь мовлення у сигналі, який містить шум, на базі вейвлет-аналіза
Wavelet-Analysis Application for Speech Boundaries Detection in a Noised Signal
Article
published earlier
spellingShingle Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
Ермоленко, Т.В.
Лащенко, А.В.
Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки сигналов и изображений
title Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
title_alt Методика визначення границь мовлення у сигналі, який містить шум, на базі вейвлет-аналіза
Wavelet-Analysis Application for Speech Boundaries Detection in a Noised Signal
title_full Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
title_fullStr Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
title_full_unstemmed Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
title_short Применение вейвлет-анализа для определения границ речи в зашумленном сигнале
title_sort применение вейвлет-анализа для определения границ речи в зашумленном сигнале
topic Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки сигналов и изображений
topic_facet Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки сигналов и изображений
url https://nasplib.isofts.kiev.ua/handle/123456789/7759
work_keys_str_mv AT ermolenkotv primenenieveivletanalizadlâopredeleniâgranicrečivzašumlennomsignale
AT laŝenkoav primenenieveivletanalizadlâopredeleniâgranicrečivzašumlennomsignale
AT ermolenkotv metodikaviznačennâgranicʹmovlennâusignalíâkiimístitʹšumnabazíveivletanalíza
AT laŝenkoav metodikaviznačennâgranicʹmovlennâusignalíâkiimístitʹšumnabazíveivletanalíza
AT ermolenkotv waveletanalysisapplicationforspeechboundariesdetectioninanoisedsignal
AT laŝenkoav waveletanalysisapplicationforspeechboundariesdetectioninanoisedsignal