Сегментація мовленнєвих сигналів на основі алгоритму Вітербі

Розглянуто питання сегментації мовлення при створенні баз мовленнєвих даних. Запропоновано використовувати для попередньої сегментації алгоритм Вітербі у поєднанні з методами розпізнавання. Для підвищення точності визначення границь сегментів запропоновано використовувати статистичну інформацію про...

Full description

Saved in:
Bibliographic Details
Published in:Реєстрація, зберігання і обробка даних
Date:2010
Main Authors: Ткаченко, О.М., Біліченко, Н.О., Дзісь, О.В.
Format: Article
Language:Ukrainian
Published: Інститут проблем реєстрації інформації НАН України 2010
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/50484
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Сегментація мовленнєвих сигналів на основі алгоритму Вітербі / О.М. Ткаченко, Н.О. Біліченко, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2010. — Т. 12, № 4. — С. 31-42. — Бібліогр.: 9 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859954377241919488
author Ткаченко, О.М.
Біліченко, Н.О.
Дзісь, О.В.
author_facet Ткаченко, О.М.
Біліченко, Н.О.
Дзісь, О.В.
citation_txt Сегментація мовленнєвих сигналів на основі алгоритму Вітербі / О.М. Ткаченко, Н.О. Біліченко, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2010. — Т. 12, № 4. — С. 31-42. — Бібліогр.: 9 назв. — укр.
collection DSpace DC
container_title Реєстрація, зберігання і обробка даних
description Розглянуто питання сегментації мовлення при створенні баз мовленнєвих даних. Запропоновано використовувати для попередньої сегментації алгоритм Вітербі у поєднанні з методами розпізнавання. Для підвищення точності визначення границь сегментів запропоновано використовувати статистичну інформацію про тривалість фонем. Отримані результати може бути використано при розробці україномовної бази мовленнєвих даних. Рассмотрен вопрос сегментации речи при создании баз речевых данных. Предложено использовать для предварительной сегментации алгоритм Витерби в соединении с методами распознавания. Для повышения точности определения границ сегментов предложено использовать статистическую информацию о длительности фонем. Полученные результаты могут быть использованы при разработке украиноязычной базы речевых данных. The problem of speech segmentation in creating databases of speech data is considered. It is proposed to use the Viterbi algorithm in conjunction with the methods of recognition for presegmentation of speech data. To improve the accuracy of the segment boundaries is offered to use statistical information about the duration of phonemes. The obtained results can be used for development of Ukrainian-language speech data base.
first_indexed 2025-12-07T16:18:28Z
format Article
fulltext ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 31 УДК 621.39 О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь Вінницький національний технічний університет Хмельницьке шосе, 95, 21021 Вінниця, Україна Сегментація мовленнєвих сигналів на основі алгоритму Вітербі Розглянуто питання сегментації мовлення при створенні баз мовлен- нєвих даних. Запропоновано використовувати для попередньої сегмен- тації алгоритм Вітербі у поєднанні з методами розпізнавання. Для підвищення точності визначення границь сегментів запропоновано ви- користовувати статистичну інформацію про тривалість фонем. Отримані результати може бути використано при розробці україно- мовної бази мовленнєвих даних. Ключові слова: сегментація, алгоритм Вітербі, розпізнавання мовлен- ня, мовленнєві дані, розмітка. Вступ Дослідження в таких галузях як розпізнавання, ущільнення та синтез мовлен- ня потребують накопичування великої кількості мовленнєвих фрагментів, що су- проводжується описом відповідних деталей цих фрагментів (розміткою). Ство- рення та розмітка достатньо повних мовленнєвих баз даних є однією з головних передумов успішного розвитку сучасних мовленнєвих технологій. Відсутність розміченої фонетичної бази даних великого обсягу для українсь- кого мовлення зумовлює труднощі в процесі навчання та оцінювання якості сис- тем автоматичного розпізнавання та синтезу мовлення, фонетичних вокодерів то- що. Більшість експериментів у цих дослідженнях виконується на іншомовному матеріалі — найчастіше це англомовні фонетичні бази, зокрема TIMIT [1]. Проте такий підхід не дозволяє врахувати особливості, притаманні українському усному мовленню. Тому існує необхідність створення аналогічної бази даних для україн- ської мови. Для цього потрібно розв’язати дві задачі: 1) записати мовленнєвий матеріал у достатній кількості та якості; 2) розмітити цей матеріал на окремі фонетичні елементи (фонеми). Очевидно, що перша задача носить суто технічний характер, і для її вирішен- ня потрібно лише час та ресурси. Що ж стосується другої, то вона потребує засто- сування досить складних підходів. По суті виділення у мовленні окремих елемен- тів (фонем, слів, фраз тощо) є задачею сегментації. Підходів до її вирішення існує © О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 32 достатньо багато. Наприклад, у [2] запропоновано використовувати метод виді- лення монологічних складових з метою сегментації мовлення на ділянки, вимов- лені різними дикторами. В основі методу лежить пошук відмінностей між сусід- німи ділянками. У роботі [3] пропонується алгоритм сегментації мовленнєвого сигналу на групи вокалізованих і невокалізованих звуків. Взагалі найпоширенішою класифікацією алгоритмів сегментації є їхній поділ на два типи. До першого типу відносяться алгоритми, що працюють за умови ві- домої послідовності фонем у фразі. Алгоритми другого типу не використовують апріорну інформацію про фразу [4]. У роботі [5] охарактеризовано такі методи сегментації як: — сегментація на основі обчислення значення енергії в заданому часовому вікні; — сегментація голосних звуків на основі спектрального аналізу; — сегментація на основі кореляції між спектрами фрагментів сигналу одна- кової тривалості; — сегментація з використанням алгоритмів швидкого вейвлет-перетворення; — сегментація на основі використання штучних нейронних мереж. Ці алгоритми не використовують відомості про послідовність фонем у фразі, оскільки орієнтовані на сегментацію невідомого потоку мовлення. Взагалі вибір алгоритму сегментації зумовлений особливостями та специфі- кою вирішуваної задачі, а саме типом сегментів, що потрібно виділити, наявною інформацією про сигнал і фразу, лімітом ресурсів і часу. Вважається, що найкращий результат сегментації можна отримати лише за допомогою кваліфікованих спеціалістів з фонетики. Та не варто забувати, що ру- чна розмітка — це досить складна та трудомістка процедура, яка вимагає багато часу й ресурсів. Ситуація ускладнюється тим, що одній людині з великим обсягом записаних аудіоданих явно не впоратися, тому для отримання результату потрібна праця багатьох спеціалістів. Зрозуміло, що і в такому випадку процес буде довго- тривалим і високовартісним. На рис. 1 показано фрагмент розміченої вручну фрази (слово «sun») з БД ТІМТ. Рис. 1. Фрагмент з ручною розміткою s ah n Сегментація мовленнєвих сигналів на основі алгоритму Вітербі ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 33 Наведений рисунок наглядно ілюструє суть сегментації. Варто відзначити, що для визначення границі, спеціалісту потрібно кілька разів прослуховувати час- тину фрази, поступово уточнюючи її межі, порівнювати її з сусідніми фразами і т.д. У результаті, на визначення однієї границі може піти приблизно 0,5–3 хвили- ни. У фразі в середньому буває 30–40 фонем, на розмітку яких загалом треба в се- редньому 15–40 хвилин. А таких фраз у БД може налічуватися від кількох тисяч до кількох десятків тисяч [6]. З іншого боку, існують автоматичні системи сегментації, які здатні виконати цю роботу практично без людини. Але це зазвичай призводить до значних неточ- ностей і відхилень, оскільки на характер вимови впливає величезна кількість фак- торів, таких як тембр голосу, настрій, оточуюче середовище, фізичні особливості диктора і навіть погода. Врахувати певною мірою це все може лише досвідчений лінгвіст. Тому для розв’язання задачі сегментації доцільно знайти компромісний ва- ріант, який би дозволив поєднати інтелект і досвід спеціаліста та потужність об- числювальної системи. Таким варіантом є створення автоматизованої системи се- гментації, котра б виконувала попередню розмітку, яка згодом без особливих зу- силь могла бути уточнена людиною. Метою роботи є підвищення точності встановлення границь між фонемами при сегментації мовлення. Для досягнення поставленої мети необхідно розв’язати такі задачі: — проаналізувати існуючі підходи до сегментації мовлення; — удосконалити метод сегментації мовлення при відомій фразі; — увести показник для оцінювання результатів сегментації; — розробити програмне забезпечення для реалізації запропонованого методу та провести аналіз отриманих результатів. Особливості сегментації при відомій фразі Як було зазначено вище, існують методи сегментації мовлення при невідомій та відомій фразі. Перший випадок має місце під час оброблення мовлення у реа- льному масштабі часу, коли дізнатись фразу заздалегідь неможливо. Безперечно, у такому разі задача сильно ускладнюється. Не знаючи транскрипцію фрази, не можна жорстко обмежити кількість встановлених границь фонем, що спричиняє велику кількість помилок. Головною вадою сегментації без відомої фрази є саме встановлення зайвих границь, що викликано здебільшого особливостями зміни звучання переходів між фонемами, які складно класифікувати. У другому випадку при сегментації з метою розмітки бази мовленнєвих даних, як правило, фрази, що вимовляються дикторами, є заздалегідь відомими, і це дозволяє суттєво підвищи- ти точність розмітки [6]. Відомо [7], що на часових інтервалах тривалістю 10–30 мс мовленнєвий сиг- нал можна розглядати як стаціонарний випадковий процес. Тому доцільно поді- лити цей сигнал на окремі кадри (фрейми), та аналізувати не безпосередньо відлі- ки сигналу, а окремі фрейми. При цифровому обробленні мовленнєвих сигналів відліки одного фрейму прийнято описувати деякою параметричною моделлю. Звичайно, при цьому точність встановлення границь буде обмежена щонайменше О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 34 тривалістю одного фрейму, але, враховуючи, що ця розмітка буде згодом уточню- ватись людиною, такий підхід є допустимим. Найпростішим шляхом пошуку границь фонем буде порівняння сусідніх фреймів та визначення тих пар, що найбільше відрізняються між собою, тобто: 1 1 1 1 1 ( ( , ) ) , , ( ( , ) ) , , i i i j i j i i i j i j d f f f F f F d f f f F f F                (1) де if — і-й фрейм;  — деяке порогове значення; 1( , )i id f f  — функція відстані між сусідніми фреймами, 1i K  ; K — кількість фреймів; jF — j-та фонема, 1j N  ; N — кількість фонем у фразі. Зрозуміло, що такий підхід є занадто примітивним, і до того ж отримані гра- ниці не обов’язково будуть прив’язані до конкретних фонем. При відомій кількості фреймів і фонем у фразі варіанти розміщення границь обмежені числом ! !( )! N вар K K N C N K N    . (2) Маючи усі можливі варіанти, можна оцінити кожен з них за деяким критерієм і обрати кращий. Проте кількість цих варіантів частіше за все занадто велика, у чому нескладно переконатися, підставивши у формулу (2) реальні значення — наприклад, при K = 300, N = 30 отримаємо приблизно 411,7 10 варіантів. Тому по- вний перебір варіантів є неефективним шляхом розв’язання задачі. Але оскільки відома ще й послідовність фонем, то цю кількість можна суттєво зменшити. Вра- ховуючи, що кожен наступний фрейм може відноситися до попередньої або до наступної фонеми (тобто перебувати в одному з цих двох станів), то для скоро- чення кількості варіантів встановлення границь доцільно застосувати алгоритм Вітербі [8]. Застосування алгоритму Вітербі для сегментації мовлення Нехай відліки кожного фрейму представлено у вигляді вектора Y коефіцієн- тів деякої параметричної моделі представлення мовленнєвих даних (це можуть бути, наприклад, коефіцієнти лінійного прогнозування або кепстральні коефіцієн- ти). Тобто: ,1 ,2 ,{ , , , }i i i i My y y Y , (3) де M — порядок моделі; i — номер фрейму, з якого отримано вектор коефіцієн- тів, 1i K  . Нехай функція 1( , )i iJ Y Y  буде оцінювати можливість того, що вектори відно- сяться до різних фонем, а функція 1( , )i iS Y Y  — можливість того, що вектори від- Сегментація мовленнєвих сигналів на основі алгоритму Вітербі ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 35 носяться до однієї фонеми. Вибір виду цих функцій є окремим питанням, яке буде розглянуте далі. Мережа Вітербі у нашому випадку буде мати K шарів по N вузлів, відповідно до кількості фреймів і фонем. Кожен шар відповідає своєму фрейму, а кожен ву- зол у шарі — своїй фонемі. Значення оцінки зміни та збереження стану є вагами ребер, що з’єднують відповідні вузли. Зрозуміло, що у першому шарі значення має лише один вузол, оскільки фрейм, що йому відповідає, може відноситися ли- ше до однієї фонеми — першої. І оскільки від j -ї фонеми можливий перехід тіль- ки до ( 1j  )-ї фонеми, то у перших та останніх (N – 1) шарах, буде потрібно мен- ше, ніж N вузлів. Для n -го вузла у k -му шарі оцінки зміни та збереження стану будуть визначатися таким чином: , 1, 1, 1 , 1, 1, 1 1,1 1 2 1,1 1 2 max{ , } ( , ), max{ , } ( , ), ( , ), ( , ), , 0. k n k n k n k n k n k n Jump Stay Jump J Stay Stay Jump S Jump J Stay S J S              1 1 n n+ n n+ Y Y Y Y Y Y Y Y (4) Як видно з (4), загальна оцінка поступово накопичується, але при цьому рі- шення про розміщення границь не приймається, поки не буде отримано останні дві оцінки. Коли їх визначено, пошук оптимального шляху буде проходити у зво- ротному напрямі, і полягатиме у порівнянні попередніх оцінок. Результат зано- ситься у вектор R за таким правилом: 1, 1 1, 1, 1 1, ( ) 1, 1, ( ) 0. 1, i d i d i d i d i Jump Stay d d Jump Stay i N                iR R (5) де початково d N . Знаючи тривалість одного фрейму, по вектору R нескладно визначити трива- лість кожної фонеми. Роботу алгоритму для випадку, коли N = 10, K = 4, проілюс- тровано прикладом, зображеним на рис. 2. За рахунок такого підходу кількість варіантів розміщення границь значно зменшилась. Але відкритим питанням залишається вибір функцій ( , )iJ 1i+Y Y та ( , )S 1i i+Y Y , від адекватності яких і залежить точність сегментації. При викорис- танні як аргументів цих функцій лише векторів коефіцієнтів не враховується на- явна інформація про конкретну фонему, що знаходиться між визначеними грани- цями. Таким чином, отримані сегменти не прив’язані до фонем, а є лише най- більш несхожими ділянками. Через це похибка сегментації може бути досить сут- тєва. Зменшити її можна за рахунок використання інформації про параметри фо- неми, що містяться у словнику ознак. Для цього доцільно використати методи роз- пізнавання. О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 36 Рис. 2. Приклад роботи алгоритму Вітербі Використання методів розпізнавання при сегментації мовлення У випадку, коли послідовність фонем відома, задача сегментації полягає у встановленні відповідності кожній фонемі деякої послідовності фреймів. Задача ж розпізнавання полягає у встановленні відповідності деякій ділянці мовлення (тоб- то послідовності фреймів) одній з фонем із словника. Як бачимо задачі дуже поді- бні, і їх можна деякою мірою поєднати. З огляду на сказане, ідею сегментації можна сформулювати так: розпізнати кожен окремий фрейм і визначити послідовність фреймів, що знаходяться поруч та відносяться до тої ж самої фонеми. Відповідно, коли починається послідовність фреймів, що належить іншій фонемі, слід встановити границю. Виглядає все про- сто, але ефективно працює такий підхід лише тоді, коли якість розпізнавання майже стовідсоткова. Проте досягти такого рівня доволі складно. І пов’язано це здебільшого з тим, що зазвичай фонем у словнику достатньо багато для того, щоб система розпізнавання помилялась. Застосування алгоритму Вітербі, дозволяє зменшити кількість помилок при сегментації мовлення. Як показано раніше, для кожного фрейму може бути лише два випадки — або він відноситься до тієї ж фонеми що і попередній фрейм, або він є початком наступної фонеми: 1( ) ( )j i jF F   iY Y . (6) Таким чином, обирати треба лише з двох варіантів, хоча у словнику знахо- диться вся множина фонем. Як показано у [9], доцільно представити мовленнєві дані у вигляді кепстраль- них коефіцієнтів, і для визначення відстаней у просторі ознак скористатися зва- женою евклідовою метрикою. Для підвищення фонетичної коректності варто застосувати методи кластеризації при формуванні словника ознак. З огляду на це, функції оцінювання J та S будуть мати вигляд: ↑ 0,3 →0,7 ↑ 0,2 →0,8 ↑ 0,6 →0,4 ↑ 0,1 →0,9 ↑ 0,3 →0,7 ↑ 0,8 →0,2 ↑ 0,1 →0,9 ↑ 0,9 →0,1 ↑ 0,3 →0,7 1,1 1,50,7 1,9 3,52,8 3,7 3,01,5 3,7 5,23,9 2,80,9 3,5 5,43,7 5,5 2,72,0 3,3 5,35,2 7,0 0 ,3 0 ,9 2 ,1 2 ,0 3 ,1 4 ,3 0 ,5 1 ,7 2 ,2 3 ,3 4 ,5 4 ,4 1 ,1 1 ,8 3 ,1 4 ,3 4 ,6 6 ,3 6 ,1 3 ,8 6 ,4 J S — отриманий оптимальний шлях Сегментація мовленнєвих сигналів на основі алгоритму Вітербі ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 37 . 1 ( ) , ( , ) 1 ( ) ( , ) i i i i J D S D   1j+ j Y C Y Y C Y (7) де jC — центроїд, який характеризує фонему, що відповідає j -му вузлу; ( , )j iD C Y — відстань за зваженою евклідовою метрикою між j -м центроїдом та i -м фреймом, яка тим більша, чим менше вектор, схожий на центроїд. Аналіз результатів сегментації Для проведення дослідження було використано загальнодоступну частину англомовної бази даних TIMIT. Ця база даних широко використовуються для тес- тування та налаштування систем розпізнавання мовлення. Також вона містить до- статньо великий набір різноманітних фраз і дикторів. Основною перевагою TIMIT є те, що матеріал цієї бази розмічений на фонеми. Таким чином, доцільно провес- ти апробацію методу сегментації на матеріалі бази даних TIMIT, використовуючи цю розмітку як еталонну, після чого застосувати запропонований метод для роз- мітки бази акустичних фрагментів українського мовлення. Звукові файли TIMIT було переконвертовано з формату (PCM Raw data, 16 кГц, 16 біт, моно) у формат (Windows PCM (wav), 16 кГц, 16 біт, моно). Для отримання коефіцієнтів вхідний сигнал розбивався на окремі кадри (фрейми) до- вжиною 10 мс. При частоті дискретизації 16 кГц, кожен такий фрейм містив 160 відліків вхідного сигналу. З одного фрейму отримувався вектор кепстральних ко- ефіцієнтів розмірністю 10M  . Для застосування методів розпізнавання було утворено словник центроїдів, при формуванні якого було використано 7 дикторів. Кількість представлених у словнику фонем — 53. Для підвищення фонетичної коректності розпізнавання за- стосовано методи кластеризації, як це запропоновано у роботі [9]. Відстань у про- сторі ознак обчислювалася за зваженою евклідовою метрикою. Що стосується оцінювання результатів, то для задачі сегментації це досить складне і неоднозначне питання. Загалом немає гарантії, що навіть два досвідче- них фахівця виконають розмітку фрази на фонеми абсолютно однаково. Проте ручна розмітка, виконана кваліфікованим спеціалістом наразі вважається найточ- нішою. Тому доцільно порівнювати отримані результати саме з ручною розміткою. Для оцінювання точності сегментації введемо показник 1 1 1 1 1 1 1 1 100 % N i i i i i N i i i b a b a CS b b                         . (8) О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 38 де ib — значення і-ї границі ручної розмітки; ia — значення і-ї границі визначе- ної розмітки; N — кількість фонем у фразі. Схожий показник використовувався для оцінювання результатів у роботі [3]. Запропонований показник характеризує тривалість «вірно» розміченої части- ни фрази. Це зручно для загального оцінювання результату. Проте, якщо розгля- дати окремі фонеми, то можливий випадок, коли відносно усієї фрази відхилення встановленої границі незначне, а порівняно з тривалістю однієї фонеми є досить суттєвим. Тому варто додатково враховувати кількість таких помилок. Будемо вважати, що при сегментації допущено помилку, якщо виконується нерівність: 1 1 1 1 i i i i i i i i b a b a b b b b                                , (9) де 1 1i N  , — порогове значення; для даного дослідження обрано 0,3  . Отже, для аналізу результатів введемо ще один показник, який буде характе- ризувати кількість правильно встановлених границь: 100 %rN BC N   , (10) де rN — кількість правильно встановлених границь. Для практичної перевірки запропонованих підходів було розроблено програ- мне забезпечення, що реалізує метод сегментації мовлення при відомій фразі з ви- користанням алгоритму Вітербі та засобів розпізнавання мовлення. Фрагмент фрази, розміченої таким шляхом, показано на рис. 3. Як видно, ви- значені автоматично границі знаходяться досить близько до встановлених при ру- чній розмітці, хоча і наявні деякі відхилення. Оцінки результатів сегментації запропонованим методом наведено в табл. 1. Таблиця 1. Оцінки результатів сегментації Параметр Значення Кількість фраз 18 Загальна кількість фонем 652 CS, % 87,5 BC, % 77,3 Сумарна тривалість правильно розмічених фреймів складає 87,5 %. Що сто- сується окремих фонем, то для 77,3 % з них встановлені границі знаходилися в допустимих межах. Проте використання статистичної інформації про тривалість фонем, що міститься у словнику ознак, дає можливість покращити отримані пока- зники. Однією із задач, що розв’язуються за допомогою алгоритму Вітербі, є згла- джування брязкоту, який виникає при розпізнаванні на акустичному рівні. Досяга- Сегментація мовленнєвих сигналів на основі алгоритму Вітербі ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 39 ється це за рахунок того, що алгоритм Вітербі значно скорочує кількість варіантів фонем, до яких може відноситися поточний фрейм. Але навіть при цьому може виникнути така ситуація, коли однозначно визначити потрібну фонему важко і програма «коливається» між декількома фонемами, по черзі віддаючи перевагу кожній з них. Звичайно, таке явище негативно впливає на результати сегментації — наслідком є неправильно встановлені границі. Щоб уникнути помилок такого характеру, доцільно враховувати статистичну інформацію, яку можна отримати під час формування словника ознак. В процесі розстановки границь між фонемами по суті відбувається визначення тривалості кожної фонеми. Зрозуміло, що одні фонеми (наприклад голосні) мають більшу тривалість, інші навпаки меншу (короткі вибухові приголосні). Знаючи середню максимальну і середню мінімальну тривалість кожної фонеми, можна корегувати результати сегментації. Це неважко реалізувати програмно, оскільки за умовами послідовність фонем у фразі відома заздалегідь. Таке уточнення доцільно реалізувати на основі розглянутого алгоритму Віте- рбі. Знаючи максимальну та мінімальну тривалість фонеми, не можна жорстко обмежувати ними реальний звук, оскільки необов’язково його тривалість має бути максимальною чи мінімальною. Але якщо ці межі порушуються, то доцільно їх скорегувати. Границі фонем визначаються по графу Вітербі при зворотному його обході, і під час цієї процедури нескладно визначати тривалість поточної фонеми. Для цього достатньо змінити формулу (5) таким чином: 1, 1 1, 1, 1 1, 1, 1 1, 1, 1 1, ( ) ( ) 1, 1, 0, ( ) ( ) 0, ( ) ( ) 0, ( ) ( ) 1, 1, 0, 1. i d i d c d c i d i d c d i d i d c d i i d i d c d i c Jump Stay Dr DrMin d d Dr Jump Stay Dr DrMin Jump Stay Dr DrMax Jump Stay Dr DrMax d d Dr i N                                         i i R R R R (11) де cDr — тривалість поточної ділянки (дорівнює кількості фреймів); dDrMax , dDrMin — відповідно середня максимальна і середня мінімальна тривалість d -ї фонеми. Загалом при цьому відбувається деяке згладжування розмітки — нехарактер- ні тривалості фонем уточнюються згідно статистичної інформації, що додатково зберігається у словнику ознак. На рис. 3 і 4 наведено фрагмент фрази, розмічений відповідно без і з ураху- ванням тривалості фонем. В обох випадках для сегментації використовувалися алгоритм Вітербі та моделі фонем із словника ознак. З рисунків видно, що порівняно з попередніми результатами, отримано суттє- ве уточнення для багатьох границь. Водночас, деякі границі залишились такими ж, що свідчить про те, що вони знаходились у допустимих межах. О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 40 Рис. 3. Фрагмент фрази, розміченої без врахування інформації про тривалість фонем Рис. 4. Фрагмент фрази, розміченої з урахуванням інформації про тривалість фонем Чисельні оцінки результатів, отриманих із таким уточненням, наведено у табл. 2. owrax-ht m aa owrt m aaax–h Сегментація мовленнєвих сигналів на основі алгоритму Вітербі ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2010, Т. 12, № 4 41 Таблиця 2. Оцінки результатів сегментації після уточнення Параметр Значення Кількість фраз 18 Загальна кількість фонем 652 CS, % 90 BC, % 83,8 Як бачимо, при врахуванні інформації про тривалість фонем спостерігаються значні покращення. Показник CS збільшився на 2,5 %, що свідчить про те, що за- галом сегментація стала точнішою. Кількість вірно встановлених границь стала вище на 6,5 %, про що свідчить показник ВС. Як видно з рис. 3 та табл. 2, за раху- нок застосованого корегування тривалості фонем, значна частина встановлених границь стала ближче до тих, які були визначено вручну. Висновки У роботі проаналізовано підходи до розв’язання задачі сегментації мовлення при відомій фразі. Показано, що застосування методів розпізнавання у поєднанні з алгоритмом Вітербі дає змогу досягти точності сегментації на рівні 87,5 % та 77,3 % правильно встановлених границь. Удосконалено метод сегментації мов- лення при відомій фразі. Запропоновано при зворотному пошуку шляху по дереву Вітербі враховувати статистичну інформацію про тривалість фонем, що дозво- лило підвищити точність сегментації до 90 % і збільшити відсоток правильно встановлених границь до 83,3 %. Отримані результати можуть застосовуватися для попередньої сегментації мовленнєвих даних в автоматизованій системі сегментації з метою створення україномовної бази мовленнєвих даних. 1. Carson-Berndsen J. Framework for Cross-Language Automatic Phonetic Segmentation / Kalu U. Ogbureke, Julie Carson-Berndsen // ICASSP 2010: IEEE International Conference on Acoustics, Speech and Signal Processing. — Dallas, Texas (USA). — 2010. 2. Григорян Р.Л. Метод выделения монологических составляющих с использованием иден- тификации дикторов на основе векторного квантования / Р.Л. Григорян, С.А. Репалов, С.С. Кор- шунов // «Штучний iнтелект» 3’2006. — Донецьк, 2006. 3. Жуйков В.Я. Алгоритм автоматической классификации сегментов речи на основе автокор- реляционных и энергетических характеристик / В.Я. Жуйков, Н.Н. Кузнецов, А.Н. Харченко // Электроника и связь. — НТУУ «КПИ». — 2010. — № 5(58). 4. Сорокин В.Н. Сегментация и распознавание гласных / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. — 2004. — Т. 4, № 2. — C. 202–220. 5. Каркульовський В.І. Особливості методів сегментації мовленнєвих сигналів / В.І. Карку- льовський, В.С. Ткаченко // Комп’ютерні системи проектування. Теорія і практика. Вісник НУ «Львівська політехніка» № 651. — Львів: Видавництво НУ «Львівська політехніка», 2009. — C. 144–148. О. М. Ткаченко, Н. О. Біліченко, О. В. Дзісь 42 6. Богданов Д.С. База речевых фрагментов русского языка «ISABASE» / Д.С. Богданов, О.Ф. Кривнова, А.Я. Подрабинович, В.В. Фарсобина // Интеллектуальные технологии ввода и обработ- ки информации. — М., 1998. 7. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер. — М.: Радио и связь, 1981. — 496 с. 8. Биков М.М. Моделювання процесу аналізу і класифікації голосових команд / М.М. Биков, Т.В. Грищук // Монографія. — Вінниця: ВНТУ, 2009. — 129 с. 9. Ткаченко О.М. Аналіз підходів до розпізнавання мовлення при побудові фонемних воко- дерів / О.М. Ткаченко, О.В. Дзісь // Інформаційні технології та комп’ютерна інженерія. — 2009. — № 3. — С. 93–101. Надійшла до редакції 26.10.2010
id nasplib_isofts_kiev_ua-123456789-50484
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1560-9189
language Ukrainian
last_indexed 2025-12-07T16:18:28Z
publishDate 2010
publisher Інститут проблем реєстрації інформації НАН України
record_format dspace
spelling Ткаченко, О.М.
Біліченко, Н.О.
Дзісь, О.В.
2013-10-21T22:02:34Z
2013-10-21T22:02:34Z
2010
Сегментація мовленнєвих сигналів на основі алгоритму Вітербі / О.М. Ткаченко, Н.О. Біліченко, О.В. Дзісь // Реєстрація, зберігання і обробка даних. — 2010. — Т. 12, № 4. — С. 31-42. — Бібліогр.: 9 назв. — укр.
1560-9189
https://nasplib.isofts.kiev.ua/handle/123456789/50484
621.39
Розглянуто питання сегментації мовлення при створенні баз мовленнєвих даних. Запропоновано використовувати для попередньої сегментації алгоритм Вітербі у поєднанні з методами розпізнавання. Для підвищення точності визначення границь сегментів запропоновано використовувати статистичну інформацію про тривалість фонем. Отримані результати може бути використано при розробці україномовної бази мовленнєвих даних.
Рассмотрен вопрос сегментации речи при создании баз речевых данных. Предложено использовать для предварительной сегментации алгоритм Витерби в соединении с методами распознавания. Для повышения точности определения границ сегментов предложено использовать статистическую информацию о длительности фонем. Полученные результаты могут быть использованы при разработке украиноязычной базы речевых данных.
The problem of speech segmentation in creating databases of speech data is considered. It is proposed to use the Viterbi algorithm in conjunction with the methods of recognition for presegmentation of speech data. To improve the accuracy of the segment boundaries is offered to use statistical information about the duration of phonemes. The obtained results can be used for development of Ukrainian-language speech data base.
uk
Інститут проблем реєстрації інформації НАН України
Реєстрація, зберігання і обробка даних
Математичні методи обробки даних
Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
Сегментация речевых сигналов на основе алгоритма Витерби
Segmentation of Speech Signals Based on Viterbi Algorithm
Article
published earlier
spellingShingle Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
Ткаченко, О.М.
Біліченко, Н.О.
Дзісь, О.В.
Математичні методи обробки даних
title Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
title_alt Сегментация речевых сигналов на основе алгоритма Витерби
Segmentation of Speech Signals Based on Viterbi Algorithm
title_full Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
title_fullStr Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
title_full_unstemmed Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
title_short Сегментація мовленнєвих сигналів на основі алгоритму Вітербі
title_sort сегментація мовленнєвих сигналів на основі алгоритму вітербі
topic Математичні методи обробки даних
topic_facet Математичні методи обробки даних
url https://nasplib.isofts.kiev.ua/handle/123456789/50484
work_keys_str_mv AT tkačenkoom segmentacíâmovlennêvihsignalívnaosnovíalgoritmuvíterbí
AT bílíčenkono segmentacíâmovlennêvihsignalívnaosnovíalgoritmuvíterbí
AT dzísʹov segmentacíâmovlennêvihsignalívnaosnovíalgoritmuvíterbí
AT tkačenkoom segmentaciârečevyhsignalovnaosnovealgoritmaviterbi
AT bílíčenkono segmentaciârečevyhsignalovnaosnovealgoritmaviterbi
AT dzísʹov segmentaciârečevyhsignalovnaosnovealgoritmaviterbi
AT tkačenkoom segmentationofspeechsignalsbasedonviterbialgorithm
AT bílíčenkono segmentationofspeechsignalsbasedonviterbialgorithm
AT dzísʹov segmentationofspeechsignalsbasedonviterbialgorithm