Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту

Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
 мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
 Проведена серія чисельних експериментів. Статья посвящена проблеме синтеза речевого сиг...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2009
Автори: Крак, Ю.В., Стеля, І.О.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2009
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/8191
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860027601609818112
author Крак, Ю.В.
Стеля, І.О.
author_facet Крак, Ю.В.
Стеля, І.О.
citation_txt Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр.
collection DSpace DC
description Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
 мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
 Проведена серія чисельних експериментів. Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых
 связок и речевого тракта. Предложено математическое и программное обеспечение для реализации
 этих моделей. Проведена серия числовых экспериментов. This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds
 and a vocal tract. The mathematical apparatus and software for implementing of these models were
 presented. A series of numerical experiments was carried out.
first_indexed 2025-12-07T16:51:01Z
format Article
fulltext «Искусственный интеллект» 4’2009 542 10К В УДК 517.958:531.33 Ю.В. Крак1, І.О. Стеля2 Київський національний університет імені Тараса Шевченка, м. Київ, Україна 1krak@unicyb.kiev.ua 2igor.stelia@gmail.com Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей. Проведена серія чисельних експериментів. Вступ Метою роботи є створення алгоритмів та програмного забезпечення для відтво- рення звуків голосу людини з використанням фізичних моделей голосових зв’язок та мовного тракту. В більшості публікацій на цю тему вивчаються або моделі голо- сових зв’язок, або моделі мовного тракту. В даній роботі результат моделювання голосового джерела – потік повітря на виході з голосової щілини – використовується як вихідні дані в моделі мовного тракту. Здійснений порівняльний аналіз результатів моделювання з аналітичними моделями. Згідно з розробленими алгоритмами створено програмне забезпечення та проведено обчислювальний експеримент із синтезу звуків. Дослідження моделі голосових зв’язок Для дослідження обрана двомасова модель [1] голосових зв’язок, відповідно до якої кожна з голосових зв’язок описується двома масами, що здійснюють автоколивання під впливом потоку повітря в голосовій щілині. В основу алгоритму для реалізації моделі покладений метод Кутта – Мерсона та метод нелінійної релаксації, які об’єднані в єдину ітераційну процедуру [2] для розв’язування системи, що описує зміщення мас: ),())()(())(()()( ),())()(())(()()( 22210222 2 22 2 2 2 11210111 1 12 1 2 1 tpdltxtxkxtxk dt tdxr dt txdm tpdltxtxkxtxk dt tdxr dt txdm mgc mgc   (1) де 1m і 2m – маси, )(1 tx , )(2 tx – зміщення, відповідно, мас 1m і 2m , 0201, xx – положення мас у стані спокою, t – час, 1r і 2r – коефіцієнти демпфування, 1k , 2k – пружність пружин для мас 1m і 2m , відповідно, ck – пружність пружини, що з’єднує Синтез звуків голосу людини на основі фізичних моделей... «Штучний інтелект» 4’2009 543 10К маси, 21,dd – товщина мас, gl – діюча довжина голосових зв’язок, 1dlg , 2dlg – поверхні мас, на які діють тиски, відповідно, )(1 tpm і )(2 tpm , та нелінійної системи для змін тиску:   ,) )( 1( )( 2 )( )( 2 1)( , )( )( 12)()( , )( 1 )( 1)( 2 1)()( , )( )( 12)()( , )( )( 69.0)( 1 2 1 2 2 2 2 22 2 2 3 2 2 22221 2 1 2 2 2 2112 1 1 3 1 2 11211 0 2 1 2 11                       A tA A tA tA tu ptp dt du A d tA tul dtptp tAtA tutptp dt du A d tA tul dtptp dt du dx xAtA tu tpp gg g g g gg gg gg g g gg gg g l cg g s c      (2) де  – густина повітря,  – зсувова в’язкість повітря, cl – довжина звуження,  xAc – площа поперечного перетину звуження, 1A – площа голосового тракту на вході, giA – площа голосової щілини під i -ю масою. Шуканим розв’язком задачі (1) – (2) є функція gu , яка визначає потік повітря на виході з голосової щілини. Цей потік викорис- товується як вихідні дані для моделі мовного тракту. Проведена серія чисельних експериментів, за результатами яких здійснений аналіз впливу параметрів та інерційних членів моделі на форму вихідного сигналу, від якого великою міру залежить частота та тембр голосу. Зокрема, залежність пото- ку повітря gu від тиску sp на вході у голосову щілину зображена на рис. 1а. Вплив інерційних членів моделі зображений на рис. 1б. 0 4 8 12 16 0 0.2 0.4 0.6 0.8 1 2 3 t, ms Ug(t) а) 0 5 10 15 20 0 0.1 0.2 0.3 0.4 t, ms Ug(t) б) Рисунок 1 – а) Результати розрахунків потоку повітря )(tug для трьох значень тиску на вході в голосову щілину 1s p = 0.02, 2sp = 0.0012, 3sp = 0.008; б) потік повітря gu на виході з голосових зв’язок, обчислений з інерційними членами (суцільна лінія) та без них (пунктирна лінія) Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2009 544 10К Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та потоку повітря, отриманого за аналітичною R-моделлю [3]:                                                       ,,1 ,0,23 0 2 32 ttttt t tt tt t t t t tu npp p p p pp g   де  – амплітуда, pt – час відкриття, nt – час закриття, 0t – період. Результати порів- няння моделей наведені на рис. 2. 0 2 4 6 8 0 0.1 0.2 0.3 0.4 t, ms Ug(t) Рисунок 2 – Потік повітря gu на виході з голосових зв’язок, обчислений за двомасовою моделлю (суцільна лінія) та R-моделлю (пунктирна лінія) Дослідження похідної потоку повітря Для вивчення голосового джерела, окрім функції потоку повітря, використову- ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться із залежності похідної потоку від часу і включає [4]: амплітуду від’ємного піка, тривалість відкриття, тривалість закритої фази, проміжок часу між додатним і від’єм- ним піками, час повернення в початкове положення і вторинні параметри, що походять з них: швидкість відкриття, тривалість фази відкриття голосової щілини відносно періоду основного тону, тривалість фази відкритої голосової щілини відносно трива- лості основного тону тощо. Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря за двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною LF-мо- деллю [5]:                      ,,0 ,, ,0,sin 0 0 ttt tttee t E ttteE tu c ce tttt a e eg t g ece      Синтез звуків голосу людини на основі фізичних моделей... «Штучний інтелект» 4’2009 545 10К де 0t – період, et – відмітка мінімального значення похідної, at – визначається як точка, в якій тангенс перетинає вісь координат, ct – момент, в який похідна під час фази закриття майже досягає нуля, eE – абсолютне значення мінімуму похідної, ,  , g – деякі параметри. Результати порівняння моделей наведені на рис. 3. 0 2 4 6 tp t0ti dUg __________ dt t, ms te Ee 0 ta Рисунок 3 – Чисельна похідна від потоку повітря, обчисленого за двомасовою моделлю (пунктирна лінія), та похідна, обчислена за LF-моделлю (суцільна лінія) Моделювання мовного тракту Для моделювання розповсюдження акустичних хвиль у мовному тракті як у неоднорідній акустичній трубі, що починається між голосовими зв’язками та закін- чується губами, використовується система рівнянь акустики в частинних похідних [6-8], яка записується у вигляді:     , , 2 t p c xA x u t u xAx p               (3) де ,0 Lx  0t , L – довжина мовного тракту,  txp , – тиск у тракті в момент часу t ,  txu , – об’ємна швидкість потоку,  – густина повітря в тракті, c – швидкість звуку і  xA – функція площі поперечного перетину. Оскільки тракт має неоднорідний поперечний перетин, він розбивається на циліндричні секції однакової довжини з постійною площею перетину (рис. 4). Як крайова умова на вході в тракт вибирається потік  tug , знайдений з (1) – (2). Виходячи з цього, маємо крайову умову:    tutu g,0 . На протилежному кінці тракту задаємо умову   0, tLp . Різницева задача для апроксимації системи рівнянь (3) будується на так званій рознесеній сітці. Для розв’язання використовується явний метод «чехарда». Цей алгоритм має високу обчислювальну ефективність і може використовуватися для моделювання в реальному часі [9]. Результати роботи алгоритму наведені на рис. 5. Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2009 546 10К 0 4 8 12 16 20 0 2 4 6 8 Ar ea , c m 2 Length, cm Рисунок 4 – Наближення мовного тракту циліндричними секціями однакової довжини Рисунок 5 – Результати моделювання російського звуку [а] Синтез звуків голосу людини на основі фізичних моделей... «Штучний інтелект» 4’2009 547 10К Висновки Проведені в роботі дослідження комп’ютерних моделей голосових зв’язок та мов- ного тракту продемонстрували можливість їх спільного використання в системах ар- тикуляторного синтезу. Порівняння результатів моделювання з аналітичними моделями свідчать про адекватність одержаних результатів, а створене програмне забезпечення дозволяє в зручному режимі задавати різні набори параметрів моделей для генерації звуків голосу людини. Література 1. Ishizaka K. Synthesis of Voiced Sounds from a Two-Mass Model of the Vocal Cords / K. Ishizaka, J.L. Flanagan // Bell Syst. Tech. J. – 1972. – № 51. – Р. 1233-1268. 2. Крак Ю.В. Чисельне моделювання голосових зв’язок за двомасовою моделлю / Ю.В. Крак, І.О. Стеля // Журнал обчислювальної та прикладної математики. – 2007. – № 1(94). – C. 55-60. 3. Rosenberg A. Effect of glottal pulse shape on the quality of natural vowels / A. Rosenberg // Journal of the Acoustical Society of America. – 1971. – № 49. – Р. 583-590. 4. Alku P. A comparison of glottal voice source quantification parameters in breathy, normal, and pressed phonation of female and male speakers / P. Alku, E. Vilkman // Folia Phoniatr. Logop. – 1996. – № 48. – Р. 240-254. 5. Fant G. The lf-model revisited. Transformations and frequency domain analysis / G. Fant // STL-QPSR, Tech. Rep. – 1995. – № 2 – 3. – Р. 119-156. 6. Kinsler, Frey, Coppens, and Saunders Fundamentals of Acoustics // San Diego: Academic Press. – 1982. – ISBN: 9780471029335. – 496 р. 7. Portnoff M.R. A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal-Tract / M.R. Portnoff // S.B. / S.M. thesis, MIT, Cambridge, Mass., 1973. 8. Schroeterand J. Techniques for Estimating Vocal-Tract Shapes from theSpeech Signal / J. Schroeterand, M.M. Sondhi // IEEETrans. Speech Audio Proc. – 1994. – Vol. 2(1). – P. 133-150. 9. K. van den Doel. Real-time numerical solution of Webster's equation on a non-uniform grid / K. van den Doel, U. Ascher // IEEE Trans. Audio, Speech and Language Processing 16 (2008). – P. 1163-1172. Ю.В. Крак, И.О. Стеля Синтез звуков голоса человека на основе физических моделей голосовых связок и речевого тракта Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых связок и речевого тракта. Предложено математическое и программное обеспечение для реализации этих моделей. Проведена серия числовых экспериментов. Yu.V. Krak, I.O. Stelia The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds and a vocal tract. The mathematical apparatus and software for implementing of these models were presented. A series of numerical experiments was carried out. Стаття надійшла до редакції 09.06.2009.
id nasplib_isofts_kiev_ua-123456789-8191
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-12-07T16:51:01Z
publishDate 2009
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Крак, Ю.В.
Стеля, І.О.
2010-05-14T09:38:53Z
2010-05-14T09:38:53Z
2009
Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/8191
517.958:531.33
Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
 мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
 Проведена серія чисельних експериментів.
Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых
 связок и речевого тракта. Предложено математическое и программное обеспечение для реализации
 этих моделей. Проведена серия числовых экспериментов.
This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds
 and a vocal tract. The mathematical apparatus and software for implementing of these models were
 presented. A series of numerical experiments was carried out.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Распознавание образов. Цифровая обработка сигналов
Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
Синтез звуков голоса человека на основе физических моделей голосовых связок и речевого тракта
The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract
Article
published earlier
spellingShingle Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
Крак, Ю.В.
Стеля, І.О.
Распознавание образов. Цифровая обработка сигналов
title Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
title_alt Синтез звуков голоса человека на основе физических моделей голосовых связок и речевого тракта
The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract
title_full Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
title_fullStr Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
title_full_unstemmed Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
title_short Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
title_sort синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
topic Распознавание образов. Цифровая обработка сигналов
topic_facet Распознавание образов. Цифровая обработка сигналов
url https://nasplib.isofts.kiev.ua/handle/123456789/8191
work_keys_str_mv AT krakûv sintezzvukívgolosulûdininaosnovífízičnihmodeleigolosovihzvâzoktamovnogotraktu
AT stelâío sintezzvukívgolosulûdininaosnovífízičnihmodeleigolosovihzvâzoktamovnogotraktu
AT krakûv sintezzvukovgolosačelovekanaosnovefizičeskihmodeleigolosovyhsvâzokirečevogotrakta
AT stelâío sintezzvukovgolosačelovekanaosnovefizičeskihmodeleigolosovyhsvâzokirečevogotrakta
AT krakûv thehumanvoicesynthesisbasedonphysicalmodelsofvocalfoldsandavocaltract
AT stelâío thehumanvoicesynthesisbasedonphysicalmodelsofvocalfoldsandavocaltract