Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту
Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
 мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
 Проведена серія чисельних експериментів. Статья посвящена проблеме синтеза речевого сиг...
Збережено в:
| Дата: | 2009 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2009
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/8191 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860027601609818112 |
|---|---|
| author | Крак, Ю.В. Стеля, І.О. |
| author_facet | Крак, Ю.В. Стеля, І.О. |
| citation_txt | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр. |
| collection | DSpace DC |
| description | Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
Проведена серія чисельних експериментів.
Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых
связок и речевого тракта. Предложено математическое и программное обеспечение для реализации
этих моделей. Проведена серия числовых экспериментов.
This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds
and a vocal tract. The mathematical apparatus and software for implementing of these models were
presented. A series of numerical experiments was carried out.
|
| first_indexed | 2025-12-07T16:51:01Z |
| format | Article |
| fulltext |
«Искусственный интеллект» 4’2009 542
10К
В
УДК 517.958:531.33
Ю.В. Крак1, І.О. Стеля2
Київський національний університет імені Тараса Шевченка, м. Київ, Україна
1krak@unicyb.kiev.ua
2igor.stelia@gmail.com
Синтез звуків голосу людини на основі
фізичних моделей голосових зв’язок
та мовного тракту
Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
Проведена серія чисельних експериментів.
Вступ
Метою роботи є створення алгоритмів та програмного забезпечення для відтво-
рення звуків голосу людини з використанням фізичних моделей голосових зв’язок та
мовного тракту. В більшості публікацій на цю тему вивчаються або моделі голо-
сових зв’язок, або моделі мовного тракту. В даній роботі результат моделювання
голосового джерела – потік повітря на виході з голосової щілини – використовується
як вихідні дані в моделі мовного тракту. Здійснений порівняльний аналіз результатів
моделювання з аналітичними моделями. Згідно з розробленими алгоритмами створено
програмне забезпечення та проведено обчислювальний експеримент із синтезу звуків.
Дослідження моделі голосових зв’язок
Для дослідження обрана двомасова модель [1] голосових зв’язок, відповідно до якої
кожна з голосових зв’язок описується двома масами, що здійснюють автоколивання під
впливом потоку повітря в голосовій щілині. В основу алгоритму для реалізації моделі
покладений метод Кутта – Мерсона та метод нелінійної релаксації, які об’єднані в єдину
ітераційну процедуру [2] для розв’язування системи, що описує зміщення мас:
),())()(())(()()(
),())()(())(()()(
22210222
2
22
2
2
2
11210111
1
12
1
2
1
tpdltxtxkxtxk
dt
tdxr
dt
txdm
tpdltxtxkxtxk
dt
tdxr
dt
txdm
mgc
mgc
(1)
де 1m і 2m – маси, )(1 tx , )(2 tx – зміщення, відповідно, мас 1m і 2m , 0201, xx –
положення мас у стані спокою, t – час, 1r і 2r – коефіцієнти демпфування, 1k , 2k –
пружність пружин для мас 1m і 2m , відповідно, ck – пружність пружини, що з’єднує
Синтез звуків голосу людини на основі фізичних моделей...
«Штучний інтелект» 4’2009 543
10К
маси, 21,dd – товщина мас, gl – діюча довжина голосових зв’язок, 1dlg , 2dlg –
поверхні мас, на які діють тиски, відповідно, )(1 tpm і )(2 tpm , та нелінійної системи
для змін тиску:
,)
)(
1(
)(
2
)(
)(
2
1)(
,
)(
)(
12)()(
,
)(
1
)(
1)(
2
1)()(
,
)(
)(
12)()(
,
)(
)(
69.0)(
1
2
1
2
2
2
2
22
2
2
3
2
2
22221
2
1
2
2
2
2112
1
1
3
1
2
11211
0
2
1
2
11
A
tA
A
tA
tA
tu
ptp
dt
du
A
d
tA
tul
dtptp
tAtA
tutptp
dt
du
A
d
tA
tul
dtptp
dt
du
dx
xAtA
tu
tpp
gg
g
g
g
gg
gg
gg
g
g
gg
gg
g
l
cg
g
s
c
(2)
де – густина повітря, – зсувова в’язкість повітря, cl – довжина звуження, xAc –
площа поперечного перетину звуження, 1A – площа голосового тракту на вході, giA –
площа голосової щілини під i -ю масою. Шуканим розв’язком задачі (1) – (2) є функція
gu , яка визначає потік повітря на виході з голосової щілини. Цей потік викорис-
товується як вихідні дані для моделі мовного тракту.
Проведена серія чисельних експериментів, за результатами яких здійснений
аналіз впливу параметрів та інерційних членів моделі на форму вихідного сигналу,
від якого великою міру залежить частота та тембр голосу. Зокрема, залежність пото-
ку повітря gu від тиску sp на вході у голосову щілину зображена на рис. 1а. Вплив
інерційних членів моделі зображений на рис. 1б.
0 4 8 12 16
0
0.2
0.4
0.6
0.8
1
2
3
t, ms
Ug(t)
а)
0 5 10 15 20
0
0.1
0.2
0.3
0.4
t, ms
Ug(t)
б)
Рисунок 1 – а) Результати розрахунків потоку повітря )(tug для трьох значень тиску
на вході в голосову щілину
1s
p = 0.02,
2sp = 0.0012,
3sp = 0.008; б) потік повітря gu на
виході з голосових зв’язок, обчислений з інерційними членами
(суцільна лінія) та без них (пунктирна лінія)
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2009 544
10К
Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та
потоку повітря, отриманого за аналітичною R-моделлю [3]:
,,1
,0,23
0
2
32
ttttt
t
tt
tt
t
t
t
t
tu
npp
p
p
p
pp
g
де – амплітуда, pt – час відкриття, nt – час закриття, 0t – період. Результати порів-
няння моделей наведені на рис. 2.
0 2 4 6 8
0
0.1
0.2
0.3
0.4
t, ms
Ug(t)
Рисунок 2 – Потік повітря gu на виході з голосових зв’язок, обчислений
за двомасовою моделлю (суцільна лінія) та R-моделлю (пунктирна лінія)
Дослідження похідної потоку повітря
Для вивчення голосового джерела, окрім функції потоку повітря, використову-
ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться
із залежності похідної потоку від часу і включає [4]: амплітуду від’ємного піка,
тривалість відкриття, тривалість закритої фази, проміжок часу між додатним і від’єм-
ним піками, час повернення в початкове положення і вторинні параметри, що походять
з них: швидкість відкриття, тривалість фази відкриття голосової щілини відносно
періоду основного тону, тривалість фази відкритої голосової щілини відносно трива-
лості основного тону тощо.
Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря за
двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною LF-мо-
деллю [5]:
,,0
,,
,0,sin
0
0
ttt
tttee
t
E
ttteE
tu
c
ce
tttt
a
e
eg
t
g
ece
Синтез звуків голосу людини на основі фізичних моделей...
«Штучний інтелект» 4’2009 545
10К
де 0t – період, et – відмітка мінімального значення похідної, at – визначається як
точка, в якій тангенс перетинає вісь координат, ct – момент, в який похідна під час
фази закриття майже досягає нуля, eE – абсолютне значення мінімуму похідної, ,
, g – деякі параметри. Результати порівняння моделей наведені на рис. 3.
0 2 4 6
tp
t0ti
dUg
__________
dt
t, ms
te
Ee
0 ta
Рисунок 3 – Чисельна похідна від потоку повітря, обчисленого за двомасовою
моделлю (пунктирна лінія), та похідна, обчислена за LF-моделлю (суцільна лінія)
Моделювання мовного тракту
Для моделювання розповсюдження акустичних хвиль у мовному тракті як у
неоднорідній акустичній трубі, що починається між голосовими зв’язками та закін-
чується губами, використовується система рівнянь акустики в частинних похідних [6-8],
яка записується у вигляді:
,
,
2 t
p
c
xA
x
u
t
u
xAx
p
(3)
де ,0 Lx 0t , L – довжина мовного тракту, txp , – тиск у тракті в момент часу
t , txu , – об’ємна швидкість потоку, – густина повітря в тракті, c – швидкість
звуку і xA – функція площі поперечного перетину.
Оскільки тракт має неоднорідний поперечний перетин, він розбивається на
циліндричні секції однакової довжини з постійною площею перетину (рис. 4).
Як крайова умова на вході в тракт вибирається потік tug , знайдений з (1) – (2).
Виходячи з цього, маємо крайову умову: tutu g,0 . На протилежному кінці
тракту задаємо умову 0, tLp .
Різницева задача для апроксимації системи рівнянь (3) будується на так званій
рознесеній сітці. Для розв’язання використовується явний метод «чехарда». Цей
алгоритм має високу обчислювальну ефективність і може використовуватися для
моделювання в реальному часі [9]. Результати роботи алгоритму наведені на рис. 5.
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2009 546
10К
0 4 8 12 16 20
0
2
4
6
8
Ar
ea
, c
m
2
Length, cm
Рисунок 4 – Наближення мовного тракту циліндричними секціями
однакової довжини
Рисунок 5 – Результати моделювання російського звуку [а]
Синтез звуків голосу людини на основі фізичних моделей...
«Штучний інтелект» 4’2009 547
10К
Висновки
Проведені в роботі дослідження комп’ютерних моделей голосових зв’язок та мов-
ного тракту продемонстрували можливість їх спільного використання в системах ар-
тикуляторного синтезу. Порівняння результатів моделювання з аналітичними моделями
свідчать про адекватність одержаних результатів, а створене програмне забезпечення
дозволяє в зручному режимі задавати різні набори параметрів моделей для генерації
звуків голосу людини.
Література
1. Ishizaka K. Synthesis of Voiced Sounds from a Two-Mass Model of the Vocal Cords / K. Ishizaka,
J.L. Flanagan // Bell Syst. Tech. J. – 1972. – № 51. – Р. 1233-1268.
2. Крак Ю.В. Чисельне моделювання голосових зв’язок за двомасовою моделлю / Ю.В. Крак,
І.О. Стеля // Журнал обчислювальної та прикладної математики. – 2007. – № 1(94). – C. 55-60.
3. Rosenberg A. Effect of glottal pulse shape on the quality of natural vowels / A. Rosenberg // Journal of
the Acoustical Society of America. – 1971. – № 49. – Р. 583-590.
4. Alku P. A comparison of glottal voice source quantification parameters in breathy, normal, and pressed
phonation of female and male speakers / P. Alku, E. Vilkman // Folia Phoniatr. Logop. – 1996. – № 48. –
Р. 240-254.
5. Fant G. The lf-model revisited. Transformations and frequency domain analysis / G. Fant // STL-QPSR,
Tech. Rep. – 1995. – № 2 – 3. – Р. 119-156.
6. Kinsler, Frey, Coppens, and Saunders Fundamentals of Acoustics // San Diego: Academic Press. – 1982. –
ISBN: 9780471029335. – 496 р.
7. Portnoff M.R. A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal-Tract /
M.R. Portnoff // S.B. / S.M. thesis, MIT, Cambridge, Mass., 1973.
8. Schroeterand J. Techniques for Estimating Vocal-Tract Shapes from theSpeech Signal / J. Schroeterand,
M.M. Sondhi // IEEETrans. Speech Audio Proc. – 1994. – Vol. 2(1). – P. 133-150.
9. K. van den Doel. Real-time numerical solution of Webster's equation on a non-uniform grid / K. van den
Doel, U. Ascher // IEEE Trans. Audio, Speech and Language Processing 16 (2008). – P. 1163-1172.
Ю.В. Крак, И.О. Стеля
Синтез звуков голоса человека на основе физических моделей голосовых связок
и речевого тракта
Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых
связок и речевого тракта. Предложено математическое и программное обеспечение для реализации
этих моделей. Проведена серия числовых экспериментов.
Yu.V. Krak, I.O. Stelia
The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract
This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds
and a vocal tract. The mathematical apparatus and software for implementing of these models were
presented. A series of numerical experiments was carried out.
Стаття надійшла до редакції 09.06.2009.
|
| id | nasplib_isofts_kiev_ua-123456789-8191 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Ukrainian |
| last_indexed | 2025-12-07T16:51:01Z |
| publishDate | 2009 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Крак, Ю.В. Стеля, І.О. 2010-05-14T09:38:53Z 2010-05-14T09:38:53Z 2009 Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2009. — № 4. — С. 542-547. — Бібліогр.: 9 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/8191 517.958:531.33 Стаття присвячена проблемі синтезу мовного сигналу на основі фізичних моделей голосових зв’язок та
 мовного тракту. Запропоновано математичне та програмне забезпечення для реалізації цих моделей.
 Проведена серія чисельних експериментів. Статья посвящена проблеме синтеза речевого сигнала на основе физических моделей голосовых
 связок и речевого тракта. Предложено математическое и программное обеспечение для реализации
 этих моделей. Проведена серия числовых экспериментов. This article is devoted to the problem of speech signal synthesizing based on physical models of vocal folds
 and a vocal tract. The mathematical apparatus and software for implementing of these models were
 presented. A series of numerical experiments was carried out. uk Інститут проблем штучного інтелекту МОН України та НАН України Распознавание образов. Цифровая обработка сигналов Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту Синтез звуков голоса человека на основе физических моделей голосовых связок и речевого тракта The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract Article published earlier |
| spellingShingle | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту Крак, Ю.В. Стеля, І.О. Распознавание образов. Цифровая обработка сигналов |
| title | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| title_alt | Синтез звуков голоса человека на основе физических моделей голосовых связок и речевого тракта The Human Voice Synthesis Based on Physical Models of Vocal Folds and a Vocal Tract |
| title_full | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| title_fullStr | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| title_full_unstemmed | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| title_short | Синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| title_sort | синтез звуків голосу людини на основі фізичних моделей голосових зв’язок та мовного тракту |
| topic | Распознавание образов. Цифровая обработка сигналов |
| topic_facet | Распознавание образов. Цифровая обработка сигналов |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/8191 |
| work_keys_str_mv | AT krakûv sintezzvukívgolosulûdininaosnovífízičnihmodeleigolosovihzvâzoktamovnogotraktu AT stelâío sintezzvukívgolosulûdininaosnovífízičnihmodeleigolosovihzvâzoktamovnogotraktu AT krakûv sintezzvukovgolosačelovekanaosnovefizičeskihmodeleigolosovyhsvâzokirečevogotrakta AT stelâío sintezzvukovgolosačelovekanaosnovefizičeskihmodeleigolosovyhsvâzokirečevogotrakta AT krakûv thehumanvoicesynthesisbasedonphysicalmodelsofvocalfoldsandavocaltract AT stelâío thehumanvoicesynthesisbasedonphysicalmodelsofvocalfoldsandavocaltract |