Моделювання мовного апарату людини в задачах комп'ютерного синтезу
У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгорит...
Збережено в:
| Опубліковано в: : | Штучний інтелект |
|---|---|
| Дата: | 2010 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2010
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/58363 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859779090885640192 |
|---|---|
| author | Крак, Ю.В. Стеля, І.О. |
| author_facet | Крак, Ю.В. Стеля, І.О. |
| citation_txt | Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр. |
| collection | DSpace DC |
| container_title | Штучний інтелект |
| description | У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело – мовний тракт» на мовотворення. Для акустичного рівняння Клейна -Гордона розв’язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході.
В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование. Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе.
The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of parameters of the models in the language source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved.
|
| first_indexed | 2025-12-02T09:17:49Z |
| format | Article |
| fulltext |
«Искусственный интеллект» 4’2010 102
3К
УДК 517.958:531.33
Ю.В. Крак, І.О. Стеля
Київський національний університет імені Тараса Шевченка, м. Київ, Україна
krak@unicyb.kiev.ua, igor.stelia@gmail.com
Моделювання мовного апарату людини
в задачах комп’ютерного синтезу
У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило
розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних
моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-
алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело –
мовний тракт» на мовотворення. Для акустичного рівняння Клейна – Гордона розв’язана обернена
задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході.
Вступ
Розвиток комп’ютерних мовних синтезаторів привів до розробки декількох під-
ходів до їх побудови, а саме:
– синтез на основі конкатенації відрізків записаних мовленнєвих сигналів, що
зберігаються у мовленнєвих базах даних;
– формантний синтез, що не використовує зразки людської мови для синтезу.
Замість цього синтезована мова створюється з використанням акустичних моделей.
Параметри, такі, як набір значень частот основних формант та рівні шуму, зміню-
ються в часі та створюють сигнал штучної мови;
– артикуляторний синтез, що створює штучну мову шляхом безпосереднього мо-
делювання людського мовного апарату. Цей метод являє собою синтез мови на базі
обчислювальних методів, заснованих на моделях людського мовного апарату і арти-
куляційних процесах, що відбуваються у ньому. Моделі мовного апарату, як правило,
включають модель мовного тракту і модель голосових зв’язок.
Для побудови та дослідження математичних моделей голосового джерела, що
моделюють коливні процеси, та моделей мовного тракту, що моделюють розповсю-
дження акустичних хвиль, використовуються чисельні методи. Для задачі відновлення
параметрів мовного тракту за вимірюваним сигналом на виході використовується мате-
матичний апарат розв’язання обернених задач. Проблемі розв’язання мовних оберне-
них задач присвячені, зокрема, роботи [1], [2].
Метою дослідження є комп’ютерне відтворення звуків, що утворює людина,
на основі спільного використання фізичних моделей голосового джерела та мовного
тракту.
Модель голосових зв’язок Ішізаки – Фланагана
У моделі Ішізаки і Фланагана [3] кожна з голосових зв’язок описується двома
масами, що зв’язані пружинами як зі стінками, так і між собою. Більш того, при-
пускається, що зв’язки є двосторонньо симетричними. Маси, що моделюють зв’язки,
здійснюють коливання у поперечному до руху повітря напрямку. Система рівнянь
Моделювання мовного апарату людини в задачах комп’ютерного синтезу
«Штучний інтелект» 4’2010 103
3К
для двох мас, що коливаються, записується у вигляді:
),())()(())(()()(
),())()(())(()()(
22210222
2
22
2
2
2
11210111
1
12
1
2
1
tpdltxtxkxtxk
dt
tdxr
dt
txdm
tpdltxtxkxtxk
dt
tdxr
dt
txdm
mgc
mgc
=−−−++
=−+−++
(1)
де 1m і 2m – маси; )(1 tx , )(2 tx – зміщення мас 1m і 2m ; 0201, xx – початкове поло-
ження мас 1m і 2m ; t – час; 1r і 2r – коефіцієнти демпфування; 1k , 2k – пружність
пружин для мас 1m і 2m ; ck – пружність пружини, що з’єднує маси 1m і 2m ; 1 2,d d –
товщина мас 1m і 2m ; gl – діюча довжина голосових зв’язок; 1dlg , 2dlg – поверхні
мас 1m і 2m , на які діють тиски )(1 tpm і )(2 tpm відповідно.
Розподіл тиску в голосовій щілині апроксимується послідовними дискретними
кроками ijp на кожному j -му кінці кожної i -ї маси. Перше падіння тиску 11( )sp p t−
виводиться з рівняння Бернуллі для ідеальної рідини у стаціонарному режимі. Вздовж
кожної з мас падіння тиску )()( 1211 tptp − та )()( 2221 tptp − визначається в’язкими втра-
тами і пропорційне зсувовій в’язкості повітря. Падіння тиску на стику мас )()( 2112 tptp −
еквівалентне зміні кінетичної енергії в одиниці об’єму газу. І остаточно різке розширення
на верхньому кінці голосової щілини призводить до відновлення тиску до атмосфер-
ного тиску p. Таким чином, система рівнянь для змін тиску записується у вигляді [3]:
( ) dt
du
dx
xAtA
tu
tpp g
l
cg
g
s
c
⋅+=− ∫
0
2
1
2
11 )(
)(
69.0)( ρρ ,
dt
du
A
d
tA
tul
dtptp g
gg
gg ⋅+=−
1
1
3
1
2
11211 )(
)(
12)()( ρν ,
)
)(
1
)(
1)((
2
1)()( 2
1
2
2
2
2112 tAtA
tutptp
gg
g −=− ρ , (2)
dt
du
A
d
tA
tul
dtptp g
gg
gg ⋅+=−
2
2
3
2
2
22221 )(
)(
12)()( ρν ,
−=− )
)(
1(
)(
2
)(
)(
2
1)(
1
2
1
2
2
2
2
22 A
tA
A
tA
tA
tu
ptp gg
g
gρ ,
де ρ – густина повітря; ν – зсувова в’язкість повітря; 1A – площа голосового тракту на
вході; giA – площа голосової щілини під i-ю масою; )(tug – потік повітря;
0( ) ( 2 ( )), 1, 2gi g i g iA t A l x t i= + = ,
де 011 )( xtx ≥ , 022 )( xtx ≥ ; 01gA , 02gA – залишкові площі в момент змикання голосових
зв’язок.
Для визначення значень тиску 1( ),mp t 2 ( )mp t використовуються співвідношення:
))()((
2
1)( 12111 tptptpm += , ))()((
2
1)( 22212 tptptpm += . (3)
Шуканим розв’язком системи (1) – (3) є функція )(tug , яка визначає потік повітря
на виході з голосової щілини.
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2010 104
3К
Для побудови чисельного алгоритму розв’язання систем (1) та (2) використаємо
позначення для зміщень та похідних:
)()( 11 txtV = ,
dt
dxtV 1
2 )( = , )()( 23 txtV = ,
dt
dxtV 2
4 )( =
і перепишемо систему (1) у вигляді:
))(()(
21
1 tV
dt
tdV ϕ= ,
))(),(),(()(
3212
2 tVtVtV
dt
tdV ϕ= , (4)
))(()(
43
3 tV
dt
tdV
ϕ= ,
))(),(),(()(
4314
4 tVtVtV
dt
tdV ϕ= , ],0( Tt ∈ .
До цієї системи додаються початкові умови:
011 )0( xV = , 012 )0( xV ′= , 023 )0( xV = , 024 )0( xV ′= .
Для розв’язання системи (4) будемо використовувати метод Кутта – Мерсона [4].
Для використання чисельного методу здійснюється дискретизація відрізка інтегру-
вання системи (1). Будемо використовувати рівномірне розбиття відрізка Tt ≤≤0 :
hxx ii +=+1 , TNi ...0= , hTNT /= .
Для побудови чисельного алгоритму розв’язання нелінійної системи (3) запи-
шемо її у вигляді:
,0),( 111 =gupf
,0),,( 12112 =guppf
,0),,( 21123 =guppf (5)
,0),,( 22214 =guppf
0),( 225 =gupf .
Систему (5) будемо розглядати як операторне рівняння в деякому просторі.
Нехай
T
guppppP ),,,,( 22211211= ,
TPfPfPfPfPfPF ))(),(),(),(),(()( 54321= , (6)
0)( =PF ,
де F – нелінійне відображення.
Для розв’язання системи (6) будемо використовувати метод Ньютона [4]. Для цього
запишемо розвинення для 5,1 ),( =iPfi в ряд Тейлора. Тоді, згідно з методом Ньютона,
наступне наближення до розв’язку нелінійної системи (6) знаходиться як розв’язок
лінійної системи:
),()()( 1 sssss PFPPFPPF −′=′ + де ,...,3,2,1=s . (7)
Для розв’язання лінійної системи (7) на кожному кроці методу Ньютона будемо
використовувати ітераційний метод послідовної верхньої релаксації (ПВР), ітераційна
схема якого має вигляд:
( ) ( )[ ] ( ))()(1 11111
1
+++++
+ −′++−=− s
k
s
k
s
k
s
k
s
k PFPPFPUDPLD ωωωω ,
де матриця A подана у вигляді суми діагональної, нижньої трикутної та верхньої
трикутної матриці ULDPF s −−=′ )( , ω – релаксаційний параметр.
Моделювання мовного апарату людини в задачах комп’ютерного синтезу
«Штучний інтелект» 4’2010 105
3К
Алгоритм розв’язання системи (1) – (3) будується таким чином: нехай відомий
розв’язок у момент часу kt : ),(1 ktV )(2 ktV , )(3 ktV , )(4 ktV , ( ),11 ktp ( ),21 ktp ( )21 ,kp t ( )22 ,kp t
( )g ku t , знаходження розв’язку системи (4) на ( 1+k )-у кроці явного методу Кутта –
Мерсона об’єднується в єдину ітераційну процедуру з розв’язанням системи (3) ме-
тодом послідовної верхньої релаксації [5], згідно з яким перехід на ( 1+s )-у ітерацію
здійснюється за формулами:
( ) ( )( )
( ) ( ) ( ) ( ) ( ) ( )( )
( ) ( )( )
( ) ( ) ( ) ( ) ( ) ( )( ),,;,,
,
,,;,,
,
1221214311
1
4
41
1
3
1121113211
1
2
21
1
1
+++
+
+
+
+++
+
+
+
=
=
=
=
k
s
k
s
kkkk
s
kk
s
k
s
k
s
kkkk
s
kk
s
tptptVtVtVКМtV
tVКМtV
tptptVtVtVКМtV
tVКМtV
де ()KM позначено процедуру методу Кутта – Мерсона, а тиски знаходяться мето-
дом ПВР наступним чином:
( ) ( )( )
111
1
1
1111
111
1
11
,,
pf
tVupf
ptp k
ss
g
s
s
k
s
∂∂
+= +
+
+
+ ω ,
( ) ( ) ( ) ( ) ( )( )
122
1
1
111121112
121
1
12
,,,
pf
tVtutptpf
ptp k
s
k
s
gk
s
k
s
s
k
s
∂∂
+= +
+
+++
+
+ ω ,
( ) ( ) ( ) ( ) ( ) ( )( )
213
1
1
31
1
111211
1
123
211
1
21
,,,,
pf
tVtVtutptpf
ptp k
s
k
s
k
s
gk
s
k
s
s
k
s
∂∂
+= +
+
+
+
+++
+
+
+ ω ,
( ) ( ) ( ) ( ) ( )( )
224
1
1
311221
1
214
221
1
22
,,,
pf
tVtutptpf
ptp k
s
k
s
gk
s
k
s
s
k
s
∂∂
+= +
+
+++
+
+
+ ω ,
( ) ( ) ( ) ( )( )
g
k
s
k
s
gk
s
s
gk
s
g uf
tVtutpf
utu
∂∂
+= +
+
++
+
+
+
5
1
1
311
1
225
1
1 ,,
ω .
Ітераційна процедура вважається закінченою за виконання умови: 1| ( )s
g ku t+ −
( ) |s
g ku t ε− < , де 0>ε – мала величина. Після цього здійснюється перехід на наступ-
ний крок методу Кутта – Мерсона. Кількість кроків методу Кутта – Мерсона зале-
жить від часу моделювання T та необхідної точності розрахунків.
За розробленими алгоритмами проведена серія чисельних експериментів, ре-
зультати яких наведені на рис. 1.
Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та
потоку повітря, отриманого за аналітичною R-моделлю [6]:
( )
≤+≤≤
−
−
≤≤
−
=
,,1
,0,23
0
2
32
ttttt
t
tt
tt
t
t
t
t
tu
npp
p
p
p
pp
g
α
α
де α – амплітуда, pt – час відкриття, nt – час закриття, 0t – період. Результати по-
рівняння моделей наведені на рис. 2.
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2010 106
3К
а б
в г
Рисунок 1 – Потік повітря gu на виході з голосових зв’язок, виміряний за допомогою
зворотної фільтрації [7] (зверху) та розрахований за двомасовою моделлю (знизу) (а);
потік повітря gu , обчислений для нейтрального (пунктирна лінія) та придихального
(суцільна лінія) типу фонації (б); результати розрахунків потоку повітря )(tug
для трьох значень тиску на вході у голосову щілину
1sp = 0.02,
2sp = 0.0012,
3sp = 0.008 (в); потік повітря gu на виході з голосових зв’язок, обчислений з
інерційними членами (суцільна лінія) та без них (пунктирна лінія) (г)
0 2 4 6 8
0
0.1
0.2
0.3
0.4
Час, мсек
ug(t)
Рисунок 2 – Потік повітря gu на виході з голосових зв’язок, обчислений
за двомасовою моделлю (суцільна лінія), та R-моделлю (пунктирна лінія)
Моделювання мовного апарату людини в задачах комп’ютерного синтезу
«Штучний інтелект» 4’2010 107
3К
Для вивчення голосового джерела, окрім функції потоку повітря, використову-
ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться
із залежності похідної потоку від часу і включає: амплітуду від’ємного піка, тривалість
відкриття, тривалість закритої фази, проміжок часу між додатним і від’ємним піками,
час повернення в початкове положення.
Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря
за двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною
LF-моделлю [8]:
( )
( )
( ) ( )[ ]
<≤
<≤−−
<≤
= −−−−
,,0
,,
,0,sin
0
0
ttt
tttee
t
E
ttteE
dt
tdu
c
ce
tttt
a
e
eg
t
g ece εε
α
ε
ω
де 0t – період; et – відмітка мінімального значення похідної; at – визначається як точка,
в якій тангенс перетинає вісь координат; ct – момент, в який похідна під час фази за-
криття майже досягає нуля; eE – абсолютне значення мінімуму похідної; α , ε , gω –
деякі параметри. Результати порівняння моделей наведені на рис. 3.
0 2 4 6
tp
t0ti
dug
__________
dt
Час, мсек
te
Ee
0 ta
Рисунок 3 – Чисельна похідна від потоку повітря, обчисленого за двомасовою
моделлю (пунктирна лінія), та похідна, обчислена за LF-моделлю (суцільна лінія)
Моделювання мовного тракту людини
Для моделювання розповсюдження акустичних хвиль у мовному тракті як у
неоднорідній акустичній трубі, що починається між голосовими зв’язками та закін-
чується губами, використовується система рівнянь акустики в частинних похідних,
яка записується у вигляді [9]:
( )
( ) ,
,
2 t
p
c
xS
x
u
t
u
xSx
p
∂
∂
=
∂
∂
−
∂
∂
=
∂
∂
−
ρ
ρ
(8)
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2010 108
3К
де ,0 Lx ≤≤ 0>t , L – довжина мовного тракту; ( )txp , – тиск у тракті в момент часу t;
( )txu , – об’ємна швидкість потоку; ρ – густина повітря в тракті; c – швидкість звуку;
( )xS – функція площі поперечного перерізу.
Оскільки тракт має неоднорідний поперечний переріз, він розбивається на ци-
ліндричні секції однакової довжини з постійною площею перерізу (рис. 4).
Як крайова умова на вході в тракт вибирається потік ( )tug , знайдений з (1) – (3).
Виходячи з цього, маємо крайову умову: ( ) ( )tutu g=,0 . На протилежному кінці тракту
задаємо умову ( ) 0, =tLp .
Різницева задача для апроксимації системи рівнянь (3) будується на рознесеній
сітці. Для розв’язання використовується явний метод «чехарда». Цей алгоритм має
високу обчислювальну ефективність і може використовуватися для моделювання у
реальному часі [10]. Результати роботи алгоритму наведені на рис. 5.
0 4 8 12 16 20
0
2
4
6
8
П
ло
щ
а,
с
м
2
Довжина, см
Рисунок 4 – Наближення мовного тракту
циліндричними секціями
однакової довжини
Рисунок 5 – Результати моделювання звуку
[а] російської мови
Для моделювання розповсюдження акустичних хвиль також може використо-
вуватися рівняння Вебстера [2]:
( ) ( ) ,2
2
2
∂
∂
∂
∂
=
∂
∂
x
PxS
x
c
t
PxS (9)
де x – просторова координата уздовж середньої лінії тракту в середньо-сагітальній
площині; t – момент часу; ),( txp – шуканий тиск у тракті; )(xS – профіль площ по-
перечного перерізу вздовж тракту; c – швидкість звуку в тракті.
Як крайова умова на вході в тракт вибирається похідна від потоку повітря
( ) ( )
( )
0,
0
gdu t
P t
S dt
ρ
= − . Для розв’язання задачі (9) використовується скінченнорізни-
цевий метод. Для розв’язання системи різницевих рівнянь використовується ітераційний
метод послідовної верхньої релаксації.
Розглянемо задачу відновлення форми мовного тракту за виміряними акустич-
ними параметрами сигналу на базі акустичного рівняння Клейна – Гордона [11]. Для
цього вводиться нова змінна )t,x(ϕ , яка визначається виразом:
2/1)(),(),( xStxPtx =ϕ . (10)
Моделювання мовного апарату людини в задачах комп’ютерного синтезу
«Штучний інтелект» 4’2010 109
3К
Це дає можливість сформулювати акустичне рівняння у формі Клейна – Гордона:
),,()(),(),( 2
2
2
2
2
2
txxUc
x
txc
t
tx ϕϕϕ
−
∂
∂
=
∂
∂
Lx <<0 .0 Tt ≤< (11)
Рівняння (11) має форму хвильового, де функція )x(U визначена в термінах площі
поперечного перерізу мовного тракту як
2/1
22/12
)(
/)()(
xS
dxxSdxU = . (12)
Мовна обернена задача
Мовна обернена задача визначається як задача знаходження функції S(x) за ви-
міряними параметрами мовного сигналу на виході з тракту. Математично ця задача
розв’язується як задача пошуку мінімуму деякого функціонала за різного роду обмежень.
Нехай на виході з тракту вимірюється тиск )t,L(P , пов’язаний з розв’язком
рівняння Клейна – Гордона співвідношенням (10). Позначимо )t(Φ функцію, яка ви-
мірюється на виході з тракту.
Задача зводиться до мінімізації функціонала
( ) dt)t,L()t()U(J
T
0
2
U∫ −= ϕΦ , (13)
де )t,L(Uϕ – розв’язок задачі (11) при заданій функції )x(U .
Для мінімізації функціонала (13) використовується градієнтний метод [12].
Приріст функціонала записується у вигляді:
=−+= )U(J)hU(J)U(J∆ +−= ∫ dt ))t,L()t((2 U
T
0
ϕ∆ϕΦ ( )∫
T
0
2 dtϕ∆ ,
де )t,x()t,x( UhU ϕϕϕ∆ −= + . Для визначення градієнта функціонала будується спря-
жена задача , яка записується у вигляді:
),,()(),(),( 2
2
2
2
2
2
txxUc
x
txc
t
tx
Ψ−
∂
Ψ∂
=
∂
Ψ∂
Lx <<0 .0 Tt ≤<
Градієнт функціонала визначається через розв’язок спряженої задачі за фор-
мулою
Ψϕ−='J .
Після визначення )x(U можна знайти )x(S з (12).
У тестових розрахунках була використана наступна стратегія перевірки працездат-
ності побудованого алгоритму та створеного програмного забезпечення. Розв’язувалась
пряма задача та визначався сигнал на виході. Далі для розв’язування оптимізаційної
задачі цей сигнал використовувався як виміряний. Для початкового наближення функ-
ції )x(U використовувалась довільна функція, представлена графіком на рис. 6.
Точність розв’язку оцінюється за процедурою ресинтезу: синтезований за знай-
деним розв’язком сигнал має мало відрізнятися від вихідного сигналу, за параметрами
якого вирішувалася обернена задача. Результати розрахунків наведені на рис. 7.
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2010 110
3К
0.00 0.20 0.40 0.60 0.80 1.00
0.00
0.50
1.00
1.50
2.00
2.50
U(x)
x 0.00 0.20 0.40 0.60 0.80 1.00
-0.40
0.00
0.40
0.80
1.20
Φ, φ
t
Рисунок 6 – Початкове наближення
для функції )x(U (суцільна лінія),
уточнена функція )x(U
(пунктирна лінія)
Рисунок 7 – Виміряний сигнал
(суцільна лінія) x L= та його
наближення як розв’язок оберненої
задачі (пунктирна лінія)
Програмно-алгоритмічний комплекс
Складність фізичного явища, що вивчається, призводить до необхідності ураху-
вання великої кількості параметрів. У свою чергу, математична модель є значною мірою
чутливою до збурень цих параметрів. Для зручного введення та редагування вихід-
них параметрів моделі та відображення результатів моделювання був розроблений
програмно-алгоритмічний комплекс. Екранна форма для введення параметрів моделі
голосових зв’язок наведена на рис. 8.
Рисунок 8 – Екранна форма для введення параметрів моделі голосових зв’язок
Необхідні для вивчення джерела параметри і результати моделювання відобра-
жаються у цифровому та графічному вигляді за допомогою екранних форм користувача.
Для вивчення голосового джерела, окрім функції потоку, використовується його
похідна. Приклад відображення результатів моделювання потоку та його похідної
наведений на рис. 9.
Для введення і редагування вихідних даних моделі мовного тракту, зокрема задан-
ня геометричної форми тракту та відображення результатів моделювання вихідного
Моделювання мовного апарату людини в задачах комп’ютерного синтезу
«Штучний інтелект» 4’2010 111
3К
мовного сигналу у цифровому та графічному вигляді, був розроблений графічний
інтерфейс користувача, екранна форма якого наведена на рис. 10. За його допомогою
користувач моделі може задавати бажану форму мовного тракту та вивчати її вплив
на вихідний мовний сигнал (рис. 11).
Рисунок 9 – Результати моделювання голосового джерела у графічному вигляді
Рисунок 10 – Екранна форма для введення параметрів тракту
Рисунок 11 – Екранна форма для візуалізації вихідного сигналу
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2010 112
3К
Висновки
У роботі запропонована і розроблена єдина система, яка дозволяє комп’ютерне
відтворення звуків, що утворює людина на основі спільного використання фізичних
моделей голосового джерела та мовного тракту. Також сформульовано і розв’язано
обернену задачу відновлення параметрів мовного тракту. Подальші дослідження будуть
направлені на удосконалення математичних методів та програмного забезпечення
для моделювання голосових мовних сигналів.
Література
1. Леонов А.С. Обратная задача для управления артикуляцией / А.С. Леонов, В.Н. Сорокин //
Доклады РАН. – 2000. – T. 374, № 6. – С. 749-753.
2. Артикуляторный ресинтез фрикативных / Леонов А.С., Макаров И.С., Сорокин В.Н. [и др.] //
Информационные процессы. – 2004. – Т. 4, № 2. – C. 141-159.
3. Ishizaka K. Synthesis of voiced sounds from a two-mass model of vocal cords / K. Ishizaka, J.L. Fla-
nagan // Bell Syst. Tech. J. – 1972. – Vol. 51(6). – Р. 1233-1268.
4. Арушанян О.Б. Численное решение обыкновенных дифференциальных уравнений на фортране /
О.Б. Арушанян, С.Ф. Залеткин. – М. : МГУ, 1990. – 335 с.
5. Самарский А.А. Методы решения сеточных уравнений : [учеб. пособие для студентов вузов по
спец. «Прикладная математика»] / А.А. Самарский, Е.С. Николаев. – М. : Наука, 1978. – 592 с.
6. Rosenberg A. Effect of glottal pulse shape on the quality of natural vowels / A. Rosenberg // Journal of
the Acoustical Society of America. – 1971. – Vol. 49. – Р. 583-590.
7. Rothenberg M. A new inverse-filtering technique for deriving the glottal airflow waveform during
voicing / M. Rothenberg // J. Acoust. Sec. Am. – 1973. – Vol. 53, № 1. – Р. 1632-1645.
8. Fant G. The lf-model revisited. Transformations and frequency domain analysis / G. Fant // STL-QPSR,
Tech. Rep. – 1995. – Vol. 2-3. – Р. 119-156.
9. Fundamentals of Acoustics / [Kinsler L.E., Frey A.E., Coppens A.B., Saunders J.V.]. – San Diego :
Academic Press, 1982. – 496 p.
10. Van den Doel K. Real-time numerical solution of Webster's equation on a non-uniform grid / K. van den
Doel, U. Ascher // IEEE Trans. Audio, Speech and Language Processing. – 2008. – Vol. 16. – Р. 1163-
1172.
11. Forbes B.J. The accoustical Klein-Gordon equation: The wave-mechanical step and barrier potential
functions / B.J. Forbes, E.R. Pike, D.B. Sharp // J. Acooust. Soc. Am. – 2003. – № 114(3). – Р. 1291-1302.
12. Васильев Ф.П. Методы решения экстремальных задач / Васильев Ф.П. – М. : Наука, 1981. – 400 с.
Ю.В. Крак, И.О. Стеля
Моделирование речевого аппарата человека в задачах компьютерного синтеза
В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации,
что позволило решить задачу искусственного образования звуков голоса человека, основываясь на
совместном использовании физических моделей голосового источника и речевого тракта. На базе
разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния
различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование.
Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров
речевого тракта по измеренному сигналу на выходе.
Y.V. Krak, I.O. Stelia
Modeling Human Speech Apparatus in Problems of Computer Synthesis
The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby
solving the issue of artificial formation of sounds of a human voice based on the shared use of physical
models of the voice source and vocal tract. On the basis of the developed algorithms there was created the
program and algorithmic complex for studying of influence of parameters of the models in the language
source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse
problem of recovering the parameters of the vocal tract according to the measured output signal was solved.
Стаття надійшла до редакції 08.07.2010.
|
| id | nasplib_isofts_kiev_ua-123456789-58363 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Ukrainian |
| last_indexed | 2025-12-02T09:17:49Z |
| publishDate | 2010 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Крак, Ю.В. Стеля, І.О. 2014-03-22T18:53:42Z 2014-03-22T18:53:42Z 2010 Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/58363 517.958:531.33 У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело – мовний тракт» на мовотворення. Для акустичного рівняння Клейна -Гордона розв’язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході. В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование. Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе. The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of parameters of the models in the language source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved. uk Інститут проблем штучного інтелекту МОН України та НАН України Штучний інтелект Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск Моделювання мовного апарату людини в задачах комп'ютерного синтезу Моделирование речевого аппарата человека в задачах компьютерного синтеза Modeling Human Speech Apparatus in Problems of Computer Synthesis Article published earlier |
| spellingShingle | Моделювання мовного апарату людини в задачах комп'ютерного синтезу Крак, Ю.В. Стеля, І.О. Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| title | Моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| title_alt | Моделирование речевого аппарата человека в задачах компьютерного синтеза Modeling Human Speech Apparatus in Problems of Computer Synthesis |
| title_full | Моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| title_fullStr | Моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| title_full_unstemmed | Моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| title_short | Моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| title_sort | моделювання мовного апарату людини в задачах комп'ютерного синтезу |
| topic | Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| topic_facet | Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/58363 |
| work_keys_str_mv | AT krakûv modelûvannâmovnogoaparatulûdinivzadačahkompûternogosintezu AT stelâío modelûvannâmovnogoaparatulûdinivzadačahkompûternogosintezu AT krakûv modelirovanierečevogoapparatačelovekavzadačahkompʹûternogosinteza AT stelâío modelirovanierečevogoapparatačelovekavzadačahkompʹûternogosinteza AT krakûv modelinghumanspeechapparatusinproblemsofcomputersynthesis AT stelâío modelinghumanspeechapparatusinproblemsofcomputersynthesis |