Комп’ютерна модель голосових зв’язок та мовного тракту людини
Розроблені математичне та програмне забезпечення для моделювання та аналізу голосових зв’язок та мовного тракту людини, що разом складають підґрунтя для систем синтезу мови на основі математичних моделей. Разработаны математическое и программное обеспечение для моделирования и анализа голосовых с...
Saved in:
| Date: | 2008 |
|---|---|
| Main Authors: | , |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Інститут проблем штучного інтелекту МОН України та НАН України
2008
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/7666 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Комп’ютерна модель голосових зв’язок та мовного тракту людини / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2008. — № 4. — С. 758-762. — Бібліогр.: 11 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859673787784495104 |
|---|---|
| author | Крак, Ю.В. Стеля, І.О. |
| author_facet | Крак, Ю.В. Стеля, І.О. |
| citation_txt | Комп’ютерна модель голосових зв’язок та мовного тракту людини / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2008. — № 4. — С. 758-762. — Бібліогр.: 11 назв. — укр. |
| collection | DSpace DC |
| description | Розроблені математичне та програмне забезпечення для моделювання та аналізу голосових зв’язок та
мовного тракту людини, що разом складають підґрунтя для систем синтезу мови на основі математичних
моделей.
Разработаны математическое и программное обеспечение для моделирования и анализа голосовых
связок и речевого тракта человека, которые вместе составляют основу для систем синтеза речи,
построенных на математических моделях.
Mathematical facilities and software for human vocal folds and vocal tract models are developed. The models
constitute a basis for speech synthesis systems.
|
| first_indexed | 2025-11-30T15:13:04Z |
| format | Article |
| fulltext |
«Искусственный интеллект» 4’2008 758
9К
УДК 517.958:531.33
Ю.В. Крак, І.О. Стеля
Київський національний університет імені Тараса Шевченка, м. Київ, Україна
krak@unicyb.kiev.ua, Igor.Stelia@gmail.com
Комп’ютерна модель голосових зв’язок
та мовного тракту людини
Розроблені математичне та програмне забезпечення для моделювання та аналізу голосових зв’язок та
мовного тракту людини, що разом складають підґрунтя для систем синтезу мови на основі математичних
моделей.
Вступ
Метою статті є розробка математичного і програмного забезпечення для моде-
лювання і аналізу голосових зв’язок та мовного тракту людини. Голосові зв’язки є
джерелом звуків, які створюються людиною, і спільно з моделями мовного тракту
складають підґрунтя для систем синтезу мови на основі математичних моделей. Таким
чином, створення комп’ютерних моделей є актуальним для вивчення мовотворення.
Математичні моделі
За основу математичної моделі голосових зв’язок обрана двомасова модель [1],
згідно з якою кожна з голосових зв’язок описується двома масами, що здійснюють
автоколивання під впливом потоку повітря в голосовій щілині. Система рівнянь для
двох мас, що коливаються, записується у вигляді:
)())()(())(()()(
11210111
1
12
1
2
1 tpdltxtxkxtxk
dt
tdxr
dt
txdm mgc ,
)())()(())(()()(
22210222
2
22
2
2
2 tpdltxtxkxtxk
dt
tdxr
dt
txdm mgc ,
(1)
де 1m і 2m – маси, )(1 tx , )(2 tx – зміщення мас 1m і 2m , 0201, xx – початкові
положення мас 1m і 2m , t – час, 1r і 2r – коефіцієнти демпфування, 1k , 2k –
пружність пружин для мас 1m і 2m , ck – пружність пружини, що з’єднує маси 1m і
2m , 1d і 2d – товщина мас 1m і 2m , gl – діюча довжина голосових зв’язок, 1dlg , 2dlg –
поверхні мас 1m і 2m , на які діють тиски )(1 tpm і )(2 tpm .
Система (1) розв’язується спільно з системою рівнянь для змін тиску (будується
на основі рівнянь Бернуллі), які відбуваються в потоці при його проходженні через
голосові зв’язки.
В результаті реалізації моделі визначається потік повітря tug на виході з голо-
сової щілини. Цей потік використовується як вихідні дані для моделі мовного тракту.
Комп’ютерна модель голосових зв’язок та мовного тракту людини
«Штучний інтелект» 4’2008 759
9К
Для моделювання розповсюдження акустичних хвиль у мовному тракті як у
неоднорідній акустичній трубі, що починається між голосовими зв’язками та
закінчується губами, використовується система лінійних рівнянь в частинних похід-
них [2], [3], яка записується у вигляді:
,
,
2 t
p
c
xA
x
u
t
u
xAx
p
(2)
де txp , – тиск у тракті в точці x ( ,0 Lx де L – довжина мовного тракту) в
момент часу t , txu , – об’ємна швидкість потоку, – густина повітря в тракті, c –
швидкість звуку і xA – функція площі поперечного перетину.
Оскільки тракт має неоднорідний поперечний перетин, він розбивається на
циліндричні секції однакової довжини з постійною площею перетину.
В якості крайової умови на вході в тракт вибирається потік tug , знайдений в
моделі голосових зв’язок. Виходячи з цього, маєму крайову умову:
tutu g,0 .
На протилежному кінці тракту задаємо умову
0, tLp .
Програмне забезпечення
В основу алгоритму для реалізації моделі голосових зв’язок [4] покладено
метод Кутта-Мерсона, який об’єднується в єдину ітераційну процедуру з методом
послідовної верхньої релаксації для розв’язування нелінійною системою для зміни
тиску. Для розв’язування системи (2) використовується метод «чехарди» [5], [6].
Складність фізичного явища, що вивчається, призводить до необхідності ура-
хування великої кількості параметрів. В свою чергу, математична модель є значною
мірою чутливою до збурень цих параметрів. Для зручного введення та редагування
вихідних параметрів моделі та відображення результатів моделювання був розроблений
графічний інтерфейс користувача. Екранна форма для введення параметрів моделі
голосових зв’язок наведена на рис. 1. За допомогою програмного забезпечення корис-
тувач моделі може вивчати вплив параметрів моделі на параметри голосового джерела,
не будучи фахівцем з математичного моделювання. Необхідні для вивчення джерела
параметри і результати моделювання відображаються у цифровому та графічному
вигляді за допомогою екранних форм користувача.
Для вивчення голосового джерела, окрім функції потоку, використовується
його похідна. Приклад відображення результатів моделювання потоку та його похід-
ної наведений на рис. 2.
Набір параметрів для кількісного опису коливань вводиться із залежності
похідної потоку від часу і включає [7]: амплітуду від’ємного піка, тривалість фази
відкриття, тривалість закритої фази, проміжок часу між додатним і від’ємним піка-
ми, час повернення в початкове положення і вторинні параметри, що походять з них:
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2008 760
9К
швидкість відкриття, тривалість фази відкриття голосової щілини відносно періоду
основного тону, тривалість фази відкритої голосової щілини відносно тривалості
основного тону тощо. Ступінь змикання голосових зв’язок (відстань між зв’язками)
відіграє важливу роль у визначенні тривалості фази закриття голосової щілині, різ-
кості закриття і впливає на якість сприйняття фонації.
Рисунок 1 – Екранна форма для введення параметрів моделі голосових зв’язок
Рисунок 2 – Результати моделювання голосового джерела у графічному вигляді
Комп’ютерна модель голосових зв’язок та мовного тракту людини
«Штучний інтелект» 4’2008 761
9К
Набір параметрів для кількісного опису коливань вводиться із залежності
похідної потоку від часу і включає [7]: амплітуду від’ємного піка, тривалість фази
відкриття, тривалість закритої фази, проміжок часу між додатним і від’ємним піками,
час повернення в початкове положення і вторинні параметри, що походять з них:
швидкість відкриття, тривалість фази відкриття голосової щілини відносно періоду
основного тону, тривалість фази відкритої голосової щілини відносно тривалості основ-
ного тону тощо. Ступінь змикання голосових зв’язок (відстань між зв’язками) відіграє
важливу роль у визначенні тривалості фази закриття голосової щілині, різкості за-
криття і впливає на якість сприйняття фонації.
Для введення і редагування вихідних даних моделі мовного тракту, зокрема,
задання геометричної форми тракту та відображення результатів моделювання вихід-
ного мовного сигналу у цифровому та графічному вигляді був розроблений графіч-
ний інтерфейс користувача, екранна форма якого наведена на рис. 3. За його допомогою
користувач моделі може задавати бажану форму мовного тракту та вивчати її вплив
на вихідний мовний сигнал. На рис. 3 наведені форма тракту (верхній графік) та вихід-
ний сигнал (нижній графік) для російського голосного «а». Параметри мовного тракту
для російських голосних були використані з роботи [8].
Рисунок 3 – Екранна форма для введення параметрів тракту
і візуалізації вихідного сигналу
Висновки
Розроблені в роботі чисельні алгоритми та програмне забезпечення дають змогу
синтезувати і досліджувати мовний сигнал, використовуючи на вході в мовний тракт
потік, розрахований за моделлю голосових зв’язок. Розроблений інтерфейс користу-
вача дозволяє у зручному режимі вивчати вплив параметрів голосових зв’язок та
Крак Ю.В., Стеля І.О.
«Искусственный интеллект» 4’2008 762
9К
форми мовного тракту на вихідний сигнал. Наведені в роботі результати моделю-
вання добре узгоджуються з існуючими на цей час уявленнями про джерело звуків,
яким є голосові зв’язки людини, та з наведеними в літературі результатами [9-11],
одержаними за іншими моделями голосових зв’язок. Якість сигналу на виході з мов-
ного тракту оцінюється експертами безпосередньо при відтворенні відповідних звуків.
Література
1. Ishizaka K. and Flanagan J.L. Synthesis of voiced sounds from a two-mass model of vocal cords // Bell
Syst. Tech. J. – 1972. – 51(6). – Р. 1233-1268.
2. Portnoff M.R. A Quasi-One-Dimensional Digital Simulation for the Time-Varying Vocal-Tract //
S.B./S.M. thesis, MIT. – Cambridge, Mass. – 1973.
3. J. Schroeterand M.M. Sondhi. Techniques for Estimating Vocal-Tract Shapes from theSpeech Signal //
IEEETrans. Speech Audio Proc. – 1994. – Vol. 2(1). – Р. 133-150.
4. Крак Ю.В., Стеля І.О. Чисельне моделювання голосових зв’язок за двомасовою моделлю //
Журнал обчислювальної та прикладної математики. – 2007. – № 1(94). – С. 55-60.
5. Randal J. Leveque. Finite volume methods for hyperbolic problems. – Cambridge University Press, 2002.
6. Morton K.W., Mayers D.F. Numerical solutions of partial differential equations. – Cambridge University
Press, 2005. – 2nd ed.
7. Alku P. and Vilkman E. A comparison of glottal voice sorce quantification parameters in breathy,
normal, and pressed phonation of female and male speakers // Folia Phoniatr. Logop. – 1996. – № 48. –
Р. 240-254.
8. Fant C.G.M. Acoustic Theory of Speech Production. – The Hague: Mouton and Co, 1960.
9. Flanagan J.L. and Landgraf L.L. Self-oscillating source for vocal tract synthesizers // IEEE Trans. Audio
Electroacoust. AU-16. – 1968. – Р. 57-64.
10. Meyer P., Wilhelms R. and H.W.Strube. A quasiarticulatory speech synthesizer for German language
running in real time // J. Acoust. Soc. Am. – 1989. – August. – № 86 (2). – Р. 523-539.
11. Childers D., Hicks D., Moor G. and Alsaka Y. A model for vocal fold vibratory motion, contact area, and
the electroglottogram // J. Acoust. Soc. Am. – 1986. – № 80. – Р. 1309-1320.
Ю.В. Крак, И.О. Стеля
Компьютерная модель голосовых связок и речевого тракта человека
Разработаны математическое и программное обеспечение для моделирования и анализа голосовых
связок и речевого тракта человека, которые вместе составляют основу для систем синтеза речи,
построенных на математических моделях.
Yu.V. Krak, I.O. Stelya
Computer Models of Human Vocal Folds and Vocal Tract
Mathematical facilities and software for human vocal folds and vocal tract models are developed. The models
constitute a basis for speech synthesis systems.
Стаття надійшла до редакції 24.07.2008.
|
| id | nasplib_isofts_kiev_ua-123456789-7666 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Ukrainian |
| last_indexed | 2025-11-30T15:13:04Z |
| publishDate | 2008 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Крак, Ю.В. Стеля, І.О. 2010-04-06T13:12:47Z 2010-04-06T13:12:47Z 2008 Комп’ютерна модель голосових зв’язок та мовного тракту людини / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2008. — № 4. — С. 758-762. — Бібліогр.: 11 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/7666 517.958:531.33 Розроблені математичне та програмне забезпечення для моделювання та аналізу голосових зв’язок та мовного тракту людини, що разом складають підґрунтя для систем синтезу мови на основі математичних моделей. Разработаны математическое и программное обеспечение для моделирования и анализа голосовых связок и речевого тракта человека, которые вместе составляют основу для систем синтеза речи, построенных на математических моделях. Mathematical facilities and software for human vocal folds and vocal tract models are developed. The models constitute a basis for speech synthesis systems. uk Інститут проблем штучного інтелекту МОН України та НАН України Распознавание речи. Интеллектуальные системы для работы с естественными языками и текстами Комп’ютерна модель голосових зв’язок та мовного тракту людини Компьютерная модель голосовых связок и речевого тракта человека Computer Models of Human Vocal Folds and Vocal Tract Article published earlier |
| spellingShingle | Комп’ютерна модель голосових зв’язок та мовного тракту людини Крак, Ю.В. Стеля, І.О. Распознавание речи. Интеллектуальные системы для работы с естественными языками и текстами |
| title | Комп’ютерна модель голосових зв’язок та мовного тракту людини |
| title_alt | Компьютерная модель голосовых связок и речевого тракта человека Computer Models of Human Vocal Folds and Vocal Tract |
| title_full | Комп’ютерна модель голосових зв’язок та мовного тракту людини |
| title_fullStr | Комп’ютерна модель голосових зв’язок та мовного тракту людини |
| title_full_unstemmed | Комп’ютерна модель голосових зв’язок та мовного тракту людини |
| title_short | Комп’ютерна модель голосових зв’язок та мовного тракту людини |
| title_sort | комп’ютерна модель голосових зв’язок та мовного тракту людини |
| topic | Распознавание речи. Интеллектуальные системы для работы с естественными языками и текстами |
| topic_facet | Распознавание речи. Интеллектуальные системы для работы с естественными языками и текстами |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/7666 |
| work_keys_str_mv | AT krakûv kompûternamodelʹgolosovihzvâzoktamovnogotraktulûdini AT stelâío kompûternamodelʹgolosovihzvâzoktamovnogotraktulûdini AT krakûv kompʹûternaâmodelʹgolosovyhsvâzokirečevogotraktačeloveka AT stelâío kompʹûternaâmodelʹgolosovyhsvâzokirečevogotraktačeloveka AT krakûv computermodelsofhumanvocalfoldsandvocaltract AT stelâío computermodelsofhumanvocalfoldsandvocaltract |