Моделювання мовного апарату людини в задачах комп'ютерного синтезу

У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгорит...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Штучний інтелект
Дата:2010
Автори: Крак, Ю.В., Стеля, І.О.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2010
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/58363
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859779090885640192
author Крак, Ю.В.
Стеля, І.О.
author_facet Крак, Ю.В.
Стеля, І.О.
citation_txt Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр.
collection DSpace DC
container_title Штучний інтелект
description У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело – мовний тракт» на мовотворення. Для акустичного рівняння Клейна -Гордона розв’язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході. В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование. Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе. The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of parameters of the models in the language source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved.
first_indexed 2025-12-02T09:17:49Z
format Article
fulltext «Искусственный интеллект» 4’2010 102 3К УДК 517.958:531.33 Ю.В. Крак, І.О. Стеля Київський національний університет імені Тараса Шевченка, м. Київ, Україна krak@unicyb.kiev.ua, igor.stelia@gmail.com Моделювання мовного апарату людини в задачах комп’ютерного синтезу У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно- алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело – мовний тракт» на мовотворення. Для акустичного рівняння Клейна – Гордона розв’язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході. Вступ Розвиток комп’ютерних мовних синтезаторів привів до розробки декількох під- ходів до їх побудови, а саме: – синтез на основі конкатенації відрізків записаних мовленнєвих сигналів, що зберігаються у мовленнєвих базах даних; – формантний синтез, що не використовує зразки людської мови для синтезу. Замість цього синтезована мова створюється з використанням акустичних моделей. Параметри, такі, як набір значень частот основних формант та рівні шуму, зміню- ються в часі та створюють сигнал штучної мови; – артикуляторний синтез, що створює штучну мову шляхом безпосереднього мо- делювання людського мовного апарату. Цей метод являє собою синтез мови на базі обчислювальних методів, заснованих на моделях людського мовного апарату і арти- куляційних процесах, що відбуваються у ньому. Моделі мовного апарату, як правило, включають модель мовного тракту і модель голосових зв’язок. Для побудови та дослідження математичних моделей голосового джерела, що моделюють коливні процеси, та моделей мовного тракту, що моделюють розповсю- дження акустичних хвиль, використовуються чисельні методи. Для задачі відновлення параметрів мовного тракту за вимірюваним сигналом на виході використовується мате- матичний апарат розв’язання обернених задач. Проблемі розв’язання мовних оберне- них задач присвячені, зокрема, роботи [1], [2]. Метою дослідження є комп’ютерне відтворення звуків, що утворює людина, на основі спільного використання фізичних моделей голосового джерела та мовного тракту. Модель голосових зв’язок Ішізаки – Фланагана У моделі Ішізаки і Фланагана [3] кожна з голосових зв’язок описується двома масами, що зв’язані пружинами як зі стінками, так і між собою. Більш того, при- пускається, що зв’язки є двосторонньо симетричними. Маси, що моделюють зв’язки, здійснюють коливання у поперечному до руху повітря напрямку. Система рівнянь Моделювання мовного апарату людини в задачах комп’ютерного синтезу «Штучний інтелект» 4’2010 103 3К для двох мас, що коливаються, записується у вигляді: ),())()(())(()()( ),())()(())(()()( 22210222 2 22 2 2 2 11210111 1 12 1 2 1 tpdltxtxkxtxk dt tdxr dt txdm tpdltxtxkxtxk dt tdxr dt txdm mgc mgc =−−−++ =−+−++ (1) де 1m і 2m – маси; )(1 tx , )(2 tx – зміщення мас 1m і 2m ; 0201, xx – початкове поло- ження мас 1m і 2m ; t – час; 1r і 2r – коефіцієнти демпфування; 1k , 2k – пружність пружин для мас 1m і 2m ; ck – пружність пружини, що з’єднує маси 1m і 2m ; 1 2,d d – товщина мас 1m і 2m ; gl – діюча довжина голосових зв’язок; 1dlg , 2dlg – поверхні мас 1m і 2m , на які діють тиски )(1 tpm і )(2 tpm відповідно. Розподіл тиску в голосовій щілині апроксимується послідовними дискретними кроками ijp на кожному j -му кінці кожної i -ї маси. Перше падіння тиску 11( )sp p t− виводиться з рівняння Бернуллі для ідеальної рідини у стаціонарному режимі. Вздовж кожної з мас падіння тиску )()( 1211 tptp − та )()( 2221 tptp − визначається в’язкими втра- тами і пропорційне зсувовій в’язкості повітря. Падіння тиску на стику мас )()( 2112 tptp − еквівалентне зміні кінетичної енергії в одиниці об’єму газу. І остаточно різке розширення на верхньому кінці голосової щілини призводить до відновлення тиску до атмосфер- ного тиску p. Таким чином, система рівнянь для змін тиску записується у вигляді [3]: ( ) dt du dx xAtA tu tpp g l cg g s c ⋅+=− ∫ 0 2 1 2 11 )( )( 69.0)( ρρ , dt du A d tA tul dtptp g gg gg ⋅+=− 1 1 3 1 2 11211 )( )( 12)()( ρν , ) )( 1 )( 1)(( 2 1)()( 2 1 2 2 2 2112 tAtA tutptp gg g −=− ρ , (2) dt du A d tA tul dtptp g gg gg ⋅+=− 2 2 3 2 2 22221 )( )( 12)()( ρν ,         −=− ) )( 1( )( 2 )( )( 2 1)( 1 2 1 2 2 2 2 22 A tA A tA tA tu ptp gg g gρ , де ρ – густина повітря; ν – зсувова в’язкість повітря; 1A – площа голосового тракту на вході; giA – площа голосової щілини під i-ю масою; )(tug – потік повітря; 0( ) ( 2 ( )), 1, 2gi g i g iA t A l x t i= + = , де 011 )( xtx ≥ , 022 )( xtx ≥ ; 01gA , 02gA – залишкові площі в момент змикання голосових зв’язок. Для визначення значень тиску 1( ),mp t 2 ( )mp t використовуються співвідношення: ))()(( 2 1)( 12111 tptptpm += , ))()(( 2 1)( 22212 tptptpm += . (3) Шуканим розв’язком системи (1) – (3) є функція )(tug , яка визначає потік повітря на виході з голосової щілини. Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2010 104 3К Для побудови чисельного алгоритму розв’язання систем (1) та (2) використаємо позначення для зміщень та похідних: )()( 11 txtV = , dt dxtV 1 2 )( = , )()( 23 txtV = , dt dxtV 2 4 )( = і перепишемо систему (1) у вигляді: ))(()( 21 1 tV dt tdV ϕ= , ))(),(),(()( 3212 2 tVtVtV dt tdV ϕ= , (4) ))(()( 43 3 tV dt tdV ϕ= , ))(),(),(()( 4314 4 tVtVtV dt tdV ϕ= , ],0( Tt ∈ . До цієї системи додаються початкові умови: 011 )0( xV = , 012 )0( xV ′= , 023 )0( xV = , 024 )0( xV ′= . Для розв’язання системи (4) будемо використовувати метод Кутта – Мерсона [4]. Для використання чисельного методу здійснюється дискретизація відрізка інтегру- вання системи (1). Будемо використовувати рівномірне розбиття відрізка Tt ≤≤0 : hxx ii +=+1 , TNi ...0= , hTNT /= . Для побудови чисельного алгоритму розв’язання нелінійної системи (3) запи- шемо її у вигляді: ,0),( 111 =gupf ,0),,( 12112 =guppf ,0),,( 21123 =guppf (5) ,0),,( 22214 =guppf 0),( 225 =gupf . Систему (5) будемо розглядати як операторне рівняння в деякому просторі. Нехай T guppppP ),,,,( 22211211= , TPfPfPfPfPfPF ))(),(),(),(),(()( 54321= , (6) 0)( =PF , де F – нелінійне відображення. Для розв’язання системи (6) будемо використовувати метод Ньютона [4]. Для цього запишемо розвинення для 5,1 ),( =iPfi в ряд Тейлора. Тоді, згідно з методом Ньютона, наступне наближення до розв’язку нелінійної системи (6) знаходиться як розв’язок лінійної системи: ),()()( 1 sssss PFPPFPPF −′=′ + де ,...,3,2,1=s . (7) Для розв’язання лінійної системи (7) на кожному кроці методу Ньютона будемо використовувати ітераційний метод послідовної верхньої релаксації (ПВР), ітераційна схема якого має вигляд: ( ) ( )[ ] ( ))()(1 11111 1 +++++ + −′++−=− s k s k s k s k s k PFPPFPUDPLD ωωωω , де матриця A подана у вигляді суми діагональної, нижньої трикутної та верхньої трикутної матриці ULDPF s −−=′ )( , ω – релаксаційний параметр. Моделювання мовного апарату людини в задачах комп’ютерного синтезу «Штучний інтелект» 4’2010 105 3К Алгоритм розв’язання системи (1) – (3) будується таким чином: нехай відомий розв’язок у момент часу kt : ),(1 ktV )(2 ktV , )(3 ktV , )(4 ktV , ( ),11 ktp ( ),21 ktp ( )21 ,kp t ( )22 ,kp t ( )g ku t , знаходження розв’язку системи (4) на ( 1+k )-у кроці явного методу Кутта – Мерсона об’єднується в єдину ітераційну процедуру з розв’язанням системи (3) ме- тодом послідовної верхньої релаксації [5], згідно з яким перехід на ( 1+s )-у ітерацію здійснюється за формулами: ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ),,;,, , ,,;,, , 1221214311 1 4 41 1 3 1121113211 1 2 21 1 1 +++ + + + +++ + + + = = = = k s k s kkkk s kk s k s k s kkkk s kk s tptptVtVtVКМtV tVКМtV tptptVtVtVКМtV tVКМtV де ()KM позначено процедуру методу Кутта – Мерсона, а тиски знаходяться мето- дом ПВР наступним чином: ( ) ( )( ) 111 1 1 1111 111 1 11 ,, pf tVupf ptp k ss g s s k s ∂∂ += + + + + ω , ( ) ( ) ( ) ( ) ( )( ) 122 1 1 111121112 121 1 12 ,,, pf tVtutptpf ptp k s k s gk s k s s k s ∂∂ += + + +++ + + ω , ( ) ( ) ( ) ( ) ( ) ( )( ) 213 1 1 31 1 111211 1 123 211 1 21 ,,,, pf tVtVtutptpf ptp k s k s k s gk s k s s k s ∂∂ += + + + + +++ + + + ω , ( ) ( ) ( ) ( ) ( )( ) 224 1 1 311221 1 214 221 1 22 ,,, pf tVtutptpf ptp k s k s gk s k s s k s ∂∂ += + + +++ + + + ω , ( ) ( ) ( ) ( )( ) g k s k s gk s s gk s g uf tVtutpf utu ∂∂ += + + ++ + + + 5 1 1 311 1 225 1 1 ,, ω . Ітераційна процедура вважається закінченою за виконання умови: 1| ( )s g ku t+ − ( ) |s g ku t ε− < , де 0>ε – мала величина. Після цього здійснюється перехід на наступ- ний крок методу Кутта – Мерсона. Кількість кроків методу Кутта – Мерсона зале- жить від часу моделювання T та необхідної точності розрахунків. За розробленими алгоритмами проведена серія чисельних експериментів, ре- зультати яких наведені на рис. 1. Здійснене порівняння потоку повітря, обчисленого за двомасовою моделлю, та потоку повітря, отриманого за аналітичною R-моделлю [6]: ( )          ≤+≤≤                − − ≤≤                −        = ,,1 ,0,23 0 2 32 ttttt t tt tt t t t t tu npp p p p pp g α α де α – амплітуда, pt – час відкриття, nt – час закриття, 0t – період. Результати по- рівняння моделей наведені на рис. 2. Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2010 106 3К а б в г Рисунок 1 – Потік повітря gu на виході з голосових зв’язок, виміряний за допомогою зворотної фільтрації [7] (зверху) та розрахований за двомасовою моделлю (знизу) (а); потік повітря gu , обчислений для нейтрального (пунктирна лінія) та придихального (суцільна лінія) типу фонації (б); результати розрахунків потоку повітря )(tug для трьох значень тиску на вході у голосову щілину 1sp = 0.02, 2sp = 0.0012, 3sp = 0.008 (в); потік повітря gu на виході з голосових зв’язок, обчислений з інерційними членами (суцільна лінія) та без них (пунктирна лінія) (г) 0 2 4 6 8 0 0.1 0.2 0.3 0.4 Час, мсек ug(t) Рисунок 2 – Потік повітря gu на виході з голосових зв’язок, обчислений за двомасовою моделлю (суцільна лінія), та R-моделлю (пунктирна лінія) Моделювання мовного апарату людини в задачах комп’ютерного синтезу «Штучний інтелект» 4’2010 107 3К Для вивчення голосового джерела, окрім функції потоку повітря, використову- ється її похідна. Звичайний набір параметрів для кількісного опису коливань виводиться із залежності похідної потоку від часу і включає: амплітуду від’ємного піка, тривалість відкриття, тривалість закритої фази, проміжок часу між додатним і від’ємним піками, час повернення в початкове положення. Проведений порівняльний аналіз отриманої чисельної похідної потоку повітря за двомасовою моделлю та похідної потоку повітря, отриманою за аналітичною LF-моделлю [8]: ( ) ( ) ( ) ( )[ ]        <≤ <≤−− <≤ = −−−− ,,0 ,, ,0,sin 0 0 ttt tttee t E ttteE dt tdu c ce tttt a e eg t g ece εε α ε ω де 0t – період; et – відмітка мінімального значення похідної; at – визначається як точка, в якій тангенс перетинає вісь координат; ct – момент, в який похідна під час фази за- криття майже досягає нуля; eE – абсолютне значення мінімуму похідної; α , ε , gω – деякі параметри. Результати порівняння моделей наведені на рис. 3. 0 2 4 6 tp t0ti dug __________ dt Час, мсек te Ee 0 ta Рисунок 3 – Чисельна похідна від потоку повітря, обчисленого за двомасовою моделлю (пунктирна лінія), та похідна, обчислена за LF-моделлю (суцільна лінія) Моделювання мовного тракту людини Для моделювання розповсюдження акустичних хвиль у мовному тракті як у неоднорідній акустичній трубі, що починається між голосовими зв’язками та закін- чується губами, використовується система рівнянь акустики в частинних похідних, яка записується у вигляді [9]: ( ) ( ) , , 2 t p c xS x u t u xSx p ∂ ∂ = ∂ ∂ − ∂ ∂ = ∂ ∂ − ρ ρ (8) Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2010 108 3К де ,0 Lx ≤≤ 0>t , L – довжина мовного тракту; ( )txp , – тиск у тракті в момент часу t; ( )txu , – об’ємна швидкість потоку; ρ – густина повітря в тракті; c – швидкість звуку; ( )xS – функція площі поперечного перерізу. Оскільки тракт має неоднорідний поперечний переріз, він розбивається на ци- ліндричні секції однакової довжини з постійною площею перерізу (рис. 4). Як крайова умова на вході в тракт вибирається потік ( )tug , знайдений з (1) – (3). Виходячи з цього, маємо крайову умову: ( ) ( )tutu g=,0 . На протилежному кінці тракту задаємо умову ( ) 0, =tLp . Різницева задача для апроксимації системи рівнянь (3) будується на рознесеній сітці. Для розв’язання використовується явний метод «чехарда». Цей алгоритм має високу обчислювальну ефективність і може використовуватися для моделювання у реальному часі [10]. Результати роботи алгоритму наведені на рис. 5. 0 4 8 12 16 20 0 2 4 6 8 П ло щ а, с м 2 Довжина, см Рисунок 4 – Наближення мовного тракту циліндричними секціями однакової довжини Рисунок 5 – Результати моделювання звуку [а] російської мови Для моделювання розповсюдження акустичних хвиль також може використо- вуватися рівняння Вебстера [2]: ( ) ( ) ,2 2 2       ∂ ∂ ∂ ∂ = ∂ ∂ x PxS x c t PxS (9) де x – просторова координата уздовж середньої лінії тракту в середньо-сагітальній площині; t – момент часу; ),( txp – шуканий тиск у тракті; )(xS – профіль площ по- перечного перерізу вздовж тракту; c – швидкість звуку в тракті. Як крайова умова на вході в тракт вибирається похідна від потоку повітря ( ) ( ) ( ) 0, 0 gdu t P t S dt ρ = − . Для розв’язання задачі (9) використовується скінченнорізни- цевий метод. Для розв’язання системи різницевих рівнянь використовується ітераційний метод послідовної верхньої релаксації. Розглянемо задачу відновлення форми мовного тракту за виміряними акустич- ними параметрами сигналу на базі акустичного рівняння Клейна – Гордона [11]. Для цього вводиться нова змінна )t,x(ϕ , яка визначається виразом: 2/1)(),(),( xStxPtx =ϕ . (10) Моделювання мовного апарату людини в задачах комп’ютерного синтезу «Штучний інтелект» 4’2010 109 3К Це дає можливість сформулювати акустичне рівняння у формі Клейна – Гордона: ),,()(),(),( 2 2 2 2 2 2 txxUc x txc t tx ϕϕϕ − ∂ ∂ = ∂ ∂ Lx <<0 .0 Tt ≤< (11) Рівняння (11) має форму хвильового, де функція )x(U визначена в термінах площі поперечного перерізу мовного тракту як 2/1 22/12 )( /)()( xS dxxSdxU = . (12) Мовна обернена задача Мовна обернена задача визначається як задача знаходження функції S(x) за ви- міряними параметрами мовного сигналу на виході з тракту. Математично ця задача розв’язується як задача пошуку мінімуму деякого функціонала за різного роду обмежень. Нехай на виході з тракту вимірюється тиск )t,L(P , пов’язаний з розв’язком рівняння Клейна – Гордона співвідношенням (10). Позначимо )t(Φ функцію, яка ви- мірюється на виході з тракту. Задача зводиться до мінімізації функціонала ( ) dt)t,L()t()U(J T 0 2 U∫ −= ϕΦ , (13) де )t,L(Uϕ – розв’язок задачі (11) при заданій функції )x(U . Для мінімізації функціонала (13) використовується градієнтний метод [12]. Приріст функціонала записується у вигляді: =−+= )U(J)hU(J)U(J∆ +−= ∫ dt ))t,L()t((2 U T 0 ϕ∆ϕΦ ( )∫ T 0 2 dtϕ∆ , де )t,x()t,x( UhU ϕϕϕ∆ −= + . Для визначення градієнта функціонала будується спря- жена задача , яка записується у вигляді: ),,()(),(),( 2 2 2 2 2 2 txxUc x txc t tx Ψ− ∂ Ψ∂ = ∂ Ψ∂ Lx <<0 .0 Tt ≤< Градієнт функціонала визначається через розв’язок спряженої задачі за фор- мулою Ψϕ−='J . Після визначення )x(U можна знайти )x(S з (12). У тестових розрахунках була використана наступна стратегія перевірки працездат- ності побудованого алгоритму та створеного програмного забезпечення. Розв’язувалась пряма задача та визначався сигнал на виході. Далі для розв’язування оптимізаційної задачі цей сигнал використовувався як виміряний. Для початкового наближення функ- ції )x(U використовувалась довільна функція, представлена графіком на рис. 6. Точність розв’язку оцінюється за процедурою ресинтезу: синтезований за знай- деним розв’язком сигнал має мало відрізнятися від вихідного сигналу, за параметрами якого вирішувалася обернена задача. Результати розрахунків наведені на рис. 7. Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2010 110 3К 0.00 0.20 0.40 0.60 0.80 1.00 0.00 0.50 1.00 1.50 2.00 2.50 U(x) x 0.00 0.20 0.40 0.60 0.80 1.00 -0.40 0.00 0.40 0.80 1.20 Φ, φ t Рисунок 6 – Початкове наближення для функції )x(U (суцільна лінія), уточнена функція )x(U (пунктирна лінія) Рисунок 7 – Виміряний сигнал (суцільна лінія) x L= та його наближення як розв’язок оберненої задачі (пунктирна лінія) Програмно-алгоритмічний комплекс Складність фізичного явища, що вивчається, призводить до необхідності ураху- вання великої кількості параметрів. У свою чергу, математична модель є значною мірою чутливою до збурень цих параметрів. Для зручного введення та редагування вихід- них параметрів моделі та відображення результатів моделювання був розроблений програмно-алгоритмічний комплекс. Екранна форма для введення параметрів моделі голосових зв’язок наведена на рис. 8. Рисунок 8 – Екранна форма для введення параметрів моделі голосових зв’язок Необхідні для вивчення джерела параметри і результати моделювання відобра- жаються у цифровому та графічному вигляді за допомогою екранних форм користувача. Для вивчення голосового джерела, окрім функції потоку, використовується його похідна. Приклад відображення результатів моделювання потоку та його похідної наведений на рис. 9. Для введення і редагування вихідних даних моделі мовного тракту, зокрема задан- ня геометричної форми тракту та відображення результатів моделювання вихідного Моделювання мовного апарату людини в задачах комп’ютерного синтезу «Штучний інтелект» 4’2010 111 3К мовного сигналу у цифровому та графічному вигляді, був розроблений графічний інтерфейс користувача, екранна форма якого наведена на рис. 10. За його допомогою користувач моделі може задавати бажану форму мовного тракту та вивчати її вплив на вихідний мовний сигнал (рис. 11). Рисунок 9 – Результати моделювання голосового джерела у графічному вигляді Рисунок 10 – Екранна форма для введення параметрів тракту Рисунок 11 – Екранна форма для візуалізації вихідного сигналу Крак Ю.В., Стеля І.О. «Искусственный интеллект» 4’2010 112 3К Висновки У роботі запропонована і розроблена єдина система, яка дозволяє комп’ютерне відтворення звуків, що утворює людина на основі спільного використання фізичних моделей голосового джерела та мовного тракту. Також сформульовано і розв’язано обернену задачу відновлення параметрів мовного тракту. Подальші дослідження будуть направлені на удосконалення математичних методів та програмного забезпечення для моделювання голосових мовних сигналів. Література 1. Леонов А.С. Обратная задача для управления артикуляцией / А.С. Леонов, В.Н. Сорокин // Доклады РАН. – 2000. – T. 374, № 6. – С. 749-753. 2. Артикуляторный ресинтез фрикативных / Леонов А.С., Макаров И.С., Сорокин В.Н. [и др.] // Информационные процессы. – 2004. – Т. 4, № 2. – C. 141-159. 3. Ishizaka K. Synthesis of voiced sounds from a two-mass model of vocal cords / K. Ishizaka, J.L. Fla- nagan // Bell Syst. Tech. J. – 1972. – Vol. 51(6). – Р. 1233-1268. 4. Арушанян О.Б. Численное решение обыкновенных дифференциальных уравнений на фортране / О.Б. Арушанян, С.Ф. Залеткин. – М. : МГУ, 1990. – 335 с. 5. Самарский А.А. Методы решения сеточных уравнений : [учеб. пособие для студентов вузов по спец. «Прикладная математика»] / А.А. Самарский, Е.С. Николаев. – М. : Наука, 1978. – 592 с. 6. Rosenberg A. Effect of glottal pulse shape on the quality of natural vowels / A. Rosenberg // Journal of the Acoustical Society of America. – 1971. – Vol. 49. – Р. 583-590. 7. Rothenberg M. A new inverse-filtering technique for deriving the glottal airflow waveform during voicing / M. Rothenberg // J. Acoust. Sec. Am. – 1973. – Vol. 53, № 1. – Р. 1632-1645. 8. Fant G. The lf-model revisited. Transformations and frequency domain analysis / G. Fant // STL-QPSR, Tech. Rep. – 1995. – Vol. 2-3. – Р. 119-156. 9. Fundamentals of Acoustics / [Kinsler L.E., Frey A.E., Coppens A.B., Saunders J.V.]. – San Diego : Academic Press, 1982. – 496 p. 10. Van den Doel K. Real-time numerical solution of Webster's equation on a non-uniform grid / K. van den Doel, U. Ascher // IEEE Trans. Audio, Speech and Language Processing. – 2008. – Vol. 16. – Р. 1163- 1172. 11. Forbes B.J. The accoustical Klein-Gordon equation: The wave-mechanical step and barrier potential functions / B.J. Forbes, E.R. Pike, D.B. Sharp // J. Acooust. Soc. Am. – 2003. – № 114(3). – Р. 1291-1302. 12. Васильев Ф.П. Методы решения экстремальных задач / Васильев Ф.П. – М. : Наука, 1981. – 400 с. Ю.В. Крак, И.О. Стеля Моделирование речевого аппарата человека в задачах компьютерного синтеза В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование. Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе. Y.V. Krak, I.O. Stelia Modeling Human Speech Apparatus in Problems of Computer Synthesis The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of parameters of the models in the language source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved. Стаття надійшла до редакції 08.07.2010.
id nasplib_isofts_kiev_ua-123456789-58363
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-12-02T09:17:49Z
publishDate 2010
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Крак, Ю.В.
Стеля, І.О.
2014-03-22T18:53:42Z
2014-03-22T18:53:42Z
2010
Моделювання мовного апарату людини в задачах комп'ютерного синтезу / Ю.В. Крак, І.О. Стеля // Штучний інтелект. — 2010. — № 4. — С. 102-112. — Бібліогр.: 12 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/58363
517.958:531.33
У статті отримала розвиток методика розв’язання проблеми синтезу мовної інформації, що дозволило розв’язати задачу штучного утворення звуків голосу людини на основі спільного використання фізичних моделей голосового джерела та мовного тракту. На базі розроблених алгоритмів створено програмно-алгоритмічний комплекс для дослідження впливу параметрів моделей у системі «голосове джерело – мовний тракт» на мовотворення. Для акустичного рівняння Клейна -Гордона розв’язана обернена задача відновлення параметрів мовного тракту за вимірюваним сигналом на виході.
В статье дальнейшее развитие получила методика решения проблемы синтеза речевой информации, что позволило решить задачу искусственного образования звуков голоса человека, основываясь на совместном использовании физических моделей голосового источника и речевого тракта. На базе разработанных алгоритмов создан программно-алгоритмический комплекс для исследования влияния различных параметров моделей в системе «голосовой источник – речевой тракт» на речеобразование. Для акустического уравнения Клейна – Гордона решена обратная задача восстановления параметров речевого тракта по измеренному сигналу на выходе.
The paper has further developed the methods of solving the issue of synthesizing the voice data, thereby solving the issue of artificial formation of sounds of a human voice based on the shared use of physical models of the voice source and vocal tract. On the basis of the developed algorithms there was created the program and algorithmic complex for studying of influence of parameters of the models in the language source – vocal tract system on speech production. For acoustical Klein – Gordon’s equation the inverse problem of recovering the parameters of the vocal tract according to the measured output signal was solved.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
Моделювання мовного апарату людини в задачах комп'ютерного синтезу
Моделирование речевого аппарата человека в задачах компьютерного синтеза
Modeling Human Speech Apparatus in Problems of Computer Synthesis
Article
published earlier
spellingShingle Моделювання мовного апарату людини в задачах комп'ютерного синтезу
Крак, Ю.В.
Стеля, І.О.
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
title Моделювання мовного апарату людини в задачах комп'ютерного синтезу
title_alt Моделирование речевого аппарата человека в задачах компьютерного синтеза
Modeling Human Speech Apparatus in Problems of Computer Synthesis
title_full Моделювання мовного апарату людини в задачах комп'ютерного синтезу
title_fullStr Моделювання мовного апарату людини в задачах комп'ютерного синтезу
title_full_unstemmed Моделювання мовного апарату людини в задачах комп'ютерного синтезу
title_short Моделювання мовного апарату людини в задачах комп'ютерного синтезу
title_sort моделювання мовного апарату людини в задачах комп'ютерного синтезу
topic Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
topic_facet Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
url https://nasplib.isofts.kiev.ua/handle/123456789/58363
work_keys_str_mv AT krakûv modelûvannâmovnogoaparatulûdinivzadačahkompûternogosintezu
AT stelâío modelûvannâmovnogoaparatulûdinivzadačahkompûternogosintezu
AT krakûv modelirovanierečevogoapparatačelovekavzadačahkompʹûternogosinteza
AT stelâío modelirovanierečevogoapparatačelovekavzadačahkompʹûternogosinteza
AT krakûv modelinghumanspeechapparatusinproblemsofcomputersynthesis
AT stelâío modelinghumanspeechapparatusinproblemsofcomputersynthesis