Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
Проведено аналіз стану та вказано основні шляхи вирішення проблеми автоматичного розпізнавання, розуміння та синтезу українського та багатомовного мовлення, усного перекладу з української та на українську. Узагальнено теоретичні та експериментальні результати доробку українських учених у галузі розп...
Gespeichert in:
| Veröffentlicht in: | Управляющие системы и машины |
|---|---|
| Datum: | 2018 |
| Hauptverfasser: | , , , , , |
| Format: | Artikel |
| Sprache: | Ukrainian |
| Veröffentlicht: |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
2018
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/161562 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні / Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко // Управляющие системы и машины. — 2018. — № 6. — С. 7–24. — Бібліогр.: 40 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-161562 |
|---|---|
| record_format |
dspace |
| spelling |
Вінцюк, Т.К. Сажок, М.М. Селюх, Р.А. Федорин, Д.Я. Юхименко, О.А. Робейко, В.В. 2019-12-13T19:30:48Z 2019-12-13T19:30:48Z 2018 Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні / Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко // Управляющие системы и машины. — 2018. — № 6. — С. 7–24. — Бібліогр.: 40 назв. — укр. 0130-5395 DOI: https://doi.org/10.15407/usim.2018.06.007 https://nasplib.isofts.kiev.ua/handle/123456789/161562 004.934 Проведено аналіз стану та вказано основні шляхи вирішення проблеми автоматичного розпізнавання, розуміння та синтезу українського та багатомовного мовлення, усного перекладу з української та на українську. Узагальнено теоретичні та експериментальні результати доробку українських учених у галузі розпізнавання, розуміння та синтезу звукових образів. Наведено засоби комп’ютерного розпізнавання та синтезу українського мовлення. Цель. Цель данной статьи — проанализировать состояние и наметить основные пути решения проблем автоматического распознавания, понимания и синтеза украинской речи и устного перевода с украинского и на украинский языки. Методы. Моделирование разговорной интеллектуальной деятельности человека с использованием подхода «анализ через синтезом» с экспериментальными исследованиями и апробацией в реальных условиях применения. Результаты. Методы и алгоритмы, предложенные и адаптированные к конкретным аппаратным/программным платформам, позволили разработать речевые информационные системы, отвечающие растущим ожиданиям потенциальных пользователей. Описанные современные речевые информационные системы демонстрируют большее обобщение и меньшую чувствительность к диктору и предметной области при анализе и высокую естественность синтезированного речевого сигнала. Благодаря этим достижениям процессы ввода и поиска устной информации могут быть частично или полностью автоматизированы, в частности для украинского языка. Purpose. The purpose is to analyze the state and outline the main ways of solving the problems of automatic recognition, understanding and synthesis for Ukrainian speech and spoken translation from Ukrainian Sign Language to Ukrainian language. Methods. Modeling the spoken intellectual human activity using the analysis-by-synthesis approach accomplished with the experimental research and approbation in real application conditions. Results. Methods and algorithms proposed and adapted to the specific hardware/software platforms allow the speech information systems developing meeting the growing expectations of potential users. The described contemporary spoken information systems demonstrate more generalization and less sensitivity to speaker and domain during analysis and high naturalness of synthesized speech signal. Due to these achievements, the processes of spoken information input and retrieval can be partially or fully automated, particularly, for Ukrainian. uk Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України Управляющие системы и машины Образное мышление Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні Автоматическое распознавание, понимание и синтез речи в Украине Automatic Recognition, Understanding and Synthesis of Speech Signals in Ukraine Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні |
| spellingShingle |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні Вінцюк, Т.К. Сажок, М.М. Селюх, Р.А. Федорин, Д.Я. Юхименко, О.А. Робейко, В.В. Образное мышление |
| title_short |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні |
| title_full |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні |
| title_fullStr |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні |
| title_full_unstemmed |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні |
| title_sort |
автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в україні |
| author |
Вінцюк, Т.К. Сажок, М.М. Селюх, Р.А. Федорин, Д.Я. Юхименко, О.А. Робейко, В.В. |
| author_facet |
Вінцюк, Т.К. Сажок, М.М. Селюх, Р.А. Федорин, Д.Я. Юхименко, О.А. Робейко, В.В. |
| topic |
Образное мышление |
| topic_facet |
Образное мышление |
| publishDate |
2018 |
| language |
Ukrainian |
| container_title |
Управляющие системы и машины |
| publisher |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України |
| format |
Article |
| title_alt |
Автоматическое распознавание, понимание и синтез речи в Украине Automatic Recognition, Understanding and Synthesis of Speech Signals in Ukraine |
| description |
Проведено аналіз стану та вказано основні шляхи вирішення проблеми автоматичного розпізнавання, розуміння та синтезу українського та багатомовного мовлення, усного перекладу з української та на українську. Узагальнено теоретичні та експериментальні результати доробку українських учених у галузі розпізнавання, розуміння та синтезу звукових образів. Наведено засоби комп’ютерного розпізнавання та синтезу українського мовлення.
Цель. Цель данной статьи — проанализировать состояние и наметить основные пути решения проблем автоматического распознавания, понимания и синтеза украинской речи и устного перевода с украинского и на украинский языки. Методы. Моделирование разговорной интеллектуальной деятельности человека с использованием подхода «анализ через синтезом» с экспериментальными исследованиями и апробацией в реальных условиях применения. Результаты. Методы и алгоритмы, предложенные и адаптированные к конкретным аппаратным/программным платформам, позволили разработать речевые информационные системы, отвечающие растущим ожиданиям потенциальных пользователей. Описанные современные речевые информационные системы демонстрируют большее обобщение и меньшую чувствительность к диктору и предметной области при анализе и высокую естественность синтезированного речевого сигнала. Благодаря этим достижениям процессы ввода и поиска устной информации могут быть частично или полностью автоматизированы, в частности для украинского языка.
Purpose. The purpose is to analyze the state and outline the main ways of solving the problems of automatic recognition, understanding and synthesis for Ukrainian speech and spoken translation from Ukrainian Sign Language to Ukrainian language. Methods. Modeling the spoken intellectual human activity using the analysis-by-synthesis approach accomplished with the experimental research and approbation in real application conditions. Results. Methods and algorithms proposed and adapted to the specific hardware/software platforms allow the speech information systems developing meeting the growing expectations of potential users. The described contemporary spoken information systems demonstrate more generalization and less sensitivity to speaker and domain during analysis and high naturalness of synthesized speech signal. Due to these achievements, the processes of spoken information input and retrieval can be partially or fully automated, particularly, for Ukrainian.
|
| issn |
0130-5395 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/161562 |
| citation_txt |
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні / Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко // Управляющие системы и машины. — 2018. — № 6. — С. 7–24. — Бібліогр.: 40 назв. — укр. |
| work_keys_str_mv |
AT víncûktk avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT sažokmm avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT selûhra avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT fedorindâ avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT ûhimenkooa avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT robeikovv avtomatičnerozpíznavannârozumínnâtasintezmovlennêvihsignalívvukraíní AT víncûktk avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT sažokmm avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT selûhra avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT fedorindâ avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT ûhimenkooa avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT robeikovv avtomatičeskoeraspoznavanieponimanieisintezrečivukraine AT víncûktk automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine AT sažokmm automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine AT selûhra automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine AT fedorindâ automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine AT ûhimenkooa automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine AT robeikovv automaticrecognitionunderstandingandsynthesisofspeechsignalsinukraine |
| first_indexed |
2025-11-24T16:49:10Z |
| last_indexed |
2025-11-24T16:49:10Z |
| _version_ |
1850487059286851584 |
| fulltext |
ISSN 0130-5395, УСиМ, 2018, № 6 7
Образное мышление
DOI: https://doi.org/10.15407/usim.2018.06.007
УДК 004.934
Т.К. ВІНЦЮК , д-р техн. наук,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна
М.М САЖОК, канд. техн. наук, зав. відділом,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна,
sazhok@gmail.com
Р.А. СЕЛЮХ, мол. наук. співроб.,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна,
vxml12@gmail.com
Д.Я. ФЕДОРИН, мол. наук. співроб.,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна,
dmytro.fedoryn@gmail.com
О.А. ЮХИМЕНКО, наук. співроб.,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна,
enomaj@gmail.com
В.В. РОБЕЙКО, наук. співроб.,
Міжнародний науково-навчальний центр інформаційних технологій та систем
НАН та МОН України, просп. Глушкова, 40, Київ 03187, Україна,
valya.robeiko@gmail.com
АВТОМАТИЧНЕ РОЗПІЗНАВАННЯ, РОЗУМІННЯ
ТА СИНТЕЗ МОВЛЕННЄВИХ СИГНАЛІВ В УКРАЇНІ
Проведено аналіз стану та вказано основні шляхи вирішення проблеми автоматичного розпізнавання, розуміння
та синтезу українського та багатомовного мовлення, усного перекладу з української та на українську. Узагальнено
теоретичні та експериментальні результати доробку українських учених у галузі розпізнавання, розуміння та синтезу
звукових образів. Наведено засоби комп’ютерного розпізнавання та синтезу українського мовлення.
Ключові слова: мовлення, мовленнєвий сигнал, аналіз, розпізнавання, розуміння, синтез.
Вступ
Розроблення та поширення засобів ком п’ю-
тер ного розпізнавання та синтезу українського
мовлення є найбільш досконалим засобом спіл-
кування людини з машиною — за допомогою
голосу. Людина подає усні команди, комп’ютер
сприймає їх — розпізнає і розуміє. То є автома-
тичне розпізнавання та розуміння мовлення.
Навпаки, якщо комп’ютер може озвучити (син-
тезувати) будь-який текст, то маємо справу з ав-
томатичним синтезом мовлення за текстом.
Надалі автоматичне розпізнавання мовлен-
ня — це процес автоматичного оброблення
8 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
мовленнєвого сигналу, результатом якого є по-
слідовність слів. Автоматичне розуміння мов-
лення — це більш узагальнений процес оброб-
ки мовлення, результатом якого є передаваний
сенс (зміст) (нагадаємо, що один і той же сенс
можна передати різними послідовностями
слів). Аналогічно можна розрізняти простий
й осмислений синтез мовлення за текстом. В
останньому випадку комп’ютер спершу гене-
рує осмислений текст, що виражає певну дум-
ку, а вже потім озвучує (синтезує) його.
Світовий рівень національної науки, техніки
та культури значною мірою визначається наяв-
ністю розробок щодо комп’ютерних техноло-
гій та систем автоматичного розпізнавання та
синтезу національного мовлення. Це зумовле-
но багатьма чинниками: мовлення є найбільш
зручним, звичним, доступним і швидким засо-
бом комунікації між людьми, а отже, найбільш
придатним для спілкування людини з маши-
нами; мовлення разом з мовою відіграє най-
суттєвішу роль в національно-культурному та
науково-технічному житті етносу.
В цій статті зроблено аналіз стану та вказані
основні шляхи вирішення проблеми автома-
тичного розпізнавання, розуміння та синтезу
українського мовлення, усного перекладу з
української та на українську. Викладки будуть
зроблені в контексті зв’язків та взаємовпливу
національних наук та культур світу.
Специфіка проблеми. Мовленнєвий сигнал ха-
рактеризується надзвичайними різноманітніс-
тю та надлишковістю. Аналоговий мовленнєвий
сигнал з виходу мікрофона подається на ана ло-
го-циф ро вий перетворювач (АЦП) і далі у вигля-
ді послідовності чисел подається в комп’ютер.
Як правило, аналого-цифрове перетворення ви-
конується в дискретному рівномірному часі з кро-
ком 50 і менше мікросекунд (20 і більше тисяч
вимірів миттєвої амплітуди мовленнєвого сигна-
лу в секунду). Кожний вимір робиться з точністю
12—20 біт, тобто розрізняється від 212 до 220 зна-
чень миттєвої амплітуди. Отже, загалом мовлен-
нєвий сигнал характеризується потоком більш
ніж 12 × 20000 = 2,4 × 105 біт/с або 3—10 байт/с.
Розглянемо, наприклад, задачу автоматич-
ного розпізнавання окремо вимовлених слів.
Нехай у словнику всього 28 = 256 слів і в се-
редньому кожне слово вимовляється за одну
секунду. Розпізнати усне слово в цьому випад-
ку означає перейти від початкової інформації
об’ємом 3 × 104 байт до кінцевої інформації об-
сягом один байт про номер слова, який воно
має в словнику. Отже, виходить, що (3 × 104—1)
байт в мовленнєвому сигналі є надлишковими й
тільки один байт («крапля в морі») несе корисну
інформацію про сенс сказаного. Автоматичне
розпізнавання мовлення — «боротьба» з над-
лишковістю, «вивуджування» «корисної» ін-
формації, граничне стискання інформації.
Але головною «перепоною» вирішення проб-
ле ми розпізнавання є надзвичайне розмаїття
мов лен нє вих сигналів. Навіть два мовленнєві
сигнали, що відповідають двом поспіль вимовам
одного й того ж слова одним і тим же диктором,
завжди є різними: при «накладанні один на од-
ного» вони ніколи не дадуть збігу («Двічі в одну й
ту саму воду ввійти неможливо»). В межах однієї
мови, якщо не звертати увагу на діалекти, мов-
леннєві сигнали не тільки відрізняються тим, що
сказано або яка послідовність слів вимовлена,
але й залежать від індивідуальних особливостей
голосу, функціонального й емоційного станів
того, хто говорить, від способу та манери, темпу
та гучності вимовляння, причому темп і гучність
змінюються нелінійно в часі. Мовленнєві сигна-
ли звуків змінюються під впливом сусідніх зву-
ків у послідовностях — відбуваються так звані
явища коартикуляції. Акустичні характеристи-
ки слів варіюються під впливом синтагматичних
та фразових наголосів, а також змінюються за-
лежно від інтонації — перелічування, звертання,
завершеності, незавершеності, стверджування,
питання, оклику тощо.
Загалом у мовленнєвому сигналі є інформа-
ція не тільки про те, що сказано, але й про те,
хто говорить, який його функціональний стан,
який темп мовлення тощо. Вся ця інформація
виступає як надлишкова і зайва відносно ін-
формації про те, що говориться.
Очевидно, що алгоритми автоматичного роз-
пізнавання мають враховувати основні фактори
змінюваності сигналів мовлення, базуватись на
моделях параметричного процесу породження
ISSN 0130-5395, УСиМ, 2018, № 6 9
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
мовленнєвих сигналів, який від об ра жає розма-
їття та закономірності генерації та перетворення
мовленнєвого сигналу.
Сучасні уявлення про процес породження
мовленнєвого сигналу базуються на нуль-по-
люс ній моделі мовленнєвого тракту, яка збурю-
ється голосовим (моделює голосові зв’язки —
при генерації голосних звуків та дзвінких при го-
лос них) або шумовим (при генерації аспіратив-
них і фрикативних звуків) джерелами збурення,
або їх комбінацією. Нуль-по люс на модель опи-
сується різницевим рівнянням не вище 20-го
порядку (не більше 10 резонаторів). Параметри
моделі та характеристики джерел збурення
плавно змінюються в часі з так званою сила-
бічною частотою й тим самим моделюють рух
язика, губ, зубів, м’якого піднебіння, частоти
коливань голосових зв’язок (періоду основного
тону), інтенсивності. Голосове джерело моде-
люється імпульсом збурення, який має форму,
близьку до трикутної, з плавним наростанням
й різким заднім фронтом. Імпульс збурення ви-
никає з періодом основного тону, що плавно
змінюється в часі й займає десь близько третини
періоду. Шумове джерело збурення моделюєть-
ся генератором дискретного білого шуму.
Сигнали збурення фільтруються нуль-по люс-
ною моделлю мовленнєвого тракту (аналог акус-
тичної труби) й далі випромінюються у довкілля.
Сигнал мовлення є результатом динаміки моделі
мовотворення. У злитому мовленні мовленнєвий
тракт не встигає налаштуватись на певну конфі-
гурацію для окремих фонем, як уже подається
команда на перебудову, на генерацію наступної
фонеми. Але мовленнєвий тракт має інерційні
властивості, його не можна миттєво перенала-
годити, отже, мовленнєвий сигнал генерується
лінійною системою, параметри якої весь час змі-
нюються. Розрізняють стаціонарні та перехідні
частки (сегменти) мовленнєвого сигналу.
Для стаціонарних сегментів створюються мо-
делі з більш-менш незмінними параметрами.
Інтенсивність мовлення регулюється ампліту-
дою джерел збурення, темп мовлення моделю-
ється зміною довжини стаціонарних сегментів,
інтонація — зміною періоду основного тону за
певними законами в часі. Коартикуляція відо-
бражається в моделі тим, що значення пара-
метрів мовленнєвого тракту для даного звука є
залежними від параметрів попереднього й на-
ступного звуків; до того ж значення цих пара-
метрів «рухаються» за інерційними законами.
Закономірності темпу мовлення «розігруються»
в основному шляхом додержання певних спів-
відношень довжин стаціонарних сегментів зву-
ків. Щоб генерувати звуки, відповідні фонемі,
треба задати характерні значення параметрів
моделі мовленнєвого тракту й джерел його збу-
рення, рівно ж задати й закони їх зміни в часі.
Надлишковість і розмаїття мовленнєвих сиг-
налів найкраще ілюструються моделлю мово-
творення. Очевидно, що автоматичні розпіз-
навання та синтез мовлення явно чи неявно
мають ґрунтуватись на наших уявленнях про
генерацію мовленнєвого сигналу, про основні
фактори, що пояснюють його розмаїття, а та-
кож дають можливість штучно генерувати мов-
леннєвий сигнал з наданням йому необхідних
індивідуальних та емоційних властивостей.
Хоч усі люди на Землі й мають однакову анато-
мію і, отже, можна користуватись спільною мо-
деллю мовотворення, все ж кожне національне
мовлення характеризується власними фонемним
складом, правилами артикулювання та інтону-
вання, словотворення та об’єднання слів у речен-
ня тощо. Отрж, кожен етнос, щоб бути залученим
до світової науки та культури, повинен досліджу-
вати власні національні мову й мовлення.
Стан проблеми
В Україні проблему почали розробляти десь із
середини 60-х років ХХ ст. Були виконані перші
теоретичні розробки (Т.К. Він цюк, В.С. Ки ри-
чен ко, В.О. Куниця, В.К. Ма лу шен ко, Б.Б. Ти-
мо феєв, В.Г. Зайцев). Тоді ж були розроблені
перші програми та пристрої, що розпізнавали
декілька десятків окремо вимовлюваних слів
(Т.К. Він цюк, Б.Б. Тимофеєв і В.Г. Зай цев).
Згодом сформувались наукові школи: під ке-
рівництвом Т.К. Він цю ка (Інститут кіберне-
тики, а з 1997 р. — Міжнародний науково-
навчальний центр інформаційних технологій
та систем), М.П. Дер ка ча (Львів ський універ-
10 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
ситет), М.Ф. Бон да рен ка (Хар ків сь кий інсти-
тут радіоелектроніки), О.М. Кар по ва (Дніп ро-
пет ровський університет), Т.О. Бров чен ко та
Е.О. Нушікян (Одеський університет).
Українські школи успішно конкурували на
все союзній арені колишнього СРСР. Всесо юз ні
семінари «Автоматичне розпізнавання слухових
образів» (АРСО) чотири рази проходили в Ук раї-
ні: 1968 р. — у Києві та Каневі, 1974 р. — у Льво ві,
1982 р. — у Києві та Одесі, 1988 р. — у Києві.
В Україні виконані певні наукові роботи,
особливо теоретичного та експерименталь-
ного плану, щодо моделювання процесів роз-
пізнавання та синтезу мовлення. Добре знані
в світі запропоновані в Інституті кібернетики
(ІК) АН України загальні алгоритми обробки
сигналів з метою їх розпізнавання та синтезу,
відомі під назвою ІКДП-метод або Генеративна
модель розпізнавання образів [1,2], а також
експериментальні системи розпізнавання та
розуміння злитого мовлення (рис. 1) [3,4], до-
слідні зразки систем усного діалогу (СУД) лінії
МОВА-RЕСН (рис. 2) [5,6].
ІКДП-метод ґрунтується на ієрархічній (І)
структурі породження (складання або компо-
зиції (К)) складних модельних сигналів мов-
лення й на порівнянні їх шляхом динамічного
програмування (ДП) з розпізнаваним сигна-
лом. Підвалини ІКДП-методу були закладені в
1966—1971 р.: спершу для розпізнавання окре-
мо вимовлюваних слів (1968) [7], пізніше уза-
гальнення на розпізнавання злитого мовлення
(1971) [8], в тому числі на пофонемне розпізна-
вання [9, 10] й на смислову інтерпретацію зли-
того мовлення [11]. Одночасно розв’язувались
різні задачі навчання та самонавчання розпіз-
наванню мовлення [10, 12, 13].
На Заході ця теорія відома як DTW — Dynamic
Time Warping (динамічне згортання часу) та ви-
знана піонерною в світі. З 1975 р. поширилася
модифікація цієї теорії під назвою Приховані
Марківські Моделі (HMM — Hidden Markov
Model) та використовується в наш час у найбільш
продуктивних системах розпізнавання [26—28].
Різні експериментальні системи розпізнаван-
ня окремо вимовлюваних слів демонструються
в Інституті кібернетики АН УСРС з 1966 р. [14],
зв’язного мовлення — з 1971 р. [3], смисло-
вої інтерпретації — з 1979 р. [15]. ІКДП-метод
отримав широке визнання в світі, роботи укра-
їнських вчених мають послідовників і цитують-
ся в США, Великобританії, Франції, Німеччині,
Японії та інших країнах [16—20]. Перші експе-
Рис. 1. Експериментальна система розпізнавання зли-
того мовлення на ЕОМ “БЭСМ-6” (1970)
Рис. 2. Система усного діалогу RECH-121 (1986)
ISSN 0130-5395, УСиМ, 2018, № 6 11
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
рименти з комп’ютерного синтезу українського
мовлення відносяться до 1966 р. [21].
Розробки систем усного діалогу (СУД) лінії
МОВА-RЕСН для практичного використання
започатковані в 1978 р. Першою моделлю була
СУД «RЕСН-1» (1980) [5]. З того часу розробле-
но цілу низку моделей: 1, 1001, 121, 2, 3, 111,
1111, 122, 123, 124, 4.
Моделі 1, 1001, 111, 1111, 122, 123, 124 є ав-
тономними, які підключаються до будь-якого
мікрокомп’ютера. Моделі 2, 3, 4 вбудовуються
в комп’ютер. Модель 1 (1980) розпізнає до 256
окремо вимовлюваних слів (усних команд) з
надійністю розпізнавання 95 відсотків й син-
тезує (озвучує) будь-який текст українським чи
російським мовленням зі словесною розбірли-
вістю 97 відсотків. У Модель 1 реалізовано на-
вчування на голос та словник користувача. Для
цього кожне слово робочого словника має бути
вимовлене хоч б один раз. При однократному
вимовлянні кожного слова швидкість навчання
(налаштування) СУД на розпізнавання усних
команд дорівнює 30 слів за секунду. Щоб за-
безпечити 100 відсотків сприйняття (розпізна-
вання) усних команд використовується комен-
тований режим введення інформації, за якого
правильне чи неправильне розпізнавання ко-
ментується поданням усних команд ВІРНО або
ПОМИЛКА. Орфографічний текст, поданий на
озвучування, синтез, має бути розміченим силь-
ним (—) або слабким (+) наголосами в словах.
Модель 1001 (1984) [22] додатково реалізує
смислову інтерпретацію квазізлитого (з пауза-
ми між словами) мовлення, наприклад виконує
усні завдання на виконання чотирьох арифме-
тичних дій, які задаються природною мовою
(порядок слів не є жорстко фіксованим).
Модель 121 (1986) [23] подана на рис. 2 роз-
роблялась для мікрокомп’ютерів класу ІВМ РС
ХТ/АТ згідно з контрактами ЮНЕСКО. Вона є
багатомовною (сім мов: українська, російська,
англійська, французька, іспанська, німецька
та італійська), виконує автоматичне розпізна-
вання окремо вимовлюваних слів (у словнику
256 × 3 = 768 слів) та злитого мовлення, усний
переклад з однієї мови на іншу, синтезує (озву-
чує) будь-який текст на будь-якій із семи мов.
Розпізнавання виконується в реальному ча-
сі — затримка відповіді розпізнавання після
закінчення мовлення не залежить від його три-
валості й дорівнює 0,3 секунди. Максимальна
тривалість злитого мовлення при розпізнаван-
ні — 15 секунд. Налаштування на голос корис-
тувача, робочий словник і предметну область
виконується в режимі навчання розпізнаванню.
Кожній парі (диктор, словник), а, отже, й додат-
ковій парі (мовлення-мова, предметна область)
відповідає індивідуальний файл мовлення обся-
гом до 32 Кб. Надійність розпізнавання окремо
вимовлюваних слів — 99 відсотків, слів у злитого
мовленні для випадку вільного порядку сліду-
вання слів («коефіцієнт» розгалужень дорівнює
обсягу словника) — 93 відсотків. Модель СУД
«Мова-121» двічі успішно продемонстрована у
штаб-квартирі ЮНЕСКО в Парижі [24].
В моделі 1111 було опрацьовано автоматичне
розпізнавання та смислову інтерпретацію мов-
леннєвого сигналу для словника в 5000 слів.
Модель «Мова-4» є одноплатною й вбудову-
ється в персональний комп’ютер (1986) Д [25].
Основою цієї моделі є мікропроцесор 1813ВЕ1.
Модель розпізнає в реальному часі 300 усних
слів-команд, а також озвучує (синтезує) будь-
який текст українською або російською мо-
вою. «Мова-4» розроблена на замовлення ВО
«Електронмаш» (Київ).
Автоматичні
розпізнавання та смислова
інтерпретація мовлення
Найбільш робастною системою розпізнавання
була б така, яка б запам’ятовувала всі можливі
сигнали мовлення як прототипи, а потім, при
розпізнаванні, порівнювала б розпізнаваний
сигнал зі збереженими прототипами. На жаль,
через надзвичайне розмаїття мовленнєвих
сигналів цей підхід до розпізнавання не реа-
лізується: немає й не буде такого комп’ютера,
здатного запам’ятати всі можливі мовленнєві
сигнали й, тим більше, їх порівняти. Проте, на
щастя, при всьому розмаїтті, мовленнєві сиг-
нали, пов’язані сильними детермінованими
залежностями, які найкраще описати за вико-
12 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
ристання допустимих перетворень, які дозво-
ляють перейти від однієї реалізації мовленнє-
вого образу до іншої. Наприклад, всі реалізації
одного й того ж слова при вимовлянні одним і
тим же диктором відрізняються нелінійно змі-
нюваним темпом вимовляння. Отже, розмаїт-
тя мовленнєвих сигналів, зумовлене змінюва-
ним темпом вимовляння, задається економ-
ним описом допустимих перетворень осі часу
зі збереженням його прямого ходу.
Загалом є намагання задати (запам’ятати)
окремі реалізації, наприклад кожного слова, які
оголошуються модельними реалізаціями або
прототипами, а потім визначити (описати) пра-
вила допустимих перетворень цих прототипів,
застосовуючи які, утворюються (генеруються)
різноманітні похідні модельні прототипи, на-
приклад, такі, що відрізняються нелінійно змі-
нюваним темпом та інтенсивністю вимовляння.
Нехай вдалося якимось чином побудувати мо-
дель, яка економно описує (або дозволяє генеру-
вати) різноманітні модельні сигнали мовлення,
які своєю сукупністю більш-менш якісно опи-
сують реальне розмаїття мовленнєвих сигналів.
Якщо так, то в такий спосіб вирішується пробле-
ма пам’яті. Далі необхідно вирішити проблему
обчислень — порівняння розпізнаваного сигна-
лу зі генерованими модельними сигналами.
Отже, простий перебір модельних сигналів
при порівнянні не підходить: необхідно знай-
ти ефективні шляхи пошуку модельних сиг-
налів, які певною мірою є найбільш схожими
з розпізнаваним сигналом. Отож, має бути за-
безпечений ефективний спрямований пошук
оптимальних рішень. Так, модель (алгоритм)
розпізнавання має задовольняти дві вимоги:
бути і адекватною, і конструктивною. Остання
вимога означає економність опису розмаїття
сигналів мовлення, а також направлений пере-
бір варіантів у порівнянні сигналів.
В ІКДП-методі множини модельних сигналів
мовлення задаються (описуються, генеруються)
стохастичними породжувальними автоматни-
ми граматиками, а порівняння розпізнаваного
сигналу мовлення з генерованими модельними
(рівно ж формування відповіді розпізнавання)
реалізується направленим перебором варіантів
і пошуком оптимального рішення за динаміч-
ного програмування. Відповідь розпізнавання
визначається згенерованим модельним сигна-
лом, який є найбільш схожим (у певному сен-
сі) з розпізнаваним сигналом. В ІКДП-методі,
підкреслимо, генерація і пошук оптимальних
рішень виконуються спрямовано (без повної
генерації й перебору всіх варіантів), але прий-
няті рішення еквівалентні повним генерації та
перебору модельних сигналів.
Розглянемо процеси розпізнавання та смис-
лової інтерпретації мовленнєвого сигналу.
Будь-яка розпізнавальна система складається
з аналізатора та розпізнавача-інтерпретатора.
В аналізаторі виконується попередня об-
робка мовленнєвого сигналу, перехід від пер-
винного опису мовленнєвого сигналу до вто-
ринного (рис. 3). При аналізі з початкового об-
сягу інформації 8-96 КБайт/с виділяється най-
більш суттєва його частина з не більш як 1-10
КБайт/с, яка все ще зберігає інформацію про те
сказане. Універсальними ознаками мовленнє-
вого сигналу, поточні значення яких обчислю-
ються на підставі спостережуваного мовленнє-
вого сигналу, як правило, виступають миттєві
передавальна характеристика мовленнєвого
тракту та параметри джерел його збурення або
різні їх еквіваленти. Оскільки задача аналізу в
цій постановці є некоректною і такою, яка по-
гано піддається формалізації та розв’язанню,
і враховуючи, що спостережуваний мовлен-
нєвий сигнал є згорткою сигналів збурення з
імпульсним відгуком мовленнєвого тракту, ви-
значаємо робастним такий аналіз мовленнє-
вого сигналу, який ґрунтується на врахуванні
квазіперіодичної структури згортки.
Обчислюватимемо поточні значення таких
ознак: мовленнєвий сигнал є квазіперіодичним,
шумним чи комбінованим. Якщо сигнал є квазі-
періоднчиим, то виділятимемо поточний період
основного тону, а саме — обчислюватимемо по-
точне значення періоду основного тону, а також
запам’ятовуватимемо амплітудно-часову форму
сигналу на довжині цього періоду. Відзначимо,
що виділений поточний період мовленнєво-
го сигналу є згорткою одного імпульсу джере-
ла збурення з мовленнєвим трактом. Якщо ж
ISSN 0130-5395, УСиМ, 2018, № 6 13
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
поточний сигнал є шумним, то запам’ятаємо
якийсь його фрагмент на стандартній довжині,
наприклад 5 мс. Якщо ж сигнал є комбінованим
(і квазіперіодичним, і шумним одночасно), то
розділимо його на дві частини: низькочастот-
ну до 2,5 кГц та високочастотну (шумову) — за
2 кГц, й запам’ятаємо повністю його низькочас-
тотну, а також і шумову частини.
Очевидно, є сенс розрізняти окрім квазіпе-
ріодичного, “шумного” й комбінованого сиг-
налів ще й відсутність сигналу мовлення. Далі
введемо міру схожості двох сусідніх періодів й
двох сусідніх шумових фрагментів. Якщо, на-
приклад, виявляється, що наступний період за
формою повторює поточний й відрізняється
від нього тільки інтенсивністю, тобто ці сусід-
ні періоди мають відносно велику міру схожос-
ті, то є сенс запам’ятати тільки один перший
період, а наступний за формою є повторенням
старого, і для нього досить вказати тільки зна-
чення довжини періоду і відповідний множник
зміни інтенсивності.
Міри схожості фрагментів мовленнєвого сиг-
налу можуть мати різні вирази. Найбільш ужи-
вані міри схожості виражаються через амплітуд-
ний спектр, кепстр, автокореляційну функцію,
так звані a- чи b-предиктивні параметри, коефі-
цієнти відбиття, коди або інші описи порівню-
ваних фрагментів [1]. Але у будь-якому випадку
ці описи обчислюються на підставі виділених і
порівнюваних фрагментів мовленнєвого сигна-
лу (квазіперіодів або шумових фрагментів).
Отже, на виході аналізатора мовленнєвого
сигналу маємо результат аналізу у формі часо-
вої послідовності спостережуваних елементів.
Кожен елемент має ознаки:
тон-шум (елемент є квазіперіодом, комбі-
нованим або паузним);
довжину (тривалість, наприклад, довжину
поточного періоду);
форму (амплітудно-часова форма квазіпе-
ріоду чи шумового фрагменту або еквівален-
ти: спектр, кепстр, автокореляційну функцію,
предиктивні параметри, коефіцієнти відбиття,
коди тощо, або форму попереднього елементу,
якщо форма повторюється, але в даному випад-
ку вказується множник зміни інтенсивності).
Опис мовленнєвих сигналів в такий спосіб
є зручним для створення бази знань, спільної
як для автоматичного розпізнавання, так і для
автоматичного синтезу мовлення.
Нехай далі є заданою сукупність сегмен-
тів (реалізацій) фонем для даного диктора.
Сегментом (реалізацією) фонеми будемо на-
зивати часову послідовність спостережуваних
елементів, яка певним чином «вирізана» до-
слідником з експериментального матеріалу.
Сформуємо навчальну вибірку з сегментів, які
відповідають певній фонемі при фіксованому
оточенні іншими фонемами (та, що йде перед
нею, і та, яка йде слідом). В українському мов-
ленні розрізнятимемо близько 70 різних фонем
(серед них є наголошені та ненаголошені голо-
сні), й, отже, буде 703 фонем-трійок.
Із усіх реалізацій навчальної вибірки фо не-
ми-трійки можна вибрати одну, найкращу, яку
оголосимо прототипом фонеми-трійки і яка
найкраще апроксимує всі інші реалізації на-
вчальної вибірки. Отже, скористаємось мірою
схожості сегментів-реалізацій, яка є сумою
елементарних мір схожості — між двома порів-
нюваними елементами. Оскільки порівнювані
реалізації мають різну кількість елементів (до-
вжину), то у порівнянні їх довжини вирівню-
ються. То робиться шляхом зміни кількості по-
вторень тих форм-елементів прототипу, які від-
Рис. 3. Опис мовленнєвих сигналів векторними функ-
ціями часу — послідовностями векторів-елементів
14 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
значені аналізатором як такі, що можуть повто-
рюватись. Загалом, у прототипі фонеми-трійки
максимально зберігається природа вимовляння
фонеми з урахуванням коартикуляції, допусти-
мої зміни темпу та інтенсивності вимовляння,
індивідуальних особливостей диктора.
Одночасно визначено певний процес поро-
дження (генерації) різних модельних сегментів
фонеми-трійки: зберігаючи порядок слідуван-
ня форм-елементів, окремі з яких повторюємо
в певних межах, вказаних у прототипі фонеми-
трійки проти кожної форми-елемента.
Далі розглянемо різні практичні задачі роз-
пізнавання мовлення. Почнемо з розпізнаван-
ня окремо вимовлюваних слів. Нехай дано слов-
ник. Кожне слово задане своїм орфографічним
текстом. Від орфографічного тексту слова пере-
ходимо до однієї чи декількох фонетичних йо-
го транскрипцій. Далі, виходячи з фонетичних
транскрипцій слова, складаємо його прототипи
шляхом об’єднання у послідовності відповід-
них прототипів фонем-трійок. При розпізна-
ванні пред’явлена реалізація слова порівнюєть-
ся з перетворюваними прототипами його. При
перетвореннях прототипів слова зберігається
порядок послідовності форм-елементів прото-
типу та варіюється в дозволених межах повто-
рюваність форм-елементів.
Процес порівняння та пошук найкращої мі-
ри схожості реалізується методами динамічно-
го програмування. Розпізнавана реалізація від-
носиться до того слова, перетворений прото-
тип якого дав найбільшу інтегральну схожість
з розпізнаваним сигналом.
Аналогічно розглядаємо орфографічні тек-
сти речень, їх фонетичні еквіваленти, а також
творимо прототипи речень із прототипів слів
та розглядаємо їх допустимі перетворення. Як
і у випадку розпізнавання окремо вимовле-
них слів, процес перебору допустимих речень
і можливих границь між словами досягаєть-
ся методами динамічного програмування.
Відповіддю розпізнавання злитого мовлення
є те допустиме речення, перетворений про-
тотип якого виявився найбільш схожим з
пред’явленим для розпізнавання сигналом
мовлення. Найбільш простою задачею є роз-
пізнавання злитого мовлення у випадку віль-
ного порядку слів. Коли ж врахувати не тільки
лексику, а й синтаксис та семантику мовлен-
ня, то на порядок слів накладаються додаткові
обмеження. У цьому випадку процеси розпіз-
навання ускладнюються, вимагають великих
обсягів пам’яті та швидкодії комп’ютерів.
Найбільш складною є задача смислової ін-
терпретації злитого мовлення. В межах фіксо-
ваної предметної області необхідно конструк-
тивно задати структури, які породжують всі до-
пустимі послідовності слів, що виражають один
і той самий смисл, і це потрібно робити для
всіх смислів, які можуть передаватись в межах
предметної області. Для цього пропонується
ієрархічна структура автоматних породжуваль-
них граматик. На вищому рівні ієрархії генеру-
ються всі можливі допустимі речення та тексти,
що виражають один й той самий смисл, для всіх
можливих при діалозі передаваних смислів.
Далі, опускаючись на нижчі рівні ієрархії та
звертаючись до бази фонемних знань, для кож-
ного з допустимих речень згідно фонетичних
текстів та транскрипцій слів синтезуються до-
пустимі модельні сигнали злитого мовлення.
Ці сигнали складаються з модельних сегментів
фонем-трійок. Синтезовані модельні сигнали
порівнюються з розпізнаваним сигналом, ре-
зультат порівняння використовується як зво-
ротний зв’язок для генерації та направленого
пошуку перетворених модельних сигналів, які
є найбільш схожими з розпізнаваним сигналом
в межах предметної області. Ці найбільш схожі
модельні сигнали далі аналізуються: з’ясову єть-
ся, яким послідовностям слів вони відповіда-
ють, і який зміст ці послідовності передають.
Базовою технікою для обчислень залиша-
ється те ж динамічне програмування, яке стає
багатоступеневим, ієрархічним. У процесі
смис ло вої інтерпретації на мовному рівні ви-
користовуються спискові структури, напри-
клад LISP-струк ту ри, на рівні мовлення та на
акустичному рівні — бази знань щодо фо нем-
трійок. Запропонована методика орієнтована
на використання індивідуального файлу мов-
лення (бази знань щодо фонем-трійок), який
формується в режимі нав чан ня-са мо нав чан ня
ISSN 0130-5395, УСиМ, 2018, № 6 15
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
розпізнаванню мовлення за мовленнєвою на-
вчальною вибіркою.
Обговорювана техніка аналізу, розпізнаван-
ня та смислової інтерпретації мовлення потре-
бує солідної комп’ютерної підтримки — кіль-
кох гігабайтів оперативної пам’яті та сотень
мегафлопсів швидкодії.
Автоматичний
синтез мовлення за текстом
Ця проблема є зворотною відносно розпізна-
вання. За експертними оцінками, вона є прості-
шою, ніж розпізнавання відносно 10 : 1, 100 : 1,
а то й 1000 : 1. При синтезі мовлення вже не є
такою гострою проблема врахування розмаїття
сигналів мовлення, і на передній план виходять
аспекти моделювання індивідуальності синте-
зованого мовлення, надання йому натуральнос-
ті та якості звучання.
Для моделювання синтезу індивідуального
мовлення за текстом скористаємось індивіду-
альним файлом фонем-трійок, сформованим
на підставі навчальних вибірок диктора в ре-
жимі навчання розпізнаванню.
Вхідний текст для синтезу мовлення відріз-
няється від звичайного орфографічного тексту
тим, що в ньому додатково розставлені наго-
лоси (сильні «—» або слабкі «+») в словах або
синтагматичні розділові знаки . | , |_ | : | ; | ! | )
|?|„|..|.
Приклад вхідного тексту:
До-брий де-нь! З Ва-ми гово-рить маши-на.
Віта-ю Ва+с.
До+брий де-нь: 3 Ва-ми гово-рить маши-
на. Бу-дьте здоро-ві! Ха-й Ва+м щасти-ть. Учі-
теся, брати-мої+.
Далі вхідний текст за допомогою автома-
тичного транскриптора трансформується у
фонемний текст із фонетичних слів (слово
чи сукупність кількох слів, об’єднаних одним
сильним наголосом). При цьому, наприклад,
прийменники приєднуються до наступних слів
і утворюють із ними єдині фонетичні слова. У
свою чергу, фонемний текст розбивається на
синтагми (інтонаційно об’єднані послідовнос-
ті слів), а кожна синтагма — на ритмогрупи (це
підпослідовність з фонетичних слів, серед яких
тільки одне слово з сильним наголосом).
Приклад фонемного тексту:
# До+брий де-нь: ### Зва-ми гово-рить
маши-на.
## Бу-дьте здоро-ві! ## Ха-й ва+м шчасти-ть.
### Учі-тесьа, брати- мойі+.
В цьому тексті шість синтагм (символом #
позначена фонема-пауза): перша-синтагма «#
До+брий де-нь:» складається з однієї ритмо-
групи «# До+брий де-нь»; друга синтагма «###
Зва-ми гово-рить маши-на.» має три ритмо-
групи «### Зва-ми», «гово-рить» і «маши-на»;
третя синтагма «## Бу-дьте здоро-ві!» склада-
ється з двох ритмогруп «## Бу-дьте» і «здоро-
ві»; четверта синтагма — з двох ритмогруп
«Ха-й ва+м» і «шчасти-ть», п’ята синтагма
«### Учі-тесьа,» — з однієї ритмогрупи «###
Учі-тесьа»; шоста синтагма «брати- мойі+.» —
також з однієї ритмогрупи.
Поняття синтагми та ритмогрупи викорис-
товуються модулями ритміки та інтонування.
Модуль ритміки обчислює ко ефі ці єн ти-множ-
ни ки збільшення-зменшення «стан дарт ної»
дов жи ни-три ва лос ті для кожної фонеми-трій-
ки, яка використовується в даному фонемному
контексті, що озвучується. Ко ефі ці єн ти-множ-
ни ки визначаються про це ду ра ми-функ ція ми,
які залежать від поточної фонеми, що розгляда-
ється в поточному оточенні з сусідних фонем,
від її позиції в фонемному слові, в ритмогрупі,
в синтагмі, від типу синтагми, який визначаєть-
ся розділовим знаком, а також від місця фоне-
ми в слові відносно наголошеної голосної. За
окремими правилами обчислюється значення
коефіцієнта-множника для фонем — наголо-
шених голосних. Найбільш поширений спосіб
задання-опису ритмічних правил — логіко-
табличні база знань і процедура обчислень.
В модулі інтонування або, як його інакше
називають, просодики та енергетики, обчис-
люються поточні значення періоду основного
тону — для дзвінких фонем, а також ко ефі ці-
єн ти-множ ни ки збільшення-зменшення інтен-
сивності кожної поточної фор ми-еле мен та в
прототипі розглядуваної фо не ми-трій ки й з ура-
хуванням «рекомендованого» модулем ритміки
16 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
збіль шен ня-змен шен ня тривалості прототипа
фо не ми-трій ки в даному контексті. Інтонаційна
база знань має 30 типових інтонаційних конту-
рів: 10 типів синтагм, по три типи ритмогруп на
кожну синтагму. В кожній синтагмі розрізняють
три типи ритмогруп: ядерна ритмогрупа (для
українського мовлення вона за замовчуванням
останньою в синтагмі), перед’ядерна ритмогру-
па й початкова ритмогрупа, яка є першою в син-
тагмі. Якщо в синтагмі тільки одна ритмогрупа,
то вона завжди є ядерною, якщо дві, то перша
є початковою, а друга — ядерною. Типові інто-
наційні контури «розігруються» на ритмогру-
пах: вибирається один контур за типом поточної
синтагми і типом поточної ритмогрупи.
Кожний інтонаційний контур задається шість-
ма числами-коефіцієнтами, які вказують на
відносне збільшення мінімальної частоти осно-
вного тону (або зменшення його максимально-
го періоду). Шість чисел інтонаційного контуру
визначають кусочно-лінійну (без розривів) змі-
ну частоти основного тону для всієї довжини
ритмогрупи, яка скоригована модулем ритміки:
перший сегмент ламаної належить до перед’ядра
ритмогрупи, другий, третій та четвертий сегмен-
ти — до ядра ритмогрупи, яким є сильнонаголо-
шена фонема в ритмогрупі (з «—»-наголосом),
п’ятий — до післяядра ритмогрупи.
Фонетичний транскриптор, модулі ритміки
та інтонування є загальними для розглядуваної
мови-мовлення, індивідуальними є акустичні
бази знань про прототипи фонем-трійок.
Результати роботи фонетичного транскрип-
тора, модулів ритміки та інтонування «апе-
люють» до бази знань про прототипи фонем-
трійок певного диктора, голос котрого виріше-
но синтезувати.
Синтез мовлення ведеться посинтагменно,
ритмогрупа за ритмогрупою, фонемне слово за
фонемним словом, фонема —за фонемою. Для
кожної поточної фонеми і її оточення вибира-
ється відповідний прототип фонеми-трійки.
Кожна чергова форма-елемент цього прототи-
пу зчитується з бази знань, визначається кіль-
кість повторень цієї форми-елемента (згідно
«вказівок» модуля ритміки), обчислюється ін-
тенсивність та тривалість (періоду основного
тону для дзвінких фонем) кожного повторення
цієї ж форми-елемента (згідно корекцій моду-
ля інтонування), і далі утворювані в такий спо-
сіб «повторювані» й скориговані за тривалості
та інтенсивності форми-елементи прототипу
фонеми-трійки один за одним, у стик, переда-
ються через цифроаналоговий перетворювач
на динамік, де фізично озвучуються.
Апеляція до індивідуальної бази знань з
прототипів-трійок диктора дозволяє надавати
синтезованому мовленню достатні розбірли-
вість і якість звучання, моделювати бажану ін-
дивідуальність мовлення.
За автоматичного синтезу мовлення повною
мірою використовують лінгвістичні, фонетич-
ні, акустичні наукові знання про національну
мову та мовлення.
Прикладні розробки
Дещо про використання комп’ютерних систем
і технологій, які базуються на автоматичному
розпізнаванні та синтезі мовлення. Про реалі-
зовані або можливі використання цих засобів
багато сказано в науково-технічній літературі.
У 2000—2010 рр. у Міжнародному науково-
навчальному центрі інформаційних технологій
та систем в межах ДНТП “Образний комп’ютер”
розроблено портативні пристрої усномовної
інформатики. В їх числі: засоби усного діалогу
для комп’ютерів і АРМ на їх основі, автома-
тичний фонетичний стенограф (рис. 4), усні
словники-перекладачі, в тому числі з україн-
ської і на українську (рис. 5), цифровий дикто-
фон з голосовим управлінням (рис. 6).
Інші приклади використання мовленнєвих
тех но логій це — автоматичний друк та реда-
гування текстів під диктування, усномовні до-
від ни ко во-інформаційні системи, годинники
та ваги, що говорять, управління телевізором
за допомогою голосу, усномовні комп’ютерні
технології навчання тощо.
Стенограф записує мовленнєві сигнали фо-
нетичними транскрипціями (перетворення
звук—текст).
Перекладач виконує усний переклад з укра-
їнської мови на англійську в межах обраної
ISSN 0130-5395, УСиМ, 2018, № 6 17
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
предметної області. Після вимовляння корис-
тувачем українською мовою слова або фрази
результат автоматичного розпізнавання та пе-
рекладу озвучується українською і/або англій-
ською. Є макетний пристрій на 300 слів/фраз
на основі мікропроцесора цифрового обро-
блення сигналів (ЦОС) ADSP-2188N. В базово-
му пристрої використовується мікропроцесор
ЦОС типу BF561, який за своїми технічними
характеристиками дає можливість оперувати
словниками до 10 тис. слів і більше.
Вокофон виконує функції запису та відтво-
рення аудіоінформації, іменування та розмітка
інформації, що записується, пошук інформації
за ключовими словами, вимовленими користу-
вачем, виконуються в режимі керування голо-
сом. Є макетний пристрій на основі мікропро-
цесора цифрового оброблення сигналів (ЦОС)
ADSP-2188N.
Слід звернути особливу увагу на можливість
організації комп’ютерної допомоги людям
з вадами зору та слуху у зв’язку з реалізацією
автоматичного аналізу, розпізнавання, розу-
міння та синтезу мовлення. Окрім «банально-
го» автоматичного перетворення в текст, який
читається-сприймається глухими людьми, ак-
туальним є перетворення мовленнєвого сигна-
лу в зображення, які «читаються» людьми, або
які перетворюють текст (автоматично читають
текст) в мовлення та «портрет-говорун», що
сприймаються людьми з вадами слуху [32].
Технології автоматичного розпізнавання та
синтезу мовлення за текстом — де засоби ком-
п’ю тер ної допомоги для сліпих. Тексти, що
висвічуються на моніторі комп’ютера, пере-
хоплюються синтезатором мовлення, і незряча
людина чує-«бачить» текст; клавіші, які він на-
тискає, «називають себе голосом»; комп’ютер
«читає синтезованим і бажаним голосом» елек-
тронну книгу, а на моніторі синхронно з мов-
ленням жестикулює «портрет-говорун». Усе ж
найбільшу допомогу згадувані засоби надають
при навчанні дітей з названими проблемами.
Засоби автоматичного розпізнавання та син-
тезу мовлення особливо ефективні тоді, коли
вони використовуються в комплексі з іншими
засобами людино-машинної взаємодії (графіч-
ної, за допомогою зображень, малюнків тощо).
Сьогодення
Упродовж останнього десятиліття в загальних
теоретичних підходах спостерігається певна
збалансованість генеративних і дискриміна-
тивних моделей. Трансд’юсерне представлен-
ня дало змогу узагальнити методи комбіну-
вання генеративних моделей і їх оптимізації,
що привело до краще обґрунтованих і більш
гнучких конструкцій систем розпізнавання.
Рис. 4. Автоматичний фонетичний стенограф Рис. 5. Портативний ус-
ний словник-перекладач
Рис. 6. Вокофон
18 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
Поширилось застосування багатошарового
пер цептрона в межах підходу, відомого як Deep
Learning або DNN, для апроксимації в просто-
рі вторинного опису сигналу областей, від-
повідних формам-елементам [33]. Хоч такий
метод і не дає прямої можливості проводити
процедури адаптації на голос диктора, на від-
міну від сумішей нормальних законів (GMM),
він має певні теоретичні переваги (наприклад,
не схильний до локальності), а системи з ви-
користанням поєднання GMM/DNN демон-
струють помітне поліпшення надійності роз-
пізнавання
Намітилась тенденція використання не ли ше
слів, а і класів еквівалентності слів, що представ-
ляють поняття, які певною мірою узагальнюють
семантичні, синтаксичні та фонетичні власти-
вості слів. Це дає змогу генерувати осмислені
еталонні тексти в процесі розпізнавання зі зна-
чною економією оперативної пам’яті.
Новітні прикладні системи характеризу-
ються охопленням більш розмаїтих сигналів
мовлення, ширшої лексики, прогнозуванням
знаків пунктуації, виокремленням метаданих
і моделюванням реальної багатомовності. При
створенні експериментальних систем поруч із
Рис. 7. Результат перетворення відеоза-
пису на текст, починаючи з 19 сек., від-
творений у браузері
Рис. 8. Моніторинг каналу телебачення.
Текст, який вважається системою ук ра-
їнськомовним, від творено великими лі-
терами
ISSN 0130-5395, УСиМ, 2018, № 6 19
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
реалізаціями власних методів і алгоритмів ви-
користовується інструментальні засоби, роз-
роблені міжнародною спільнотою та надані у
відкритий доступ [29, 30]. Архітектура систем
базується як на використанні ПК, так і на пор-
тативних пристроях (планшетах, смартфонах)
та в “хмарі” на основі віддаленої взаємодії
клієнт-сервер.
На сучасному етапі розвиваються певні тех-
нології та системи.
Серія досліджень, сконцентрованих на по-
глибленому аналізі окремих рівнів ієрархії мов-
леннєвих образів, дала змогу краще моделювати
такі особливості української мови, як відносно
вільний порядок слів і високу флективність, і
створити експериментальні системи розуміння
спонтанного мовлення та усного перекладу в
межах предметних областей [34, 35].
Система автоматизації стенографування фо-
нограм засідань (2008) вперше продемонстру-
вала доцільність використання автоматичного
перетворення мовлення на текст для створення
стенограм [36].
Автоматизація замовлення квитків (2010) за-
безпечує розпізнавання початкового та кінце-
вого пункту відправлень, дати, кількості та типу
квитків, здійснює голосові пояснення у діалозі та
підтвердження замовлення [37].
Система диктування Диригент (2012) дає змо-
гу вводити інформацію в комп’ютер голосом
через мікрофонну гарнітуру в реальному часі,
харак-теризується взаємодією з користувачем,
покриває до 95 відсотків лексики [38].
Система WebSten (2015) перетворює довіль-
ні досить якісні записи спонтанного мовлен-
ня на текст [39]. У найновіших модифікаціях
послівна надійність складає 70—90 відсотків
залежно від наявності зокрема, шумів, за-
вад, а також більше однієї мови (рис. 7 і 8).
Пропонується як веб-сервіс з можливістю ре-
дагування тексту.
Експериментальна система моніторингу те-
лерадіоефіру MediaAudit (2015) забезпечує біль-
ше 90 відсотків релевантності знайдених сюже-
тів, підтримує використання шаблонів під час
пошуку, дає змогу прослуховувати аудіозаписи
синхронно з розпізнаним текстом [39, 40].
Підсистему розпізнавання дикторів за голо-
сом (з 2017) створено на основі моделювання
індивідуальних особливостей мовця. З її ви-
користання визначаються метадані: хто гово-
рить із відомих системі осіб, моменти переходу
черги говорити до іншої людини. Реалізовано
на ПК, портативному пристрої та в архітектурі
клієнт-сервер [39].
Технологія, зворотна розпізнаванню мо-
ви — синтез мови за текстом — початково ре-
алізована в системі «Текстофон» [31]. Вона за-
безпечує озвучення довільних україномовних
текстів. Доступні чоловічий і жіночий голоси,
можливо регулювання швидкості відтворен-
ня мови. Висока натуральність і розбірливість
досягається шляхом обробки великих обсягів
записів диктора. Встановлюється на ПК або
сервер [39].
Перспективи розвитку
Завдяки стрімкому розвитку технологій в ос-
тан ні роки з’явилися перспективи вирішення
складніших задач, таких як розпізнавання мов-
лення в шумах, автоматичне стенографування
засідань та моделювання усного діалогу між
людиною і комп’ютером. Пропонуємо й надалі
розвивати напрямок функційного моделюван-
ня інтелектуальної, головне підсвідомої, діяль-
ності людини та всього живого, що пов’язане
зі сприйняттям слухових образів.
Висновки
Повне розв’язання задачі розуміння мов лен-
нє во го сигналу рівносильне створенню ком-
п’ю те рів настільки ж інтелектуальних, як і
людина. Вченими НАН України зроблено ва-
гомий внесок у світовий розвиток галузі роз-
пізнавання, розуміння та синтезу звукових
образів.
За останні десятиліття в мовленнєвих тех-
нологіях здійснено значний прогрес завдяки
збільшенню потужності обчислювальних ре-
сурсів. Досягнуте підвищення робастності для
окремих завдань у розпізнаванні значно на-
близило рівень сприйняття мови комп’ютером
до людського.
20 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
СПИСОК ЛІТЕРАТУРИ
1. Винцюк Т.К Анализ, распознавание и интерпретация речевых сигналов, Киев: Наук. думка, 1987б 264 с.
2. Винцюк Т.К. Сравнительный теоретический анализ ИКДП- и НММ-методов рпспознавания речи,
Автоматическое распознавание слуховых образов: Тез. докл. 15-го Всесоюз. Семинара, Таллинн : Ин-т кибе-
риетики АН Эстонии, 1989, С. 18—24.
3. Винцюк Т.К, Гаврилюк О.Н., Пучкова II.Г. Алгоритми распознавания слов и фраз и результаты их моделирова-
ния, Автоматическое распознавание слуховых образов: Тр. 8-го Всесоюз. Семинара, Львов : Изд-во Львовского
ун-та, 1974, Ч. 3, с. 33—37.
4. Винцюк Т.К., Гаврилюк О.Н., Куляс А.И., Шинкаж А.Г. Система реального времени для распознавания слов и
слитной речи, Автоматическое распознавание слуховых образов. Тбилиси: Мецпиереба, 1978, с. 176—178.
5. Винцюк Т.К,, Лобанов Б.М., Шинкаж А.Г. Система распознавания речи и система усного диалога СРД «Речь»
на основе микро ЭВМ, Автоматическое распознавание образов, Киев: ИК АН УССР, 1982, С. 516—521.
6. Vintsiuk Т.К. Speech Dialogue Systems of the RECH Series , Proc. First Intern. Conf. on Information Technology for
Image Analysis and Pattern Recognition, Lviv, 1990, Vol. 1, р. 367—370.
7. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования, Кибернетика,
1968, № 1, с. 81—88.
8. Винцюк Т.К. Поэлементное распознавание непрерывной речи, составленной из слов заданного словаря, Там
же, 1971, № 2, с. 133—143.
9. Вінцюк Т.К. Пофонемне розпізнавання зв’язної мови. Вихідні передумови і постановка задачі, Автоматика,
1972, № 6, с. 40—49.
10 Вінцюк Т.К. Пофонемне розпізнавання зв’язної мови. Алгоритми розпізнавання, навчання та самонавчання,
Там же, 1973, № 1, с. 63—72.
11. Винцюк Т.К. Проблема автоматического понимания речи, Распознавание образов, Киев : ИК АН УССР, 1977,
с. 28—34.
12. Винцюк Т.К. Обучение поэлементному распознаванию речи, Распознавание образов и конструирование чита-
ющих автоматов, 1969, Вып. 2, с. 23—35.
13. Винцюк Т.К Алгоритм определения эталонных элементов слова по совокупности его реализаций, Тр. Акуст.
ин-та, 1970, Вып. 12, с. 163—168.
14. Винцюк Т.К Распознавание ограниченного набора речевых сигналов, Распознавание образов и конструирова-
ние читающих автоматов, 1966, Вып. 1, с. 135—149.
15. Биатов KM., Винцюк Т.К. Система смысловой интерпретации слитной речи, Автоматическое распознавание
слуховых образов 1982, Киев : ИК АН УССР, 1982, с. 365—368.
16. Lienard J.S. Le processus de la communication parlee, Paris etc.: Masson, 1977, 190 p.
17. Bridle J.S., Brown M.D., Chamberlain R.M. Continuous Connected Word Recognition using Whole Word Templates,
The Radio and Electronic Eng., 1983, 53, № 4, р. 167—175.
18. Ney H. Dynamic Programming as a Technique for Pattern Recognition, Proc. 6th Intern. Conf. on Pattern Recognition,
Munich, 1992, р. 1119—1125.
19. Levinson S.E. Structural Methods In Automatic Speech Recognition, Proc. of the IEEE, 1985, 73, №11, р. 1625—1650.
20. Tscheschner W. Probleme der automatischen Sprachverarbeitung aus heutiger Sich, Nachrichtentechnik, Electronic,
1979, 29, № 1,р. 26—29.
21. Винцюк Т.К. Распознавание некоторых классов речевых сигналов: Автореф. дисс. канд. техн. Наук, Киев, ИК
АН УССР, 1967, 24 с.
22. Винцюк Т.К Смысловая интерпретация пословно произносимых фраз в СРД «Речь-1001», Автоматическое
распознавание слуховых образов, Каунас, 1986, 4.1, с. 15—116.
23. Final Report on the UNESCO Contract SC/RP 261060.8 «Development of the Multilingual (including English, Russian
languages) Speech Dialogue System for Micro-Computer», Kyjiv : Institute of Cybernetics, 1988, 97 p.
24. Свідчення досягнень радянської науки (Інформація ТАРС із Парижу), Рад. Україна, 17 грудня 1987 року.
25. Система речевого диалога СРД «Речь-4» для микроЭВМ «Поиск-2» (Отчет о НИР), Киев : ИК АН УССР,
1990, 171 с.
26. L. Rabiner, B.-H. Juang. Fundamentals of speech recognition. Prentice-Hall Int., 1993.
27. Sadaoki Furui. 50 years of progress in speech and speaker recognition. In Proc. of 10th Int. Conf. “Speech and
Computer”, Patras, Greece, 2005, p. 1—9.
28. Daniel Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing,
Computational Linguistics and Speech Recognition. (2nd edition, 2014)
29. Gales M., Young S. “The Application of Hidden Markov Models in Speech Recognition.” Foundations and Trends in
ISSN 0130-5395, УСиМ, 2018, № 6 21
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
Signal Processing, 2007, 1(3), p. 195—304.
30. Povey D. “The Kaldi Speech Recognition Toolkit”, Povey D., Ghoshal A., Boulianne G. et. al, IEEE 2011 Workshop on
Automatic Speech Recognition and Understanding.
31. Вінцюк Т., Людовик Т., Сажок М., Селюх Р. Автоматичний озвучувач українських текстів на основі фонемно-
трифонної моделі з використанням природного мовного сигналу, Праці 6-ї Всеукраїнської міжнародної кон-
ференції “Оброблення сигналів і зображень та розпізнавання образів” — УкрОбраз’2002, Київ, 2002.
32. Крак Ю, Вінцюк Т, Кириченко М., Гаращенко Ф., Бармак О. Розробка комп’ютерних технологій моделювання та
керування візуальними образами людського обличчя при синтезі мовлення, Мат-ли Шостої Всеукр. міжнар.
конф. «Оброблення сигналів і зображень та розпізнавання образів» (УКРОБРАЗ’2002), 8—12 жовтня 2002р.,
Київ: Видання УАОІРО,2002, с. 23—26.
33. Dahl G., Dong Yu, Li Deng, Acero A. “Context-Dependent Pre-Trained Deep Neural Networks for Large Vocabulary Speech
Recognition”, IEEE Trans. Speech and Audio Proc., Special Issue on Deep Learning for Speech Processing, 2011.
34. N. Vasylieva, M. Sazhok, T.Vintsiuk, G.Chollet. Acoustic-Phonetic Model Application for Syllable Speech Recognition
Output Post-Processing. Proceedings of the 12th International Conference SpeCom’2007, Moscow, 2007, pp. 182—187.
35. Mykola Sazhok, Valentyna Yatsenko, Taras Vintsiuk. Interpretation of Continuous Ukrainian Pronunciation for Spoken
Dictionary-Interpreter. — Proceedings of the 12th International Conference on Speech and Computer — SpeCom’2007,
Moscow, 2007, pp. 170—175.
36. Пилипенко В.В., Робейко В.В. Автоматизированный стенограф украинской речи, Искусственный интеллект.
Донецк: 2008. № 4.
37. Пилипенко В.В., Биднюк С.А., Селюх Р.А., Пилипенко А.В. Построение сценариев формализованного устного
диалога на примере заказа билетов на железнодорожные поездаУСиМ, 2013, № 4, с. 71—75.
38. Sazhok М., Robeiko V., Fedoryn D. Distinctive features for Ukrainian real-time speech recognition system, Мат-ли
XII Всеукр. міжнар. конф. «Оброблення сигналів і зображень та розпізнавання образів» (УКРОБРАЗ’2014),
2014 р., Київ: Видання УАОІРО, 2014.
39. Сажок Н.Н. Речевые информационные технологии и системы, УСиМ, 2017, № 2, с. 38—45.
40. Сажок Н. Н., Робейко В.В., Федорин Д.Я., Селюх Р.А. Система преобразования телерадиовещания в текст для
украинского языка, УСиМ, 2015, № 6, с. 66—73.
Стаття надійшла 05.12.2018
REFERENCE
1. Vintsiuk T.K. Analysis, recognition and interpretation of speech signals, Kiev: Nauk. dumka, 1987, 264 p (In Russian).
2. Vintsiuk T.K. “Comparative theoretical analysis of ICDP and HMM methods of speech recognition”, Automatic recog-
nition of auditory images: Proc. report 15th All-Union. Workshop, Tallinn: Institute of Cybernetics, Estonian Academy
of Sciences, 1989, pp. 18—24 (In Russian).
3. Vintsiuk T.K., Gavrilyuk ON, Puchkova II.G. “Algorithms for the recognition of words and phrases and the results of
their simulation”, Automatic recognition of auditory images: Tr. 8 All-Union. Seminar, Lviv: Publishing House of Lviv
University, 1974, Part 3, pp. 33—37 (In Russian).
4. Vintsiuk T.K., Gavrilyuk O.N., Kulyas A.I., Shinkazh A.G. “Real-time system for word recognition and continuous
speech”, Automatic recognition of auditory images. Tbilisi: Metspiereba, 1978, pp. 176—178 (In Russian).
5. Vintsiuk T.K., Lobanov B.M., Shinkaz A.G. “Speech recognition system and oral dialogue system SRD “RECH” on the
Basis of a Micro Computer”, Automatic Pattern Recognition, Kiev: EC of the Ukrainian SSR, 1982, pp. 516—521 (In
Russian).
6. Vintsiuk T.K. “Speech Dialogue Systems of the RECH Series”, Proc. First Intern. Conf. on Information Technology for
Image Analysis and Pattern Recognition, Lviv, 1990, Vol. 1, pp. 367—370.
7. Vintsiuk T.K. “Speech recognition by dynamic programming methods”, Cybernetics, 1968, 1, pp. 81—88.
8. Vintsiuk T.K. “Item-by-element recognition of continuous speech made up of words from a given vocabulary”,
Cybernetics, 1971, 2, pp. 133—143 (In Russian).
9. Vintsiuk T.K. “Phoneme recognition of coherent language. Initial prerequisites and problem statement”, Automation,
1972, 6, pp. 40—49 (In Ukrainian).
10. Vintsiuk T.K. “Phoneme recognition of coherent language. Recognition, learning and self-learning algorithms”.
Automation, 1973, 1, pp. 63—72 (In Ukrainian).
11. Vintsiuk T.K. “The problem of automatic speech understanding, Pattern Recognition”, Kiev: EC of the Ukrainian
Academy of Sciences, 1977, pp. 28—34 (In Russian).
22 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
12. Vintsiuk T.K. “Learning element-by-speech recognition, Pattern Recognition and Design of Reading Automata”, 1969, 2,
pp. 23—35 (In Russian).
13. Vintsyuk T.K. “Algorithm for determining the reference elements of a word from the totality of its realizations”, Tr.
Acoustic inst., 1970, 12, pp. 163—168 (In Russian).
14. Vintsyuk T.K. “Recognition of a limited set of speech signals, Pattern recognition and design of reading machines”,
1966, 1, pp. 135—149 (In Russian).
15. Biatov K.M., Vintsiuk T.K. “System of semantic interpretation of continuous speech”, Automatic recognition of audi-
tory images 1982, Kiev: IC of the Ukrainian Academy of Sciences, 1982, pp. 365—368 (In Russian).
16. Lienard J.S. “Le processus de la communication parlee”, Paris etc.: Masson, 1977, 190 p.
17. Bridle J.S., Brown M.D., Chamberlain R.M. “Continuous Connected Word Recognition using Whole Word Templates”,
The Radio and Electronic Eng., 1983, 53, 4, pp. 167—175.
18. Ney H. “Dynamic Programming as a Technique for Pattern Recognition”, Proc. 6th Intern. Conf. on Pattern Recognition,
Munich, 1992, pp. 1119—1125.
19. Levinson S.E. “Structural Methods In Automatic Speech Recognition”, Proc. of the IEEE, 1985, 73, 11, pp. 1625—1650.
20. Tscheschner W. “Probleme der automatischen Sprachverarbeitung aus heutiger Sich”, Nachrichtentechnik, Electronic,
1979, 29 (1), pp. 26—29.
21. Vintsiuk T.K. Recognition of certain classes of speech signals: author. diss. Cand. tech. Sciences, Kiev, IC of the Academy
of Sciences of the USSR, 1967, 24 p.
22. Vintsiuk T.K. “Semantic interpretation of word-by-word phrases in the RDS “Speech-1001”, Automatic recognition of
auditory images, Kaunas, 1986, 4.1, pp. 15—16 (In Russian).
23. Final Report on the UNESCO Contract SC/RP 261060.8 «Development of the Multilingual (including English, Russian
languages) Speech Dialogue System for Micro-Computer», Kyiv : Institute of Cybernetics, 1988, 97 p.
24. An indication of the achievements of Soviet science (Information TARS iz Parizhu), Rad. Ukraine, December, 17 1987.
(In Ukrainian).
25. The system of speech dialogue of the SRD “Speech-4” for the Poisk-2 microcomputer (Research Report), Kiev: EC of
the Ukrainian Academy of Sciences, 1990, 171 p (In Russian).
26. L. Rabiner, B.-H. Juang. Fundamentals of speech recognition. Prentice-Hall Int., 1993.
27. Sadaoki Furui. “50 years of progress in speech and speaker recognition”. In Proc. of 10th Int. Conf. “Speech and
Computer”, Patras, Greece, 2005, pp. 1—9.
28. Daniel Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing,
Computational Linguistics and Speech Recognition. (2nd edition, 2014)
29. Gales M., Young S. “The Application of Hidden Markov Models in Speech Recognition.” Foundations and Trends in
Signal Processing, 2007, 1(3), pp. 195—304.
30. Povey D., Ghoshal A., Boulianne G. et. al, “The Kaldi Speech Recognition Toolkit”, IEEE 2011, Workshop on Automatic
Speech Recognition and Understanding, 2011.
31. Vintsyuk T., Lyudovyk T., Sazhok M., Selyukh R. “The automatic speaker of Ukrainian texts on the basis of a pho-
neme-trifon model using the natural speech signal”. Proceedings of the 6th All-Ukrainian International Conference
“Processing Signals and Images and Pattern Recognition” - UkrObraz ‘ 2002, Kyiv, 2002. (In Ukrainian).
32. Krak Yu, Vintsyuk T, Kirichenko M., Garaschenko F., Barmak O. “Development of computer technologies for model-
ing and controlling visual images of a human face in the synthesis of speech”, Mat-ly of the Sixth Allukr. international
conf. “Processing of Signals and Images and Pattern Recognition” (UKROBRAZ’2002), October 8—12, 2002, Kyiv:
Publications of UaIROO, 2002, pp. 23-26 (In Ukrainian).
33. Dahl G., Dong Yu, Li Deng, Acero A. “Context-Dependent Pre-Trained Deep Neural Networks for Large Vocabulary Speech
Recognition”, IEEE Trans. Speech and Audio Proc., Special Issue on Deep Learning for Speech Processing, 2011.
34. Vasylieva N, Sazhok M., Vintsiuk T., Chollet G. “Acoustic-Phonetic Model Application for Syllable Speech Recognition
Output Post-Processing”. Proceedings of the 12th International Conference SpeCom’2007, Moscow, 2007, pp. 182—187.
35. Sazhok M., Yatsenko V., Vintsiuk T. “Interpretation of Continuous Ukrainian Pronunciation for Spoken Dictionary-
Interpreter”. Proceedings of the 12th International Conference on Speech and Computer – SpeCom’2007, Moscow,
2007, pp. 170-175.
36. Pilipenko V.V., Robeiko V.V. Automated stenographer of Ukrainian speech, Artificial Intelligence. Donetsk: 2008, 4 (In
Russian).
37. Pylypenko V.V., Bidnyuk S.A., Selyukh R.A., Pylypenko A.V. Formalized Scenarios Building for Speech Dialog Systems
on the Example of a Ticket Train Service, Upravlausie sistemy i masiny, 2013, 4, pp. 71—75 (In Russian).
38. Sazhok M., Robeiko V., Fedoryn D. Distinctive features for Ukrainian real-time speech recognition system, Proceedings
of XII Vseukr. international conf. “Processing signals and images and image recognition » (UKROBRAZ), 2014., Kyiv:
Vydannya UAOIRO, 2014.
ISSN 0130-5395, УСиМ, 2018, № 6 23
Автоматичне розпізнавання, розуміння та синтез мовленнєвих сигналів в Україні
39. Sazhok M.M. “Speech information technologies and systems”, Upravlausie sistemy i masiny, 2017, 2, pp. 38—45 (In
Russian).
40. Sazhok N.N., Robeiko V.V., Fedoryn D.Ya., Selyukh R.A. “Broadcast Speech-to-Text System for the Ukrainian Language”.
Upravlausie sistemy i masiny, 2015, 6, pp. 66—73 (In Russian).
Received 05.12.2018
Тaras Vintsuk, Doctor of Technical Sciences, Professor, Head of the Department,
International Research and Training Center for Information Technologies
and Systems of the NAS and MES of Ukraine, Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
Mykola Sazhok, PhD in Techn. Sciences, Head of the Department,
International Research and Training Center for Information Technologies
and Systems of the NAS and MES of Ukraine, Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
sazhok@gmail.com
Ruslan Selyukh, researcher, International Research and Training Center
for Information Technologies and Systems of the NAS and MES of Ukraine,
Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
vxml12@gmail.com
Dmytro Fedoryn, researcher, International Research and Training Center
for Information Technologies and Systems of the NAS and MES of Ukraine,
Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
dmytro.fedoryn@gmail.com
Oleksandr Yukhymentko, researcher, International Research and Training Center
for Information Technologies and Systems of the NAS and MES of Ukraine,
Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
enomaj@gmail.com
Valentyna Robeiko, researcher, International Research and Training Center
for Information Technologies and Systems of the NAS and MES of Ukraine,
Academician Glushkov ave., 40, Kyiv, 03187, Ukraine
valya.robeiko@gmail.com
AUTOMATIC RECOGNITION, UNDERSTANDING
AND SYNTHESIS OF SPEECH SIGNALS IN UKRAINE
Introduction. Speech is the most convenient, habitual, accessible and fast mean of communication between people and,
therefore, is the most suitable for communication between human beings and machines. This makes topical the capability to
develop automatic speech recognition and synthesis systems for the national science, technology and culture.
Purpose. The purpose is to analyze the state and outline the main ways of solving the problems of automatic recogni-
tion, understanding and synthesis for Ukrainian speech and spoken translation from Ukrainian Sign Language to Ukrai-
nian language.
Methods. Modeling the spoken intellectual human activity using the analysis-by-synthesis approach accomplished with
the experimental research and approbation in real application conditions.
Results. Methods and algorithms proposed and adapted to the specific hardware/software platforms allow the speech
information systems developing meeting the growing expectations of potential users. The described contemporary spoken
information systems demonstrate more generalization and less sensitivity to speaker and domain during analysis and high
naturalness of synthesized speech signal. Due to these achievements, the processes of spoken information input and retrieval
can be partially or fully automated, particularly, for Ukrainian.
Conclusion. For decades, methods and algorithms based on Generative Model are shown their productivity for speech
technologies and systems that makes them widely applicable nowadays. The internationally recognized Ukrainian research
school benefits from its history and traditions, demonstrates steady development and readiness to solve prospective problems
related to multilingual, multimodal and acoustically adverse environments.
Keywords: speech, speech signal, analysis, recognition, understanding, synthesis.
24 ISSN 0130-5395, Control systems and computers, 2018, № 6
Т.К. Вінцюк, М.М. Сажок, Р.А. Селюх, Д.Я. Федорин, О.А. Юхименко, В.В. Робейко
Т.К. Винцюк, д-р техн. наук, профессор, зав. отделом,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина
Н.Н Сажок, канд. техн. наук, зав. отделом,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина,
sazhok@gmail.com
Р.А. Селюх, мл. научн. сотруд.,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина,
vxml12@gmail.com
Д.Я. Федорин, мл. научн. сотруд.,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина,
dmytro.fedoryn@gmail.com
А.А. Юхименко, мл. научн. сотруд.,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина,
enomaj@gmail.com
В.В. Робейко, научн. сотруд.,
Международный научно-учебный центр информационных технологий и систем
НАН Украины и МОН Украины, просп. Академика Глушкова, 40, Киев 03187, Украина,
valya.robeiko@gmail.com
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ,
ПОНИМАНИЕ И СИНТЕЗ РЕЧИ В УКРАИНЕ
Вступление. Речь является наиболее удобным, привычным, доступным и быстрым средством общения между людьми
и, следовательно, наиболее подходящим для общения между человеком и машиной. В этом состоит актуальность
разработки автоматических систем распознавания и синтеза речи для национальной науки, техники и культуры.
Цель. Цель данной статьи — проанализировать состояние и наметить основные пути решения проблем
автоматического распознавания, понимания и синтеза украинской речи и устного перевода с украинского и на
украинский языки.
Методы. Моделирование разговорной интеллектуальной деятельности человека с использованием подхода
«анализ через синтезом» с экспериментальными исследованиями и апробацией в реальных условиях применения.
Результаты. Методы и алгоритмы, предложенные и адаптированные к конкретным аппаратным/программным
платформам, позволили разработать речевые информационные системы, отвечающие растущим ожиданиям
потенциальных пользователей. Описанные современные речевые информационные системы демонстрируют
большее обобщение и меньшую чувствительность к диктору и предметной области при анализе и высокую
естественность синтезированного речевого сигнала. Благодаря этим достижениям процессы ввода и поиска устной
информации могут быть частично или полностью автоматизированы, в частности для украинского языка.
Заключение. На протяжении десятилетий методы и алгоритмы, основанные на Генеративной модели, показали свою
производительность для речевых технологий и систем, что сделало их широко применимыми в наши дни. Всемирно
признанная украинская научная школа черпая энергию из своей истории и традиций, демонстрирует устойчивое
развитие и готовность решать будущие задачи, возникающих в связи с многоязычнием, мультимодальностью и
помехоустойчивостью.
Ключевые слова: речь, речевой сигнал, анализ, распознавание, понимание, синтез.
|