Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення
У статті описано новий метод морфологічного розкладу слів шляхом моделювання лексичного наголосу,
 що актуально для систем розпізнавання українського мовлення. Критерій сегментації формулюється на
 підставі великого текстового корпусу та слів із позначеним наголосом. Наведений алгори...
Збережено в:
| Опубліковано в: : | Искусственный интеллект |
|---|---|
| Дата: | 2013 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2013
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/85234 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення / М.М. Сажок, В.В. Робейко // Искусственный интеллект. — 2013. — № 3. — С. 233–241. — Бібліогр.: 8 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860233388203442176 |
|---|---|
| author | Сажок, М.М. Робейко, В.В. |
| author_facet | Сажок, М.М. Робейко, В.В. |
| citation_txt | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення / М.М. Сажок, В.В. Робейко // Искусственный интеллект. — 2013. — № 3. — С. 233–241. — Бібліогр.: 8 назв. — укр. |
| collection | DSpace DC |
| container_title | Искусственный интеллект |
| description | У статті описано новий метод морфологічного розкладу слів шляхом моделювання лексичного наголосу,
що актуально для систем розпізнавання українського мовлення. Критерій сегментації формулюється на
підставі великого текстового корпусу та слів із позначеним наголосом. Наведений алгоритм пошуку
знаходить одну або декілька найбільш імовірних сегментацій. Описуються експериментальні дослідження,
обговорюються результати та плани на майбутнє.
В статье описан новый подход к морфологическому разложению слов на основе моделирования
лексического ударения, что актуально для систем распознавания украинской речи. Критерий сегментации
формулируется на основании большого текстового корпуса и слов с обозначенным ударением. Приведенный
алгоритм поиска находит один или несколько наиболее вероятных сегментаций. Описываются экспериментальные исследования, обсуждаются результаты.
This paper presents an approach to the morphological level word segmentation based on lexical stress modeling,
which is prospective for Ukrainian speech recognition systems. The formulated segmentation criterion is based on a
training set of words with manually pointed stresses and a large text corpus. The described search algorithm finds one
or more segmentations with the best likelihood. The developed toolkit is presented, experimental research is described
and results are discussed.
|
| first_indexed | 2025-12-07T18:22:10Z |
| format | Article |
| fulltext |
ISSN 1561-5359 «Штучний інтелект» 2013 № 3 233
3С
2В
УДК 004.934
М.М. Сажок
1,2
, В.В. Робейко
1
1,2
Міжнародний науково-навчальний центр інформаційних технологій та систем
просп. академіка Глушкова, 40, м. Київ, 03680, Україна
2Інститут кібернетики ім. В.М. Глушкова, м. Київ, Україна
просп. Академіка Глушкова, 40, м. Київ, 03680, Україна
Морфологічний розклад слів на основі
лексичного наголосу в задачах розпізнавання
українського мовлення
M. Sazhok
1,2
, V.V. Robeiko
1
1,2
International Research and Training Center of Information Technologies and Systems
40 prospekt аkademika Hlushkova, Kyiv, 03680, Ukraine
2
Hlushkov Institute of Cybernetics
40 prospekt Akademika Hlushkova, Kyiv, 03680, Ukraine
Lexical Stress-based Morphological Decomposition
for Ukrainian Speech Recognition Tasks
Н.Н. Сажок
1,2
, В.В. Робейко
1
1,2
Международный научно-учебный центр информационных технологий и систем
просп. академика Глушкова, 40, г. Киев, 03680, Украина
2
Институт кибернетики им. В.М. Глушкова, г. Киев, Украина
просп. Академика Глушкова, 40, г. Киев, 03680, Украина
Морфологическое разложение слов на основании
лексического ударения в задачах распознавания
украинской речи
У статті описано новий метод морфологічного розкладу слів шляхом моделювання лексичного наголосу,
що актуально для систем розпізнавання українського мовлення. Критерій сегментації формулюється на
підставі великого текстового корпусу та слів із позначеним наголосом. Наведений алгоритм пошуку
знаходить одну або декілька найбільш імовірних сегментацій. Описуються експериментальні дослідження,
обговорюються результати та плани на майбутнє.
Ключові слова: лексичний наголос, морфологічний розклад, розпізнавання українського мовлення.
This paper presents an approach to the morphological level word segmentation based on lexical stress modeling,
which is prospective for Ukrainian speech recognition systems. The formulated segmentation criterion is based on a
training set of words with manually pointed stresses and a large text corpus. The described search algorithm finds one
or more segmentations with the best likelihood. The developed toolkit is presented, experimental research is described
and results are discussed.
Key words: lexical stress, morphological decomposition, Ukrainian speech recognition.
В статье описан новый подход к морфологическому разложению слов на основе моделирования
лексического ударения, что актуально для систем распознавания украинской речи. Критерий сегментации
формулируется на основании большого текстового корпуса и слов с обозначенным ударением. Приведенный
алгоритм поиска находит один или несколько наиболее вероятных сегментаций. Описываются эксперимен-
тальные исследования, обсуждаются результаты.
Ключевые слова: лексическое ударение, морфологическое разложение, распознавание
украинской речи.
Сажок М.М., Робейко В.В.
«Искусственный интеллект» 2013 № 3 234
3С
Вступ
Явище лексичного наголосу відіграє важливу роль у багатьох мовах. Наголоше-
ні та ненаголошені фонеми в українській мові відрізняються за багатьма просодичними
параметрами. Тому під час генерування мовленнєвого сигналу за текстом необхідно
прогнозувати лексичний наголос у словах. Наголос для відомих слів береться зі словника.
Частка слів, які не входять до словника, тобто OOV-слів (від англ. out of vocabulary),
може складати суттєвий відсоток у текстах за рахунок рідковживаних слів, термі-
нології, власних назв, слів із помилками тощо. Наголошені фонеми майже завжди
вимовляються відповідно до правил вимови, навіть у спонтанному мовленні. І цю власти-
вість можна використати в задачах розпізнавання.
Проблемі прогнозування наголосу присвячено багато наукових досліджень.
У [1] автори припускають, що морфологічний розклад для прогнозування лексичного
наголосу особливо корисний у випадках недостатності локального контексту. Предста-
влення слів як послідовності певним чином обґрунтованих сегментів або морфем є
ключем до моделювання словотвору та до виходу за межі словникової моделі лексикону.
Відомі методи морфологічного розкладу покладаються виключно на орфографію [2], [3].
У наших дослідженнях прогнозування лексичного наголосу та морфологічний розклад
розглядаються як результат одного і того ж процесу, через який на основі орфографіч-
ного написання виявляються фонетичні, синтаксичні та семантичні ознаки.
В українській мові позиція наголосу є нерегулярною та може змінюватися навіть
у формах одного і того ж слова та в однокореневих словах (наприклад: фо�то – фо-
то�граф – фотогра�фія – фотографу�є – фотографува�ти). Завдяки доступу до лекси-
кографічної системи [4], ми отримали можливість аналізувати понад 1,8 млн описаних
експертами словоформ із позначеним лексичним наголосом. Створений без посередньо
авторами базовий текстовий корпус містить 275 млн неперевірених реалізацій слів,
що складають словник із близько двох мільйонів словоформ. Половина слів словни-
ка цього корпусу описана в лексикографічній системі. Частка корпусу, не відображена в
лексикографічній системі, складає 2,5%, які ми фіксуємо як початковий показник OOV.
Додавання 200 тисяч найбільш частотних слів до словника дало змогу скоротити по-
казник OOV до 0,5%. Таким чином, прогнозування наголосів сприятиме позиціюван-
ню лексичного наголосу для величезної кількості як нових, так і відомих системі слів.
Причина введення наголосів у системах озвучення текстів є очевидною через
необхідність генерувати звуковий сигнал, що відповідає людському сприйняттю таких
просодичних ознак, як тривалість, висота основного тону та енергія сигналу. У задачах
розпізнавання мовлення моделі переходу в простір первинних ознак загалом є інва-
ріантними до просодичних ознак. Утім, ми вважаємо, що введення як наголошених, так
і ненаголошених фонем до алфавіту української мови є суттєвим з огляду на фонети-
чні, лексичні й акустичні факти. Наголошені голосні у багатьох випадках діють як окремі
фонеми, змінюючи граматичну функцію слова та його значення у більш ніж 5% слів,
що спостерігаються в базовому текстовому корпусі (явище омографії).
Методи перетворення графем на фонеми, подібні до [5], також можуть напряму за-
стосовуватися для моделювання лексичного наголосу, хоча описаний у згаданій роботі
підхід не передбачає врахування структурних властивостей наголосу.У цьому досліджен-
ні ми пропонуємо зосередитись на моделюванні властивостей наголосу, а вже потім
перетворювати текст із наголосами на послідовності фонем методами, описаними,
наприклад, у [6], які дають змогу враховувати особливості вимовляння. У реалізаціях
згаданого методу достатньо задати 30 правил типу знайти-замінити-та-змінити-позицію
для перетворення графемного тексту на фонемний, що моделює базову українську вимову.
Морфологічний розклад слів на основі лексичного наголосу в задачах…
«Штучний інтелект» 2013 № 3 235
3С
Використання інформації про наголос
у задачах розпізнавання мовлення
Щоб дослідити акустичний аспект лексичного наголосу, ми оцінили параметри
акустичної моделі, розглядаючи наголошені та ненаголошені голосні як різні фонеми
та проаналізували відмінності між ними за допомогою інструментарію візуалізації
прихованих марківських моделей [7]. На рис. 1 показана відмінність між акустични-
ми моделями ненаголошених та наголошених фонем а та і, параметри яких оцінені
на 40-годинному відрізку акустичного корпусу українського мовлення [8].
Рисунок 1 – Візуалізація акустичних моделей фонем а та і
На рисунку представлені області, у яких спостерігаються центральні стани фонем.
Ці області апроксимуються сумішшю із 32 нормальних законів у просторі первинних
ознак на основі мел-кепстральних коефіцієнтів із застосуванням віднімання середнього,
що загалом складає 13-вимірний вектор. Лінія з крапок відповідає нульовому значен-
ню. Візуально наголошені моделі виглядають як підмножини для більшості вимірів.
Накладання областей, а не їх включення, найбільш яскраво спостерігається у
п’ятому вимірі моделі фонеми а і в першому вимірі фонеми і. На веб-сторінці інстру-
ментарію [7] можна ознайомитися з іншими акустичними моделями.
Аналізуючи матриці переходів між станами, ми бачимо, що значення, які відпо-
відають робочим (емітентним) станам, у півтора – два рази більші для моделей наго-
лошених фонем. Цей факт підтверджує суттєву відмінність довжин фонем залежно
від наголошеності.
Введення як наголошених, так і ненаголошених голосних фонем для розпізнавання
української мови є відносно невеликою додатковою витратою обчислювальних ресурсів
Сажок М.М., Робейко В.В.
«Искусственный интеллект» 2013 № 3 236
3С
(у результаті маємо 6 ненаголошених голосних та 6 наголошених – a, e, у, i, o, и, A, E, У,
I, O, И). Проте подібне розширення алфавіту фонем є суттєвим для мов, що мають знач-
но більшу кількість голосних фонем.
Найбільш переконливі аргументи за або проти введення наголошених фонем
надає аналіз попередніх результатів розпізнавання українського мовлення.
Для оцінки параметрів акустичної моделі використовувалися багатодикторна
й однодикторна навчальні вибірки для обох версій алфавіту фонем на 49 та 55 монофо-
нів відповідно. На лексичному рівні при послівному розпізнаванні злитого мовлення
використовувалися бі- та триграмні моделі, а для пофонемного та поскладового розпізна-
вання допускався вільний порядок слідування елементів. Для того, щоб можна було
порівнювати результати, ми ігнорували інформацію про наголос у розпізнаних послідо-
вностях слів і фонем. У всіх випадках спостерігалися результати, кращі на 12 – 23% для
акустичних моделей з ненаголошеними та наголошеними голосними щодо послівної
або пофонемної помилки.
Слід зазначити, що перевагою морфологічного розкладу є можливість представити
весь лексикон системи розпізнавання за допомогою практично незмінної множини
сегментів морфемного рівня.
Модель сегментації слів на основі лексичного наголосу
Нехай маємо словник W , що містить слова з позначеними атрибутами, такими
як лексичний наголос. Кожне слово w зі словника W може бути розкладене на послідо-
вність символів
( ) ( )
w
Kk
w
q,,q,,q,q=q ......
21
, які містяться в алфавіті літер або фонем Q .
Ми розглядаємо послідовності ( )w
q як сегменти деякої сегментації ( )w
s серед
усіх допустимих сегментацій ( )w
S слова w , причому i -й сегмент сегментації ( )w
s
( )
( )
w
i
Li
ijii
w
i s,s,,s,s=s ...,...
21
(1)
разом із іншими сегментами ( )w
s покривають усю ( )w
q без перекриттів, що означає,
що для будь-якої Ww∈
( )
w
i
w
i
K=L∑ ,
( ) { }
w
w
i
K,LL
max
min1 ≤�≤� , (2)
( )( ) 1
11
=sI
w
та ( )( )
( ) ( )
( )
1
1
1
1
+
w
sI=sI
w
i
Li
w
i
−
−
, 1>i , (3)
де ( )⋅I повертає індекс елемента сегменту в ( )w
q . Обмеження на найбільшу
довжину сегмента,
max
L , визначає порядок моделі. Також можуть бути введені
й інші обмеження на сегментування, наприклад, заборона на два поспіль склади, на-
голошені основним наголосом.
Об’єднуючи всі сегменти допустимих сегментацій для всіх слів зі словника W ,
ми формуємо множину сегментів
Морфологічний розклад слів на основі лексичного наголосу в задачах…
«Штучний інтелект» 2013 № 3 237
3С
( )
( )
U
i
w
sW,w
w
i
s=S
,∈
(4)
і розглядаємо кожен сегмент
i
s у цій множині, не зважаючи на належність до слів.
Рівень наголосу { }0,1,2
)(
=
w
k
θ , який приписується кожному символу, формує відпо-
відну послідовність атрибутів ).,,...,,( 21
)(
w
Kk
w
θθθθθ = Ми припускаємо, що відмінний
від нуля рівень наголосу може відповідати символам, якими вводиться склад, принаймні
потенційно. Зазвичай, такими символами є голосні, доповнені специфічними приго-
лосними, такими як «r» у словенській мові [3]. Для інших символів рівень наголоше-
ності не допускається, а тому завжди дорівнює нулеві. Значення рівнів наголосу можуть
бути обмежені нулем або одиницею, що означає, що розглядається лише основний
наголос. Допускається введення інших значень, що відповідають різним атрибутам сим-
волів, які можуть бути прихованими на письмі (риски, крапки, коронки тощо), та
комбінаціям цих атрибутів. Отже, в загальному випадку ми посилаємося на
)(w
θ як на
послідовність атрибутів для відповідних символів у слові w .
Очевидно, індекс, який повертається у (3) є одним і тим же, що і для
)(w
θ , чиї
підпослідовності відповідають
( )w
i
s . Послідовності атрибутів, що відповідають сег-
ментації
( )w
s , у свою чергу, формують множину Θ
(w )
.
Ми можемо оцінити ймовірність послідовності атрибутів θ за умови сегмента
i
s ,
який спостерігався в навчальній вибірці:
( )
( )
( )
i
i
i
sc
,sc
s|P
θ
θ ≈ , (5)
де ( )θ,sc
i
є кількістю сегментів
i
s з атрибутом наголосу, що визначений інди-
катором наголосу θ , а ( )
i
sc – загальна кількість
i
s . Усі підрахунки здійснюються за
текстовим корпусом для слів, що входять до словника наголосів. Для сегментів з
малою частотою доцільно застосувати методику згладжування.
Остаточно здійснюється пошук за всіма допустимими сегментаціями
( )w
s та послі-
довностями атрибутів θ , що задовольняють вираз:
( ) ( )( )
( ) ( )
( )( )∏
Θ
=Θ
θ
θ
,
,
|maxargˆ,ˆ
i
w
i
s
ww
sPs
ww
. (6)
У словах, які належать словнику наголосів, θ визначається для кожного сегме-
нту
( )w
i
s однозначно, в іншому випадку пошук здійснюється засобами динамічного
програмування для всіх допустимих послідовностей атрибутів.
Таким чином, щоб виконати морфологічний розклад, ми ввели модель сегментації
за ознаками, що, як правило, не відображаються в орфографії. До цих ознак відноситься
лексичний наголос. Не кожний отриманий сегмент може бути допустимою морфемою
внаслідок потенційно більш строгих обмежень на вміст морфеми, таких як наявність
принаймні однієї голосної фонеми. Ці обмеження можна обійти шляхом об’єднання
сегментів із одним або кількома прилеглими сегментами.
Сажок М.М., Робейко В.В.
«Искусственный интеллект» 2013 № 3 238
3С
Аналіз графу сегментації
Ми сконструювали граф динамічного програмування, на якому знаходження найко-
ротшого шляху еквівалентно пошуку (6). Кожний вхідний символ вводить множину
допустимих пар (сегмент, атрибути), що розташовані у вузлах графа і де накопичується
частковий критерій. Запам’ятовуючи N перспективних стрілок, що входять у вузли,
ми можемо отримати N кращих сегментацій слова.
На рис. 2 показано приклад пошуку найкращого прогнозу наголосів (6) для власної
назви Обама, що відсутнє у базовому словнику наголосів. Слово представлене як конка-
тенація всіх допустимих сегментів символів, де довжина найдовшого сегмента обме-
жується п’ятьма символами. Вхідні символи переведені у нижній регістр, додано
символ «|», що позначає межі слів. Допустимі сегменти з атрибутами, які вводяться
поточним спостережуваним елементом, будемо подавати в компактній формі, одразу
відображаючи результат дії атрибутів. Так запис «обАм» у п’ятій колонці, який назвемо
іменем вузла, означає сегмент (о, б, а, м) під дією вектора атрибутів (0, 0, 1, 0). Потенційно
оптимальні стрілки або показуються або кодуються іменем попереднього вузла. Позна-
чені часткові критерії ґрунтуються на логарифмі ймовірності. Оптимальна траєкторія,
відповідні вузли та критерії виділені потовщенням.
На цьому прикладі ми ілюструємо заборону на слідування двох поспіль наголо-
шених сегментів: у 7-й колонці сегмент «мА» слідує за сегментом «а», а не «обА».
Оскільки не вводиться обмежень на вміст сегментів, допускається сегмент, що містить
одну приголосну «б», як у третій колонці. Таким чином ми гарантуємо успішність
пошуку (6) для будь-якого слова. Система може вирішити, що обидва прилеглі сегменти
належать до єдиної морфеми залежно від обмежень, які накладає експерт. Щоб сформу-
вати формально допустиму морфему, ми можемо приєднати сегмент «б» до попереднього
сегмента, віддаючи перевагу більш частотній морфемі та приходячи до сегментації
Об-а�ма. Можемо побачити, що це слово іноземного походження апроксимується
морфемами з рідної мови. Модель, поновлена зразками автоматично наголошених
нових слів, отримує змогу навчитись на нові морфеми, що потенційно може привести
до лінгвістично більш обґрунтованого розкладу даного слова та його форм у вигляді:
Оба�м-а, Оба�м-и тощо.
1 2 3 4 5 6 7
| o б a м a |
Поч. | 0 o -0,39 б -0,11 a -0,77 б м -0,77 a a -0,91 бaм | -0,87 aмa
O -1,14 oб -0,37 A -0,84 б aм -1,11 б A -0,98 бaм a| -0,54 бaм
|o -0,11 Oб -1,17 бa -0,79 |o Aм -0,57 б мa -1,36 oбA A| -1,63 бaм
|O -2,26 |oб -1,18 oбa -2,51 | бaм -0,25 o мA -1,26 oбA мa| -0,98 oбA
|Oб -1,82 Oбa -0,96 | oбaм -0,85 | aмa -0,87 б мA| -1,96 a
бA -0,81 |o Oбaм -0,69 | Aмa -1,08 б Aмa| -0,38 б
oбA -0,62 | бAм -2,4 o aмA -1,98 б aмA| -1,56 б
oбAм -2,64 |
Рисунок 2 – Граф прогнозування наголосу для слова Обама,
яке відсутнє в базовому словнику наголосів
Реалізація системи прогнозування наголосів
Для реалізації описаного алгоритму сегментації слів було розроблено інстру-
ментарій, що складається із трьох модулів. На даний момент допускається оперуван-
ня лише інформацією про основний лексичний наголос.
Морфологічний розклад слів на основі лексичного наголосу в задачах…
«Штучний інтелект» 2013 № 3 239
3С
Перший модуль – putstress – готує дані, необхідні для обчислення ймовірностей (5)
за вхідною базою даних і знань, частотним словником та, при потребі, за скоригова-
ними пропорціями частот омографів. Модуль намагається отримати знання щодо позиції
наголосу для кожного слова та, в разі успіху, зберігає слова, доповнені позначкою
наголосу та частотою в окремий файл. Знайдені омографи зберігаються з частотами,
уточненими відповідно до їх скоригованих пропорцій, які експерт може знову ж таки
коригувати з наступним повторним запуском цього модуля.
Другий модуль – guessstress – реалізує процедуру пошуку (6), отримуючи N кращих
послідовностей сегментів із відповідними атрибутами. Частотний словник слів із позна-
ченими наголосами є вхідними даними для оцінки ймовірностей гіпотетичних підпо-
слідовностей символів.
Третій модуль – prep_stressvcb – формує словник наголосів за отриманими попе-
реднім модулем сегментаціями. Декілька допоміжних модулів дають змогу виокремити
різноманітну інформацію із вхідних даних, оцінених моделей та сегментацій. Усі мо-
дулі написані мовою Perl.
Опис текстових даних
Словник наголосів отримано з підмножини електронної лексикографічної си-
стеми, що містить 151 962 лем, включаючи понад десять тисяч імен, що загалом ста-
новить 1,90 млн словоформ [4]. Внаслідок аналізу спільної орфографії, кількість слів,
що мають або відмінне написання, або основний наголос, складає 1,83 млн.
Базовий текстовий корпус отримано з гіпертекстових даних, завантажених із
ряду веб-сайтів, що містять новини та публіцистику (60%), художню літературу (8%),
енциклопедичні статті (24%) та юридичний матеріал (8%). Зазначимо, що дані, заванта-
жені з новинних сайтів, містять численні коментарі користувачів, які ми розглядаємо
як текстові реалізації спонтанного мовлення. Надалі ми посилатимемось на базовий
текстовий корпус, як на корпус 275M. Відповідно до наведеної характеристики цього
корпусу в табл. 1, ми спостерігаємо в середньому 6,64 словоформ на лему, тоді як цей
показник удвічі більший для словника на основі [4] і становить 12,3. Додавши до ві-
домих слів словника найбільш частотних 200 тис. слів, ми скоротили показник OOV
до менше ніж 0,5%.
Таблиця 1 – Характеристика базового корпусу 275M
Словник Кількість
слів
Кількість
речень Усі слова Відомі слова Відомі леми
OOV
Кількість
омографів
275 288 408 1 752 371 1 996 897 801 040 120 554 2,51% 16 729 476
Ми бачимо, що частка слів-омографів, які мають дві та більше допустимих
позицій наголосу, складає 6% від тексту. Зауважимо, що омографи можуть мати
різну частоту, що впливає на частоту певних сегментів. Тому експерту надано
можливість коригувати пропорції частоти омографів, словник яких складається з
понад 14 000 елементів.
Експериментальні дослідження
Відомі слова та OOV-слова були досліджені окремо. Метою дослідження відомих
слів було з’ясувати, наскільки значна частина словника може бути закодована без за-
Сажок М.М., Робейко В.В.
«Искусственный интеллект» 2013 № 3 240
3С
значення інформації про лексичний наголос. Найбільший порядок
max
L моделі рівний
п’яти, багатозначність було обмежено чотирма кращими сегментаціями, за якими форму-
вався словник наголосів. Експерт скоригував пропорції частотності для перших за часто-
тою 500 омографів.
Системою виявлено близько мільйона пар (сегмент, наголос). Частоти для сег-
ментів різної довжини показані у табл. 2.
Таблиця 2 – Кількісні характеристики виявлених сегментів
Довжина сегмента, L 1 2 3 4 5
Кількість сегментів 46 1 781 35 280 233 816 721 575
Частота (млн) 2 115,652 1 848,766 1 581,879 1 314,993 1 070,579
Було використано 215 000 сегментів для передбачення наголосу у словах кор.пу-
су 275M. Для менше ніж 1% відомих слів наголос було передбачено хибно. Визначення
наголосу для 5 000 OOV-слів дало помилку у 21,1% слів, що відповідає 5,3% складів.
Варто зазначити, що більше половини неправильно визначених наголосів припадає
на рідкісні запозичення з інших мов.
Чи не найбільший інтерес викликає реакція системи на рух наголосу в одноко-
реневих словах. Перевіривши слова, похідні від фото/фотографія, ми виявили, що лише
слово фотограф мало хибно визначений наголос.
Висновки
Запропонована модель сегментації морфемного рівня дає змогу одночасно вия-
вляти ознаки, які, як правило, ігноруються при написанні слів. Введена багатозначність
дає змогу обирати кращу гіпотезу з урахуванням ширшого контексту на рівні слів,
що є актуальним при аналізі омографів. Подальше вдосконалення запропонованої
моделі полягає у введенні контексту на сегментному рівні.
Оцінювання параметрів моделі передбачає покращення сили прогнозування за
рахунок додання до навчальної вибірки невідомих слів та коригування експертом на-
голосів у словах між ітераціями. Необхідно передбачити інтерактивну процедуру такого
коригування, щоб уникати зайвої роботи з однокореневими словами під час аналізу.
Планується також дослідити вплив вибору порядку моделі, ввести нові ознаки, вико-
ристати фонемний вхідний текст та розширити коло досліджуваних мов. Зважаючи на
доступність реалізації підходу [5] у відкритому коді, існує можливість провести порів-
няльний аналіз обох методів на одному й тому ж матеріалі.
Література
1. Black A. Issues in Building General Letter to Sound Rules / A. Black, K. Lenzo, V. Pagel // 3rd ESCA Workshop on
Speech Synthesis. – Australia : Jenolan Caves, 1998. – Р. 77-80.
2. Creutz Mathias. 2004. Induction of a simple morphology for highly-inflecting languages / Creutz Mathias, Lagus,
Krista // In : Proc. 7th Meeting of the ACL Special Interest Group in Computational Phonology (SIGPHON). –
Barcelona. - Р. 43–51.
3. Automatic lexical stress assignment of unknown words for highly inflected Slovenian language / [Gams Matjaž et
al.] // In : Text, Speech and Dialogue. Springer Berlin Heidelberg. – 2006. – P. 165-172.
4. [Электронный ресурс]. – Ресурс доступа : http://lcorp.ulif.org.ua/dictua/
5. Bisani M. Joint-Sequence Models for Grapheme-to-Phoneme Conversion / M. Bisani, H. Ney // Speech
Communication. – May 2008. – Vol. 50, Issue 5, - Р. 434-451.
6. Robeiko V. Bidirectional Text-To-Pronunciation Conversion with Word Stress Prediction for Ukrainian /
V. Robeiko, M. Sazhok // In Proc. UkrObraz’2012. – Kyiv, 2012. – Р. 43-46.
7. [Электронный ресурс]. – Ресурс доступа : www.cybermova.com/speech/visual-hmm.htm
8. Ukrainian Broadcast Speech Corpus Development / [Valeriy Pylypenko, Valentyna Robeiko, Mykola Sazhok, et
al.] // In Proc. Specom’2011. – Kazan : RF. – Р. 244-247.
Морфологічний розклад слів на основі лексичного наголосу в задачах…
«Штучний інтелект» 2013 № 3 241
3С
Literaturа
1. Black A. Issues in Building General Letter to Sound Rules . 3rd ESCA Workshop / Black A., Lenzo K., Pagel V.
2. Creutz Mathias. Induction of a simple morphology for highly-inflecting languages / Creutz Mathias, Lagus Krista //
In: Proc. 7th Meeting of the ACL SIGPHON. – 2004.
3. Automatic lexical stress assignment of unknown words for highly inflected Slovenian language / [Gams Matjaž et
al.] // In: Text, Speech and Dialogue. Springer Berlin Heidelberg, 2006.
4. http://lcorp.ulif.org.ua/dictua/
5. Bisani M. Joint-Sequence Models for Grapheme-to-Phoneme Conversion / M. Bisani, H. Ney // Speech
Communication.
6. Robeiko V. Bidirectional Text-To-Pronunciation Conversion with Word Stress Prediction for Ukrainian //
V. Robeiko, M. Sazhok // In Proc. UkrObraz’2012.
7. www.cybermova.com/speech/visual-hmm.htm
8. Ukrainian Broadcast Speech Corpus Development / [Valeriy Pylypenko, Valentyna Robeiko, Mykola Sazhok, et
al.] // In Proc. Specom’2011.
RESUME
M. Sazhok, V.V. Robeiko
Lexical Stress-based Morphological Decomposition for Ukrainian
Speech Recognition Tasks
This paper presents an approach to word morphological decomposition based on
lexical stress modeling. Lexical stress prediction and morphological decomposition are
considered as a result of the same process through which phonetic, syntactic and semantic
hidden features can be discovered from word spelling.
Given motivation confirms that introduction of both stressed and unstressed vowels
to the speech recognition system phoneme alphabet, at least for Ukrainian, is essential due
to phonetic, lexical, and acoustical facts.
Word segmentation quality is estimated by a hidden variable that assigns the lexical
stress. The formulated segmentation criterion is based on a training set of words with
manually pointed stresses and a large text corpus. The described search algorithm finds one
or more segmentations with the best likelihood by means of dynamic programming.
The developed toolkit allows for assigning a primary lexical stress in unknown
words. Beside required input text data and basic stress vocabulary, an expert may provide
homograph occurrence proportions, which is essential for operating with correct word
segment frequency. The experimental research is described as well as results and future
plans are discussed.
Стаття надійшла до редакції 10.06.2013.
|
| id | nasplib_isofts_kiev_ua-123456789-85234 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Ukrainian |
| last_indexed | 2025-12-07T18:22:10Z |
| publishDate | 2013 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Сажок, М.М. Робейко, В.В. 2015-07-22T18:50:40Z 2015-07-22T18:50:40Z 2013 Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення / М.М. Сажок, В.В. Робейко // Искусственный интеллект. — 2013. — № 3. — С. 233–241. — Бібліогр.: 8 назв. — укр. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/85234 004.934 У статті описано новий метод морфологічного розкладу слів шляхом моделювання лексичного наголосу,
 що актуально для систем розпізнавання українського мовлення. Критерій сегментації формулюється на
 підставі великого текстового корпусу та слів із позначеним наголосом. Наведений алгоритм пошуку
 знаходить одну або декілька найбільш імовірних сегментацій. Описуються експериментальні дослідження,
 обговорюються результати та плани на майбутнє. В статье описан новый подход к морфологическому разложению слов на основе моделирования
 лексического ударения, что актуально для систем распознавания украинской речи. Критерий сегментации
 формулируется на основании большого текстового корпуса и слов с обозначенным ударением. Приведенный
 алгоритм поиска находит один или несколько наиболее вероятных сегментаций. Описываются экспериментальные исследования, обсуждаются результаты. This paper presents an approach to the morphological level word segmentation based on lexical stress modeling,
 which is prospective for Ukrainian speech recognition systems. The formulated segmentation criterion is based on a
 training set of words with manually pointed stresses and a large text corpus. The described search algorithm finds one
 or more segmentations with the best likelihood. The developed toolkit is presented, experimental research is described
 and results are discussed. uk Інститут проблем штучного інтелекту МОН України та НАН України Искусственный интеллект Анализ и синтез коммуникационной информации Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення Морфологическое разложение слов на основании лексического ударения в задачах распознавания украинской речи Lexical stress-based morphological decomposition for ukrainian speech recognition tasks Article published earlier |
| spellingShingle | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення Сажок, М.М. Робейко, В.В. Анализ и синтез коммуникационной информации |
| title | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| title_alt | Морфологическое разложение слов на основании лексического ударения в задачах распознавания украинской речи Lexical stress-based morphological decomposition for ukrainian speech recognition tasks |
| title_full | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| title_fullStr | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| title_full_unstemmed | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| title_short | Морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| title_sort | морфологічний розклад слів на основі лексичного наголосу в задачах розпізнавання українського мовлення |
| topic | Анализ и синтез коммуникационной информации |
| topic_facet | Анализ и синтез коммуникационной информации |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/85234 |
| work_keys_str_mv | AT sažokmm morfologíčniirozkladslívnaosnovíleksičnogonagolosuvzadačahrozpíznavannâukraínsʹkogomovlennâ AT robeikovv morfologíčniirozkladslívnaosnovíleksičnogonagolosuvzadačahrozpíznavannâukraínsʹkogomovlennâ AT sažokmm morfologičeskoerazloženieslovnaosnovaniileksičeskogoudareniâvzadačahraspoznavaniâukrainskoireči AT robeikovv morfologičeskoerazloženieslovnaosnovaniileksičeskogoudareniâvzadačahraspoznavaniâukrainskoireči AT sažokmm lexicalstressbasedmorphologicaldecompositionforukrainianspeechrecognitiontasks AT robeikovv lexicalstressbasedmorphologicaldecompositionforukrainianspeechrecognitiontasks |