Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ

Стаття присвячена питанням адаптації до голосу нового диктора попередньо створених систем пофонемного розпізнавання мовлення. Представлені результати трьох експериментів, проведених з використанням даних мовленнєвого корпусу АКУЕМ. Надається порівняльний аналіз з результатами попередніх досліджен...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Искусственный интеллект
Дата:2013
Автори: Юхименко, О.А., Пилипенко, В.В., Селюх, Р.А.
Формат: Стаття
Мова:Українська
Опубліковано: Інститут проблем штучного інтелекту МОН України та НАН України 2013
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/85194
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ / О.А. Юхименко, В.В. Пилипенко, Р.А. Селюх // Искусственный интеллект. — 2013. — № 3. — С. 284–292. — Бібліогр.: 4 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859785031288881152
author Юхименко, О.А.
Пилипенко, В.В.
Селюх, Р.А.
author_facet Юхименко, О.А.
Пилипенко, В.В.
Селюх, Р.А.
citation_txt Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ / О.А. Юхименко, В.В. Пилипенко, Р.А. Селюх // Искусственный интеллект. — 2013. — № 3. — С. 284–292. — Бібліогр.: 4 назв. — укр.
collection DSpace DC
container_title Искусственный интеллект
description Стаття присвячена питанням адаптації до голосу нового диктора попередньо створених систем пофонемного розпізнавання мовлення. Представлені результати трьох експериментів, проведених з використанням даних мовленнєвого корпусу АКУЕМ. Надається порівняльний аналіз з результатами попередніх досліджень з адаптації. Статья посвящена вопросам адаптации к голосу нового диктора предварительно созданных систем пофонемного распознавания речи. Представлены результаты трех экспериментов, проведенных с использованием данных речевого корпуса АКУЕМ. Приводится сравнительный анализ с результатами предшествующих исследований по адаптации. This article is devoted to the problems of adaptation to new announcer voice for speech recognition systems. The results of three adaptation experiments based on AKUEM speech corpus are described. Comparison with previous experiments are discussed.
first_indexed 2025-12-02T10:21:09Z
format Article
fulltext ISSN 1561-5359 «Искусственный интеллект» 2013 № 3 284 3Ю УДК 004.934 О.А. Юхименко, В.В. Пилипенко, Р.А. Селюх Міжнародний науково-навчальний центр інформаційних технологій та систем, м. Київ, Україна Україна, 03680, м. Київ, просп. Акад. Глушкова, 40 Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ O.A. Yukhymenko, V.V. Pylypenko, R.A. Selyukh International Research/Training Centre for Information Technologies and Systems, Kyiv, Ukraine Ukraine, 03680, Kyiv, prosp. Akad. Hlushkova, 40 Adaptation to New Announcer Voice for Spontaneous Speech from AKUEM Speech Corpus А.А. Юхименко, В.В. Пилипенко, Р.А. Селюх Международный научно-учебный центр информационных технологий и систем, г. Киев, Украина Украина, 03680, г. Киев, просп. Акад. Глушкова, 40 Адаптация к голосу нового диктора на примере спонтанной речи из корпуса АКУЕМ Стаття присвячена питанням адаптації до голосу нового диктора попередньо створених систем пофонемного розпізнавання мовлення. Представлені результати трьох експериментів, проведених з використанням даних мовленнєвого корпусу АКУЕМ. Надається порівняльний аналіз з результатами попередніх досліджень з адаптації. Ключові слова: моделі фонем, адаптація, розпізнавання, лінійні перетворення, класи регре- сії, навчання. This article is devoted to the problems of adaptation to new announcer voice for speech recognition systems. The results of three adaptation experiments based on AKUEM speech corpus are described. Comparison with previous experiments are discussed. Key words: models of phonemes, speaker adaptation, recognition, linear transformations, classes of regression, training. Статья посвящена вопросам адаптации к голосу нового диктора предварительно созданных систем пофонемного распознавания речи. Представлены результаты трех экспериментов, проведенных с использованием данных речевого корпуса АКУЕМ. Приводится сравнительный анализ с результатами предшествующих исследований по адаптации. Ключевые слова: модели фонем, адаптация, распознавание, линейные преобразования, классы регрессии, обучение. Вступ У попередніх роботах була проведена серія експериментальних досліджень з адаптації, застосовані різні підходи [1], [2]. Слід зазначити, що вони були проведені в рамках пофонемного послівного розпізнавання. Всі диктори, записи котрих вико- ристовували в експериментах, наговорювали визначені певні слова, які апроксимують Адаптація до голосу нового диктора на прикладі спонтанного мовлення… «Штучний інтелект» 2013 № 3 285 3Ю фонетичне розмаїття української мови. При цьому слова вимовлялися загалом розбі- рливо, в нормальному темпі, окремо одне від одного. Диктори базового кооперативу вимовили більш ніж дванадцять тисяч реалізацій слів у загальній навчальній вибірці. Розпізнавання було послівним. Використовувалося два достатньо якісних мікрофони, умови запису відповідали офісним. Словник використовувався невеликий – біля 2,5 тисячі слів. Кількість дикторів також була невеликою – 67. У даній роботі представ- влені результати експериментальних досліджень, котрі були отримані дещо в інших умовах і не з окремими словами, а зі злитим, здебільшого спонтанним мовленням. Метою роботи є продовження досліджень з адаптації в більш складних умовах роботи з мовленнєвим матеріалом. Лінійні перетворення при адаптації акустичних моделей При створенні системи розпізнавання сигналів мовлення необхідно провести проце- дуру навчання розпізнаванню. При пофонемному розпізнаванні кожна фонема має свою акустичну генеративну модель, котра являє собою певну кількість станів з певними пере- ходами між ними [1]. При цьому кожний стан моделі має свої ймовірнісні параметри – середній вектор спостереження [ ]T n µµµµ ,...,, 21 = та коваріаційну матрицю Σ розмірністю n × n, де n – розмірність вектора первинних ознак сигналу. Ці µ та Σ є параметрами n-вимірного нормального закону розподілу. Стан моделі може задаватися декількома параметрами (парами), то тоді говорять, що стан описується сумішшю гаусіа- нів (нормальних розподілів). Проведення процедури навчання передбачає конкретне об- числення за допомогою ітераційних процедур саме цих ймовірнісних параметрів для всіх фонем у системі розпізнавання. Для двох систем розпізнавання, навчених на двох різних дикторів, ці ймовірнісні параметри будуть різнитися між собою, чим і пояснюється неза- довільна точність розпізнавання якогось диктора на чужій системі. Але цілком можливо обчислити лінійні перетворення, які переводять початкові середні вектори та коваріаційні матриці опорного диктора або кооперативу дикторів у середні вектори та коваріаційні матриці нового диктора. Лінійне перетворення для середніх векторів записується у вигляді: ξµ W=ˆ , (1) де µ̂ – середній вектор нового диктора, W є матрицею, розмірністю n × (n + 1), ξ – середній розширений вектор опорного диктора, [ ]T n µµµξ ,...,,,1 21 = . (2) Лінійне перетворення коваріаційних матриць записується у вигляді: T HHΣ=Σ̂ , (3) де H – матриця перетворення коваріаційної матриці Σ опорного диктора, розмірністю – n × n. Щоб покращити гнучкість процесу адаптації, можна визначити відповідну множину базових класів, яка залежатиме від кількості доступних адаптаційних даних [3]. Якщо доступна мала кількість адаптаційних даних, то тоді буде генеруватися загальне адаптаційне перетворення. Загальне перетворення застосовується до кожної компо- ненти гаусіанів у множині моделей. Одначе, якщо адаптаційних даних стає більше, то можливо покращити адаптацію шляхом збільшення кількості перетворень. Тоді Юхименко О.А., Пилипенко В.В., Селюх Р.А. «Искусственный интеллект» 2013 № 3 286 3Ю кожне перетворення стає більш конкретним й застосовується до певної групи гау- сіанів. Наприклад, гаусіани можуть бути згруповані в широкі фонетичні класи: пауза, голосні, назальні, фрикативні тощо. В цьому випадку адаптаційні дані повинні вико- ристовуватися для побудови більш конкретних перетворень широких класів, щоб засто- сувати ці перетворення до цих угруповань. Зв’язування кожного перетворення через множину компонентів суміші дозволяє адаптувати й ті розподіли, для котрих узагалі не було спостережень. У такому процесі всі моделі можуть бути адаптовані й адаптаційний процес динамічно покращується, як тільки з’являється більше адаптаційних даних. Дерево класів регресії побудовано таким чином, щоб об’єднати компоненти, котрі близькі в акустичному просторі, й, таким чином, схожі компоненти будуть перетворюватися схожим способом. Зазначимо, що дерево побудовано з викорис- танням індивідуальної дикторонезалежної множини моделей фонем, а значить – не залежить від будь-якого нового диктора. Термінальні вузли або листки дерева визна- чають кінцеві групи компонентів й називаються базовими класами (класами регресії). Кожний гаусіан у множині моделей фонем належить до одного певного базового класу. На рис. 1 наведено простий приклад бінарного дерева регресії з чотирма базо- вими класами, позначеними як },,,{ 7654 CCCC . На діаграмі зображено неперервні стрілки та неперервні околи й це означає, що адаптаційних даних, пов’язаних із цим класом, достатньо для побудови матриць перетворення. Пунктирні стрілки та околи по- значають класи, для яких недостатньо адаптаційних даних. У цьому прикладі вузли 6 та 7 не мають достатньо даних; але у вузлі 3, що є батьківським для 6 та 7, даних достатньо. Аналогічно для вузлів 5 та 2. Кількість даних, що визначається як достатня (поріг), встановлюється як опція вручну в програмі. Рисунок 1 – Бінарне дерево регресії Перетворення генеруються тільки для тих вузлів, котрі: 1) мають достатньо даних; 2) є або термінальними вузлами (тобто базовими класами), або мають нащадків з недостатньою кількістю даних. У прикладі, котрий наводиться на рис. 1, перетворення генеруються лише для вузлів регресії під номерами 2, 3 та 4, й ці перетворення позначимо відповідно 32 ,WW та 4 W . Адаптація до голосу нового диктора на прикладі спонтанного мовлення… «Штучний інтелект» 2013 № 3 287 3Ю Звідси, коли потрібно мати перетворену множину моделей фонем, матриці перетворення (для середніх та дисперсій) застосовуються до компонентів гаусіанів у кожному базовому класі наступним чином:           → → → }{ },{ }{ 44 763 52 CW CCW CW . Тут цікаво відзначити, що випадок загальної адаптації, схожий на випадок, коли дерево має лише один кореневий вузол. Експериментальна база Як було зазначено у вступі, в даній роботі експерименти проводилися переважно зі спонтанним мовленням. Воно полягає в тому, що диктори, записи котрих викори- стовували в експериментах, говорили вільно або читали, не спеціально для експе- риментів, порядок слів у їхній мові був вільний, деякі слова вони повторювали й не завжди повністю, не завжди ясно й чітко, говорили з різним ступенем емоційності, в різному темпі, при цьому мовлення було злитим. Розпізнавання також проводилося для злитого мовлення. Каналів запису було багато, вони різнилися між собою за ха- рактеристиками. Записи дикторів були не однакового обсягу – від коротких за часом до довгих. Використовувалися записи з теле- та радіоефіру. Всі ці записи були зібрані в так званий корпус АКУЕМ – акустичний корпус українського ефірного мовлення [4]. В цьо- му корпусі словник налічував 71 545 словоформ, близько 60 годин аудіозаписів, у котрих міститься мовлення біля 2000 дикторів. Слід зазначити, що диктори говорили й такі слова, котрих не було в словнику взагалі, на відміну від [1]. Це ускладнювало ситуацію тим, що автоматично понижувало надійність розпізнавання. Більшість дикторів предста- влена короткими записами, тоді як у 150 дикторів довжина записів становить більш як 10 хвилин. З усього вищесказаного випливає, що, взагалі, умови для розпізнаван- ня в даному випадку менш сприятливі, ніж у попередніх дослідженнях. Кількість фонем, як і в попередніх дослідженнях, становила 55 елементів. Фо- неми моделюються трьома станами Марківського ланцюгу без пропусків. Попередні експериментальні дослідження для визначення значення порогу достатності адаптаційних даних Взагалі, було проведено три експерименти з, відповідно, трьома різними Контроль- ними групами дикторів. Контрольна група № 1 складалася з дикторів, котрі брали участь у навчанні. Тобто, записи промов цих дикторів були розділені на дві частини: записи з першої частини повністю використовувалися при навчанні системи розпізнавання (це була навчальна вибірка (НВ)), записи з другої частини використовувалися для тестування та адаптації (це була незалежна вибірка (НезВ) цих дикторів). Мета цього експери- менту – експериментально з’ясувати, як залежать результати адаптації від кількості лінійних перетворень, котрі застосовуються при цій самій адаптації. Тобто, кількість адаптаційних даних не змінювалася, АВ залишалася тою самою, а змінювалось вручну Юхименко О.А., Пилипенко В.В., Селюх Р.А. «Искусственный интеллект» 2013 № 3 288 3Ю значення порогу достатності даних у дереві класів регресії. Чим більше це значення, тим менше буде лінійних перетворень на всю систему при адаптації. Приймалося 4 різних значення порогу – 2000, 1000, 500, 200. Будувалися різні дерева класів регресії – з 1, 2, 3, 4, 6, 8, 10, 13, 16, 20, 25 та 30 термінальними вузлами. Для кожного дерева, в залежності від значення порогу, обчислювалася різна кількість лінійних перетворень. Попутно необхідно було з’ясувати питання, в якому випадку результати адаптації бу- дуть кращі: коли адаптаційну вибірку (АВ) брати з НВ, або коли з НезВ? Результати даного експерименту зображені на рис. 2. Рисунок 2 – Усереднена точність розпізнавання дикторів із контрольної групи № 1 до та після адаптації Пояснення: КВ_2000 – це значить, що АВ вибиралася з НезВ, значення порогу 2000; НВ_500 – АВ вибиралася з НВ, значення порогу 500. Коли кількість термінальних вузлів – 0, то це означає, що розпізнавання проводилося без адаптації. Досить ясно видно, що результати адаптації кращі, коли АВ вибирають з НезВ (при порогах 2000 та 1000), при порогах 200 та 500 отримуємо досить непевний результат. Виходило, що просте збільшення кількості перетворень (від пониження порогу) без збільшення обсягу АВ не призводить до автоматичного покращення розпізнавання. Можна констатувати, що збіль- шення точності розпізнавання при виборі АВ з НезВ сягає майже 4% (при порозі 2000), при виборі АВ з НВ сягає майже 3% (при порозі 500, 1000, 2000). Результати адапта- ції при виборі АВ з НВ менш розкидані (окрім порогу в 200). Дослідження проводи- лися при кількості гаусіанів у сумішах станів моделей фонем – 16. У другому експерименті контрольна група № 2 складалася з дикторів, котрі не брали участі в навчанні. Тобто, записи промов цих дикторів не використовувалися при навчанні системи розпізнавання, вони мали лише НезВ. Мета – експериментально з’ясувати, чи будуть результати адаптації для групи, що не брала участі в навчанні, кра- Адаптація до голосу нового диктора на прикладі спонтанного мовлення… «Штучний інтелект» 2013 № 3 289 3Ю щими, ніж для групи, котра брала участь у навчанні. Одночасно необхідно було з’ясувати питання: як залежать результати адаптації при збільшенні кількості гаусіанів у сумішах станів моделей фонем? Оскільки в попередньому експерименті при значенні порогу 200 отримували незадовільний результат, то тут його не використовували. Дерева класів регресії – ті самі. Результати даного експерименту зображені на рис. 3. Рисунок 3 – Усереднена точність розпізнавання дикторів із контрольної групи № 2 до та після адаптації при 16 та 128 гаусіанах у моделях фонем Пояснення: Г128_2000 – це значить, що гаусіанів в моделях фонем 128, значення порогу 2000. Чітко видно, що при 128 гаусіанах точність розпізнавання вища як до, так й після адаптації, результати менш розкидані. Зростання точності – до 4,5% (поріг 2000) при 128 гаусіанах, до 5,5% (поріг 500, 1000) при 16 гаусіанах. Порівнюючи з результатами адаптації першого експерименту можна зробити ви- сновок, що при 16 гаусіанах результати адаптації покращилися – 5,5% проти 4%, відносне покращення також більше, хоча при цьому говорити про видатну різницю не доводиться. Результати експериментальних досліджень на матеріалі виступів депутатів Верховної Ради України Контрольна група № 3 складалася з дикторів, котрі також не брали участі в навчан- ні. Ці диктори – депутати Верховної Ради України (записи їхніх промов також знахо- дяться в АКУЕМ). Вони говорили зі специфікою парламентських промов і зі специфікою записів цих промов у парламентській залі. Мета – знову-таки експеримен- тально з’ясувати, чи будуть результати адаптації для групи, що не брала участі в навчанні, кращими, ніж для групи, котра брала участь у навчанні. Також була поставлена задача: проводити адаптацію не для однієї певної АВ для кожного диктора, а для декількох різних за обсягом АВ, щоб оцінити якість адаптації в залежності від обсягів АВ та поставити Юхименко О.А., Пилипенко В.В., Селюх Р.А. «Искусственный интеллект» 2013 № 3 290 3Ю дикторів у рівні умови. АВ для всіх дикторів обиралися обсягом в 30, 60 та 90 секунд. Де- рев класів регресії було побудовано трохи менше. Результати даного експерименту зображені на рис. 4, 5, 6. Рисунок 4 – Усереднена точність розпізнавання дикторів із контрольної групи № 3 до та після адаптації при 16 та 128 гаусіанах у моделях фонем, при значенні порога 500 Рисунок 5 – Усереднена точність розпізнавання дикторів з контрольної групи № 3 до та після адаптації при 16 та 128 гаусіанах у моделях фонем при значенні порога 1000 Рисунок 6 – Усереднена точність розпізнавання дикторів із контрольної групи № 3 до та після адаптації при 16 та 128 гаусіанах у моделях фонем при значенні порога 2000 Адаптація до голосу нового диктора на прикладі спонтанного мовлення… «Штучний інтелект» 2013 № 3 291 3Ю Пояснення: Г16_60с – гаусіанів у моделях фонем 16, обсяг АВ – 60 секунд. З рисунків видно, що при збільшенні обсягу АВ росте точність розпізнавання після адаптації. Результати при АВ в 30 секунд гірші за результати при АВ в 60 та 90 секунд, у свою чергу АВ в 60 та 90 секунд при 128 гаусіанах і порозі 500 та 1000 дають між собою зворотній результат. Для подальших експериментів було обрано значення порогу достат- ності даних 2000, оскільки майже в усіх випадках при ньому досягається найбільша точність і результати більш стабільні при зміні кількості класів у дереві регресії. В цьому випадку при 128 гаусіанах маємо зростання точності після адаптації від 4,5% (при 30с) до 6,5% (при 90с), при 16 гаусіанах – від 5% (при 30с) до 7% (при 90с). Спостерігається збільшення точності розпізнавання порівняно з контрольною гру- пою № 1. Висновки Отже, експерименти наявно показали доцільність застосування адаптації до го- лосу нового диктора. Було з’ясовано, що при збільшенні гаусіанів (тут конкретно від 16 до 128) спо- стерігається покращення точності розпізнавання. Одначе після адаптації більший ріст точності мав місце саме при 16 гаусіанах. Для дикторів, що брали участь у навчанні, ріст точності розпізнавання після адапта- ції був дещо більший тоді, коли АВ вибиралася з НезВ. Для дикторів, що не брали участі в навчанні, ріст точності розпізнавання після адаптації був дещо більший у порівнянні з дикторами, що брали участь у навчанні. Зменшення значення порогу призводить до збільшення кількості лінійних пере- творень. Експерименти показали, що просте зменшення значення порогу для збіль- шення кількості перетворень взагалі не призводить до автоматичного покращення точ- ності. Це стається, очевидно, з причини погіршення статистик внаслідок зменшення кіль- кості спостережень при зменшенні значення порогу. Експеримент № 3 показав, що, взагалі, бажано брати АВ обсягом не менш за 60 секунд, хоча й 30 секунд давали зростання точності. Збільшення АВ покращує результати адаптації, принаймні до якогось моменту. Задача на майбутнє – з’ясувати, коли наступає цей момент, тобто такі обсяги АВ, що подальше нарощування АВ не дає збільшення точності розпізнавання. Експерименти представили, що ми маємо впевнене зростання надійності розпізнавання після адаптації біля 4 – 5%, хоча в певних варіантах (при АВ в 90с) було й більше. У роботі [1] початкове розпізнавання було помітно більшим – майже 90%, середня надійність розпізнавання самих дикторів базового кооперативу сягала 94,32%. Після адаптації тоді було досягнуто до 6% зростання надійності, отже відносне покращен- ня було також суттєво більшим. Але все це відбулося, безсумнівно, внаслідок загалом більш сприятливих умов для розпізнавання. Література 1. Сажок М. Адаптація акустичних моделей фонем до голосу диктора для пофонемного роз- пізнавання ізольованих слів української мови / М. Сажок, Р. Селюх , О. Юхименко // Штучний інтелект. – Донецьк, 2009. – № 4. – С. 230-233. 2. Сажок М. Адаптація до голосу диктора на основі гендернозалежних акустичних моделей фонем для української мови / М. Сажок, Р. Селюх, О. Юхименко. – Оброблення сигналів і зображень та Юхименко О.А., Пилипенко В.В., Селюх Р.А. «Искусственный интеллект» 2013 № 3 292 3Ю розпізнавання образів : Десята Всеукраїнська міжнародна конференція. – Київ, 2010. – С. 59-62. 3. Young S.J. HTK Book, version 3.1 / Young S.J. [et al]. – Cambridge University, 2002. – 355 p. 4. Створення акустичного корпусу українського ефірного мовлення / [Н.Б. Васильєва, В.В. Пили- пенко, О.М. Радуцький та інш.]. – Оброблення сигналів і зображень та розпізнавання образів : Десята Всеукраїнська міжнародна конференція. – Київ, 2010. – С. 55-58. Literatura 1. Sazhok M. Adaptatsija akustychnykh modelej fonem do holosu dyktora dlya pofonemnogo rozpiznavannya izolyovanykh sliv ukrajinskoji movy / M. Sazhok, R. Selyukh , O. Yukhymenko // Shtuchnyj intelekt. – Donetsk, 2009. – № 4. – s. 230-233. 2. Sazhok M. Adaptatsija do holosu dyktora na osnovi gendernozalezhnykh akustychnykh modelej fonem dlya ukrajinskoji movy / M. Sazhok, R. Selyukh , O. Yukhymenko. – Obroblennya sygnaliv i zobrazhen ta rozpiznavannya obraziv : Desyata Vseukrajinska mizhnarodna konferenciya. – Kyiv, 2010. – s. 59-62. 3. Young S.J. HTK Book, version 3.1 / Young S.J. [et al]. – Cambridge University, 2002. – 355 p. 4. Stvorennya akustychnoho korpusu ukrajinskoho movlennya / [N.B. Vasyl’eva, V.V. Pylypenko, O.M. Radutskyj et al]. – Desyata Vseukrajinska mizhnarodna konferenciya. – Kyiv, 2010. – s. 55-58. RESUME O.A. Yukhymenko, V.V. Pylypenko, R.A. Selyukh Adaptation to New Announcer Voice for Spontaneous Speech from AKUEM Speech Corpus The article is continuation of series of experiments on adaptation to voice of new announcer of the preliminary created systems of phoneme recognition. If in previous works as units of speech signals were the isolated words, in these experiments information was used from the vocal corpus of AKUEM (mostly, spontaneous speech). The presented results of three experiments deal with the different sizes of adaptation sets and parameters of adaptation. A comparative analysis is given with the results of previous adaptation researches. The results of experiments show an improvement reliability of recognition after adaptation to voice of a new speaker. Стаття надійшла до редакції 09.04.2013.
id nasplib_isofts_kiev_ua-123456789-85194
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-12-02T10:21:09Z
publishDate 2013
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Юхименко, О.А.
Пилипенко, В.В.
Селюх, Р.А.
2015-07-21T15:27:20Z
2015-07-21T15:27:20Z
2013
Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ / О.А. Юхименко, В.В. Пилипенко, Р.А. Селюх // Искусственный интеллект. — 2013. — № 3. — С. 284–292. — Бібліогр.: 4 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/85194
004.934
Стаття присвячена питанням адаптації до голосу нового диктора попередньо створених систем пофонемного розпізнавання мовлення. Представлені результати трьох експериментів, проведених з використанням даних мовленнєвого корпусу АКУЕМ. Надається порівняльний аналіз з результатами попередніх досліджень з адаптації.
Статья посвящена вопросам адаптации к голосу нового диктора предварительно созданных систем пофонемного распознавания речи. Представлены результаты трех экспериментов, проведенных с использованием данных речевого корпуса АКУЕМ. Приводится сравнительный анализ с результатами предшествующих исследований по адаптации.
This article is devoted to the problems of adaptation to new announcer voice for speech recognition systems. The results of three adaptation experiments based on AKUEM speech corpus are described. Comparison with previous experiments are discussed.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Искусственный интеллект
Анализ и синтез коммуникационной информации
Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
Адаптация к голосу нового диктора на примере спонтанной речи из корпуса АКУЕМ
Adaptation to new announcer voice for spontaneous speech from AKUEM speech corpus
Article
published earlier
spellingShingle Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
Юхименко, О.А.
Пилипенко, В.В.
Селюх, Р.А.
Анализ и синтез коммуникационной информации
title Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
title_alt Адаптация к голосу нового диктора на примере спонтанной речи из корпуса АКУЕМ
Adaptation to new announcer voice for spontaneous speech from AKUEM speech corpus
title_full Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
title_fullStr Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
title_full_unstemmed Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
title_short Адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу АКУЕМ
title_sort адаптація до голосу нового диктора на прикладі спонтанного мовлення з корпусу акуем
topic Анализ и синтез коммуникационной информации
topic_facet Анализ и синтез коммуникационной информации
url https://nasplib.isofts.kiev.ua/handle/123456789/85194
work_keys_str_mv AT ûhimenkooa adaptacíâdogolosunovogodiktoranaprikladíspontannogomovlennâzkorpusuakuem
AT pilipenkovv adaptacíâdogolosunovogodiktoranaprikladíspontannogomovlennâzkorpusuakuem
AT selûhra adaptacíâdogolosunovogodiktoranaprikladíspontannogomovlennâzkorpusuakuem
AT ûhimenkooa adaptaciâkgolosunovogodiktoranaprimerespontannoirečiizkorpusaakuem
AT pilipenkovv adaptaciâkgolosunovogodiktoranaprimerespontannoirečiizkorpusaakuem
AT selûhra adaptaciâkgolosunovogodiktoranaprimerespontannoirečiizkorpusaakuem
AT ûhimenkooa adaptationtonewannouncervoiceforspontaneousspeechfromakuemspeechcorpus
AT pilipenkovv adaptationtonewannouncervoiceforspontaneousspeechfromakuemspeechcorpus
AT selûhra adaptationtonewannouncervoiceforspontaneousspeechfromakuemspeechcorpus