Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови

У науковій статті пропонується підхід до синтезу зовнішньої артикуляції для задачі комп’ютерного відтворення української жестової мови на тривимірній моделі голови людини без і з урахуванням особливості фонетичної структури словоформи. Підхід дозволяє відтворювати артикуляцію губ синхронно до анімац...

Full description

Saved in:
Bibliographic Details
Published in:Штучний інтелект
Date:2010
Main Author: Тернов, А.С.
Format: Article
Language:Ukrainian
Published: Інститут проблем штучного інтелекту МОН України та НАН України 2010
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/58412
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови / А.С. Тернов // Штучний інтелект. — 2010. — № 4. — С. 304-313. — Бібліогр.: 20 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859482039871340544
author Тернов, А.С.
author_facet Тернов, А.С.
citation_txt Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови / А.С. Тернов // Штучний інтелект. — 2010. — № 4. — С. 304-313. — Бібліогр.: 20 назв. — укр.
collection DSpace DC
container_title Штучний інтелект
description У науковій статті пропонується підхід до синтезу зовнішньої артикуляції для задачі комп’ютерного відтворення української жестової мови на тривимірній моделі голови людини без і з урахуванням особливості фонетичної структури словоформи. Підхід дозволяє відтворювати артикуляцію губ синхронно до анімації жесту з використанням бази морфів візем української мови. Наведена програмна реалізація алгоритму підтвердила працездатність запропонованого підходу. В научной статье предлагается подход к синтезу внешней артикуляции для задачи компьютерного моделирования украинской жестовой речи на трехмерной модели головы человека с учетом особенностей фонетического строения слова-образа. Подход позволяет отображать синтезируемую анимацию артикуляции губ синхронно с анимацией жеста. Для синтеза используется база морфов визем украинского языка. Программная реализация алгоритма предложенного подхода показала его работоспособность. An approach to the synthesis of external articulation for the problem of computer reproduction of the Ukrainian sign language in a three-dimensional model of a human head with and without taking into account features of phonetic structure of word forms is proposed in this paper. The approach allows one to reproduce the articulation of lips synchronously with gesture animation using a database of morphs of the Ukrainian language visemes. The implementation of the software of an algorithm described proves functionality of the proposed approach.
first_indexed 2025-11-24T13:53:08Z
format Article
fulltext «Искусственный интеллект» 4’2010 304 4Т УДК 004.932.751 А.С. Тернов Інститут кібернетики ім. В.М. Глушкова НАН України, м. Київ, Україна anton.ternov@gmail.com Поскладово-віземний синтез зовнішньої артикуляції для задачі комп’ютерного відтворення української жестової мови У науковій статті пропонується підхід до синтезу зовнішньої артикуляції для задачі комп’ютерного відтворення української жестової мови на тривимірній моделі голови людини без і з урахуванням особливості фонетичної структури словоформи. Підхід дозволяє відтворювати артикуляцію губ синхронно до анімації жесту з використанням бази морфів візем української мови. Наведена програмна реалізація алгоритму підтвердила працездатність запропонованого підходу. Вступ і постановка задачі Жестова мова зазвичай супроводжується артикуляцією губ, яка, разом з емоційни- ми проявами на обличчі, є допоміжним каналом передачі інформації [1]. Так, для людей з вадами слуху розуміння мовної інформації покращується при можливості бачити обличчя співрозмовника. Дослідження [2] показали, що це справедливо не тільки для обличчя реальної людини, а і для синтезованого обличчя аватару, споглядання імітації артикуляції якого поліпшує рівень сприйняття природної мови в умовах з низьким рівнем співвідношення сигнал-шум. Тому для правильної інтерпретації синтезованої жестової мови необхідно враховувати весь інформаційний комплекс, який супроводжує жест. Окрім цього, однією з проблем при спілкуванні глухих з іншими людьми є вміння сприймати та розуміти усне мовлення, оскільки звичайні люди загалом не знають і не вивчають мову жестів. З цього погляду задача синтезу мімічних та артикуляційних проя- вів на обличчі є альтернативою мовного спілкування для людей з вадами слуху. Питання анімації артикуляції тісно пов’язані з задачами розробки аудіовізуальних систем. Але, незважаючи на суттєве просунення у вирішенні задач синтезу візуальної складової мовного процесу, комплексно проблема залишається невирішеною, тому що існуючі підходи мають локальний характер відповідно до задачі та предметної області і є мовозалежними. Так, розробкою методів моделювання міміки займаються у багатьох країнах світу, зокрема в Америці [3], Швеції [4], Англії [5], Німеччині [6], [7] та інших [8], [9], [10]. Більшість робіт спрямовані на задачі створення аудіовізуальних систем для розробки локалізацій інтелектуальних комп’ютерних інтерфейсів та інтерфейсів для мобільних телефонів з синтезом зорової складової мовного процесу людини (деякі з них безпосередньо присвячені питанням інтеграції людей з вадами слуху у суспільство [5], [8]). Особливості мовленнєвого процесу української мови, зумовлені відмінностями як у фонетиці, так і морфології, вимагають перегляду та адаптації існуючих підходів до за- дачі відтворення зовнішнього артикуляційного процесу при синтезі української жестової мови. З цього погляду дослідження І.К. Білодіда [11] з тематики артикуляційних особ- ливостей при промовлянні у сучасній українській літературі та мові можуть бути покладені в основу підходу до синтезу міміки та артикуляції в українській жестовій мові. А в силу подібності за фонетикою російської мови до української, цінність мають роботи А.Л. Воскресенського [12], які направлені на створення цифрового жестівника Поскладово-віземний синтез зовнішньої артикуляції... «Штучний інтелект» 4’2010 305 4Т російської жестової мови. Слід також відзначити результати досліджень [13], які вилились у рекомендації з анімації мімічних проявів та артикуляції при відтворенні розмовної англійської та російської мови з використанням 3D-моделі голови людини. Крім проблем, пов’язаних з локалізацією мови, мають місце і такі чинники: – при відтворенні жестової мови існують деякі особливості зовнішньої артику- ляції (наприклад, артикуляція, яка супроводжує жестові одиниці, чи частково, чи зовсім не пов’язана з розмовною мовою) [14]; – внаслідок лише логічної відповідності між жестом та фонетичною структурою слова, яке має анімуватися артикуляцією, часові проміжки для жестової анімації і ані- мації процесу артикуляції чуючої людини можуть відрізняться досить суттєво [15]. Саме тому, для природності відтворення артикуляції при синтезі жестової мови, на відміну від задач аудіовізуального синтезу, необхідно провести синхронізацію артику- ляції з анімацією жесту. На практиці сурдоперекладачі природно сповільнюють процес вимови на обличчі, коли можуть виникнути запізнення за часом процесу показу жесту (час для показу жесту більший, ніж час для артикуляції слова в нормальному темпі). Проведений аналіз існуючих робіт з даної тематики визначив напрямок дослід- жень і постановку задачі. Постановка задачі. Необхідно синтезувати природну артикуляцію для процесу візуалізації української жестової мови на тривимірній моделі людини з синхронізацією часових проміжків анімації артикуляції та анімації жесту. – підхід до синтезу має узгоджуватись з загальною концепцією технології не- вербального спілкування людей з вадами слуху; – підхід має враховувати особливості артикуляції при відтворенні української мови. Вважається, що кожен жест має своє слово-образ (слово чи набір слів українсь- кої мови у нормальній словоформі). Синтез жестової мови Задача синтезу візуальної складової артикуляційного і мімічного процесу є складо- вою задачі синтезу жестової мови і буде залежати від підходу до реалізації останньої. Можна виділити два принципово різних підходи до синтезу жестової мови: 1. Статичний. Прикладами можуть слугувати жестівники та тлумачі жестової мови з набором жестових одиниць та сталих виразів. Із реченням чи словом розмовної мови зіставляється його аналог у жестовій мові. Формат даних: паперовий, відеодиски, про- грамні продукти (прикладні програми, інтернет-плагіни та сервіси), які використовують відеофайли та анімовані зображення [12]. Внаслідок специфіки формату даних та склад- ності реалізації плавності переходів такий підхід не дозволяє генерувати чи синтезувати жестові речення та нові жестові одиниці окрім тих, що містяться в базі. 2. Динамічний. Формат даних: відцефровані чи змодельовані рухи та міміка лю- дини – носія жестової мови. При такому підході є можливість використовувати жестові одиниці для продукування жестової мови [5], [16]. Може використовуватись в системах синхронного чи асинхронного сурдоперекладу текстової, мовної чи відеоінформації, для створення інтелектуальних інтерфейсів для людей з вадами слуху. У зв’язку з розвитком цифрових технологій та потужності (продуктивності) ком- п’ютерної техніки особливу цікавість становить другий підхід, який дозволяє створю- вати інтелектуальні інтерфейси та гіпермедійні технології і засоби для розробки нав- чальних систем і систем штучного інтелекту. Основні проблеми і задачі динамічного підходу: – для отримання можливості динамічного відтворення жестової мови необхід- но мати її формальний опис чи представлення, як, наприклад, для BSL (British Sign Language) та DGS (German Sign Language) у форматі Гамбурзької системи нотації Тернов А.С. «Искусственный интеллект» 4’2010 306 4Т (HamNoSys language) [10]. Формальний опис використовується для розробки алгорит- мів та підходів до синтезу речень жестової мови з жестових одиниць. Необхідною для розв’язання є задача моделювання людиноподібних переходів при конкатенації елементів візуального синтезу [4], [9]. – моделювання людиноподібного аватару. Використання аватару з високою дета- лізацією для моделювання рухів людини з анімацією міміки та артикуляції і врахуван- ням природних для людини рухів голови під час розмови жестовою мовою [16], [17]. Тому в роботі [12] відмічається складність створення аватару для продукування жестової мови. В Україні поки що не створено повного формального опису для української жестової мови, який задовольняв би наведеним вимогам. Розробками в даному напрям- ку займаються у лабораторії жестової мови [18], але дослідження мають методологічний характер і направлені на розробку теоретико-методичних засад використання жестової мови у навчанні нечуючих та створенні навчальних курсів та методичних посібників для навчального процесу з вивчення української жестової мови. Тому для розв’язання за- дачі моделювання людиноподібного аватару в роботі [16] авторами запропонована інфор- маційна технологія невербального спілкування для людей з вадами слуху, яка містить у собі функціональність з синтезу: рухів жестової мови, дактильної абетки, артикуляційної й емоційної міміки на тривимірній моделі людини. Елементами для синтезу жестової мови виступає множина відцифрованих жестів та відповідних їм нормальних форм слів розмовної мови. Формальна модель жестової мови має спрощену структуру, але враховує основні вимоги щодо подання жестів, емоцій та артикуляції. Приклад речення жестовою і розмовною українською мовами: «[ФОТО] [!INTORREGATIVE!ХТО]» = «Хто на фото?» Для реалізації модуля синтезу правильної міміки й артикуляції на тривимірній моделі людини необхідно було вирішити ряд проблем, винесених в постановку задачі даної статті. Синтез та синхронізація артикуляції У задачах анімації мовленнєвого процесу на моделі голови людини існує декілька різних підходів до синтезу процесу артикуляції. Класифікація вживаних методів ба- зується на відмінностях у типі даних, які доступні для синхронізації: – текстові дані: на вхід системи подається текст, який транскрибується в послідов- ність фонем. Ця інформація використовується для генерації синтезованої мови та синхро- нізації артикуляції; – мовні (голосові) дані: на вхід подається звуковий запис мови. Аналізується аудіо- файл для отримання послідовності фонем та часових тривалостей [19]; – комбінований текстово-мовний підхід: текст і його фонетичне подання використо- вується для пошуку часових границь мовних сегментів у звуковому сигналі для того, щоб отримати інформацію о тривалостях елементів анімації. Для задачі синхронізації артикуляції з жестом у роботі пропонується моди- фікація комбінованого підходу, яка використовує текстові дані, а також додаткову інформацію про часову тривалість звучання фонем та їх часові границі для конкрет- ного слова. Цю додаткову інформацію було отримано з даних, занесених в принципи роботи звукового синтезатора, реалізованого у технології [6], який використовує ре- зультати досліджень І.К. Білодіда [11], та структури подання синтезатором слова. Інформація, яка використовується для синхронізації, отримується на етапі обробки текстового подання нормальної словоформи відповідно до жесту. Схема процесу об- робки наведена на рис. 1. Поскладово-віземний синтез зовнішньої артикуляції... «Штучний інтелект» 4’2010 307 4Т Рисунок 1 – Вхідні дані для різних методів Приклад роботи віземізатора для вхідної нормальної словоформи «багато» на- ведено на рис. 2. Рисунок 2 – Приклад роботи віземізатора для слова «багато»: де «ПБМ», «А» та інші – назви візем, «|» – границі сегментів, «(7)» – кількість кадрів анімації без синхронізації для кожної віземи Елементами блоку «віземізатора» є віземи. У роботах [11], [20] робиться висновок, що візуальний алфавіт мови є істотно неповним. У ньому немає однозначної відповід- ності між вимовленою фонемою і її візуальним відображенням, що знижує можливості зорового сприйняття мови. Фонеми, які виглядають подібними одна до одної, під час артикуляції можна віднести до однієї групи, яка називається віземою. Тобто елементами візуального алфавіту виступають віземи (віземи для української мови [20]). У проведе- них дослідженнях використовувалась бібліотека візем для української мови, принципи побудови якої було описано в роботі [15]. Загальна схема процесу синхронізації анімації артикуляції з жестом зображена на рис. 3. Рисунок 3 – Схема синтезу анімації артикуляції і міміки Cинтезатор База жестів Механізми відображення Віземізатор Бібліотека морфів емоцій Бібліотека візем укр. мови Генератор морфів Синхронізатор Бібліотека морфів Меш моделі голови людини слово тривалість жесту значення ф-ції розподілу по кадрах віземне подання слова Синтезатор Слово Послідовність фонем Послідовність фонем Віземізатор Віземне подання слова Інформація про тривалості фонем у слові Тернов А.С. «Искусственный интеллект» 4’2010 308 4Т Для природності анімації артикуляції пропонується робити синхронізацію шляхом деформування часових границь сегментів, що відповідають голосним фонемам. З деяких міркувань особливості артикуляції щілинних звуків [11], до класу фонем, що можуть змі- нювати часовий проміжок, також можна включити фонеми, які відповідають віземам «ВФ» та «ШЖЧДж», якщо вони стоять на початку слова і наступним іде приголосний звук. У дослідженні розглядалось два методи синхронізації з урахуванням і неврахуван- ням віземної структури слова. Відмінності будуть відображатися на часових діаграмах. Повіземний синтез і синхронізація. Для синхронізації з анімацією жесту змі- нюються часові проміжки, які безпосередньо відповідають голосним фонемам. Такий підхід мав за мету отримати потрібний результат без додаткових перетворень і враху- вання фонемної структури слова, бо голосні фонеми мають яскраво виражений візуаль- ний портрет (візему) [11], [13] і зміни в часі звучання не мали би зменшити рівень сприйняття візуальної інформації (в даному випадку – артикуляції). Рисунок 4 – Часова діаграма для повіземного синтезу зі синхронізацією Нехай lv – візема, яка стоїть на l -у місці у слові-образі (рис. 4), vV – множина голосних візем (віземи голосних фонем), cV – множина приголосних візем, signT – час показу жесту, c it – тривалість приголосного звуку i , v jt – тривалість голосного звуку j в слові-образі жесту. Усі мовні конструкції промовлялись у нормальному для людини темпі. Синтезоване слово зображено послідовністю таких тривалостей, наприклад, ( vccvc ttttt 23211 ,,,, ). Поклавши: ∑= i v i v sign tT , ∑= j c j c sign tT , перехзавершпідгtrans tittT ⋅−−++= )12/)1(( , (1) trans c signsigntrans j c jsigndif TTTTtTT −−=−−= ∑ , (2) де підгt , завершt – час, необхідний на підготовку м’язів роту для анімації першої віземи, та повернення у стан спокою відповідно, перехt – час переходу між віземами , а transT – відповідає за загальний час усіх перехідних станів. Час переходу між віземами вва- жався однаковим для усіх переходів. Тоді послідовність тривалості візем для синтезу зовнішньої артикуляції матиме такий вигляд: ( vccvc tptttpt 23211 ,,,, ⋅⋅ ), де v signdif TTp = . Визначаючи частоту появи кадрів ω , можна навести характеристики тривалості в кадрах ][ ω⋅= tk . У дослідженнях [15] синхронність до анімації жесту завжди мала місце, але при такому підході добре (природно) синтезувались лише слова-образи довжиною 4, 6 фо- нем з СV-складами («ма-ти», «ба-га-то» і таке інше). Нереалістично відображались склад- ні слова-образи («покласти», «скільки»). Тому було вирішено враховувати фонетичну структуру слова-образу. … n0 = 0 ni = N n1 n2 n2 ni-2 ni-1 tпідгот. tзаверш. 1vt … n3 tперех Tsign 2/)1( −ivt 2vt 1v 2v 2/)1( −iv Поскладово-віземний синтез зовнішньої артикуляції... «Штучний інтелект» 4’2010 309 4Т Поскладовий синтез і синхронізація. Принцип синхронізації, який покладено в основу цього підходу, має за своє підґрунтя вдале використання його аналога в задачах синхронізації анімації з мовним сигналом [4]. Так, кількість фреймів для анімації жесту розподіляється між «складами», а не віземами слова-образу. У проведених дослідженнях розглядався рівномірний розподіл часу. Під складом s розуміється послідовність візем (фонем): 1 ( ,.., ) k kk l ls v v ρ = , k llk ρ,, 1 K – послідовні індекси візем слова подання 1 1 i ik kl l + − = . При- чому для 21,kk∀ , для складів 21 , kk ss виконується наступне: ],[ 22 1 1 1 k lll kk ρ∉ і 2/)1( −=∑ i k kρ . Тобто склади не порожні і не перетинаються. S – множина складів слова-образу. Рисунок 5 – Часова діаграма для поскладового синтезу з синхронізацією Особливості перетворення слова синтезатором у фонемне подання (рис. 1) можуть призвести до випадків появи «складів» без голосної фонеми. Нехай «склад» називається повним, коли в ньому присутня голосна фонема. Множина повних складів познача- тиметься =completeS { ms | v l Vvq qm ∈∃ : }, completeincomplete SSS −= . Нехай: ∑ = = m kmlm k vs tt ρ 1 , ∑ ∈ = complete m m Ss scomplete tT , ∑ ∈ = incomplete m m Ss sincomplete tT , (3) ),( 1 kkk складскладперех ttft − = , ∑ −− ++= 12/)1(i k перехзавершпідгtrans k tttT , (4) transincompletesigndif TTTT −−= , (5) де kперехt залежить від попереднього і наступного складу, incompleteT – час, який би займала анімація неповних складів. Усі базові часові характеристики – це дані, отри- мані від звукового синтезатора без синхронізації до жесту. Для врахування синхронізації деформуватися будуть лише повні склади за формулою: mm складсклад tpt ⋅= ,     ∈ = іншеTT Ss p completedif incomplete складm ,/ ,1 . (6) При такому підході можна застосовувати алгоритми до анімації візуально-голосо- вої мовної інформації (наприклад, [13]) в межах складу, не порушуючи синхронність. Загальним недоліком обох підходів до синхронізації артикуляції губ з жестом є те, що вони не враховують елементи синтезу при невикористанні чи відсутності відповід- ного слова-образу. Але це буде несуттєвим, якщо враховувати обмеження задачі пере- творення розмовної мови в жестову з використанням лише бази жестових елементів зі словами-образами, як у навчальних посібниках для жестової мови [18]. У дослідженнях множина жестів була також обмежена жестами, які мають слово-образ, що зумовлено від- сутністю наповнення бази морфів унікальними для відтворення жестової мови морфами емоційних проявів невербальної природи для передачі додаткової інформації про жест. Для включення їх до розгляду та врахування зазначеного недоліку необхідно провести додаткові дослідження. … n0=0 nj=N n1 n2 n2 nj-2 nj-1 tпідгот tзаверш tсклад1 tсклад2 … n3 tперех1 Tsign tсклад(j-1)/2 s1 s2 s(j-1)/2 Тернов А.С. «Искусственный интеллект» 4’2010 310 4Т Результати експериментальних досліджень Для тестування запропонованого підходу було створене відповідне програмне за- безпечення мовою C# (рис. 6), яке дозволяє дослідити вплив зміни параметрів моделі на зрозумілість та розбірливість синтезованої зовнішньої артикуляційної складової мовлен- нєвого процесу при відтворенні жестової мови. Метою дослідження не була розробка нового 3D-аватару з власною системою м’язів та морфів, тому для тестових прикладів була використана стандартна модель Симон з Poser 7 [16], яка дозволяє реалістично моделювати більшість емоційних проявів на облич- чі людини та має функціональність для створення власних морфів з урахуванням рухів основних зовнішніх артикуляторів (щелеп, язика) і яка, на відміну від інших програм- них засобів (Maya, 3D Studio Max), була розроблена безпосередньо для комп’ютерного моделювання людини. Усі базові віземи та емоційні стани були отримані за допомогою функціональності Face Morph. Додаткові морфи емоцій було побудовано з використан- ням тестової версії програмного продукту FaceGen Modeller [3]. Рисунок 6 – Головне вікно програмної реалізації Для кодування та передачі інформації про мімічний стан моделі голови було роз- роблено власний формат даних, який використовується в розробках [16], до складу яко- го входить опис мешу 3D-моделі з відповідними морфами візем і емоцій, що винесені в окрему бібліотеку для їх незалежного редагування окремо від самої моделі людини. Таблиця 1 – Морфи візем, створені за допомогою Face Morph А О ІИ Й ШЖЧДж ПБМ Р Е У КГХГк Т'Д'Н' ФВ ТДНЛ СЗЦДз У дослідженнях параметрами системи виступали тривалості переходів між візе- мами та складами візем, різні варіанти початку та кінця артикуляційного мовлення, різні підходи до синхронізації зовнішньої артикуляції з жестом (тривалості показу візем), але для спрощення constt kперех = . Для кожного слова-образу, через обмеження на кількість кадрів анімації, наве- дені параметри варіювалися в залежності від часових характеристик елементів його структури з метою максимізації кількості кадрів для плавної анімації переходу між складами візем ( ][ ω⋅перt ) без втрати правильності сприйняття. Для виконання вимоги Поскладово-віземний синтез зовнішньої артикуляції... «Штучний інтелект» 4’2010 311 4Т синхронізації та невід’ємності часу анімації на формулу 5 накладається обмеження: 0>difT . (7) У дослідженнях 33=ω , підготt і завершt обирались таким чином, щоб анімація з під- готовки та завершення вимови була природною. При виконанні обмеження (7) єдиним додатковим обмеженням параметрів з підготовки і завершення анімації артикуляції буде лише таке: щоб кількість кадрів для їх анімації була не менше трьох [13]. Це робиться для того, щоб досягти мінімальної плавності переходу від і до стану спокою. При великих значеннях цих параметрів аватар буде трохи «втомлено» починати «розмову». Для дея- ких слів-образів величини параметрів моделі (3 – 6) наведені у табл. 2. Таблиця 2 – Часові параметри тривалості у мілісекундах Час \ слово-образ «ДАКТИЛЮВАТИ» «ДАТИ» «БАТЬКО» Час початку анімації 0,091 0,15 0,12 Час анімації переходу 0,105 0,18 0,14 Час кінця анімації 0,091 0,15 0,12 На тестовій вибірці з 50 жестів поскладова синхронізація анімації слова-образу з жестом виявилась кращою у порівнянні з повіземною синхронізацією без врахування фонетичної структури, бо вдалося врахувати пропорційність часу анімації складу в роз- мовній мові (точки початку анімації складів розташовуються відповідно до внутрішньої будови складу) та можливість робити додаткові модифікації у способах анімації пере- ходів у складі без зміни положень точок початку анімації складів. а) з врахуванням складової структури слова б) без врахування Рисунок 7 – Приклад послідовності артикуляції слова-образу «мати» Вагові коефіцієнти показу візем обчислюються з використанням функції розпо- ділу за кадрами [15]. Вагові коефіцієнти функції розподілу за кадрами подано графі- ками на рис. 8 а) б) Рисунок 8 – а) з врахуванням складової структури слова, б) без врахування ПБМ А ТДН ІИ 0 66 ПБМ А ТДН ІИ 660 Тернов А.С. «Искусственный интеллект» 4’2010 312 4Т Для аналізу якості результату синтезу використовувалась суб’єктивна модель оцін- ки сприйняття, що має за основу оцінку (висновок), отриманий від експерта в галузі сурдоперекладу, та оцінку схожості графіків відхилення чотирьох точок, які відпові- дають за верхню topT , нижню botT точки роту і кути роту leftT і rightT . Для побудови графі- ків відносної зміни точок спостереження аналізувались послідовності віднормованих і відорієнтованих зображень областей губ сурдоперекладача і моделі голови людини при відтворенні жестової мови (рис. 9). 0 0,2 0,4 0,6 0,8 1 1,2 0 20 40 60 80 100 120 0 0,2 0,4 0,6 0,8 1 1,2 0 20 40 60 80 100 120 а) б) Рисунок 9 – Для жесту «мама»: а) нормовані відхилення для верхньої точки роту; б) для нижньої точки роту Висновки Наведена програмна реалізація алгоритму поскладово-віземного синтезу підтвер- дила працездатність запропонованого підходу до синхронізації анімації артикуляції і ані- мації жесту. Запропонований підхід дозволяє проаналізувати вплив зазначених пара- метрів часової діаграми анімації слова-образу відповідно до створеної бази візем і емо- цій з метою покращення останньої за рахунок розширення чи заміни її складових елемен- тів на ті, які поліпшать візуальне сприйняття зовнішньої артикуляції в деяких переходах між віземами чи «мовними» конструкціями (складами). Подальші дослідження будуть спрямовані на: – на врахування різних типів коартикуляції в складах візем української мови для покращення природності візуального сприйняття; – на використання нерівномірного розподілу часу між складами в залежності від його структури і його фонетичних властивостей (наголошеності чи ненаголоше- ності і таке інше); – на розробку алгоритмів, які будуть враховувати особливості впливу артику- ляції наступного звуку іншого складу на попередній. Також планується включити до розгляду мімічні прояви та артикуляцію, яка є унікальною для жестової мови. Задачі синтезу тісно пов’язані з класом задач з розпізнавання зорових образів і створення навчальних програм для чуючих людей з метою покращення артикуляції губ для їх більш точного розпізнавання. Тому дана робота також мала за мету отримати нові знання і додаткову інформацію про природу та механізми артикуляції губ людини при відтворенні жестової мови для виявлення прихованих параметрів. Отримані параметри будуть використані для проведення подальших досліджень з розпізнавання зовнішньої артикуляції мовного процесу [20] з метою створення системи розпізнавання та аналізу мімічних проявів на обличчі людини – носія жестової мови. Література 1. Чистович Л.А. Речь. Артикуляция и восприятие / Л.А. Чистович, В.А. Кожевников. – М. ; Л. : Наука, 1965. – 242 с. 2. Beskow J. The Teleface project – disability, feasibility and intelligibility [Електронний ресурс] / [J. Beskow, M. Dahlquist, B.Granström, M. Lundeberg, T. Öhman]. – Режим доступу : http://www.speech.kth.se/ ~beskow/papers/fon97teleface.pdf. 3. Parke F. Computer Facial Animation / Frederic I. Parke, Keith Waters. – A.K. Peters Ltd. Wellesley, 2008. – 454 p. Поскладово-віземний синтез зовнішньої артикуляції... «Штучний інтелект» 4’2010 313 4Т 4. Beskow J. Trainable Articulatory Control Models for Visual Speech Synthesis / J. Beskow // Journal of Speech Technology. – 2004. – № 7(4) – P. 335-349. 5. Glauert J. Virtual Human Signing as Expressive Animation / [J. Glauert, R. Kennaway, R. Elliott, B.-J. Theo- bald] // In Symposium on Language, Speech and Gesture for Expressive Characters. – University of Leeds, 2004. – P. 98-106. 6. Damien P. Phoneme-Viseme Mapping for German Video-Realistic Audio-Visual-Speech-Synthesis [Елект- ронний ресурс] / P. Damien, N. Wakim, M. Egea – Режим доступу : http://www.sk.uni-bonn.de/forschung/ ikp-arbeitsberichte-neue-folge/ikpab-nf11.pdf 7. Tümmler J. Avatare in Echtzeitsimulationen / Jörn Tümmler // Master thesis, Kassel University Press. – Germany, December. – 2007. – 192 p. 8. Verlinden M. Multimedia with Animated Sign Language for Deaf Learners / M. Verlinden , I. Zwitserlood, Frowein H. // In P. Kommers & G. Richards (Eds.), Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications. – Montreal, Canada, 27 June 2005. – P. 4759-4764. 9. .Belkowska J. Audiovisual Synthesis of Polish Using Two- and Three-Dimensional Animation / J. Belkowska, A. Glowienko, K. Marasek // Computer vision and graphics: International conference, ICCVG 2004, Warsaw. – 2004. – Vol. 32. – P. 1082-1087. 10. Kennaway R. Experience with and requirements for a gesture description language for synthetic animation / R. Kennaway // Lecture Notes in Computer Science. – 2004. – Vol. 2915. – P. 300-311. 11. Білодід І.К. Сучасна українська літературна мова / Білодід І.К. – К. : Ін-т мовознавства ім. О.О. По- тебні ; Наукова думка, 1969. – 435 с. 12. Воскресенский А.Л. От звучащей речи к жестовой / А.Л. Воскресенский, Г.К. Халагин // Речевые технологии. – 2009. – № 1. – С. 99-106. 13. Флемінг Б. Методы анимации лица. Мимика и артикуляция / Б. Флемінг, Д. Доббс ; [пер. с англ.]. – М. : ДМК Пресс, 2002. – 336 с. 14. Жестова мова й сучасність: збірник наукових праць, випуск 3 / ред. кол., головний ред. В.В. Засенко. – К. : Педагогічна думка, 2008. – 192 с. 15. Крак Ю.В. Синтез зовнішнього артикуляційного процесу на обличчі людини для моделювання жес- тової мови / Ю.В. Крак, А.С. Тернов // Журнал обчислювальної та прикладної математики. – 2009. – № 3(99). – С. 48-56. 16. Кривонос Ю.Г. Інформаційна технологія для моделювання української мови жестів / Ю.Г. Кривонос, Ю.В. Крак О.В. Бармак [та ін.] // Искусственный интеллект. – 2009. – № 3. – С. 186-197. 17. Gaglio S. A Java3D Talking Head for a Chatbot / [Salvatore Gaglio, Giovanni Pilato, Roberto Pirrone, Orazio Gambino, Agnese Augello, Alessandro Caronia] // International Conference on Complex, Intelligent and Software Intensive Systems (CISIS 2008). – Barcelona, Spain, 4 – 7 March, 2008. – P. 709-714 18. Адамюк Н.Б. Програма-комплекс «Українська жестова мова» [Електронний ресурс] / Адамюк Н.Б. – Ре- жим доступу : http://www.mon.gov.ua/main.php?query=education/average/programs_ gluh. – Назва з екрана. 19. Kohnert C.J. Lip Synchronization Using Linear Predicitve Analysis / C.J. Kohnert, Sudhanshu Kumar Semwal // Proceedings of the IASTED International Conference on SignalProcessing, Pattern Recognition, and Applica- tions, SPPRA2006. – Innsbruck, Austria, 15 – 17 February, 2006. – P. 210-215. 20. Крак Ю.В. Информационная технология для автоматического чтения по губам украинской речи / Ю.В. Крак, О.В. Бармак, А.С. Тернов // Комп’ютерна математика. – 2009. – № 1. – C. 86-95. А.С. Тернов Слогово-виземный синтез внешней артикуляции для задачи компьютерного воспроизведения украинской жестовой речи В научной статье предлагается подход к синтезу внешней артикуляции для задачи компьютерного моделирования украинской жестовой речи на трехмерной модели головы человека с учетом особенностей фонетического строения слова-образа. Подход позволяет отображать синтезируемую анимацию артикуляции губ синхронно с анимацией жеста. Для синтеза используется база морфов визем украинского языка. Программная реализация алгоритма предложенного подхода показала его работоспособность. A.S. Ternov Syllable-Viseme Synthesis of External Articulation for the Problem of Computer Reproduction of Ukrainian Sign Language An approach to the synthesis of external articulation for the problem of computer reproduction of the Ukrainian sign language in a three-dimensional model of a human head with and without taking into account features of phonetic structure of word forms is proposed in this paper. The approach allows one to reproduce the articulation of lips synchronously with gesture animation using a database of morphs of the Ukrainian language visemes. The implementation of the software of an algorithm described proves functionality of the proposed approach. Стаття надійшла до редакції 19.07.2010.
id nasplib_isofts_kiev_ua-123456789-58412
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Ukrainian
last_indexed 2025-11-24T13:53:08Z
publishDate 2010
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Тернов, А.С.
2014-03-23T15:29:34Z
2014-03-23T15:29:34Z
2010
Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови / А.С. Тернов // Штучний інтелект. — 2010. — № 4. — С. 304-313. — Бібліогр.: 20 назв. — укр.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/58412
004.932.751
У науковій статті пропонується підхід до синтезу зовнішньої артикуляції для задачі комп’ютерного відтворення української жестової мови на тривимірній моделі голови людини без і з урахуванням особливості фонетичної структури словоформи. Підхід дозволяє відтворювати артикуляцію губ синхронно до анімації жесту з використанням бази морфів візем української мови. Наведена програмна реалізація алгоритму підтвердила працездатність запропонованого підходу.
В научной статье предлагается подход к синтезу внешней артикуляции для задачи компьютерного моделирования украинской жестовой речи на трехмерной модели головы человека с учетом особенностей фонетического строения слова-образа. Подход позволяет отображать синтезируемую анимацию артикуляции губ синхронно с анимацией жеста. Для синтеза используется база морфов визем украинского языка. Программная реализация алгоритма предложенного подхода показала его работоспособность.
An approach to the synthesis of external articulation for the problem of computer reproduction of the Ukrainian sign language in a three-dimensional model of a human head with and without taking into account features of phonetic structure of word forms is proposed in this paper. The approach allows one to reproduce the articulation of lips synchronously with gesture animation using a database of morphs of the Ukrainian language visemes. The implementation of the software of an algorithm described proves functionality of the proposed approach.
uk
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки изображений
Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
Слогово-виземный синтез внешней артикуляции для задачи компьютерного воспроизведения украинской жестовой речи
Syllable-Viseme Synthesis of External Articulation for the Problem of Computer Reproduction of Ukrainian Sign Language
Article
published earlier
spellingShingle Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
Тернов, А.С.
Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки изображений
title Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
title_alt Слогово-виземный синтез внешней артикуляции для задачи компьютерного воспроизведения украинской жестовой речи
Syllable-Viseme Synthesis of External Articulation for the Problem of Computer Reproduction of Ukrainian Sign Language
title_full Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
title_fullStr Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
title_full_unstemmed Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
title_short Поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
title_sort поскладово-віземний синтез зовнішньої артикуляції для задачі комп'ютерного відтворення української жестової мови
topic Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки изображений
topic_facet Интеллектуальные интерфейсы и распознавание образов. Системы цифровой обработки изображений
url https://nasplib.isofts.kiev.ua/handle/123456789/58412
work_keys_str_mv AT ternovas poskladovovízemniisintezzovníšnʹoíartikulâcíídlâzadačíkompûternogovídtvorennâukraínsʹkoížestovoímovi
AT ternovas slogovovizemnyisintezvnešneiartikulâciidlâzadačikompʹûternogovosproizvedeniâukrainskoižestovoireči
AT ternovas syllablevisemesynthesisofexternalarticulationfortheproblemofcomputerreproductionofukrainiansignlanguage