Система преобразования телерадиовещания в текст для украинского языка

Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Управляющие системы и машины
Дата:2015
Автори: Сажок, Н.Н., Робейко, В.В., Федорин, Д.Я., Селюх, Р.А.
Формат: Стаття
Мова:Російська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2015
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/112656
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862712680620490752
author Сажок, Н.Н.
Робейко, В.В.
Федорин, Д.Я.
Селюх, Р.А.
author_facet Сажок, Н.Н.
Робейко, В.В.
Федорин, Д.Я.
Селюх, Р.А.
citation_txt Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос.
collection DSpace DC
container_title Управляющие системы и машины
description Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты речи синхронно с результатом распознавания речи. Описано систему перетворення сигналу телерадіомовлення в текст для української мови та моделювання особливостей, специфічних для неї – нерегулярність лексичного наголосу та висока флективність. Розроблена система реалізує підхід клієнт–сервер і дає змогу переглядати п’ятихвилинні сегменти мовлення синхронно з результатом розпізнавання мови. Introduction: Broadcast data processing is an important task for information society. The experience in development of real-time systems for Ukrainian dictation and speech record recognition on several computational platforms is the base for the described R&D devoted to extracting text from broadcast speech signal. Methods: The modeling is focused on features that are specific particularly for Ukrainian such as lexical stress and high inflexibility. Given arguments confirm the necessity to distinguish stressed and unstressed vowels in the phoneme alphabet. Lexical stress irregularity implies expert involvement for stress assignment. To automate this procedure we implemented a data-driven stress prediction algorithm that represents words as sequences of substrings and searches for one or more sequences with the best criteria. As a Slavonic language Ukrainian is highly inflective and tolerates relatively free word order, which motivates transition from word- to class-based statistical language model. Experimental research: Modeling both stressed and unstressed vowels leads to recognition accuracy improvement. Introduction word equivalence classes to the Language Model significantly decreases RAM consumption keeping the same recognition accuracy level. The developed experimental system implements client–server approach and allows for browsing 5-minute broadcast segments synchronously with speech recognition result. Conclusion: Language-specific speech feature modeling is beneficial for a speech recognition system. The created broadcast speech-to-text system opens news prospectives for broadcast stream analysis in Ukraine.
first_indexed 2025-12-07T17:38:54Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-112656
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Russian
last_indexed 2025-12-07T17:38:54Z
publishDate 2015
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Сажок, Н.Н.
Робейко, В.В.
Федорин, Д.Я.
Селюх, Р.А.
2017-01-25T19:19:53Z
2017-01-25T19:19:53Z
2015
Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос.
0130-5395
https://nasplib.isofts.kiev.ua/handle/123456789/112656
004.934
Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты речи синхронно с результатом распознавания речи.
Описано систему перетворення сигналу телерадіомовлення в текст для української мови та моделювання особливостей, специфічних для неї – нерегулярність лексичного наголосу та висока флективність. Розроблена система реалізує підхід клієнт–сервер і дає змогу переглядати п’ятихвилинні сегменти мовлення синхронно з результатом розпізнавання мови.
Introduction: Broadcast data processing is an important task for information society. The experience in development of real-time systems for Ukrainian dictation and speech record recognition on several computational platforms is the base for the described R&D devoted to extracting text from broadcast speech signal. Methods: The modeling is focused on features that are specific particularly for Ukrainian such as lexical stress and high inflexibility. Given arguments confirm the necessity to distinguish stressed and unstressed vowels in the phoneme alphabet. Lexical stress irregularity implies expert involvement for stress assignment. To automate this procedure we implemented a data-driven stress prediction algorithm that represents words as sequences of substrings and searches for one or more sequences with the best criteria. As a Slavonic language Ukrainian is highly inflective and tolerates relatively free word order, which motivates transition from word- to class-based statistical language model. Experimental research: Modeling both stressed and unstressed vowels leads to recognition accuracy improvement. Introduction word equivalence classes to the Language Model significantly decreases RAM consumption keeping the same recognition accuracy level. The developed experimental system implements client–server approach and allows for browsing 5-minute broadcast segments synchronously with speech recognition result. Conclusion: Language-specific speech feature modeling is beneficial for a speech recognition system. The created broadcast speech-to-text system opens news prospectives for broadcast stream analysis in Ukraine.
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Информационные речевые технологии
Система преобразования телерадиовещания в текст для украинского языка
Система перетворення телерадіомовлення в текст для української мови
Broadcast Speech-to-Text System for the Ukrainian
Article
published earlier
spellingShingle Система преобразования телерадиовещания в текст для украинского языка
Сажок, Н.Н.
Робейко, В.В.
Федорин, Д.Я.
Селюх, Р.А.
Информационные речевые технологии
title Система преобразования телерадиовещания в текст для украинского языка
title_alt Система перетворення телерадіомовлення в текст для української мови
Broadcast Speech-to-Text System for the Ukrainian
title_full Система преобразования телерадиовещания в текст для украинского языка
title_fullStr Система преобразования телерадиовещания в текст для украинского языка
title_full_unstemmed Система преобразования телерадиовещания в текст для украинского языка
title_short Система преобразования телерадиовещания в текст для украинского языка
title_sort система преобразования телерадиовещания в текст для украинского языка
topic Информационные речевые технологии
topic_facet Информационные речевые технологии
url https://nasplib.isofts.kiev.ua/handle/123456789/112656
work_keys_str_mv AT sažoknn sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka
AT robeikovv sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka
AT fedorindâ sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka
AT selûhra sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka
AT sažoknn sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi
AT robeikovv sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi
AT fedorindâ sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi
AT selûhra sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi
AT sažoknn broadcastspeechtotextsystemfortheukrainian
AT robeikovv broadcastspeechtotextsystemfortheukrainian
AT fedorindâ broadcastspeechtotextsystemfortheukrainian
AT selûhra broadcastspeechtotextsystemfortheukrainian