Система преобразования телерадиовещания в текст для украинского языка
Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты...
Gespeichert in:
| Veröffentlicht in: | Управляющие системы и машины |
|---|---|
| Datum: | 2015 |
| Hauptverfasser: | , , , |
| Format: | Artikel |
| Sprache: | Russisch |
| Veröffentlicht: |
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
2015
|
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/112656 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860120874172022784 |
|---|---|
| author | Сажок, Н.Н. Робейко, В.В. Федорин, Д.Я. Селюх, Р.А. |
| author_facet | Сажок, Н.Н. Робейко, В.В. Федорин, Д.Я. Селюх, Р.А. |
| citation_txt | Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос. |
| collection | DSpace DC |
| container_title | Управляющие системы и машины |
| description | Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты речи синхронно с результатом распознавания речи.
Описано систему перетворення сигналу телерадіомовлення в текст для української мови та моделювання особливостей, специфічних для неї – нерегулярність лексичного наголосу та висока флективність. Розроблена система реалізує підхід клієнт–сервер і дає змогу переглядати п’ятихвилинні сегменти мовлення синхронно з результатом розпізнавання мови.
Introduction: Broadcast data processing is an important task for information society. The experience in development of real-time systems for Ukrainian dictation and speech record recognition on several computational platforms is the base for the described R&D devoted to extracting text from broadcast speech signal. Methods: The modeling is focused on features that are specific particularly for Ukrainian such as lexical stress and high inflexibility. Given arguments confirm the necessity to distinguish stressed and unstressed vowels in the phoneme alphabet. Lexical stress irregularity implies expert involvement for stress assignment. To automate this procedure we implemented a data-driven stress prediction algorithm that represents words as sequences of substrings and searches for one or more sequences with the best criteria. As a Slavonic language Ukrainian is highly inflective and tolerates relatively free word order, which motivates transition from word- to class-based statistical language model. Experimental research: Modeling both stressed and unstressed vowels leads to recognition accuracy improvement. Introduction word equivalence classes to the Language Model significantly decreases RAM consumption keeping the same recognition accuracy level. The developed experimental system implements client–server approach and allows for browsing 5-minute broadcast segments synchronously with speech recognition result. Conclusion: Language-specific speech feature modeling is beneficial for a speech recognition system. The created broadcast speech-to-text system opens news prospectives for broadcast stream analysis in Ukraine.
|
| first_indexed | 2025-12-07T17:38:54Z |
| format | Article |
| fulltext |
66 УСиМ, 2015, № 6
Информационные речевые технологии
УДК 004.934
Н.Н. Сажок, В.В. Робейко, Д.Я. Федорин, Р.А. Селюх
Система преобразования телерадиовещания в текст для украинского языка
Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфи-
ческих для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–
сервер и позволяет просматривать пятиминутные сегменты речи синхронно с результатом распознавания речи.
Ключевые слова: распознавание речи, телерадиовещание, языковые особенности, украинский язык.
Описано систему перетворення сигналу телерадіомовлення в текст для української мови та моделювання особливостей, спе-
цифічних для неї – нерегулярність лексичного наголосу та висока флективність. Розроблена система реалізує підхід клієнт–
сервер і дає змогу переглядати п’ятихвилинні сегменти мовлення синхронно з результатом розпізнавання мови.
Ключові слова: розпізнавання мовлення, телерадіомовлення, мовні особливості, українська мова.
Введение. Распознавание речи находит новые
сферы применения в информационном обществе.
Одна из таких сфер – обработка медийной ин-
формации, в частности теле- и радиовещания.
Существует ряд преимущественно эксперимен-
тальных и вспомогательных систем, в которых
автоматизированы генерирование субтитров и
поиск информации для английского и других
языков, в основном европейских [1, 2]. В основе
таких систем лежит технология распознавания
речи, предназначенная для преобразования в
текст сигнала, принимаемого из определенных
источников вещания и соответствующая опреде-
ленному набору телерадиопрограмм (новости,
интервью, телешоу, трансляция заседаний пар-
ламента и пр.). Полученный в результате преоб-
разования текст должен соответствовать содер-
жанию, а пользователь системы должен иметь
возможность прослушивать запись передачи,
параллельно следя за текстом и по мере необ-
ходимости корректируя его. При этом важно
сократить задержку получения ответа распо-
знавания, одновременно учитывая ограничения
доступных вычислительных ресурсов. Сегодня
не существует системы преобразования укра-
инского телерадиовещания в текст для после-
дующего его анализа.
Наиболее специфичны для украинского, как и
для любого другого славянского языка, высокая
флективность и относительно свободный поря-
док слов, что приводит к быстрому росту слова-
ря распознавания (в восемь–10 раз больше, чем
для английского языка в такой же предметной
области) и ослаблению предиктивной силы при
моделировании допустимого следования слов.
Поэтому прямое применение общепринятых ме-
тодов и алгоритмов к славянским языкам не яв-
ляется многообещающим, что в свою очередь
стимулирует разработку альтернативных схем,
основанных, в частности, на композиции слов по
результатам пофонемного декодирования [3].
Вместе с тем, потенциал апробированной деся-
тилетиями исследований схемы все еще остается
до конца нераскрытым [4]. Так, не исследованы
ограничения на объем словаря, который исполь-
зуется в системе преобразования речи в текст на
основе общепринятой схемы, исходя из того, что
система должна демонстрировать продуктив-
ность, сопоставимую с реальным временем на
современных вычислительных платформах.
Таким образом, авторы задались целью раз-
работать систему, способную оперативно пре-
образовывать в текст украинскую речь, записы-
ваемую из некоторого множества каналов теле-
радиовещания с последующей возможностью
просмотра и редактирования результата распо-
знавания через Интернет. Словарь системы дол-
жен покрывать произвольный текст из расчета
менее определенного процента внесловарных
слов (OOV), должны быть предоставлены сред-
ства пополнения словаря. Не рассматриваются
как показательные результаты распознавания
УСиМ, 2015, № 6 67
при искажениях акустического сигнала, вызван-
ных некачественной записью и/или существен-
ной потерей данных вследствие сжатия сигна-
ла, а также в сегментах речи со значительными
шумовыми помехами и наложением несколь-
ких источников речи.
В предыдущих работах авторы исследовали
особенности распознавания украинской спон-
танной речи в реальном времени, описывали
системы преобразования речи в текст для об-
щих и новостных предметных областей, отно-
сящихся к политике, экономике, культуре и на
ряде вычислительных платформ [5, 6].
В данной статье авторы объясняют допуще-
ния, касающиеся языковых особенностей на
акустическом, фонетическом и лексическом
уровнях, прокладывают пути к достижению
необходимого объема словаря, описывают со-
ответственный разработанный программный
инструментарий вместе с экспериментальными
исследованиями, а также систему преобразо-
вания телерадиовещания в текст в целом.
Общая структура системы преобразова-
ния текста в речь
Структура системы показана на рис. 1. Ком-
понента реального времени Распознаватель об-
ращается к Базе данных (Д) и знаний (З), фор-
мируемой офф-лайн с помощью средств, не во-
шедших в иллюстрацию. Для создания указан-
ных в структуре компонент авторами разрабо-
тан ряд программных ресурсов и ресурсов дан-
ных, а также использован разного рода инст-
рументарий, доступный в Интернете.
Компонента реального времени получает Вхо-
дящий речевой сигнал из некоторого источника
(в данном случае – сеть IPTV или файловая
система). Детектор голосовой активности об-
наруживает предполагаемые начала речевых сег-
ментов, чтобы начать передачу сигнала в Пре-
процессор, извлекающий первичные акустиче-
ские признаки. При этом используются мел-кеп-
стральные коэффициенты с вычтенным сред-
ним и дополненные энергией и динамически-
ми компонентами (Δ и ΔΔ-коэффициенты). Де-
кодер сравнивает входящий сегмент с гипоте-
зами модельного сигнала, которые генерируют-
ся на основе акустической и лингвистической
моделей с использованием консервативной стра-
тегии отбрасывания неперспективных гипотез
[7]. Результат декодирования, представленный
в виде последовательностей слов или сети не-
совпадений, дополненных оценками длитель-
ностей и доверительной мерой, передается в
Блок принятия решений (БПР), формирующий
окончательный Ответ распознавания с учетом
предыстории и доверительных интервалов.
Рис. 1. Общая структура базовой системы преобразования
текста в речь
Акустическая модель разработана на 40-ча-
совом материале корпуса АКУЕМ [8, 9]. Базо-
вый алфавит фонем насчитывает 56 фонем,
включая ударные и безударные версии для шес-
ти гласных. Необходимость их различать обос-
новывается далее. Области пребывания фонем в
первичном пространстве признаков описывают-
ся гауссоидами (от восьми до 32) в соответству-
ющих эталонах.
Модель произношения предоставляет Деко-
деру фонемные транскрипции слов, сформиро-
ванные офф-лайн модулем графемно-фонемно-
го преобразования, в котором реализован метод
многозначного преобразования символов, ос-
нованный на задании отношений между орфо-
графическими и фонемными символами [10].
Эксперту достаточно сформулировать около 40
локальных правил перехода от графем к фоне-
мам, в которых определенным образом отобра-
жены как индивидуальные особенности произ-
ношения, так и коартикуляция и редукция зву-
ков в потоке речи. Правила настроены так, что в
среднем для каждого слова генерируется 1,2
транскрипций. Такой же алгоритм, но с други-
ми правилами, применяется для преобразова-
ния чисел, сокращений и неалфавитных гра-
фем в последовательности слов. Словарь для
68 УСиМ, 2015, № 6
системы состоит из частотного словаря, извле-
ченного из текстового корпуса, и дополнитель-
ных подсловарей, покрывающих речевой кор-
пус, социальные и местные диалекты, имена
собственные, аббревиатуры и пр. Рабочий сло-
варь распознавания формируется путем отбора
наиболее частотных слов из словаря с учетом
предметной области.
Лингвистическая модель создана исходя из
словаря распознавания и подмножества корпуса
текстов, состоящего из предложений, содержа-
щих ниже определенной части OOV-слов. Ос-
новной текстовый корпус является производным
от гипертекстовых данных, загруженных из не-
скольких вебсайтов, содержащих образцы ново-
стей и рекламы (60 процентов), литературы (8
процентов), энциклопедических статей (24 про-
цента), в правовой и судебной области (8 про-
центов). Следует отметить, что данные, загру-
женные из новостных сайтов, содержат много-
численные комментарии пользователей и отзывы,
которые рассматриваются как текстовые образцы
спонтанной речи. Текстовый фильтр, используе-
мый для обработки корпуса текстов, обеспечива-
ет преобразование чисел и символьных графем в
последовательности букв, удаляя неправильные
сегменты текста, и повторяющихся абзацев. Об-
щий размер базового текстового корпуса состав-
ляет 2 Гб, что включает в себя 17,5 млн предло-
жений, что соответствует списку слов, содержа-
щих более 275 млн единиц, и образующих сло-
варь более двух миллионов слов.
Для словаря распознавания на 100 тыс. слов,
зафиксировано 88,5 млн различных трехграмм
в подкорпусе основного текстового корпуса пос-
ле удаления предложений, содержащих более
20 процентов или по крайней мере три после-
довательных неизвестных слова. Этот подкор-
пус, используемый для моделирования допус-
тимых последовательностей слов, будем обозна-
чать 250М. Примечательно, что в 250М OOV-
слова занимают 2,5 процента всех слов, что при-
мерно в два раза меньше, чем в украинском
произвольном тексте для указанного размера
словаря. Для моделирования спонтанных харак-
теристик речи в словарь распознавания введен
класс прозрачных слов, содержащих нелекси-
ческие единицы, такие как заполненная пауза и
выражения эмоций и отношения (смех, апло-
дисменты и др.).
Применяя инструментарий лингвистическо-
го моделирования [11], авторами получен тек-
стовый файл в формате ARPA размером 5 Гб,
который был уменьшен до 1,2 Гб вследствие
применения модуля бинаризации из инстру-
ментария декодера [7].
Модули реального времени использованы
для построения базовой системы преобразова-
ния речи в текст с целью проведения экспери-
ментальных исследований и опытной эксплуа-
тации. Интеграция базовой системы с графи-
ческим интерфейсом позволила демонстриро-
вать систему диктовки слитной речью для ши-
рокой предметной области в реальном времени
на современном ноутбуке [6].
Рассмотрим признаки, специфические для ук-
раинского языка, чтобы обосновать предположе-
ния относительно моделирования языковых осо-
бенностей на акустическом, фонетическом и
лексическом уровнях и расширения базовой сис-
темы преобразования из речи в текст.
Анализ лексического ударения
Во многих языках определенные слоги в сло-
вах более ярко выражены в просодических тер-
минах, таких как длительность, основной тон и
громкость звука. Это явление называется лекси-
ческим ударением. Следует ли вводить отдель-
но ударные и безударные гласные в базовый
алфавит фонем?
В отличие от ряда европейских языков, давая
позитивный ответ на этот вопрос, будем пола-
гаться на фонетические, лексические и акусти-
ческие знания об украинском языке. Ударность в
гласных обычно действует как и изменения в
фонемном составе слов: слово может приобре-
сти иную грамматическую форму или смысл,
что прослеживается примерно в 10 процентах
слов произвольного текста.
Для исследования акустической стороны во-
проса была проведена оценка параметров аку-
стических моделей ударных и безударных глас-
ных так, как если бы это были разные фонемы.
Далее были изучены различия между моделя-
ми, в частности, средствами визуализации гене-
УСиМ, 2015, № 6 69
ративных моделей HMM [12]. На рис. 2 разни-
ца между ударной и безударной фонемами а
наблюдается в определенных составляющих
моделей. Визуализация моделей других фонем
доступна на веб-странице упомянутого инст-
рументария.
Рис. 2. Визуализация акустических моделей украинских без-
ударной и ударной фонем a
В украинском языке позиция ударения нере-
гулярна и может изменяться даже среди форм
одного и того же слова. Очевидно, экспертное
указание положения ударения для всего лексико-
на очень трудоемко, а потому неприемлемо. По-
этому авторами предложена процедура предска-
зания ударной позиции в слове на основе из-
вестного словаря ударений и текстового корпуса.
Рассматриваются все допустимые сегмента-
ции S для слова с неизвестным ударением.
Сегментация i-я
,1 ,2 , ,, ,..., ,...,i i i i j i Li
S q q q q (1)
имеет длину Li. Здесь qi,j является j-м элемен-
том (буквой или фонемой) в i-й сегментации.
Далее введем вектор Li
– индикатор уровня
ударности (например, ноль, один, два) для ка-
ждого из Li элементов. Теперь можно оценить
вероятность ударной позиции при условии сег-
ментации Si:
,
|
i Li
L ii
i
c S
P S
c S
, (2)
где ,i Li
c S – количество сегментов в Si, име-
ющих ударение, определенное вектором–инди-
катором Li
, а c(Si) – общее число наблюдений
Si. Все подсчеты проводятся по текстовому кор-
пусу за исключением слов, не вошедших в сло-
варь ударений.
Наконец, проводим поиск по всем допусти-
мым сегментациям S и положениям ударения
S, которые доставляют
,
arg max
S
L iiS Si Li
P | S
,
. (3)
Итак, сконструирован граф динамического
программирования, в котором нахождение крат-
чайшего пути соответствует поиску (3). Запоми-
ная N перспективных стрелок, входящих в узлы
этого графа, можно находить N лучших ударных
положений, дополняемых оценкой вероятности.
Параметры модели предсказания ударений
на текстовом корпусе 250 М получили оценку.
Дополнительно введен символ границы между
словами. Обнаружено более 60 тыс. символьных
сегментов длины от одного до четырех. На
рис. 3 приведен пример однозначного прогно-
зирования ударения для имени собственного
Обама, которое отсутствует в базовом украин-
ском словаре. Слово представлено как конкате-
нация всех допустимых символьных сегментов,
где наибольшая длина сегмента ограничена че-
тырьмя символами. Каждый входной символ
вводит множество допустимых сегментов. На
рис. 3 потенциально оптимальные частичные
траектории полностью показаны для колонок 1
и 2, в других колонках указано имя узла, из ко-
торого исходит потенциально оптимальная тра-
ектория. Указанные частичные критерии осно-
ваны на логарифме вероятности. Оптимальная
70 УСиМ, 2015, № 6
траектория |o-b-Ama|, соответствующие узлы и
критерии выделены жирным. Следует обратить
внимание на то, что в колонке 7 потенциально
оптимальная траектория в узел Ama| входит из
узла a, а не из obA – узла с лучшим критерием,
чем a. Узел obA отброшен для того, чтоб избе-
жать двух подряд идущих ударений в слове.
0 1 2 3 4 5 6 7
| |
| 0 -0,39 -0,11 -0,77 -0,77 -0,91 | -0,87
O -1,14 -0,37 A -0,84 -1,11 A -0,98 -0,54
-0,11 -1,17 -0,79 -0,57 -1,36 A| -1,63
|O -2,26 -1,18 -2,51 | -0,25 -1,26 -0,98
-1,82 -0,96 | -0,85 | -0,87 -1,96
-0,81 -0,69 | -1,08 -0,38
-0,62 | -2,40 -1,98 -1,56
-2,64 |
o b a m a
Start o b a b m a a bam ama
ob b am b bam a| bam
|o Ob ba |o Am b ma obA bam
|ob oba bam o mA obA ma| obA
|Ob Oba obam ama b mA| a
bA |o Obam Ama b Ama| b
obA bAm o amA b amA| b
obAm
Рис. 3. Прогнозирование ударения для отсутствующего в сло-
варе ударений слова obama
Процедура оценки ошибки предсказания уда-
рения не так очевидна, как казалось бы, по-
скольку не всегда однозначен ответ на вопрос,
что есть ошибка в ряде конкретных случаев.
Например, считать ли ошибкой, если ударение
предсказано не точно в словах с опечаткой? В
любом случае, предварительные исследования
показали уровень ошибки между 5 и 10 про-
центами относительно размера словаря.
Разработка лингвистической модели на
основе классов слов
Как и любой другой славянский язык, укра-
инский является флективным, что приводит к на-
личию для каждого слова в среднем 12 слово-
форм, что в шесть раз больше, чем в английском
языке. Поэтому для построения лингвистичес-
кой модели, охватывающей сопоставимый лек-
сикон, для украинского языка требуется соответ-
ственно словарь с объемом, большим в шесть раз.
Более того, относительно свободный порядок сле-
дования слов приводит к росту разветвленности
и разреженности. Анализ этих свойств мотиви-
ровал к переходу от статистической лингвисти-
ческой модели, оперирующей словами, к модели,
оперирующей классами эквивалентности и веро-
ятностью принадлежности слова к классу [13].
При соотнесении слов к классам (кластери-
зации), предпринимается попытка минимизи-
ровать критерий разветвленности:
,
, log , 2 logG
g h G g G
F C g h C g h C g C g
, (4)
где (g, h) означает, что класс g следует за клас-
сом h из множества классов эквивалентности
G, а функция C () вычисляет частоту наблюде-
ния аргумента в обучающей выборке. В алго-
ритме обмена [13] предполагается множество
итераций, где для каждого слова тестируется
его принадлежность ко всем классам с после-
дующим соотнесением к тому классу, для ко-
торого достигнут наилучший критерий (4). В
процессе реализации этого алгоритма была
предложена альтернативная формулировка ус-
корения вычисления критерия (4) [14].
Результаты кластеризации анализировались
на соответствие лингвистическим категориям.
Впервые полученные автоматическим путем
классы для украинского языка продемонстриро-
вали в подавляющем большинстве случаев одно-
родность по синтаксическим, семантическим и,
в меньшей мере, фонетическим признакам.
Большинство классов имеют очевидную син-
таксическую интерпретацию. Так, одни классы
могут содержать имена существительные ро-
дительного падежа, другие – прилагательные
множественного числа и пр.
Несколько классов слов, полученных в ре-
зультате биграммной кластеризации на корпусе
250 М для 1000 классов показаны в табл. 1.
Т а б л и ц а 1. Пример биграммной кластеризации, G = 1000
Слово в кластере с переводом Частота
Багато / много 134590
Чимало / немало 24482
Безліч / множество [чего-л.] 7696
Немало / немало 2191
Якнайбільше / как можно больше 760
Багацько /множество [чего-л.] 255
Богато (ош. багато) 123
Які / какие 590681
Котрі / которые 24499
Яки (ош. які) 465
Де / где 246376
Куди / куда 31966
Звідки / откуда 15373
Звідкіль / откудова 120
Заявив / заявил 163547
Вважає / полагает 99803
Повідомив / информировал 80043
Заявила / заявила 32795
Заявляє / заявляет 31965
Розповів / рассказал 30504
Говорить / говорит 29756
Слова в каждом классе отсортировованы по
убыванию их частотности, а наиболее встре-
УСиМ, 2015, № 6 71
чаемое слово в классе выделено полужирным
шрифтом. Полностью представлены три класса,
а для последнего в таблице класса приведены
лишь первые семь слов. Этот класс служит
примером семантической однородности: в нем
содержатся глаголы третьего лица, имеющие
смысл коммуникации. Два первых класса де-
монстрируют, что ошибочно введенные, но,
тем не менее, достаточно частотные слова (бо-
гато и яки) отнесены к классам, в которые во-
шли слова с правильным написанием.
Результаты кластеризации также показали оп-
ределенную чувствительность к фонетическому
наполнению слов. Например, в украинском язы-
ке союз и передается одной из трех форм в зави-
симости от фонетического окружения: между
гласными, между согласными и в других случа-
ях. И каждая из этих трех форм была автомати-
чески отнесена к различным классам.
В экспериментальных исследованиях рассмот-
рены две контрольные выборки (КВ). КВ 1 со-
держит 49 предварительно отобранных темати-
чески сбалансированных записей, в КВ 2 вошло
78 случайных записей. Из табл. 2 следует, что
обе выборки по длине примерно одинаковы, а
КВ 1 более ориентирована на судебную пред-
метную область. Для каждой контрольной вы-
борки оценены акустические параметры на реа-
лизациях корпуса АКУЕМ, не вошедших в со-
ответствующую контрольную выборку.
Т а б л и ц а 2. Характеристика контрольных выборок
КВ Длина
(час)
Судебные
шоу, %
Речь
судьи, %
Нoвости,
%
Токшоу,
%
Пресс-кон-
ференции,%
1 11,4 69,4 11,1 8,4 8,2 2,9
2 12,6 32,5 – 29,8 36,8 0,90
Лингвистическая модель построена на тек-
стовом корпусе 250 M. Не использованы пред-
ложения из транскрипций текстовых АКУЕМ.
По наиболее частотным словам сформированы
словари 100k и 200k, содержащие соответствен-
но 100 и 200 тыс. слов. Только первые по час-
тотности 100 тыс. слов прошли кластеризацию.
Менее частотные слова были соотнесены к клас-
су «неизвестных» слов.
Как следует из табл. 3, использование удар-
ных гласных ведет к заметному уменьшению
ошибок (WER – показатель пословных ошибок).
Несмотря на незначительное снижение, в срав-
нении с моделями, основанными на словах, лин-
гвистическая модель на основе классов демон-
стрирует определенный потенциал, который
заключается в уменьшении требований к опе-
ративной памяти и в лучших перспективах –
по увеличению объема словаря.
Т а б л и ц а 3. Экспериментальные результаты
КВ Ударение Классы Порядок ЛМ Размер словаря /
%OOV %WER
1 – – 3 100k / 5,27 33,6
1 + – 3 100k / 5,27 32,1
1 + 1000 3 200k / 3,79 34,1
1 + 1000 4 200k / 3,79 33,8
2 – – 3 100k / 5,61 38,0
2 + – 3 100k / 5,61 36,3
2 + 1000 3 200k / 4,15 38,7
2 + 1000 4 200k / 4,15 38,5
Опытная эксплуатация системы преобра-
зования телерадиовещания в текст
Создание систем автоматической обработки
речи – одно из наиболее актуальных направле-
ний развития современных информационных
технологий. В зависимости от места, где про-
исходит преобразование произнесенная фраза –
текст и текст – произнесенная фраза, систе-
мы автоматической обработки речи делятся на
изолированные (client-side), клиент–серверные
(server–side) и гибридные (hybrid). В изолиро-
ванных системах все преобразования происхо-
дят непосредственно на клиентском устройст-
ве. В клиент–серверных – клиентское устрой-
ство используется только для ввода информа-
ции, передачи ее по сети на сервер для даль-
нейшей обработки и получения от сервера от-
вета распознавания. Гибридные системы со-
вмещают в себе функционал изолированных и
клиент–серверных – при наличии доступа к
сети они используют для преобразования сер-
вер, при недоступности сети работают как изо-
лированная система.
Каждый из подходов имеет свои преимуще-
ства и недостатки. Изолированная система ог-
раничена быстродействием и размером дос-
тупной оперативной памяти современных мо-
72 УСиМ, 2015, № 6
бильных систем, что в свою очередь наклады-
вает ограничения на размер словаря и увели-
чивает время ответа приложения. Клиент–сер-
верная технология не имеет этих ограничений,
но требует для работы постоянного подключе-
ния к глобальной сети. Гибридная технология –
это, по сути, реализация двух предыдущих
технологий в одной системе, поэтому ее разра-
ботка требует больше времени и ресурсов, чем
реализация каждой из технологий отдельно.
Примером реализации изолированной (client-
side) системы распознавания служит линейка
мобильных устройств – цифровой диктофон, го-
лосовой секретарь и мобильный телефон. Эти
устройства разрабатывались в рамках Государ-
ственной научно-исследовательской программы
«Образный компьютер» [15] на базе сигналь-
ных процессоров Analog Devices семейства
BlackFin. Быстродействие процессора BlackFin
и недостаточный объем оперативной памяти
портативных устройств не позволяли увели-
чить словарь для распознавания речи выше 10–
15 тыс. слов без существенного замедления про-
цесса получения ответа распознавания.
Для распознавания произвольной слитной
речи нужны гораздо большие объемы лексико-
на. Развитие системы распознавания [5] в кли-
ент–серверном направлении, дало возможность в
полной мере использовать описанные ранее те-
оретические наработки и, таким образом, пе-
рейти к словарям, содержащим сотни тысяч слов,
в целом расширяя сферу применения техноло-
гии преобразования речи в текст.
Разработанная система предусматривает об-
мен данными между клиентом и сервером рас-
познавания через сеть (Интернет либо локаль-
ную) по протоколу TCP/IP. Обмен происходит
с использованием REST-интерфейса, т.е. вызов
удаленной процедуры представляет собой обыч-
ный HTTP-запрос (POST или GET), а необходи-
мые данные передаются в качестве параметров
запроса. Серверное программное обеспечение
разрабатывалось на языках C++ (распознавание
речевых сигналов), PERL (взаимодействие с ау-
диовидеоданными) и PHP (обработка запросов
от клиентов). В интерфейсе клиента использу-
ются возможности Java-Script и HTML5.
Сегодня в сети Интернет на основе разрабо-
танной системы доступен экспериментальный
интерфейс преобразования украинского телера-
диовещания в текст [16]. Пользователь выби-
рает один из нескольких каналов и получает веб-
страницу с результатом преобразования послед-
него записанного пятиминутного фрагмента в
текст с обеспечением синхронизации с медиa-
проигрывателем, т.е. при проигрывании медиа-
файла синхронно подсвечивается именно то сло-
во из распознанного текста, которое, по мнению
системы, соответствует текущему сегменту речи.
Выбор пользователем слова залишилися пока-
зан на рис. 4. При этом проигрывается сегмент
речи, соответствующий выбранному слову. Про-
слушав сегмент, пользователь исправляет ре-
зультат распознавания, внося правку в окне ре-
дактирования рядом с выбранным словом. Слева
от текста под медиa-проигрывателем размещены
элементы управления, позволяющие передви-
гаться как между соседними фрагментами, так и
с интервалом, равным одному часу и суткам.
Рис. 4. Визуализация результата преобразования фрагмента
телепередачи в текст
Объем словаря системы составляет более 200 тыс. слов.
Распознавание происходит вдвое быстрее реального вре-
мени, т.е. запись продолжительностью в одну минуту рас-
познается примерно за 30 с. Система использует мощности
четырехядерного процессора Intel Xeon, поэтому возможно
одновременное выполнение восьми различных задач рас-
познавания без потери быстродействия.
Заключение. Разработанная технология пре-
образования телерадиовещания в текст демонст-
рирует потенциал использования отличительных
особенностей языка для приближения к модели-
рованию всего объема лексикона с перспективой
автоматической расстановки пунктуации и опре-
деления регистра символов в результате распо-
знавания. Предложенная процедура расстановки
лексических ударений не только способствует
улучшению результатов распознавания, но и слу-
УСиМ, 2015, № 6 73
жит развитию исследований морфемного и се-
мантического уровней в распознавании речи. Ис-
пользование классов слов в лингвистической мо-
дели существенно уменьшает потребности в ре-
сурсах оперативной памяти и упрощает процесс
пополнения рабочего словаря системы распозна-
вания новыми словами. Созданная эксперимен-
тальная система преобразования телерадиовеща-
ния в текст открывает путь к автоматическому
анализу информационного потока телерадиове-
щания в Украине. Дальнейшее развитие системы
предполагает введение многоязычности и добав-
ление новых функций, таких как поиск по клю-
чевым словам, получение метаданных, сопрово-
ждение дикторов (speaker diarization), разбивка
на тематические сюжеты и др. Актуальными ос-
таются вопросы улучшения надежности распо-
знавания, особенно при получении акустическо-
го сигнала с искажениями и шумами.
1. http://voxalead.labs.exalead.com/
2. http://tech.ebu.ch/docs/events/metadata15/ Petr Vitek
and Pavel Ircing_CT_UWB.pdf
3. Vintsiuk T., Sazhok N. Multi-Level Multi-Decision Mo-
dels for ASR // Proc. SpeCom’2005. – Patras, 2005. –
P. 69–76.
4. Gales M., Young S. The Application of Hidden Markov
Models in Speech Recognition // Foundations and Trends
in Signal Processing. – 2007. – N 1(3). – P. 195–304.
5. Sazhok N., Robeiko V., Fedoryn D. Distinctive features
for Ukrainian real-time speech recognition system //
Proc. UkrObraz’2014. – Kyiv, 2014. – P. 66–70.
6. Robeiko V., Sazhok N. Real-time spontaneous Ukrain-
ian speech recognition system based on word acoustic
composite models // Proc. UkrObraz’2012. – Kyiv,
2012. – P. 77–81.
7. Lee A., Kawahara T. Recent Development of Open-
Source Speech Recognition Engine Julius. APSIPA
ASC, 2009. – P. 131–137.
8. The HTK Book Version 3.4 / S. Young, G. Everman,
M. Gale et al. – Cambridge University, 2006. – 359 p.
9. Ukrainian Broadcast Speech Corpus Development /
V. Pylypenko, V. Robeiko, N. Sazhok et al. // Spe-
com’2011. – Kazan. – P. 244–247.
10. Robeiko V., Sazhok N. Bidirectional Text-To-Pronun-
ciation Conversion with Word Stress Prediction for
Ukrainian // Proc. UkrObraz’2012. – Kyiv, 2012. –
P. 43–46.
11. Bo-June (Paul) Hsu, James Glass. Iterative Language
Model Estimation: Efficient Data Structure & Algo-
rithms // Proc. Interspeech, 2008.
12. www.cybermova.com/speech/visual-hmm.htm
13. Martin S., Liermann J., Ney H. Algorithms for bigram
and trigram word clustering // Proc. of Eurospeech. –
Madrid, 1995. – 2. – P. 1253–1256.
14. Сажок Н. Кластеризация слов при построении лин-
гвистической модели для автоматического распо-
знавания речевого сигнала // Киберентика и вы-
числительная техника. – 2012. – № 4. – С. 59–66.
15. http://obrazcomp.irtc.org.ua/Osn_resultat.html
16. www.cybermova.com/technology/synchrophone.html
E-mail: sazhok@gmail.com, valya.robeiko@gmail.com,
dmytro.fedoryn@gmail.com, vxml12@gmail.com
© Н.Н. Сажок, В.В. Робейко, Д.Я. Федорин, Р.А. Селюх, 2015
UDC 004.934
N.N. Sazhok, V.V. Robeiko, D.Ya. Fedoryn, R.A. Selyukh
Broadcast Speech-to-Text System for the Ukrainian
Keywords: speech recognition, broadcast, language-specific features, Ukrainian.
Introduction: Broadcast data processing is an important task for information society. The experience in development of
real-time systems for Ukrainian dictation and speech record recognition on several computational platforms is the base for the
described R&D devoted to extracting text from broadcast speech signal.
Methods: The modeling is focused on features that are specific particularly for Ukrainian such as lexical stress and high
inflexibility. Given arguments confirm the necessity to distinguish stressed and unstressed vowels in the phoneme alphabet.
Lexical stress irregularity implies expert involvement for stress assignment. To automate this procedure we implemented a
data-driven stress prediction algorithm that represents words as sequences of substrings and searches for one or more se-
quences with the best criteria. As a Slavonic language Ukrainian is highly inflective and tolerates relatively free word order,
which motivates transition from word- to class-based statistical language model.
Experimental research: Modeling both stressed and unstressed vowels leads to recognition accuracy improvement. In-
troduction word equivalence classes to the Language Model significantly decreases RAM consumption keeping the same
recognition accuracy level. The developed experimental system implements client–server approach and allows for browsing
5-minute broadcast segments synchronously with speech recognition result.
Conclusion: Language-specific speech feature modeling is beneficial for a speech recognition system. The created broad-
cast speech-to-text system opens news prospectives for broadcast stream analysis in Ukraine.
<<
/ASCII85EncodePages false
/AllowTransparency false
/AutoPositionEPSFiles true
/AutoRotatePages /None
/Binding /Left
/CalGrayProfile (Dot Gain 20%)
/CalRGBProfile (sRGB IEC61966-2.1)
/CalCMYKProfile (U.S. Web Coated \050SWOP\051 v2)
/sRGBProfile (sRGB IEC61966-2.1)
/CannotEmbedFontPolicy /Error
/CompatibilityLevel 1.4
/CompressObjects /Tags
/CompressPages true
/ConvertImagesToIndexed true
/PassThroughJPEGImages true
/CreateJobTicket false
/DefaultRenderingIntent /Default
/DetectBlends true
/DetectCurves 0.0000
/ColorConversionStrategy /CMYK
/DoThumbnails false
/EmbedAllFonts true
/EmbedOpenType false
/ParseICCProfilesInComments true
/EmbedJobOptions true
/DSCReportingLevel 0
/EmitDSCWarnings false
/EndPage -1
/ImageMemory 1048576
/LockDistillerParams false
/MaxSubsetPct 100
/Optimize true
/OPM 1
/ParseDSCComments true
/ParseDSCCommentsForDocInfo true
/PreserveCopyPage true
/PreserveDICMYKValues true
/PreserveEPSInfo true
/PreserveFlatness true
/PreserveHalftoneInfo false
/PreserveOPIComments true
/PreserveOverprintSettings true
/StartPage 1
/SubsetFonts true
/TransferFunctionInfo /Apply
/UCRandBGInfo /Preserve
/UsePrologue false
/ColorSettingsFile ()
/AlwaysEmbed [ true
]
/NeverEmbed [ true
]
/AntiAliasColorImages false
/CropColorImages true
/ColorImageMinResolution 300
/ColorImageMinResolutionPolicy /OK
/DownsampleColorImages true
/ColorImageDownsampleType /Bicubic
/ColorImageResolution 300
/ColorImageDepth -1
/ColorImageMinDownsampleDepth 1
/ColorImageDownsampleThreshold 1.50000
/EncodeColorImages true
/ColorImageFilter /DCTEncode
/AutoFilterColorImages true
/ColorImageAutoFilterStrategy /JPEG
/ColorACSImageDict <<
/QFactor 0.15
/HSamples [1 1 1 1] /VSamples [1 1 1 1]
>>
/ColorImageDict <<
/QFactor 0.15
/HSamples [1 1 1 1] /VSamples [1 1 1 1]
>>
/JPEG2000ColorACSImageDict <<
/TileWidth 256
/TileHeight 256
/Quality 30
>>
/JPEG2000ColorImageDict <<
/TileWidth 256
/TileHeight 256
/Quality 30
>>
/AntiAliasGrayImages false
/CropGrayImages true
/GrayImageMinResolution 300
/GrayImageMinResolutionPolicy /OK
/DownsampleGrayImages true
/GrayImageDownsampleType /Bicubic
/GrayImageResolution 300
/GrayImageDepth -1
/GrayImageMinDownsampleDepth 2
/GrayImageDownsampleThreshold 1.50000
/EncodeGrayImages true
/GrayImageFilter /DCTEncode
/AutoFilterGrayImages true
/GrayImageAutoFilterStrategy /JPEG
/GrayACSImageDict <<
/QFactor 0.15
/HSamples [1 1 1 1] /VSamples [1 1 1 1]
>>
/GrayImageDict <<
/QFactor 0.15
/HSamples [1 1 1 1] /VSamples [1 1 1 1]
>>
/JPEG2000GrayACSImageDict <<
/TileWidth 256
/TileHeight 256
/Quality 30
>>
/JPEG2000GrayImageDict <<
/TileWidth 256
/TileHeight 256
/Quality 30
>>
/AntiAliasMonoImages false
/CropMonoImages true
/MonoImageMinResolution 1200
/MonoImageMinResolutionPolicy /OK
/DownsampleMonoImages true
/MonoImageDownsampleType /Bicubic
/MonoImageResolution 1200
/MonoImageDepth -1
/MonoImageDownsampleThreshold 1.50000
/EncodeMonoImages true
/MonoImageFilter /CCITTFaxEncode
/MonoImageDict <<
/K -1
>>
/AllowPSXObjects false
/CheckCompliance [
/None
]
/PDFX1aCheck false
/PDFX3Check false
/PDFXCompliantPDFOnly false
/PDFXNoTrimBoxError true
/PDFXTrimBoxToMediaBoxOffset [
0.00000
0.00000
0.00000
0.00000
]
/PDFXSetBleedBoxToMediaBox true
/PDFXBleedBoxToTrimBoxOffset [
0.00000
0.00000
0.00000
0.00000
]
/PDFXOutputIntentProfile ()
/PDFXOutputConditionIdentifier ()
/PDFXOutputCondition ()
/PDFXRegistryName ()
/PDFXTrapped /False
/CreateJDFFile false
/Description <<
/ARA <FEFF06270633062A062E062F0645002006470630064700200627064406250639062F0627062F0627062A002006440625064606340627062100200648062B062706260642002000410064006F00620065002000500044004600200645062A064806270641064206290020064406440637062806270639062900200641064A00200627064406450637062706280639002006300627062A0020062F0631062C0627062A002006270644062C0648062F0629002006270644063906270644064A0629061B0020064A06450643064600200641062A062D00200648062B0627062606420020005000440046002006270644064506460634062306290020062806270633062A062E062F062706450020004100630072006F0062006100740020064800410064006F006200650020005200650061006400650072002006250635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E0635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E>
/BGR <FEFF04180437043f043e043b043704320430043904420435002004420435043704380020043d0430044104420440043e0439043a0438002c00200437043000200434043000200441044a0437043404300432043004420435002000410064006f00620065002000500044004600200434043e043a0443043c0435043d04420438002c0020043c0430043a04410438043c0430043b043d043e0020043f044004380433043e04340435043d04380020043704300020043204380441043e043a043e043a0430044704350441044204320435043d0020043f04350447043004420020043704300020043f044004350434043f0435044704300442043d04300020043f043e04340433043e0442043e0432043a0430002e002000200421044a04370434043004340435043d043804420435002000500044004600200434043e043a0443043c0435043d044204380020043c043e0433043004420020043404300020044104350020043e0442043204300440044f0442002004410020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200441043b0435043404320430044904380020043204350440044104380438002e>
/CHS <FEFF4f7f75288fd94e9b8bbe5b9a521b5efa7684002000410064006f006200650020005000440046002065876863900275284e8e9ad88d2891cf76845370524d53705237300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c676562535f00521b5efa768400200050004400460020658768633002>
/CHT <FEFF4f7f752890194e9b8a2d7f6e5efa7acb7684002000410064006f006200650020005000440046002065874ef69069752865bc9ad854c18cea76845370524d5370523786557406300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c4f86958b555f5df25efa7acb76840020005000440046002065874ef63002>
/CZE <FEFF005400610074006f0020006e006100730074006100760065006e00ed00200070006f0075017e0069006a007400650020006b0020007600790074007600e101590065006e00ed00200064006f006b0075006d0065006e0074016f002000410064006f006200650020005000440046002c0020006b00740065007200e90020007300650020006e0065006a006c00e90070006500200068006f006400ed002000700072006f0020006b00760061006c00690074006e00ed0020007400690073006b00200061002000700072006500700072006500730073002e002000200056007900740076006f01590065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f007400650076015900ed007400200076002000700072006f006700720061006d0065006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076011b006a016100ed00630068002e>
/DAN <FEFF004200720075006700200069006e0064007300740069006c006c0069006e006700650072006e0065002000740069006c0020006100740020006f007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400650072002c0020006400650072002000620065006400730074002000650067006e006500720020007300690067002000740069006c002000700072006500700072006500730073002d007500640073006b007200690076006e0069006e00670020006100660020006800f8006a0020006b00760061006c0069007400650074002e0020004400650020006f007000720065007400740065006400650020005000440046002d0064006f006b0075006d0065006e0074006500720020006b0061006e002000e50062006e00650073002000690020004100630072006f00620061007400200065006c006c006500720020004100630072006f006200610074002000520065006100640065007200200035002e00300020006f00670020006e0079006500720065002e>
/DEU <FEFF00560065007200770065006e00640065006e0020005300690065002000640069006500730065002000450069006e007300740065006c006c0075006e00670065006e0020007a0075006d002000450072007300740065006c006c0065006e00200076006f006e002000410064006f006200650020005000440046002d0044006f006b0075006d0065006e00740065006e002c00200076006f006e002000640065006e0065006e002000530069006500200068006f006300680077006500720074006900670065002000500072006500700072006500730073002d0044007200750063006b0065002000650072007a0065007500670065006e0020006d00f60063006800740065006e002e002000450072007300740065006c006c007400650020005000440046002d0044006f006b0075006d0065006e007400650020006b00f6006e006e0065006e0020006d006900740020004100630072006f00620061007400200075006e0064002000410064006f00620065002000520065006100640065007200200035002e00300020006f0064006500720020006800f600680065007200200067006500f600660066006e00650074002000770065007200640065006e002e>
/ESP <FEFF005500740069006c0069006300650020006500730074006100200063006f006e0066006900670075007200610063006900f3006e0020007000610072006100200063007200650061007200200064006f00630075006d0065006e0074006f00730020005000440046002000640065002000410064006f0062006500200061006400650063007500610064006f00730020007000610072006100200069006d0070007200650073006900f3006e0020007000720065002d0065006400690074006f007200690061006c00200064006500200061006c00740061002000630061006c0069006400610064002e002000530065002000700075006500640065006e00200061006200720069007200200064006f00630075006d0065006e0074006f00730020005000440046002000630072006500610064006f007300200063006f006e0020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e003000200079002000760065007200730069006f006e0065007300200070006f00730074006500720069006f007200650073002e>
/ETI <FEFF004b00610073007500740061006700650020006e0065006900640020007300e4007400740065006900640020006b00760061006c006900740065006500740073006500200074007200fc006b006900650065006c007300650020007000720069006e00740069006d0069007300650020006a0061006f006b007300200073006f00620069006c0069006b0065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740069006400650020006c006f006f006d006900730065006b0073002e00200020004c006f006f0064007500640020005000440046002d0064006f006b0075006d0065006e00740065002000730061006100740065002000610076006100640061002000700072006f006700720061006d006d006900640065006700610020004100630072006f0062006100740020006e0069006e0067002000410064006f00620065002000520065006100640065007200200035002e00300020006a00610020007500750065006d006100740065002000760065007200730069006f006f006e00690064006500670061002e000d000a>
/FRA <FEFF005500740069006c006900730065007a00200063006500730020006f007000740069006f006e00730020006100660069006e00200064006500200063007200e900650072002000640065007300200064006f00630075006d0065006e00740073002000410064006f00620065002000500044004600200070006f0075007200200075006e00650020007100750061006c0069007400e90020006400270069006d007000720065007300730069006f006e00200070007200e9007000720065007300730065002e0020004c0065007300200064006f00630075006d0065006e00740073002000500044004600200063007200e900e90073002000700065007500760065006e0074002000ea0074007200650020006f007500760065007200740073002000640061006e00730020004100630072006f006200610074002c002000610069006e00730069002000710075002700410064006f00620065002000520065006100640065007200200035002e0030002000650074002000760065007200730069006f006e007300200075006c007400e90072006900650075007200650073002e>
/GRE <FEFF03a703c103b703c303b903bc03bf03c003bf03b903ae03c303c403b5002003b103c503c403ad03c2002003c403b903c2002003c103c503b803bc03af03c303b503b903c2002003b303b903b1002003bd03b1002003b403b703bc03b903bf03c503c103b303ae03c303b503c403b5002003ad03b303b303c103b103c603b1002000410064006f006200650020005000440046002003c003bf03c5002003b503af03bd03b103b9002003ba03b103c42019002003b503be03bf03c703ae03bd002003ba03b103c403ac03bb03bb03b703bb03b1002003b303b903b1002003c003c103bf002d03b503ba03c403c503c003c903c403b903ba03ad03c2002003b503c103b303b103c303af03b503c2002003c503c803b703bb03ae03c2002003c003bf03b903cc03c403b703c403b103c2002e0020002003a403b10020005000440046002003ad03b303b303c103b103c603b1002003c003bf03c5002003ad03c703b503c403b5002003b403b703bc03b903bf03c503c103b303ae03c303b503b9002003bc03c003bf03c103bf03cd03bd002003bd03b1002003b103bd03bf03b903c703c403bf03cd03bd002003bc03b5002003c403bf0020004100630072006f006200610074002c002003c403bf002000410064006f00620065002000520065006100640065007200200035002e0030002003ba03b103b9002003bc03b503c403b103b303b503bd03ad03c303c403b503c103b503c2002003b503ba03b403cc03c303b503b903c2002e>
/HEB <FEFF05D405E905EA05DE05E905D5002005D105D405D205D305E805D505EA002005D005DC05D4002005DB05D305D9002005DC05D905E605D505E8002005DE05E105DE05DB05D9002000410064006F006200650020005000440046002005D405DE05D505EA05D005DE05D905DD002005DC05D405D305E405E105EA002005E705D305DD002D05D305E405D505E1002005D005D905DB05D505EA05D905EA002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E05D005DE05D905DD002005DC002D005000440046002F0058002D0033002C002005E205D905D905E005D5002005D105DE05D305E805D905DA002005DC05DE05E905EA05DE05E9002005E905DC0020004100630072006F006200610074002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E>
/HRV (Za stvaranje Adobe PDF dokumenata najpogodnijih za visokokvalitetni ispis prije tiskanja koristite ove postavke. Stvoreni PDF dokumenti mogu se otvoriti Acrobat i Adobe Reader 5.0 i kasnijim verzijama.)
/HUN <FEFF004b0069007600e1006c00f30020006d0069006e0151007300e9006701710020006e0079006f006d00640061006900200065006c0151006b00e90073007a00ed007401510020006e0079006f006d00740061007400e100730068006f007a0020006c006500670069006e006b00e1006200620020006d0065006700660065006c0065006c0151002000410064006f00620065002000500044004600200064006f006b0075006d0065006e00740075006d006f006b0061007400200065007a0065006b006b0065006c0020006100200062006500e1006c006c00ed007400e10073006f006b006b0061006c0020006b00e90073007a00ed0074006800650074002e0020002000410020006c00e90074007200650068006f007a006f00740074002000500044004600200064006f006b0075006d0065006e00740075006d006f006b00200061007a0020004100630072006f006200610074002000e9007300200061007a002000410064006f00620065002000520065006100640065007200200035002e0030002c0020007600610067007900200061007a002000610074007400f3006c0020006b00e9007301510062006200690020007600650072007a006900f3006b006b0061006c0020006e00790069007400680061007400f3006b0020006d00650067002e>
/ITA <FEFF005500740069006c0069007a007a006100720065002000710075006500730074006500200069006d0070006f007300740061007a0069006f006e00690020007000650072002000630072006500610072006500200064006f00630075006d0065006e00740069002000410064006f00620065002000500044004600200070006900f900200061006400610074007400690020006100200075006e00610020007000720065007300740061006d0070006100200064006900200061006c007400610020007100750061006c0069007400e0002e0020004900200064006f00630075006d0065006e007400690020005000440046002000630072006500610074006900200070006f00730073006f006e006f0020006500730073006500720065002000610070006500720074006900200063006f006e0020004100630072006f00620061007400200065002000410064006f00620065002000520065006100640065007200200035002e003000200065002000760065007200730069006f006e006900200073007500630063006500730073006900760065002e>
/JPN <FEFF9ad854c18cea306a30d730ea30d730ec30b951fa529b7528002000410064006f0062006500200050004400460020658766f8306e4f5c6210306b4f7f75283057307e305930023053306e8a2d5b9a30674f5c62103055308c305f0020005000440046002030d530a130a430eb306f3001004100630072006f0062006100740020304a30883073002000410064006f00620065002000520065006100640065007200200035002e003000204ee5964d3067958b304f30533068304c3067304d307e305930023053306e8a2d5b9a306b306f30d530a930f330c8306e57cb30818fbc307f304c5fc59808306730593002>
/KOR <FEFFc7740020c124c815c7440020c0acc6a9d558c5ec0020ace0d488c9c80020c2dcd5d80020c778c1c4c5d00020ac00c7a50020c801d569d55c002000410064006f0062006500200050004400460020bb38c11cb97c0020c791c131d569b2c8b2e4002e0020c774b807ac8c0020c791c131b41c00200050004400460020bb38c11cb2940020004100630072006f0062006100740020bc0f002000410064006f00620065002000520065006100640065007200200035002e00300020c774c0c1c5d0c11c0020c5f40020c2180020c788c2b5b2c8b2e4002e>
/LTH <FEFF004e006100750064006f006b0069007400650020016100690075006f007300200070006100720061006d006500740072007500730020006e006f0072011700640061006d00690020006b0075007200740069002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b00750072006900650020006c0061006200690061007500730069006100690020007000720069007400610069006b007900740069002000610075006b01610074006f00730020006b006f006b007900620117007300200070006100720065006e006700740069006e00690061006d00200073007000610075007300640069006e0069006d00750069002e0020002000530075006b0075007200740069002000500044004600200064006f006b0075006d0065006e007400610069002000670061006c006900200062016b007400690020006100740069006400610072006f006d00690020004100630072006f006200610074002000690072002000410064006f00620065002000520065006100640065007200200035002e0030002000610072002000760117006c00650073006e0117006d00690073002000760065007200730069006a006f006d00690073002e>
/LVI <FEFF0049007a006d0061006e0074006f006a00690065007400200161006f00730020006900650073007400610074012b006a0075006d00750073002c0020006c0061006900200076006500690064006f00740075002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006100730020006900720020012b00700061016100690020007000690065006d01130072006f00740069002000610075006700730074006100730020006b00760061006c0069007401010074006500730020007000690072006d007300690065007300700069006501610061006e006100730020006400720075006b00610069002e00200049007a0076006500690064006f006a006900650074002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006f002000760061007200200061007400760113007200740020006100720020004100630072006f00620061007400200075006e002000410064006f00620065002000520065006100640065007200200035002e0030002c0020006b0101002000610072012b00200074006f0020006a00610075006e0101006b0101006d002000760065007200730069006a0101006d002e>
/NLD (Gebruik deze instellingen om Adobe PDF-documenten te maken die zijn geoptimaliseerd voor prepress-afdrukken van hoge kwaliteit. De gemaakte PDF-documenten kunnen worden geopend met Acrobat en Adobe Reader 5.0 en hoger.)
/NOR <FEFF004200720075006b00200064006900730073006500200069006e006e007300740069006c006c0069006e00670065006e0065002000740069006c002000e50020006f0070007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740065007200200073006f006d00200065007200200062006500730074002000650067006e0065007400200066006f00720020006600f80072007400720079006b006b0073007500740073006b00720069006600740020006100760020006800f800790020006b00760061006c0069007400650074002e0020005000440046002d0064006f006b0075006d0065006e00740065006e00650020006b0061006e002000e50070006e00650073002000690020004100630072006f00620061007400200065006c006c00650072002000410064006f00620065002000520065006100640065007200200035002e003000200065006c006c00650072002000730065006e006500720065002e>
/POL <FEFF0055007300740061007700690065006e0069006100200064006f002000740077006f0072007a0065006e0069006100200064006f006b0075006d0065006e007400f300770020005000440046002000700072007a0065007a006e00610063007a006f006e00790063006800200064006f002000770079006400720075006b00f30077002000770020007700790073006f006b00690065006a0020006a0061006b006f015b00630069002e002000200044006f006b0075006d0065006e0074007900200050004400460020006d006f017c006e00610020006f007400770069006500720061010700200077002000700072006f006700720061006d006900650020004100630072006f00620061007400200069002000410064006f00620065002000520065006100640065007200200035002e0030002000690020006e006f00770073007a0079006d002e>
/PTB <FEFF005500740069006c0069007a006500200065007300730061007300200063006f006e00660069006700750072006100e700f50065007300200064006500200066006f0072006d00610020006100200063007200690061007200200064006f00630075006d0065006e0074006f0073002000410064006f0062006500200050004400460020006d00610069007300200061006400650071007500610064006f00730020007000610072006100200070007200e9002d0069006d0070007200650073007300f50065007300200064006500200061006c007400610020007100750061006c00690064006100640065002e0020004f007300200064006f00630075006d0065006e0074006f00730020005000440046002000630072006900610064006f007300200070006f00640065006d0020007300650072002000610062006500720074006f007300200063006f006d0020006f0020004100630072006f006200610074002000650020006f002000410064006f00620065002000520065006100640065007200200035002e0030002000650020007600650072007300f50065007300200070006f00730074006500720069006f007200650073002e>
/RUM <FEFF005500740069006c0069007a00610163006900200061006300650073007400650020007300650074010300720069002000700065006e007400720075002000610020006300720065006100200064006f00630075006d0065006e00740065002000410064006f006200650020005000440046002000610064006500630076006100740065002000700065006e0074007200750020007400690070010300720069007200650061002000700072006500700072006500730073002000640065002000630061006c006900740061007400650020007300750070006500720069006f006100720103002e002000200044006f00630075006d0065006e00740065006c00650020005000440046002000630072006500610074006500200070006f00740020006600690020006400650073006300680069007300650020006300750020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e00300020015f00690020007600650072007300690075006e0069006c006500200075006c0074006500720069006f006100720065002e>
/RUS <FEFF04180441043f043e043b044c04370443043904420435002004340430043d043d044b04350020043d0430044104420440043e0439043a043800200434043b044f00200441043e043704340430043d0438044f00200434043e043a0443043c0435043d0442043e0432002000410064006f006200650020005000440046002c0020043c0430043a04410438043c0430043b044c043d043e0020043f043e04340445043e0434044f04490438044500200434043b044f00200432044b0441043e043a043e043a0430044704350441044204320435043d043d043e0433043e00200434043e043f0435044704300442043d043e0433043e00200432044b0432043e04340430002e002000200421043e043704340430043d043d044b04350020005000440046002d0434043e043a0443043c0435043d0442044b0020043c043e0436043d043e0020043e0442043a0440044b043204300442044c002004410020043f043e043c043e0449044c044e0020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200431043e043b043504350020043f043e04370434043d043804450020043204350440044104380439002e>
/SKY <FEFF0054006900650074006f0020006e006100730074006100760065006e0069006100200070006f0075017e0069007400650020006e00610020007600790074007600e100720061006e0069006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b0074006f007200e90020007300610020006e0061006a006c0065007001610069006500200068006f0064006900610020006e00610020006b00760061006c00690074006e00fa00200074006c0061010d00200061002000700072006500700072006500730073002e00200056007900740076006f00720065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f00740076006f00720069016500200076002000700072006f006700720061006d006f006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076016100ed00630068002e>
/SLV <FEFF005400650020006e006100730074006100760069007400760065002000750070006f0072006100620069007400650020007a00610020007500730074007600610072006a0061006e006a006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b006900200073006f0020006e0061006a007000720069006d00650072006e0065006a016100690020007a00610020006b0061006b006f0076006f00730074006e006f0020007400690073006b0061006e006a00650020007300200070007200690070007200610076006f0020006e00610020007400690073006b002e00200020005500730074007600610072006a0065006e006500200064006f006b0075006d0065006e0074006500200050004400460020006a00650020006d006f0067006f010d00650020006f0064007000720065007400690020007a0020004100630072006f00620061007400200069006e002000410064006f00620065002000520065006100640065007200200035002e003000200069006e0020006e006f00760065006a01610069006d002e>
/SUO <FEFF004b00e40079007400e40020006e00e40069007400e4002000610073006500740075006b007300690061002c0020006b0075006e0020006c0075006f00740020006c00e400680069006e006e00e4002000760061006100740069007600610061006e0020007000610069006e006100740075006b00730065006e002000760061006c006d0069007300740065006c00750074007900f6006800f6006e00200073006f00700069007600690061002000410064006f0062006500200050004400460020002d0064006f006b0075006d0065006e007400740065006a0061002e0020004c0075006f0064007500740020005000440046002d0064006f006b0075006d0065006e00740069007400200076006f0069006400610061006e0020006100760061007400610020004100630072006f0062006100740069006c006c00610020006a0061002000410064006f00620065002000520065006100640065007200200035002e0030003a006c006c00610020006a006100200075007500640065006d006d0069006c006c0061002e>
/SVE <FEFF0041006e007600e4006e00640020006400650020006800e4007200200069006e0073007400e4006c006c006e0069006e006700610072006e00610020006f006d002000640075002000760069006c006c00200073006b006100700061002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400200073006f006d002000e400720020006c00e4006d0070006c0069006700610020006600f60072002000700072006500700072006500730073002d007500740073006b00720069006600740020006d006500640020006800f600670020006b00760061006c0069007400650074002e002000200053006b006100700061006400650020005000440046002d0064006f006b0075006d0065006e00740020006b0061006e002000f600700070006e00610073002000690020004100630072006f0062006100740020006f00630068002000410064006f00620065002000520065006100640065007200200035002e00300020006f00630068002000730065006e006100720065002e>
/TUR <FEFF005900fc006b00730065006b0020006b0061006c006900740065006c0069002000f6006e002000790061007a006401310072006d00610020006200610073006b013100730131006e006100200065006e0020006900790069002000750079006100620069006c006500630065006b002000410064006f006200650020005000440046002000620065006c00670065006c0065007200690020006f006c0075015f007400750072006d0061006b0020006900e70069006e00200062007500200061007900610072006c0061007201310020006b0075006c006c0061006e0131006e002e00200020004f006c0075015f0074007500720075006c0061006e0020005000440046002000620065006c00670065006c0065007200690020004100630072006f006200610074002000760065002000410064006f00620065002000520065006100640065007200200035002e003000200076006500200073006f006e0072006100730131006e00640061006b00690020007300fc007200fc006d006c00650072006c00650020006100e70131006c006100620069006c00690072002e>
/UKR <FEFF04120438043a043e0440043804410442043e043204430439044204350020044604560020043f043004400430043c043504420440043800200434043b044f0020044104420432043e04400435043d043d044f00200434043e043a0443043c0435043d044204560432002000410064006f006200650020005000440046002c0020044f043a04560020043d04300439043a04400430044904350020043f045604340445043e0434044f0442044c00200434043b044f0020043204380441043e043a043e044f043a04560441043d043e0433043e0020043f0435044004350434043404400443043a043e0432043e0433043e0020043404400443043a0443002e00200020042104420432043e04400435043d045600200434043e043a0443043c0435043d0442043800200050004400460020043c043e0436043d04300020043204560434043a0440043804420438002004430020004100630072006f006200610074002004420430002000410064006f00620065002000520065006100640065007200200035002e0030002004300431043e0020043f04560437043d04560448043e04570020043204350440044104560457002e>
/ENU (Use these settings to create Adobe PDF documents best suited for high-quality prepress printing. Created PDF documents can be opened with Acrobat and Adobe Reader 5.0 and later.)
>>
/Namespace [
(Adobe)
(Common)
(1.0)
]
/OtherNamespaces [
<<
/AsReaderSpreads false
/CropImagesToFrames true
/ErrorControl /WarnAndContinue
/FlattenerIgnoreSpreadOverrides false
/IncludeGuidesGrids false
/IncludeNonPrinting false
/IncludeSlug false
/Namespace [
(Adobe)
(InDesign)
(4.0)
]
/OmitPlacedBitmaps false
/OmitPlacedEPS false
/OmitPlacedPDF false
/SimulateOverprint /Legacy
>>
<<
/AddBleedMarks false
/AddColorBars false
/AddCropMarks false
/AddPageInfo false
/AddRegMarks false
/ConvertColors /ConvertToCMYK
/DestinationProfileName ()
/DestinationProfileSelector /DocumentCMYK
/Downsample16BitImages true
/FlattenerPreset <<
/PresetSelector /MediumResolution
>>
/FormElements false
/GenerateStructure false
/IncludeBookmarks false
/IncludeHyperlinks false
/IncludeInteractive false
/IncludeLayers false
/IncludeProfiles false
/MultimediaHandling /UseObjectSettings
/Namespace [
(Adobe)
(CreativeSuite)
(2.0)
]
/PDFXOutputIntentProfileSelector /DocumentCMYK
/PreserveEditing true
/UntaggedCMYKHandling /LeaveUntagged
/UntaggedRGBHandling /UseDocumentProfile
/UseDocumentBleed false
>>
]
>> setdistillerparams
<<
/HWResolution [2400 2400]
/PageSize [612.000 792.000]
>> setpagedevice
|
| id | nasplib_isofts_kiev_ua-123456789-112656 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 0130-5395 |
| language | Russian |
| last_indexed | 2025-12-07T17:38:54Z |
| publishDate | 2015 |
| publisher | Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України |
| record_format | dspace |
| spelling | Сажок, Н.Н. Робейко, В.В. Федорин, Д.Я. Селюх, Р.А. 2017-01-25T19:19:53Z 2017-01-25T19:19:53Z 2015 Система преобразования телерадиовещания в текст для украинского языка / Н. Н. Сажок, В. В. Робейко, Д. Я. Федорин, Р. А. Селюх // Управляющие системы и машины. — 2015. — № 6. — С. 66–73. — Бібліогр.: 16 назв. — рос. 0130-5395 https://nasplib.isofts.kiev.ua/handle/123456789/112656 004.934 Описаны система превращения сигнала телерадиовещания в текст для украинского языка и моделирование особенностей, специфических для него – нерегулярность лексического ударения и высокая флективность. Разработанная система реализует подход клиент–сервер и позволяет просматривать пятиминутные сегменты речи синхронно с результатом распознавания речи. Описано систему перетворення сигналу телерадіомовлення в текст для української мови та моделювання особливостей, специфічних для неї – нерегулярність лексичного наголосу та висока флективність. Розроблена система реалізує підхід клієнт–сервер і дає змогу переглядати п’ятихвилинні сегменти мовлення синхронно з результатом розпізнавання мови. Introduction: Broadcast data processing is an important task for information society. The experience in development of real-time systems for Ukrainian dictation and speech record recognition on several computational platforms is the base for the described R&D devoted to extracting text from broadcast speech signal. Methods: The modeling is focused on features that are specific particularly for Ukrainian such as lexical stress and high inflexibility. Given arguments confirm the necessity to distinguish stressed and unstressed vowels in the phoneme alphabet. Lexical stress irregularity implies expert involvement for stress assignment. To automate this procedure we implemented a data-driven stress prediction algorithm that represents words as sequences of substrings and searches for one or more sequences with the best criteria. As a Slavonic language Ukrainian is highly inflective and tolerates relatively free word order, which motivates transition from word- to class-based statistical language model. Experimental research: Modeling both stressed and unstressed vowels leads to recognition accuracy improvement. Introduction word equivalence classes to the Language Model significantly decreases RAM consumption keeping the same recognition accuracy level. The developed experimental system implements client–server approach and allows for browsing 5-minute broadcast segments synchronously with speech recognition result. Conclusion: Language-specific speech feature modeling is beneficial for a speech recognition system. The created broadcast speech-to-text system opens news prospectives for broadcast stream analysis in Ukraine. ru Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України Управляющие системы и машины Информационные речевые технологии Система преобразования телерадиовещания в текст для украинского языка Система перетворення телерадіомовлення в текст для української мови Broadcast Speech-to-Text System for the Ukrainian Article published earlier |
| spellingShingle | Система преобразования телерадиовещания в текст для украинского языка Сажок, Н.Н. Робейко, В.В. Федорин, Д.Я. Селюх, Р.А. Информационные речевые технологии |
| title | Система преобразования телерадиовещания в текст для украинского языка |
| title_alt | Система перетворення телерадіомовлення в текст для української мови Broadcast Speech-to-Text System for the Ukrainian |
| title_full | Система преобразования телерадиовещания в текст для украинского языка |
| title_fullStr | Система преобразования телерадиовещания в текст для украинского языка |
| title_full_unstemmed | Система преобразования телерадиовещания в текст для украинского языка |
| title_short | Система преобразования телерадиовещания в текст для украинского языка |
| title_sort | система преобразования телерадиовещания в текст для украинского языка |
| topic | Информационные речевые технологии |
| topic_facet | Информационные речевые технологии |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/112656 |
| work_keys_str_mv | AT sažoknn sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka AT robeikovv sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka AT fedorindâ sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka AT selûhra sistemapreobrazovaniâteleradioveŝaniâvtekstdlâukrainskogoâzyka AT sažoknn sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi AT robeikovv sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi AT fedorindâ sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi AT selûhra sistemaperetvorennâteleradíomovlennâvtekstdlâukraínsʹkoímovi AT sažoknn broadcastspeechtotextsystemfortheukrainian AT robeikovv broadcastspeechtotextsystemfortheukrainian AT fedorindâ broadcastspeechtotextsystemfortheukrainian AT selûhra broadcastspeechtotextsystemfortheukrainian |