Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing

A set of speech recognition techniques that allow for Ukrainian broadcast monitoring are covered: speech-to-text conversion; speaker diarization and recognition; text perception enhancement; multilingual aspects. The experimental results are presented and discussed. Методи. При автоматичному перетво...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Control systems & computers
Datum:2019
Hauptverfasser: Sazhok, M.M., Seliukh, R.A., Fedoryn, D.Ya., Yukhymenko, O.A., Robeiko, V.V.
Format: Artikel
Sprache:English
Veröffentlicht: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2019
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/181099
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing / M.M., Sazhok R.A. Seliukh, D.Ya. Fedoryn, O.A. Yukhymenko, V.V. Robeiko // Control systems & computers. — 2019. — № 6. — С. 46-57. — Бібліогр.: 16 назв. — англ.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-181099
record_format dspace
spelling Sazhok, M.M.
Seliukh, R.A.
Fedoryn, D.Ya.
Yukhymenko, O.A.
Robeiko, V.V.
2021-10-31T19:34:46Z
2021-10-31T19:34:46Z
2019
Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing / M.M., Sazhok R.A. Seliukh, D.Ya. Fedoryn, O.A. Yukhymenko, V.V. Robeiko // Control systems & computers. — 2019. — № 6. — С. 46-57. — Бібліогр.: 16 назв. — англ.
2706-8145
DOI https://doi.org/10.15407/usim.2019.06.046
https://nasplib.isofts.kiev.ua/handle/123456789/181099
004.934
A set of speech recognition techniques that allow for Ukrainian broadcast monitoring are covered: speech-to-text conversion; speaker diarization and recognition; text perception enhancement; multilingual aspects. The experimental results are presented and discussed.
Методи. При автоматичному перетворенні на текст застосовується метод, основні складові якого засновані на підходах генеративної моделі (НММ), апроксимації областей спостереження сигналу з використанням сумішей нормального закону (GMM) та покращення якості цієї апроксимації засобами глибокого навчання (DNN). Для моделювання акустичних особливостей людини застосовується підхід i-vector, що також дає змогу визначати моменти зміни мовця. Скінченні автомати та рекурентні нейромережі застосовано для поліпшення сприйняття тексту людиною та для подальшого його автоматичного оброблення. Злиття моделей двох мов дало змогу ефективно обробляти спонтанне перемикання з однієї мови на іншу. Результати та висновки. Реалізована схема перетворення мовлення на текст дала змогу отримати результат розпізнавання фонограм телерадіомовлення у формі, зручній і для користувача-людини, і для подальшої автоматичної обробки. А саме, за отриманим текстом зрозуміло, про що йдеться, відстежується фактичний матеріал (власні назви, числа, дати тощо), розділові знаки полегшують сприйняття тексту, і загалом зменшуються затрати на ручне редагування для отримання кінцевої стенограми.
Методы. При автоматическом преобразовании в текст применяется метод, основные составляющие которого основаны на подходах генеративной модели (НММ), аппроксимации областей наблюдения сигнала с использованием смесей нормального закона (GMM) и улучшения качества этой аппроксимации средствами глубокого обучения (DNN). Для моделирования акустических особенностей человека применяется подход i-vector, что также позволяет определять моменты смены говорящего. Конечные автоматы и рекуррентные нейросети примененеы для улучшения восприятия текста человеком и для дальнейшей его автоматической обработки. Слияние моделей двух языков позволило эффективно обрабатывать спонтанное переключение с одного языка на другой. Результаты и выводы. Реализованная схема преобразования речи в текст дала возможность получить результат распознавания фонограмм телерадиообщения в удобном виде, как для пользователя-человека, так и для дальнейшей автоматической обработки. А именно: по полученному тексту понятно, о чем идет речь, отслеживается фактический материал (собственные названия, числа, даты и т.д.), разделительные знаки облегчают восприятие текста, и вообще уменьшаются затраты на ручное редактирование для получения конечной стенограммы.
en
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Control systems & computers
Intellectual Informational Technologies and Systems
Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
Засоби розпізнавання мовленнєвого сигналу для оцифровування українського медійного простору
Средства распознавания речевых сигналов для оцифровки украинского медийного пространства
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
spellingShingle Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
Sazhok, M.M.
Seliukh, R.A.
Fedoryn, D.Ya.
Yukhymenko, O.A.
Robeiko, V.V.
Intellectual Informational Technologies and Systems
title_short Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
title_full Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
title_fullStr Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
title_full_unstemmed Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing
title_sort automatic speech recognition for ukrainian broadcast media transcribing
author Sazhok, M.M.
Seliukh, R.A.
Fedoryn, D.Ya.
Yukhymenko, O.A.
Robeiko, V.V.
author_facet Sazhok, M.M.
Seliukh, R.A.
Fedoryn, D.Ya.
Yukhymenko, O.A.
Robeiko, V.V.
topic Intellectual Informational Technologies and Systems
topic_facet Intellectual Informational Technologies and Systems
publishDate 2019
language English
container_title Control systems & computers
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
format Article
title_alt Засоби розпізнавання мовленнєвого сигналу для оцифровування українського медійного простору
Средства распознавания речевых сигналов для оцифровки украинского медийного пространства
description A set of speech recognition techniques that allow for Ukrainian broadcast monitoring are covered: speech-to-text conversion; speaker diarization and recognition; text perception enhancement; multilingual aspects. The experimental results are presented and discussed. Методи. При автоматичному перетворенні на текст застосовується метод, основні складові якого засновані на підходах генеративної моделі (НММ), апроксимації областей спостереження сигналу з використанням сумішей нормального закону (GMM) та покращення якості цієї апроксимації засобами глибокого навчання (DNN). Для моделювання акустичних особливостей людини застосовується підхід i-vector, що також дає змогу визначати моменти зміни мовця. Скінченні автомати та рекурентні нейромережі застосовано для поліпшення сприйняття тексту людиною та для подальшого його автоматичного оброблення. Злиття моделей двох мов дало змогу ефективно обробляти спонтанне перемикання з однієї мови на іншу. Результати та висновки. Реалізована схема перетворення мовлення на текст дала змогу отримати результат розпізнавання фонограм телерадіомовлення у формі, зручній і для користувача-людини, і для подальшої автоматичної обробки. А саме, за отриманим текстом зрозуміло, про що йдеться, відстежується фактичний матеріал (власні назви, числа, дати тощо), розділові знаки полегшують сприйняття тексту, і загалом зменшуються затрати на ручне редагування для отримання кінцевої стенограми. Методы. При автоматическом преобразовании в текст применяется метод, основные составляющие которого основаны на подходах генеративной модели (НММ), аппроксимации областей наблюдения сигнала с использованием смесей нормального закона (GMM) и улучшения качества этой аппроксимации средствами глубокого обучения (DNN). Для моделирования акустических особенностей человека применяется подход i-vector, что также позволяет определять моменты смены говорящего. Конечные автоматы и рекуррентные нейросети примененеы для улучшения восприятия текста человеком и для дальнейшей его автоматической обработки. Слияние моделей двух языков позволило эффективно обрабатывать спонтанное переключение с одного языка на другой. Результаты и выводы. Реализованная схема преобразования речи в текст дала возможность получить результат распознавания фонограмм телерадиообщения в удобном виде, как для пользователя-человека, так и для дальнейшей автоматической обработки. А именно: по полученному тексту понятно, о чем идет речь, отслеживается фактический материал (собственные названия, числа, даты и т.д.), разделительные знаки облегчают восприятие текста, и вообще уменьшаются затраты на ручное редактирование для получения конечной стенограммы.
issn 2706-8145
url https://nasplib.isofts.kiev.ua/handle/123456789/181099
citation_txt Automatic Speech Recognition For Ukrainian Broadcast Media Transcribing / M.M., Sazhok R.A. Seliukh, D.Ya. Fedoryn, O.A. Yukhymenko, V.V. Robeiko // Control systems & computers. — 2019. — № 6. — С. 46-57. — Бібліогр.: 16 назв. — англ.
work_keys_str_mv AT sazhokmm automaticspeechrecognitionforukrainianbroadcastmediatranscribing
AT seliukhra automaticspeechrecognitionforukrainianbroadcastmediatranscribing
AT fedoryndya automaticspeechrecognitionforukrainianbroadcastmediatranscribing
AT yukhymenkooa automaticspeechrecognitionforukrainianbroadcastmediatranscribing
AT robeikovv automaticspeechrecognitionforukrainianbroadcastmediatranscribing
AT sazhokmm zasobirozpíznavannâmovlennêvogosignaludlâocifrovuvannâukraínsʹkogomedíinogoprostoru
AT seliukhra zasobirozpíznavannâmovlennêvogosignaludlâocifrovuvannâukraínsʹkogomedíinogoprostoru
AT fedoryndya zasobirozpíznavannâmovlennêvogosignaludlâocifrovuvannâukraínsʹkogomedíinogoprostoru
AT yukhymenkooa zasobirozpíznavannâmovlennêvogosignaludlâocifrovuvannâukraínsʹkogomedíinogoprostoru
AT robeikovv zasobirozpíznavannâmovlennêvogosignaludlâocifrovuvannâukraínsʹkogomedíinogoprostoru
AT sazhokmm sredstvaraspoznavaniârečevyhsignalovdlâocifrovkiukrainskogomediinogoprostranstva
AT seliukhra sredstvaraspoznavaniârečevyhsignalovdlâocifrovkiukrainskogomediinogoprostranstva
AT fedoryndya sredstvaraspoznavaniârečevyhsignalovdlâocifrovkiukrainskogomediinogoprostranstva
AT yukhymenkooa sredstvaraspoznavaniârečevyhsignalovdlâocifrovkiukrainskogomediinogoprostranstva
AT robeikovv sredstvaraspoznavaniârečevyhsignalovdlâocifrovkiukrainskogomediinogoprostranstva
first_indexed 2025-12-07T15:14:16Z
last_indexed 2025-12-07T15:14:16Z
_version_ 1850862947837935616