Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання

The use of neuron networks of the deep learning for the construction of tool for realization of examinations of materials and apparatus of the digital audio recording allows to solve the «frigging» problem of such examination — problem of exposure of tracks of editing in digital phonograms. These ne...

Full description

Saved in:
Bibliographic Details
Date:2023
Main Authors: Solovyov, Viktor, Rybalskiy, Oleg, Zhuravel, Vadim
Format: Article
Language:Russian
Published: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023
Subjects:
Online Access:https://jais.net.ua/index.php/files/article/view/49
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-49
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2024-03-14T11:02:06Z
collection OJS
language Russian
topic апаратура цифрового звукозапису
база навчання
нейронна мережа глибокого навчання
цифрова обробка фонограм
цифрова фонограма
експертиза
spellingShingle апаратура цифрового звукозапису
база навчання
нейронна мережа глибокого навчання
цифрова обробка фонограм
цифрова фонограма
експертиза
Solovyov, Viktor
Rybalskiy, Oleg
Zhuravel, Vadim
Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
topic_facet apparatus of the digital audio recording
base of learning
neuron network of the deep learning
digital treatment of phonograms
digital phonogram
examination
аппаратура цифровой звукозаписи
база обучения
нейронная сеть глубокого обучения
цифровая обработка фонограмм
цифровая фонограмма
экспертиза.
апаратура цифрового звукозапису
база навчання
нейронна мережа глибокого навчання
цифрова обробка фонограм
цифрова фонограма
експертиза
format Article
author Solovyov, Viktor
Rybalskiy, Oleg
Zhuravel, Vadim
author_facet Solovyov, Viktor
Rybalskiy, Oleg
Zhuravel, Vadim
author_sort Solovyov, Viktor
title Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_short Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_full Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_fullStr Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_full_unstemmed Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_sort система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання
title_alt System of automatic segmentation of pauses in phonograms on the basis of neuron networks of the deep learning
Система автоматической сегментации пауз в фонограммах на основе нейронных сетей глубокого обучения
description The use of neuron networks of the deep learning for the construction of tool for realization of examinations of materials and apparatus of the digital audio recording allows to solve the «frigging» problem of such examination — problem of exposure of tracks of editing in digital phonograms. These networks provide high probability of exposure of such tracks in the pauses of speech information writtenin on a phonogram. Before man-hunting of tracks of editing in the investigated phonogram it is necessary to distinguish pauses (to perform its segmentation), and tool built on the basis of neuron networks of the deep learning, requires its work to be done in automatic mode. The basic requirement of automatic segmentation is high efficiency of selection of pauses in the conditions of permanent change of level of noises in phonograms. It is determined by probability of errors of І and ІІ kinds. It is offered on the basis of neuron networks of the deep learning to create CAS of segmentation of phonograms, possessing high efficiency of selection of pauses in speech information. Thus the system must be independent of level of noises in every concrete pause, and also language, context and announcer, whose speech is fixed in a phonogram. It is suggested to examine pauses as one of the types of voice information, which characteristics differ from characteristics of speech information fixed in a phonogram. For educating of such network it was required to create the primary base of these sounds and pauses. On its basis three arrays of the data, intended for learning, testing and determination of the crooked errors of І and ІІ kinds, are created. After learning and testing the system passed verification on the real phonograms. As a result taking into account some features of speech on the neuron networks of deep learning there has been built the system providing effective segmentation of pauses in phonograms in the automatics mode. The obtained results suit examination that is conformed by given curves over of errors of І and ІІ kinds.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2023
url https://jais.net.ua/index.php/files/article/view/49
work_keys_str_mv AT solovyovviktor systemofautomaticsegmentationofpausesinphonogramsonthebasisofneuronnetworksofthedeeplearning
AT rybalskiyoleg systemofautomaticsegmentationofpausesinphonogramsonthebasisofneuronnetworksofthedeeplearning
AT zhuravelvadim systemofautomaticsegmentationofpausesinphonogramsonthebasisofneuronnetworksofthedeeplearning
AT solovyovviktor sistemaavtomatičeskojsegmentaciipauzvfonogrammahnaosnovenejronnyhsetejglubokogoobučeniâ
AT rybalskiyoleg sistemaavtomatičeskojsegmentaciipauzvfonogrammahnaosnovenejronnyhsetejglubokogoobučeniâ
AT zhuravelvadim sistemaavtomatičeskojsegmentaciipauzvfonogrammahnaosnovenejronnyhsetejglubokogoobučeniâ
AT solovyovviktor sistemaavtomatičnoísegmentacíípauzufonogramahnaosnovínejronnihmerežglibokogonavčannâ
AT rybalskiyoleg sistemaavtomatičnoísegmentacíípauzufonogramahnaosnovínejronnihmerežglibokogonavčannâ
AT zhuravelvadim sistemaavtomatičnoísegmentacíípauzufonogramahnaosnovínejronnihmerežglibokogonavčannâ
first_indexed 2025-10-30T02:48:33Z
last_indexed 2025-10-30T02:48:33Z
_version_ 1847373346239414272
spelling oai:ojs2.jais.net.ua:article-492024-03-14T11:02:06Z System of automatic segmentation of pauses in phonograms on the basis of neuron networks of the deep learning Система автоматической сегментации пауз в фонограммах на основе нейронных сетей глубокого обучения Система автоматичної сегментації пауз у фонограмах на основі нейронних мереж глибокого навчання Solovyov, Viktor Rybalskiy, Oleg Zhuravel, Vadim apparatus of the digital audio recording base of learning neuron network of the deep learning digital treatment of phonograms digital phonogram examination аппаратура цифровой звукозаписи база обучения нейронная сеть глубокого обучения цифровая обработка фонограмм цифровая фонограмма экспертиза. апаратура цифрового звукозапису база навчання нейронна мережа глибокого навчання цифрова обробка фонограм цифрова фонограма експертиза The use of neuron networks of the deep learning for the construction of tool for realization of examinations of materials and apparatus of the digital audio recording allows to solve the «frigging» problem of such examination — problem of exposure of tracks of editing in digital phonograms. These networks provide high probability of exposure of such tracks in the pauses of speech information writtenin on a phonogram. Before man-hunting of tracks of editing in the investigated phonogram it is necessary to distinguish pauses (to perform its segmentation), and tool built on the basis of neuron networks of the deep learning, requires its work to be done in automatic mode. The basic requirement of automatic segmentation is high efficiency of selection of pauses in the conditions of permanent change of level of noises in phonograms. It is determined by probability of errors of І and ІІ kinds. It is offered on the basis of neuron networks of the deep learning to create CAS of segmentation of phonograms, possessing high efficiency of selection of pauses in speech information. Thus the system must be independent of level of noises in every concrete pause, and also language, context and announcer, whose speech is fixed in a phonogram. It is suggested to examine pauses as one of the types of voice information, which characteristics differ from characteristics of speech information fixed in a phonogram. For educating of such network it was required to create the primary base of these sounds and pauses. On its basis three arrays of the data, intended for learning, testing and determination of the crooked errors of І and ІІ kinds, are created. After learning and testing the system passed verification on the real phonograms. As a result taking into account some features of speech on the neuron networks of deep learning there has been built the system providing effective segmentation of pauses in phonograms in the automatics mode. The obtained results suit examination that is conformed by given curves over of errors of І and ІІ kinds. Использование нейронных сетей глубокого обучения для построения инструментария для проведения экспертиз материалов и аппаратуры цифровой звукозаписи позволяет решить «проклятую» проблему такой экспертизы — выявление следов монтажа в цифровых фонограммах. Эти сети обеспечивают высокую вероятность обнаружения таких следов в паузах речевой информации, записанной на фонограмме. Перед проведением поиска следов монтажа в исследуемой фонограмме необходимо выделить паузы (сделать ее сегментацию), а инструментарий, построенный на основе нейронных сетей глубокого обучения, требует работать в автоматическом режиме. Основным требованием автоматической сегментации является высокая эффективность выделения пауз в условиях постоянного изменения уровня шумов в фонограммах. Она определяется вероятностью в точке пересечения кривых ошибок I и II рода. На основе нейронных сетей глубокого обучения предложено создать автоматизированную систему сегментации фонограмм, имеющую высокую эффективность выделения пауз в речевой информации. При этом система должна быть независимой от уровня шумов в каждой конкретной паузе, а также языка, контекста и диктора, чья речь зафиксирована в фонограме. Предложено рассматривать паузы как один из видов звуковой информации, отличающийся своими характеристиками от языковой информации, зафиксированной в фоно-грамме. Для обучения таковой сети необходимо сделать первичную базу таковых звуков и пауз. На ее основе созданы три массива данных, предназначенных для обучения, тестирования и определения кривых ошибок I и II рода. После обучения и тестирования система прошла проверку на реальных фонограммах. В результате учета некоторых особенностей языка на нейронных сетях глубокого обучения построена система, обеспечивающая в автоматическом режиме эффективную сегментацию пауз в фонограммах. Полученные результаты удовлетворяют требованиям экспертизы, что подтверждено приведенными кривыми ошибок I и II рода. Використання нейронних мереж глибокого навчання для побудови інструмен-тарію для проведення експертиз матеріалів та апаратури цифрового звукозапису дозволяє розв’язати «кляту» проблему такої експертизи — виявлення слідів монтажу в цифрових фонограмах. Ці мережі забезпечують високу ймовірність виявлення таких слідів в паузах мовної інформації, записаної на фонограмі. Перед проведенням пошуку слідів монтажу в досліджуваній фонограмі необхідно виділити паузи (зробити її сегментацію), а інструментарій, побудований на основі нейронних мереж глибокого навчання, вимагає працювати в автоматичному режимі. Основною вимогою автоматичної сегментації є висока ефективність виділення пауз в умовах постійної зміни рівня шумів у фонограмах. Вона визначається ймовірністю у точці перетину кривих помилок І і ІІ роду. На основі нейронних мереж глибокого навчання запропоновано створити автоматизовану систему сегментації фонограм, що має високу ефективність виділення пауз у мовленнєвій інформації. При цьому система має бути незалежною від рівня шумів у кожній конкретній паузі, а також мови, контексту та диктора, чия мова зафіксована у фонограмі. Запропоновано розглядати паузи як один з видів звукової інформації, що відрізняється своїми характеристиками від мовної інформації, зафіксованої у фонограмі. Для навчання такої мережі потрібно створити первинну базу таких звуків і пауз. На її основі створено три масиви даних, призначених для навчання, тестування та визначення кривих помилок І і ІІ роду. Після навчання та тестування система пройшла перевірку на реальних фонограмах. У результаті врахування деяких особливостей мови на нейронних мережах глибокого навчання побудовано систему, що забезпечує в автоматичному режимі ефективну сегментацію пауз у фонограмах. Отримані результати задовольняють вимогам експертизи, що підтверджено приведеними кривими помилок І і ІІ роду. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2023-06-27 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/49 10.34229/1028-0979-2021-1-8 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 66 № 1 (2021): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 91-97 International Scientific Technical Journal "Problems of Control and Informatics; Том 66 № 1 (2021): International Scientific Technical Journal "Problems of Control and Informatics"; 91-97 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 66 No. 1 (2021): International Scientific Technical Journal "Problems of Control and Informatics"; 91-97 2786-6505 2786-6491 10.34229/1028-0979-2021-1 ru https://jais.net.ua/index.php/files/article/view/49/96 Copyright (c) 2020 Viktor Solovyov, Oleg Rybalskiy, Vadim Zhuravel https://creativecommons.org/licenses/by-nc-nd/4.0/