Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора

При тестировании на специализированных базах данных наиболее совершенных систем идентификации диктора их минимальная эффективность, оцениваемая величиной вероятности ошибки в точке пересечения кривых ошибок, составляет лишь несколько процентов. Однако известно множество факторов, влияющих на вариати...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2021
Hauptverfasser: Soloviev, Viktor, Rybalsky , Oleg, Zhuravel, Vadim, Shablya , Alexander, Timko , Evgeny
Format: Artikel
Sprache:Russian
Veröffentlicht: V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2021
Schlagworte:
Online Zugang:https://jais.net.ua/index.php/files/article/view/179
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems of Control and Informatics

Institution

Problems of Control and Informatics
id oai:ojs2.jais.net.ua:article-179
record_format ojs
institution Problems of Control and Informatics
baseUrl_str
datestamp_date 2024-03-14T10:55:26Z
collection OJS
language Russian
topic ймовірність
часове вікно
голосний звук
диктор
ідентифікація
криві помилок
спектр
точка перетину
фонограма
експертиза
ефективність
spellingShingle ймовірність
часове вікно
голосний звук
диктор
ідентифікація
криві помилок
спектр
точка перетину
фонограма
експертиза
ефективність
Soloviev, Viktor
Rybalsky , Oleg
Zhuravel, Vadim
Shablya , Alexander
Timko , Evgeny
Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
topic_facet probability
time window
vowel sound
speaker
identification
error curves
spectrum
intersection point
phonogram
expertise
efficiency
ймовірність
часове вікно
голосний звук
диктор
ідентифікація
криві помилок
спектр
точка перетину
фонограма
експертиза
ефективність
вероятность
временное окно
гласный звук
диктор
идентификация
кривые ошибок
спектр
точка пересечения
фонограмма
экспертиза
эффективность
format Article
author Soloviev, Viktor
Rybalsky , Oleg
Zhuravel, Vadim
Shablya , Alexander
Timko , Evgeny
author_facet Soloviev, Viktor
Rybalsky , Oleg
Zhuravel, Vadim
Shablya , Alexander
Timko , Evgeny
author_sort Soloviev, Viktor
title Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_short Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_full Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_fullStr Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_full_unstemmed Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_sort урахування богатофакторності характеристик голосу в задачах ідентифікації диктора
title_alt Учет многофакторности характеристик голоса в задачах идентификации диктора
Taking into account the multifactorial character of voice characteristics in the problems of speaker identification
description При тестировании на специализированных базах данных наиболее совершенных систем идентификации диктора их минимальная эффективность, оцениваемая величиной вероятности ошибки в точке пересечения кривых ошибок, составляет лишь несколько процентов. Однако известно множество факторов, влияющих на вариативность характеристик голоса диктора, каждый из которых имеет свое, отличное от других, влияние на результаты идентификации диктора по характеристикам голоса. Сложность создания и тестирования систем идентификации диктора заключается в необходимости количественной формализации ряда конкретных факторов, влияющих на характеристики его голоса. Рассмотрен предложенный метод учета множества факторов, влияющих на параметры характеристик голоса диктора, обеспечивающий принципиальную возможность косвенного учета их практически неограниченного количества. Согласно этому методу из речевых сигналов выделяются «атомарные» структуры, зависящие от совокупности основных факторов, влияющих на процесс идентификации диктора. По такому методу все существенные факторы, влияющие на характеристики голоса, будут косвенно учитываться на уровне этих структур. Экспертные решения принимаются по комбинаторной совокупности огромного числа этих «атомарных» структур. Под «атомарными» структурами речи понимаются спектры любых фрагментов гласных звуков, выделяемых во временном окне продолжительностью 20 мс. "Атомарные" структуры выделяются в автоматическом режиме. Предлагаемый метод обеспечивает рациональный учет богатофакторности влияния различных параметров, поскольку на спектры этих структур влияют все основные факторы, характеризующие индивидуальность голоса конкретного диктора. Решение об идентичности голосов дикторов, записанных на разных фонограммах, осуществляется на основе комбинаторики «атомарных» спектров гласных звуков в обоих фонограммах. Метод показал высокую эффективность при экспертизе фонограмм малой продолжительности.
publisher V.M. Glushkov Institute of Cybernetics of NAS of Ukraine
publishDate 2021
url https://jais.net.ua/index.php/files/article/view/179
work_keys_str_mv AT solovievviktor učetmnogofaktornostiharakteristikgolosavzadačahidentifikaciidiktora
AT rybalskyoleg učetmnogofaktornostiharakteristikgolosavzadačahidentifikaciidiktora
AT zhuravelvadim učetmnogofaktornostiharakteristikgolosavzadačahidentifikaciidiktora
AT shablyaalexander učetmnogofaktornostiharakteristikgolosavzadačahidentifikaciidiktora
AT timkoevgeny učetmnogofaktornostiharakteristikgolosavzadačahidentifikaciidiktora
AT solovievviktor urahuvannâbogatofaktornostíharakteristikgolosuvzadačahídentifíkacíídiktora
AT rybalskyoleg urahuvannâbogatofaktornostíharakteristikgolosuvzadačahídentifíkacíídiktora
AT zhuravelvadim urahuvannâbogatofaktornostíharakteristikgolosuvzadačahídentifíkacíídiktora
AT shablyaalexander urahuvannâbogatofaktornostíharakteristikgolosuvzadačahídentifíkacíídiktora
AT timkoevgeny urahuvannâbogatofaktornostíharakteristikgolosuvzadačahídentifíkacíídiktora
AT solovievviktor takingintoaccountthemultifactorialcharacterofvoicecharacteristicsintheproblemsofspeakeridentification
AT rybalskyoleg takingintoaccountthemultifactorialcharacterofvoicecharacteristicsintheproblemsofspeakeridentification
AT zhuravelvadim takingintoaccountthemultifactorialcharacterofvoicecharacteristicsintheproblemsofspeakeridentification
AT shablyaalexander takingintoaccountthemultifactorialcharacterofvoicecharacteristicsintheproblemsofspeakeridentification
AT timkoevgeny takingintoaccountthemultifactorialcharacterofvoicecharacteristicsintheproblemsofspeakeridentification
first_indexed 2025-10-30T02:48:45Z
last_indexed 2025-10-30T02:48:45Z
_version_ 1847373359145287680
spelling oai:ojs2.jais.net.ua:article-1792024-03-14T10:55:26Z Учет многофакторности характеристик голоса в задачах идентификации диктора Урахування богатофакторності характеристик голосу в задачах ідентифікації диктора Taking into account the multifactorial character of voice characteristics in the problems of speaker identification Soloviev, Viktor Rybalsky , Oleg Zhuravel, Vadim Shablya , Alexander Timko , Evgeny probability time window vowel sound speaker identification error curves spectrum intersection point phonogram expertise efficiency ймовірність часове вікно голосний звук диктор ідентифікація криві помилок спектр точка перетину фонограма експертиза ефективність вероятность временное окно гласный звук диктор идентификация кривые ошибок спектр точка пересечения фонограмма экспертиза эффективность При тестировании на специализированных базах данных наиболее совершенных систем идентификации диктора их минимальная эффективность, оцениваемая величиной вероятности ошибки в точке пересечения кривых ошибок, составляет лишь несколько процентов. Однако известно множество факторов, влияющих на вариативность характеристик голоса диктора, каждый из которых имеет свое, отличное от других, влияние на результаты идентификации диктора по характеристикам голоса. Сложность создания и тестирования систем идентификации диктора заключается в необходимости количественной формализации ряда конкретных факторов, влияющих на характеристики его голоса. Рассмотрен предложенный метод учета множества факторов, влияющих на параметры характеристик голоса диктора, обеспечивающий принципиальную возможность косвенного учета их практически неограниченного количества. Согласно этому методу из речевых сигналов выделяются «атомарные» структуры, зависящие от совокупности основных факторов, влияющих на процесс идентификации диктора. По такому методу все существенные факторы, влияющие на характеристики голоса, будут косвенно учитываться на уровне этих структур. Экспертные решения принимаются по комбинаторной совокупности огромного числа этих «атомарных» структур. Под «атомарными» структурами речи понимаются спектры любых фрагментов гласных звуков, выделяемых во временном окне продолжительностью 20 мс. "Атомарные" структуры выделяются в автоматическом режиме. Предлагаемый метод обеспечивает рациональный учет богатофакторности влияния различных параметров, поскольку на спектры этих структур влияют все основные факторы, характеризующие индивидуальность голоса конкретного диктора. Решение об идентичности голосов дикторов, записанных на разных фонограммах, осуществляется на основе комбинаторики «атомарных» спектров гласных звуков в обоих фонограммах. Метод показал высокую эффективность при экспертизе фонограмм малой продолжительности. При тестуванні на спеціалізованих базах даних найбільш досконалих систем ідентифікації диктора їх мінімальна ефективність, що оцінюється величиною ймовірності помилки в точці перетину кривих помилок, становить лише кілька відсотків. Однак відомо безліч факторів, що впливають на варіативність характеристик голосу диктора, кожний з яких має свій, відмінний від інших, вплив на результати ідентифікації диктора за характеристиками голосу. Складність створення і тестування систем ідентифікації диктора полягає в необхідності кількісної формалізації ряду конкретних факторів, що впливають на характеристики його голосу. Розглянуто запропонований метод урахування безлічі чинників, які впливають на параметри характеристик голосу диктора, що забезпечує принципову можливість непрямого урахування їх практично необмеженої кількості. Відповідно до цього методу з мовних сигналів виділяються «атомарні» структури, які залежать від сукупності основних факторів, що впливають на процес ідентифікації диктора. За таким методом всі істотні фактори, що впливають на характеристики голосу, будуть побічно враховуватися на рівні цих структур. Експертні рішення приймаються за комбінаторною сукупністю величезного числа цих «атомарних» структур. Під «атомарними» структурами мовлення розуміються спектри будь-яких фрагментів голосних звуків, які виділяються в часовому вікні тривалістю 20 мс. «Атомарні» структури виділяються в автоматичному режимі. Запропонований метод забезпечує раціональне урахування богатофакторності впливу різних параметрів, оскільки на спектри цих структур впливають всі основні фактори, що характеризують індивідуальність голосу конкретного диктора. Рішення щодо ідентичності голосів дикторів, записаних на різних фонограмах, здійснюється на основі комбінаторики «атомарних» спектрів голосних звуків в обох фонограмах. Метод показав високу ефективність при експертизі фонограм малої тривалості. When testing the most advanced speaker identification systems on specialized databases, their minimum efficiency, estimated by the error probability at the point of intersection of the error curves, is only a few percent. However, many factors are known that affect the variability of the characteristics of the speaker's voice, each of which has its own, different from the others, influence on the results of the speaker's identification by the characteristics of the voice. The complexity of creating and testing speaker identification systems is the need to quantitatively formalize a number of specific factors that affect the characteristics of his voice. The article discusses the proposed method for accounting for a variety of factors affecting the parameters of the characteristics of the speaker's voice, which provides the fundamental possibility of indirectly accounting for their practically unlimited number. According to this method, «atomic» structures are distinguished from speech signals, which depend on the totality of the main factors that affect the speaker's identification process. With this method, all significant factors affecting the characteristics of the voice will be indirectly taken into account at the level of these structures. Subsequent decisions are made on the combinatorial set of a huge number of these «atomic» structures. «Atomic» speech structures are understood as the spectra of any fragments of any vowel sounds allocated in a time window of 20 ms. «Atomic» structures are selected automatically. The proposed method provides a rational consideration of the multifactorial influence of various parameters, since the spectra of these structures are influenced by all the main factors that characterize the individuality of the voice of a particular speaker. The decision on the identity of the voices of the announcers recorded on different phonograms is carried out on the basis of combinatorics of «atomic» spectra of vowel sounds in both phonograms. The method has shown high efficiency in the examination of phonograms of short duration. V.M. Glushkov Institute of Cybernetics of NAS of Ukraine 2021-07-05 Article Article application/pdf https://jais.net.ua/index.php/files/article/view/179 10.34229/1028-0979-2021-5-2 Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; Том 66 № 5 (2021): Міжнародний науково-технічний журнал "Проблеми керування та інформатики"; 21-30 International Scientific Technical Journal "Problems of Control and Informatics; Том 66 № 5 (2021): International Scientific and Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 21-30 International Scientific Technical Journal "Problems of Control and Informatics"; Vol. 66 No. 5 (2021): International Scientific and Technical Journal "PROBLEMS OF CONTROL AND INFORMATICS"; 21-30 2786-6505 2786-6491 10.34229/1028-0979-2021-5 ru https://jais.net.ua/index.php/files/article/view/179/269 Copyright (c) 2021 Viktor Soloviev, Oleg Rybalsky , Vadim Zhuravel, Alexander Shablya , Evgeny Timko https://creativecommons.org/licenses/by-nc-nd/4.0