Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей
Предложен метод классификации пола диктора, основанный на моделировании плотности распределения вектора параметров голоса моделью гауссовых смесей. В качестве вектора параметров использовался набор кепстральных коэффициентов, дополненный периодом основного тона. Обучение модели гауссовых смесей прои...
Gespeichert in:
| Datum: | 2018 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2018
|
| Schriftenreihe: | Компьютерная математика |
| Schlagworte: | |
| Online Zugang: | https://nasplib.isofts.kiev.ua/handle/123456789/161891 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Zitieren: | Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей / В.Ю. Семенов // Компьютерная математика. — 2018. — № 2. — С. 109-118. — Бібліогр.: 110 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-161891 |
|---|---|
| record_format |
dspace |
| spelling |
nasplib_isofts_kiev_ua-123456789-1618912025-02-09T17:31:06Z Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей Метод класификації статі диктора, заснований на апроксимації параметрів мовного сигналу моделлю гауссівських сумiшей Method for gender cassification based on approximation of voice parameters by Gaussian mixture models Семенов, В.Ю. Оптимизация вычислений Предложен метод классификации пола диктора, основанный на моделировании плотности распределения вектора параметров голоса моделью гауссовых смесей. В качестве вектора параметров использовался набор кепстральных коэффициентов, дополненный периодом основного тона. Обучение модели гауссовых смесей производилось по методу максимизации ожидания (Expectation-Maximization). При проведении экспериментальных исследований предложенный метод показал достаточно низкую вероятность ошибки классификации (от 9 % до 0 %). Запропоновано метод класифікації статі диктора, заснований на моделюванні щільності розподілу вектора параметрів мовного сигналу моделлю гауссівських сумiшей. Як вектор параметрів використовувався набір кепстральних коефіціентів, доповнений періодом основного тону. Навчання моделi гауссівських сумiшей здійснювалось за методом максимизації очікування (Expectation-Maximization). При експериментальній перевірці запропонований метод показав досить низьку ймовірність помилки класифікації (від 9 % до 0 %). The method for gender classification, based on modeling of probability density function of voice parameters by Gaussian mixture model, is proposed. The vector of parameters consists of cepstral coefficients combined with basic tone period. The training of Gaussian mixture model is performed by Expectation-Maximization method. The experiments have shown low probability of classification error for the proposed method (from 9% to 0%). 2018 Article Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей / В.Ю. Семенов // Компьютерная математика. — 2018. — № 2. — С. 109-118. — Бібліогр.: 110 назв. — рос. 2616-938Х https://nasplib.isofts.kiev.ua/handle/123456789/161891 004.934.2 ru Компьютерная математика application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| language |
Russian |
| topic |
Оптимизация вычислений Оптимизация вычислений |
| spellingShingle |
Оптимизация вычислений Оптимизация вычислений Семенов, В.Ю. Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей Компьютерная математика |
| description |
Предложен метод классификации пола диктора, основанный на моделировании плотности распределения вектора параметров голоса моделью гауссовых смесей. В качестве вектора параметров использовался набор кепстральных коэффициентов, дополненный периодом основного тона. Обучение модели гауссовых смесей производилось по методу максимизации ожидания (Expectation-Maximization). При проведении экспериментальных исследований предложенный метод показал достаточно низкую вероятность ошибки классификации (от 9 % до 0 %). |
| format |
Article |
| author |
Семенов, В.Ю. |
| author_facet |
Семенов, В.Ю. |
| author_sort |
Семенов, В.Ю. |
| title |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| title_short |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| title_full |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| title_fullStr |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| title_full_unstemmed |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| title_sort |
метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| publishDate |
2018 |
| topic_facet |
Оптимизация вычислений |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/161891 |
| citation_txt |
Метод классификации пола диктора, основанный на аппроксимации параметров голоса моделью гауссовых смесей / В.Ю. Семенов // Компьютерная математика. — 2018. — № 2. — С. 109-118. — Бібліогр.: 110 назв. — рос. |
| series |
Компьютерная математика |
| work_keys_str_mv |
AT semenovvû metodklassifikaciipoladiktoraosnovannyjnaapproksimaciiparametrovgolosamodelʹûgaussovyhsmesej AT semenovvû metodklasifikacíístatídiktorazasnovanijnaaproksimacííparametrívmovnogosignalumodellûgaussívsʹkihsumišej AT semenovvû methodforgendercassificationbasedonapproximationofvoiceparametersbygaussianmixturemodels |
| first_indexed |
2025-11-28T17:39:04Z |
| last_indexed |
2025-11-28T17:39:04Z |
| _version_ |
1850056697963347968 |
| fulltext |
ISSN 2616-938Х. Компьютерная математика. 2018, № 2 109
Предложен метод классификации
пола диктора, основанный на
моделировании плотности рас-
пределения вектора параметров
голоса моделью гауссовых смесей.
В качестве вектора параметров
использовался набор кепстраль-
ных коэффициентов, дополненный
периодом основного тона. Обуче-
ние модели гауссовых смесей
производилось по методу макси-
мизации ожидания (Expectation-
Maximization). При проведении
экспериментальных исследований
предложенный метод показал
достаточно низкую вероятность
ошибки классификации (от 9 %
до 0 %).
В.Ю. Семенов, 2018
УДК 004.934.2
В.Ю. СЕМЕНОВ
МЕТОД КЛАССИФИКАЦИИ
ПОЛА ДИКТОРА, ОСНОВАННЫЙ
НА АППРОКСИМАЦИИ ПАРАМЕТРОВ
ГОЛОСА МОДЕЛЬЮ ГАУССОВЫХ
СМЕСЕЙ
Вступление. Задача идентификации пола
диктора актуальна для систем авто-
матической классификации речевой инфор-
мации, поскольку предварительное определе-
ние пола обеспечивает более точную
настройку распознающей системы. Кроме
того, определение пола диктора может
представлять самостоятельный интерес в си-
стемах, обеспечивающих правоохранитель-
ную деятельность, сбор информации для
рекламных целей и т. п. [1]. Как известно,
ключевыми вопросами для построения лю-
бой системы распознавания являются:
• выбор признаков, т. е. параметров, ха-
рактеризующих распознаваемые объекты
(в данном случае – мужские/женские голоса);
• выбор модели, в соответствии с которой
производится обучение системы распознава-
ния и последующая классификация при-
знаков.
Как правило, на предварительном этапе из
базы тестовых сигналов выделяются вектора
(наборы) признаков. Затем полученный
массив признаков используется для обучения
классифицирующей модели, результатом че-
го являются некоторые классы или эталон-
ные значения признаков.
В процессе реальной работы проверяемый
сигнал подвергается предварительной обра-
ботке (масштабирование, удаление шумов).
Затем извлеченные из него признаки сравни-
ваются с полученными на предварительном
этапе эталонными значениями (решающее
правило), что и является результатом клас-
сификации.
В.Ю. СЕМЕНОВ
110 ISSN 2616-938Х. Компьютерная математика. 2018, № 2
В задачах распознавания речевой информации в роли вектора признаков
обычно выступают кепстральные параметры, вычисляемые на каждом фрейме
речевого сигнала. В качестве вектора параметров нами выбран набор из десяти
RASTA-PLP коэффициентов, дополненный периодом основного тона (ОТ). При
этом был исключен кепстральный коэффициент, отвечающий за уровень
сигнала, т. е. общая размерность вектора признаков составляла 11.
В задачах распознавания используются различные подходы к выбору
модели классификации: Модели Гауссовых Смесей (Gaussian Mixture Models,
GMM), Скрытые Марковские Модели (Hidden Markovian Models, HMM)
и другие. Выбор между методами GMM и HMM зависит от того, является ли
поставленная задача идентификации текстонезависимой или текстозависимой.
В данном случае целесообразно принять, что обсуждаемая задача является
текстонезависимой, поскольку нас интересует не динамическая смена
признаков, а интегральное преобладание одних над другими. С учетом данного
обстоятельства выбран аппарат GMM.
Вычисление признаков. Важным признаком, используемым для различия
мужских и женских голосов, является период основного тона 0T (или частота
основного тона (ОТ) 00 1/= Tf ). Этот параметр характеризует частоту
колебания голосовых связок при произнесении звонких звуков [2].
Как правило, для мужчин характерны меньшие значения частоты основного
тона по сравнению с женщинами. Однако, как видно из рис. 1, эти диапазоны
все же пересекаются, так что в некоторых случаях женскому голосу может
соответствовать меньшая частота ОТ. Поэтому наиболее сложными
представляются ситуации, когда необходимо идентифицировать женщину
с низким голосом или, наоборот, мужчину с высоким голосом. В таких случаях
правильная идентификация должна обеспечиваться за счет использования
параметров, отражающих различия в структуре голосового тракта мужчин
и женщин. Исходя из вышесказанного, мы включили в вектор признаков
РИС. 1. Гистограммы распределения частоты основного тона
(Pitch) для женщин (верхний график) и для мужчин (нижний график)
МЕТОД КЛАССИФИКАЦИИ ПОЛА ДИКТОРА, ОСНОВАННЫЙ НА АППРОКСИМАЦИИ ...
ISSN 2616-938Х. Компьютерная математика. 2018, № 2 111
10 RASTA-PLP коэффициентов, определяющих форму голосового тракта при
произнесении звуков. Методика анализа речевых сигналов RASTA-PLP состоит
из двух частей: PLP (Perceptual linear prediction [3]) – линейное предсказание
с учетом особенностей слухового восприятия, RASTA («RelAtive SpecTrA») –
обработки, предназначенной для удаления из сигнала спектральных компонент,
скорость изменения которых отлична от скорости изменения соответствующих
компонент речи [4]. Основные этапы этой обработки перечислены далее.
1. Разбивка на фреймы. При работе с частотой дискретизации 8000=sf Гц
использовались фреймы длиной 25 мс (200 дискретных отсчетов) с перекрытием
в 15 мс (120 дискретных отсчетов).
2. Вычисление спектра. На каждом фрейме вычисляется квадрат модуля
преобразования Фурье.
3. PLP-анализ. Частотный диапазон /2][0, sf разбивается на 17 критических
полос [3], в каждой из которых производится вычисление энергии голосового
сигнала iE , 1,..., 17.i
4. RASTA-фильтрация. Сглаживание логарифмов величин iE с помощью
цифрового фильтра [4] с дискретной передаточной функцией
1 3 4
4
1
2 2( ) = 0.1 .
1 0.94
z z zR z z
z
(4)
Через фильтр )(zR пропускается каждая из 17 спектральных траекторий
iElog , полученных на предыдущем этапе. На рис. 2 показаны траектории
логарифмов энергий в критических полосах до и после RASTA-фильтрации.
Сравнение показывает, что RASTA-фильтрация убирает постоянные
составляющие логарифмов спектральных компонент.
5. Умножение на кривую равной громкости. Сглаженный логарифмический
спектр, полученный в результате RASTA-фильтрации, возвращается в линейный
масштаб путем взятия от него экспоненты.
Затем на каждом фрейме спектр умножается на кривую равной громкости
[3], которая определяется соотношением
4 2 6
2 5 2 2 6
1.44 10( ) = ,
( 1.6 10 ) 9.61 10
f fH f
f f
(5)
где f – частота в линейном масштабе. График данной функции в логариф-
мическом масштабе показан на рис. 3.
6. Имитация закона слухового восприятия. Полученные на предыдущем
шаге спектры для каждого фрейма возводятся в степень 0.33.
7. Обратное преобразование Фурье. От спектра берется обратное преобра-
зование Фурье, результатом чего является автокорреляционная функция (АКФ)
( ), = 0, , 1.fftR k k L
В.Ю. СЕМЕНОВ
112 ISSN 2616-938Х. Компьютерная математика. 2018, № 2
РИС. 2. Пример траекторий логарифмов энергий в критических полосах
до и после RASTA-фильтрации
РИС. 3. Кривая равной громкости
8. Вычисление коэффициентов линейного предсказания (КЛП). Для вычисле-
ния КЛП 1 2, ,..., pa a a (в нашем случае 10=p ), нам необходимы первые ( 1)p
значений АКФ: (0), (1),... , ( )R R R p . Они вычисляются с помощью рекурсии
Левинсона – Дарбина [2].
9. Преобразование в кепстральные коэффициенты. Кепстральные коэф-
фициенты (т. е. обратное преобразование Фурье от логарифма АР спектра)
вычисляются через рекуррентные соотношения [2]:
1
=1
= , = 1,..., .
n
n n k n k
k
kc a c a n p
n
На завершающем этапе коэффициенты проходят процедуру «лифтинга»:
0.6= , = 1,..., .n nc n c n p
МЕТОД КЛАССИФИКАЦИИ ПОЛА ДИКТОРА, ОСНОВАННЫЙ НА АППРОКСИМАЦИИ ...
ISSN 2616-938Х. Компьютерная математика. 2018, № 2 113
Таким образом, итоговый вектор признаков состоит из периода основного тона
0T и RASTA-PLP коэффициентов 1 2 10, ,..., .c c c
Модель гауссовых смесей (GMM). Основная идея аппарата GMM состоит,
как известно [5], в представлении плотности распределения вектора акусти-
ческих параметров x (размерностью d ) в виде взвешенной суммы гауссовских
плотностей распределения:
=1
( ) = ( / , ),
M
m m m
m
p x b x D (6)
где ( / , )b x D – гауссова плотность со средним и ковариационной матрицей :D
11( / , ) = exp( 0.5( ) ( )).
2 det
Tb x D x D x
D
(7)
Фактически представление плотности )(xp в виде суммы M гауссианов
соответствует разбиению множества акустических параметров на M подклас-
сов [5]. Такой подход схож с идеей векторного квантования, но является при
этом более гибким.
Заметим, что для GMM не важен порядок следования друг за другом
акустических единиц (фонем и др.), этот аппарат работает с накопленными
статистиками параметров.
GMM должны быть независимо обучены для каждого из альтернативных
классов дикторов (т. е. для мужского и женского). Это означает, что для каждого
класса должен быть найден свой набор параметров , , , = 1,..., .i i iD i M
Исходные данные для обучения – это набор векторов акустических признаков
1 2= , ,..., .TX x x x
Обучение GMM традиционно осуществляется по алгоритму EM (expec-
tation-maximization) [6]. Существуют два варианта для вычисления ковариа-
ционных матриц iD , предполагающие их «полную» или диагональную
структуру [5].
Приведем уравнения для итеративного вычисления параметров
, , , = 1,...,i i i i M в случае диагональных ковариационных матриц [5]. Обнов-
ление апостериорных вероятностей попадания в m -й класс выполняется по
формуле:
=1
( )( / , , , ) = ,
( )
m m i
i M
m m i
m
b xp m x
b x
где
2 2
=1
=1
exp{ 0.5 ( ) / ( ) }
( ) = .
d
k k k
i m m
k
m i d
k
m
k
x
b x
В.Ю. СЕМЕНОВ
114 ISSN 2616-938Х. Компьютерная математика. 2018, № 2
Обновление весов:
=1
1= ( / , , , );
N
m i
i
p m x
N
обновление средних значений:
=1
=1
( / , , , )
= ;
( / , , , )
N
i i
i
m N
i
i
p m x x
p m x
обновление дисперсий:
2
2 2=1
=1
( / , , , )( )
( ) = ( ) .
( / , , , )
N
i i
i
m mN
i
i
p m x x
p m x
В работе [7], рекомендуется использовать 15 итераций алгоритма EM,
а в более поздней работе того же автора [8], – 5 итераций.
Как обычно, для метода EM остро стоит проблема начальной
инициализации. Хотя этому вопросу уделено большое внимание в литературе,
в работе [5] делается замечание, что в конечном итоге результаты иденти-
фикации диктора не сильно зависят от способа инициализации алгоритма
в процессе тренинга GMM. В данной работе для инициализации обучения GMM
мы использовали алгоритм К-средних [9].
Применение алгоритма К-средних к набору векторов акустических
признаков TxxxX ,...,,= 21 позволяет найти M квантов, служащих инициализа-
цией для математических ожиданий , = 1,..., .m m M Далее, отбирая вектора ix
попавшие в m -ю ячейку ( ) ,mK мы получаем приближение для дисперсий
2
( )2
( )
( )
( ) = , = 1,..., ,
k k
i m
mk i K
m m
x
k d
N
где )(mN – количество элементов в m -й ячейке.
Значения инициализируются как
( )
= .
m
m
N
N
В процессе реальной работы, имея набор из N наблюдений 1 2= , ,..., NX x x x ,
проверка гипотез сводится к простому сравнению плотностей вероятностей
( ) ( ) ( )( / , , )male male malep X D и ( ) ( ) ( )( / , , )female female femalep X D . Предполагая незави-
симость векторов наблюдений, эти величины удобно записывать в норми-
рованном логарифмическом масштабе:
МЕТОД КЛАССИФИКАЦИИ ПОЛА ДИКТОРА, ОСНОВАННЫЙ НА АППРОКСИМАЦИИ ...
ISSN 2616-938Х. Компьютерная математика. 2018, № 2 115
( ) ( ) ( ) ( ) ( ) ( ) ( )
=1
1 1= log ( / , , ) = log ( / , , ),
N
male male male male male male male
i
i
L p X D p x D
N N
( ) ( ) ( ) ( )
( ) ( ) ( )
=1
1= log ( / , , ) =
1 log ( / , , ),
female female female female
N
female female female
i
i
L p X D
N
p x D
N
где ( ) ( ) ( )log ( / , , )male male male
ip x D и ( ) ( ) ( )log ( / , , )female female female
ip x D записыва-
ются в соответствии с (6). Если ( ) ( )> ,male femaleL L выносится решение о пре-
обладании мужского голоса. В противном случае, выносится решение о преоб-
ладании женского голоса.
Экспериментальные результаты. Для проверки метода сформированы две
базы речевых сигналов, описываемые далее.
База 1. В формировании записей участвовали 16 мужчин и 11 женщин.
Среди языков были представлены русский и английский (США). Для каждого
диктора взято 10 файлов. Общая их продолжительность составила около 8 минут
для мужчин и около 6 минут для женщин.
База 2. В формировании записей участвовали 21 мужчина и 13 женщин.
Среди языков были представлены португальский (Бразилия), английский,
немецкий, хинди, венгерский, японский, русский, испанский. Общая их продол-
жительность составила около 20 минут для мужчин (103 файла) и около
20 минут для женщин (154 файла).
В первом эксперименте база 1 была взята в качестве обучающей, а база 2 –
в качестве проверочной. Во втором эксперименте база 2 была взята в качестве
обучающей, а база 1 – в качестве проверочной. При этом количество компонент
GMM взято равным 1, 2, 4, 8, 12, 16.
В табл. 1 и 2 приведены проценты ошибок классификации при различных
порядках GMM, а также разных типах ковариационных матриц.
Более низкий процент ошибок при использовании базы 2 в качестве обуча-
ющей, объясняется ее большим объемом (по сравнению с базой 1) и разно-
образием дикторов базы 2. Кроме того, как видно из таблиц, увеличение числа
компонент GMM не приводит к уменьшению ошибки распознавания. Этот
результат подтверждается работой [10], где модификация с двумя гауссианами
обеспечивала практически такой же процент ошибок, как и для
= 4, 6, 8,10,12,16.M
Подводя итоги, можно сказать, что порядок и тип GMM не влияют сущест-
венно на процент ошибок при классификации голосов по половому признаку.
Главным фактором является разнообразие дикторов в обучающей базе речевых
сигналов.
В.Ю. СЕМЕНОВ
116 ISSN 2616-938Х. Компьютерная математика. 2018, № 2
ТАБЛИЦА 1. Процент ошибок при использовании базы 1 в качестве обучающей,
а базы 2 – в качестве проверочной, для диагональных и полных
ковариационных матриц различных размерностей
Диаго-
нальная 1
Диаго-
нальная 2
Диаго-
нальная 4
Диаго-
нальная 8
Диаго-
нальная 12
Диаго-
нальная 16
Мужчины 8.7 % 4.9 % 3.9 % 1.0 % 3.9 % 3.9 %
Женщины 9.1 % 7.1 % 7.8 % 7.8 % 7.1 % 7.1 %
Среднее 8.9 % 6.2 % 6.2 % 5.1 % 5.8 % 5.8 %
Полная 1 Полная 2 Полная 4 Полная 8 Полная 12 Полная 16
Мужчины 3.9 % 3.9 % 1.9 % 3.9 % 1.9 % 2.9 %
Женщины 4.5 % 6.5 % 6.5 % 7.1 % 7.1 % 7.1 %
Среднее 4.3 % 5.4 % 4.7 % 5.8 % 5.1 % 5.4 %
ТАБЛИЦА 2. Процент ошибок при использовании базы 2 в качестве обучающей,
а базы 1 – в качестве проверочной,для диагональных и полных
ковариационных матриц различных размерностей
Диаго-
нальная 1
Диаго-
нальная 2
Диаго-
нальная 4
Диаго-
нальная 8
Диаго-
нальная 12
Диаго-
нальная 16
Мужчины 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 0.0 %
Женщины 0.9 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 %
Среднее 0.8 % 0.4 % 0.0 % 0.0 % 0.0 % 0.0 %
Полная 1 Полная 2 Полная 4 Полная 8 Полная 12 Полная 16
Мужчины 0.7 % 0.7 % 0.7 % 0.7 % 0.7 % 0.7 %
Женщины 0.0 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 %
Среднее 0.4 % 0.4 % 0.4 % 0.4 % 0.4 % 0.4 %
Наиболее выгодными с практической точки зрения видятся модификации
с диагональными ковариационными матрицами размером 44 или 88 ,
поскольку они дают на общем фоне приемлемый процент распознавания и при
этом характеризуется существенно меньшими вычислительными затратами по
сравнению с использованием полных матриц.
Выводы. В данной работе предложен автоматический классификатор пола
диктора на основе моделирования акустических параметров голоса с помощью
аппарата гауссовых смесей (GMM). В качестве вектора акустических признаков
выбран вектор кепстральных RASTA-PLP коэффициентов, дополненный пери-
одом основного тона.
МЕТОД КЛАССИФИКАЦИИ ПОЛА ДИКТОРА, ОСНОВАННЫЙ НА АППРОКСИМАЦИИ ...
ISSN 2616-938Х. Компьютерная математика. 2018, № 2 117
Результаты испытаний показывают процент ошибок классификации от 9 %
до 0 % в зависимости от объема обучающей и проверочной баз, типа
ковариационных матриц GMM (полные/диагональные) и их порядков.
Порядок и тип GMM являются вторичным фактором для правильной
классификации пола диктора по сравнению с необходимостью разнообразия
дикторов в обучающей базе речевых сигналов.
Наиболее практичными видятся модификации с диагональными ковари-
ационными матрицами малого размера (например, 44 или 88 ), поскольку
они дают на общем фоне приемлемый процент распознавания и при этом
характеризуется существенно меньшими вычислительными затратами по
сравнению с использованием полных матриц.
В.Ю. Семенов
МЕТОД КЛАСИФИКАЦІЇ СТАТІ ДИКТОРА, ЗАСНОВАНИЙ НА АПРОКСИМАЦІЇ
ПАРАМЕТРІВ МОВНОГО СИГНАЛУ МОДЕЛЛЮ ГАУССІВСЬКИХ СУМIШЕЙ
Запропоновано метод класифікації статі диктора, заснований на моделюванні щільності роз-
поділу вектора параметрів мовного сигналу моделлю гауссівських сумiшей. Як вектор пара-
метрів використовувався набір кепстральних коефіціентів, доповнений періодом основного
тону. Навчання моделi гауссівських сумiшей здійснювалось за методом максимизації очіку-
вання (Expectation-Maximization). При експериментальній перевірці запропонований метод
показав досить низьку ймовірність помилки класифікації (від 9 % до 0 %).
V. Semenov
METHOD FOR GENDER CASSIFICATION BASED ON APPROXIMATION OF VOICE
PARAMETERS BY GAUSSIAN MIXTURE MODELS
The method for gender classification, based on modeling of probability density function of voice
parameters by Gaussian mixture model, is proposed. The vector of parameters consists of cepstral
coefficients combined with basic tone period. The training of Gaussian mixture model is performed
by Expectation-Maximization method. The experiments have shown low probability of classifica-
tion error for the proposed method (from 9% to 0%).
Список литературы
1. Li M., Han K. J., Narayanan S. Automatic Speaker Age and Gender Recognition Using
Acoustic and Prosodic Level In formation Fusion. Computer Speech and Language. 2013,
Vol. 27. P. 151–167.
2. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981.
496 c.
3. Hermansky H., Morgan N. RASTA processing of speech. IEEE Trans. Speech and Audio
Processing. 1994. Vol. 2, N 6. P. 578–589.
4. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech. J. Acoust. Soc. America.
1990. Vol. 87. P. 1738–1753.
5. Reynolds D.A., Rose R.C. Robust Text-Independent Speaker Identification Using Gaussian
Mixture Speaker Models. IEEE Trans. Speech Audio Proces. 1995. Vol. 3. P. 72–83.
В.Ю. СЕМЕНОВ
118 ISSN 2616-938Х. Компьютерная математика. 2018, № 2
6. Dempster A., Lair N., Rubin D. Maximum Likelihood from Incomplete Data via the EM
Algorithm. J. Royal Statistical Society. 1977. 39. P. 1 – 38.
7. Reynolds D.A. Experimental Evaluation of Features for Robust Speaker Identification. IEEE
Trans. Speech Audio Proces. 1994. Vol. 2. P. 639–643.
8. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker Verification Using Adapted Gaussian
Mixture Models. Digital Signal Processing. 2000. Vol. 10. P. 19 – 41.
9. Linde Y., Buzo A., Gray R.M. An Algorithm for Vector Quantizer Design. IEEE Trans.
Communications. 1980. Vol. 28, N. 1. P. 84 – 95.
10. Zeng Y.-M., Wu Z.-Y., Falk T., Chang W.-Y. Robust GMM-based gender classification using
pitch and RASTA-PLP parameters of speech. Proceedings of the Fifth International
Conference on Machine Learning and Cybernetics. 2006. P. 3376–3379.
Получено 17.09.2018
Об авторе:
Семенов Василий Юрьевич,
кандидат физико-математических наук,
докторант Института кибернетики имени В.М. Глушкова НАН Украины.
Е-mail: vasyl.delta@gmail.com
|