Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовс...
Збережено в:
| Опубліковано в: : | Акустичний вісник |
|---|---|
| Дата: | 2009 |
| Автори: | , |
| Формат: | Стаття |
| Мова: | Russian |
| Опубліковано: |
Інститут гідромеханіки НАН України
2009
|
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/87277 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-87277 |
|---|---|
| record_format |
dspace |
| spelling |
Калюжный, А.Я. Семенов, В.Ю. 2015-10-16T16:31:39Z 2015-10-16T16:31:39Z 2009 Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос. 1028-7507 https://nasplib.isofts.kiev.ua/handle/123456789/87277 534.78+621.391 В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических параметров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0%). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов. В статті запропоновано метод автоматичної класифікації мовних фрагментів за ознакою "чоловік/жінка" та описані основні етапи його алгоритмічної реалізації. Метод заснований на моделюванні щільності розподілу вектора акустичних ознак голосу зваженою сумою декількох гаусівських розподілів (метод гаусових сумішей, GMM). При цьому кожний член GMM відповідає деякому підкласу множини акустичних параметрів голосового сигналу. За вектор акустичних ознак було обрано сукупність кепстральних RASTA-PLP коефіцієнтів, доповнених періодом основного тону. Навчання гаусових сумішей для чоловічих та жіночих голосів виконувалось за методом expectation-maximization з ініціалізацією згідно алгоритму K-середніх. Досліджено залежність процента помилок класифікації від типу коваріаційних матриць GMM та їхніх порядків. У різних експериментах запропонований метод показав достатньо малу ймовірність помилки класифікації (від 9 до 0%). Зроблено висновок щодо другорядності порядку та типу GMM у порівнянні з необхідністю різноманітного представлення дикторів у навчальній базі мовних сигналів. The method for automatic speaker's gender classification has been proposed and its basic algorithmic stages have been described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low probability of classification errors (from 9 to 0%). This fact allows the conclusion about minor importance of the GMM order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set. ru Інститут гідромеханіки НАН України Акустичний вісник Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями A method for speaker's gender identification on the basis of the Gaussian mixture modeling of voice acoustic parameters Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| spellingShingle |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями Калюжный, А.Я. Семенов, В.Ю. |
| title_short |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| title_full |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| title_fullStr |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| title_full_unstemmed |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| title_sort |
метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями |
| author |
Калюжный, А.Я. Семенов, В.Ю. |
| author_facet |
Калюжный, А.Я. Семенов, В.Ю. |
| publishDate |
2009 |
| language |
Russian |
| container_title |
Акустичний вісник |
| publisher |
Інститут гідромеханіки НАН України |
| format |
Article |
| title_alt |
A method for speaker's gender identification on the basis of the Gaussian mixture modeling of voice acoustic parameters |
| description |
В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических параметров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0%). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов.
В статті запропоновано метод автоматичної класифікації мовних фрагментів за ознакою "чоловік/жінка" та описані основні етапи його алгоритмічної реалізації. Метод заснований на моделюванні щільності розподілу вектора акустичних ознак голосу зваженою сумою декількох гаусівських розподілів (метод гаусових сумішей, GMM). При цьому кожний член GMM відповідає деякому підкласу множини акустичних параметрів голосового сигналу. За вектор акустичних ознак було обрано сукупність кепстральних RASTA-PLP коефіцієнтів, доповнених періодом основного тону. Навчання гаусових сумішей для чоловічих та жіночих голосів виконувалось за методом expectation-maximization з ініціалізацією згідно алгоритму K-середніх. Досліджено залежність процента помилок класифікації від типу коваріаційних матриць GMM та їхніх порядків. У різних експериментах запропонований метод показав достатньо малу ймовірність помилки класифікації (від 9 до 0%). Зроблено висновок щодо другорядності порядку та типу GMM у порівнянні з необхідністю різноманітного представлення дикторів у навчальній базі мовних сигналів.
The method for automatic speaker's gender classification has been proposed and its basic algorithmic stages have been described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low probability of classification errors (from 9 to 0%). This fact allows the conclusion about minor importance of the GMM order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set.
|
| issn |
1028-7507 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/87277 |
| citation_txt |
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос. |
| work_keys_str_mv |
AT kalûžnyiaâ metodidentifikaciipoladiktoranaosnovemodelirovaniâakustičeskihparametrovgolosagaussovymismesâmi AT semenovvû metodidentifikaciipoladiktoranaosnovemodelirovaniâakustičeskihparametrovgolosagaussovymismesâmi AT kalûžnyiaâ amethodforspeakersgenderidentificationonthebasisofthegaussianmixturemodelingofvoiceacousticparameters AT semenovvû amethodforspeakersgenderidentificationonthebasisofthegaussianmixturemodelingofvoiceacousticparameters |
| first_indexed |
2025-11-25T06:09:43Z |
| last_indexed |
2025-11-25T06:09:43Z |
| _version_ |
1850505856455540736 |
| fulltext |
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
УДК 534.78+621.391
МЕТОД ИДЕНТИФИКАЦИИ ПОЛА ДИКТОРА НА ОСНОВЕ
МОДЕЛИРОВАНИЯ АКУСТИЧЕСКИХ ПАРАМЕТРОВ
ГОЛОСА ГАУССОВЫМИ СМЕСЯМИ
А. Я. К А Л ЮЖ Н Ы Й, В. Ю. С ЕМЕ Н ОВ
ГНПП “Дельта”, Киев
Получено 15.09.2009
В статье предложен метод автоматической классификации речевых фрагментов по признаку “мужчина/женщина”
и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распре-
деления вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод
гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических пара-
метров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных
RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и
женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних.
Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков.
В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации
(от 9 до 0 %). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного
представления дикторов в обучающей базе речевых сигналов.
В статтi запропоновано метод автоматичної класифiкацiї мовних фрагментiв за ознакою “чоловiк/жiнка” та описанi
основнi етапи його алгоритмiчної реалiзацiї. Метод заснований на моделюваннi щiльностi розподiлу вектора акусти-
чних ознак голосу зваженою сумою декiлькох гаусiвських розподiлiв (метод гаусових сумiшей, GMM). При цьому
кожний член GMM вiдповiдає деякому пiдкласу множини акустичних параметрiв голосового сигналу. За вектор аку-
стичних ознак було обрано сукупнiсть кепстральних RASTA-PLP коефiцiєнтiв, доповнених перiодом основного тону.
Навчання гаусових сумiшей для чоловiчих та жiночих голосiв виконувалось за методом expectation-maximization з
iнiцiалiзацiєю згiдно алгоритму K-середнiх. Дослiджено залежнiсть процента помилок класифiкацiї вiд типу кова-
рiацiйних матриць GMM та їхнiх порядкiв. У рiзних експериментах запропонований метод показав достатньо малу
ймовiрнiсть помилки класифiкацiї (вiд 9 до 0 %). Зроблено висновок щодо другорядностi порядку та типу GMM у
порiвняннi з необхiднiстю рiзноманiтного представлення дикторiв у навчальнiй базi мовних сигналiв.
The method for automatic speaker’s gender classification has been proposed and its basic algorithmic stages have been
described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several
Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to
a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of
the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the
expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors
on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low
probability of classification errors (from 9 to 0 %). This fact allows the conclusion about minor importance of the GMM
order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set.
ВВЕДЕНИЕ
Задача идентификации пола диктора актуаль-
на для систем автоматической классификации ре-
чевой информации, поскольку предварительное
определение пола обеспечивает более точную на-
стройку распознающей системы. Кроме того, опре-
деление пола диктора может представлять само-
стоятельный интерес при обеспечении правоохра-
нительной деятельности, сборе информации для
рекламных целей и т. п.
Упрощенная структура системы распознавания
представлена на рис. 1. Как известно, ключевыми
вопросами для построения любой системы распо-
знавания являются:
1) выбор признаков, т. е. параметров, характери-
зующих распознаваемые объекты (в данном
случае – мужские/женские голоса);
2) выбор модели, в соответствии с которой прои-
зводится обучение системы распознавания и
последующая классификация признаков.
Согласно схеме, на предварительном этапе из
базы тестовых сигналов выделяются векторы при-
знаков, используемые для обучения классифици-
рующей модели. В результате этого формируются
некоторые классы или эталонные значения при-
знаков. В процессе реальной работы проверяемый
сигнал подвергается предварительной обработке
(масштабированию, удалению шумов). Сравнение
извлеченных из него признаков с полученными на
предварительном этапе эталонными значениями в
соответствии с некоторым решающим правилом
дает результат классификации.
В роли вектора признаков обычно выступа-
ют кепстральные параметры, вычисляемые на ка-
ждом фрейме речевого сигнала. В задачах ра-
c© А. Я. Калюжный, В. Ю. Семенов, 2009 31
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
Рис. 1. Упрощенная структура системы распознавания
0 100 200 300 400
0
2000
4000
N
um
be
r
of
fr
am
es
0 100 200 300 400
0
2000
4000
6000
Pitch, Hz
N
um
be
r
of
fr
am
es
а
б
Рис. 2. Гистограммы распределения
частоты основного тона:
а – для женщин; б – для мужчин
спознавания используются различные подходы к
выбору классификации: гауссовы смеси (Gaussian
Mixture Models – GMM), скрытые марковские мо-
дели (HMM) и др. Выбор между методами GMM
и HMM зависит от того, является ли текстозави-
симой поставленная задача идентификации. По-
скольку нас интересует не динамическая смена
признаков, а интегральное преобладание одних
признаков над другими, целесообразно считать,
что обсуждаемая задача текстонезависима, и при-
менять аппарат GMM.
1. ВЫЧИСЛЕНИЕ ПРИЗНАКОВ
1.1. Период основного тона
Важный признак, используемый для различе-
ния мужских и женских голосов, – период T0 или
частота f0 =1/T0 основного тона. Этот параметр
характеризует частоту колебания голосовых свя-
зок при произнесении звонких звуков. Для вы-
числения периода основного тона мы использова-
ли автокорреляционный метод, описанный в рабо-
те [4].
Как правило, для мужчин характерны более
низкие частоты основного тона, чем для женщин.
Однако, как видно из рис. 2, эти диапазоны для
различных полов пересекаются, так что в неко-
торых случаях женскому голосу может соответ-
ствовать меньшая частота основного тона. Поэто-
му наиболее сложными представляются ситуации,
когда необходимо идентифицировать женщину с
низким голосом или, наоборот, – мужчину с высо-
ким. В таких случаях правильная идентификация
должна обеспечиваться за счет использования па-
раметров, отражающих различия в структуре го-
лосовых трактов мужчин и женщин.
1.2. RASTA-PLP коэффициенты
Исходя из сказанного, по аналогии с работой [3]
мы включили в вектор признаков из 10 RASTA-
PLP коэффициентов, определяющих форму голо-
сового тракта при произнесении звуков, допол-
ненных периодом основного тона. При этом был
исключен кепстральный коэффициент, отвечаю-
щий за уровень сигнала, т. е. общая размерность
вектора признаков составляла 11.
Поясним, что методика анализа речевых сиг-
налов RASTA-PLP состоит из двух частей: PLP
(Perceptual Linear Prediction [2]) – линейного пред-
сказания с учетом особенностей слухового воспри-
ятия и RASTA-обработки (от “RelAtive SpecTrA” –
относительные спектры), предназначенной для
удаления из сигнала спектральных компонент,
скорость изменения которых отлична от скорости
изменения соответствующих компонент речи [1].
Перечислим основные этапы RASTA-PLP обра-
ботки.
32 А. Я. Калюжный, В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
Разбивка на фреймы
При работе с частотой дискретизации fs =8000 Гц
использовались фреймы длиной 25 мс (200 дискре-
тных отсчетов) с перекрытием в 15 мс (120 дискре-
тных отсчетов).
Вычисление спектра
На каждом фрейме вычислялся квадрат модуля
преобразования Фурье. Для этого речевой фрейм
длиной L отсчетов предварительно дополнялся
нулями до длины Lfft =2[(log2 L)]+1, после чего при-
менялось окно Хемминга.
PLP-анализ
Частотный диапазон [0, fs/2] разбивался на 17
критических полос, соответствующих равномер-
ному разбиению частотного диапазона в bark-
шкале [2], получаемой из линейной Гц-шкалы по
формуле
z = 6 log
f
600
+
√
(
f
600
)2
+ 1
. (1)
Каждой из полос соответствует фильтр с трапе-
цеидальной частотной характеристикой в логари-
фмическом масштабе (они приведены на рис. 3).
Пусть z0 – центр некоторой критической поло-
сы, выраженный в барках. Тогда ее амплитудно-
частотная характеристика h(z) вычисляется по
формуле
h(z) =
10z−z0+1/2, z < z0 −
1
2
;
1, z0 −
1
2
≤ z ≤ z0 +
1
2
;
10−2.5(z−z0−1/2), z > z0 −
1
2
.
(2)
Для каждого сигнального фрейма подсчитаем
суммарную энергию во всех сигнальных критиче-
ских полосах:
log Ei = log
Lfft/2+1
∑
j=1
hj
iXj , i = 1, . . . , 17, (3)
где X – спектр мощности сигнального фрейма, по-
лученный на предыдущем этапе; i – номер крити-
ческой полосы; j – номер спектрального отсчета.
Подсчитаем логарифмы энергий logEi во всех
сигнальных критических полосах. Традиционно
0 500 1000 1500 2000 2500 3000 3500 4000
−5
−4
−3
−2
−1
0
Herz
Lo
g
Le
ve
l
Рис. 3. Амлитудно-частотные характеристики
PLP-фильтров в логарифмическом масштабе
0 5 10 15 20 25 30 35 40 45 50
−200
−100
0
100
Frequency (Hz)
P
ha
se
(
de
gr
ee
s)
0 5 10 15 20 25 30 35 40 45 50
−200
−100
0
100
M
ag
ni
tu
de
(
dB
)
Рис. 4. Амплитудная и фазовая частотная
характеристика RASTA-фильтра
последующими этапами PLP-анализа являются
умножение на кривую равной громкости и ими-
тация закона слухового восприятия, однако в
RASTA-алгоритме они выполняются после меж-
фреймового сглаживания величин logEi, описан-
ного ниже.
RASTA-фильтрация
Дискретная передаточная функция RASTA-
фильтра имеет вид [1]
R(z) = 0.1z4 2 + z−1 − z−3 − 2z−4
1 − 0.94z−1
. (4)
Амплитудная и фазовая частотные характери-
стики этого фильтра представлены на рис. 4.
Проанализируем его частотные свойства, пред-
полагая, что частота обновления фреймов со-
ставляет Sr =100 Гц. Корни числителя передато-
чной функции (4) равны 1,−1,−0.25±0.97. Это
говорит о том, что амплитудно-частотная хара-
ктеристика имеет провалы при 0 Sr/2 = 50 и
А. Я. Калюжный, В. Ю. Семенов 33
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
0 50 100 150 200 250 300 350 400 450
−6
−4
−2
0
2
4
6
8
Frame
lo
g
E
Рис. 5. Пример траекторий логарифмов энергий
в критических полосах до RASTA-фильтрации
0 50 100 150 200 250 300 350 400 450
−6
−4
−2
0
2
4
6
8
Frame
lo
g
E
Рис. 6. Пример траекторий логарифмов энергий
в критических полосах после RASTA-фильтрации
10
1
10
2
10
3
10
4
−40
−35
−30
−25
−20
−15
−10
−5
0
Frequency (Hz)
Le
ve
l (
dB
)
Рис. 7. Кривая равной громкости
[π−arctan(0.97/0.25)]Sr/(2π)=28.9 Гц. Что каса-
ется знаменателя (4), то его полюс 0.94 соот-
ветствует константе экспоненциального накопле-
ния 0.94/(1−0.94)=16, т. е. эффективному нако-
плению информации на протяжении 160 мс.
Через фильтр R(z) пропускается каждая из 17
спектральных траекторий logEi, полученных на
предыдущем этапе. На рис. 5 и 6 показаны тра-
ектории логарифмов энергий в критических по-
лосах до и после RASTA-фильтрации, убирающей
постоянные составляющие логарифмов спектраль-
ных компонент.
Умножение на кривую равной громкости
Сглаженный логарифмический спектр, получен-
ный в результате RASTA-фильтрации, возвраща-
ется в линейный масштаб путем взятия от него
экспоненты. Затем на каждом фрейме он умножа-
ется на кривую равной громкости [2], рис. 7, кото-
рая определяется соотношением
H(f) =
f4
(f2 + 1.6 · 105)2
· f2 + 1.44 · 106
f2 + 9.61 · 106
. (5)
Здесь f – частота в линейном масштабе.
Имитация закона слухового восприятия
Полученные на предыдущем шаге спектры для ка-
ждого фрейма возводятся в степень 0.33.
Обратное преобразование Фурье
От спектра берется обратное преобразование Фу-
рье, результатом чего является автокорреляцион-
ная функция R(k), k = 0, . . . , Lfft − 1.
Вычисление коэффициентов линейного пред-
сказания
Для вычисления коэффициентов линейного пред-
сказания порядка p (в нашем случае p=10) необ-
ходимы первые (p+1) значений автокорреляцион-
ной функции: R(0), R(1),. . . , R(p). Их можно най-
ти с помощью рекурсии Левинсона – Дарбина [10],
строящейся по следующим правилам:
E(0) = R(0);
ki =
1
E(i−1)
[
R(i)−
i−1
∑
j=1
α
(i−1)
j R(i−j)
]
, 1 ≤ i ≤ p;
α
(i)
i = ki;
α
(i)
j = α
(i−1)
j − kiα
(i−1)
i−j , 1 ≤ j ≤ i − 1;
E(i) = (1 − k2
i )E(i−1).
Окончательно коэффициенты линейного предска-
зания a1, a2,. . . , ap вычисляются как
aj = −α
(p)
j , j = 1, . . . , p.
34 А. Я. Калюжный, В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
Преобразование вкепстральныекоэффициенты
Кепстральные коэффициенты (т. е. обратное пре-
образование Фурье от логарифма спектра сигна-
ла) вычисляются через рекуррентные соотноше-
ния [10]:
cn = −an −
n−1
∑
k=1
k
n
ckan−k, n = 1, . . . , p.
На завершающем этапе коэффициенты проходят
процедуру “лифтинга”:
c′n = n0.6cn, n = 1, . . . , p.
Таким образом, итоговый вектор признаков со-
стоит из периода основного тона T0 и RASTA-PLP
коэффициентов c′1, c′2,. . . , c′10.
2. МОДЕЛЬ ГАУССОВЫХ СМЕСЕЙ (GMM)
Основная идея аппарата GMM состоит в представ-
лении плотности распределения вектора акустиче-
ских параметров x (размерностью d) в виде взве-
шенной суммы гауссовских плотностей распреде-
ления [6]:
p(x) =
M
∑
m=1
αmb(x/µm, Dm), (6)
где b(x/µ, D) – гауссова плотность со средним µ
и ковариационной матрицей D:
b(x/µ, D) =
1√
2π det D
×
× exp[−0.5(x− µ)T D−1(x − µ)].
(7)
Фактически представление плотности p(x) в ви-
де суммы M гауссианов соответствует разбиению
множества акустических параметров на M под-
классов [6]. Такой подход схож с идеей векторного
квантования, однако более гибок.
Заметим, что для GMM не важен порядок сле-
дования друг за другом акустических единиц (фо-
нем и др.) – этот аппарат работает с накоплен-
ными статистиками параметров.
Обучение гауссовых смесей
GMM должны быть независимо обучены для ка-
ждого из альтернативных классов дикторов –
мужского и женского. Это означает, что для не-
го должен быть найден свой набор параметров αi,
µi, Di, i=1, . . . , M . Исходными данными для обу-
чения является набор векторов акустических при-
знаков X =x1, x2, . . . , xT .
Обучение GMM традиционно осуществляется
по алгоритму EM (expectation-maximization – до-
словно: максимизации ожидания) [9]. Существу-
ют два варианта для вычисления ковариационных
матриц Di, предполагающие их “полную” или ди-
агональную структуру. Соответствующие итера-
тивные соотношения даны в работах [3, 6].
Приведем уравнения для итеративного вычис-
ления параметров αi, µi, σi, i=1, . . . , M в случае
диагональных ковариационных матриц [6]:
• обновление апостериорных вероятностей по-
падания в m-й класс:
p(m/xi, α, µ, σ) =
αmbm(xi)
M
∑
m=1
αmbm(xi)
;
где
bm(xi) =
exp
{
−1
2
d
∑
k=1
(xk
i − µk
m)2
(σk
m)2
}
d
∏
k=1
σk
m
;
• обновление весов:
αm =
1
N
N
∑
i=1
p(m/xi, α, µ, σ);
• обновление средних значений:
µm =
N
∑
i=1
p(m/xi, α, µ, σ)xi
N
∑
i=1
p(m/xi, α, µ, σ)
;
• обновление дисперсий:
(σm)2 =
N
∑
i=1
p(m/xi, α, µ, σ)(xi)
2
N
∑
i=1
p(m/xi, α, µ, σ)
− (µm)2.
В статье [7] рекомендуется использовать 15 итера-
ций алгоритма EM, а в более поздней работе этого
же автора [5] – 5 итераций.
А. Я. Калюжный, В. Ю. Семенов 35
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
Инициализация алгоритма EM
Как правило, для метода EM остро стоит пробле-
ма начальной инициализации и в специальной ли-
тературе этому вопросу уделялось большое внима-
ние. Тем не менее, в работе [6] сделано замечание,
что в конечном итоге результаты идентификации
диктора не сильно зависят от способа инициализа-
ции алгоритма в процессе тренинга гауссовых сме-
сей.
Для инициализации обучения GMM мы исполь-
зовали алгоритм К-средних [8], применение ко-
торого к набору векторов акустических призна-
ков X =x1, x2, . . . , xT позволяет найти M кван-
тов, служащих инициализацией для математиче-
ских ожиданий µm,m=1, . . . , M . Далее, отбирая
вектора xi, попавшие в m-ю ячейку K
(m), получа-
ем приближение для дисперсий:
(σk
m)2 =
∑
i∈K(m)
(xk
i − µk
m)2
N (m)
, k = 1, . . . , d,
где N (m) – количество элементов в m-й ячейке.
Значения α инициализируются как
αm =
N (m)
N
.
Проверка гипотез
В процессе реальной работы, когда имеется на-
бор из N наблюдений X =x1, x2, . . . , xN , про-
верка гипотез сводится к простому сравнению
плотностей вероятностей, соответствующих на-
личию голосов дикторов каждого из полов
(мужского – индекс “(mal.)” и женского –
индекс “(fem.)”): p(X/α(mal.), µ(mal.), D(mal.)) и
p(X/α(fem.), µ(fem.), D(fem.)). Предполагая незави-
симость векторов наблюдений, эти величины запи-
шем в нормированном логарифмическом масшта-
бе:
L(mal.) =
1
N
log p
(
X/α(mal.), µ(mal.), D(mal.)
)
=
=
1
N
N
∑
i=1
log p
(
xi/α(mal.), µ(mal.), D(mal.)
)
,
L(fem.) =
1
N
log p
(
X/α(fem.), µ(fem.), D(fem.)
)
=
=
1
N
N
∑
i=1
log p
(
xi/α(fem.), µ(fem.), D(fem.)
)
,
где оба логарифма записываются в соответствии с
выражением (6).
Если L(mal.) >L(fem.), выносится решение о пре-
обладании мужского голоса. В противном случае
считается, что преобладает женский голос.
3. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для проверки метода нами были сформированы
две базы речевых сигналов, описываемые ниже.
База 1. В формировании записей участвовали 16
мужчин и 11 женщин. Среди языков были
представлены русский и английский (США).
Для каждого диктора бралось по 10 файлов,
общая продолжительность которых составила
около 8 минут для мужчин и 6 – для женщин.
База 2. В формировании записей участвовали 21
мужчина и 13 женщин. Среди языков были
представлены португальский (Бразилия), ан-
глийский, немецкий, хинди, венгерский, япон-
ский, русский, испанский. Общая продолжи-
тельность составила по 20 минут для мужчин
и для женщин (103 и 154 файла соответствен-
но).
В первом эксперименте база 1 была взята в каче-
стве обучающей, а база 2 – в качестве проверочной.
Во втором эксперименте мы поступили наоборот:
база 2 выступала как обучающая, а база 1 – как
проверочная. При этом количество компонент га-
уссовых смесей взято равным 1, 2, 4, 8, 12, или 16.
В табл. 1 и 2 приведены проценты ошибок
классификации при различных порядках гауссо-
вых смесей, а также типов ковариационных ма-
триц для первого и второго экспериментов со-
ответственно. Меньшее количество ошибок при
использовании базы 2 в качестве обучающей объя-
сняется ее большим объемом и большим разно-
образием дикторов по сравнению с базой 1. Кро-
ме того, увеличение количества компонент гаус-
совых смесей не приводит к уменьшению ошиб-
ки распознавания. Более того, в первом экспери-
менте самый низкий средний процент ошибок по-
лучен при использовании лишь одного гауссиана
(т. е. при моделировании пространства признаков
пола одним акустическим классом). Этот резуль-
тат выглядит неожиданно. Возможно, он связан с
относительно небольшим объемом обучающей ба-
зы 1, что порождает необходимость дальнейшего
тестирования алгоритма на более широких базах
сигналов. Тем не менее, обнаруженный парадокс
частично подтверждается при использовании ба-
зы 2 в качестве обучающей, а также выводами ис-
следования [3], где модификация с двумя гауссиа-
нами обеспечивала практически такой же процент
36 А. Я. Калюжный, В. Ю. Семенов
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
Табл. 1. Процент ошибок для диагональных и полных ковариационных
матриц различных размерностей (первый эксперимент)
Классификация Диаг. 1 Диаг. 2 Диаг. 4 Диаг. 8 Диаг. 12 Диаг. 16
Мужчины 8.7 % 4.9 % 3.9 % 1.0 % 3.9 % 3.9 %
Женщины 9.1 % 7.1 % 7.8 % 7.8 % 7.1 % 7.1 %
Среднее 8.9 % 6.2 % 6.2 % 5.1 % 5.8 % 5.8 %
Классификация Полн. 1 Полн. 2 Полн. 4 Полн. 8 Полн. 12 Полн. 16
Мужчины 3.9 % 3.9 % 1.9 % 3.9 % 1.9 % 2.9 %
Женщины 4.5 % 6.5 % 6.5 % 7.1 % 7.1 % 7.1 %
Среднее 4.3 % 5.4 % 4.7 % 5.8 % 5.1 % 5.4 %
Табл. 2. Процент ошибок для диагональных и полных ковариационных
матриц различных размерностей (второй эксперимент)
Классификация Диаг. 1 Диаг. 2 Диаг. 4 Диаг. 8 Диаг. 12 Диаг. 16
Мужчины 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 0.0 %
Женщины 0.9 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 %
Среднее 0.8 % 0.4 % 0.0 % 0.0 % 0.0 % 0.0 %
Классификация Полн. 1 Полн. 2 Полн. 4 Полн. 8 Полн. 12 Полн. 16
Мужчины 0.7 % 0.7 % 0.7 % 0.7 % 0.7 % 0.7 %
Женщины 0.0 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 %
Среднее 0.4 % 0.4 % 0.4 % 0.4 % 0.4 % 0.4 %
0 50 100 150 200 250 300
0
50
100
150
200
250
Frames
P
itc
h
Рис. 8. Пример изменения частоты основного тона
для англоязычного диктора-мужчины
ошибок, как и для M =4, 6, 8, 10, 12, 16.
Также заметим, что практически все ошибки
в первом эксперименте наблюдались для двух
дикторов – женщины-японки со средней часто-
той основного тона около 135 Гц и мужчины-
англичанина со средней частотой около 200 Гц, ко-
торые несколько нетипичны для соответствующих
полов (см. рис. 1). Примеры траекторий частоты
основного тона для этих двух дикторов приведены
на рис. 8 и 9.
0 100 200 300 400 500 600
0
50
100
150
200
frame
pi
tc
h
Рис. 9. Пример изменения частоты основного тона
для японоязычного диктора-женщины
Подводя итоги, можно заключить, что порядок
и тип GMM не оказывают существенного влияния
на процент ошибок при классификации голосов по
половому признаку. Главным же фактором явля-
ется разнообразие дикторов в обучающей базе ре-
чевых сигналов.
Наиболее выгодными с практической точки зре-
ния видятся модификации с диагональными кова-
риационными матрицами размером 4×4 или 8×8,
поскольку они дают на общем фоне приемлемый
процент распознавания и при этом характеризуе-
А. Я. Калюжный, В. Ю. Семенов 37
ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38
тся существенно меньшими вычислительными за-
тратами, чем при использовании полных ковариа-
ционных матриц. Заметим, что в работе [3] также
был сделан выбор в пользу диагональной ковари-
ационной матрицы размерности 8×8.
ВЫВОДЫ
1. Предложен автоматический классификатор
пола диктора на основе моделирования аку-
стических параметров голоса с помощью ап-
парата гауссовых смесей (GMM). В качестве
вектора акустических признаков выбран ве-
ктор кепстральных RASTA-PLP коэффициен-
тов, дополненный периодом основного тона.
2. Результаты испытаний показывают от 9 до
0 % ошибок классификации в зависимости
от объема обучающей и проверочной баз,
типа ковариационных матриц GMM (пол-
ные/диагональные) и их порядков.
3. Для правильной классификации пола дикто-
ра порядок и тип GMM оказались вторичным
фактором по сравнению с необходимостью ра-
знообразить представление голосов дикторов
в обучающей базе речевых сигналов.
4. Наиболее практичными нам видятся моди-
фикации с диагональными ковариационными
матрицами малого размера (например, 4 × 4
или 8 × 8), поскольку они дают приемлемый
процент распознавания и характеризуется
существенно меньшими вычислительными за-
тратами, чем при использовании полных ко-
вариационных матриц.
1. Hermansky H., Morgan N. RASTA processing of
speech // IEEE Trans. Speech Audio Proces.– 1994.–
2.– P. 578–589.
2. Hermansky H. Perceptual Linear Prediction (PLP)
analysis of speech // J. Acoust. Soc. Amer.– 1990.–
87.– P. 1738–1753.
3. Zeng Y.-M., Wu Z.-Y., Falk T., Chang W.-Y. Robust
GMM-based gender classification using pitch and
RASTA-PLP parameters of speech // Proc. Fifth Int.
Conf. Machine Learning and Cybernetics.– Dalian,
2006.– P. 3376–3379.
4. Вовк И. В., Семенов В. Ю. Автоматическое обна-
ружение и распознавание сухих хрипов на осно-
ве анализа их автокорреляционной функции //
Акуст. вiсн.– 2005.– 8, N 3.– С. 17–23.
5. Reynolds D. A., Quatieri T. F., Dunn R. B.
Speaker verification using adapted Gaussian mixture
models // Digit. Signal Proces.– 2000.– 10.– P. 19–
41.
6. Reynolds D. A., Rose R. C. Robust text-independent
speaker identification using Gaussian mixture speaker
models // IEEE Trans. Speech Audio Proces..–
1995.– 3.– P. 72–83.
7. Reynolds D. A. Experimental evaluation of features
for robust speaker identification // IEEE Trans.
Speech Audio Proces..– 1994.– 2.– P. 639–643.
8. Linde Y., Buzo A.,Gray R. M. An algorithm for
vector quantizer design // IEEE Trans. Com.– 1980.–
28, N 1.– P. 84–95.
9. Dempster A., Lair N., Rubin D. Maximum likelihood
from incomplete data via the EM algorithm // J. Roy.
Statistic. Soc.– 1977.– 39.– P. 1–38.
10. Рабинер Л., Шафер Р. Цифровая обработка рече-
вых сигналов.– М.: Радио и связь, 1981.– 496 с.
38 А. Я. Калюжный, В. Ю. Семенов
|