Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями

В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовс...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Акустичний вісник
Дата:2009
Автори: Калюжный, А.Я., Семенов, В.Ю.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут гідромеханіки НАН України 2009
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/87277
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-87277
record_format dspace
spelling Калюжный, А.Я.
Семенов, В.Ю.
2015-10-16T16:31:39Z
2015-10-16T16:31:39Z
2009
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос.
1028-7507
https://nasplib.isofts.kiev.ua/handle/123456789/87277
534.78+621.391
В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических параметров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0%). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов.
В статті запропоновано метод автоматичної класифікації мовних фрагментів за ознакою "чоловік/жінка" та описані основні етапи його алгоритмічної реалізації. Метод заснований на моделюванні щільності розподілу вектора акустичних ознак голосу зваженою сумою декількох гаусівських розподілів (метод гаусових сумішей, GMM). При цьому кожний член GMM відповідає деякому підкласу множини акустичних параметрів голосового сигналу. За вектор акустичних ознак було обрано сукупність кепстральних RASTA-PLP коефіцієнтів, доповнених періодом основного тону. Навчання гаусових сумішей для чоловічих та жіночих голосів виконувалось за методом expectation-maximization з ініціалізацією згідно алгоритму K-середніх. Досліджено залежність процента помилок класифікації від типу коваріаційних матриць GMM та їхніх порядків. У різних експериментах запропонований метод показав достатньо малу ймовірність помилки класифікації (від 9 до 0%). Зроблено висновок щодо другорядності порядку та типу GMM у порівнянні з необхідністю різноманітного представлення дикторів у навчальній базі мовних сигналів.
The method for automatic speaker's gender classification has been proposed and its basic algorithmic stages have been described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low probability of classification errors (from 9 to 0%). This fact allows the conclusion about minor importance of the GMM order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set.
ru
Інститут гідромеханіки НАН України
Акустичний вісник
Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
A method for speaker's gender identification on the basis of the Gaussian mixture modeling of voice acoustic parameters
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
spellingShingle Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
Калюжный, А.Я.
Семенов, В.Ю.
title_short Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
title_full Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
title_fullStr Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
title_full_unstemmed Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
title_sort метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями
author Калюжный, А.Я.
Семенов, В.Ю.
author_facet Калюжный, А.Я.
Семенов, В.Ю.
publishDate 2009
language Russian
container_title Акустичний вісник
publisher Інститут гідромеханіки НАН України
format Article
title_alt A method for speaker's gender identification on the basis of the Gaussian mixture modeling of voice acoustic parameters
description В статье предложен метод автоматической классификации речевых фрагментов по признаку "мужчина/женщина" и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распределения вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических параметров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0%). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов. В статті запропоновано метод автоматичної класифікації мовних фрагментів за ознакою "чоловік/жінка" та описані основні етапи його алгоритмічної реалізації. Метод заснований на моделюванні щільності розподілу вектора акустичних ознак голосу зваженою сумою декількох гаусівських розподілів (метод гаусових сумішей, GMM). При цьому кожний член GMM відповідає деякому підкласу множини акустичних параметрів голосового сигналу. За вектор акустичних ознак було обрано сукупність кепстральних RASTA-PLP коефіцієнтів, доповнених періодом основного тону. Навчання гаусових сумішей для чоловічих та жіночих голосів виконувалось за методом expectation-maximization з ініціалізацією згідно алгоритму K-середніх. Досліджено залежність процента помилок класифікації від типу коваріаційних матриць GMM та їхніх порядків. У різних експериментах запропонований метод показав достатньо малу ймовірність помилки класифікації (від 9 до 0%). Зроблено висновок щодо другорядності порядку та типу GMM у порівнянні з необхідністю різноманітного представлення дикторів у навчальній базі мовних сигналів. The method for automatic speaker's gender classification has been proposed and its basic algorithmic stages have been described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low probability of classification errors (from 9 to 0%). This fact allows the conclusion about minor importance of the GMM order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set.
issn 1028-7507
url https://nasplib.isofts.kiev.ua/handle/123456789/87277
citation_txt Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями / А.Я. Калюжный, В.Ю. Семенов // Акустичний вісник — 2009. —Т. 12, № 2. — С. 31-38. — Бібліогр.: 10 назв. — рос.
work_keys_str_mv AT kalûžnyiaâ metodidentifikaciipoladiktoranaosnovemodelirovaniâakustičeskihparametrovgolosagaussovymismesâmi
AT semenovvû metodidentifikaciipoladiktoranaosnovemodelirovaniâakustičeskihparametrovgolosagaussovymismesâmi
AT kalûžnyiaâ amethodforspeakersgenderidentificationonthebasisofthegaussianmixturemodelingofvoiceacousticparameters
AT semenovvû amethodforspeakersgenderidentificationonthebasisofthegaussianmixturemodelingofvoiceacousticparameters
first_indexed 2025-11-25T06:09:43Z
last_indexed 2025-11-25T06:09:43Z
_version_ 1850505856455540736
fulltext ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 УДК 534.78+621.391 МЕТОД ИДЕНТИФИКАЦИИ ПОЛА ДИКТОРА НА ОСНОВЕ МОДЕЛИРОВАНИЯ АКУСТИЧЕСКИХ ПАРАМЕТРОВ ГОЛОСА ГАУССОВЫМИ СМЕСЯМИ А. Я. К А Л ЮЖ Н Ы Й, В. Ю. С ЕМЕ Н ОВ ГНПП “Дельта”, Киев Получено 15.09.2009 В статье предложен метод автоматической классификации речевых фрагментов по признаку “мужчина/женщина” и описаны основные этапы его алгоритмической реализации. Метод основан на моделировании плотности распре- деления вектора акустических признаков голоса взвешенной суммой нескольких гауссовских распределений (метод гауссовых смесей). Каждый из членов GMM соответствует некоторому подклассу множества акустических пара- метров голосового сигнала. В качестве вектора акустических признаков была выбрана совокупность кепстральных RASTA-PLP коэффициентов, дополненных периодом основного тона. Обучение гауссовых смесей для мужских и женских голосов проводилось по методу expectation-maximization с инициализацией согласно алгоритму K-средних. Исследована зависимость процента ошибок классификации от типа ковариационных матриц GMM и их порядков. В различных экспериментах предложенный метод показал достаточно малую вероятность ошибки классификации (от 9 до 0 %). Сделан вывод о вторичности порядка и типа GMM по сравнению с необходимостью разнообразного представления дикторов в обучающей базе речевых сигналов. В статтi запропоновано метод автоматичної класифiкацiї мовних фрагментiв за ознакою “чоловiк/жiнка” та описанi основнi етапи його алгоритмiчної реалiзацiї. Метод заснований на моделюваннi щiльностi розподiлу вектора акусти- чних ознак голосу зваженою сумою декiлькох гаусiвських розподiлiв (метод гаусових сумiшей, GMM). При цьому кожний член GMM вiдповiдає деякому пiдкласу множини акустичних параметрiв голосового сигналу. За вектор аку- стичних ознак було обрано сукупнiсть кепстральних RASTA-PLP коефiцiєнтiв, доповнених перiодом основного тону. Навчання гаусових сумiшей для чоловiчих та жiночих голосiв виконувалось за методом expectation-maximization з iнiцiалiзацiєю згiдно алгоритму K-середнiх. Дослiджено залежнiсть процента помилок класифiкацiї вiд типу кова- рiацiйних матриць GMM та їхнiх порядкiв. У рiзних експериментах запропонований метод показав достатньо малу ймовiрнiсть помилки класифiкацiї (вiд 9 до 0 %). Зроблено висновок щодо другорядностi порядку та типу GMM у порiвняннi з необхiднiстю рiзноманiтного представлення дикторiв у навчальнiй базi мовних сигналiв. The method for automatic speaker’s gender classification has been proposed and its basic algorithmic stages have been described. The method is based on modeling of voice acoustic parameters distribution by a weighted sum of several Gaussian distributions (Gaussian mixture modeling, GMM). In doing so, every component of the GMM corresponds to a certain subset of voice acoustic parameters. The set of cepstral RASTA-PLP coefficients extended by the period of the basic tone has been selected as the vector of acoustic features. The male and female GMMs were trained by the expectation-maximization method initialized according to the K-means algorithm. The dependence of classification errors on the GMM types and their orders has been investigated. In different experiments, the proposed method has shown low probability of classification errors (from 9 to 0 %). This fact allows the conclusion about minor importance of the GMM order and type in comparison with a necessity of the diverse presenting of the speakers in the training data set. ВВЕДЕНИЕ Задача идентификации пола диктора актуаль- на для систем автоматической классификации ре- чевой информации, поскольку предварительное определение пола обеспечивает более точную на- стройку распознающей системы. Кроме того, опре- деление пола диктора может представлять само- стоятельный интерес при обеспечении правоохра- нительной деятельности, сборе информации для рекламных целей и т. п. Упрощенная структура системы распознавания представлена на рис. 1. Как известно, ключевыми вопросами для построения любой системы распо- знавания являются: 1) выбор признаков, т. е. параметров, характери- зующих распознаваемые объекты (в данном случае – мужские/женские голоса); 2) выбор модели, в соответствии с которой прои- зводится обучение системы распознавания и последующая классификация признаков. Согласно схеме, на предварительном этапе из базы тестовых сигналов выделяются векторы при- знаков, используемые для обучения классифици- рующей модели. В результате этого формируются некоторые классы или эталонные значения при- знаков. В процессе реальной работы проверяемый сигнал подвергается предварительной обработке (масштабированию, удалению шумов). Сравнение извлеченных из него признаков с полученными на предварительном этапе эталонными значениями в соответствии с некоторым решающим правилом дает результат классификации. В роли вектора признаков обычно выступа- ют кепстральные параметры, вычисляемые на ка- ждом фрейме речевого сигнала. В задачах ра- c© А. Я. Калюжный, В. Ю. Семенов, 2009 31 ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 Рис. 1. Упрощенная структура системы распознавания 0 100 200 300 400 0 2000 4000 N um be r of fr am es 0 100 200 300 400 0 2000 4000 6000 Pitch, Hz N um be r of fr am es а б Рис. 2. Гистограммы распределения частоты основного тона: а – для женщин; б – для мужчин спознавания используются различные подходы к выбору классификации: гауссовы смеси (Gaussian Mixture Models – GMM), скрытые марковские мо- дели (HMM) и др. Выбор между методами GMM и HMM зависит от того, является ли текстозави- симой поставленная задача идентификации. По- скольку нас интересует не динамическая смена признаков, а интегральное преобладание одних признаков над другими, целесообразно считать, что обсуждаемая задача текстонезависима, и при- менять аппарат GMM. 1. ВЫЧИСЛЕНИЕ ПРИЗНАКОВ 1.1. Период основного тона Важный признак, используемый для различе- ния мужских и женских голосов, – период T0 или частота f0 =1/T0 основного тона. Этот параметр характеризует частоту колебания голосовых свя- зок при произнесении звонких звуков. Для вы- числения периода основного тона мы использова- ли автокорреляционный метод, описанный в рабо- те [4]. Как правило, для мужчин характерны более низкие частоты основного тона, чем для женщин. Однако, как видно из рис. 2, эти диапазоны для различных полов пересекаются, так что в неко- торых случаях женскому голосу может соответ- ствовать меньшая частота основного тона. Поэто- му наиболее сложными представляются ситуации, когда необходимо идентифицировать женщину с низким голосом или, наоборот, – мужчину с высо- ким. В таких случаях правильная идентификация должна обеспечиваться за счет использования па- раметров, отражающих различия в структуре го- лосовых трактов мужчин и женщин. 1.2. RASTA-PLP коэффициенты Исходя из сказанного, по аналогии с работой [3] мы включили в вектор признаков из 10 RASTA- PLP коэффициентов, определяющих форму голо- сового тракта при произнесении звуков, допол- ненных периодом основного тона. При этом был исключен кепстральный коэффициент, отвечаю- щий за уровень сигнала, т. е. общая размерность вектора признаков составляла 11. Поясним, что методика анализа речевых сиг- налов RASTA-PLP состоит из двух частей: PLP (Perceptual Linear Prediction [2]) – линейного пред- сказания с учетом особенностей слухового воспри- ятия и RASTA-обработки (от “RelAtive SpecTrA” – относительные спектры), предназначенной для удаления из сигнала спектральных компонент, скорость изменения которых отлична от скорости изменения соответствующих компонент речи [1]. Перечислим основные этапы RASTA-PLP обра- ботки. 32 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 Разбивка на фреймы При работе с частотой дискретизации fs =8000 Гц использовались фреймы длиной 25 мс (200 дискре- тных отсчетов) с перекрытием в 15 мс (120 дискре- тных отсчетов). Вычисление спектра На каждом фрейме вычислялся квадрат модуля преобразования Фурье. Для этого речевой фрейм длиной L отсчетов предварительно дополнялся нулями до длины Lfft =2[(log2 L)]+1, после чего при- менялось окно Хемминга. PLP-анализ Частотный диапазон [0, fs/2] разбивался на 17 критических полос, соответствующих равномер- ному разбиению частотного диапазона в bark- шкале [2], получаемой из линейной Гц-шкалы по формуле z = 6 log   f 600 + √ ( f 600 )2 + 1   . (1) Каждой из полос соответствует фильтр с трапе- цеидальной частотной характеристикой в логари- фмическом масштабе (они приведены на рис. 3). Пусть z0 – центр некоторой критической поло- сы, выраженный в барках. Тогда ее амплитудно- частотная характеристика h(z) вычисляется по формуле h(z) =                    10z−z0+1/2, z < z0 − 1 2 ; 1, z0 − 1 2 ≤ z ≤ z0 + 1 2 ; 10−2.5(z−z0−1/2), z > z0 − 1 2 . (2) Для каждого сигнального фрейма подсчитаем суммарную энергию во всех сигнальных критиче- ских полосах: log Ei = log Lfft/2+1 ∑ j=1 hj iXj , i = 1, . . . , 17, (3) где X – спектр мощности сигнального фрейма, по- лученный на предыдущем этапе; i – номер крити- ческой полосы; j – номер спектрального отсчета. Подсчитаем логарифмы энергий logEi во всех сигнальных критических полосах. Традиционно 0 500 1000 1500 2000 2500 3000 3500 4000 −5 −4 −3 −2 −1 0 Herz Lo g Le ve l Рис. 3. Амлитудно-частотные характеристики PLP-фильтров в логарифмическом масштабе 0 5 10 15 20 25 30 35 40 45 50 −200 −100 0 100 Frequency (Hz) P ha se ( de gr ee s) 0 5 10 15 20 25 30 35 40 45 50 −200 −100 0 100 M ag ni tu de ( dB ) Рис. 4. Амплитудная и фазовая частотная характеристика RASTA-фильтра последующими этапами PLP-анализа являются умножение на кривую равной громкости и ими- тация закона слухового восприятия, однако в RASTA-алгоритме они выполняются после меж- фреймового сглаживания величин logEi, описан- ного ниже. RASTA-фильтрация Дискретная передаточная функция RASTA- фильтра имеет вид [1] R(z) = 0.1z4 2 + z−1 − z−3 − 2z−4 1 − 0.94z−1 . (4) Амплитудная и фазовая частотные характери- стики этого фильтра представлены на рис. 4. Проанализируем его частотные свойства, пред- полагая, что частота обновления фреймов со- ставляет Sr =100 Гц. Корни числителя передато- чной функции (4) равны 1,−1,−0.25±0.97. Это говорит о том, что амплитудно-частотная хара- ктеристика имеет провалы при 0 Sr/2 = 50 и А. Я. Калюжный, В. Ю. Семенов 33 ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 0 50 100 150 200 250 300 350 400 450 −6 −4 −2 0 2 4 6 8 Frame lo g E Рис. 5. Пример траекторий логарифмов энергий в критических полосах до RASTA-фильтрации 0 50 100 150 200 250 300 350 400 450 −6 −4 −2 0 2 4 6 8 Frame lo g E Рис. 6. Пример траекторий логарифмов энергий в критических полосах после RASTA-фильтрации 10 1 10 2 10 3 10 4 −40 −35 −30 −25 −20 −15 −10 −5 0 Frequency (Hz) Le ve l ( dB ) Рис. 7. Кривая равной громкости [π−arctan(0.97/0.25)]Sr/(2π)=28.9 Гц. Что каса- ется знаменателя (4), то его полюс 0.94 соот- ветствует константе экспоненциального накопле- ния 0.94/(1−0.94)=16, т. е. эффективному нако- плению информации на протяжении 160 мс. Через фильтр R(z) пропускается каждая из 17 спектральных траекторий logEi, полученных на предыдущем этапе. На рис. 5 и 6 показаны тра- ектории логарифмов энергий в критических по- лосах до и после RASTA-фильтрации, убирающей постоянные составляющие логарифмов спектраль- ных компонент. Умножение на кривую равной громкости Сглаженный логарифмический спектр, получен- ный в результате RASTA-фильтрации, возвраща- ется в линейный масштаб путем взятия от него экспоненты. Затем на каждом фрейме он умножа- ется на кривую равной громкости [2], рис. 7, кото- рая определяется соотношением H(f) = f4 (f2 + 1.6 · 105)2 · f2 + 1.44 · 106 f2 + 9.61 · 106 . (5) Здесь f – частота в линейном масштабе. Имитация закона слухового восприятия Полученные на предыдущем шаге спектры для ка- ждого фрейма возводятся в степень 0.33. Обратное преобразование Фурье От спектра берется обратное преобразование Фу- рье, результатом чего является автокорреляцион- ная функция R(k), k = 0, . . . , Lfft − 1. Вычисление коэффициентов линейного пред- сказания Для вычисления коэффициентов линейного пред- сказания порядка p (в нашем случае p=10) необ- ходимы первые (p+1) значений автокорреляцион- ной функции: R(0), R(1),. . . , R(p). Их можно най- ти с помощью рекурсии Левинсона – Дарбина [10], строящейся по следующим правилам: E(0) = R(0); ki = 1 E(i−1) [ R(i)− i−1 ∑ j=1 α (i−1) j R(i−j) ] , 1 ≤ i ≤ p; α (i) i = ki; α (i) j = α (i−1) j − kiα (i−1) i−j , 1 ≤ j ≤ i − 1; E(i) = (1 − k2 i )E(i−1). Окончательно коэффициенты линейного предска- зания a1, a2,. . . , ap вычисляются как aj = −α (p) j , j = 1, . . . , p. 34 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 Преобразование вкепстральныекоэффициенты Кепстральные коэффициенты (т. е. обратное пре- образование Фурье от логарифма спектра сигна- ла) вычисляются через рекуррентные соотноше- ния [10]: cn = −an − n−1 ∑ k=1 k n ckan−k, n = 1, . . . , p. На завершающем этапе коэффициенты проходят процедуру “лифтинга”: c′n = n0.6cn, n = 1, . . . , p. Таким образом, итоговый вектор признаков со- стоит из периода основного тона T0 и RASTA-PLP коэффициентов c′1, c′2,. . . , c′10. 2. МОДЕЛЬ ГАУССОВЫХ СМЕСЕЙ (GMM) Основная идея аппарата GMM состоит в представ- лении плотности распределения вектора акустиче- ских параметров x (размерностью d) в виде взве- шенной суммы гауссовских плотностей распреде- ления [6]: p(x) = M ∑ m=1 αmb(x/µm, Dm), (6) где b(x/µ, D) – гауссова плотность со средним µ и ковариационной матрицей D: b(x/µ, D) = 1√ 2π det D × × exp[−0.5(x− µ)T D−1(x − µ)]. (7) Фактически представление плотности p(x) в ви- де суммы M гауссианов соответствует разбиению множества акустических параметров на M под- классов [6]. Такой подход схож с идеей векторного квантования, однако более гибок. Заметим, что для GMM не важен порядок сле- дования друг за другом акустических единиц (фо- нем и др.) – этот аппарат работает с накоплен- ными статистиками параметров. Обучение гауссовых смесей GMM должны быть независимо обучены для ка- ждого из альтернативных классов дикторов – мужского и женского. Это означает, что для не- го должен быть найден свой набор параметров αi, µi, Di, i=1, . . . , M . Исходными данными для обу- чения является набор векторов акустических при- знаков X =x1, x2, . . . , xT . Обучение GMM традиционно осуществляется по алгоритму EM (expectation-maximization – до- словно: максимизации ожидания) [9]. Существу- ют два варианта для вычисления ковариационных матриц Di, предполагающие их “полную” или ди- агональную структуру. Соответствующие итера- тивные соотношения даны в работах [3, 6]. Приведем уравнения для итеративного вычис- ления параметров αi, µi, σi, i=1, . . . , M в случае диагональных ковариационных матриц [6]: • обновление апостериорных вероятностей по- падания в m-й класс: p(m/xi, α, µ, σ) = αmbm(xi) M ∑ m=1 αmbm(xi) ; где bm(xi) = exp { −1 2 d ∑ k=1 (xk i − µk m)2 (σk m)2 } d ∏ k=1 σk m ; • обновление весов: αm = 1 N N ∑ i=1 p(m/xi, α, µ, σ); • обновление средних значений: µm = N ∑ i=1 p(m/xi, α, µ, σ)xi N ∑ i=1 p(m/xi, α, µ, σ) ; • обновление дисперсий: (σm)2 = N ∑ i=1 p(m/xi, α, µ, σ)(xi) 2 N ∑ i=1 p(m/xi, α, µ, σ) − (µm)2. В статье [7] рекомендуется использовать 15 итера- ций алгоритма EM, а в более поздней работе этого же автора [5] – 5 итераций. А. Я. Калюжный, В. Ю. Семенов 35 ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 Инициализация алгоритма EM Как правило, для метода EM остро стоит пробле- ма начальной инициализации и в специальной ли- тературе этому вопросу уделялось большое внима- ние. Тем не менее, в работе [6] сделано замечание, что в конечном итоге результаты идентификации диктора не сильно зависят от способа инициализа- ции алгоритма в процессе тренинга гауссовых сме- сей. Для инициализации обучения GMM мы исполь- зовали алгоритм К-средних [8], применение ко- торого к набору векторов акустических призна- ков X =x1, x2, . . . , xT позволяет найти M кван- тов, служащих инициализацией для математиче- ских ожиданий µm,m=1, . . . , M . Далее, отбирая вектора xi, попавшие в m-ю ячейку K (m), получа- ем приближение для дисперсий: (σk m)2 = ∑ i∈K(m) (xk i − µk m)2 N (m) , k = 1, . . . , d, где N (m) – количество элементов в m-й ячейке. Значения α инициализируются как αm = N (m) N . Проверка гипотез В процессе реальной работы, когда имеется на- бор из N наблюдений X =x1, x2, . . . , xN , про- верка гипотез сводится к простому сравнению плотностей вероятностей, соответствующих на- личию голосов дикторов каждого из полов (мужского – индекс “(mal.)” и женского – индекс “(fem.)”): p(X/α(mal.), µ(mal.), D(mal.)) и p(X/α(fem.), µ(fem.), D(fem.)). Предполагая незави- симость векторов наблюдений, эти величины запи- шем в нормированном логарифмическом масшта- бе: L(mal.) = 1 N log p ( X/α(mal.), µ(mal.), D(mal.) ) = = 1 N N ∑ i=1 log p ( xi/α(mal.), µ(mal.), D(mal.) ) , L(fem.) = 1 N log p ( X/α(fem.), µ(fem.), D(fem.) ) = = 1 N N ∑ i=1 log p ( xi/α(fem.), µ(fem.), D(fem.) ) , где оба логарифма записываются в соответствии с выражением (6). Если L(mal.) >L(fem.), выносится решение о пре- обладании мужского голоса. В противном случае считается, что преобладает женский голос. 3. ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки метода нами были сформированы две базы речевых сигналов, описываемые ниже. База 1. В формировании записей участвовали 16 мужчин и 11 женщин. Среди языков были представлены русский и английский (США). Для каждого диктора бралось по 10 файлов, общая продолжительность которых составила около 8 минут для мужчин и 6 – для женщин. База 2. В формировании записей участвовали 21 мужчина и 13 женщин. Среди языков были представлены португальский (Бразилия), ан- глийский, немецкий, хинди, венгерский, япон- ский, русский, испанский. Общая продолжи- тельность составила по 20 минут для мужчин и для женщин (103 и 154 файла соответствен- но). В первом эксперименте база 1 была взята в каче- стве обучающей, а база 2 – в качестве проверочной. Во втором эксперименте мы поступили наоборот: база 2 выступала как обучающая, а база 1 – как проверочная. При этом количество компонент га- уссовых смесей взято равным 1, 2, 4, 8, 12, или 16. В табл. 1 и 2 приведены проценты ошибок классификации при различных порядках гауссо- вых смесей, а также типов ковариационных ма- триц для первого и второго экспериментов со- ответственно. Меньшее количество ошибок при использовании базы 2 в качестве обучающей объя- сняется ее большим объемом и большим разно- образием дикторов по сравнению с базой 1. Кро- ме того, увеличение количества компонент гаус- совых смесей не приводит к уменьшению ошиб- ки распознавания. Более того, в первом экспери- менте самый низкий средний процент ошибок по- лучен при использовании лишь одного гауссиана (т. е. при моделировании пространства признаков пола одним акустическим классом). Этот резуль- тат выглядит неожиданно. Возможно, он связан с относительно небольшим объемом обучающей ба- зы 1, что порождает необходимость дальнейшего тестирования алгоритма на более широких базах сигналов. Тем не менее, обнаруженный парадокс частично подтверждается при использовании ба- зы 2 в качестве обучающей, а также выводами ис- следования [3], где модификация с двумя гауссиа- нами обеспечивала практически такой же процент 36 А. Я. Калюжный, В. Ю. Семенов ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 Табл. 1. Процент ошибок для диагональных и полных ковариационных матриц различных размерностей (первый эксперимент) Классификация Диаг. 1 Диаг. 2 Диаг. 4 Диаг. 8 Диаг. 12 Диаг. 16 Мужчины 8.7 % 4.9 % 3.9 % 1.0 % 3.9 % 3.9 % Женщины 9.1 % 7.1 % 7.8 % 7.8 % 7.1 % 7.1 % Среднее 8.9 % 6.2 % 6.2 % 5.1 % 5.8 % 5.8 % Классификация Полн. 1 Полн. 2 Полн. 4 Полн. 8 Полн. 12 Полн. 16 Мужчины 3.9 % 3.9 % 1.9 % 3.9 % 1.9 % 2.9 % Женщины 4.5 % 6.5 % 6.5 % 7.1 % 7.1 % 7.1 % Среднее 4.3 % 5.4 % 4.7 % 5.8 % 5.1 % 5.4 % Табл. 2. Процент ошибок для диагональных и полных ковариационных матриц различных размерностей (второй эксперимент) Классификация Диаг. 1 Диаг. 2 Диаг. 4 Диаг. 8 Диаг. 12 Диаг. 16 Мужчины 0.7 % 0.7 % 0.0 % 0.0 % 0.0 % 0.0 % Женщины 0.9 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 % Среднее 0.8 % 0.4 % 0.0 % 0.0 % 0.0 % 0.0 % Классификация Полн. 1 Полн. 2 Полн. 4 Полн. 8 Полн. 12 Полн. 16 Мужчины 0.7 % 0.7 % 0.7 % 0.7 % 0.7 % 0.7 % Женщины 0.0 % 0.0 % 0.0 % 0.0 % 0.0 % 0.0 % Среднее 0.4 % 0.4 % 0.4 % 0.4 % 0.4 % 0.4 % 0 50 100 150 200 250 300 0 50 100 150 200 250 Frames P itc h Рис. 8. Пример изменения частоты основного тона для англоязычного диктора-мужчины ошибок, как и для M =4, 6, 8, 10, 12, 16. Также заметим, что практически все ошибки в первом эксперименте наблюдались для двух дикторов – женщины-японки со средней часто- той основного тона около 135 Гц и мужчины- англичанина со средней частотой около 200 Гц, ко- торые несколько нетипичны для соответствующих полов (см. рис. 1). Примеры траекторий частоты основного тона для этих двух дикторов приведены на рис. 8 и 9. 0 100 200 300 400 500 600 0 50 100 150 200 frame pi tc h Рис. 9. Пример изменения частоты основного тона для японоязычного диктора-женщины Подводя итоги, можно заключить, что порядок и тип GMM не оказывают существенного влияния на процент ошибок при классификации голосов по половому признаку. Главным же фактором явля- ется разнообразие дикторов в обучающей базе ре- чевых сигналов. Наиболее выгодными с практической точки зре- ния видятся модификации с диагональными кова- риационными матрицами размером 4×4 или 8×8, поскольку они дают на общем фоне приемлемый процент распознавания и при этом характеризуе- А. Я. Калюжный, В. Ю. Семенов 37 ISSN 1028 -7507 Акустичний вiсник. 2009. Том 12, N 2. С. 31 – 38 тся существенно меньшими вычислительными за- тратами, чем при использовании полных ковариа- ционных матриц. Заметим, что в работе [3] также был сделан выбор в пользу диагональной ковари- ационной матрицы размерности 8×8. ВЫВОДЫ 1. Предложен автоматический классификатор пола диктора на основе моделирования аку- стических параметров голоса с помощью ап- парата гауссовых смесей (GMM). В качестве вектора акустических признаков выбран ве- ктор кепстральных RASTA-PLP коэффициен- тов, дополненный периодом основного тона. 2. Результаты испытаний показывают от 9 до 0 % ошибок классификации в зависимости от объема обучающей и проверочной баз, типа ковариационных матриц GMM (пол- ные/диагональные) и их порядков. 3. Для правильной классификации пола дикто- ра порядок и тип GMM оказались вторичным фактором по сравнению с необходимостью ра- знообразить представление голосов дикторов в обучающей базе речевых сигналов. 4. Наиболее практичными нам видятся моди- фикации с диагональными ковариационными матрицами малого размера (например, 4 × 4 или 8 × 8), поскольку они дают приемлемый процент распознавания и характеризуется существенно меньшими вычислительными за- тратами, чем при использовании полных ко- вариационных матриц. 1. Hermansky H., Morgan N. RASTA processing of speech // IEEE Trans. Speech Audio Proces.– 1994.– 2.– P. 578–589. 2. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech // J. Acoust. Soc. Amer.– 1990.– 87.– P. 1738–1753. 3. Zeng Y.-M., Wu Z.-Y., Falk T., Chang W.-Y. Robust GMM-based gender classification using pitch and RASTA-PLP parameters of speech // Proc. Fifth Int. Conf. Machine Learning and Cybernetics.– Dalian, 2006.– P. 3376–3379. 4. Вовк И. В., Семенов В. Ю. Автоматическое обна- ружение и распознавание сухих хрипов на осно- ве анализа их автокорреляционной функции // Акуст. вiсн.– 2005.– 8, N 3.– С. 17–23. 5. Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models // Digit. Signal Proces.– 2000.– 10.– P. 19– 41. 6. Reynolds D. A., Rose R. C. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Trans. Speech Audio Proces..– 1995.– 3.– P. 72–83. 7. Reynolds D. A. Experimental evaluation of features for robust speaker identification // IEEE Trans. Speech Audio Proces..– 1994.– 2.– P. 639–643. 8. Linde Y., Buzo A.,Gray R. M. An algorithm for vector quantizer design // IEEE Trans. Com.– 1980.– 28, N 1.– P. 84–95. 9. Dempster A., Lair N., Rubin D. Maximum likelihood from incomplete data via the EM algorithm // J. Roy. Statistic. Soc.– 1977.– 39.– P. 1–38. 10. Рабинер Л., Шафер Р. Цифровая обработка рече- вых сигналов.– М.: Радио и связь, 1981.– 496 с. 38 А. Я. Калюжный, В. Ю. Семенов