Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації

Рассмотрен новый метод сглаживания, ориентированный на особенности славянских языков, в том числе на украинский. Показано, что он улучшает оценку качества моделей языка....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2014
1. Verfasser: Тарануха, В.Ю.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2014
Schriftenreihe:Управляющие системы и машины
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/83318
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Метод згладжування n-грамної моделі для розпізнав / В.Ю. Тарануха // Управляющие системы и машины. — 2014. — № 2. — С. 24-31. — Бібліогр.: 5 назв. — укр., рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-83318
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-833182025-02-23T18:03:28Z Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації Smoothing Method for Class-Based n-gram Model for Speech Recognition Using the Grammatical and Lexical Information Метод сглаживания n-граммной модели для распознавания речи, основанной на классах, с использованием грамматической и лексической информации Тарануха, В.Ю. Новые методы в информатике Рассмотрен новый метод сглаживания, ориентированный на особенности славянских языков, в том числе на украинский. Показано, что он улучшает оценку качества моделей языка. A new smoothing method focused on the features of the Slavic languages, including the Ukrainian is proposed. It is shown that the method improves the quality of the language models. Розглянуто новий метод згладжування, орієнтований на особливості слов’янських мов, в тому числі на українську. Показано, що він покращує оцінку якості моделей мови. 2014 Article Метод згладжування n-грамної моделі для розпізнав / В.Ю. Тарануха // Управляющие системы и машины. — 2014. — № 2. — С. 24-31. — Бібліогр.: 5 назв. — укр., рос. 0130-5395 https://nasplib.isofts.kiev.ua/handle/123456789/83318 004.93 uk Управляющие системы и машины application/pdf Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Новые методы в информатике
Новые методы в информатике
spellingShingle Новые методы в информатике
Новые методы в информатике
Тарануха, В.Ю.
Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
Управляющие системы и машины
description Рассмотрен новый метод сглаживания, ориентированный на особенности славянских языков, в том числе на украинский. Показано, что он улучшает оценку качества моделей языка.
format Article
author Тарануха, В.Ю.
author_facet Тарануха, В.Ю.
author_sort Тарануха, В.Ю.
title Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
title_short Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
title_full Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
title_fullStr Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
title_full_unstemmed Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
title_sort метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate 2014
topic_facet Новые методы в информатике
url https://nasplib.isofts.kiev.ua/handle/123456789/83318
citation_txt Метод згладжування n-грамної моделі для розпізнав / В.Ю. Тарануха // Управляющие системы и машины. — 2014. — № 2. — С. 24-31. — Бібліогр.: 5 назв. — укр., рос.
series Управляющие системы и машины
work_keys_str_mv AT taranuhavû metodzgladžuvannângramnoímodelídlârozpíznavannâmovlennâzasnovanoínaklasahzvikoristannâmgramatičnoítaleksičnoíínformacíí
AT taranuhavû smoothingmethodforclassbasedngrammodelforspeechrecognitionusingthegrammaticalandlexicalinformation
AT taranuhavû metodsglaživaniângrammnojmodelidlâraspoznavaniârečiosnovannojnaklassahsispolʹzovaniemgrammatičeskojileksičeskojinformacii
first_indexed 2025-11-24T08:25:06Z
last_indexed 2025-11-24T08:25:06Z
_version_ 1849659444351205376
fulltext 24 УСиМ, 2014, № 2 УДК 004.93 В.Ю. Тарануха Метод згладжування n-грамної моделі для розпізнавання мовлення, заснованої на класах, з використанням граматичної та лексичної інформації Рассмотрен новый метод сглаживания, ориентированный на особенности славянских языков, в том числе на украинский. По- казано, что он улучшает оценку качества моделей языка. A new smoothing method focused on the features of the Slavic languages, including the Ukrainian is proposed. It is shown that the method improves the quality of the language models. Розглянуто новий метод згладжування, орієнтований на особливості слов’янських мов, в тому числі на українську. Показано, що він покращує оцінку якості моделей мови. Вступ. Значне зростання обсягів інформації у вигляді цифрових аудіозаписів та зображень текстів потребує ефективних засобів для пере- ведення даних в текстову форму для подаль- шої обробки. Стандартом де-факто є викорис- тання статистичної моделі на основі n-грам [1] та алгоритмів, що з нею працюють. Така мо- дель в цілому добре розроблена [2], проте при використанні для слов’янських мов, зокрема для української, виявляється низка недоліків, пов’язаних з властивостями слов’янських мов у порівнянні з романо-германськими. Пропо- нувалися різні підходи до вирішення цієї про- блеми: перехід до n-грам з вільним порядком слів [3], використання даних синтаксичного аналізатора [4], фільтрація на основі евристик [5]. В даній статті розглянуто модифікацію класичної моделі, спираючись на лексичні та граматичні класи. Побудова та оцінювання моделей Ймовірнісна модель звичайно передбачає, що мова має властивості, які дозволяють описати її як марківський процес. Тоді ймовірність по- слідовності слів можна буде оцінити явно [1]. Послідовність слів мови w1…wn називається n- грамою довжини n, її позначають nw1 . Тоді по- слідовність слів можна представити як послі- довність n-грам, а ймовірність оцінити за фор- мулою )()....|()|()( 1 2 11 1 11 wpwwpwwpwp i i i i i    . При цьому можна побудувати оцінку ймовір- ностей, що спирається на частоти відповідних n-грам )( )( | 1 1 11 1 )(ˆ      i ni w i ni w i nii C C wwp , де )( 1 i niwC  – частота відповідної n-грами. У слов’янських мовах характерною рисою є вільний порядок слів у реченнях. При цьому слово має більше словоформ, оскільки в сло- воформах зберігається інформація, що вказує на потенційні синтаксичні зв’язки слова. Якщо на одне слово англійської мови припа- дає приблизно 1,7 словоформи, то на одне слово української мови, залежно від вибраного слов- ника, може припасти від 5,5 до 19,9 на одному і тому ж корпусі. Отже, при побудові таблиці n-грам, при n = 2, розмір зростає принаймні в 10,47 рази, а при n = 3 – в понад 33 рази. Це при- зводить до того, що значна кількість n-грам на- буває малих значень частот, і оцінка ймовірнос- тей стає значно чутливішою до викидів та шу- мів. Це і складає головну проблему та заважає досягти таких самих високих показників розпі- знавання, як для романо-германських мов. Ще однією властивістю наведеного підходу є те, що в реальних корпусах не представлені всі можливі n-грами. Це створює потребу в за- стосуванні методу для згладжування частот та ймовірностей відповідних n-грам. Для оцінки якості моделі без необхідності ви- конувати експеримент з розпізнаванням викори- стовується ентропія      x xpxpXH )(log)( 2 . Це дозволяє оцінити якість марківського лан- цюжка, хоча ігноруються певні аспекти реально- го розпізнавання. Наприклад, ігнорується схо- жість звучання слів, що може призвести до погі- ршення результатів у реальному експерименті. Крім того, в ідеальному випадку необхідно обчислювати ентропію з розрахунку на слово, на потенційно нескінченному реченні, що опи- УСиМ, 2014, № 2 25 сує мову. Проте в реальному експерименті до- водиться обходитися вибіркою певного розмі- ру, сподіваючись, що наближене значення бу- де близьким до теоретичного ( ) lim n H L   1 2 1 log ( )np w w w n   . Для порівняння двох моделей зручно викори- стовувати крос-ентропію. Нехай m(w1w2wn) – модель для ймовірності p(w1w2wn), тоді крос- ентропія з розрахунку на слово виражається так: )(log 1 lim),( 21 n n wwwm n mpH   , для неї ві- домо, що H(p)  H(p, m). Також, при потребі можна застосувати більш детальну міру якості, що називається перплек- сією, і обчислюється так: PPW = 2H(p, m). В реальному тесті може трапитися, що відпо- відна n-грама, яка трапилася в тесті, відсутня в корпусі, за яким будувалася модель. Для оцінки події, що не траплялася, використовують методи згладжування, які будуть описані далі. Аналіз відомих методів для підвищення якості моделі Перехід до n-грам з вільним порядком слів [3]: })....{|()|(ˆ 11 1 1     inii i nii wwwpwwp . Фі- гурні дужки означають, що слова, крім остан- нього, добираються за довільним порядком. Чисельний експеримент [3] показав непридат- ність цієї моделі для розпізнавання через висо- ку ентропію. Використання даних синтаксичного ана- лізатора [4]. В комплект n-грам додаються n- грами, отримані як коректні словосполучення, отримані аналізом дерева синтаксичного роз- бору. Отримано гарантований ефект підви- щення якості розпізнавання. Нажаль, цей ме- тод передбачає необхідність використання від- повідного синтаксичного аналізатора, що не завжди є можливим. Використання декомпозиції моделі на дві: модель, засновану на граматичних класах, та мо- дель, засновану на канонічних формах слів. Згідно наведених оцінок для перплексії [3], при одночасному використанні обох часткових мо- делей, результуюча перплексія набагато вища за перплексію моделі, створеної лише на словофо- рмах. Це позбавляє сенсу безпосереднє викорис- тання двох моделей, хоча відповідно до запев- нень авторів [3] залишає можливість винести в модель на граматичних класах частину інформа- ції, необхідної для боротьби з акустичною схо- жістю різних форм одного слова. Використання оптимізації ентропії або пе- рплексії моделі шляхом оцінки та вилучення шумів з моделі [5]. При цьому можна оцінювати як модель, зібрану на словоформах, так і модель, зібрану на канонічних формах слів. Метод пока- зав дієвість такої оптимізації, проте він має від- чутний недолік, оскільки фактично спирається в оптимізації на n-грами малої частоти, а отже, – на шуми та викиди. Новий метод Пропонуємо модифікацію класичної моделі, яка спирається на лексичні та граматичні класи. При побудові через лексичні та граматичні класи будуються дві окремі моделі n-грам окремо на основі канонічних форм слів (лексична) та окре- мо на основі граматичних класів слів. Тобто, од- на послідовність слів дає інформацію в дві різні часткові моделі. Після того на основі двох моде- лей будується спільна модель, яка використовує інформацію з обох часткових моделей. При по- требі допускається фільтрація частини отрима- них n-грам, якщо це покращить результат. Для розбиття на класи в загальному випадку вводиться функція розбиття, що ставить у від- повідність кожному слову wi з словника V клас ci. При цьому виконується 1 1( | )i iP w w  1 1( | ) ( | ), ,1i i i iP w c P c c i i n    . Ідея полягає в тому, що для слів, про які відо- мо, що вони мають однакову синтаксичну пове- дінку можна зробити припущення про те, що у схожих контекстах вони повинні мати схожі ймовірності зустрічання. Нехай для слів автомобіль, автомобіля, вер- толіт, вертольотом, синій, синього, жовтий, жовтим у корпусі спостерігалися біграми синій автомобіль, синього автомобіля, жовтий вер- толіт, жовтим вертольотом. Тоді можна виконати поетапну згортку за канонічними формами (автомобіль, вертоліт) і (синій та жовтий), поетапну згортку за гра- матичними класами одн., чол. рід, наз. відм., 26 УСиМ, 2014, № 2 одн., чол. рід, род. відм., одн., чол. рід, орудн. відм. На базі знань про те, що ці іменники та при- кметники поводяться схоже, тобто мають одна- кові множини граматичних класів, можна побу- дувати припущення про ймовірності появи їх у формах, що не спостерігалися в корпусі. Враховуючи, що в українській мові спостері- гається омонімія, позначимо: )( 1 kwL – сукупність послідовностей канонічних форм для послідов- ності слів kw1 . )( 1 kwG – сукупність послідовностей граматичних класів для послідовності слів kw1 . Позначимо )( 1 kwEl – сукупність послідовно- стей слів, що після приведення до канонічних форм мають однаковий запис, тобто сукуп- ність ki iw 1 , таких, що iwLwL kki i  ),()( 11 . Тоді оцінка частоти kw1 визначається: ))()C()(C( )( ))1(( 11 1    kwElGFG F kk k G wGwL wC . (1) Для забезпечення достовірності об’єднаної моделі припустимо: необхідно, щоб сума час- тот канонічних форм та сума частот граматич- них класів після перерозподілу лишалася не- зміною, тобто     V m mkk wCGwCG 1 1 1 1 ))(())(( & &     V m mkk wCLwCL 1 1 1 1 ))(())(( , (2) де |V| – розмір словника, а відповідні частоти )( 1 kwC можуть бути нульовими, якщо для них не існує kw1 в корпусі, на якому будується мо- дель. Якщо (2) виконується, то це дозволить суттєво оптимізувати обчислення (1). Повертаючись до прикладу, дана модель дозволяє за формулою (1) оцінити ймовірно- сті для біграм синім автомобілем та жовто- го вертольота. Підбір параметрів, а саме множини грама- тичних класів та множини канонічних форм, бу- ло проведено підчас чисельного експерименту. Метод згладжування Для згладжування та заповнення пропусків використовуються різні методи [2], в даній статті розглядаються згладжування з поверненням Віт- тена–Белла, оскільки воно є простим і водночас включає в себе всі необхідні параметри. 1 1 1 1 1 1 1 2 ( ) , ( ) 0, ( ) ( ) інакше, i n i i i i n i n i i i n i w w i i n d w C w p w w p w w                    (3) де )( 1 i niwd  – відповідним чином згладжене значення )( 1 i niwC  , 11  iwniw  – відповідний коефіцієнт, що визначає ймовірнісну масу, пе- рерозподілену для побудови ймовірностей на n-грамах моделі нижчого порядку.   1 1 1 1 1 1 2 : ( ) 0 ( ) i n i i n i i i i n w w w w i i i n w C w p w w                    , (4)   1 1 1 1 : ( ) 0 1 ( ) i n i i i i n i w w i n w C w d w             . (5) Для методу Віттена–Белла параметр d оці- нюється так: )()( )( )( 11 11 1 i ni i ni i nii ni wTwC wC wiwWBd      , (6) де )( 1 i niwT  – кількість типів n-грам, що пере- дують слову wi. При цьому, за замовчуванням, n-грами най- вищого порядку з частотою одиниця видаля- ються з моделі. Оскільки після застосування формули (1) n- грами отримають не частоти, а псевдочастоти, то згладжування за формулою Віттена–Белла є зручним, оскільки не потребує регулювання, від якого значення псевдочастоти необхідно відраховувати допустимі елементи у )( 1 i niwT  . Метод Катца з поверненням не підходить як додатковий метод згладжування, оскільки спи- рається на евристику Гуда–Тьюринга [1], яка не має зрозумілого способу інтерпретації, як- що в неї подати псевдочастоти замість частот. Відповідно до якості моделі, що визначається розміром ентропії, модифікований метод Кнесе- ра–Нея [1] буде найкращим для даної задачі, проте потребуватиме додаткового навчання для УСиМ, 2014, № 2 27 визначення діапазонів, що у випадку використан- ня псевдочастот замінять фіксовані рівні відбору. Чисельні експерименти Експерименти проведено на n-грамах розмір- ності  3, зібраних зі стенограм Верховної Ради України. Було сформовано корпус обсягом 112,5 Мб, для чого відповідні стенограми зібра- но з сайту http://rada.gov.ua/ meeting/stenogr. На корпусі було виділено словник системи з 10 тис. словоформ, всі інші слова замінені на стоп-слово «#». Словник пропущено через сис- тему морфолексичного аналізу, і сформовано словники канонічних форм та словники грама- тичних класів. При цьому множина граматичних класів однозначно визначає словник канонічних форм. Певні обмеження введені на всіх словниках: службові частини мови не розділяються на фор- ми, іменники родового відмінку також не розді- ляються на форми. Отже, словники канонічних форм містять, крім власне форм, ще і додаткові слова, виділені як окремі умовні канонічні фор- ми, які насправді є лише словоформами. Анало- гічно з умовними граматичними класами. Необхідно зауважити, що словникова систе- ма, використана в аналізі, не є повною і не опи- сує всі можливі граматичні ознаки за українсь- кою граматикою, а лише частину. Тому для уни- кнення втрат інформації в деяких випадках роз- ділення не виконувалося. Перша пара словників визначається такими параметрами: словник канонічних форм обсягом 7012 одиниць, та словник граматичних класів обсягом 5409 одиниць. Для дієслів не викону- ється розділення на канонічні форми та грамати- чні класи. Це пов’язано з тим припущенням, що перехідні та неперехідні дієслова потребують підмета у різних відмінках. Перехідні дієслова означають дію, спрямовану (переходить) на пев- ний предмет, названий іменником або займен- ником у знахідному відмінку без прийменника: виконати (що?) вправу; зустріти (кого?) друзів; прочитати (що?) книгу. Якщо присудок у речен- ні вживається з заперечною часткою не, іменник ставиться не в знахідному, а в родовому відмін- ку. Неперехідні дієслова означають дію або стан, які на інший предмет не переходять і не потре- бують знахідного відмінка без прийменника від іменника чи займенника. Друга пара словників визначається такими параметрами: словник канонічних форм обсягом 6044 одиниці та словник граматичних класів об- сягом 3770 одиниць. В цих словниках для всіх форм дієслів, крім інфінітива, виконано розді- лення на канонічні форми та граматичні класи. Великий розмір другої пари часткових слов- ників (понад 50 відсотків для словника каноніч- них форм, і понад 35 відсотків для словника граматичних класів) пояснюється тим, що, крім значної частки інфінітивів, у словник системи входить велика кількість слів з малим набором словоформ, що суттєво менше за можливий по- вний набір. Також використано базовий словник систе- ми, щоб дізнатися, чи покращує, чи погіршує метод роботу системи. Множина n-грам була фільтрована від три-грам частоти один, але пі- сля побудови таблиць )( 1 i niwT  . В усіх експериментах для побудови моделі використано 75 відсотків від корпуса, для об- числення ентропії та перплексії використано решту – 25 відсотків. Експеримент 1. Перевіряється припущення, описане формулою (2) для всіх n-грам моделей, для всіх способів згладжування як з фільтрацією,так і без неї. Як міру близь- кості вибрано добуток косинус кута між відповідними век- торами частот канонічних форм та граматичних класів. Обчислення показали, що формула (2) не виконується на- віть без фільтрації. Було вирішено провести ще кілька експериментів, щоб перевірити, чи порушення умови (2) погіршує результат, і якщо так, то наскільки. В обчислені псевдочастот для за- даної системи граматичних класів необхідно кожного разу будувати триграми на словоформах, і потім з них будувати біграми та уніграми, інакше буде некоректно обчислюва- тися формула (3). Експеримент 2. Порівнюються результати звичай- ної схеми Вітена–Белла. На основі отриманих комплек- тів словників за формулою (1) обчислюються відповідні триграми, а біграми та уніграми обчислюються на основі триграм. Т а б л и ц я 1. Експеримент 2 Умови Ентропія Перплексія Базовий словник(фільтрація) 7,623 197,129 Набір 1 7,598 193,742 Набір 2 7,674 204,222 28 УСиМ, 2014, № 2 Формула (1) дає незначне покращення порівняно з базовою моделлю, як вона описана раніше. Експеримент 3. Вводиться додаткова умова фільт- рації. При обчисленні формули (1) ігноруються тригра- ми з граматичних класів, якщо їх частота дорівнює оди- ниці. Аналогічно попередньому випадку, на основі отриманих комплектів словників за формулою (1) обчи- слюються відповідні триграми, а біграми та уніграми обчислюються на основі триграм. Т а б л и ц я 2. Експеримент 3 Умови Ентропія Перплексія Базовий словник (фільтрація) 7,623 197,129 Набір 1 7,554 187,923 Набір 2 7,511 182,404 Як видно з результатів експерименту, крім явного покращення, порівняно з базовим значенням, змінилося ранжування між першим та другим комплектом словни- ків. Це пов’язано з суттєво іншим значенням )( 1 i niwT  з формули (6). Справді, при вказаній фільтрації кількість очікуваних типів триграм зменшується за рахунок най- менш правдоподібних. З огляду на результати першого та другого експериментів, можна стверджувати, що, якщо формула (1) порушує розподіл канонічних форм та граматичних класів, то, вибравши таку систему граматичних класів, щоб формула (2) виконувалася, можна буде покращити оцінку моделі, а отже і якість розпізнавання. Висновки. Проаналізовано можливість засто- сування інформації про морфолексичні та грама- тичні характеристики слів для оптимізації моде- лей мови з метою покращення розпізнавання. Експерименти показали, що перерозподіл за за- пропонованою формулою (1) покращує оцінку ентропії, а отже потенційно покращує розпізна- вання. Показано, що спостережене порушення вимо- ги (2) не призводить до погіршення оцінки мо- делі, отже можна стверджувати, що коректно підібрана система граматичних класів дозволить значно покращити якість моделі, а отже і якість розпізнавання. 1. Jurafsky D., Martin J.H. Speech and Language Proc- essing: An Introduction to Natural Language Process- ing, Computational Linguistics, and Speech Recogni- tion // Prentice Hall PTR Upper Saddle River, NJ, 2000. – 934 p. 2. Chen S.F., Goodman J.T. An empirical study of smo- othing techniques for language modeling // Computer Speech and Language. – 1999. – N 13. – P. 448–453. 3. Бабин Д.Н., Мазуренко И.Л., Холоденко А.Б. О пер- спективах создания системы автоматического рас- познавания слитной устной русской речи // Интел- лектуальные системы. – 2004. – 8, 1–4, – P. 45–70. 4. Кипяткова И.С. Применение синтаксического ана- лиза при создании n-граммной модели языка для систем распознавания русской речи / Пятый меж- дисциплинарный семинар «Анализ разговорной рус- ской речи» АР 3 -2011. – СПб., 25–26 авг. 2011. – С 13–18. 5. Language model reduction for practical implementa- tion in LVCSR systems / S. Ostrogonac, B. Popović, M. Sečujski et al. // Infoteh-Jahorina. – March 2013. – 12. – P. 391–394. Поступила 13.03.2014 Тел. для справок: +38 044 502-6319 (Киев) © В.Ю. Тарануха, 2014  В.Ю. Тарануха Метод сглаживания n-граммной модели для распознавания речи, основанной на классах, с использованием грамматической и лексической информации Введение. Значительный рост объемов информации в виде цифровых аудиозаписей и изображений текстов требует эффективных средств, позволяющих переводить данные в текстовую форму для дальнейшей обработки. Стандартом де-факто есть использование статистиче- ской модели на основе n-грамм [1], и алгоритмов, с ней работающих. Такая модель в целом хорошо разработана [2], однако при использовании для славянских языков, в том числе для украинского, в сравнении с романо- германскими языками проявляется ряд недостатков, связанных с особенностями славянских языков. Предла- гались различные подходы к решению этой проблемы: переход к n-граммам со свободным порядком слов [3], использование данных синтаксического анализатора [4], фильтрация на основе эвристик [5]. В настоящей статье предложена модификация классической модели с акцен- том на лексические и грамматические классы. Построение и оценка моделей Обычно вероятностная модель полагает, что речь об- ладает свойствами, позволяющими описать ее как мар- ковский процесс. Тогда вероятность последовательности слов можно будет оценить явно [1]. Последовательность слов языка w1 ... wn называется n-граммой длины n и обо- значается nw1 . Последовательность слов можно предста- УСиМ, 2014, № 2 29 вить как последовательность n-грамм, а вероятность оце- нить по формуле 1 1 1 2 1 1 1( ) ( | ) ( | ).... ( )i i i i ip w p w w p w w p w   . При этом можно построить оценку вероятностей, опи- рающихся на частоты соответствующих n-грамм, 1 1 1 1 1 ( ) ˆ ( | ) ( ) i i n i i n i i n wi w C p w w C          , где 1( )i i nC w   – частота соответст- вующей n-граммы. Характерной особенностью славянских языков есть свободный порядок слов в предложениях. При этом зна- чимые слова имеют большое количество словоформ, поскольку в них хранится информация, указывающая на потенциальные синтаксические связи слова. Если на одно слово английского языка приходится примерно 1,7 словоформы, то на одно слово украинско- го языка, в зависимости от выбранного словаря, может приходиться от 5,5 до 19,9 словоформ на одном и том же корпусе. Таким образом, при построении таблицы n- грамм, при n = 2, размер возрастает по крайней мере в 10,47 раза, а при n = 3 – в более чем 33 раза. Как следст- вие, значительное количество n-грамм приобретает ма- лые значения частот, и оценка вероятностей становится значительно более чувствительной к выбросам и шумам, что и составляет серьезную проблему распознавания, препятствуя достижению таких же высоких показате- лей, как те, что получены для романо-германских язы- ков. Еще одно свойство указанного подхода – то, что в реальных корпусах не представлены все возможные n- граммы. Это создает потребность в применении метода сглаживания частот и вероятностей для соответствую- щих n-грамм. Для оценки качества модели без необхо- димости проведения эксперимента с распознаванием используется энтропия   2( ) log ( ) x H X p x p x    . Это позволяет оценить качество марковской цепочки, хотя определенные аспекты реального распознавания иг- норируются. Например, игнорируется сходство звучания слов, что может привести к ухудшению результатов в ре- альном эксперименте. Кроме того, в идеальном случае необходимо вычислять энтропию в расчете на слово на потенциально бесконеч- ном предложении, описывающем язык. Однако в реальном эксперименте приходится обходиться выборкой опреде- ленного конечного размера, в надежде, что приближенное значение будет близким к теоретическому 1 2 1 ( ) lim log ( )nn H L p w w w n    . Для сравнения двух моделей удобно использовать кросс-энтропии. Пусть m(w1w2wn) – модель для веро- ятности р(w1w2wn), тогда кросс-энтропия в расчете на слово выражается так: ( , ) lim n H p m    1 2 1 log ( ),nm w w w n  когда известно, что H(p)  H(p, m). Также при необходимости можно применить более подробную меру качества, называемую перплексией и рассчитываемую следующим образом: ( , )2H p mPPW  . В реальном тесте можно наблюдать n-грамму, отсут- ствующую в корпусе, по которому строилась модель. Для оценки события, которое не встречалось в корпусе, используют методы сглаживания, описываемые далее. Анализ известных методов для повышения каче- ства модели Переход к n-граммам со свободным порядком слов [3].: 1 1 1 1ˆ ( | ) ( |{ .... })i i i n i i n ip w w p w w w      . Фигурные скобки обозначают, что слова, кроме последнего, подбираются в произвольном порядке. Численный эксперимент [3] показал непригодность этой модели для распознавания при высокой энтропии. Использование данных синтаксического анализато- ра [4]. В комплект n-грамм добавляются n-граммы, полу- ченные как корректные словосочетания, полученные ана- лизом дерева синтаксического разбора. Получен гаранти- рованный эффект повышения качества распознавания. Этот метод, к сожалению, предполагает необходимость использования соответствующего синтаксического анали- затора, что не всегда возможно. Использование декомпозиции модели на две: модель, основанную на грамматических классах, и модель, осно- ванную на канонических формах слов. Согласно приве- денным оценкам для перплексии [3], при одновременном использовании обеих частичных моделей результирующая перплексия значительно выше, чем перплексия модели, созданной только на словоформах. Это лишает смысла непосредственное использование двух моделей, хотя, со- гласно мнению авторов [3], оставляет возможность выне- сти в модель на грамматических классах часть информа- ции, необходимой для борьбы с акустическим сходством различных форм одного слова. Использование оптимизации энтропии или перплек- сии модели путем оценки и устранения шумов из модели [5]. При этом можно оценивать как модель, собранную на словоформах, так и модель, собранную на канонических формах слов. Метод показал действенность такой оптими- зации, однако он имеет ощутимый недостаток, поскольку опирается в оптимизации на n-граммы малой частоты, а следовательно, на шумы и выбросы. Новый метод Предлагается модификация классической модели, по- строенной на лексических и грамматических классах. При таком построении создается две модели n-грамм – отдель- но на основе канонических форм слов (лексическая) и от- дельно на основе грамматических классов слов, т.е. одна последовательность слов дает информацию в две различ- ные частичные модели. Затем на основе двух моделей строится общая модель, использующая информацию из обеих частичных моделей. При необходимости допускает- ся фильтрация части полученных n- грамм, если это улуч- шит результат. Для разбиения на классы в общем случае вводится функция разбиения, что приводит в соответствие каж- дому слову wi из словаря V класс ci. При этом выполня- ется 1 1 1 1( | ) ( | ) ( | ), ,1i i i i i iP w w P w c P c c i i n     . 30 УСиМ, 2014, № 2 Идея заключается в том, что для слов, о которых из- вестно, что они имеют одинаковое синтаксическое по- ведение, можно сделать предположение о том, что и в похожих контекстах они должны иметь схожие вероят- ности встречаемости в контексте. Пусть для слов автомобиль, автомобиля, вертолет, вертолетом, синий, синего, желтый, желтым в корпусе наблюдались биграммы синий автомобиль, синего авто- мобиля, желтый вертолет, желтым вертолетом. Тогда можно выполнить поэтапную свертку по каноническим формам (автомобиль, вертолет) и (синий, желтый), по- этапную свертку по грамматическим классам ед., м.род., им. падеж, ед., м.род., род. падеж, ед., м.род., тв. падеж. На базе знаний о том, что эти существительные и прилага- тельные ведут себя похожим образом, т.е. имеют одинако- вые множества грамматических классов, можно построить предположение о вероятности появления их в формах, не наблюдавшихся в корпусе. Учитывая, что в украинском языке наблюдается омонимия, обозначим: 1( )kL w – совокупность последова- тельностей канонических форм для последовательности слов 1 kw . 1( )kG w – совокупность последовательностей грамматических классов для последовательности слов 1 kw . Обозначим 1( )kEl w – совокупность последовательно- стей слов, которые после приведения к каноническим формам имеют одинаковую запись, совокупность 1 k i iw , таких, что 11 ( ) ( ),k i i kL w L w i  . Тогда оценка частоты 1 kw определяется так: 1 1 1 1( ( )) ( ( )) ( ( )) ( ) k F k k k F G G El w C L w C G w C w G    . (1) Для обеспечения достоверности объединенной модели выдвигается предположение: необходимо, чтобы сумма частот канонических форм и сумма частот грамматических классов после перераспределения оставалась неизменной: 1 1 1 1 ( ( )) ( ( ))m V kk m G C w G C w    & 1 1 1 1 ( ( )) ( ( ))m V kk m L C w L C w    , (2) где |V| – размер словаря, а соответствующие частоты 1( )kC w могут быть нулевыми, если для них не существу- ет 1 kw в корпусе, на котором строится модель. Если (2) выполняется, то это позволит существенно оптимизиро- вать вычисления (1). Возвращаясь к ранее приведенному примеру: данная модель позволяет по формуле (1) оценить вероятности для биграмм синим автомобилем и желтого вертолета. Подбор параметров, а именно множества граммати- ческих классов и множества канонических форм, был проведен во время численного эксперимента. Метод сглаживания Для сглаживания и заполнения пропусков использу- ются различные методы [2], в данной статье рассматри- ваются сглаживания с возвращением Витте–Белла, по- скольку оно простое и одновременно включает в себя все необходимые параметры: 1 1 1 11 1 1 2 ( ) , ( ) 0, ( ) ( ) иначе, i n i i i i n i ni i i n i w w i i n d w C w p w w p w w                   (3) где 1( )i i nd w   – соответственно сглаженное значение 1( )i i nC w   , 1 1...i n iw w    – соответствующий коэффициент, оп- ределяющий вероятностную массу, перераспределен- ную для построения вероятностей на n-граммах модели низшего порядка:   1 1 1 1 1 1 2 : ( ) 0 ( ) i n i i n i i i i n w w w w i i i n w C w p w w                    , (4)   1 1 1 1 : ( ) 0 1 ( ) i n i i i i n i w w i n w C w d w             . (5) Для метода Виттена–Белла параметр d оценивается так: 1 1 1 1 1 ( ) ( ) ( ) ( ) i i i n i n i i i n i n C w d w w WB i C w T w            , (6) где 1( )i i nT w   – количество типов n-грамм, предшествую- щих слову wi. При этом, по умолчанию, n-граммы высокого поряд- ка с частотой единица удаляются из модели. Поскольку после применения формулы (1) n-граммы получат не частоты, а псевдочастоты, то сглаживание по формуле Виттена–Белла удобно, поскольку не требует регулировать, от какого значения псевдочастоты необхо- димо отчислять допустимые элементы в 1( )i i nT w   . Метод Катца с возвращением не подходит в качестве дополнительного метода сглаживания, поскольку опира- ется на эвристику Гуда–Тьюринга [1], которая не имеет понятного способа интерпретации, если вместо частот в нее подставить псевдочастоты. В зависимости от качества модели, определяемой раз- мером энтропии, для данной задачи целесообразно исполь- зовать модифицированный метод Кнесера–Нея [1], однако потребуется дополнительное обучение для определения диапазонов, которые в случае использования псевдочастот заменят фиксированные уровни отбора. Численные эксперименты Эксперименты проведены на n-граммах размерности ≤ 3, собранных из стенограмм Верховной Рады Украи- ны. Сформирован корпус объемом 112,5 Мб. Для этого соответствующие стенограммы были собраны с сайта http://rada.gov.ua/meeting/stenogr. На корпусе был выделен словарь системы из 10 тыс. словоформ, все остальные слова заменены на стоп-слово «#». Словарь пропущен через систему морфолексичес- кого анализа, сформированы словари канонических форм и словари грамматических классов. При этом множество грамматических классов однозначно определяет словарь канонических форм. Определенные ограничения были применены ко всем словарям: как служебные части речи, так и существитель- ные родительного падежа не получают грамматические формы. Таким образом, словари канонических форм со- держат, кроме собственно форм, еще и дополнительные УСиМ, 2014, № 2 31 слова, выделенные как отдельные условные канонические формы, которые на самом деле есть лишь словоформами. По аналогии с условными грамматическими классами. Отметим, что словарная система, использованная при анализе, не полная и не описывает все возможные грамма- тические признаки по украинской грамматике, а лишь их часть. Поэтому во избежание потерь информации в ряде случаев разделение не выполнялось. Первая пара словарей определяется следующими па- раметрами: словарь канонических форм объемом 7012 единиц и словарь грамматических классов объемом 5409 единиц. Для глаголов не выполняется разделение на ка- нонические формы и грамматические классы. Это свя- зано с предположением, что переходные и непереходные глаголы требуют управления в разных падежах. Пере- ходные глаголы обозначают действие, направленное (пе- реходящее) на определенный предмет, названный суще- ствительным или местоимением в винительном падеже без предлога: выполнить (что?) упражнение; встретить (кого?) друзей; прочитать (что?) книгу. Если сказуемое в предложении употребляется с отрицательной частицей не, существительное ставится не в винительном, а в ро- дительном падеже. Непереходные глаголы обозначают действие или состояние, которые на другой предмет не переходят и не требуют винительного падежа без пред- лога от существительного или местоимения. Вторая пара словарей определяется следующими пара- метрами: словарь канонических форм объемом 6044 еди- ницы и словарь грамматических классов объемом 3770 единиц. В этих словарях для всех форм глаголов, кроме инфинитива, выполнялось разделение на канонические формы и грамматические классы. Большой размер второй пары частичных словарей (более 50 процентов для словаря канонических форм и более 35 процентов для словаря грамматических клас- сов) объясняется тем, что, помимо значительной доли инфинитивов, в словарь системы входит большое коли- чество слов с малым набором словоформ, существенно меньший, чем возможен полный набор. Также использовался базовый словарь системы, чтобы узнать, улучшает или ухудшает метод работу системы. Множество n-грамм было профильтровано от триграмм частоты один, но после построения таблиц 1( )i i nT w   . Во всех экспериментах для построения модели исполь- зовано 75 процентов от корпуса, для вычисления энтропии и перплексии использованы остальные 25 процентов. Эксперимент 1. Проверяется предположение, описан- ное формулой (2) для всех n-грамм моделей, для всех спо- собов сглаживания как с фильтрацией, так и без нее. В ка- честве меры близости выбрано произведение косинус угла между соответствующими векторами частот канонических форм и грамматических классов. Вычисления показали, что формула (2) не выполняется даже без фильтрации. Было принято решение провести еще ряд эксперимен- тов, чтобы проверить, ухудшают ли результат нарушения условия (2), и если да, то насколько. При вычислении псевдочастот для заданной системы грамматических клас- сов необходимо каждый раз строить триграммы на слово- формах, а затем из них строить биграммы и униграммы, иначе формула (3) не будет вычисляться корректно. Эксперимент 2. Сравниваются результаты обычной схемы Виттена–Белла. На основе полученных комплектов словарей по формуле (1) вычисляются соответствующие триграммы, а биграммы и униграммы вычисляются на основе триграмм. Т а б л и ц а 1. Эксперимент 2 Условия Энтропия Перплексия Базовый словарь(фильтрация) 7,623 197,129 Набор 1 7,598 193,742 Набор 2 7,674 204,222 Формула (1) дает незначительное улучшение в сравне- нии с базовой моделью в том виде, в каком она описана ранее. Эксперимент 3. Вводится дополнительное условие фильтрации. При исчислении формулы (1) игнорируется триграмма из грамматических классов, если их частота равна единице. Аналогично предыдущему случаю, на основе полученных комплектов словарей по формуле (1) вычисляются соответствующие триграммы, а биграммы и униграммы исчисляются на основе триграмм. Т а б л и ц а 2. Эксперимент 3 Условия Энтропия Перплексия Базовый словарь (фильтрация) 7,623 197,129 Набор 1 7,554 187,923 Набор 2 7,511 182,404 Как видно из результатов эксперимента, кроме явно- го улучшения в сравнении с базовым значением изме- нилось ранжирование между первым и вторым комплек- том словарей. Это связано с существенно иным значени- ем 1( )i i nT w   из формулы (6). Действительно, при указанной фильтрации количество ожидаемых типов триграмм уменьшается за счет наименее правдоподобных. Учитывая результаты первого и второго эксперимен- тов, можно утверждать, что, если формула (1) нарушает распределение канонических форм и грамматических классов, то, выбрав такую систему грамматических клас- сов, чтобы формула (2) выполнялось, можно будет улуч- шить оценку модели, а значит, и качество распознавания. Заключение. Проанализирована возможность приме- нения информации о морфолексических и грамматических характеристиках слов для оптимизации моделей языка с целью улучшения распознавания. Численные эксперимен- ты показали, что перераспределение по предложенной фор- муле (1) улучшает оценку энтропии, и, следовательно, по- тенциально улучшает распознавание. Показано, что наблюдаемое нарушение требования (2) не приводит к ухудшению оценки модели, так что можно утверждать, что корректно подобранная система грамматических классов, позволит улучшить качество мо- дели, а значит, и качество распознавания.  << /ASCII85EncodePages false /AllowTransparency false /AutoPositionEPSFiles true /AutoRotatePages /None /Binding /Left /CalGrayProfile (Dot Gain 20%) /CalRGBProfile (sRGB IEC61966-2.1) /CalCMYKProfile (U.S. Web Coated \050SWOP\051 v2) /sRGBProfile (sRGB IEC61966-2.1) /CannotEmbedFontPolicy /Error /CompatibilityLevel 1.4 /CompressObjects /Tags /CompressPages true /ConvertImagesToIndexed true /PassThroughJPEGImages true /CreateJobTicket false /DefaultRenderingIntent /Default /DetectBlends true /DetectCurves 0.0000 /ColorConversionStrategy /CMYK /DoThumbnails false /EmbedAllFonts true /EmbedOpenType false /ParseICCProfilesInComments true /EmbedJobOptions true /DSCReportingLevel 0 /EmitDSCWarnings false /EndPage -1 /ImageMemory 1048576 /LockDistillerParams false /MaxSubsetPct 100 /Optimize true /OPM 1 /ParseDSCComments true /ParseDSCCommentsForDocInfo true /PreserveCopyPage true /PreserveDICMYKValues true /PreserveEPSInfo true /PreserveFlatness true /PreserveHalftoneInfo false /PreserveOPIComments true /PreserveOverprintSettings true /StartPage 1 /SubsetFonts true /TransferFunctionInfo /Apply /UCRandBGInfo /Preserve /UsePrologue false /ColorSettingsFile () /AlwaysEmbed [ true ] /NeverEmbed [ true ] /AntiAliasColorImages false /CropColorImages true /ColorImageMinResolution 300 /ColorImageMinResolutionPolicy /OK /DownsampleColorImages true /ColorImageDownsampleType /Bicubic /ColorImageResolution 300 /ColorImageDepth -1 /ColorImageMinDownsampleDepth 1 /ColorImageDownsampleThreshold 1.50000 /EncodeColorImages true /ColorImageFilter /DCTEncode /AutoFilterColorImages true /ColorImageAutoFilterStrategy /JPEG /ColorACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /ColorImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000ColorACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000ColorImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth -1 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /DCTEncode /AutoFilterGrayImages true /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /GrayImageDict << /QFactor 0.15 /HSamples [1 1 1 1] /VSamples [1 1 1 1] >> /JPEG2000GrayACSImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /JPEG2000GrayImageDict << /TileWidth 256 /TileHeight 256 /Quality 30 >> /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 1200 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /CCITTFaxEncode /MonoImageDict << /K -1 >> /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile () /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False /CreateJDFFile false /Description << /ARA <FEFF06270633062A062E062F0645002006470630064700200627064406250639062F0627062F0627062A002006440625064606340627062100200648062B062706260642002000410064006F00620065002000500044004600200645062A064806270641064206290020064406440637062806270639062900200641064A00200627064406450637062706280639002006300627062A0020062F0631062C0627062A002006270644062C0648062F0629002006270644063906270644064A0629061B0020064A06450643064600200641062A062D00200648062B0627062606420020005000440046002006270644064506460634062306290020062806270633062A062E062F062706450020004100630072006F0062006100740020064800410064006F006200650020005200650061006400650072002006250635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E0635062F0627063100200035002E0030002006480627064406250635062F062706310627062A0020062706440623062D062F062B002E> /BGR <FEFF04180437043f043e043b043704320430043904420435002004420435043704380020043d0430044104420440043e0439043a0438002c00200437043000200434043000200441044a0437043404300432043004420435002000410064006f00620065002000500044004600200434043e043a0443043c0435043d04420438002c0020043c0430043a04410438043c0430043b043d043e0020043f044004380433043e04340435043d04380020043704300020043204380441043e043a043e043a0430044704350441044204320435043d0020043f04350447043004420020043704300020043f044004350434043f0435044704300442043d04300020043f043e04340433043e0442043e0432043a0430002e002000200421044a04370434043004340435043d043804420435002000500044004600200434043e043a0443043c0435043d044204380020043c043e0433043004420020043404300020044104350020043e0442043204300440044f0442002004410020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200441043b0435043404320430044904380020043204350440044104380438002e> /CHS <FEFF4f7f75288fd94e9b8bbe5b9a521b5efa7684002000410064006f006200650020005000440046002065876863900275284e8e9ad88d2891cf76845370524d53705237300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c676562535f00521b5efa768400200050004400460020658768633002> /CHT <FEFF4f7f752890194e9b8a2d7f6e5efa7acb7684002000410064006f006200650020005000440046002065874ef69069752865bc9ad854c18cea76845370524d5370523786557406300260a853ef4ee54f7f75280020004100630072006f0062006100740020548c002000410064006f00620065002000520065006100640065007200200035002e003000204ee553ca66f49ad87248672c4f86958b555f5df25efa7acb76840020005000440046002065874ef63002> /CZE <FEFF005400610074006f0020006e006100730074006100760065006e00ed00200070006f0075017e0069006a007400650020006b0020007600790074007600e101590065006e00ed00200064006f006b0075006d0065006e0074016f002000410064006f006200650020005000440046002c0020006b00740065007200e90020007300650020006e0065006a006c00e90070006500200068006f006400ed002000700072006f0020006b00760061006c00690074006e00ed0020007400690073006b00200061002000700072006500700072006500730073002e002000200056007900740076006f01590065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f007400650076015900ed007400200076002000700072006f006700720061006d0065006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076011b006a016100ed00630068002e> /DAN <FEFF004200720075006700200069006e0064007300740069006c006c0069006e006700650072006e0065002000740069006c0020006100740020006f007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400650072002c0020006400650072002000620065006400730074002000650067006e006500720020007300690067002000740069006c002000700072006500700072006500730073002d007500640073006b007200690076006e0069006e00670020006100660020006800f8006a0020006b00760061006c0069007400650074002e0020004400650020006f007000720065007400740065006400650020005000440046002d0064006f006b0075006d0065006e0074006500720020006b0061006e002000e50062006e00650073002000690020004100630072006f00620061007400200065006c006c006500720020004100630072006f006200610074002000520065006100640065007200200035002e00300020006f00670020006e0079006500720065002e> /DEU <FEFF00560065007200770065006e00640065006e0020005300690065002000640069006500730065002000450069006e007300740065006c006c0075006e00670065006e0020007a0075006d002000450072007300740065006c006c0065006e00200076006f006e002000410064006f006200650020005000440046002d0044006f006b0075006d0065006e00740065006e002c00200076006f006e002000640065006e0065006e002000530069006500200068006f006300680077006500720074006900670065002000500072006500700072006500730073002d0044007200750063006b0065002000650072007a0065007500670065006e0020006d00f60063006800740065006e002e002000450072007300740065006c006c007400650020005000440046002d0044006f006b0075006d0065006e007400650020006b00f6006e006e0065006e0020006d006900740020004100630072006f00620061007400200075006e0064002000410064006f00620065002000520065006100640065007200200035002e00300020006f0064006500720020006800f600680065007200200067006500f600660066006e00650074002000770065007200640065006e002e> /ESP <FEFF005500740069006c0069006300650020006500730074006100200063006f006e0066006900670075007200610063006900f3006e0020007000610072006100200063007200650061007200200064006f00630075006d0065006e0074006f00730020005000440046002000640065002000410064006f0062006500200061006400650063007500610064006f00730020007000610072006100200069006d0070007200650073006900f3006e0020007000720065002d0065006400690074006f007200690061006c00200064006500200061006c00740061002000630061006c0069006400610064002e002000530065002000700075006500640065006e00200061006200720069007200200064006f00630075006d0065006e0074006f00730020005000440046002000630072006500610064006f007300200063006f006e0020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e003000200079002000760065007200730069006f006e0065007300200070006f00730074006500720069006f007200650073002e> /ETI <FEFF004b00610073007500740061006700650020006e0065006900640020007300e4007400740065006900640020006b00760061006c006900740065006500740073006500200074007200fc006b006900650065006c007300650020007000720069006e00740069006d0069007300650020006a0061006f006b007300200073006f00620069006c0069006b0065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740069006400650020006c006f006f006d006900730065006b0073002e00200020004c006f006f0064007500640020005000440046002d0064006f006b0075006d0065006e00740065002000730061006100740065002000610076006100640061002000700072006f006700720061006d006d006900640065006700610020004100630072006f0062006100740020006e0069006e0067002000410064006f00620065002000520065006100640065007200200035002e00300020006a00610020007500750065006d006100740065002000760065007200730069006f006f006e00690064006500670061002e000d000a> /FRA <FEFF005500740069006c006900730065007a00200063006500730020006f007000740069006f006e00730020006100660069006e00200064006500200063007200e900650072002000640065007300200064006f00630075006d0065006e00740073002000410064006f00620065002000500044004600200070006f0075007200200075006e00650020007100750061006c0069007400e90020006400270069006d007000720065007300730069006f006e00200070007200e9007000720065007300730065002e0020004c0065007300200064006f00630075006d0065006e00740073002000500044004600200063007200e900e90073002000700065007500760065006e0074002000ea0074007200650020006f007500760065007200740073002000640061006e00730020004100630072006f006200610074002c002000610069006e00730069002000710075002700410064006f00620065002000520065006100640065007200200035002e0030002000650074002000760065007200730069006f006e007300200075006c007400e90072006900650075007200650073002e> /GRE <FEFF03a703c103b703c303b903bc03bf03c003bf03b903ae03c303c403b5002003b103c503c403ad03c2002003c403b903c2002003c103c503b803bc03af03c303b503b903c2002003b303b903b1002003bd03b1002003b403b703bc03b903bf03c503c103b303ae03c303b503c403b5002003ad03b303b303c103b103c603b1002000410064006f006200650020005000440046002003c003bf03c5002003b503af03bd03b103b9002003ba03b103c42019002003b503be03bf03c703ae03bd002003ba03b103c403ac03bb03bb03b703bb03b1002003b303b903b1002003c003c103bf002d03b503ba03c403c503c003c903c403b903ba03ad03c2002003b503c103b303b103c303af03b503c2002003c503c803b703bb03ae03c2002003c003bf03b903cc03c403b703c403b103c2002e0020002003a403b10020005000440046002003ad03b303b303c103b103c603b1002003c003bf03c5002003ad03c703b503c403b5002003b403b703bc03b903bf03c503c103b303ae03c303b503b9002003bc03c003bf03c103bf03cd03bd002003bd03b1002003b103bd03bf03b903c703c403bf03cd03bd002003bc03b5002003c403bf0020004100630072006f006200610074002c002003c403bf002000410064006f00620065002000520065006100640065007200200035002e0030002003ba03b103b9002003bc03b503c403b103b303b503bd03ad03c303c403b503c103b503c2002003b503ba03b403cc03c303b503b903c2002e> /HEB <FEFF05D405E905EA05DE05E905D5002005D105D405D205D305E805D505EA002005D005DC05D4002005DB05D305D9002005DC05D905E605D505E8002005DE05E105DE05DB05D9002000410064006F006200650020005000440046002005D405DE05D505EA05D005DE05D905DD002005DC05D405D305E405E105EA002005E705D305DD002D05D305E405D505E1002005D005D905DB05D505EA05D905EA002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E05D005DE05D905DD002005DC002D005000440046002F0058002D0033002C002005E205D905D905E005D5002005D105DE05D305E805D905DA002005DC05DE05E905EA05DE05E9002005E905DC0020004100630072006F006200610074002E002005DE05E105DE05DB05D90020005000440046002005E905E005D505E605E805D5002005E005D905EA05E005D905DD002005DC05E405EA05D905D705D4002005D105D005DE05E605E205D505EA0020004100630072006F006200610074002005D5002D00410064006F00620065002000520065006100640065007200200035002E0030002005D505D205E805E105D005D505EA002005DE05EA05E705D305DE05D505EA002005D905D505EA05E8002E> /HRV (Za stvaranje Adobe PDF dokumenata najpogodnijih za visokokvalitetni ispis prije tiskanja koristite ove postavke. Stvoreni PDF dokumenti mogu se otvoriti Acrobat i Adobe Reader 5.0 i kasnijim verzijama.) /HUN <FEFF004b0069007600e1006c00f30020006d0069006e0151007300e9006701710020006e0079006f006d00640061006900200065006c0151006b00e90073007a00ed007401510020006e0079006f006d00740061007400e100730068006f007a0020006c006500670069006e006b00e1006200620020006d0065006700660065006c0065006c0151002000410064006f00620065002000500044004600200064006f006b0075006d0065006e00740075006d006f006b0061007400200065007a0065006b006b0065006c0020006100200062006500e1006c006c00ed007400e10073006f006b006b0061006c0020006b00e90073007a00ed0074006800650074002e0020002000410020006c00e90074007200650068006f007a006f00740074002000500044004600200064006f006b0075006d0065006e00740075006d006f006b00200061007a0020004100630072006f006200610074002000e9007300200061007a002000410064006f00620065002000520065006100640065007200200035002e0030002c0020007600610067007900200061007a002000610074007400f3006c0020006b00e9007301510062006200690020007600650072007a006900f3006b006b0061006c0020006e00790069007400680061007400f3006b0020006d00650067002e> /ITA <FEFF005500740069006c0069007a007a006100720065002000710075006500730074006500200069006d0070006f007300740061007a0069006f006e00690020007000650072002000630072006500610072006500200064006f00630075006d0065006e00740069002000410064006f00620065002000500044004600200070006900f900200061006400610074007400690020006100200075006e00610020007000720065007300740061006d0070006100200064006900200061006c007400610020007100750061006c0069007400e0002e0020004900200064006f00630075006d0065006e007400690020005000440046002000630072006500610074006900200070006f00730073006f006e006f0020006500730073006500720065002000610070006500720074006900200063006f006e0020004100630072006f00620061007400200065002000410064006f00620065002000520065006100640065007200200035002e003000200065002000760065007200730069006f006e006900200073007500630063006500730073006900760065002e> /JPN <FEFF9ad854c18cea306a30d730ea30d730ec30b951fa529b7528002000410064006f0062006500200050004400460020658766f8306e4f5c6210306b4f7f75283057307e305930023053306e8a2d5b9a30674f5c62103055308c305f0020005000440046002030d530a130a430eb306f3001004100630072006f0062006100740020304a30883073002000410064006f00620065002000520065006100640065007200200035002e003000204ee5964d3067958b304f30533068304c3067304d307e305930023053306e8a2d5b9a306b306f30d530a930f330c8306e57cb30818fbc307f304c5fc59808306730593002> /KOR <FEFFc7740020c124c815c7440020c0acc6a9d558c5ec0020ace0d488c9c80020c2dcd5d80020c778c1c4c5d00020ac00c7a50020c801d569d55c002000410064006f0062006500200050004400460020bb38c11cb97c0020c791c131d569b2c8b2e4002e0020c774b807ac8c0020c791c131b41c00200050004400460020bb38c11cb2940020004100630072006f0062006100740020bc0f002000410064006f00620065002000520065006100640065007200200035002e00300020c774c0c1c5d0c11c0020c5f40020c2180020c788c2b5b2c8b2e4002e> /LTH <FEFF004e006100750064006f006b0069007400650020016100690075006f007300200070006100720061006d006500740072007500730020006e006f0072011700640061006d00690020006b0075007200740069002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b00750072006900650020006c0061006200690061007500730069006100690020007000720069007400610069006b007900740069002000610075006b01610074006f00730020006b006f006b007900620117007300200070006100720065006e006700740069006e00690061006d00200073007000610075007300640069006e0069006d00750069002e0020002000530075006b0075007200740069002000500044004600200064006f006b0075006d0065006e007400610069002000670061006c006900200062016b007400690020006100740069006400610072006f006d00690020004100630072006f006200610074002000690072002000410064006f00620065002000520065006100640065007200200035002e0030002000610072002000760117006c00650073006e0117006d00690073002000760065007200730069006a006f006d00690073002e> /LVI <FEFF0049007a006d0061006e0074006f006a00690065007400200161006f00730020006900650073007400610074012b006a0075006d00750073002c0020006c0061006900200076006500690064006f00740075002000410064006f00620065002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006100730020006900720020012b00700061016100690020007000690065006d01130072006f00740069002000610075006700730074006100730020006b00760061006c0069007401010074006500730020007000690072006d007300690065007300700069006501610061006e006100730020006400720075006b00610069002e00200049007a0076006500690064006f006a006900650074002000500044004600200064006f006b0075006d0065006e007400750073002c0020006b006f002000760061007200200061007400760113007200740020006100720020004100630072006f00620061007400200075006e002000410064006f00620065002000520065006100640065007200200035002e0030002c0020006b0101002000610072012b00200074006f0020006a00610075006e0101006b0101006d002000760065007200730069006a0101006d002e> /NLD (Gebruik deze instellingen om Adobe PDF-documenten te maken die zijn geoptimaliseerd voor prepress-afdrukken van hoge kwaliteit. De gemaakte PDF-documenten kunnen worden geopend met Acrobat en Adobe Reader 5.0 en hoger.) /NOR <FEFF004200720075006b00200064006900730073006500200069006e006e007300740069006c006c0069006e00670065006e0065002000740069006c002000e50020006f0070007000720065007400740065002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e00740065007200200073006f006d00200065007200200062006500730074002000650067006e0065007400200066006f00720020006600f80072007400720079006b006b0073007500740073006b00720069006600740020006100760020006800f800790020006b00760061006c0069007400650074002e0020005000440046002d0064006f006b0075006d0065006e00740065006e00650020006b0061006e002000e50070006e00650073002000690020004100630072006f00620061007400200065006c006c00650072002000410064006f00620065002000520065006100640065007200200035002e003000200065006c006c00650072002000730065006e006500720065002e> /POL <FEFF0055007300740061007700690065006e0069006100200064006f002000740077006f0072007a0065006e0069006100200064006f006b0075006d0065006e007400f300770020005000440046002000700072007a0065007a006e00610063007a006f006e00790063006800200064006f002000770079006400720075006b00f30077002000770020007700790073006f006b00690065006a0020006a0061006b006f015b00630069002e002000200044006f006b0075006d0065006e0074007900200050004400460020006d006f017c006e00610020006f007400770069006500720061010700200077002000700072006f006700720061006d006900650020004100630072006f00620061007400200069002000410064006f00620065002000520065006100640065007200200035002e0030002000690020006e006f00770073007a0079006d002e> /PTB <FEFF005500740069006c0069007a006500200065007300730061007300200063006f006e00660069006700750072006100e700f50065007300200064006500200066006f0072006d00610020006100200063007200690061007200200064006f00630075006d0065006e0074006f0073002000410064006f0062006500200050004400460020006d00610069007300200061006400650071007500610064006f00730020007000610072006100200070007200e9002d0069006d0070007200650073007300f50065007300200064006500200061006c007400610020007100750061006c00690064006100640065002e0020004f007300200064006f00630075006d0065006e0074006f00730020005000440046002000630072006900610064006f007300200070006f00640065006d0020007300650072002000610062006500720074006f007300200063006f006d0020006f0020004100630072006f006200610074002000650020006f002000410064006f00620065002000520065006100640065007200200035002e0030002000650020007600650072007300f50065007300200070006f00730074006500720069006f007200650073002e> /RUM <FEFF005500740069006c0069007a00610163006900200061006300650073007400650020007300650074010300720069002000700065006e007400720075002000610020006300720065006100200064006f00630075006d0065006e00740065002000410064006f006200650020005000440046002000610064006500630076006100740065002000700065006e0074007200750020007400690070010300720069007200650061002000700072006500700072006500730073002000640065002000630061006c006900740061007400650020007300750070006500720069006f006100720103002e002000200044006f00630075006d0065006e00740065006c00650020005000440046002000630072006500610074006500200070006f00740020006600690020006400650073006300680069007300650020006300750020004100630072006f006200610074002c002000410064006f00620065002000520065006100640065007200200035002e00300020015f00690020007600650072007300690075006e0069006c006500200075006c0074006500720069006f006100720065002e> /RUS <FEFF04180441043f043e043b044c04370443043904420435002004340430043d043d044b04350020043d0430044104420440043e0439043a043800200434043b044f00200441043e043704340430043d0438044f00200434043e043a0443043c0435043d0442043e0432002000410064006f006200650020005000440046002c0020043c0430043a04410438043c0430043b044c043d043e0020043f043e04340445043e0434044f04490438044500200434043b044f00200432044b0441043e043a043e043a0430044704350441044204320435043d043d043e0433043e00200434043e043f0435044704300442043d043e0433043e00200432044b0432043e04340430002e002000200421043e043704340430043d043d044b04350020005000440046002d0434043e043a0443043c0435043d0442044b0020043c043e0436043d043e0020043e0442043a0440044b043204300442044c002004410020043f043e043c043e0449044c044e0020004100630072006f00620061007400200438002000410064006f00620065002000520065006100640065007200200035002e00300020043800200431043e043b043504350020043f043e04370434043d043804450020043204350440044104380439002e> /SKY <FEFF0054006900650074006f0020006e006100730074006100760065006e0069006100200070006f0075017e0069007400650020006e00610020007600790074007600e100720061006e0069006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b0074006f007200e90020007300610020006e0061006a006c0065007001610069006500200068006f0064006900610020006e00610020006b00760061006c00690074006e00fa00200074006c0061010d00200061002000700072006500700072006500730073002e00200056007900740076006f00720065006e00e900200064006f006b0075006d0065006e007400790020005000440046002000620075006400650020006d006f017e006e00e90020006f00740076006f00720069016500200076002000700072006f006700720061006d006f006300680020004100630072006f00620061007400200061002000410064006f00620065002000520065006100640065007200200035002e0030002000610020006e006f0076016100ed00630068002e> /SLV <FEFF005400650020006e006100730074006100760069007400760065002000750070006f0072006100620069007400650020007a00610020007500730074007600610072006a0061006e006a006500200064006f006b0075006d0065006e0074006f0076002000410064006f006200650020005000440046002c0020006b006900200073006f0020006e0061006a007000720069006d00650072006e0065006a016100690020007a00610020006b0061006b006f0076006f00730074006e006f0020007400690073006b0061006e006a00650020007300200070007200690070007200610076006f0020006e00610020007400690073006b002e00200020005500730074007600610072006a0065006e006500200064006f006b0075006d0065006e0074006500200050004400460020006a00650020006d006f0067006f010d00650020006f0064007000720065007400690020007a0020004100630072006f00620061007400200069006e002000410064006f00620065002000520065006100640065007200200035002e003000200069006e0020006e006f00760065006a01610069006d002e> /SUO <FEFF004b00e40079007400e40020006e00e40069007400e4002000610073006500740075006b007300690061002c0020006b0075006e0020006c0075006f00740020006c00e400680069006e006e00e4002000760061006100740069007600610061006e0020007000610069006e006100740075006b00730065006e002000760061006c006d0069007300740065006c00750074007900f6006800f6006e00200073006f00700069007600690061002000410064006f0062006500200050004400460020002d0064006f006b0075006d0065006e007400740065006a0061002e0020004c0075006f0064007500740020005000440046002d0064006f006b0075006d0065006e00740069007400200076006f0069006400610061006e0020006100760061007400610020004100630072006f0062006100740069006c006c00610020006a0061002000410064006f00620065002000520065006100640065007200200035002e0030003a006c006c00610020006a006100200075007500640065006d006d0069006c006c0061002e> /SVE <FEFF0041006e007600e4006e00640020006400650020006800e4007200200069006e0073007400e4006c006c006e0069006e006700610072006e00610020006f006d002000640075002000760069006c006c00200073006b006100700061002000410064006f006200650020005000440046002d0064006f006b0075006d0065006e007400200073006f006d002000e400720020006c00e4006d0070006c0069006700610020006600f60072002000700072006500700072006500730073002d007500740073006b00720069006600740020006d006500640020006800f600670020006b00760061006c0069007400650074002e002000200053006b006100700061006400650020005000440046002d0064006f006b0075006d0065006e00740020006b0061006e002000f600700070006e00610073002000690020004100630072006f0062006100740020006f00630068002000410064006f00620065002000520065006100640065007200200035002e00300020006f00630068002000730065006e006100720065002e> /TUR <FEFF005900fc006b00730065006b0020006b0061006c006900740065006c0069002000f6006e002000790061007a006401310072006d00610020006200610073006b013100730131006e006100200065006e0020006900790069002000750079006100620069006c006500630065006b002000410064006f006200650020005000440046002000620065006c00670065006c0065007200690020006f006c0075015f007400750072006d0061006b0020006900e70069006e00200062007500200061007900610072006c0061007201310020006b0075006c006c0061006e0131006e002e00200020004f006c0075015f0074007500720075006c0061006e0020005000440046002000620065006c00670065006c0065007200690020004100630072006f006200610074002000760065002000410064006f00620065002000520065006100640065007200200035002e003000200076006500200073006f006e0072006100730131006e00640061006b00690020007300fc007200fc006d006c00650072006c00650020006100e70131006c006100620069006c00690072002e> /UKR <FEFF04120438043a043e0440043804410442043e043204430439044204350020044604560020043f043004400430043c043504420440043800200434043b044f0020044104420432043e04400435043d043d044f00200434043e043a0443043c0435043d044204560432002000410064006f006200650020005000440046002c0020044f043a04560020043d04300439043a04400430044904350020043f045604340445043e0434044f0442044c00200434043b044f0020043204380441043e043a043e044f043a04560441043d043e0433043e0020043f0435044004350434043404400443043a043e0432043e0433043e0020043404400443043a0443002e00200020042104420432043e04400435043d045600200434043e043a0443043c0435043d0442043800200050004400460020043c043e0436043d04300020043204560434043a0440043804420438002004430020004100630072006f006200610074002004420430002000410064006f00620065002000520065006100640065007200200035002e0030002004300431043e0020043f04560437043d04560448043e04570020043204350440044104560457002e> /ENU (Use these settings to create Adobe PDF documents best suited for high-quality prepress printing. Created PDF documents can be opened with Acrobat and Adobe Reader 5.0 and later.) >> /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ << /AsReaderSpreads false /CropImagesToFrames true /ErrorControl /WarnAndContinue /FlattenerIgnoreSpreadOverrides false /IncludeGuidesGrids false /IncludeNonPrinting false /IncludeSlug false /Namespace [ (Adobe) (InDesign) (4.0) ] /OmitPlacedBitmaps false /OmitPlacedEPS false /OmitPlacedPDF false /SimulateOverprint /Legacy >> << /AddBleedMarks false /AddColorBars false /AddCropMarks false /AddPageInfo false /AddRegMarks false /ConvertColors /ConvertToCMYK /DestinationProfileName () /DestinationProfileSelector /DocumentCMYK /Downsample16BitImages true /FlattenerPreset << /PresetSelector /MediumResolution >> /FormElements false /GenerateStructure false /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles false /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /DocumentCMYK /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /UseDocumentProfile /UseDocumentBleed false >> ] >> setdistillerparams << /HWResolution [2400 2400] /PageSize [612.000 792.000] >> setpagedevice