Machine-learning methods for text named entity recognition

The article describes machine learning methods for the named entity recognition. To build named entity classifiers two basic models of machine learning, The Naїve Bayes and Conditional Random Fields, were used. A model for multi-classification of named entities using Error Correcting Output Codes wa...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2018
Автор:	Marchenko, O.O.
Формат:	Стаття
Мова:	Ukrainian
Опубліковано:	Інститут програмних систем НАН України 2018
Теми:	machine learning natural language processing named entity recognition UDC 004.85
Онлайн доступ:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/190
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems in programming
Завантажити файл:

Репозитарії

Problems in programming

id	pp_isofts_kiev_ua-article-190
record_format	ojs
resource_txt_mv	ppisoftskievua/0f/47e1a04415e43984685bf4392a93df0f.pdf
spelling	pp_isofts_kiev_ua-article-1902024-04-28T13:09:57Z Machine-learning methods for text named entity recognition Машинно-учебные методы распознавания именуемых сущностей текста Машинно-навчальні методи розпізнавання іменованих сутностей тексту Marchenko, O.O. machine learning; natural language processing; named entity recognition UDC 004.85 машинное обучение; обработка естественного языка; распознавание именованных сущностей текста УДК 004.85 машинне навчання; обробка природної мови; розпізнання іменованих сутностей тексту УДК 004.85 The article describes machine learning methods for the named entity recognition. To build named entity classifiers two basic models of machine learning, The Naїve Bayes and Conditional Random Fields, were used. A model for multi-classification of named entities using Error Correcting Output Codes was also researched. The paper describes a method for classifiers' training and the results of test experiments. Conditional Random Fields overcome other models in precision and recall evaluations.Problems in programming 2016; 2-3: 150-157 В статье исследуются машинно-обучаемые методы распознавания именованных сущностей текста. Рассмотрены две базовые модели машинного обучения – наивная модель Байеса и модель условных случайных полей, которые были использованы для решения задачи идентификации и анализа именованных сущностей. Также исследована модель, в которой для мульти-классификации именованных сущностей текстов используются корректирующие выходные коды. В работе описаны процесс обучения и результаты экспериментов по тестированию построенных классификаторов. Условные случайные поля превзошли другие модели по оценкам точности и надежности работы метода.Problems in programming 2016; 2-3: 150-157 У статті розглянуто машинно-навчальні методи розпізнавання іменованих сутностей тексту. Розглянуто дві базові моделі ма-шинного навчання – наївна модель Байєса та модель умовних випадкових полів, застосовані для вирішення задачі ідентифікації та аналізу іменованих сутностей. Також досліджено модель, в якій для мультикласифікації іменованих сутностей текстів вико-ристовуються корегуючі вихідні коди. В роботі описано процес навчання та результати експериментів з тестування побудова-них класифікаторів. Умовні випадкові поля перевершили інші моделі за оцінками точності та надійності роботи методу.Problems in programming 2016; 2-3: 150-157 Інститут програмних систем НАН України 2018-07-06 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/190 10.15407/pp2016.02-03.150 PROBLEMS IN PROGRAMMING; No 2-3 (2016); 150-157 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2016); 150-157 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2016); 150-157 1727-4907 10.15407/pp2016.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/190/185 Copyright (c) 2017 ПРОБЛЕМИ ПРОГРАМУВАННЯ
institution	Problems in programming
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date	2024-04-28T13:09:57Z
collection	OJS
language	Ukrainian
topic	machine learning natural language processing named entity recognition UDC 004.85
spellingShingle	machine learning natural language processing named entity recognition UDC 004.85 Marchenko, O.O. Machine-learning methods for text named entity recognition
topic_facet	machine learning natural language processing named entity recognition UDC 004.85 машинное обучение обработка естественного языка распознавание именованных сущностей текста УДК 004.85 машинне навчання обробка природної мови розпізнання іменованих сутностей тексту УДК 004.85
format	Article
author	Marchenko, O.O.
author_facet	Marchenko, O.O.
author_sort	Marchenko, O.O.
title	Machine-learning methods for text named entity recognition
title_short	Machine-learning methods for text named entity recognition
title_full	Machine-learning methods for text named entity recognition
title_fullStr	Machine-learning methods for text named entity recognition
title_full_unstemmed	Machine-learning methods for text named entity recognition
title_sort	machine-learning methods for text named entity recognition
title_alt	Машинно-учебные методы распознавания именуемых сущностей текста Машинно-навчальні методи розпізнавання іменованих сутностей тексту
description	The article describes machine learning methods for the named entity recognition. To build named entity classifiers two basic models of machine learning, The Naїve Bayes and Conditional Random Fields, were used. A model for multi-classification of named entities using Error Correcting Output Codes was also researched. The paper describes a method for classifiers' training and the results of test experiments. Conditional Random Fields overcome other models in precision and recall evaluations.Problems in programming 2016; 2-3: 150-157
publisher	Інститут програмних систем НАН України
publishDate	2018
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/190
work_keys_str_mv	AT marchenkooo machinelearningmethodsfortextnamedentityrecognition AT marchenkooo mašinnoučebnyemetodyraspoznavaniâimenuemyhsuŝnostejteksta AT marchenkooo mašinnonavčalʹnímetodirozpíznavannâímenovanihsutnostejtekstu
first_indexed	2024-09-16T04:08:14Z
last_indexed	2024-09-16T04:08:14Z
_version_	1818568158236114944
fulltext	Інтелектуальні інформаційні технології © О.О. Марченко, 2016 150 ISSN 1727-4907. Проблеми програмування. 2016. № 2–3. Спеціальний випуск УДК 004.85 МАШИННО-НАВЧАЛЬНІ МЕТОДИ РОЗПІЗНАВАННЯ ІМЕНОВАНИХ СУТНОСТЕЙ ТЕКСТУ О.О. Марченко У статті розглянуто машинно-навчальні методи розпізнавання іменованих сутностей тексту. Розглянуто дві базові моделі ма- шинного навчання – наївна модель Байєса та модель умовних випадкових полів, застосовані для вирішення задачі ідентифікації та аналізу іменованих сутностей. Також досліджено модель, в якій для мультикласифікації іменованих сутностей текстів вико- ристовуються корегуючі вихідні коди. В роботі описано процес навчання та результати експериментів з тестування побудова- них класифікаторів. Умовні випадкові поля перевершили інші моделі за оцінками точності та надійності роботи методу. Ключові слова: машинне навчання, обробка природної мови, розпізнання іменованих сутностей тексту. В статье исследуются машинно-обучаемые методы распознавания именованных сущностей текста. Рассмотрены две базовые модели машинного обучения – наивная модель Байеса и модель условных случайных полей, которые были использованы для решения задачи идентификации и анализа именованных сущностей. Также исследована модель, в которой для мульти - классификации именованных сущностей текстов используются корректирующие выходные коды. В работе описаны процесс обучения и результаты экспериментов по тестированию построенных классификаторов. Условные случайные поля превзошли другие модели по оценкам точности и надежности работы метода. Ключевые слова: машинное обучение, обработка естественного языка, распознавание именованных сущностей текста. The article describes machine learning methods for the named entity recognition. To build named entity classifiers two basic models of ma- chine learning, The Naїve Bayes and Conditional Random Fields, were used. A model for multi-classification of named entities using Error Correcting Output Codes was also researched. The paper describes a method for classifiers' training and the results of test experiments. Con- ditional Random Fields overcome other models in precision and recall evaluations. Key words: machine learning, natural language processing, named entity recognition. Вступ Проблема визначення іменованих сутностей тексту не є новою, дослідження активно ведуться вже понад 20 років, і оприлюднені досить високі результати роботи прикладних систем (до 93 % точності у розпізнаванні іменованих сутностей машиною проти 96 % точності у розпізнанні іменованих сутностей людиною). Незважа- ючи на заявлений високий відсоток правильності розпізнавання, проблема досі вважається відкритою і за да- ною проблематикою активно ведуться дослідження. Актуальність проблеми пояснюється специфічністю середовища, в якому отримані надвисокі результати: як правило таке середовище створюється штучно для тестування системи і не може бути відтворено в реально- му світі. До штучного середовища можна віднести додаткові 100 % коректні дані про текст (наприклад, завжди гарантовано правильні синтаксичні дерева речень, морфологічна, семантична та інша інформація), які є недо- ступними в реальних умовах. Також до таких умов можна віднести надвисокі потужності задіяного обладнання, коли задача вирішується в лабораторних умовах на суперкомп’ютерах, та специфіку корпусів тестування. На- приклад, на тестові корпуси часто накладається умова обмеження словника іменованих сутностей до розміру словника навчальної вибірки: в таких умовах задача NER (named entity recognition − розпізнавання іменованих сутностей) зводиться до задачі розпізнавання сутностей за словником. Через це різниця між заявленими в теорії та отриманими на практиці результатами є досить значною. Проведена оцінка найбільш популярних систем на ринку показала їх низьку ефективність. Більшість типів іме- нованих сутностей розпізнаються з точністю близько 60 % – 65 %, що є недостатнім для ефективного викорис- тання в задачах аналізу текстів. Лише в деяких випадках реальна точність розпізнавання певних типів сутнос- тей сягає 70 %. Дане дослідження було проведено з метою розробки придатного для промислового використання класи- фікатора, здатного розрізняти основні базові типи іменованих сутностей та ефективно працювати з реальними текстами поза межами лабораторного середовища, і видавати результати на рівні найкращих існуючих аналогів – state-of-the-art систем. Система розпізнавання іменованих сутностей тексту Основною задачею системи є розпізнавання у тексті іменованих сутностей та визначення типу цих сут- ностей. Вхідними даними системи є текст, написаний правильною англійською мовою з мінімальним вживан- ням сленгу та відсутністю орфографічних і граматичних помилок. Архітектурно система складається з кількох ключових блоків, кожен блок виконує функції певного етапу побудови розв’язку задачі. Усі модулі попередньої обробки тексту для перетворення його у необхідний системі вигляд винесено за межі системи. Система структурно складається з наступних блоків:  блок ідентифікації та аналізу іменованих сутностей на основі Байєсівської моделі; Інтелектуальні інформаційні технології 151  блок ідентифікації та аналізу іменованих сутностей на основі моделі умовних випадкових полів − Conditional random field (CRF). Всі блоки є підсистемами, які паралельно і незалежно одна від одної виконують наступну обробку вхід- ного тексту:  ідентифікація синтаксичних груп речень тексту, які містять іменовані сутності;  визначення меж знайдених іменованих сутностей (перше слово сутності – останнє слово сутності);  визначення типів знайдених іменованих сутностей. Підсистеми виконують дану обробку тексту з відповідною розміткою. Результатом роботи системи є текст з відповідною розміткою іменованих сутностей (id сутності, границі сутності, тип сутності). Система налаштована для розпізнавання наступних типів іменованих сутностей (Type in system), кожен тип трактується у відповідності до його трактування у корпусі Ontonotes: Ontonotes Type Description Type in system PERSON People, including fictional PERSON ORGANIZATION Companies, agencies, institutions, etc. ORGANIZATION LOCATION Locations, mountain ranges, bodies of water LOCATION Вхідними даними для розроблених класифікаторів є текст англійською мовою, дерева виведення та за- лежностей речень вхідного тексту, а також всі дані стосовно лексичних значень слів речень тексту згідно розмі- тки GOLD у корпусі Ontonotes. Навчання класифікаторів на основі моделі Байєса та на основі моделі умовних випадкових полів − Conditional random field (CRF) проводилося на базі розміченого текстового корпусу Ontonotes. Так як Байєсівсь- кі класифікатори є відомим, розповсюдженим та досить простим методом, автор утримується від безпосеред- нього опису самої моделі Байєса та переходить до методу класифікації на основі умовних випадкових полів − Conditional random field (CRF) [1]. Класифікатор на основі моделі умовних випадкових полів − Conditional random fields Метод умовних випадкових полів − Conditional random field (CRF) є аналогом методу марковських випа- дкових полів (Markov random fields). Даний метод користується широкою популярністю у різних областях шту- чного інтелекту. Зокрема його успішно використовують у задачах розпізнавання мовлення та образів, в обробці текстової інформації, у комп’ютерній графіці та в інших задачах. Марковським випадковим полем називають графову модель, яка використовується для представлення сумісних розподілів набору декількох випадкових змінних. Формально марковське випадкове поле складається з наступних компонентів:  неорієнтований граф або фактор-граф G = (V, E), де кожна вершина Vv – випадкова змінна Х і ко- жне ребро Evu ),( – залежність між випадковими величинами u и v;  набір потенційних функцій (potential function) або факторів }{ k , одна для кожної кліки у графі (кліка − повний підграф G неорієнтованого графу). Функція k ставить кожному можливому стану елементів кліки у відповідність деяке невід’ємне дійсне число. Вершини, що не є суміжними, мають відповідати умовно незалежним випадковим величинам. Група су- міжних вершин формує кліку, набір станів вершин є аргументом відповідної потенційної функції. Сумісний розподіл набору випадкових величин }{ kxX  у марковському випадковому полі обчислю- ється за формулою:  k kk x Z xP )( 1 )( }{ , де )( }{kk x – потенційна функція, що описує стан випадкових величин у k -ій кліці; Z – коефіцієнт нормаліза- ції, що обчислюється за формулою:    k kk Xx xZ )( }{ . Інтелектуальні інформаційні технології 152 Множина вхідних лексем }{ txX  та множина відповідних їм типів }{ tyY  у сукупності формують множину випадкових змінних YXV  . Для розв’язання задачі виділення інформації з тексту достатньо ви- значити умовну ймовірність P( Y \| X ). Потенційна функція має вигляд: )),,(exp()( 1}{   k tttkkkk xyyfx  , де }{ k – дійснозначний параметричний вектор (множники Лагранжа),   )},,({ 1 tttk xyyf – набір ознакових функцій. Тоді лінійним умовним випадковим полем називається розподіл виду:    k k tttkk xyyf xZ xyp )),,(exp( )( 1 )\|( 1 . Коефіцієнт нормалізації Z(x) обчислюється за формулою:      k k tttkk Yy xyyfxZ )),,(exp()( 1 . Обчислення моделі )\|( xyp відбувається як розв’язання оптимізаційної задачі з заданими обмеженнями [2] (різниця між спостереженням та його оцінкою має бути нульовою та має виконуватися умова    Yy xyp 1)\|( по всім Xx . На кожній ітерації заново обчислюються множники Лагранжа, обчислення проводиться з використанням традиційних алгоритмів – «forward-backward» та Вітербі. Метод CRF, як і метод марковські моделі максимальної ентропії (MMME), є дискримінативним імовірні- сним методом, на відміну від генеративних методів, таких як приховані марковські моделі HMM та модель Байєса (Naïve Bayes). За аналогією з марковськими моделями максимальної ентропії, вибір факторів-ознак для завдання імові- рності переходу між станами при наявності спостереження значення tx залежить від специфіки конкретних даних, але на відміну від того ж МММЕ, CRF може враховувати будь-які особливості та взаємозв’язки у вхід- них даних. Вектор ознак }{ k обчислюється на основі навчальної вибірки та визначає вагу кожної потен- ційної функції. В умовних випадкових полях відсутня так звана label bias problem – ситуація, коли перевагу мають стани з меншою кількістю переходів, так як будується один єдиний розподіл імовірностей та нормалізація (коефіцієнт Z(x)) виконується загалом, а не у рамках окремого стану. Це, безумовно, є перевагою метода: алгоритм не потребує припущення незалежності спостережних змінних. Крім того, використання довільних факторів дозволяє описати різноманітні ознаки об’єктів, що знижує вимоги до повноти та обсягу навчальної вибірки. При цьому точність буде визначатися не лише обсягом вибірки, але й обраними факторами. Недоліком підходу CRF є обчислювальна складність аналізу навчальної вибірки, що ускладнює пос- тійне оновлення моделі при отриманні нових навчальних даних. Слід відзначити високу швидкість роботи алгоритму CRF, що є дуже важливою перевагою при обробці великих обсягів інформації. Навчання моделі Для навчання моделі був обраний корпус текстів Ontonotes [3], який містить достатній обсяг текстів, ро- змічених вручну. Розмітка текстів повністю відповідає задачі ідентифікації та аналізу іменованих сутностей та обраним моделям машинного навчання. В рамках задачі аналізу іменованих сутностей тексти корпусу містять розмітку:  задання меж іменованих сутностей (перше слово сутності – останнє слово сутності);  задання типів знайдених іменованих сутностей (Людина, Організація, Локація). Розмічені тексти містять синтаксичні структури речень – дерева виведення та дерева залежностей. Тобто доступними є межі синтаксичних груп речення та відношення залежностей між словами. Доступними є також повні лексичні значення слів речень (частина мови, рід, число, час для дієслів і т. д.). Алгоритми використову- ють також спеціальні словники імен, географічних назв та типових назв організацій для залучення додаткових знань у систему. Для формування базової множини ознакових функцій було проведено дослідження та аналіз найкращих робіт за даною тематикою [4–6]. Побудовано набор базових ознакових функцій, наприклад:       інакше._,0 ,"",ї_літерия_з_великопочинаєтьс_,_якщо_,1 ),( CityхyLOCу yxf i Інтелектуальні інформаційні технології 153 Далі в процесі дослідження були проведені чисельні експерименти з навчання моделей на розмічених те- кстах корпусу Ontonotes, після чого виконувалося тестування навченого алгоритму на точність ідентифікації та визначення типу іменованих сутностей на текстах з інших частин корпусу. Потім, згідно процедури кросваліда- ції, навчальна та тестова частини корпусу мінялися місцями та процес навчання і тестування моделей повторю- вався з початку. Із всіх отриманих оцінок точності обиралися мінімальні, як найбільш об’єктивні та гарантовано досяжні. Навчання та тестування моделей проводилось багато разів з різними наборами ознакових функцій. В ре- зультаті проведення багатьох ітерацій етапів навчання-тестування з перебором множини функцій ознак були визначені оптимальні набори ознакових функцій {  if } та {  if }, на яких досягнуто максимальні оцінки точно- сті ідентифікації та визначення типів іменованих сутностей тексту класифікатором Байєса та класифікатором на базі моделі умовних випадкових полів (CRF), відповідно. Розпізнавання іменованих сутностей тексту з використанням корегуючих вихідних кодів (ECOC) Для вирішення задачі визначення іменованих сутностей у тексті як альтернативний підхід були вико- ристані корегуючі вихідні коди (Error-Correcting Output Codes, ECOC). Даний підхід застосовують при вирі- шенні задач мультикласифікації, коли число класів перевищує два. У випадку визначення іменованих сутно- стей як класи маємо класи слів, такі як Person, Location, Organization, Event, Product та інші. Також в іншій серії експериментів використовувалась розмітка на класи з використанням boundary-тегів, в цьому випадку маємо наступні класи: Person-Begin, Person-Inside, Location-Begin, Location-Inside, Organization-Begin, Organization-Inside та інші. Задача мультикласифікації полягає у знаходженні невідомої функції )(xf , область значень якої дис- кретна множина, що містить k значень (класів), 2k . Дана функція )(xf визначається у процесі навчання на основі навчальної вибірки прикладів виду ),( ii dx , ni ,1 , де )( ii xfd  – відоме значення класу для прик- ладу ix . Вирішення задачі мультикласифікації зводиться до розв’язання підзадач бінарної класифікації, а резуль- татом мультикласифікації є поєднання отриманих розв’язків. Для поєднання розв’язків бінарних класифікаторів було застосовано підхід розподіленого вихідного представлення (Distributed Output Representation); як бінарні класифікатори використовуються класифікатори CRF. Під розподіленим вихідним представленням розуміється задання кожного класу бінарним рядком дов- жини n – “кодовим словом”. Кожен біт кодового слова відповідає окремому бінарному класифікатору, який навчається. Вирішення задачі мультикласифікації зводиться до обробки так званої матриці кодових слів, ряд- ки якої – кодові слова, що відповідають класам, об’єкти яких розпізнаються, а стовпчики відповідають бінар- ним класифікаторам (це ті значення, що видають класифікатори на відповідних класах). Після навчання кла- сифікаторів новий об’єкт x класифікується оцінюванням кожного з n бінарних класифікаторів для отри- мання n -бітового кодового слова. Отримане кодове слово об’єкта x порівнюється з кожним із k кодових слів матриці. Об’єкт x належить класу, чиє кодове слово є найближчим згідно вибраної метрики до його власного слова. Визначення мінімальної відстані від отриманого кодового слова об’єкта x , що класифікуєть- ся, до одного з кодових слів матриці розглядається як процес декодування. Для реалізації процесу декодуван- ня використовується відстань Хемінга. Зокрема, мінімальна відстань між отриманим кодовим словом ))(,),(),(()( 21 xfxfxfxf n та кодовими словами матриці M визначається як число позицій, у яких відпо- відні значення бітів різні. Від виду матриці кодових слів залежить скільки помилок здатен виправити даний розподілений вихідний код у процесі декодування. Коди, які дозволяють виправити помилки в процесі декодування називаються коре- гуючі вихідні коди (Error-Correcting Output Codes). Мірою якості коду є мінімальна відстань Хемінга між парами кодових слів матриці. Якщо мінімальна відстань Хемінга дорівнює d , відповідний код гарантовано може ви- правити 2)1( d помилкових біт при декодуванні. Моделі розподіленого вихідного коду будуються відповідно до різних представлень матриці кодових слів nkM  }1,0{ , де k – кількість класів, n – кількість бінарних класифікаторів, тобто довжина кодового слова. У рамках досліджень була використана модель корегуючих вихідних кодів Exhaustive Code. Згідно даної моделі рядками матриці кодових слів є кодові слова довжини 12 1 k . Перший рядок матриці заповнюється одиницями, далі i-й рядок матриці заповнюється ik2 нулями та ik2 одиницями, що чередуються, починаючи з нулів. Приклад матриці з вичерпним кодом для 4-х класів наведено у табл. 1. Інтелектуальні інформаційні технології 154 Таблиця 1. Вичерпний код для 4-х класів Клас Кодові слова 1f 2f 3f 4f 5f 6f 7f 1С 1 1 1 1 1 1 1 2С 0 0 0 0 1 1 1 3С 0 0 1 1 0 0 1 4С 0 1 0 1 0 1 0 При дослідженні було проведено наступні експерименти. Для розпізнавання іменованих сутностей класів Person, Location, Organization було залучено також класи слів NE (куди відносяться всі інші сутності, які не належать до Person, Location, Organization, наприклад, сутності класів Event, Product, WorkArt, Money тощо), а також OTHER, які включають всі інші лексеми, які не відносяться до переліку іменованих сутно с- тей. Таким чином у даному експерименті було використано 5 класів. Матриця кодових слів у цьому випадку містить 15 стовпчиків (бінарних класифікаторів). У другому експерименті були залучені спеціальні boundary-тегі для формування класів, таким чином ви- користовувалися наступні 8 класів: Person-Begin, Person-Inside, Location-Begin, Location-Inside, Organization- Begin, Organization-Inside, NE та OTHER. Матриця кодових слів у цьому випадку складається з 127 бінарних класифікаторів. Отримані результати дозволили зробити наступні висновки. У результаті надвеликої кількості лексем, які відносяться до класу OTHER, та мають велику частоту вживання у корпусі, а також у результаті того, що деякі ознаки сутностей (досить великий їх відсоток), що належать до основних класів (не до OTHER), при формуванні бінарного класифікатора потрапляють в один клас, то бінарні класифікатори типу CRF на таких нерівномірних вибірках показали невисоку якість роботи. Наприклад, при розділенні на два класи отримаємо, що до одного класу належать високочастотні лексеми з OTHER та низькочастот- ні з Event, Product, Location тощо, а до другого класу – виключно низькочастотні лексеми з Person та Organization. Тоді елементи першого класу мають і високу частоту, і значну частину ознак другого класу, що призводить до значного превалювання першого класу над другим. За рахунок великої кількості помилок, отриманих бінарними класифікаторами (слід врахувати, що кожен з 15, у випадку 5 класів, та кожен із 127, у випадку 8 класів, має великий відсоток помилок) застосування розподілених вихідних кодів, зокрема ECOC, не дозволило отримати бажані високі оцінки якості. Для покращення результатів роботи моделі з викорис- танням ECOC необхідно мати навчальну вибірку з більш рівномірним розподілом лексем по класах. Проте, використання підходу ECOC (а саме матриці кодових слів та реалізації процесу декодування за допомогою обчислення відстаней Хемінга) виправдане як одного з потенційних способів, коли треба знайти лексеми, що можливо були віднесені не до свого класу. Отримані результати У таблицях 2–5 представлені оцінки роботи класифікатора Байєса та класифікатора на основі моделі умовних випадкових полів (CRF), навчених на оптимальних наборах ознакових функцій { if  } та { if  }, відпо- відно. У таблиці 6 надані оцінки роботи мультикласифікатора, побудованого з використанням корегуючих ви- хідних кодів (ECOC). В експериментах обчислювалися оцінки точності (Precision, P), повноти (Recall, R) та комбінована міра 1F : Recall) (Precision Recall Precision2 1  F . Таблиця 2. Оцінки класифікатора Байєса на підкорпусі Broadcast News (100 файлів) Precision Recall F1 LOCATION 0,8242 0,7881 0,8057 ORGANIZATION 0,2552 0,4301 0,3203 PERSON 0,5188 0,9047 0,6594 Total 0,5493 0,7868 0,6469 Інтелектуальні інформаційні технології 155 Таблиця 3. Оцінки класифікатора Байєса на підкорпусі Web text (230 файлів) Precision Recall F1 LOCATION 0,5423 0,6527 0,5924 ORGANIZATION 0,0412 0,0350 0,0379 PERSON 0,3311 0,6127 0,4299 Total 0,3450 0,4954 0,4067 Таблиця 4. Оцінки класифікатора Байєса на підкорпусі Newswire (1665 файлів) Precision Recall F1 LOCATION 0,6498 0,8501 0,7365 ORGANIZATION 0,5022 0,7482 0,6010 PERSON 0,6673 0,8388 0,7433 Total 0,5813 0,8003 0,6734 Таблиця 5. Оцінки класифікатора на основі умовних випадкових полів (CRF) Підкорпуси Web text Broadcast News Newswire Total LOC Precision: 0.8679 Precision: 0.9283 Precision: 0.9198 Precision: 0.9395 Recall: 0.9323 Recall: 0.9530 Recall: 0.9190 Recall: 0.9369 F1: 0.8989 F1: 0.9405 F1: 0.9194 F1: 0.9382 ORG Precision: 0.7939 Precision: 0.8118 Precision: 0.8810 Precision: 0.8858 Recall: 0.7324 Recall: 0.7768 Recall: 0.8863 Recall: 0.8830 F1: 0.7619 F1: 0.7939 F1: 0.8836 F1: 0.8844 PER Precision: 0.9157 Precision: 0.8910 Precision: 0.9104 Precision: 0.9207 Recall: 0.9104 Recall: 0.9185 Recall: 0.8895 Recall: 0.9104 F1: 0.9130 F1: 0.9045 F1: 0.8998 F1: 0.9155 TOTAL Precision: 0.8647 Precision: 0.8909 Precision: 0.9008 Precision: 0.9140 Recall: 0.8638 Recall: 0.9029 Recall: 0.8974 Recall: 0.9092 F1: 0.8643 F1: 0.8968 F1: 0.8991 F1: 0.9116 Інтелектуальні інформаційні технології 156 Таблиця 6. Оцінки мультикласифікатора з використанням корегуючих вихідних кодів (ECOC) Оцінки точності та повноти, отримані в результаті тестування розробленої системи на базі моделі CRF (табл. 5), демонструють найвищі значення на рівні найкращих існуючих світових аналогів. На тестових текстах корпусу Ontonotes розроблена система змогла перевершити показники відомої системи Стенфордського універ- ситету для розпізнавання іменованих сутностей тексту Stanford Named Entity Recognizer [8]. Це було досягнуто завдяки успішно проведеній оптимізації набору ознакових функцій, що дало змогу отримати максимально ви- сокі оцінки точності. Висновки На основі двох базових моделей машинного навчання – наївної моделі Байєса та умовних випадкових полів, – було побудовано систему ідентифікації та аналізу іменованих сутностей тексту. Результати досліджен- ня та експериментів показали високу якість роботи класифікатора, реалізованого на основі моделі умовних ви- падкових полів. Досвід найкращих існуючих програмних реалізацій систем аналізу іменованих сутностей текс- ту приводить до висновку, що саме модель умовних випадкових полів (CRF) оптимально підходить для розроб- ки класифікаторів іменованих сутностей. В процесі тестування реалізований алгоритм продемонстрував високу точність визначення типів імено- ваних сутностей тексту на рівні найкращих існуючих світових аналогів. Також була досліджена модель, в якій для мультикласифікації іменованих сутностей текстів використо- вуються корегуючі вихідні коди (ЕСОС). Результати експериментів доводять наявність серйозних перспектив застосування даного підходу для вирішення класичних та прикладних задач комп’ютерної лінгвістики. 1. Lafferty J., McCallum A., Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data // The 18th International Conference on Machine Learning, June 28-July 1, 2001. Proceedings – Williamstown, MA, USA, 2001 . – P. 282–289. 2. Klinger R., Tomanek K. Classical Probabilistic Models and Conditional Random Fields // Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology, December 2007. Корпус WB BN NW LOC Precision: 0.8179 Precision: 0.7328 Precision: 0.8271 Recall: 0.6547 Recall: 0.8012 Recall: 0.8113 F1: 0.7273 F1: 0.7655 F1: 0.8191 ORG Precision: 0.5378 Precision: 0.7637 Precision: 0.7734 Recall: 0.3792 Recall: 0.6354 Recall: 0.7422 F1: 0.4448 F1: 0.6937 F1: 0.7575 PER Precision: 0.7473 Precision: 0.7804 Precision: 0.8530 Recall: 0.5509 Recall: 0.8567 Recall: 0.8037 F1: 0.6342 F1: 0.816772 F1: 0.8276 TOTAL Precision: 0.7253 Precision: 0.7590 Precision: 0.8178 Recall: 0.5420 Recall: 0.7644 Recall: 0.7857 F1: 0.6204 F1: 0.7617 F1: 0.8015 Інтелектуальні інформаційні технології 157 3. Linguistic Data Consortium (2011) Text Corpus Ontonotes 4.0 – https://catalog.ldc.upenn.edu/LDC2011T03 4. Turian J., Ratinov L., Bengio Y. Word representations: a simple and general method for semi-supervised learning // The 48th Annual Meeting of the Association for Computational Linguistics, July 11–16, 2010. Proceedings – Uppsala, Sweden, 2010 . – P. 384–394. 5. Nadeau D., Sekine S. A survey of named entity recognition and classification // Lingvisticae Investigationes. – 2007. – 30 (1). – P. 3–26. 6. Nadeau D., Turney P., Matwin S. Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity // Canadian Conference on Artificial Intelligence-2006, June 7–9, 2006. Proceedings – Quebec, Canada, 2006 . – P. 266–277. 7. Антонова А.Ю., Соловьев А.Н. Метод условных случайных полей в задачах обработки русскоязычных текстов // Информационные технологии и системы // Труды международной научной конференции. 1–6 сентября 2013. – Кенигсберг; 2013. – С. 321–325. 8. The Stanford NLP Group (2006–2015) Stanford Named Entity Recognizer. – http://www-nlp.stanford.edu/software//CRF-NER.html References 1. LAFFERTY J., MCCALLUM A., PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. in The 18th International Conference on Machine Learning. Williamstown, MA, USA. June 28-July 1, 2001. – Williamstown. P. 282–289. 2. KLINGER R., TOMANEK K. Classical Probabilistic Models and Conditional Random Fields. Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology, December 2007. 3. Linguistic Data Consortium (2011) OntoNotes Release 4.0 [Online] Available from: https://catalog.ldc.upenn.edu/LDC2011T03 4. TURIAN J., RATINOV L., BENGIO Y. Word representations: a simple and general method for semi-supervised learning. in The 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden. July 11–16, 2010. Uppsala. – P. 384–394. 5. NADEAU D., SEKINE S. A survey of named entity recognition and classification. Lingvisticae Investigationes. 30 (1). – P. 3–26. 6. NADEAU D., TURNEY P., MATWIN S. Unsupervised Named Entity Recognition: Generating Gazetteers and Resolving Ambiguity. in Canadian Conference on Artificial Intelligence-2006. Quebec, Canada. June 7–9, 2006. Quebec. – P. 266–277. 7. ANTONOVA A.Y., SOLOVYOV A.N. Method of Conditional Random Fields in tasks of russian texts processing. in The International Conference on Information technologies and systems-2013. Königsberg. September 1-6, 2013. Königsberg. – P. 321–325. 8. The Stanford NLP Group (2006-2015) Stanford Named Entity Recognizer [Online] Available from: http://www-nlp.stanford.edu/software/CRF- NER.html Про автора: Марченко Олександр Олександрович, доцент, доктор фізико-математичних наук, доцент кафедри Математичної інформатики факультету кібернетики. Кількість наукових публікацій в українських виданнях – 52. Кількість наукових публікацій в іноземних виданнях – 10. Індекс Гірша – 2. http://orcid.org/ 0000-0002-5408-5279. Місце роботи автора: Київський національний університет імені Тараса Шевченка, 01601, Київ, вул. Володимирська, 64/13. Факультет кібернетики, кафедра Математичної інформатики. Тел.: (050) 440 7328. Факс: (044) 259 0129. E-mail: rozenkrans@yandex.ua mailto:rozenkrans@yandex.ua

Machine-learning methods for text named entity recognition

Репозитарії

Схожі ресурси