Use of domain ontology for homonymy clarification into the natural language texts
The article analyses the clarification of various types of homonymy that can be executed without use of semantic information, but only on the basis of syntactic rules. This analysis shows how features of the syntactic structures of legislative and academic texts allow to reduce the number of formal...
Збережено в:
Дата: | 2018 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | rus |
Опубліковано: |
Інститут програмних систем НАН України
2018
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/320 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-320 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/67/28707c92ed097d42b02d4cfa3d57a467.pdf |
spelling |
pp_isofts_kiev_ua-article-3202024-04-28T11:52:04Z Use of domain ontology for homonymy clarification into the natural language texts Использование онтологии предметной области для снятия омонимии в естественно-языковых текстах Використання онтології предметної області для зняття омонімії в природномовних текстах Lesko, O.N. Rogushina, J.V. homonymy; morphological analysis; syntactical analysis;, natural language processing; ontology UDC 004.853, 004.55 омонимия; морфологический анализ; синтаксический анализ; обработка естественно-языковых текстов; онтологии УДК 004.853, 004.55 омонімія; морфологічний аналіз; синтаксичний аналіз; обробка природномовних текстів; онтології УДК 004.853, 004.55 The article analyses the clarification of various types of homonymy that can be executed without use of semantic information, but only on the basis of syntactic rules. This analysis shows how features of the syntactic structures of legislative and academic texts allow to reduce the number of formal rules required for parsing. A minimal set of syntactic rules necessary for the automatic analysis of such texts is proposed. A method of homonymy clarification in natural language business, scientific and legal text documents is developed. Proposed method does not require the use of a large number of syntactic rules and marked-up texts. Such specificity greatly simplifies the implementation and reduces the time required for creation and markup of text corpora. This result is achieved by use of domain ontology, and by the specifics of syntactic structures of business, scientific and legal documents. In addition, we demonstrate how the use of domain ontology allows to simplify the analysis of the test documents. As opposed to other systems of automatic processing of natural language texts that use domain ontology for semantic analysis too the domain ontology is used to highlight terms in the text and further morphological information of each word in wordy terms.Problems in programming 2017; 2: 61-71 Разработан метод снятия различных видов омонимии в естественно-языковых текстах деловых, научных и правовых документов. Специфика метода заключается в том, что он не требует использования большого количества синтаксических правил и корпуса размеченных текстов, что значительно упрощает его реализацию и сокращает время, необходимое для создания и разметки корпуса текстов. Этот результат достигается как за счет использования онтологии предметной области, так и за счет особенностей синтаксических структур деловых, научных и правовых документов.Problems in programming 2017; 2: 61-71 Розроблено метод зняття різних видів омонімії у природномовних текстах ділових, наукових і правових документів. Специфіка методу полягає у тому, що він не вимагає використання великої кількості синтаксичних правил і корпусу розмічених текстів, що значно спрощує його реалізацію і скорочує час, необхідний для створення і розмітки корпуса текстів. Цей результат досягається як внаслідок використання онтології предметної області, так і за рахунок особливостей синтаксичних структур ділових, наукових і правових документів.Problems in programming 2017; 2: 61-71 Інститут програмних систем НАН України 2018-11-19 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/320 10.15407/pp2017.02.061 PROBLEMS IN PROGRAMMING; No 2 (2017); 61-71 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2017); 61-71 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2017); 61-71 1727-4907 10.15407/pp2017.02 rus https://pp.isofts.kiev.ua/index.php/ojs1/article/view/320/315 Copyright (c) 2018 PROBLEMS OF PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-28T11:52:04Z |
collection |
OJS |
language |
rus |
topic |
homonymy; morphological analysis; syntactical analysis; natural language processing; ontology UDC 004.853 004.55 |
spellingShingle |
homonymy; morphological analysis; syntactical analysis; natural language processing; ontology UDC 004.853 004.55 Lesko, O.N. Rogushina, J.V. Use of domain ontology for homonymy clarification into the natural language texts |
topic_facet |
homonymy; morphological analysis; syntactical analysis; natural language processing; ontology UDC 004.853 004.55 омонимия морфологический анализ синтаксический анализ обработка естественно-языковых текстов онтологии УДК 004.853 004.55 омонімія морфологічний аналіз синтаксичний аналіз обробка природномовних текстів онтології УДК 004.853 004.55 |
format |
Article |
author |
Lesko, O.N. Rogushina, J.V. |
author_facet |
Lesko, O.N. Rogushina, J.V. |
author_sort |
Lesko, O.N. |
title |
Use of domain ontology for homonymy clarification into the natural language texts |
title_short |
Use of domain ontology for homonymy clarification into the natural language texts |
title_full |
Use of domain ontology for homonymy clarification into the natural language texts |
title_fullStr |
Use of domain ontology for homonymy clarification into the natural language texts |
title_full_unstemmed |
Use of domain ontology for homonymy clarification into the natural language texts |
title_sort |
use of domain ontology for homonymy clarification into the natural language texts |
title_alt |
Использование онтологии предметной области для снятия омонимии в естественно-языковых текстах Використання онтології предметної області для зняття омонімії в природномовних текстах |
description |
The article analyses the clarification of various types of homonymy that can be executed without use of semantic information, but only on the basis of syntactic rules. This analysis shows how features of the syntactic structures of legislative and academic texts allow to reduce the number of formal rules required for parsing. A minimal set of syntactic rules necessary for the automatic analysis of such texts is proposed. A method of homonymy clarification in natural language business, scientific and legal text documents is developed. Proposed method does not require the use of a large number of syntactic rules and marked-up texts. Such specificity greatly simplifies the implementation and reduces the time required for creation and markup of text corpora. This result is achieved by use of domain ontology, and by the specifics of syntactic structures of business, scientific and legal documents. In addition, we demonstrate how the use of domain ontology allows to simplify the analysis of the test documents. As opposed to other systems of automatic processing of natural language texts that use domain ontology for semantic analysis too the domain ontology is used to highlight terms in the text and further morphological information of each word in wordy terms.Problems in programming 2017; 2: 61-71 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2018 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/320 |
work_keys_str_mv |
AT leskoon useofdomainontologyforhomonymyclarificationintothenaturallanguagetexts AT rogushinajv useofdomainontologyforhomonymyclarificationintothenaturallanguagetexts AT leskoon ispolʹzovanieontologiipredmetnojoblastidlâsnâtiâomonimiivestestvennoâzykovyhtekstah AT rogushinajv ispolʹzovanieontologiipredmetnojoblastidlâsnâtiâomonimiivestestvennoâzykovyhtekstah AT leskoon vikoristannâontologíípredmetnoíoblastídlâznâttâomonímíívprirodnomovnihtekstah AT rogushinajv vikoristannâontologíípredmetnoíoblastídlâznâttâomonímíívprirodnomovnihtekstah |
first_indexed |
2024-09-16T04:07:50Z |
last_indexed |
2024-09-16T04:07:50Z |
_version_ |
1818568259111223296 |
fulltext |
Моделі та засоби систем баз даних і знань
© О.Н. Лесько, Ю.В. Рогушина, 2017
ISSN 1727-4907. Проблеми програмування. 2017. № 2 61
УДК 004.853, 004.55
О.Н. Лесько, Ю.В. Рогушина
ИСПОЛЬЗОВАНИЕ ОНТОЛОГИИ
ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СНЯТИЯ ОМОНИМИИ
В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТАХ
Разработан метод снятия различных видов омонимии в естественно-языковых текстах деловых, науч-
ных и правовых документов. Специфика метода заключается в том, что он не требует использования
большого количества синтаксических правил и корпуса размеченных текстов, что значительно упроща-
ет его реализацию и сокращает время, необходимое для создания и разметки корпуса текстов. Этот ре-
зультат достигается как за счет использования онтологии предметной области, так и за счет особенно-
стей синтаксических структур деловых, научных и правовых документов.
Ключевые слова: омонимия, морфологический анализ, синтаксический анализ, обработка естественно-
языковых текстов, онтологии.
Введение
На современном этапе развития
информационных систем большую роль
приобретает использование в них знаний о
предметных областях (ПрО). Это вызыва-
ет потребность в создании средств форма-
лизации таких знаний и методов их извле-
чения из разнообразных информационных
ресурсов (ИР).
Поскольку основным источником
знаний о ПрО являются естественно-
языковые (ЕЯ) документы, то именно ав-
томатизация их обработки для извлечения
содержащихся в них знаний является од-
ним из приоритетных направлений в таких
исследованиях.
Сложность такой обработки обу-
славливается неоднозначностью есте-
ственного языка. В частности, одной из
проблем, возникающих при распознава-
нии семантики ЕЯ-текста, является необ-
ходимость обнаружения и разрешения
омонимии. В данной работе рассматрива-
ются различные виды омонимии и спосо-
бы ее разрешения, которые используют
знания о ПрО, представленные в виде он-
тологии, и ограниченный набор правил.
Проблема омонимии в есте-
ственно-языковых текстах
Одной из проблем, возникающей
при анализе ЕЯ-текстов, являются слова-
омонимы. Омо́нимы (др.-греч. ὁμός –
одинаковый + ὄνομα – имя) – разные по
значению, но одинаковые по звучанию и
написанию слова. В лингвистике разли-
чаются несколько видов омонимов, но в
данной работе мы будем рассматривать
два из них – омоформы и омоморфемы.
Омоформы – слова, совпадающие
только в отдельных формах. Это могут
быть слова как одной части речи (напри-
мер, «засипати» (от «спати») и «засипати»
(от «сипати»)), так и разных («шию» (от
«шити») – «шию» (от «шия»)). Омомор-
фемы – части слов (приставки, суффиксы,
корни, окончания), совпадающие в напи-
сании и произношении, но имеющие раз-
ные значения (например, окончание «и» в
украинском языке может означать как
именительный падеж множественного
числа, так и родительный падеж един-
ственного числа – «річки»). Омонимы, от-
личающиеся только одной или двумя
формами, в данной статье не рассматри-
ваются.
В конструкциях, содержащих син-
таксические омонимы, реализуется двой-
ная (множественная) связь, при которой
одно слово или группа слов подчиняется
любой из доминант, но при этом изменя-
ется семантика высказывания. Хотя такое
явление встречается довольно часто как в
русском, так и в украинском языке, иссле-
дований, направленных на изучение син-
таксической неоднозначности, до 60-х го-
Моделі та засоби систем баз даних і знань
62
дов прошлого столетия в отечественном
языкознании не было [1].
Следует отметить, что при всей
сложности синтаксиса естественного
языка в документах официально-делового
стиля и в обычных информационных
текстах используется относительно не-
большое количество синтаксических
структур, например, несогласованное
определение может встретиться в виде
причастного/деепричастного оборота или
придаточного предложения, но не группы
существительного. Кроме того, в таких
текстах используется только прямой по-
рядок слов, и практически не встречают-
ся непроективные синтаксические кон-
струкции [2].
Методы снятия омонимии
Как указано, например, на сего-
дняшний день существуют системы раз-
решения неоднозначности, основанные на
правилах, и вероятностные системы [3,
4]. Системы, основанные на правилах,
развиваются с 60-х годов прошлого века,
выполняют локальный или глобальный
синтаксический разбор. Вероятностные
системы [5], использующие статистику
совместной встречаемости грамматиче-
ских признаков слов в больших корпусах,
омонимия в которых снята заранее.
Вероятностные системы требуют
наличия общедоступного корпуса тек-
стов, которого для украинского языка
нет. Получение большого объёма морфо-
логически размеченных текстов вручную
– задача крайне трудоёмкая, поэтому
обычно для разметки текстов используют
заранее сконструированные морфологи-
ческие анализаторы (например, Mystem,
Pymorphy). Однако автоматические раз-
метчики, как правило, приписывают сло-
ву не единственный разбор, а все теоре-
тически возможные. Для английского
языка, как для языка с бедной морфоло-
гией, задача снятия морфологической
омонимии сводится, как правило, к про-
блеме разрешения многозначности на
уровне частей речи (так называемого
POS-теггинга). При этом используются
алгоритмы, основанные на статистиче-
ских моделях, учитывающие вероятность
появления тега той или иной части речи в
данном контексте. Для английского языка
эти алгоритмы работают достаточно хо-
рошо и обычно демонстрируют не менее
96 % точности, ошибаясь лишь в 4 %
случаев [6].
Для русского и украинского язы-
ков точность таких алгоритмов намного
меньше. Во-первых, морфологическая
омонимия в русском языке, не сводится к
омонимии частей речи, а охватывает
множество различных грамматических
признаков. Во-вторых, в английском язы-
ке порядок слов фиксированный.
Это позволяет, к примеру, опи-
раться только на локальный контекст
слова (соседние слова) без учета дальних
зависимостей. Поэтому для морфологи-
ческой дизамбигуации в английском язы-
ке можно успешно использовать алго-
ритмы, основанные на Марковских моде-
лях и учитывающие зависимость каждого
набора тегов только от одного элемента
контекста – непосредственно предше-
ствующего ему набора тегов. В русском
языке количество возможных контекстов
из-за этого увеличивается и эффектив-
ность обучения простой модели, осно-
ванной на локальных зависимостях, сни-
жается. Поэтому, наряду с Марковскими
моделями, для снятия морфологической
омонимии в русском языке используются
более сложные статистические модели
или гибридные системы, в которых ста-
тистика дополняется набором правил [6].
Здесь также приводятся результаты срав-
нения использования скрытой Марков-
ской модели (HMM) и Марковской моде-
ли максимальной энтропии (MEMM) для
решения проблемы морфологической ди-
замбигуации в русском языке. Результа-
тивность снятия морфологической омо-
нимии в русском языке примерно на том
же уровне, что и при работе с английским
материалом, т. е. около 90 %. При этом
точность немного меняется в зависимости
от того, какой набор тегов частей речи
подаётся алгоритму на вход. С задачей
дизамбигуации по расширенному набору
тегов, напротив, оба алгоритма справля-
ются не очень хорошо, не превышая по-
рога точности в 90 %.
Моделі та засоби систем баз даних і знань
63
Системы, базирующиеся на прави-
лах, требуют описания большого количе-
ства правил, и поэтому весьма сложны
для реализации и работы в реальном вре-
мени. Практически все существующие
алгоритмы снятия омонимии на основе
правил включаются в состав синтаксиче-
ского анализа, что создает трудноразре-
шимое противоречие, когда для успешно-
го снятия омонимии необходимы точные
результаты синтаксического анализа, для
получения которых, в свою очередь,
нужно предварительно снять омонимию.
Кроме того, значительный объем исход-
ного числа связей существенно замедляет
обработку, приводя к так называемому
«комбинаторному взрыву». При таком
подходе строятся все возможные вариан-
ты синтаксического разбора, что приво-
дит к увеличению времени разбора (по-
скольку одна словоформа может иметь
множество вариантов морфологических
характеристик). Одна из таких систем
описана в [7]. Кроме того, приведенный
здесь алгоритм является не последова-
тельным, а параллельным, и для его реа-
лизации недостаточно средств обычных
языков программирования.
Для снятия синтаксической омо-
нимии возможно использование семанти-
ческих знаний, либо использование зна-
ний, полученных на основе совместной
встречаемости слов в корпусе текстов.
В работе [8] описана система, в кото-
рой для однозначного определения син-
таксической структуры входного предло-
жения используется лексико-семанти-
ческая онтологическая база знаний
UkrRusWordNet.
Для методов, основанных на син-
таксических правилах, характерны сле-
дующие недостатки сложность формаль-
ного описания этих правил, особенно для
флективных языков со свободным поряд-
ком слов, и снятие омонимии выполняет-
ся на этапе синтаксического анализа, что
означает повторение процедуры синтак-
сического анализа для каждого из вари-
антов омонимичной словоформы.
Недостатками вероятностных ме-
тодов являются длительность формиро-
вания и разметки корпуса текстов и невы-
сокая точность анализа, вызванная сво-
бодным порядком слов во флективных
языках.
Таким образом возникает необхо-
димость в создании метода снятия неод-
нозначности для омоформ разных частей
речи и омоморфем-окончаний, не требу-
ющий ни большого числа правил, ни кор-
пуса размеченных вручную текстов.
Поэтому возникает необходи-
мость в разработке гибридного метода,
использующего как правила, так и ин-
формации из текстов, опубликованных в
интернете, не требующего повторений
процедуры синтаксического анализ в
случае наличия омонимии. Также исполь-
зуется семантическая информация (оду-
шевленность, информация о том, что сло-
во является именем человека или назва-
нием организации).
Постановка задачи
Цель данного исследования – это
снятие семантических неоднозначностей
в ЕЯ-текстах, в частности, связанных с
омонимией. Для этого необходимо разра-
ботать алгоритм синтаксического анализа
текста, позволяющий однозначно опреде-
лить морфологические характеристики
определенного слова в предложении.
Поскольку существующие алго-
ритмы сложны для практической реали-
зации и использования, для разработки
такого алгоритма предлагается использо-
вать не только морфологическую инфор-
мацию, но и онтологию ПрО.
Особенностью разрабатываемого
алгоритма является то, что он не требует
ни большого корпуса текстов, как веро-
ятностные методы, ни большого числа
правил, как формальные методы, что зна-
чительно расширяет сферу его использо-
вания.
Использование онтологий
для автоматической обработки
текстов
Для формального представления
знаний отдельных ПрО сегодня широко
используются онтологии. Онтологию
можно рассматривать как базу знаний
(БЗ) специального вида с семантической
Моделі та засоби систем баз даних і знань
64
информацией об определенной ПрО [9].
Компоненты, из которых складываются
конкретные онтологии, зависят от пара-
дигмы представления, но практически все
модели онтологий содержат определен-
ные концепты (понятие, классы), свой-
ства концептов (атрибуты, роли), отно-
шение между концептами (зависимости,
функции) и ограничения использования,
которые определяются аксиомами. Фор-
мальная модель онтологии О представля-
ет собой тройку O=<T,R,F>, где T – мно-
жество понятий ПрО; R – множество от-
ношений между ними; F – множество
функций интерпретации понятий и отно-
шений. Такая модель может быть конкре-
тизирована в зависимости от назначения
и сферы применения онтологии.
Фундаментальные понятия опре-
деленной ПрО должны соответствовать
классам онтологии. Для определения эк-
земпляра достаточно объявить его членом
какого-либо класса.
При обработке информации на
естественном языке (ЕЯ) часто исполь-
зуются специализированные онтологии.
Основное их назначение в таких зада-
чах – обеспечить связь между фрагмен-
тами текста на ЕЯ и понятиями ПрО
(например, классами или экземплярами
онтологии). В частности, широко исполь-
зуются тезаурусы и лингвистические он-
тологии [10].
Особенности подмножества
синтаксиса естественного языка
для деловых и законодательных
документов
Минимальной коммуникативной
единицей в ЕЯ-тексте является предло-
жение. В качестве коммуникативной еди-
ницы предложение описывает факт дей-
ствительности. Каждое предложение со-
стоит из одного или нескольких слов,
объединенных в соответствии с законами
грамматики и характеризуется граммати-
ческим единством, а также относитель-
ной смысловой и интонационной завер-
шенностью. Основным признаком пред-
ложения является предикативность, т. е. в
предложении должен быть предикат (Р) и
субъект (S). Предикат может означать
процесс, действие, состояние, признак,
свойство, которым обладает субъект.
Участник, на которого распространяется
действие или на которого направлено от-
ношение, является объектом (Obj). Эти, а
также другие семантические отношения
между предикатом и другими элементами
высказывания составляют модель управ-
ления предиката, и в естественных языках
выражаются с помощью особого вида
синтаксических связей – управления.
В украинском языке, как и в дру-
гих флективных языках, синтаксическое
управление реализуется в виде флексий
(окончаний). Субъект в текстах деловых
документов выражается существитель-
ным в именительном падеже, предикат
выражается глаголом или тире (в случае
обозначения видовой принадлежности).
Переходные глаголы требуют наличия
существительного в винительном падеже,
которое обозначает объект действия [11].
Грамматическое единство и смыс-
ловая завершенность позволяют людям
анализировать предложения, в которых
некоторые отдельно взятые слова и флек-
сии могут интерпретироваться неодно-
значно. Но в общем случае составление
набора формальных правил для автома-
тического снятия таких неоднозначностей
довольно сложно, поскольку множество с
синтаксических структур естественного
языка бесконечно ([2]). Но тексты зако-
нодательных документов обладают осо-
бенностями, которые позволяют соста-
вить относительно небольшой набор пра-
вил для их анализа. Приведем некоторые
наборы из этих особенностей: 1) по инто-
национному оформлению предложения в
законодательных документах могут быть
только повествовательными; 2) в таких
текстах применяется только прямой по-
рядок слов; использование несогласован-
ных определений ограниченно и сводится
в основном к причастным и деепричаст-
ным оборотам; 3) глубина вложенности
таких определений ограничена в основ-
ном первым уровнем. Вместе с требова-
ниями синтаксического единства и грам-
матической завершенности в эти особен-
ности позволяют составить набор правил,
Моделі та засоби систем баз даних і знань
65
для снятия морфологической омонимии в
официально-деловых текстах.
Эти правила такие:
для непереходных глаголов в
личной форме в предложении должно
быть существительное в именительном
падеже и не должно быть винительного
падежа;
для переходных глаголов в
личной форме в предложении должно
быть по одному существительному в
именительном и винительном падеже;
в предложении (причастном
или деепричастном обороте) может быть
только по одному существительному в
дательном, творительном и предложном
падежах;
для безличных глаголов и пре-
дикатов в предложении не должно быть
существительных в именительном падеже;
причастные, деепричастные
обороты и однородные члены предложе-
ния выделяются запятыми;
могут использоваться кон-
текстные правила, например, согласова-
ние прилагательного (указательного ме-
стоимения) и следующего за ним суще-
ствительного в роде, числе и падеже.
Для снятия морфологической омо-
нимии может использоваться онтология
ПрО. Например, если в онтологии ПрО
есть термин «землі сільськогосподарсько-
го призначення», при этом слово «землі»
употреблено в именительном падеже, вез-
де в тексте, где встречается это словосоче-
тание, слову «землі» соответствует имени-
тельный падеж, но не родительный или
винительный.
Для снятия синтаксической омони-
мии возможно использование семантиче-
ской информации, например, онтологии,
либо совместную встречаемость слово-
форм в документе, либо корпусе текстов.
Например, в предложении «дохід з джере-
лом їх походження з України – будь-який
дохід, у тому числі, але не виключно, до-
ходи у вигляді доходів страховиків – ре-
зидентів від страхування ризиків
страхувальників – резидентів за межами
України» именная группа «за межами
України» может относиться к именной
группе «страхування ризиків» или
«страхувальників – резидентів». Но, по-
скольку в документе встречается словосо-
четание «страхування ризиків за межами
України», можно сделать соответствую-
щий выбор.
Алгоритм анализа предложения
Рассмотрим алгоритм анализа
предложения в общем виде. Для анализа
возвратных глаголов, предложений с ча-
стицей «нет» и предикатов причастий су-
ществует несколько особых правил.
Алгоритм анализа предложения в
случае отсутствия омонимии состоит из
следующих шагов:
морфологический анализ пред-
ложения. Результатом является массив
(однозначных) морфологических характе-
ристик каждого слова в предложении;
поиск глагола, причастий, дее-
причастий и отглагольных существитель-
ных. Результатом является список глаго-
лов;
определение модели управле-
ния для каждого из найденных на преды-
дущем этапе слов.
Модель управления для переход-
ных глаголов состоит из шести падежей,
для непереходных – из пяти падежей
(кроме винительного). При этом имени-
тельный либо именительный и винитель-
ный являются обязательными. Для при-
частных (деепричастных) оборотов име-
нительный падеж является недопустимым.
Результатом является список обязатель-
ных и возможных падежей для каждого
глагола.
Далее для каждого из найденных на
предыдущем этапе слов выполняется сле-
дующая процедура:
начиная от выделенного глаго-
ла, причастия, деепричастия или отгла-
гольного существительного просматри-
ваются все слова слева направо до тех
пор, пока морфологическая информация
слова содержится в модели управления
(т. е. пока какой-то из падежей не встре-
тился повторно). Результатом является
причастный (деепричастный) оборот либо
именная группа с отглагольным суще-
ствительным;
Моделі та засоби систем баз даних і знань
66
проверяется наличие обяза-
тельных падежей. Результатом является
двоичное значение (истина/ложь).
Алгоритм анализа предложения
при наличии омонимии содержит следу-
ющие шаги:
морфологический анализ пред-
ложения. Результатом является массив
(однозначных) морфологических характе-
ристик каждого слова в предложении;
поиск глагола, причастий, деепри-
частий и отглагольных существительных.
Результатом является список глаголов;
определение модели управления
для каждого из найденных на предыду-
щем этапе слов. Модель управления
для переходных глаголов состоит из
шести падежей, для непереходных – из
пяти падежей (кроме винительного). При
этом именительный либо именительный
и винительный являются обязательными.
Результатом является список обязатель-
ных и возможных падежей для каждого
глагола;
далее для каждого из найденных
на предыдущем этапе слов выполняется
следующая процедура:
начиная от выделенного глагола,
причастия, деепричастия или отглагольно-
го существительного просматриваются все
слова слева направо до тех пор, пока мор-
фологическая информация слова содер-
жится в модели управления (то есть пока
какой-то из падежей не встретился по-
вторно). Результатом является причастный
(деепричастный) оборот либо именная
группа с отглагольным существительным;
составление системы уравнений
для выделенной глагольной группы (при-
частного или деепричастного оборота);
решение системы уравнений для
выделенной глагольной группы.
Процедура составления системы
уравнений для выделенной глагольной
группы заключается в следующих дей-
ствиях:
выполняется просмотр каждого
слова nw . Если морфологическая инфор-
мация слова неоднозначна и перед словом
есть предлог, проверяется его сочетае-
мость с глаголом. Для этого используется
таблица сочетаемости предлогов и паде-
жей;
0
inX , если падеж i не со-
держится в морфологической информации
слова n;
- 1
inX , если падеж i содер-
жится в морфологической информации
слова n, где і = 6,1 и соответствует паде-
жам.
Результатом является система
уравнений, поскольку в выделенном сег-
менте может быть только по одному слову
каждого падежа, и каждому слову должен
соответствовать только один падеж.
Предлагается следующая процеду-
ра решения системы уравнений.
Пусть rV – вектор обязательных
падежей. Может быть {1, 0} или {1, 0} в
зависимости от переходности.
Пусть 0V – вектор возможных па-
дежей,
00
i
V или 10
i
V , і = .6,1
Если вектор Х состоит из одного
элемента (в предложении только одно су-
ществительное), ему необходимо присво-
ить обязательный падеж rVXX . Если
1iX , анализ закончен и предложение
однозначно. Иначе предложение неодно-
значно.
Иначе:
для каждого уравнения rVXX .
находим j, для которого 1
jiX .
1. Для каждого Х находим
jXXX .
2. Если для всех Х 1Xi , то
процесс анализа закончен и предложение
однозначно.
3. Иначе переходим к 1.
Особенности предложенного
метода
Специфика предложенного в рабо-
те метода связана со сферой его использо-
вания.
1. Алгоритм предназначен в основ-
ном для анализа научных текстов и тек-
стов документов. Такие тексты обычно
Моделі та засоби систем баз даних і знань
67
содержат только простые предложения,
сложные предложения, состоящие из двух
простых, а также причастные и деепри-
частные обороты. Кроме того, такие тек-
сты обычно не содержат явных синтакси-
ческих ошибок, например, в падежных
формах, что упрощает процесс анализа, и
непроективных синтаксических структур.
2. Использование семантической
информации, например, о том, что слово
является именем человека или названием
организации, переходным или непере-
ходным глаголом. Такая информация
находится в словаре системы.
3. Использование информации о
сочетании глаголов и предлогов. С этой
целью используется поиск сочетаний гла-
голов и предлогов в Google.
4. Не строится полная синтаксиче-
ская структура предложения, и не рас-
сматриваются все возможные варианты
морфологических характеристик слов.
5. Снятие омонимии происходит в
после морфологический анализ до вы-
полнения синтаксического анализа, а не
на этапе синтаксического анализа.
Архитектура модуля снятия
омонимии в поисковой системе
«Правотекст»
Основными модулями системы яв-
ляются: морфологический словарь, модуль
морфологического анализа, модуль распо-
знавания поименованных сущностей, он-
тология ПрО, таблица сочетаемости гла-
голов предлогов с падежами, модуль сег-
ментации предложения, модуль составле-
ния системы уравнений и модуль решения
системы уравнений. Также в системе ис-
пользуются словарь словоформ, содержа-
щий словоформу и морфологическую ин-
формацию (укр.), словарь словоформ и
исходных форм, который содержит ин-
формацию о канонических формах слов.
Для морфологического анализа
текстов на украинском языке используется
собственная база данных (морфологиче-
ский словарь), созданная на основе мате-
риалов сайта “http://lcorp.ulif.org.ua/
dictua/”.
Для снятия омонимии существи-
тельных с предлогами используется таб-
лица сочетаемости глаголов предлогов с
падежами. Таблица построена по толко-
вому словарю [12].
Модуль распознавания поимено-
ванных сущностей [13] находит имена и
названия в тексте и обозначаемые ими
сущности.
Онтология ПрО, использующая для
выделения их терминов в тексте.
Модуль сегментации предложения,
выделяющий причастные и деепричастные
обороты, а также однородные члены пред-
ложения.
Модуль составления системы урав-
нений – составляет систему уравнений по
результатам морфологического анализа.
Модуль решения системы уравне-
ний – находит единственный правильный
вариант морфологической информации.
Вначале работы алгоритма исход-
ное предложение обрабатывается модулем
морфологического анализа. Результатом
обработки является список исходных
форм каждого слова и морфологическая
информация.
Затем выполняется поиск терминов
ПрО (однословных и многословных) в он-
тологии ПрО. Результатом является спи-
сок терминов в предложении и морфоло-
гическая информация для них. Например,
в онтологии есть термин «оскарження
рішень контролюючих органів». Если в
тексте найдено это словосочетание, слову
«рішень» всегда приписывается родитель-
ный падеж.
Морфологическая информация
каждого слова передается модулю сегмен-
тации предложения. Результатом является
набор глагольных групп (причастных и
деепричастных оборотов и т. д).
Затем модуль составления системы
уравнений обрабатывает каждую глаголь-
ную группу. Результатом является набор
уравнений
1
jiX ,
где i – номер слова в предложении, j – но-
мер морфологической информации. Затем
эта система уравнений решается соответ-
ствующим модулем.
Пример результатов работы алго-
ритма для предложений на украинском
языке показан на рисунке.
Моделі та засоби систем баз даних і знань
68
Анализируемый
текст
Результат
анализа
Меню
системы
Рисунок. Результат работы алгоритма
Перспективы использования
разработанного алгоритма
Одна из важных задач, находящих-
ся за рамками классического управления
знаниями, – это сопоставление онтологий
с природными текстами. Ее подзадачами
являются разметка ЕЯ текста терминами
онтологии, пополнение онтологии зна-
ниями, добытыми из размеченного ЕЯ-
текста, и вычисления степени семантиче-
ской близости между текстом и онтоло-
гией. Решение этой задачи требует учета
специфики отдельных естественных язы-
ков, и поэтому существующие средства и
методы решения этой задачи должны раз-
рабатываться для каждого языка отдель-
но. Решение этой задачи может быть од-
ной из областей применения данного ал-
горитма.
Построение лингвистической БЗ,
которая позволяет соотносить фрагменты
ЕЯ-текста с терминами онтологии, также
находится, но не рассматривается в дан-
ной работе (следует отметить, что на сего-
дня существует определенное количество
таких БЗ, в том числе и для украинского
языка, и средств их использования в се-
мантической разметке). Для решения этой
задачи тоже может использоваться данный
алгоритм.
Данный алгоритм используется в
модуле нормализации терминологии си-
стемы автоматизированного построения
онтологии [13]. Напомним, что в этой ра-
боте описана система автоматизированно-
го построения онтологии на основе текста
Налогового Кодекса Украины. Для по-
строения онтологии необходимо нормали-
зовать лексику, т. е. заменить в тексте все
синонимы введенного пользователем в
запросе слова на это слово. Но в связи с
возможностью омонимии возникла необ-
ходимость в разработке алгоритма ее
устранения.
Этот модуль также может исполь-
зоваться, например, в системах сравнения
онтологий и в системах автоматизирован-
ной семантической разметки.
Моделі та засоби систем баз даних і знань
69
Данный алгоритм также может
применяться для анализа именных групп,
а не целых предложений. Например, в
словосочетании «доход от продажи авто-
машины» морфологические характеристи-
ки каждого слова являются неоднознач-
ными. Слово «доход» соответствует име-
нительному или родительному падежу
единственного числа, «продажи» – роди-
тельному единственного числа, имени-
тельному или родительному падежу мно-
жественного числа, слово «автомашины»
соответствует родительному падежу един-
ственного числа, именительному и роди-
тельному падежам множественного числа.
Однако, в документах официально-
делового стиля в начале именной группы
ставится главное слово, за предлогом «от»
должно следовать слово в родительном
падеже, слово без предлога относится к
родительному-определительному. Таким
образом, основными правилами анализа
именных групп являются:
главное слово в словосочетании
– первое;
если перед существительным
имеется предлог, то морфологические ха-
рактеристики слова определяются как пе-
ресечение возможных падежей данной
словоформы и падежей, с которыми упо-
требляется данный предлог;
если существительное употреб-
лено без предлога, то из всех возможных
форм выбирается родительный падеж.
Такая модификация используется в
программе семантического поиска инфор-
мации в текстах правовых документов
«Правотекст». Например, пусть пользова-
телю необходимо найти только информа-
цию об учете продаж продуктов питания,
но не налоги доходов от этих продаж.
Предполагается, что в онтологии пользо-
вателя есть понятия «продажа» и «продук-
ты». Также в онтологии пользователя есть
информация о том, что слово «продажа»
является синонимом слова «реализация»,
и эти понятия являются подклассом слова
"поставка". Слово «продукты» является
синонимом слова «продукция», Пользова-
тель вводит поисковый запрос, например,
«Учет продаж продуктов». Запрос автома-
тически переводится на украинский язык с
помощью переводчика Яндекс (если вве-
ден на русском языке), получаем "Облік
продажів продуктів".
С учетом понятий онтологии ис-
ходный запрос заменяется на следующие:
"Облік реалізацій продуктів", "Облік пос-
тачання продуктів", "Облік продажів про-
дуктів", "Облік реалізацій продукції",
"Облік постачання продукції", "Облік
продажів продукції". После выполнения
поиска всех вариантов будет получен ре-
зультат "облік операцій з постачання вла-
сно виробленої продукції: молока, молоч-
ної сировини, молочних продуктів, м'яса,
м'ясопродуктів, іншої продукції переробки
тварин (шкур, субпродуктів, м'ясо-
кісткового борошна), виготовленої з пос-
тавлених молока або м’яса в живій вазі
сільськогосподарськими товаровиробни-
ками (далі – продукція), і з постачання ін-
ших товарів/послуг, у тому числі продук-
ції, виготовленої із сировини, визначеної у
підпункті 1 цього пункту, ....".
Выводы
Точность данного алгоритма при
обработке текста Налогового кодекса
Украины близка к 100 %. При обработке
менее формализованных текстов будут
появляться неправильно распознанные
и нераспознанные словоформы в при-
частных оборотах, а также прилагатель-
ных-существительных. Поскольку поря-
док слов в процессе снятия омонимии не
учитывается, возможен правильный ре-
зультат обработки непроективных кон-
струкций.
Разработанный метод анализа ЕЯ
позволяет также усовершенствовать онто-
логии ПрО, пополняя их знаниями, извле-
ченными из ЕЯ текста, с учетом снятия
присутствующей в таких знаниях неодно-
значности.
1. Шкурко Е.В. Синтаксическая омонимия и
способы предупреждения ее возникнове-
ния. Ученые записки Таврического нацио-
нального университета им. В.И. Вернад-
Моделі та засоби систем баз даних і знань
70
ского. Серия "Филология. Социальные
коммуникации". 2011. Т.24 (63). № 2.
Часть 2. С. 109–113.
2. Гладкий А.В. Синтаксические структуры.
М.: Наука, 1985.
3. Сокирко А., Толдова С. Сравнение эффек-
тивности двух методик снятия лексиче-
ской и морфологической неоднозначности
для русского языка. http://aot.ru/docs/
RusCorporaHMM.htm.
4. Зеленков Ю.Г., Сегалович И.В., Титов В.А.
Вероятностная модель снятия морфологи-
ческой омонимии на основе нормализую-
щих подстановок и позиций соседних
слов. Компьютерная лингвистика и ин-
теллектуальные технологии. Труды меж-
дународного семинара Диалог, 2005.
С. 188–197.
5. Brill E. Transformation-Based Error-Driven
Learning and Natural Language Processing:
A Case Study in Part-of-Speech Tagging.
Computational Linguistics. Vol. 21, N 4.
P. 543–565.
6. Лакомкин Е.Д., Пузыревский И.В, Рыжова
Д.А. Анализ статистических алгоритмов
снятия морфологической омонимии в рус-
ском языке. http://aistconf.org/stuff/aist2013/
submissions/aist2013_submission_33.pdf
7. Анісімов А.В., Марченко О.О. Нагорний
В.А. Створення керуючого простору син-
таксичних структур природної мови.
Вісник Київського університету, серія:
Фізико-математичні науки. Вип. 1, Київ.
2002.
8. Марченко А.А., Никоненко А.А. Контекст-
ный семантический анализ текста. Систе-
ма текстового мониторинга и качествен-
ного оценивания фокусного объекта. Ис-
кусственный интеллект. 2008. № 3.
С. 809–813.
9. Guarino N. Formal Ontology in Information
Systems. Formal Ontology in Information
Systems. Proceedings of FOIS'98, 3-15,
1998.
10. Добров Б.В., Иванов В.В., Лукашевич Н.В.,
Соловьев В.Д. Онтологии и тезаурусы: мо-
дели, инструменты, приложения.
http://catscpp.googlecode. com/svn-
history/r146/trunk/diploma/
materials/ontologies_tesauruses.pdf
11. Сучасна українська літературна мова. За
редакціїю М.Я. Плющ, 3-те видання, сте-
реотипне. Київ. "Вища школа". 2001.
12. Великий тлумачний словник сучасної
української мови. К., Перун. 2009.
13. Лесько О.Н., Рогушина Ю.В. Автоматиза-
ция семантической разметки естествен-
но-языковых текстов. Материалы IX
Международной научной конференции
имени Т.А. Таран «Интеллектуальный
анализ информации ИАИ-2009». Сб. тр.
С. 247–253.
References
1. Shkurko E.V. (2011) Syntactic homonymy
and ways to prevent its occurrence. In
Scientific notes of Taurida national
University. im V. I. Vernadsky. Series
"Philology. Social communication", Vol. 24
(63), N 2. Part 2, P. 109–113. (In Russian).
2. Gladky A.V. (1985) Syntactic structure. M.,
Nauka. (In Russian).
3. Sokirko A. & Toldova S. (2005). Comparison
of effectiveness of two methods of removing
lexical and morphological ambiguity for the
Russian language. http://aot.ru/docs/Rus
Corpora HMM.htm. (In Russian).
4. Zelenkov Yu.G., Segalovich I.V., &Titov
V.A. (2005) Probabilistic model of
morphological disambiguity based on
normalizing substitutions and positions of
neighboring words. In Computer linguistics
and intellectual technologies. Proc.of the in-
ternational workshop Dialogue. P.188–197.
(In Russian).
5. Brill, E. (1995). Transformation-based error-
driven learning and natural language pro-
cessing: A case study in part-of-speech
tagging. In Computational linguistics, 21(4).
P. 543–565.
6. Lakomkin E.D., Puzyrevskiy I.V. and
Ryzhov D.A. (2013) Analysis of statistical
algorithms of morphological homonymy in
the Russian language. (In Russian).
http://aistconf.org/stuff/aist2013/submissions/
aist2013_submission_33.pdf
7. Anisimov A.V., Marchenko O.A. and Na-
gorny V.A. (2002) Creation of control space
of syntactic structures of natural language. In
Bulletin of Kiev University, series: Physical-
mathematical science. Issue 1, Kiev. (In
Ukrainian).
8. Marchenko О.О. and Nikonenko А.О. (2008)
The Contextual Semantic Analysis of Natural
Language Text. System of Text Monitoring
and Qualitative Estimation of the Focus
Object. In Artificial intelligence, N 3,
P. 808–813. (In Russian).
9. Guarino N. (1998) Formal Ontology in
Information Systems. In Formal Ontology in
http://padabum.com/search.php?author=%D0%93%D0%BB%D0%B0%D0%B4%D0%BA%D0%B8%D0%B9%20%D0%90.%D0%92.
http://aistconf.org/stuff/aist2013/submissions/aist2013_submission_33.pdf
http://aistconf.org/stuff/aist2013/submissions/aist2013_submission_33.pdf
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
http://aistconf.org/stuff/aist2013/submissions/aist2013_submission_33.pdf
http://aistconf.org/stuff/aist2013/submissions/aist2013_submission_33.pdf
Моделі та засоби систем баз даних і знань
71
Information Systems. Proceedings of
FOIS'98. P. 3–15.
10. Dobrov B.V., Ivanov V.V., Lukashevich N.
and Solovyev V.D. (2006) Ontologies and
thesauri: models, tools, applications. (In Rus-
sian) http://catscpp.googlecode.com/svn-
history/r146/trunk/diploma/materials/ ontolo-
gies_tesauruses.pdf
11. Modern Ukrainian literary language. Edited
by M.J. Plusch (2001), 3rd edition,
stereotyped, Kiev, High school. (In
Ukrainian).
12. Big explanatory dictionary of modern Ukrain-
ian language (2009). K. Perun. (In
Ukrainian).
13. Lesko O.N. and Rogushina J.V. (2009) Au-
tomation of semantic markup of natural lan-
guage texts. In Proc. of the IX international
scientific conference named after T.A. Taran,
"Intellectual analysis of information IAI-
2009". P. 247–253. (In Russian).
Получено 18.04.2017
Об авторах:
Лесько Ольга Николаевна,
научный сотрудник.
Количество научных публикаций в
украинских изданиях – 10.
orcid.org/0000-0002-5584-3799,
Рогушина Юлия Витальевна,
кандидат физико-математических наук,
старший научный сотрудник.
Количество научных публикаций в
украинских изданиях – 140.
Количество научных публикаций в
зарубежных изданиях – 30.
Индекс Хирша – 10.
http://orcid.org/0000-0001-7958-2557.
Место работы авторов:
Государственное учебно-научное
учреждение "Академия
финансового управления",
01014, г. Киев,
бульв. Дружбы Народов, 38.
E-mail: 12345o@i.ua,
Институт программных систем
НАН Украины,
03181, Київ-187,
проспект Академика Глушкова, 40.
Тел.: 066 550 1999.
E-mail: ladamandraka2010@gmail.com
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
http://catscpp.googlecode.com/svn-history/r146/trunk/diploma/materials/ontologies_tesauruses.pdf
mailto:ladamandraka2010@gmail.com
71_.pdf
Untitled
|