Analysis of the natural language legislative documents semantics with use of domain ontology

The paper analyses the problems deal with the search in legislation documents of information that is interesting to the particular user, and the necessity of intellectualization of the search process by using of linguistic resources and ontological knowledge bases relevant to subject domains.The str...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2017
Автори: Lesko, O.V., Rogushina, J.V.
Формат: Стаття
Мова:Russian
Опубліковано: PROBLEMS IN PROGRAMMING 2017
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/160
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-160
record_format ojs
resource_txt_mv ppisoftskievua/09/b2172a641f9acb8c126aa80254643f09.pdf
spelling pp_isofts_kiev_ua-article-1602023-01-19T05:51:54Z Analysis of the natural language legislative documents semantics with use of domain ontology Анализ семантики естествненно-языковых законодательных документов с использованием онтологии предметной области Аналіз семантики природномовних законодавчих документів з використанням онтології предметної області Lesko, O.V. Rogushina, J.V. ontology; information retrieval; semantic markup UDC 681.3 онтология; поиск информации; семантическая разметка УДК 681.3 онтологіяж пошук інформаціїж семантична розмітка УДК 681.3 The paper analyses the problems deal with the search in legislation documents of information that is interesting to the particular user, and the necessity of intellectualization of the search process by using of linguistic resources and ontological knowledge bases relevant to subject domains.The structure and method of constructing of domain ontology and related with this ontology system of linguistic analysis that provides semantic markup of legislation documents by personified user terminology and the fulfillment of semantic search that supports either enhanced and modified requests to these documents.The relationship between the terms of the ontology and the fragments of natural language text and based on this relationship normalization of the terminology of the subject domain are used.The software implementation of information system that is based on the described in this article models and method and provides semantic search in legislation is describes. В статье анализируются проблемы, возникающие в процессе поиска информации, интересующей пользователя, в законодательных документах, и обосновывается необходимость интеллектуализации такого поиска при помощи использования лингвистических ресурсов и онтологических баз знаний соответствующих предметных областей. Предлагаются структура и метод построения онтологии предметной области и связанной с ней системы лингвистического анализа, обеспечивающие как выполнение семантической разметки законодательных документов персонализированной терминологией пользователя, так и выполнение семантического поиска, предусматривающего выполнение расширенных и модифицированных запросов к ним. При этом используется связь между терминами онтологии и фрагментами естественно-языкового текста и основанная на ней нормализация терминологии предметной области. Описывается программная реализация информационной системы, основанной на описанных в работе моделях и методах и обеспечивающей семантический поиск в законодательных документах. У статті аналізуються проблеми, що виникають у процесі пошуку інформації, що цікавить користувача, у законодавчих документах, і обґрунтовується необхідність інтелектуалізації такого пошуку за допомогою використання лінгвістичних ресурсів і онтологічних баз знань відповідних предметних областей.Пропонуються структура і метод побудови онтології предметної області і зв'язаної з нею системи лінгвістичного аналізу, що забезпечують як виконання семантичної розмітки законодавчих документів, так і виконання семантичного пошуку, що передбачає виконання розширених і модифікованих запитів до них. При цьому використовується зв’язок між термінами онтології і фрагментами природно-мовного тексту і заснована на ній нормалізація термінології предметної області. Описується програмна реалізація інформаційної системи, що ба-зується на описаних у роботі моделях і методах і забезпечує семантичний пошук у законодавчих документах. PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2017-06-16 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/160 PROBLEMS IN PROGRAMMING; No 4 (2015) ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2015) ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2015) 1727-4907 ru https://pp.isofts.kiev.ua/index.php/ojs1/article/view/160/154 Copyright (c) 2017 ПРОБЛЕМИ ПРОГРАМУВАННЯ
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2023-01-19T05:51:54Z
collection OJS
language Russian
topic ontology
information retrieval
semantic markup
UDC 681.3
spellingShingle ontology
information retrieval
semantic markup
UDC 681.3
Lesko, O.V.
Rogushina, J.V.
Analysis of the natural language legislative documents semantics with use of domain ontology
topic_facet ontology
information retrieval
semantic markup
UDC 681.3
онтология
поиск информации
семантическая разметка
УДК 681.3
онтологіяж пошук інформаціїж семантична розмітка
УДК 681.3
format Article
author Lesko, O.V.
Rogushina, J.V.
author_facet Lesko, O.V.
Rogushina, J.V.
author_sort Lesko, O.V.
title Analysis of the natural language legislative documents semantics with use of domain ontology
title_short Analysis of the natural language legislative documents semantics with use of domain ontology
title_full Analysis of the natural language legislative documents semantics with use of domain ontology
title_fullStr Analysis of the natural language legislative documents semantics with use of domain ontology
title_full_unstemmed Analysis of the natural language legislative documents semantics with use of domain ontology
title_sort analysis of the natural language legislative documents semantics with use of domain ontology
title_alt Анализ семантики естествненно-языковых законодательных документов с использованием онтологии предметной области
Аналіз семантики природномовних законодавчих документів з використанням онтології предметної області
description The paper analyses the problems deal with the search in legislation documents of information that is interesting to the particular user, and the necessity of intellectualization of the search process by using of linguistic resources and ontological knowledge bases relevant to subject domains.The structure and method of constructing of domain ontology and related with this ontology system of linguistic analysis that provides semantic markup of legislation documents by personified user terminology and the fulfillment of semantic search that supports either enhanced and modified requests to these documents.The relationship between the terms of the ontology and the fragments of natural language text and based on this relationship normalization of the terminology of the subject domain are used.The software implementation of information system that is based on the described in this article models and method and provides semantic search in legislation is describes.
publisher PROBLEMS IN PROGRAMMING
publishDate 2017
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/160
work_keys_str_mv AT leskoov analysisofthenaturallanguagelegislativedocumentssemanticswithuseofdomainontology
AT rogushinajv analysisofthenaturallanguagelegislativedocumentssemanticswithuseofdomainontology
AT leskoov analizsemantikiestestvnennoâzykovyhzakonodatelʹnyhdokumentovsispolʹzovaniemontologiipredmetnojoblasti
AT rogushinajv analizsemantikiestestvnennoâzykovyhzakonodatelʹnyhdokumentovsispolʹzovaniemontologiipredmetnojoblasti
AT leskoov analízsemantikiprirodnomovnihzakonodavčihdokumentívzvikoristannâmontologíípredmetnoíoblastí
AT rogushinajv analízsemantikiprirodnomovnihzakonodavčihdokumentívzvikoristannâmontologíípredmetnoíoblastí
first_indexed 2025-07-17T09:38:35Z
last_indexed 2025-07-17T09:38:35Z
_version_ 1850409685876736000
fulltext Моделі і засоби систем баз даних та знань © О.В. Лесько, Ю.В. Рогушина, 2015 58 ISSN 1727-4907. Проблеми програмування. 2015. № 4 УДК 681.3 О.В. Лесько, Ю.В. Рогушина АНАЛИЗ СЕМАНТИКИ ЕСТЕСТВНЕННО-ЯЗЫКОВЫХ ЗАКОНОДАТЕЛЬНЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИИ ПРЕДМЕТНОЙ ОБЛАСТИ В статье анализируются проблемы, возникающие в процессе поиска информации, интересующей поль- зователя, в законодательных документах, и обосновывается необходимость интеллектуализации такого поиска при помощи использования лингвистических ресурсов и онтологических баз знаний соответ- ствующих предметных областей. Предлагаются структура и метод построения онтологии предметной области и связанной с ней системы лингвистического анализа, обеспечивающие как выполнение се- мантической разметки законодательных документов персонализированной терминологией пользовате- ля, так и выполнение семантического поиска, предусматривающего выполнение расширенных и моди- фицированных запросов к ним. При этом используется связь между терминами онтологии и фрагмен- тами естественно-языкового текста и основанная на ней нормализация терминологии предметной обла- сти. Описывается программная реализация информационной системы, основанной на описанных в ра- боте моделях и методах и обеспечивающей семантический поиск в законодательных документах. Ключевые слова: онтология, поиск информации, семантическая разметка. Введение Увеличение объема, динамичность и усложнение структуры естественно- языкового контента Web требует развития автоматизированных средств и методов извлечения знаний из текстов, относя- щихся к различным предметным областям (ПрО). Наиболее эффективны такие под- ходы в тех сферах деятельности, где ис- пользуются достаточно специфичный (со значениями, часто отличающимися от об- щеупотребимой лексики), относительно устоявшийся и формализованный набор терминов и достаточно сложные отноше- ния между этими терминами, к которым целесообразно применять правила логиче- ского вывода. Одной из таких предметных областей является законодательство – в таких документах излагаются формально непротиворечивые правила, которые поль- зователю надо интерпретировать к своим данным. Актуальность проблемы В настоящее время значительная часть законодательных документов до- ступна через Web. Тем не менее, пользова- телям, не являющимся юристами: крайне сложно найти в этих документах ответ на интересующий их вопрос, так как они, как правило, не владеют соответствующей терминологией, не имеют сведений о структуре данных документов и поэтому не могут корректно сформулировать за- прос. Это вызывает необходимость в раз- работке интеллектуальных средств, обес- печивающих преобразование запроса на естественном языке в произвольной форме в формальный запрос, состоящий из тер- минов ПрО и учитывающий семантиче- ские связи между этими терминами (в осо- бенности – родовидовые отношения и от- ношение синонимии). При этом опыт разработки совре- менных интеллектуальных Web-при- ложений свидетельствует о том, что зна- ния о предметной области целесообразно представить в виде онтологии – это обес- печивает их интероперабельность и нали- чие инструментальных средств для редак- тирования и визуализации. Кроме того, возникает необходи- мость в использовании лингвистических знаний для сопоставления естественно- языковых (ЕЯ) фрагментов текста с фор- мальными понятиями, представленными в виде экземпляров и классов онтологии ПрО. Моделі і засоби систем баз даних та знань 59 Использование лингвистических ресурсов в системах семантического поиска Современные информационно- поисковые и информационно-аналити- ческие системы работают с текстовой ин- формацией в широких или неограничен- ных предметных областях, т. е. областях, в состав которых входят тысячи разных классов сущностей, входящих между со- бой в неограниченные типы отношений. Поэтому характерной чертой современ- ных методов обработки текстовой инфор- мации в таких системах стало минималь- ное использование знаний о мире и о язы- ке, опора на статистические методы учёта частотностей встречаемости слов в пред- ложении, тексте, наборе документов, сов- местной встречаемости слов и т. п. Учи- тывая это, когда подобные операции вы- полняет человек, ему необходимо вы- явить основное содержание документа, его основную тему и подтемы, и для этого обычно используется большой объём зна- ний о языке, о мире и об организации связного текста. Внедрение в современные интел- лектуальные системы методов автомати- ческой обработки текстовой информации является сложной задачей. Это обуслов- лено тем, что используемые при этом лингвистические знания должны описы- ваться в специально создаваемых ресур- сах и содержать описания десятков тысяч слов и словосочетаний. Для эффективного применения таких ресурсов нужно, кроме того, обеспечить поддержку логического вывод и разрешение многозначности естественного языка. Сегодня наиболее широко исполь- зуются три подхода к представлению лингвистических знаний:  традиционные информационно- поисковые тезаурусы;  тезаурус WordNet;  специализированные формаль- ные онтологии. Исторически первыми для таких задач применялись традиционные инфор- мационно-поисковые тезаурусы, которые создавались для ручного индексирования документов на основе национальных и международных стандартов и были не со- всем пригодны для автоматизированной обработки информации в электронной форме. Тезаурус WordNet был разработан в 90-е годы 20-го века в Принстонском университете США и представлял собой иерархическую сеть лексических понятий английского языка. WordNet 3.0 содержит 155 тысяч лексем и словосочетаний, кото- рые организованы в 117 тысяч понятий. Разработаны его версии для многих язы- ков. Если информационно-поисковые те- заурусы описывают определенную ПрО, то WordNet содержит сведения об общей лексике того или иного языка (хотя мож- но строить тезаурусы типа WordNet и для конкретных ПрО). Следует отметить, что структура WordNet не приспособлена для описания терминологии ПрО: раздельное описание частей речи, большое количе- ство не связанных между собой лексем, слабая поддержка обработки словосоче- таний вызывают многочисленные про- блемы при практическом использовании таких тезаурусов. Базовым понятием в WordNet яв- ляется лексема, а базовым отношением – отношение синонимии. В состав словаря входят лексемы, каждая из которых отно- сится к одной из четырех категорий (со- ответствующих частям речи): существи- тельное, прилагательное, глагол и наре- чие. С каждой из частей речи связан свой набор отношений. Например, между су- ществительными могут существовать от- ношения синонимии, антонимии, меро- нимии и гипонимии. Наборы синонимов (синсеты) – это основные структурные единицы WordNet. Два выражения считаются в WordNet си- нонимами, если замена одного из них на другое в высказывании не меняет значения истинности этого высказывания. Основное отношение между синсе- тами – родо-видовое, при этом видовой синсет называется гипонимом (А является гипоимом Б, если истинно утверждение “А является разновидностью Б”), а родо- Моделі і засоби систем баз даних та знань 60 вой – гиперонимом. Отношения между синсетами образовывают иерархическую структуру. В настоящее время для представле- ния баз знаний самых разных ПрО все ча- ще используются онтологии. Для целей автоматизированной обработки ЕЯ- текстов разрабатываются специализиро- ванные онтологии, как правило, не полно- стью определяющиеся в терминах фор- мальных свойств и аксиом, т. е. легкие он- тологии. Эти онтологии объединяют принципы разработки традиционных ин- формационно-поисковых тезаурусов и лингвистических ресурсов типа WordNet с методологиями создания формальных онтологий. В частности, в [1] приводится фор- мальная модель лингвистической онтоло- гии для широкой ПрО lingvO ,,,,,,,,,, ,, DCLMTSARNOExC amitrlingv где C – множество понятий онтологии lingvO , где понятие обозначает класс сущ- ностей, обладающих одинаковыми свой- ствами и отношениями с другими класса- ми сущностей; Ex – множество экземпляров поня- тий онтологии lingvO , такое, что задано отображение ExCE 2:  ; NO – множество уникальных имен понятий и экземпляров в онтологии lingvO ; lingvR – набор отношений между понятиями CCRlingv  , который специ- ально сформирован для автоматической обработки текстов; itrA , – множество правил вывода, которые базируются на свойствах транзи- тивности и наследования отношений; S – множество отношений между языковыми выражениями T и понятиями C : )},({ ji tcs ; T – множество текстовых входов онтологии – языковых выражений, значе- ния которых представлены в онтологии lingvO ; amM , – множество многозначных слов и выражений из TMT am ,: , при этом многозначные входы онтологии де- лятся на два подвида: mM – текстовые входы, которые относятся к более чем од- ному понятию онтологии, aM – текстовые входы, которые многозначны, но в онтоло- гии lingvO для них представлено только одно значение, amam MMM , ; L – множество лемматических представлений языкового выражения, т. е. представление выражения в виде последо- вательности слов в словарной форме (например, словосочетание “сельское хо- зяйство” представляется в лемматическом виде как “сельский хозяйство”; DC – отображение терминологи- ческого состава TD заданной коллекции ПрО Dcoll на текстовые входы и поня- тия онтологии    CTTDDcollDC ,,:  , которое задает критерий минимальной полноты онтологии, который должен обеспечивать покрытие терминологиче- ского состава заданной коллекции пред- метной области. В текстах ПрО значительную часть составляют слова, которые не являются специфичными для этой конкретной ПрО, т. е. принадлежат общему лексикону GL. Поэтому многозначные слова делятся на два множества. Множество mM со- держит слова, которые могут быть отне- сены к более чем двум понятиям lingvO , а в множество aM входят те слова, которые связаны с различными значениями в GL. Таким образом, лингвистическая онтология ПрО представляет собой БЗ онтологического типа о понятийной си- стеме и лексико-терминологическом со- ставе ПрО. В работе [2] рассматривается мо- дель лингвистической онтологии для Моделі і засоби систем баз даних та знань 61 автоматической обработки текстов пред- метной области, в состав которой входят тысячи разных классов сущностей, име- ющих между собой неограниченные типы отношений и ситуаций. По мнению авто- ров, предложенная система отношений отражает наиболее существенные взаимо- связи между сущностями и может приме- няться для описания отношений между понятиями в самых разных предметных областях. Анализ смысла естественно- языковых текстов со сложной структурой относительно ограниченной предметной области. Под анализом смысла будем пони- мать проверку истинности утверждений, связывающих несколько терминов ПрО отношениями из ограниченного подмно- жества. При этом генерация самих утвер- ждений является прерогативой пользова- теля. Для того, чтобы предоставить поль- зователю терминологическую базу для запросов, на основе лингвистического анализа ЕЯ-текстов ПрО формируется со- ответствующая онтология. В дальнейшем пользователь может использовать запросы на ЕЯ, которые бу- дут интерпретированы анализатором сло- воформ (oly-анализатор). В онтологии пользователь может отслеживать иерархию терминов и их си- нонимию, а семантическая разметка поз- воляет обнаруживать нужные фрагменты текста. Это связано с тем, что у многих пользователей в процессе поиска возни- кают проблемы, связанные с незнанием терминологии ПрО, что не позволяет со- здавать корректные запросы по интере- сующим пользователя запросам. В данной работе представляется целесообразным разделить знания о ПрО на две части – онтологию ПрО, которая отображает основные понятия и связи этой области, и лексическую онтологию, включающую лингвистические сведения о тех словах и словосочетаниях, которые используются в ЕЯ-документах, реле- вантных ПрО. Семантический поиск Обнаружение знаний в Web являет- ся составной частью многих интеллекту- альных приложений. В работе [3] предложено моделиро- вание системы взаимодействия между ИР и потребителями информации, которая привлекает к этому процессу внешние и внутренние базы знаний и обеспечивает логический вывод на этих знаниях в откры- той гетерогенной информационной среде Web, рассмотрено использование этой модели при решении прикладных задач. В наиболее обобщенном понима- нии информационный поиск – сложная проблема сопоставления представления пользователя о нужных ему знаний с кон- тентом доступных ИР и построения на основе этого сопоставления информаци- онного объекта (ИО) с конечным набором свойств, значения которых извлекаются из этих ИР. Семантический поиск – это инфор- мационный поиск, в котором такое сопо- ставление и построение ИО выполняются на семантическом уровне, т. е. с использо- ванием знаний. Пользователь имеет часть инфор- мации об ИР и пытается дополнить ее све- дениями, извлеченных из различных ис- точников. Основное отличие семантического поиска от традиционного – использование знаний об объекте поиска, пользователях, ИР и предметной области (ПрО) поиска. Семантический поиск – комплекс- ная научная задача, основанная на таких достижениях в области искусственного интеллекта, как общая теория представле- ния и обработки знаний, распознавание образов, логический вывод. Метод построения онтологии предметной области на основе ЕЯ-документа (на примере Налогового кодекса) и толкового словаря Структура онтологии ПрО Онтология ПрО разрабатывается таким образом, чтобы обеспечить под- держку семантического поиска в корпусе Моделі і засоби систем баз даних та знань 62 законодательных документов – например, в Налоговом кодексе. Поэтому в ней присутствуют:  термины, специфичные для данной ПрО;  некоторое количество обще- употребимых терминов, необходимых для однозначного определения контекста ис- пользования терминов ПрО (например, “месяц”, “год”, “сумма”, “процент”), кото- рые могут быть определены либо непо- средственно, либо путем ссылки на внеш- ние онтологии – как верхнего уровня, так и специализированные;  иерархические отношения меж- ду терминами онтологии ПрО – различные типы мериологических отношений “часть- целое”, отношение “класс-подкласс”, от- ношение “класс-экземпляр”;  отношения синонимии, позво- ляющие расширить терминологический словарь, используемый для поиска;  отношения, специфичные для данной ПрО, для описания семантики ко- торых используется анализ соответствую- щих статей толкового словаря. Таким образом, для представления ПрО используется “легковесная” онтоло- гия, не содержащая аксиом. Это значи- тельно упрощает ее использование и обес- печивает более быструю работу алгорит- мов ее анализа. Такая онтология обеспечит поиск не только по заданному ключевому слову, но и по словам, связанным с ним какими- либо отношениями (в данной версии ис- пользуются только таксономические от- ношения «класс-подкласс»). Так, если за- дано слово "транспорт", то поиск должен происходить и для терминов "автомобиль", "самолет", "грузовик", "самокат". На первом этапе строится терми- нологический словарь ПрО. Для этого из релевантного ЕЯ-текста извлекаются все именные группы (существительные). Из этого списка эксперт по знаниям вручную выбирает те именные группы, которые специфичны для ПрО: с учетом специфи- ки составления законодательных доку- ментов, специфичны (т. е. необходимы для корректного описания семантики до- кумента) практически все встречающиеся в нем именные группы. Именная группа представляет собой несколько стоящих рядом существительных и прилагатель- ных. Основные методы выделения и ана- лиза именных групп описаны в [4]. При этом основная задача эксперта заключает- ся в том, чтобы отделить имена классов от имен экземпляров (при этом практически все поименованные сущности должны быть отнесены к экземплярам). Процеду- ры поиска названий классов и поимено- ванных сущностей приведены в [5]. В общем виде это сводится к выполнению следующих шагов. Если для слова wi и соответствую- щего класса сi, o, o  сi и o  сi-1, то выделяется соответствующая именная группа. Следует отметить, что в законода- тельные документы (в частности, в Нало- говый кодекс) постоянно вносятся по- правки и дополнения. Поэтому при каж- дом изменении обрабатываемого доку- мента необходимо проверять, появились ли в нем новые термины. Если такие тер- мины обнаружены, то их надо включить в онтологию, а для описания их семантики проанализировать соответствующую ста- тью толкового словаря. Таким образом, первый этап повторяется итеративно при всех изменениях исходного обрабатывае- мого документа, а онтология ПрО моди- фицируется в соответствии с обнаружен- ными изменениями. На втором этапе формируется спи- сок отношений ПрО – аналогично списку терминов, но из текста извлекаются гла- голы. Для каждого отношения уточняется лишь, к которой из трех категорий оно относится – иерархические, синонимии, специфичные для ПрО. Основные типы отношений, их характеристики и способы описания приведены в [6]. Целью такого упрощения семанти- ки является увеличение скорости обработ- ки ЕЯ-текстов. Как показывает практика, такое упрощение почти не снижает каче- ство поиска. Моделі і засоби систем баз даних та знань 63 На третьем этапе для каждого из терминов в толковом словаре находится определение, которое описывает семанти- ку этого термина и его связи с другими терминами онтологии ПрО. Анализ таких определений позволяет дополнительно ввести в онтологию отношения между терминами – в первую очередь, родо- видовые и синонимические, а также атри- буты (свойства) этого класса и их воз- можные значения. Таким образом, впоследствии при поиске или анализе текста можно обна- руживать не только заданный термин, но и его подклассы, экземпляры, надкласс или термины-синонимы. Извлечение терминов из ЕЯ- документов. Так как в толковом словаре каждая статья представляет собой фраг- мент ЕЯ-текста, а сам анализируемый за- конодательный документ – ЕЯ-текст. Возникает необходимость в средствах лингвистического анализа, позволяющих использовать знания о конкретном есте- ственном языке для выделения отдельных лексем и словоформ, связанных с терми- нами и отношениями онтологии ПрО. Именно для этого предназначена лексическая онтология, более детально описанная в [7]. Извлечение семантики терминов онтологии на основе определений из толкового словаря Для выделения специфичных для ПрО "Налоговый кодекс" терминов и от- ношений между ними применяется следу- ющий алгоритм. Вначале в тексте Налогового кодек- са выделяются все существительные, про- изводные от существительных прилага- тельные и глаголы. Затем каждое из найденных слов преобразуется в исходную форму (напри- мер, для существительного это именитель- ный падеж единственного числа, для гла- гола – инфинитив и т. д.). После выполнения такой нормали- зации для каждого найденного слова в толковом словаре (предполагается, что толковый словарь, релевантный ПрО, доступен системе анализа, и его статьи мо- гут обрабатываться средствами этой си- стемы) надо найти его определение – сло- варную статью, заглавие которой совпада- ет с анализируемым термином ПрО, – и выполнить анализ найденного определе- ния следующим образом: 1) выделяется первая группа су- ществительного, идущая после описывае- мого понятия;  для каждого слова группы сло- ва "група", "клас", "вид", "тип", «галузь», "сукупність" заменяются именем онтоло- гического иерархического отношения «подкласс», связывающий это нормализо- ванное существительное с определяемым термином («свинарство – галузь тварин- ництва» трансформируется в «свинарство” «подкласс» «тваринництво»);  если слово стоит в именитель- ном падеже, то оно считается вышестоя- щим классом («свиня – тварина» транс- формируется в «свиня» «подкласс» «тва- рина»);  если слово стоит в родительном падеже, то оно связывается с исходным словом онтологическим отношением «свя- зано» («Аналіз – це пошук сутностей» трансформируется в «пошук» «связано» «сутність»); 2) выделяется глагол; в онтологию добавляется соответствующее отношение между терминами, соответствующими су- ществительным перед и после глагола (“корова дає молоко” трансформируется в “корова” «связано» «молоко»; 3) выделяется следующая группа существительных, в ней выделяется глав- ное слово (любой падеж, кроме винитель- ного, "вирощувати вовну білих овець"). Обработка продолжается до тех пор, пока не обработаны все части словар- ной статьи. Аналогично выполняется обработка для всех существительных из налогового кодекса, а затем полученные триплеты «субъект-отношение-объект» объединяют- ся в одну онтологию ПрО. Иерархические отношения позволяют организовать таксо- номию терминов ПрО. Моделі і засоби систем баз даних та знань 64 При этом пользователь может включать в онтологию только те термины и отношения, которые он считает суще- ственными. Использование онтологии ПрО для семантической разметки документов ПрО Семантическая разметка ЕЯ-текста заключается в том, чтобы установить связи элементов текста – слов, словосочетаний, предложений – с некоторыми понятиями соответствующей ПрО. Связи в общем случае устанавливаются по принципу "многие со многими", а сама разметка за- висит от выбранной ПрО и способа фор- мализации знаний соответствующей ПрО. Семантическая разметка текстов позволяет автоматизировано анализиро- вать их в дальнейшем на смысловом уровне, выполнять над текстами различ- ные логические операции, извлекать из них новые знания и т. п. При формирова- нии семантической разметки нужно ис- пользовать не только знания ПрО (или хо- тя бы ее терминологическую базу), но и правила того конкретного естественного языка, на котором написан текст. К сожа- лению, создание такой разметки является нетривиальной и довольно трудоемкой за- дачей. Семантическая разметка зависит и от того, какие именно средства использу- ются для описания ПрО. Формально семантическая разметка произвольного текста может быть опреде- лена следующим образом: Текст X , nxxX ,...,1 представ- ляет собой конечную последовательность символов, принадлежащих конечному множеству A , Axni i  ,,1, . При этом часть символов являются разделителями (символами, отделяющими дуг от друга отдельные слова текста) и относятся к множеству B , AB . Приме- ры разделителей пробел, точка, запятая. ПрО, для которой осуществляется семантическая разметка, характеризуется набором терминов из конечного множе- ства T ,  mttT ,...,1 . Эти термины могут использоваться в качестве тэгов семанти- ческой разметки. Произвольный фрагмент текста qpnqptt qp  ,,1,,,..., может быть связан с одним или несколь- кими понятиями из Т. Для этого соответ- ствующим тэгом отмечают начало такого фрагмента, а парным ему закрывающим тэгом – конец фрагмента. Семантическая разметка текстов позволяет автоматизировано анализиро- вать их в дальнейшем на семантическом уровне, выполнять над ними разные логи- ческие операции, извлекать из них новые знания и т. п. При формировании семантической разметки нужно использовать не только знания ПрО (или хотя бы ее терминоло- гическую базу), но и правила того кон- кретного естественного языка, на котором написан текст. К сожалению, создание такой разметки является нетривиальной и довольно трудоемкой задачей. Семанти- ческая разметка зависит и от того, какие именно средства используются для опи- сания ПрО. Алгоритм семантической размет- ки текстов. Семантическая разметка ЕЯ- текстов для определенной ПрО создается в два этапа. На первом этапе производится обучение с помощью алгоритма накопле- ния лингвистических сведений о ПрО (АНЛС). Необходимо сформировать сле- дующие множества: 1) wP – словоформы, связанные с понятиями онтологии ПрО. Эта информа- ция может быть извлечена из различных словарей синонимов, лингвистических баз данных, а также явным образом вручную из корпуса текстов; 2) wR – словоформы, связанные с отношениями онтологии ПрО (аналогич- но); 3) I – отношения именования (ОИ), связывающие: а – ПС и классы, б – классы и подклассы; Моделі і засоби систем баз даних та знань 65 4) wI – словоформы, связанные с ОИ; 5) шаблоны, связывающие ПС и имена их классов (в общем случае слабо зависящие или вообще не зависящие от предметной области). Эта операция мо- жет быть выполнена один раз, но в даль- нейшем множество шаблонов может расширяться для учета специфики ПрО. Каждый шаблон представляет собой строку символов, состоящую из имени предиката и модели управления, напри- мер, «называется». В корпусе текстов находятся сло- ва, написанные с большой буквы и не входящие в общий словарь, состоящие из больших букв и слова, взятые в кавычки, и для них выделяются синтаксические шаблоны, определяющие указание на принадлежность ПС к определенному классу. Затем в предложении с такими ПС обнаруживаются имена классов, к кото- рым принадлежат эти ПС. Если такое имя класса присутствует, то осуществляется попытка выделить слова, связывающие синтаксически ПС и имя ее класса. Если это удается, то для этих слов – ОИ– стро- ится шаблон. На вход АНЛС подаются: 1) онто- логия О, характеризующая знания поль- зователя об интересующей его ПрО; 2) словарь лексем естественного языка; 3) обучающая выборка ЕЯ-текстов, по ко- торой при участи пользователя формиру- ется набор словоформ, связанных с тер- минами онтологии О (корпус текстов). После того, как формируется набор множеств слов ЕЯ-текстов, каждый из ко- торых соответствует определенному тер- мину онтологии },...,{,,1, 1 miiii ssSntTt  , эти множества могут быть преобразова- ны для более эффективной обработки текста. Часть элементов множества iS },...,{ 1 mii ss могут быть опознаны пользователем как одна словоформа и заменены элементом, являющимся общей частью этих элемен- тов, iii Ssppksll kk  ,,2,,1,, . В результате обучения системы каждому термину онтологии О приписы- вается 0, 1 или несколько словоформ, со- ответствующих в ЕЯ данному понятию. Словоформы извлекаются из обучающего множества ЕЯ-текстов, отнесенных поль- зователем к определенной ПрО, описанной в О с точки зрения информационных инте- ресов пользователя. Полученная информа- ция заносится в таблицу С. Семантическую разметку законода- тельного документа при необходимости можно выполнять и в процессе формиро- вания онтологии ПрО (до ее окончатель- ного построения) с целью выделения важ- ных закономерностей ПрО. Разработка лексической онтологии ПрО для поддержки поиска фрагментов ЕЯ-текста, соответствующих терминам онтологии ПрО Лексическая онтология – это про- стой тезаурус, который содержит термины ПрО. Также в лексической онтологии со- держатся ссылки на соответствующие классы онтологии предметной области пользователя. Словоформы могут быть по- строены автоматически на основе какой- либо лингвистической базы данных (типа орфографического словаря) либо заполне- ны вручную пользователем – для новых или специфичных терминов ПрО. LO по- полняется итеративно: при каждом добав- лении к онтологии 1O нового класса в LO также включается этот новый класс, для которого тем или иным образом формиру- ется словоформа. 1O пополняется классом it , если в одном абзаце текста из 0T есть связанные с ним фрагменты, а также словоформы дру- гого класса, входящего в 1O и отношения. Новые классы для 1O извлекаются из информации, хранящейся в текстах 0T Моделі і засоби систем баз даних та знань 66 путем их лингвистического анализа. Например, для класса «собака» могут быть найдены такие супер классы, как «млеко- питающие», «животные», подклассы как «стаффордширский терьер», синонимы – с точки зрения конкретного пользователя (например, «живая подушка»), атрибуты («лапы», «хвостик», «цвет»). При этом сам пользователь может принять решение о том, что считать подклассами, а что – ат- рибутами. Для этого в лексическую онтоло- гию помещаются имена отношений ПрО и соответствующие им словоформы. Например, отношению «состоит из» соот- ветствуют такие фрагменты ЕЯ-текста, как «сделан из», «изготовлен из», «вклю- чает в себя». Такие словоформы могут быть сформированы следующим образом: если в одном предложении ЕЯ-текста об- наружены два фрагмента LOt 1 и LOt 2 , которые являются экземплярами классов лексической онтологии LO 1s и 2s соответственно, которым соответству- ют классы онтологии ПрО 1O 1c и 2c та- кими, что между этими классами 1O есть отношение ir , то тот фрагмент ЕЯ-текста iq , который находится между фрагмен- тами 1t и 2t , может являться экземпляром словоформы ir . И наоборот, если в одном предло- жении встретились два фрагмента LOt 1 и LOt 2 , которые являются экземплярами классов лексической онтологии LO 1s и 2s соответственно, но в онтологии ПрО не зафиксированы отношения между этими классами, то необходимо спросить пользо- вателя о необходимости пополнения онто- логии ПрО новым отношением. Использование лексической онто- логии позволяет избежать хранения в он- тологии длинных названий типа «столы компьютерные угловые с надставкой типа шкаф и двумя полками», которые сложно обрабатывать, поскольку может изменить- ся порядок слов. Использование внешних лингвистических баз данных для генерации лингвистической базы данных украинского языка При создании лексической онтоло- гии были использованы лингвистические знания о парадигмах словоформ украин- ского языка, представленные на интернет- сайте “Українського мовно-інформаційно- го фонду НАН України” (http://www.ulif.org.ua) Визуализация разметки и интерфейс с пользователем В результате семантической раз- метки фрагменты текста, связанные с терминами онтологии, помечаются от- крывающими и закрывающими тэгами с соответствующими именами. В дальней- шем при поиске по ключевым словам – терминам онтологии в тексте производит- ся анализ только сами тэгов, и пользова- телю выводятся только те фрагменты, ко- торые находятся между тэгами с соответ- ствующими именами (или его подкласса- ми или надклассом – по желанию пользо- вателя). В целом семантическая разметка визуализируется следующим образом: текст, находящийся между любыми двумя тэгами разметки, выводится на экран си- ним цветом. Если необходимо, то визуа- лизироваться может не вся разметка, а только та, которая связана с заданным пользователем набором тэгов. Такой набор может задаваться явно (путем пере- числения или выбора в списке тэгов) или неявно, через логические операции и от- ношения онтологии ПрО (например, все выбранные термины и их подклассы). Система нормализации терминологии Чтобы интегрировать различные виды естественно-языковых описаний и обрабатывать синонимию, необходимо: 1) в онтологии явным образом хранить сведения о том, что термин Т1 яв- ляется синонимом термина Т2 (или, Моделі і засоби систем баз даних та знань 67 например, его переводом на другой есте- ственный язык); 2) разработать методы и средства трансформации в тексте всех упоминаний термина Т2 в термин Т1. Эта задача сво- дится к замене в тексте словоформ одного слова словоформами другого слова. Замена словоформ одного слова словоформами другого слова выполняется в три этапа. 1. Определение морфологических характеристик словоформы. Такие харак- теристики находятся в морфологическом словаре. 2. Замена словоформ одного слова словоформами другого слова. 3. Проверка и исправление согласо- вания с прилагательными и глаголами в роде, числе и падеже. Если на первом этапе найдено бо- лее одного варианта, то имеет место слу- чай омонимии: в языкознании омоним – это слово, совпадающее с другим по зву- чанию, но полностью расходящееся с ним по значению, а также по системе форм или по составу гнезда, например, "течь" и "течь2", "косить1" и "косить2". || прил. омонимический, -ая, -ое и омонимичный, -ая, -ое. Для распознавания морфологиче- ской омонимии предлагается алгоритм упрощенного синтаксического анализа. В основе алгоритма лежит использование семантических характеристик слова, имеющихся в морфологическом словаре (одушевленность для существительных и переходность для глаголов). Распознавание случая омонимии начинается с поиска ближайшего к суще- ствительному глагола (причастия/деепри- частия) и определения его переходности. Непереходность глагола означает, что в предложении (причастном обороте, дее- причастном обороте, обособленном опре- делении, и т. п. ) не может быть суще- ствительного в винительном падеже. Например, в предложении «Коли ви не очікуєте податкового інспектора, він приходить саме до вас» форма “ін- спектора” соответствует родительному и винительному падежам, но глагол “очіку- вать” является непереходным, поэтому необходимо выбрать родительный падеж. Очень часто для распознавания омонимии достаточно информации об одушевленности/неодушевленности. Рас- смотрим пример “Рішення про переніс строків подання податкової декларації приймає керівник місцевої адміністрації”. Здесь форма “Рішення” соответствует именительному, винительному и роди- тельному падежу. Но слово “керівник” соответствует только именительному па- дежу, поэтому для слова «рішення» оста- ется родительный и винительный падеж, а поскольку глагол “приймає” является переходным, то остается только вини- тельный. Формирование запроса по таксономии терминов ПрО с возможностью включения подклассов и надклассов Например, если в запросе исполь- зован термин «корова», то запрос допол- няется его надклассом «тварина» и его подклассами. Такой расширенный запрос позволит обнаружить в документе все упоминания о более общих и более ча- стых случаях использования введенного ключевого слова. Разработанная система нормализации слов позволит обрабаты- вать слова, встречающиеся в документе в различных падежах, временах и т.п. Например, если в тексте встретилось «обробка телят», то пользователю этот фрагмент будет выделен по запросу «го- дуваня корів». Семантическая обработка полу- ченного запроса с учетом знаний о ПрО, содержащихся в онтологии, позволяет ис- пользовать слова-синонимы и слова, свя- занные с исходным термином в рамках ПрО (например, «корова» и «молоко»). Трансформация ЕЯ-запроса в набор ключевых слов, соответствующих терминам онтологии (с использованием лексической онтологии) позволяет обра- батывать различные словоформы и в за- просе, и в тексте закона. Поиск в ЕЯ-текстах фрагментов, релевантных запросу пользователя, ведет- Моделі і засоби систем баз даних та знань 68 ся на основе таких лексических знаний о ПрО, формализованных в виде лексиче- ской онтологии. Программная реализация Разработанная информационная система обеспечивает поиск в естествен- но-языковых документах, представляю- щих собой законы и нормативные акты, связанные с решаемой пользователем за- дачей (поиск релевантного набора доку- ментов находится вне рамок данного ис- следования) тех фрагментов текста, кото- рые непосредственно связаны с конкрет- ной информационной потребностью поль- зователя. Онтология ПрО обеспечивает знания о связях между терминами ПрО и позволяет заменять вводимые пользова- телем слова. Рассмотрим работу системы поша- гово на примере поиска нужной пользова- телю информации в Налоговом кодексе Украины. Предположим, пользователя инте- ресуют фрагменты этого документа, свя- занные с налогообложением транспорт- ных средств. При этом будем считать, что пользователь знает, в каком документе находятся интересующие его сведения, но недостаточно разбирается в законодатель- стве, чтобы четко сформулировать свой запрос в соответствующих терминах. Часть таких знаний отображены в лингвистической БЗ, позволяющей заме- нять термины на их синонимы, более при- вычные пользователю (и, соответственно, более понятные ему). Сведения о структуре и иерархии понятий ПрО зафиксированы в виде по- строенной ранее онтологии. Например, с помощью такой онтологии можно полу- чить информацию о том, что автомобиль является подклассом транспортного сред- ства, а легковой транспорт – транспорта. Это позволяет при необходимости кон- кретизировать или расширять запрос, ес- ли его первоначальный вариант не позво- ляет обнаружить нужную информацию. На первом шаге пользователь выби- рает документ, в контенте которого будет осуществляться поиск, например, «Подат- ковий кодекс». Затем он вводит ключевое слово или словосочетание для поиска. Предположим, пользователь ввел термин «автомашина», которого нет в Налоговом кодексе. Поэтому такой запрос при обыч- ном поиске не даст нужного результата. Однако в лингвистической БЗ предложен- ной системы содержится информация, что для этого слова существует синоним «ав- томобиль», который и используется в анализируемом документе. Поэтому си- стема трансформирует запрос, заменяя в нем слово «автомашина» на «автомо- биль», и такой запрос уже находит все упоминания в тексте нужного пользовате- лю термина. Однако предполагается, что пользо- вателю легче будет воспринять информа- цию в более привычной для него терми- нологии, и для этого предлагается осуще- ствить замену всех вхождений слова «ав- томобиль» на слово «автомашина» с уче- том форм слова. В открывшемся окне «Параметры замены» (рис. 1) вводится слово, которое нужно заменить, и слово для замены. В соответствующих таблицах появляются все словоформы. Следует заметить, что используе- мый для такой замены модуль относи- тельно автономен, использует знания о способах изменения слов в естественный языках и может быть использован в дру- гих приложениях, анализирующих есте- ственно-языковый текст – например, при семантической разметке, расширенном поиске или при переводе и редактирова- нии специализированных документов. Возвращаемся в главное окно и выбираем пункт меню «заменить». В списке сделанных замен появляются все встретившиеся случаи омонимии. Выби- раем один из них, и видим то место в тек- сте, где была сделана замена. После выполнения замены все найденные в документе слова выделяются цветом (рис. 2). Если необходимо совершить поиск по всей иерархии классов вверх и вниз от заданного слова, то пользователю нужно воспользоваться пунктом меню «Расши- ренный поиск». Моделі і засоби систем баз даних та знань 69 Слово, используемое в документе Слово, привычное пользователю Соответствие между словоформами Соответствие между словоформами Рис. 1. Параметры замены слова с учетом словоформ Найденное слово, выделенное в документе Список замен Рис. 2. Результаты поиска с учетом замены Моделі і засоби систем баз даних та знань 70 Перспективы развития предложен- ной системы связаны с ее расширением на более широкие предметные области, ха- рактеризуемые естественно-языковыми документами. Выводы Описанный в работе основанный на онтологическом представлении знаний подход обеспечивает семантическую раз- метку естественно-языковых текстов тер- минами предметной области, содержащи- мися в соответствующей онтологии, что упрощает поиск пользователями нужной им информации. 1. Лукашевич Н.В., Добров Б.В. Проектирова- ние лингвистических онтологий для информационных систем в широких предметных областях // Онтология проектирования. – 2015. – Т. 5, №1(15). – С. 47–69. 2. Pedersen T., Patwardhan S., Michelizzi J. WordNet: Similarity – measuring the relatedness of concepts // Proc. of the Nineteenth National Conference on Artificial Intelligence (AAAI-04), 2004. – P. 1024– 1025. 3. Рогушина Ю.В. Разработка онтологической модели информационной потребности пользователя при семантическом поиске // Онтология проектирования. – 2014. – № 2 (12). – С. 61–82. 4. Розробка методів та засобів онтолого- лінгвістичного аналізу природно-мовних об’єктів // М.Г. Петренко, О.В. Палагін, В.Ю. Величко. С.Л. Кривий. – Київ: 2009. (препр., Інститут кібенетиким імені В.М. Глушкова НАН України). – 38 с. 5. Лесько О., Рогушина Ю. Использование специализированной лексической онтоло- гии для автоматизации формирования он- тологии предметной области по естествен- но-языковым текстам // Information Models of Knowledge. ITHEA, Kiev – Sofia, 2010. – Р. 93–100. 6. Добров Б.В., Лукашевич Н.В., Невзорова О.А., Федунов Б.Е. Методы и средства ав- томатизированного проектирования при- кладной онтологии // Известия РАН. Тео- рия и системы управления. – М.: 2004. – № 2. – С. 58–68. 7. Лесько О.Н., Рогушина Ю.В. Использова- ние онтологий для анализа семантики естественно-языковых текстов // Проблеми програмування. – 2009. – № 3. – С. 59–65. 1. Lukashevich N.V., Dobrov B.V. Design of linguistic ontologies for information systems in the broad subject areas // Ontology engineering. – 2015. – Vol. 5, N 1 (15). – P. 47–69. (in Russian). 2. Pedersen T., Patwardhan S., Michelizzi J. WordNet: Similarity – measuring the relatedness of concepts // Proc. of the Nineteenth National Conference on Artificial Intelligence (AAAI-04), 2004. – P. 1024– 1025. 3. Rogushina J.V. Design of the ontological model of user information need in semantic search // Ontology of design. – 2014. – № 2 (12). – P. 61–82 (in Russian). 4. Design of methods and means of ontological- lіnguіstic analysis for natural language objects / M.G. Petrenko O.V. Palagіn, V.Y. Velichko, S.L. Kriviy. – Kiev: 2009. (Preprint, Glushkov Іnstitute of cybernetics). – 38 p. (in Ukrainian). 5. Lesko O., Rogushina J. Using of specialized lexical ontology for the automation forming of ontology of natural language texts // Information Models of Knowledge. ITHEA, Kiev – Sofia, 2010. – P. 93–100 (in Russian). 6. Dobrov B.V., Lukashevich N.V., Nevzoro- va O.A., Fedunov B.E. Methods and tools for automated design of applied ontology // Proceedings of RAN. Theory and control systems. – M.: 2004. – N 2. – P. 58–68 (in Russian). 7. Lesko O.N., Rogushina Y.V. Use of ontologies for analysis of natural language texts semantics // Problems of programming. – 2009. – N 3. – P. 59–65 (in Russian). Получено 09.10.2015 Моделі і засоби систем баз даних та знань 71 Об авторах: Лесько Ольга Николаевна научный сотрудник Финансового управления НАН Украины. Количество научных публикаций в украинских изданиях – 5. Индекс Гирша – 1. ORCID orcid.org/0000-0002-5584-3799, Рогушина Юлия Витальевна, кандидат физико-математических наук, старший научный сотрудник Института программных систем НАН Украины. Количество научных публикаций в украинских изданиях – 100. Количество научных публикаций в иностранных изданиях – 25. Индекс Гирша – 10. ORCID orcid.org/0000-0001-7958-2557. Место работы авторов: Финансовое управление НАН Украины. Институт программных систем НАН Украины, 03181, Киев-187, Проспект Академика Глушкова, 40. Тел.: (066) 550 1999. E-mail: ladamandraka2010@gmail.com mailto:ladamandraka2010@gmail.com