Ontological similar systems for analysis of texts of natural language

In this paper an approach to building of Ontological similar systems for analysis of texts in natural language (on this time only Ukrainian languages) is considered. Such systems are built on the base of formal definitions of ontology O = (X, R, F, A (D, Rc)) and syntactical and semantic analysis by...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2018
Автори: Kryvyi, S.L., Darchuk, N.P., Provotar, A.I.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2018
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/275
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-275
record_format ojs
resource_txt_mv ppisoftskievua/5d/4f9cb5d3d7ece7e59f34f7afb9c42c5d.pdf
spelling pp_isofts_kiev_ua-article-2752024-04-28T11:37:23Z Ontological similar systems for analysis of texts of natural language Онтологоподобные системы анализа естественноязыковых текстов Онтологоподібні системи аналізу природномовних текстів Kryvyi, S.L. Darchuk, N.P. Provotar, A.I. ontology; description Logics; syntactical and semantic analysis UDC 004.272 онтология; дескриптивные логики; синтактико-семантический анализ УДК 004.272 онтологія; дескриптивні логіки; синтактико-семантичний аналіз УДК 004.272 In this paper an approach to building of Ontological similar systems for analysis of texts in natural language (on this time only Ukrainian languages) is considered. Such systems are built on the base of formal definitions of ontology O = (X, R, F, A (D, Rc)) and syntactical and semantic analysis by using elements of Descriptive logics. When constructing an ontology, a subject domain is indicated and includes concepts from X and relations from R. Such indicates are necessary because of semantic sense of concepts and relations can be depend of the domain. Specification of domain is necessary to define more precision of the interpretation F. Additional adjustments of F are described by the axioms A of this domain and the restrictions Rc, which have the form of additional definitions (clarifications, constraints on possible values, etc.) of the properties of the domain of interpretation D. An input text T considered as domain of interpretation D.From Descriptive logics we use definition of syntax of concepts and relations. Using this syntax ef concepts and definitions we obtain first order logic and can do reasoning and obtain conclusions from information derived from input text. The input text T considered as the domain D of interpretation F for concepts X and relations R which are derived from it.Syntactical and semantic result of analysis is used as input data for building of ontology. As a result of such analysis is the partition of objects on the groups which are correspond of the parts of speech. By using this information and additional adjustments we build data knowledge of the input domain.In terms of user the domain D looks like an object of the relational database, which includes only unary and binary relations. The difference lies in the fact that classical database relationships are closed within this domain, while D as a database is open because the normalized representation of knowledge is executed in a situation where there is no assumption about the completeness of these knowledge. In addition, D relates the semantic relations of the concepts and the relation, which is not analogous to the relational database semantics.Problems in programming 2018; 2-3: 132-139 Рассматривается подход к построению онтологоподобных систем для исследования естественноязыковых текстов (на данное время только украинского языка) на основе синтактико-семантического анализа с использованием дескриптивных логик. Такие системы строятся на основе формального определения онтологии O = (X, R, F, A(D, Rc)) и синтаксического и семантического анализа с помощью элементов дескриптивной логики. При построении онтологии фиксируется предметная область, к которой относятся концепты из X и отношения из R. Фиксация области необходима, поскольку смысл концептов и отношений может быть разным в разных предметных областях. Спецификация области необходима ещё и для более точного определения интерпретации F. Дополнительные ограничения описываются аксиомами А этой области и ограничениями Rc, которые имеют вид дополнительных определений (уточнения, ограничения на возможные значения и т. д.) свойств области интерпретации D. Входной текст T рассматривается как область интерпретации D(Т). Из дескриптивной логики используются определения синтаксиса концептов и отношений. Используя этот синтаксис, определяется тип логического языка, который в данном случае является логикой предикатов первого порядка и появляется возможность проводить логический вывод и получать следствия из информации, полученной из входного текста. Входной текст T рассматривается как область интерпретации F для концептов из X и отношений R, которые из него получены. Результаты синтактико-семантического анализа используются как входные данные для построения онтологии. В результате такого анализа происходит разбиение объектов на группы, которые соответствуют частям языка. Используя эту информацию и дополнительные ограничения, строится онтология данной предметной области. С точки зрения пользователя D(T) выглядит как объект реляционной базы данных, который состоит только лишь из унарных и бинарных отношений. Разница состоит в том, что в классических БД отношения замкнуты в рамках данной базы данных, в то время как D(T), как база данных, является открытой для данной ПО, потому что нормализованное представление знаний используется в ситуации, когда нет предположения о полноте этих знаний. Кроме того, D(T) связывает семантическими отношениями концепты C и отношения R из R, чего не имеет аналога в семантике реляционных БД.Problems in programming 2018; 2-3: 132-139 Розглянуто підхід до побудови онтологоподібних систем для аналізу текстів на природній мові (на разі тільки українською мовою). Такі системи будуються на основі формальних визначень онтології O = (X, R, F, A(D, Rc)) та синтаксичного і семантичного аналізу за допомогою елементів дескриптивної логіки. При побудові онтології вказується предметна область, до якої відносяться поняття з X і відношення із R. Фіксація області необхідна, оскільки сенс понять та відношень може бути різним в різних предметних областях. Специфікація області необхідна також для точнішого визначення інтерпретації F. Додаткові обмеження F описуються аксіоми А цієї області та обмеженнями Rc, які мають форму додаткових визначень (уточнення, обмеження на можливі значення і т. д.) властивостей області інтерпретації D. Вхідний текст T розглядається як область інтерпретації D(Т). З дескриптивної логіки використовуються визначення синтаксису понять та відношень. Використовуючи цей синтаксис, визначається тип логічної мови, яка в даному випадку є логікою предикатів першого порядку і стає можливим проводити логічне виведення та отримувати висновки з інформації, отриманої з вхідного тексту. Вхідний текст T розглядається як область інтерпретації F для понять X та відношень R, які з нього отримані. Результати синтактико-семантичного аналізу використовуються як вхідні дані для побудови онтології. В результаті такого аналізу відбувається розбиття об'єктів на групи, які відповідають частинам мови. Використовуючи цю інформацію та додаткові обмеження, будується онтологія даної предметної області. З точки зору користувача D(T) виглядає як об’єкт реляційної бази даних, який складається лише з унарних та бінарних відношень. Різниця полягає в тому, що в класичних БД відношення замкнуті в рамках даної бази даних, в той час як D(T), як база даних, є відкритою для даної ПО, тому що нормалізоване представлення знань виконується в ситуації, коли немає припущення про повноту цих знань. Крім того, D(T) зв'язує семантичними відношеннями концепти C i відношення R із R, що немає аналогу в семантиці реляційних БД.Problems in programming 2018; 2-3: 132-139 Інститут програмних систем НАН України 2018-11-05 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/275 10.15407/pp2018.02.132 PROBLEMS IN PROGRAMMING; No 2-3 (2018); 132-139 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2018); 132-139 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2018); 132-139 1727-4907 10.15407/pp2018.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/275/269 Copyright (c) 2018 PROBLEMS OF PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-28T11:37:23Z
collection OJS
language Ukrainian
topic ontology
description Logics
syntactical and semantic analysis
UDC 004.272
spellingShingle ontology
description Logics
syntactical and semantic analysis
UDC 004.272
Kryvyi, S.L.
Darchuk, N.P.
Provotar, A.I.
Ontological similar systems for analysis of texts of natural language
topic_facet ontology
description Logics
syntactical and semantic analysis
UDC 004.272
онтология
дескриптивные логики
синтактико-семантический анализ
УДК 004.272
онтологія
дескриптивні логіки
синтактико-семантичний аналіз
УДК 004.272
format Article
author Kryvyi, S.L.
Darchuk, N.P.
Provotar, A.I.
author_facet Kryvyi, S.L.
Darchuk, N.P.
Provotar, A.I.
author_sort Kryvyi, S.L.
title Ontological similar systems for analysis of texts of natural language
title_short Ontological similar systems for analysis of texts of natural language
title_full Ontological similar systems for analysis of texts of natural language
title_fullStr Ontological similar systems for analysis of texts of natural language
title_full_unstemmed Ontological similar systems for analysis of texts of natural language
title_sort ontological similar systems for analysis of texts of natural language
title_alt Онтологоподобные системы анализа естественноязыковых текстов
Онтологоподібні системи аналізу природномовних текстів
description In this paper an approach to building of Ontological similar systems for analysis of texts in natural language (on this time only Ukrainian languages) is considered. Such systems are built on the base of formal definitions of ontology O = (X, R, F, A (D, Rc)) and syntactical and semantic analysis by using elements of Descriptive logics. When constructing an ontology, a subject domain is indicated and includes concepts from X and relations from R. Such indicates are necessary because of semantic sense of concepts and relations can be depend of the domain. Specification of domain is necessary to define more precision of the interpretation F. Additional adjustments of F are described by the axioms A of this domain and the restrictions Rc, which have the form of additional definitions (clarifications, constraints on possible values, etc.) of the properties of the domain of interpretation D. An input text T considered as domain of interpretation D.From Descriptive logics we use definition of syntax of concepts and relations. Using this syntax ef concepts and definitions we obtain first order logic and can do reasoning and obtain conclusions from information derived from input text. The input text T considered as the domain D of interpretation F for concepts X and relations R which are derived from it.Syntactical and semantic result of analysis is used as input data for building of ontology. As a result of such analysis is the partition of objects on the groups which are correspond of the parts of speech. By using this information and additional adjustments we build data knowledge of the input domain.In terms of user the domain D looks like an object of the relational database, which includes only unary and binary relations. The difference lies in the fact that classical database relationships are closed within this domain, while D as a database is open because the normalized representation of knowledge is executed in a situation where there is no assumption about the completeness of these knowledge. In addition, D relates the semantic relations of the concepts and the relation, which is not analogous to the relational database semantics.Problems in programming 2018; 2-3: 132-139
publisher Інститут програмних систем НАН України
publishDate 2018
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/275
work_keys_str_mv AT kryvyisl ontologicalsimilarsystemsforanalysisoftextsofnaturallanguage
AT darchuknp ontologicalsimilarsystemsforanalysisoftextsofnaturallanguage
AT provotarai ontologicalsimilarsystemsforanalysisoftextsofnaturallanguage
AT kryvyisl ontologopodobnyesistemyanalizaestestvennoâzykovyhtekstov
AT darchuknp ontologopodobnyesistemyanalizaestestvennoâzykovyhtekstov
AT provotarai ontologopodobnyesistemyanalizaestestvennoâzykovyhtekstov
AT kryvyisl ontologopodíbnísistemianalízuprirodnomovnihtekstív
AT darchuknp ontologopodíbnísistemianalízuprirodnomovnihtekstív
AT provotarai ontologopodíbnísistemianalízuprirodnomovnihtekstív
first_indexed 2024-09-16T04:08:25Z
last_indexed 2024-09-16T04:08:25Z
_version_ 1818568213042036736
fulltext Моделі та засоби систем баз даних і знань © С.Л. Кривий, Н.П. Дарчук, О.І. Провотар, 2018 132 ISSN 1727-4907. Проблеми програмування. 2018. № 2–3. Спеціальний випуск УДК 004.272 ОНТОЛОГОПОДІБНІ СИСТЕМИ АНАЛІЗУ ПРИРОДНОМОВНИХ ТЕКСТІВ С.Л. Кривий, Н.П. Дарчук, О.І. Провотар Розглянуто підхід до побудови онтологоподібних систем для аналізу текстів на природній мові (на разі тільки українською мовою). Такі системи будуються на основі формальних визначень онтології O = (X, R, F, A(D, Rc)) та синтаксичного і семантичного аналізу за допомогою елементів дескриптивної логіки. При побудові онтології вказується предметна область, до якої відносяться поняття з X і відношення із R. Фіксація області необхідна, оскільки сенс понять та відношень може бути різним в різних предметних областях. Специфікація області необхідна також для точнішого визначення інтерпретації F. Додаткові обмеження F описуються аксіоми А цієї області та обмеженнями Rc, які мають форму додаткових визначень (уточнення, обмеження на можливі значення і т. д.) властивостей області інтерпретації D. Вхідний текст T розглядається як область інтерпретації D(Т). З дескриптивної логіки використовуються визначення синтаксису понять та відношень. Використовуючи цей синтаксис, визначається тип логічної мови, яка в даному випадку є логікою предикатів першого порядку і стає можливим проводити логічне виведення та отримувати висновки з інформації, отриманої з вхідного тексту. Вхідний текст T розглядається як область інтерпретації F для понять X та відношень R, які з нього отримані. Результати синтактико-семантичного аналізу використовуються як вхідні дані для побудови онтології. В результаті такого аналізу відбувається розбиття об'єктів на групи, які відповідають частинам мови. Використовуючи цю інформацію та додаткові обмеження, будується онтологія даної предметної області. З точки зору користувача D(T) виглядає як об’єкт реляційної бази даних, який складається лише з унарних та бінарних відношень. Різниця полягає в тому, що в класичних БД відношення замкнуті в рамках даної бази даних, в той час як D(T), як база даних, є відкритою для даної ПО, тому що нормалізоване представлення знань виконується в ситуації, коли немає припущення про повноту цих знань. Крім того, D(T) зв'язує семантичними відношеннями концепти C i відношення R із R, що немає аналогу в семантиці реляційних БД. Ключові слова: онтологія, дескриптивні логіки, синтактико-семантичний аналіз. Рассматривается подход к построению онтологоподобных систем для исследования естественноязыковых текстов (на данное время только украинского языка) на основе синтактико-семантического анализа с использованием дескриптивных логик. Такие системы строятся на основе формального определения онтологии O = (X, R, F, A(D, Rc)) и синтаксического и семантического анализа с помощью элементов дескриптивной логики. При построении онтологии фиксируется предметная область, к которой относятся концепты из X и отношения из R. Фиксация области необходима, поскольку смысл концептов и отношений может быть разным в разных предметных областях. Спецификация области необходима ещё и для более точного определения интерпретации F. Дополнительные ограничения описываются аксиомами А этой области и ограничениями Rc, которые имеют вид дополнительных определений (уточнения, ограничения на возможные значения и т. д.) свойств области интерпретации D. Входной текст T рассматривается как область интерпретации D(Т). Из дескриптивной логики используются определения синтаксиса концептов и отношений. Используя этот синтаксис, определяется тип логического языка, который в данном случае является логикой предикатов первого порядка и появляется возможность проводить логический вывод и получать следствия из информации, полученной из входного текста. Входной текст T рассматривается как область интерпретации F для концептов из X и отношений R, которые из него получены. Результаты синтактико-семантического анализа используются как входные данные для построения онтологии. В результате такого анализа происходит разбиение объектов на группы, которые соответствуют частям языка. Используя эту информацию и дополнительные ограничения, строится онтология данной предметной области. С точки зрения пользователя D(T) выглядит как объект реляционной базы данных, который состоит только лишь из унарных и бинарных отношений. Разница состоит в том, что в классических БД отношения замкнуты в рамках данной базы данных, в то время как D(T), как база данных, является открытой для данной ПО, потому что нормализованное представление знаний используется в ситуации, когда нет предположения о полноте этих знаний. Кроме того, D(T) связывает семантическими отношениями концепты C и отношения R из R, чего не имеет аналога в семантике реляционных БД. Ключевые слова: онтология, дескриптивные логики, синтактико-семантический анализ. In this paper an approach to building of Ontological similar systems for analysis of texts in natural language (on this time only Ukrainian languages) is considered. Such systems are built on the base of formal definitions of ontology O = (X, R, F, A (D, Rc)) and syntactical and semantic analysis by using elements of Descriptive logics. When constructing an ontology, a subject domain is indicated and includes concepts from X and relations from R. Such indicates are necessary because of semantic sense of concepts and relations can be depend of the domain. Specification of domain is necessary to define more precision of the interpretation F. Additional adjustments of F are described by the axioms A of this domain and the restrictions Rc, which have the form of additional definitions (clarifications, constraints on possible values, etc.) of the properties of the domain of interpretation D. An input text T considered as domain of interpretation D. From Descriptive logics we use definition of syntax of concepts and relations. Using this syntax ef concepts and definitions we obtain first order logic and can do reasoning and obtain conclusions from information derived from input text. The input text T considered as the domain D of interpretation F for concepts X and relations R which are derived from it. Syntactical and semantic result of analysis is used as input data for building of ontology. As a result of such analysis is the partition of objects on the groups which are correspond of the parts of speech. By using this information and additional adjustments we build data knowledge of the input domain. In terms of user the domain D looks like an object of the relational database, which includes only unary and binary relations. The difference lies in the fact that classical database relationships are closed within this domain, while D as a database is open because the normalized representation of knowledge is executed in a situation where there is no assumption about the completeness of these knowledge. In addition, D relates the semantic relations of the concepts and the relation, which is not analogous to the relational database semantics. Key words: Ontology, Description Logics, syntactical and semantic analysis. Моделі та засоби систем баз даних і знань 133 1. Вступ Створення онтологоподібної системи ґрунтується на понятті онтології, формальне означення якої має вигляд: ) , ,( FRXO  , де X – скінченна множина концептів (понять), R – скінченна множина бінарних (семантичних) відношень, визначених на X , і F – функція інтерпретації на деякій області D елементів із X і R , тобто DRXF : . При побудові онтології вказується предметна область (ПО), до якої відносяться концепти із X і відношення із R . Конкретизація ПО необхідна для означення інтерпретації F . Зв’язок F з ПО може вносити додаткові корективи в означення F . Додаткові корективи описуються аксіомами A даної ПО і обмеженнями cR , які мають вигляд додаткових дефініцій (уточнень, обмежень на можливі значення тощо) властивостей із області інтерпретації D даної ПО. Таким чином, приходимо до уточненого означення онтології для конкретної ПО: )),(, , ,( cRDAFRXO  . Різниця між означеннями (1) і (2) полягає в наступному [1]. а) множина концептів X в (1) орієнтована на проблему, яку потрібно розв’язати, а в (2) ця множина повинна бути максимально повною для даної ПО і повинна будуватися автоматизованими засобами; б) множина R в (1) суб’єктивна, а в 2) повинна виконуватися на множині D , будуватися автоматизованими засобами та перевірятися на сумісність системою логічного виведення та, можливо, експертами в даній ПО; в) функція інтерпретації F в (1) обирається користувачем відповідно до його професійної компетенції, власної або довідкової інформації, а в (2) ця функція формується, виходячи із загальнозначимих джерел текстової інформації – енциклопедій, тлумачних словників, результатів синтактико-семантичного аналізу тощо; г) множина аксіом A описує додаткові специфічні означення концептів із D і обмеження інтерпретації cR даної ПО. Множина D включає значення концептів із X і R, а також вводить концепти, які не ввійшли до X і R . Цим самим уточнюються і довизначаються специфічні властивості концептів і відношень даної ПО. Ці уточнення ґрунтуються на думці кола експертів в даній ПО. Множина cR включає лише значимі обмеження на інтерпретацію і може бути, зокрема, пустою множиною. Наприклад, обробляється лише «діловий стиль» або «дискретна математика: комбінаторика». Таким чином, означення (2) містить декларативні і процедурні засоби даної ПО, що дає можливість розв’язувати завдання користувача. 1. Основні компоненти системи Зі сказаного у вступі, завдання, які випливають з означення (2), зводяться до наступних. 1.1. Визначити область інтерпретації онтології ПО. Обов’язково потрібно зафіксувати предметну область. Необхідність цієї фіксації полягає в тому, що одні й ті самі поняття в різних ПО можуть мати різні значення. На вхід системи подаються тексти (на разі лише українською мовою, хоча передбачається подальший розвиток системи шляхом включення інших мов, зокрема, російської та англійської), які відносяться до даної ПО. Областю інтерпретації концептів і відношень онтології виступає множина текстів T , за якою будується термінологія ПО, в якій інтерпретується множина концептів X і множина смислових відношень R. Для множини X область інтерпретації FX розбивається на класи (наприклад, імена власні/невласні, назви осіб, назви абстрактні/конкретні, фах тощо) [2]. Це розбиття є результатом синтактико-семантичного аналізу, який будує класи концептів за їх типами. Крім того, цей аналіз виконує побудову синтаксичних залежностей між членами речення у вигляді ациклічного орграфа. Синтаксичні залежності за певним відношенням між членами речення несуть певну семантичну інформацію, яка використовується для виявлення семантичних ознак та потенційних смислових зв’язків між лексичними одиницями. Виявлення семантичних ознак відбувається не за єдиними правилами (їх просто не існує), а залежить від мети аналізу, від дослідників, від уміння розробників (рисунок). Приклад 1. Проаналізуємо речення "Склянку борошна необхідно залити склянкою холодного молока". Синтаксичний аналіз дасть на виході такий ациклічний орграф (за відношенням “`Хазяїн-Слуга''): Моделі та засоби систем баз даних і знань 134 Необхідно  залити   склянку склянкою   Борошна молока  холодного Рисунок. Результат синтаксичного аналізу речення Семантичне представлення цього речення матиме такий вигляд: 1. КІЛЬК(ОДИН, СКЯНКА), 2. КІЛЬК(ОДИН, БОРОШНО), 3. КІЛЬК(ОДИН, СКЯНКА), 4. КІЛЬК(ОДИН, МОЛОКО), 5. ОЗНАК(ХОЛОДНИЙ, МОЛОКО), 6. МОДАЛ(НЕОБХІДНО,ЗАЛИТИ), 7. АГЕНТ(?, ЗАЛИТИ), 8. ОБ'ЄКТ(БОРОШНО,ЗАЛИТИ), 9. КІНЦ-Т(ОДИН,ЗАЛИТИ), 10. МЕТА(?,ЗАЛИТИ). З цього семантичного представлення випливає розуміння речення приблизно такого змісту: «Борошно треба залити молоком, поки що невідомо ким і навіщо»}. Уточнення навіщо з тексту буде зрозумілим, але можливо потрібним буде його уточнення за допомогою відповідної дефініції. Обмеження ),( cRDA уточнюють концепти із X і вводять (наприклад, в діалозі з користувачем) нові концепти і відношення. Так, для атомарного концепту «молоко» уточнення «молоко холодне» потребує введення нового концепту «холодне», який виділяє специфічні властивості (ознаки) концепту «молоко» із множини значень його інтерпретації. Детальніше про це далі. Область інтерпретації ПО будемо позначати )(TD . 1.2. Визначення синтаксису мови концептів. Для розробки представлення концептів із X і R пропонується такий синтаксис [3, 4]: нехай A i B довільні концепти із X i R із R , тоді BA, ::= C (атомарний концепт) | ⊤ (універсальний концепт) | ⊥ (пустий концепт) | ¬ A (заперечення атомарного концепту) | C ⨅ D (перетин) |  СR. (обмежене значення) |  .R ⊤ (обмежений квантор існування). Зауважимо, що заперечення застосовується лише до атомарних концептів, а для квантора існування областю його дії є універсальний концепт. До цього синтаксису додається можливість опису індивідуальних імен, Ці імена називають номіналами і вводяться в дескриптивну мову за допомогою конструктора «множини» },...,,{ 21 naaa . Цей конструктор перетворює сукупність індивідуальних імен у концепт. Наведений синтаксис орієнтується на теоретико-множинну модель семантики: нехай )(TD – область інтерпретації, тоді – ⊤F )(TD , – F  , – },...,,{},...,,{ 2121 F n FFF n aaaaaa  , Моделі та засоби систем баз даних і знань 135 – )()( TDC F  \ FC , – (C ⨅ B)F = FC ∩ FB , – (R.C)F = {a  D(T) : b (a,b)  RF → b FC }, – (R.⊤)F = {a D(T) : b (a,b)  RF}, де RF )(TD  )(TD , FC  )(TD , C – атомарний концепт, R – атомарна роль (бінарне відношення). Крім того, будемо використовувати наступні додаткові конструктори концептів: – об’єднання концептів C ⨆ B з інтерпретацією (C ⨆ FB) = FC  FB ; – повний квантор існування (R. FC) ={a D(T) : b (a,b)  FR  b  FC }; – числове обмеження ≥ nR (не менше) і ≤ nR (не більше) з інтерпретацією (≥nR) = {a D(T) : |{b:(a,b)  RF}|≥n}, (≤nR) = {a  D(T) : |{b: (a,b)  FR }|≤ n}. – заперечення довільного концепту ¬C з інтерпретацією (¬ FC) = D(T) \ FC . Зауважимо, що об’єднання і квантор існування можна було б і не вводити, а скористатися законами C ⨆ B = ¬(¬C ⨅ ¬B) i R.C= ¬R.¬C. Єдиними термінологічними аксіомами для концептів і відношень є аксіоми вигляду: B ⊑ C (R ⊑ Q) або B  C (R  Q) з наступною інтерпретацією. Кажуть, що аксіома B ⊑ C (R ⊑ Q) виконується в інтерпретації F, якщо FB  FC ( FR  FQ ). Аналогічно, аксіома B  C (R  Q) виконується в інтерпретації F, якщо FB = FC ( FR = FQ ). Обмежимося введеними конструкторами визначення нових концептів та термінологічними аксіомами і розглянемо, що можна виразити за їх допомогою. Приклад 2. Нехай атомарними концептами є «особа, стать-ж, вмістилище», а атомарними бінарними відношеннями є «має» і «складається-із». Використовуючи ці атомарні об'єкти, можна побудувати термінологію ПО «адреса особи» кімната-жила ⊑ вмістилище ⨅ має.особа номер  {1,...,100} квартира ⊑ ≥1складається-із.кімната-жила квартира ⊑ має.номер будинок ⊑ має.номер ⨅ має.квартира жінка ⊑ особа ⨅ стать-ж чоловік ⊑ особа ⨅ ¬ жінка заміжня-жінка ⊑ жінка ⨅ має.чоловік чоловік-жонатий ⊑ чоловік ⨅ має. жінка особа-з-адресою ⊑ особа ⨅ має.будинок Це дещо спрощений варіант ПО «адреса особи» тому, що не вказано місто, де живе подружжя чи окрема особа, вулиця та країна. Цю термінологію можна легко поповнити цими концептами. 1.3. Мова концептів як фрагмент логіки предикатів. Семантика мови концептів, яка наведена вище, говорить про те, що вона являє собою фрагмент мови предикатів першого порядку. Оскільки інтерпретація є теоретико-модельною семантикою, то на інтерпретовані концепти і відношення можна дивитися як на унарні і бінарні предикати, визначені на множині )(TD . А це дає можливість транслювати у формули логіки предикатів ( )C xf атомарні концепти з однією вільною змінною x такою, що для довільної інтерпретації F множина елементів із )(TD , які виконують ( )C xf , збігається з множиною FC . При цьому атомарний концепт C Моделі та засоби систем баз даних і знань 136 транслюється у формулу C(x), а конструктори ⨆, ⨅, ¬ – у логічні диз'юнкцію, кон'юнкцію та заперечення відповідно. Якщо C вже странсльоване у формулу ( )C x і R – атомарне бінарне відношення, то квантори існування і загальності виражаються формулами: . ( ) ( ) . (y) ( )( ) . ( , ) , ( ) . ( , ) ,R C x C x R C C xy x R y x y x R y x         де y – нова змінна, а числові обмеження виражаються формулами 1 1 1 1( ) ,..., . ( , ) ... ( , ) ,nR n n i j i jx y y R x y R x y y y          1 1 1 1( ) ,..., . ( , ) ... ( , ) .nR n n i j i jx y y R x y R x y y y         Предикат рівності «=» необхідний, оскільки за його допомогою виражаються числові обмеження. Але оскільки концепти транслюються в логіку предикатів, то вводити спеціальний синтаксис немає потреби. 1.4. Об’єкти в області інтерпретації D(T). Оскільки реальні об’єкти онтосистеми належать області інтерпретації )(TD , то необхідно описати світ, в якому вони інтерпретуються. Цей опис представляється в термінах концептів і бінарних відношень, які беруться із області інтерпретації )(TD . Деякі атомарні концепти і відношення можуть визначатися як термінологічні імена і тоді можна вводити індивідууми шляхом присвоювання їм імен з описом властивостей цих індивідуумів. Нехай cba ,, … – індивідууми, тоді, користуючись концептом C і відношенням R , можна побудувати властивості таких типів: )(aC i ),( cbR , де )(aC означає властивість « a належить концепту C »', a ),R( cb означає властивість відношення, яке означає, що «c наповнення відношення R для b». Наприклад, якщо атомарними концептами виступає B=ІМ'Я, C=ФАХ, атомарним бінарним відношенням є R =БАТЬКО, а іменами індивідуумів в )(TD є ПЕТРО, ІВАН, СТЕПАН, то інтерпретацією концепту Bє є множина {ПЕТРО, ІВАН, СТЕПАН}, CF ={ЛІНГВІСТ, ЛІКАР, ПРОГРАМІСТ}, а FR ={( ПЕТРО, ІВАН), (ПЕТРО, СТЕПАН)}. Після цього «ЛІНГВІСТ(ПЕТРО)»' означає, що Петро фахівець з лінгвістики, а «БАТЬКО(ПЕТРО, ІВАН )» означає, що Петро батько Івана. Таким чином, з точки зору користувача )(TD виглядає як об’єкт реляційної бази даних (БД), який складається лише з унарних та бінарних відношень. Різниця полягає в тому, що в класичних БД відношення замкнуті в рамках даної ПО, в той час як )(TD , як база даних, є відкритою для даної ПО, тому що нормалізоване представлення знань виконується в ситуації, коли немає припущення про повноту цих знань. Крім того, )(TD зв’язує семантичними відношеннями концепти C i відношення R із R, що немає аналогу в семантиці реляційних БД. Приклад 3. Нехай на вході є текст: «Поняття множини належить до аксіоматичних понять математики, і точне його означення дати неможливо. Часто приймається формулювання інтуїтивного поняття множини Г. Кантора, який є основоположником цієї теорії. Означення. Довільна сукупність певних предметів нашої інтуїції чи інтелекту, які можна відрізнити один від одного і які уявляються як єдине ціле, називається множиною. Предмети, які входять до складу множини, називаються її елементами}. Суттєвим пунктом канторівського розуміння множини є те, що зібрання предметів розглядається як один предмет (‘’уявляється як єдине ціле’’). Основна увага тут переноситься з окремих предметів на зібрання предметів, які, в свою чергу, можна розглядати як предмети. Що стосується «предметів нашої інтуїції чи інтелекту», то це формулювання дає значну свободу, насамперед, тим, що ніяк не обмежує природу предметів, з яких складається множина. Множина може складатися, наприклад, з людей, точок площини, простих чисел, планет Всесвіту. Зауважимо також, що канторівське формулювання множини дає змогу розглядати множини, елементи яких з певних причин точно визначити неможливо. У зв'язку з цим згадаємо, що елементи будь-якої нескінченної множини неможливо зібрати, навіть теоретично, в скінченну сукупність. Відомі також скінченні множини, які мають таку ж міру невизначеності, як нескінченна множина. З’ясуємо, нарешті, зміст висловів: «які можна відрізнити один від одного» і «певні предмети». У першому випадку для будь-яких двох предметів, що розглядаються як елементи даної множини, повинна існувати можливість з'ясувати, чи різні ці предмети, чи однакові. У другому випадку, якщо задані деяка Моделі та засоби систем баз даних і знань 137 множина і який-небудь предмет, то можна визначити, чи цей предмет є елементом даної множини чи ні. Звідси випливає, що всяка множина повністю визначається своїми елементами. Ця канторівська вимога формулюється у вигляді аксіоми. Аксіома екстенсіональності. Дві множини рівні тоді і тільки тоді, коли вони складаються з одних і тих же елементів. Рівність двох Множин A і B позначають A = B. Отже, дві множини рівні, якщо кожний елемент однієї з них є елементом другої, і навпаки. Множина називається скінченною, якщо вона складається із скінченного числа елементів. Запис Aa (aA) означає, що a є (не є) елементом множини A. Однозначно визначена множина, елементами якої є naaa ,...,, 21 , позначається },...,,{ 21 naaa .» Семантико-синтаксичний аналіз розбиває концепти і смислові відношення, які знаходяться в цьому тексті, на такі класи (таблиця). Таблиця Концепти Відношення Уточнення (ознаки) Аксіома Однакові Скінченна(ий) Визначення Належить Нескінченна(ий) Множина Включає Певна(ий) Елемент Рівні Задана(ий) Сукупність Приймається Дана(ий) Предмети Позначається Будь-яка(ий) Число Вважається Довільна(ий) Висловлювання Складається Канторівський Теорія Еквівалентні Інтуїтивне(а,ий) Інтуїція Визначається Інтелект Обмежує Екстенсіональність Має Однозначність Основоположник Ознака Побудова Формулювання Пункт Природа Тепер виконаємо поповнення перерахованих в таблиці концептів, використовуючи як абстрактні атомарні концепти «сукупність, елемент, А, В, С,…» і атомарні бінарні відношення «має, належить, складається-із'» для побудови онтології ПО ``Елементи теорії множин'': Множина ⊑ сукупність ⨅ має.елемент множина-скінченна  },...,,{ 21 naaa елем-множини ⊑ множина ⨅ належить.елемент множина-пуста  множина ⨅ ¬ має.елемент алфавіт-число  {0,1,2,3,4,5,6,7,8,9} слово-в-алфавіті ⊑ ≥n складається-із.алфавіт-число натуральне-число ⊑  складається-із.слово-в-алфавіті натуральні-числа  множина ⨅  складається-із.натуральне-число Моделі та засоби систем баз даних і знань 138 ∃підмножина.⊤⊑ А ⊓⊤⊑∀ підмножина.В ⊓ А ⊑ В – термінологічна аксіома ∃підмножина.⊤⊑ А ⊓⊤⊑∀ підмножина.В ⊓ А  В – термінологічна аксіома об'єднання-множин  А ⨆ В перетин-множин  А ⨅ В доповнення-множини  ¬ А Ця побудова, в разі необхідності введення нових концептів і відношень, може продовжуватися далі. Наприклад, до цих означень додаються закони комутативності для операцій об'єднання та перетину і властивість подвійного доповнення: А ⨆ В  В ⨆ А А ⨅ В  В ⨅ А ¬(¬А)  A. Подібним чином вводяться й інші закони алгебри множин. Після виконання дефініцій і додаткових уточнень наступає етап трансляції введених концептів і відношень у формули логічної мови. Логічна мова може вибиратися в залежності від поставлених вимог до онтосистеми. Але, як було сказано вище, такою мовою, як правило, виступає мова предикатів першого порядку. А це означає, що алфавітом такої мови є множина концептів X, елементарними предикатами виступають атомарні відношення, (можливо, парaметризовані), тобто предикати, які відповідають елементам множини R Ця множина відношень може поповнюватися новими відношеннями, введеними за допомогою дефініцій. Повернемося до вищенаведеного приклада. Приклад 4. Дано. Алфавіт X ={множини={A, D, …., A1,B1,….}, елементи = ....},,,...,,{ nasba , відношення R={належить ),( Aa , складається-із( ia )}. Запитання: чи справедливий закон дистрибутивності для операцій об'єднання і перетину, тобто чи вірно, що A ⨆ (B ⨅ C) = (A ⨆ B) ⨅ (A ⨆ C). Трансляція в мову предикатів перетворює даний вираз до вигляду (який зрозумілий системі логічного виведення). Мета – довести (методом включення в обидві сторони): «підмножина(A ⨆ (B ⨅ C), (A ⨆ B) ⨅ (A ⨆ C))  підмножина ((A ⨆ B) ⨅ (A ⨆ C), A ⨆ (B ⨅ C))» . Для доведення виконується трансляція формули, яка йде знизу-вверх за вищенаведеними дефініціями. Конструктори ⨆ і ⨅ інтерпретуються відповідно теоретико- множинними операціями  і  . Отже, потрібно довести включення «((A (B  C))   належить. а)  (((A B)  (А С))   належить.a)». Доведення: Припущення: нехай «((А  ( B  C)  належить.a», тоді «(А  належить.a)  ((B∩C)  належить.a) → ((А належить.a)  (( B  належить.a)  (С належить.a))) → ((AB)  належить.a)  ((A C)  належить.a) → ((A∩ B) (A∩ C)  належить.a)». Результат: включення вірне: «(А  ( B  C) є підмножиною (A∩ B) (A∩ C). Обернене включення доводиться аналогічно. В підсистемі логічного виведення такі доведення можна виконати методом резолюцій або методом семантичного табло. Висновки Підводячи підсумок з вищесказаного, отримуємо таку послідовність етапів побудови і аналізу текстів в онтологоподібній системі: 0) зафіксувати предметну область, до якої відноситься онтологія (корінь онтології); 1) виконати семантико-синтаксичний аналіз вхідного тексту T; 2) побудувати розбиття синтаксичних і семантичних одиниць тексту T на класи (концепти, відношення, обмеження тощо), тобто побудувати множини X і R та область інтерпретації D(T); 3) виконати трансляцію елементів множини концептів і відношень у формули логіки предикатів першого порядку; Моделі та засоби систем баз даних і знань 139 4) виконати поповнення множини концептів і відношень новими концептами і відношеннями (в разі необхідності); 5) використовуючи систему логічного виведення, виконати перевірку генерації логічних наслідків на наборі тестових запитів до онтосистеми; 6) якщо в процесі логічного виведення необхідно виконати поповнення концептів і відношень, то перейти на крок 5) (таке поповнення виконується в діалозі системи з користувачем і його необхідність виникає в результаті неповноти фактів, потрібних для завершення процесу виведення). Література 1. Палагін О.В., Петренко М.Г. Тлумачний онтографічний словник з інженерії знань. Київ: Інтерсервіс. 2017. 477 с. 2. Дарчук Н.П. Комп'ютерне анотування українського тексту: результати і перспективи. Київ: Освіта України. 2013. 543 с. 3. Baader F., Calvanese D., McGuinness D.L. and other. The Description Logic Handbook. Cambridge: University Press. 2007. 601 p. 4. Крывый С. Л., Дарчук Н.П., Ясенова И.С., Головина А.Л., Соляр А.С. Методы и средства систем представления знаний. Publisher: ITHEA. Inter. journ. «Information Content and Processing». 2017. Vol. 4. № 1. С. 62–99. References 1. Palagin A.V., Petrenko N.G.. Ontografical explanatory dictionary for engineering knowledge. Kiev: Interservice. 2017. 477 p. 2. Darchuk N.P. Computer annotation of texts in Ukrainian language: results and perspectives. Kiev: Ukraine Education. 2013. 543 p. 3. Baader F., Calvanese D., McGuinness D.L. and other. The Description Logic Handbook. Cambridge: University Press. 2007. 601 p. 4. Kryvyi S.L., Darchuk N.P., Jasenova I.S., Golovina A.L., Soliar A.S. Methods and tools of systems for knowledge representation. Publisher: ITHEA. – Inter. journ. «Information Content and Processing». 2017. Vol. 4. N 1. P. 62–99. Про авторів: Кривий Сергій Лук’янович, доктор-фізико-математичних наук, професор, професор Київського національного університету імені Тараса Шевченка. Кількість наукових публікацій в українських виданнях – 155. Кількість наукових публікацій в зарубіжних виданнях – 60. Індекс Хірша – 4. http://orcid.org/0000-0003-4231-0691, Дарчук Наталія Петрівна, доктор філологічних наук, професор Київського національного університету імені Тараса Шевченка. Кількість наукових публікацій в українських виданнях – 155. Кількість наукових публікацій в зарубіжних виданнях – 16. http://orcid.org/0000-0003-4564-0872, Провотар Олександр Іванович, доктор-фізико-математичних наук, професор, професор Київського національного університету імені Тараса Шевченка. Кількість наукових публікацій в українських виданнях – 100. Кількість наукових публікацій в зарубіжних виданнях – 30. Індекс Хірша – 4. http://orcid.org/0000-0066-0278-5897. Місце роботи авторів: Київський національний університет імені Тараса Шевченка , 01601, Київ, вул. Володимирська, 60. Тел.: +38 (097) 334 6056, +38 (050) 443 5200, +38 (050) 444 1705. E-mail: krivoi@i.com.ua sl.krivoi@gmail.com, nataliadarchuk@gmail.com, aprovata@unicyb.kiev.ua http://orcid.org/0000-0066-0278-5897 mailto:nataliadarchuk@gmail.com