Use of Ontology-based knowledge Organization Sysytems for WIKI Resources

The paper considers the theoretical foundations of knowledge organization systems(KOSs) in intelligent ontology-based applications. The aim of this study is to analyze the use of different types of KOSs to organize and improve the knowledge base of semantic Wiki resources that contain heterogeneous ...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2022
Автор: Rogushina, J.V.
Формат: Стаття
Мова:Ukrainian
Опубліковано: PROBLEMS IN PROGRAMMING 2022
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/487
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-487
record_format ojs
resource_txt_mv ppisoftskievua/47/f9a7d2d26b67cdb1c263694bfc206d47.pdf
spelling pp_isofts_kiev_ua-article-4872022-07-12T19:24:25Z Use of Ontology-based knowledge Organization Sysytems for WIKI Resources Використання систем організації знань на основі онтологій у WIKI-ресурсах Rogushina, J.V. knowledge organization system; ontology; thesaurus; Wiki-resource UDC 681.3 система організації знань; онтологія; тезаурус; Wiki-ресурс УДК 681.3 The paper considers the theoretical foundations of knowledge organization systems(KOSs) in intelligent ontology-based applications. The aim of this study is to analyze the use of different types of KOSs to organize and improve the knowledge base of semantic Wiki resources that contain heterogeneous multimedia content of large volume and have a complex structure integrated knowledge from different domains. The dialects of the OWL ontology representation language and their expressiveness for representing special cases of ontologies used in KOSs are considered. The criteria for the classification of KOSs and sphere of their usage are analyzed. Formal model of ontology for semantic Wiki resource is proposed. This model is integrated with various implementing means for different types of relations between objects in the Semantic MediaWiki environment based on templates. Problems of access and retrieval of information in these resources and methods of their solving from the KOSs point of view are considered. The software implementation of the proposed approach with the example of the portal version of the Great Ukrainian Encyclopedia (e-VUE) is realized. The urgency of the problem intensifies by the need for national information resources in martial law situation, for which the determining factors of effective information processing are both the ability to obtain satisfaction of complex information needs and the relevance of the information obtained. This increases the importance of official government portals that integrate reliable data from various fields of knowledge and prevent possible misrepresentation (both accidental and malicious) of information in resources with open content generation.Prombles in programming 2022; 1: 23-33 У статті розглядаються теоретичні основи систем організації знань (СОЗ) в інтелектуальних застосуваннях на основі онтологій. Ціллю даного дослідження є аналіз застосування різних типів СОЗ для організації та вдосконалення бази знань семантизованих Wiki-ресурсів, які містять гетерогенний мультимедійний контент великого обсягу та мають складну структуру, що інтегрує знання із різних ПрО. Розглянуто діалекти мови подання онтологій OWL та їх виразність для подання окремих випадків онтологій, що використовуються у СОЗ. Проаналізовано критерії класифікації СОЗ та сфери їх застосування. Запропоновано формальну модель онтології семантизованого Wikі-ресурсу та засоби реалізації різних видів відношень між об’єктами у середовищі Semantic MediaWiki з використанням шаблонів, розглядаються проблеми доступу до інформації у цих ресурсах з точки зору СОЗ та наводяться методи й засоби вирішення цих проблем. Представлено реалізацію запропонованого підходу на прикладі портальної версії Великої Української Енциклопедії (е-ВУЕ).Problems in programming 2022; 1: 23-33 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2022-05-30 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/487 10.15407/pp2022.01.023 PROBLEMS IN PROGRAMMING; No 1 (2022); 23-33 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2022); 23-33 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2022); 23-33 1727-4907 10.15407/pp2022.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/487/486 Copyright (c) 2022 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2022-07-12T19:24:25Z
collection OJS
language Ukrainian
topic knowledge organization system
ontology
thesaurus
Wiki-resource
UDC 681.3
spellingShingle knowledge organization system
ontology
thesaurus
Wiki-resource
UDC 681.3
Rogushina, J.V.
Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
topic_facet knowledge organization system
ontology
thesaurus
Wiki-resource
UDC 681.3
система організації знань
онтологія
тезаурус
Wiki-ресурс
УДК 681.3
format Article
author Rogushina, J.V.
author_facet Rogushina, J.V.
author_sort Rogushina, J.V.
title Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
title_short Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
title_full Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
title_fullStr Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
title_full_unstemmed Use of Ontology-based knowledge Organization Sysytems for WIKI Resources
title_sort use of ontology-based knowledge organization sysytems for wiki resources
title_alt Використання систем організації знань на основі онтологій у WIKI-ресурсах
description The paper considers the theoretical foundations of knowledge organization systems(KOSs) in intelligent ontology-based applications. The aim of this study is to analyze the use of different types of KOSs to organize and improve the knowledge base of semantic Wiki resources that contain heterogeneous multimedia content of large volume and have a complex structure integrated knowledge from different domains. The dialects of the OWL ontology representation language and their expressiveness for representing special cases of ontologies used in KOSs are considered. The criteria for the classification of KOSs and sphere of their usage are analyzed. Formal model of ontology for semantic Wiki resource is proposed. This model is integrated with various implementing means for different types of relations between objects in the Semantic MediaWiki environment based on templates. Problems of access and retrieval of information in these resources and methods of their solving from the KOSs point of view are considered. The software implementation of the proposed approach with the example of the portal version of the Great Ukrainian Encyclopedia (e-VUE) is realized. The urgency of the problem intensifies by the need for national information resources in martial law situation, for which the determining factors of effective information processing are both the ability to obtain satisfaction of complex information needs and the relevance of the information obtained. This increases the importance of official government portals that integrate reliable data from various fields of knowledge and prevent possible misrepresentation (both accidental and malicious) of information in resources with open content generation.Prombles in programming 2022; 1: 23-33
publisher PROBLEMS IN PROGRAMMING
publishDate 2022
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/487
work_keys_str_mv AT rogushinajv useofontologybasedknowledgeorganizationsysytemsforwikiresources
AT rogushinajv vikoristannâsistemorganízacííznanʹnaosnovíontologíjuwikiresursah
first_indexed 2025-07-17T09:46:18Z
last_indexed 2025-07-17T09:46:18Z
_version_ 1850409783647010816
fulltext 23 Моделі та засоби систем баз даних і знань Вступ Характерною рисою сучасних інте- лектуальних інформаційних систем (ІІС) є використання знань – як внутрішніх, або зі заздалегідь визначених джерел, так і зовнішніх, які генеруються іншими ІІС, або створюються на основі аналізу зовнішніх інформаційних ресурсів (ІР) різного рівня структурування. На ефек- тивність роботи ІІС впливають як ви- бір форми та організації подання знань, що обробляються, так і джерела знань і методи їх здобуття. Сьогодні більшість Web-орієнтованих ІІС використовують онтології різної складності та розміру. Крім того, все частіше ІІС застосовують засоби інтеграції з великими даними (Big Data) для побудови на їх основі необхід- них закономірностей та правил. Тому ве- лике значення мають ті системи організа- ції знань (СОЗ), що використовуються як концептуальна інфраструктура для під- тримки цього процесу. СОЗ забезпечують розуміння, інте- грацію та пошук знань, підготовку знань до застосування, надають можливості для виявлення нових зв’язків і узагальнень, для прогнозування, формулювання нових гіпотез та прийняття рішень на їх основі. Важливо розуміти характеристики, які можна використовувати для опису та ана- лізу СОЗ. Ці характеристики поділяються на внутрішні, що характеризують типи та властивості знань у системі (наприклад, які підкласи онтологій застосовуються, які відношення між поняттями підтри- муються), і зовнішні, що не стосуються внутрішньої природи СОЗ, але описують джерела та засоби її поповнення (напри- клад, автоматизовані або ручні). Онтологічне подання знань Грубер визначає онтології як явні специфікації концептуалізації [2]. Он- тології базуються на поданні знань як скінчнної множини об’єктів (класів та індивідів) [3], що називається інтерпре- тацією понять. Як правило, онтології можна представити у вигляді орієнтова- них графів, вузли яких представляють поняття предметної області (ПрО), а ре- бра – відношення між цими поняттями. Різні структури знань, що базуються на онтологіях, відрізняються за типами від- ношень між поняттями, за своїми власти- востями і різними логічними характерис- тиками цих властивостей. Формальну модель онтології O у найбільш узагальненому вигляді часто УДК 681.3 https://doi.org/10.15407/pp2022.01.23 Ю.В. Рогушина ВИКОРИСТАННЯ СИСТЕМ ОРГАНІЗАЦІЇ ЗНАНЬ НА ОСНОВІ ОНТОЛОГІЙ У WIKI-РЕСУРСАХ У статті розглядаються теоретичні основи систем організації знань (СОЗ) в інтелектуальних за- стосуваннях на основі онтологій. Ціллю даного дослідження є аналіз застосування різних типів СОЗ для організації та вдосконалення бази знань семантизованих Wiki-ресурсів, які містять ге- терогенний мультимедійний контент великого обсягу та мають складну структуру, що інтегрує знання із різних ПрО. Розглянуто діалекти мови подання онтологій OWL та їх виразність для подання окремих випадків онтологій, що використовуються у СОЗ. Проаналізовано критерії кла- сифікації СОЗ та сфери їх застосування. Запропоновано формальну модель онтології семанти- зованого Wikі-ресурсу та засоби реалізації різних видів відношень між об’єктами у середовищі Semantic MediaWiki з використанням шаблонів, розглядаються проблеми доступу до інформації у цих ресурсах з точки зору СОЗ та наводяться методи й засоби вирішення цих проблем. Пред- ставлено реалізацію запропонованого підходу на прикладі портальної версії Великої Української Енциклопедії (е-ВУЕ). Ключові слова: система організації знань, онтологія, тезаурус, Wiki-ресурс. © Ю.В. Рогушина, 2022 ISSN 1727-4907. Проблеми програмування. 2022. № 1 24 Моделі та засоби систем баз даних і знань представляють у вигляді впорядкованої трійки: O = < X, R, F > (1), де T – скінчен- на множина понять ПрО, яку представляє онтологія O; R – скінченна множина від- ношень між поняттями цієї ПрО; F – скін- ченна множина аксіом і функцій інтер- претації понять і відношень онтології O. Відношення визначають собою тип вза- ємодії між поняттями. Аксіоми викорис- товуються для моделювання тверджень, які завжди є істинними для ПрО. Ця фор- мальна модель може бути уточнена від- повідно до цілей розвитку онтології. На- приклад, деякі дослідження уточнюють Х як PTX , де T — скінченний набір понять предметної області, а P — скін- ченний набір властивостей понять. Інші поділяють X підмножини класів і екземп- лярів класів. Особливі випадки онтології можуть бути визначені специфікаціями та деякими обмеженнями на X, R і F та їх підкласи. Окремі випадки онтологій, таких як глосарій, таксономія, каталог тощо, можуть бути визначені обмежен- нями та специфікаціями моделі (1), які визначають можливі елементи X, R і F. Детальніше формальні моделі онтологій досліджено в [4]. Для практичного використання он- тологій як джерела знань щодо ПрО по- трібно забезпечити їх широкомасштабну інтероперабельність та формалізоване спільне розуміння. Тому для представ- лення онтологій доцільно використову- вати мови OWL (Web Ontology Language) та RDF, які розроблені Консорціумом World Wide Web (W3C) в рамках проєкту Semantic Web. Semantic Web надає засо- би для перетворення Web на глобальну базу знань, що забезпечує взаємодію між системами через обмін даними та пошук інформації на рівні знань. OWL та RDF можна обробляти за допомогою мови за- питів RDF SPARQL, яка забезпечує до- ступ до онтологічних знань, що містять- ся в них. Мова подання онтологій OWL роз- ширює можливості XML, RDF, RDF Schema та DAML+OIL. Онтологія OWL є послі- довністю аксіом, фактів і посилань на інші онтології, а також компоненти для запису авторства та іншої подібної інформації. Онтології OWL є документами Web, на які можна посилатися через URI. Онтології OWL зазвичай містять: 1. Класи, що ви- значаються у owl:Class; 2. Екземпляри, що визначаються у owl:Thing; 3. Властивості, що визначаються у owl:ObjectProperty та owl:DatatypeProperty; 4. Правила – твер- дження, які застосовуються для логічного виведення. OWL має три діалекти, що різ- няться за виразністю та складністю об- робки: OWL Lite; OWL DL; OWL Full. OWL Lite – найпростіший варіант, при- значений для тих користувачів, які мають потребу класифікувати ієрархію й вико- ристовують прості обмеження. OWL Lite забезпечує швидку міграцію тезаурусів та інших таксономій. OWL DL є розши- ренням OWL Lite, а OWL Full – розши- ренням OWL DL. Як наслідок, будь-яка онтологія OWL Lite є онтологією OWL DL, а будь-яка онтологія OWL DL є онто- логією OWL Full. OWL DL орієнтований на тих ко- ристувачів, які потребують максимальної виразності без втрати повноти обчислень і гарантованого завершення всіх обчис- лень у визначений час. OWL DL містить усі мовні конструкції OWL з обмежен- нями поділу типу (клас не може бути окремою властивістю, а властивість – індивідом або класом). Назва OWL DL пов’язана з його відповідністю дескрип- тивній логіці. OWL Full призначається для ко- ристувачів, яким потрібна максималь- на виразність і синтаксична потужність RDF без обчислювальних гарантій. На- приклад, у OWL Full клас може одно- часно розглядатися і як сукупність ек- земплярів, і як екземпляр. Інша суттє- ва відмінність від OWL DL у тому, що owl:DatatypeProperty може бути позначе- на як owl:InverseFunctionalProperty. OWL Full припускає такі онтології, що розши- рюють склад визначеного словника RDF або OWL. У виборі діалекту OWL для ство- рення онтології потрібно проаналізувати, які саме виразні можливості необхідні для коректного відображення знань щодо ПрО, та обирати менш складний з при- 25 Моделі та засоби систем баз даних і знань датних. Наприклад, для подання тезауру- сів доцільно застосовувати OWL Lite. Мова OWL широко використову- ється у Web-орієнтованих ІІС, і в процесі її практичного застосування виявилися певні обмеженість її виразних можли- востей і недоліки технічного характеру (складність синтаксичного розбору, не- можливість знайти помилки в іменах), які спричиняють багато проблем у створенні прикладних систем організацій знань. Це викликало потребу створення нової вер- сії мови – OWL 2.0. Якщо в мові OWL можна визначати лише симетричні й транзитивні власти- вості, то OWL 2. 0 дає змогу розширити спектр логічних характеристик власти- востей рефлексивністю, антирефлексив- ністю й антисиметричністю. Також дода- ється можливість декларування локаль- ної рефлексивності, яка використовуєть- ся тоді, коли для властивості рефлексив- ність не характерна, а для деяких класів об’єктів рефлексивність наявна. Якщо OWL давав змогу лише позначити кла- си як несумісні, то в OWL 2. 0 з’явилася можливість робити те саме й для влас- тивостей. Оголошення деякої множини властивостей несумісними означає, що два екземпляри не можуть бути з’єднані більш ніж однією властивістю з цієї мно- жини (приміром, два об’єкти можуть бути пов’язані або властивістю «знаходитися над», або властивістю «знаходитися все- редині», але не обома одночасно). OWL 2. 0 містить спеціальну кон- струкцію для визначення ключа – множи- ни властивостей, яка дає змогу унікально ідентифікувати екземпляри заданого класу. Також в OWL 2. 0 розширено набір типів даних для властивостей атрибутів і введе- но можливість задавати деякі власні об- меження на діапазони значень. Ще одна важлива риса OWL 2. 0 – визначення но- вих властивостей через композицію інших властивостей (property chain inclusion). Окремі випадки онтологій та їхні формальні моделі Онтології є досить складним для обробки засобом подання знань, і тому для розв’язку багатьох практичних за- вдань використовують їх окремі випадки, що містять різноманітні обмеження та припускають простіші методи аналізу. Каталог – це сукупність понять Х без формальних зв’язків між ними: R . Семантика понять може бути описати анотаціями природної мови (ПМ). На відміну від відношень і властивостей, такі анотації припускають неоднозначні інтерпретації. Каталоги можна розгля- дати як найпростіший окремий випадок онтології, що представлений набором по- нять, котрі є екземплярами одного класу з єдиною властивістю “Анотація”, і по- рожнім набором відношень. Глосарій – це впорядкований (на- приклад, за абеткою) набір понять ПрО з визначеннями (анотаціями) цих термінів. Це окремий випадок онтології з набором відношень, що містить єдине значення }"next{"R . Анотація поняття є єдиною властивістю екземплярів єдиного класу [5] Таксономія – це схема ієрархічної класифікації, де поняття організовані в групи або типи: }"subclass{"R . Таксоно- мії можна використовувати для організа- ції та індексації знань щодо документів, статей, відео тощо. Таксономія – це окре- мий випадок онтології з єдиним ієрархіч- ним відношенням, яке має такі характе- ристики, як транзитивність та антиреф- лексивність. Легка (lightweight) онтологія — це онтологія, де поняття пов’язані загальни- ми асоціаціями, а не строго визначеними формальними зв’язками. Досить часто легкі онтології розглядають як онтології, що складаються лише з набору базових таксономій. Тобто R містить кілька різ- них відношень типу “клас-підклас”. Тер- мін «легка онтологія» широко використо- вується для позначення простих таксоно- мій понять, організованих ієрархічно для семантичної взаємодії щодо термінології з групами користувачів. Проте деякі до- слідники [6] розширюють це поняття, узагальнюють відношення «є частиною» до понять, що відповідають основним властивостям базових таксономій. Тобто у легкій онтології розширення поняття дочірнього вузла є підмножиною розши- рення концепції батьківського вузла. 26 Моделі та засоби систем баз даних і знань Ширше визначення розглядає легкі онтології як онтології із обмеженими на- борами відношень між концептами. Саме цим вони відрізняються від виразніших важких онтологій [7], але явно не визна- чається, які саме обмеження можуть за таких умов застосовуватися. В цьому ви- падку формальна модель легкої онтології — це підтип трійки (1), де <X, R> — ко- реневе дерево, а F — скінченний набір понять, виражених формальною мовою F, що належить до сімейства пропозицій- ної логіки опису (DL ) мови без ролей. Кожну концепцію легких онтологій мож- на перевести у вираз DL. Приклади спро- щених онтологій включають асоціативну мережу та багатомовні класифікації, але цей термін не використовується послі- довно. В своїх попередніх дослідженнях [8] ми вважали, що онтологія є легкою, якщо для неї характерна наявність тільки наступних відношень: - відношення “клас-підклас”, зна- чення яких пов’язані транзитивно; - об’єктні відношення синонімії, значення яких пов’язані симетрично; - об’єктні відношення, що специ- фічні для ПрО, значення яких не мають бінарних властивостей. Водночас аксіоми та правила в лег- кій онтології не застосовуються: F . Таксономії, тезауруси, бізнес-ката- логи, фасетні класифікації, Web-каталоги та класифікації користувачів можна роз- глядати як неформальні прототипи фор- мальних легких онтологій. Як показано в [9], формальні легкі онтології можуть бути автоматично створені з неформаль- них класифікацій користувачів. Легкі онтології поділяють за їх використанням на два основні типи: 1. описові легкі онтології: для визначен- ня значення термінів, а також природи та структури домену; 2. легкі онтології класифікації: для опису, класифікації та доступу до великих колекцій документів або даних. Легкі онтології можуть використо- вуватися для інтеграції даних. Цей про- цес об’єднує дані з різних джерел і надає користувачеві можливість уніфікованого погляду на ці дані. Часто таке джерело даних може бути представлене у вигля- ді кореневого дерева (“rooted tree“), де вузли пов’язані з поняттями та їхніми природномовними мітками, а інтеграція даних може бути полегшена виявленням семантичних відношень між цими по- няттями на основі даних. Знайдене се- мантичне відношення між двома вузлами може бути класифіковано як ієрархічне, еквівалентне або відношення неперети- ну. Такі відношення потім можуть бути використані для інтеграції різних СОЗ. У легких онтологіях семантичні відношен- ня можуть бути визначені між елемента- ми контрольованих словників, таксоно- мій, тезаурусів, бізнес-каталогів, фасет- них класифікацій тощо. Системи класифікації та таксо- номії можуть бути перетворені на фор- мальні системи, що описуються кон- струкціями DL замість природномовних текстів, які допускають неоднозначну та суб’єктивну інтерпретацію. Таксономії, тезауруси, Web-каталоги тощо можна ви- користовувати як прототипи формальних легких онтологій, створення яких потре- бує участі експертів ПрО [10]. Будь-яка описова спрощена онтологія може бути використана як класифікаційна легка он- тологія, але не навпаки. Більш складні онтології надають ширші виразні засоби для подання знань і можуть використовуватися для ПрО з різноманітними специфічними власти- востями, які не можуть бути представле- ні ієрархічними («клас-підклас») і мерео- логічними («є частиною») відношеннями [11]. Але обробка складних онтологічних структур потребує значно більше обчис- лювальних ресурсів і часу. Тому в прак- тичних застосуваннях виникає потреба в їх редукції відповідно до вимог задач, але без втрати необхідних знань. Онтології в СОЗ Інтелектуальні програми викорис- товують СОЗ різних типів (такі як схеми класифікації, тезауруси, тематичні карти, онтології) та різного обсягу. Термін «сис- теми організації знань» позначає групу засобів, спрямованих на упорядкування інформації та підтримку управління зна- 27 Моделі та засоби систем баз даних і знань ннями. Зазвичай, такі системи забезпечу- ють ефективніший пошук та збереження знань у певному ІР. СОЗ є інструментами для опису контенту ІР і допомоги в доступі й пошу- ку документів та інформації [12]. У вузь- кому значенні КОС підтримують такі різноманітні види діяльності, як опис документів, індексація та класифікація в бібліотеках, архівах, бібліографічних базах даних тощо. У ширшому значен- ні такі системи використовуються для організації науково-освітніх установ, структури дисциплін та професій, поши- рення знань тощо. СОЗ може використо- вуватися як міст між інформаційними потребами користувачів та контентом ІР. Основні елементи більшості СОЗ мо- жуть бути виражені в RDF за допомогою Simple Knowledge Organization System (SKOS) [13]. СОЗ забезпечує ідентифі- кацію тих інформаційних об’єктів (ІО), що можуть зацікавити користувачів, із використанням деяких додаткових знань щодо користувача. Серед СОЗ виділя- ють чотири основні групи, які можуть перетинатися: - списки термінів; - моделі, подібні до метаданих; - класифікація та категоризація; - моделі відношень. Списки термінів містять: - Списки: впорядковані скінченні множини термінів; - Словники: алфавітні списки по- нять з варіантами визначень (зазвичай представлені природномовним текстом); - Глосарії: алфавітні списки по- нять з єдиним визначенням для кожного відповідно до ПрО; - Кільця синонімів: набори понять, які вважаються еквівалентними для по- шуку в певній ПрО. Моделі, подібні до метаданих (“Metadata-like Models”) містять: - нормативні файли (“Authority Files”): списки понять, які використову- ються для керування варіантами термінів для об’єктів в обраній ПрО; - директорії (“Directories”): спис- ки імен і деяка контактна інформація, пов’язана із цими іменами; - географічні довідники (“Gazetteers”): індекси із геопросторовими словниками назв та географічних об’єктів. Класифікація та категоризація міс- тять: - Предметні рубрики (“Subject Headings”): схеми зі скінченним набором контрольованих понять для представлен- ня тем (рубрик) для елементів колекції та набори правил, які об’єднують ці понят- тя в структуровані заголовки; - Схеми категоризації: неформаль- ні схеми для групування; - Таксономії: класифікація предме- тів на групи або категорії на основі дея- ких обраних властивостей; - Схеми класифікації: ієрархічна та фасетна систематизація кількісних або алфавітних позначень для подання теми. Моделі відношень включають більш складні СОЗ: - Тезауруси: скінченні набори від- ношень понять між термінами, що чіт- ко відображені та ідентифіковані через стандартизовані відношення (включаючи відношення ієрархії, еквівалентності та асоціації); - Семантичні мережі: множини понять, представлені вузлами мережі і з’єднані дугами, які представляють від- ношення між поняттями; - Онтології: концептуальні моделі, що представляють різноманітні складні відношення між об’єктами, включаючи правила та аксіоми, відсутні в семантич- них мережах. Критерії класифікації СОЗ зале- жать від цілі такого дослідження. За та- кий критерій часто використовують се- мантичну потужність, яка визначається як набір семантичних відношень між по- няттями (класами та екземплярами), що підтримуються в СОЗ. Типи онтологій, які використо- вуються в СОЗ, проаналізовано в [14]. Вони представлені широким спектром артефактів, що задовольняють визначен- ню онтології Грубером [2]. Онтології, що використовуються в СОЗ, також можна класифікувати за багатьма параметрами. СОЗ можна класифікувати також відпо- відно до їхньої структури та функцій: 28 Моделі та засоби систем баз даних і знань структура може варіюватися від плас- кої до двовимірної та багатовимірної, а їхні функції можуть містити усунення неоднозначностей, контроль синонімів, встановлення ієрархічних та асоціатив- них зв’язків та представлення властивос- тей. Прості пласкі структури СОЗ пред- ставлені списками вибору та кільцями синонімів. Приклади двовимірних струк- тур СОЗ використовують ієрархії, а бага- товимірні структури СОЗ використову- ються семантичними мережами на основі різних семантичних типів та онтологій. Таксономія СОЗ, запропонована в [15], базується на тому, які з основних типів відношень між поняттями в них підтримуються: - контрольовані синоніми; - ієрархічні відношення; - асоціативні відношення; - представлення властивостей. У твердженнях природної мови досить часто виникає неоднозначність, якщо слово або словосполучення мають більше одного значення. СОЗ надають різні способи усунення неоднозначнос- ті. Якщо СОЗ не підтримує відношення між поняттями, то можуть використову- ватися досить прості способи уточнен- ня семантики цих понять. Один із них заснований на використанні доменного імені для уточнення поняття. Напри- клад, «Меркурій (метал)», «Меркурій (планета)» замість «Меркурій». Та- кий підхід широко використовується в онлайн-енциклопедіях і Wiki-словниках для подання багатозначних термінів. Ін- ший підхід уточнює значення поняття, надаючи контекст для нього, наприклад, за допомогою «списку вибору» – скін- ченного впорядкованого (за алфавітом, хронологічно, географічно тощо) набору понять з однієї групи. Такі списки опи- сують об’єкти класів з обмеженою кіль- кістю елементів. Списки можна ефек- тивно використовувати для перегляду та пошуку. Вони часто використовуються як найпростіший спосіб структурування та створення метаданих. Контрольовані синоніми (еквіва- ленти) використовуються для прийняття рішення в ситуаціях, коли поняття пред- ставлено більш ніж одним терміном (має близькі синоніми), тобто його можна описати відмінною, але змістовно екві- валентною термінологією. Набір сино- німів може містити терміни різних мов, акроніми та варіанти написання. Найпо- ширеніші проблеми стосуються близьких синонімів, значення яких зазвичай ви- значаються як різні, але можуть розгля- датися як еквівалентні для певної ПрО. Наприклад, «машина» є синонімом «ав- томобіль» у ПрО транспорту, але у сфері інформатики це поняття є синонімом для «комп’ютер» . Ієрархічні відношення є найбільш поширеними відношеннями в СОЗ. Ви- користання ієрархічних зв’язків розгля- дається як основний критерій для ви- окремлення таксономій і тезаурусів від простіших форм СОЗ, таких як списки та кільця синонімів. Ці відношення визна- чають рівні підпорядкування, які поділя- ють клас на підкласи, де кожен підклас є підмножиною вихідного класу. Класи од- ного рівня об’єднуються в класи вищого рівня. Ієрархічні відношення охоплюють три різні групи відношень: 1. родові від- ношення (“клас-підклас”); 2. інстанційні відношення (“екземпляр-клас”); 3. мере- ологічні відношення (“ціле-частина”). Родові відношення визначають зв’язки між класом і його підкласами. Цей тип відношення може пов’язувати деякий вужчий термін з більш широким терміном. Інстанційні відношення визнача- ють зв’язок між загальною категорією предметів чи процесів і окремим екземп- ляром цієї категорії. Цю групу відношень можна узагальнити виразом природної мови «приклад». Мереологічні відношення охоплю- ють ситуації, коли одні поняття за своєю природою включені в інші, так що понят- тя можна організувати в логічні ієрархії. Усі ці відношення можна задати виразом природної мови «частина». Мереологіч- ні відношення [16] є транзитивними, але ці відношення поділяються на сім груп, і транзитивність діє лише всередині кож- ної групи і не прийнята між відношен- 29 Моделі та засоби систем баз даних і знань нями різних груп: 1. Компонент-об’єкт; 2. Член-колекція; 3. Частина-об’єкт; 4. Матеріал-об’єкт; 5. Властивість-діяль- ність; 6. Стадія-процес; 7. Місце-район. Асоціативні відношення характе- ризують зв’язки між поняттями, які не є ні еквівалентними, ні ієрархічними, але такі терміни семантично або концепту- ально пов’язані, і цей зв’язок має бути чітко визначений контрольованим слов- ником. Деякі асоціативні відношення є предметно-специфічними і представля- ють відношення без їх логічних харак- теристик (таких як симетричність або транзитивність). Використання явних зв’язків між такими термінами надає до- даткові можливості для індексації, пошу- ку чи обчислення семантичної подібності понять [17], які належать до різних ієрар- хій або термінологічних систем. Такі від- ношення можуть пов’язувати ІО різних типів. Приклади таких відношень – “є автором”, “має компетенцію”, “викорис- товується для створення”. Властивості представлення ви- користовуються для подання знань щодо ПрО, складніших, ніж зв’язки між двома поняттями та визначеннями цих зв’язків. Онтології – це СОЗ, які використовують такі характеристики для явної специфі- кації концептуалізації домену. Онтології збагачують класифікаційну структуру, яку використовують таксономії та теза- уруси: вони не лише відображають від- ношення між парами об’єктів ПрО, а й можуть містити також непорожні набори правил та аксіом, які визначають вимо- ги та обмеження щодо використання цих відношень та властивостей. Такий підхід забезпечує підтримку досить складного логічного висновку. Приклад правила – “Якщо об’єкти А та В знаходяться у від- ношенні Х1, а об’єкти А та С знаходять- ся у відношенні Х2, тоді об’єкти В та С знаходяться у відношенні Х3 та мають властивість Р зі значенням РРР”. При- клад обмеження – “Якщо об’єкти А та В знаходяться у відношенні Х1, а об’єкти А та С знаходяться у відношенні Х2, тоді об’єкти В та С не можуть знаходитися у відношенні Х3 та не мають властивості Р зі значенням РРР”. Постановка задачі Ціллю даного дослідження є аналіз застосування різних типів СОЗ для орга- нізації та вдосконалення бази знань се- мантизованих Wiki-ресурсів, які містять гетерогенний мультимедійний контент великого обсягу та мають складну струк- туру, інтегруючу знання із різних ПрО. Актуальність проблеми посилюється че- рез потребу у якісних національних ін- формаційних ресурсах в умовах гібрид- ної війни, коли визначальними факторами ефективності є як можливість отримання відповідей на складні інформаційні за- пити, так і достовірність та актуальність отриманої інформації. Це підвищує зна- чення офіційних державних порталів, які мають інтегрувати дані з різних галузей знань та унеможливлювати перекручен- ня (як випадкові, так і зловмисні) інфор- мації у ресурсах з відкритою генерацією контенту. Wiki-технології та СОЗ Зараз багато Web-орієнтованих ІР, створених в результаті колективної діяльності користувачів, базуються на технологіях Web 2.0 [18]. Контент таких ІР є більш динамічним та актуальним. Приклад найбільш успішних платформ Web 2.0, які надають механізми підтрим- ки колаборативне створення контенту Web, – Wiki-технології [19], які забез- печують створення структурованих ІР великого обсягу. Однією з поширених реалізацій Wiki-технології є MediaWiki [20]. Існує велика кількість розробок на основі MediaWiki, найбільш відомими з яких є Вікіпедія, Wikibooks, Wiktionary, Wikidata. Семантичні розширення Wiki- технології спрямовані на додавання змісту елементам Wiki-ресурсу, що ро- бить їх придатними для автоматизова- ної обробки та аналізу на рівні знань. Воно дозволяє визначати та знаходити інформаційні об’єкти зі складною струк- турою, що є типовими для певної пред- метної області. Існує багато підходів до семантизації Wiki-технологій, більшість з яких базується на стандартах проєк- ту Semantic Web. Для них вже існують 30 Моделі та засоби систем баз даних і знань формальні моделі, мови подання, методи обробки та програмні засоби. Одним із них є Semantic MediaWiki – семантичне розширення MediaWiki (www.mediawiki. org/wiki/MediaWiki), яке забезпечує ін- телектуальну організацію та пошук кон- тенту ІР [20]. Прикладом складного ІР на основі Semantic MediaWiki є е-ВУЕ [21] – портальна версія Великої укра- їнської енциклопедії, яка використовує MediaWiki версії 1.34.0 та семантичний плагін Semantic MediaWiki версії 3.1.5. Semantic MediaWiki забезпечує структуроване подання знань та мож- ливість їх пошуку на змістовному рівні. Але, якщо такі ІР, – приміром, енцикло- педії національного рівня – мають вели- кий обсяг та складну структуру, то вони потребують використання сучасних ме- тодів менеджменту розподілених знань та систем, що забезпечують ефективну організацію таких знань. У багатьох ви- падках для цього доцільно застосовувати СОЗ, різні типи яких дозволяють врахо- вувати як специфіку Wiki-технологій, так і особливості організації багатогалузе- вих енциклопедій та довідників. Wiki-онтології Wiki-онтологія є окремим випад- ком онтології. Вона формалізує знання, представлені в ІР, що розроблений на основі технології Wiki та її семантичних розширень [30]. Виразність онтології Wiki має деякі обмеження, оскільки така онтологія містить лише ті знання, які можна отримати безпосередньо з розміт- ки Wiki. Наприклад, вона не може визна- чати характеристики для властивостей об’єкта та властивостей даних, таких як еквівалентність і можливість перетину. В багатьох випадках семантичні розширен- ня Wiki-технологій мають вбудовані за- соби для автоматичної або автоматизова- ної генерації таких онтологій. Скажімо, в технологічному середовищі Semantic MediaWiki онтологія Wiki може бути створена автоматично на основі будь- якої колекції Wiki-сторінок). З іншого боку, формування Wiki- онтології (або хоча б її структури) може передувати розробці самого Wiki- ресурсу. В цьому випадку певна еталонна онтологія, що створюється експертами та інженерами зі знань, задає базові понят- тя ПрО та визначає коректні відношення між ними. В процесі розробки ІР за його контентом генеруються поточні Wiki- онтології, які порівнюються з еталонною для того, щоб перевірити правильність подання знань у ресурсі. Чим складні- ше онтологія ресурсу, тим точніше мож- на відобразити ПрО, але тим складніше її аналізувати та співставляти з іншими онтологіями. Тому для ефективної роз- робки семантичного ІР проблема вдалого вибору рівня складності СОЗ є важливим фактором. Від цього залежить і склад- ність Wiki-онтології. Слід розрізняти Wiki-онтології, які можуть бути згенеровані за звичайними (не семантизованими) ІР та за ІР із семан- тичною розміткою. Надалі розглядається семантизація Wiki-технології MediaWiki на основі Semantic MediaWiki. Wiki-онтологія semant_no_wikiO для несемантичного ресурсу Wiki містить такі компоненти: indcl XXX – це набір понять онтології, де clX – набір класів, що співпадає з набором категорій Wiki, представлених в обраному наборі сторі- нок; indX – це набір екземплярів класів, що створюється як об’єднання імен обра- них Wiki-сторінок spectemplateuser PPPP , де userP – набір сторінок, створених ко- ристувачами, templateP – набір сторінок, що описують шаблони Wiki, specP – на- бір інших спеціальних сторінок, які явно відібрані для генерації онтології (як-от, сторінок семантичного пошуку); }r{}r{LR individual_classcl_ier – набір від- ношень між елементами онтології, де }"link{"L – набір з одного елемента, який описує посилання з однієї Wiki-сторінки цього ресурсу на іншу; cl_ierr є ієрархіч- ним відношенням між категоріями Wiki- ресурсу, що визначається у процесі ство- рення нових категорій, individual_classr є іє- рархічним відношенням між категоріями та сторінками Wiki-ресурсу, що належать до цих категорій; }f{F equ – це одноелементна мно- жина, що містить відношення, яке можна використовувати для логічного виведен- 31 Моделі та засоби систем баз даних і знань ня в онтології, – відношення еквівалент- ності між сторінками Wiki, яке пов’язує відсильні Wiki-сторінки. Інші елементи онтологічної моделі цієї Wiki-онтології представлені порожніми множинами. Формальна модель семантично розмічених Wiki-ресурсів semant_wikiO є складнішою за semant_no_wikiO і містить низ- ку елементів, пов’язаних із семантични- ми властивостями: prop_semindividual_classcl_ier L}r{}r{LR , де до R додано набір семантичних влас- тивостей prop_semL із областю значень у множині Wiki-сторінок; Т – це набір типів даних (напри- клад, «текст», «число») для значень влас- тивостей даних. Шаблони Semantic MediaWiki Можна виділити три групи шабло- нів, котрі застосовуються в складних ІР на основі Semantic MediaWiki (напри- клад, в е-ВУЕ), які найбільше впливають на складність Wiki-онтології та СОЗ, що використовується для цього: 1. шаблони типових IO, які дозволяють досліджува- ти область значень об’єктних властивос- тей Wiki-онтології і типи відношень між Wiki-сторінками; 2. шаблони для встанов- лення змісту відношень між довільними Wiki-сторінками, які групують семантич- ні властивості як за їх логічними характе- ристиками, так і за сферою використання (це може бути загальний шаблон “Відно- шення” або відповідний спеціалізований шаблон – “Відношення еквівалентності”, “Мереологічні відношення” тощо); 3. ша- блони для визначення однотипних відно- шень (ієрархічних, синонімічних тощо), характерних для найпростіших окремих випадків онтологій (рис.1). Приклади першої групи шабло- нів у е-ВУЕ – “Персоналія” (відношення “Місце народження”), другої – шаблон “Мереологічні відношення” (відношення “Є складовою”), третьої – шаблон “Бага- тозначний термін” (відношення “Значен- ня1”). У розробці шаблонів для конкрет- ного ІР слід враховувати, як реалізовані в них семантичні відношення вплинуть на рівень складності СОЗ, яка забезпечить керування знаннями. 1 2 3 Рис.1. Приклади шаблонів е-ВУЕ для різних груп відношень. Висновки Складність Wiki-онтології визна- чається тим набором семантичних влас- тивостей типу “сторінка”, що викорис- товуються у відповідному Wiki-ресурсі) і, таким чином, шаблонами, що вико- ристовуються для введення їх значень. Із цього випливає значущість набору та- ких властивостей та потреба у його по- вноті та несуперечності: з одного боку, необхідно створити семантичні власти- вості для всіх тих відношень ПрО, які має відображати Wiki-ресурс, а з іншого – доцільно зробити цей набір найбільш компактним та зрозумілим для тих роз- робників ресурсу, що мають застосову- вати ці властивості для структурування Wiki-контенту. Для цього пропонуєть- ся розглядати типи відношень, що під- тримуються у різних СОЗ, починаючи від найпростіших. Якщо відношення, що розглядається, є релевантним для контенту ІР, то потрібно визначити його ім’я, описати його характеристи- ки та створити у середовищі Semantic MediaWiki відповідну семантичну влас- тивість типу “сторінка”. Крім того, по- трібно проаналізувати, для яких кате- горій сторінок може застосовуватися це відношення, і, якщо ці сторінки на- лежать до одного типового ІО (або до групи типових ІО), то додати відповід- ну семантичну властивість до шабло- нів цих типових ІО. Якщо відношення 32 Моделі та засоби систем баз даних і знань може застосовуватися досить часто, але його не вдається зв’язати з певними ти- повими ІО, то відповідну семантичну властивість доцільно додати до одного зі спеціалізованих шаблонів, що ство- рюються саме для встановлення змісту відношень між довільними сторінками. References 1. Soergel, D. (2009). Knowledge organiza- tion systems: overview. www.dsoergel. com/UBLIS514DS-08.2a-1Reading4So- ergelKOSOverview.pdf. 2. Gruber T.R. (1993) A translation approach to portable ontology specifications. Knowl. Acquis., 5(2), 199–220. 3. Baader F., Calvanese D., McGuinness D., Nardi D., Patel-Schneider P. (2003) The Description Logic Handbook: Theory, Im- plementation and Applications. Cambridge University Press. 4. Soergel, D. (2009) Knowledge organization systems: overview. www.dsoergel.com/ UBLIS514DS-08.2a-1Reading4Soergel- KOSOverview.pdf. 5. Gruber T.R. (1993) A translation approach to portable ontology specifications. Knowl. Acquis., 5(2), 199–220. 6. Baader F., Calvanese D., McGuinness D., Nardi D., and Patel-Schneider P. (2003) The Description Logic Handbook: Theory, Implementation and Applications. Cam- bridge University Press. 7. Rogushina J., Gladun A., Osadchiy V., Pri- yma S. (2015) Ontological analysis in the Web. – Melitopol State Pedagogical Uni- versity Bohdan Khmelnytsky. (in Ukraini- an) 8. Navigli R., Velardi P. (2008) From Glos- saries to Ontologies: Extracting Semantic Structure from Textual Definitions, Ontol- ogy Learning and Population: Bridging the Gap between Text and Knowledge, Series information for Frontiers in Artificial In- telligence and Applications, IOS Press, 71-87. 9. Giunchiglia F., Zaihrayeu I. (2007) Light- weight ontologies. http://eprints.biblio. unitn.it/1289/1/071.pdf. 10. Nikonenko A.A. (2009) Overview of knowledge bases of the ontological type. h t tp : / /dspace .nbuv.gov.ua /b i t s t r eam/ handle/123456789/8144/27-Nikonenko. pdf?sequence=1. (in Russian) 11. Rogushina J. (2018) Theoretical bases of application of ontologies for semanticiza- tion of Web resources. Problems of pro- gramming, (2-3), 197-203. (in Ukrainian) 12. Zaihrayeu І , Sun L., Giunchiglia F., Pan W., Ju Q., Chi M., Huang X. (2007) From web directories to ontologies: Natural language processing challenges. 6th International Semantic Web Conference (ISWC 2007). Springer. 13. Giunchiglia F., Marchese M., Zaihrayeu I. (2006) Encoding Classifications into Light- weight Ontologies. The Semantic Web: Re- search and Applications, ESWC 2006, 80- 94. http://www.science.unitn.it/~marchese/ pdf/P4_eswc06_Encoding.pdf. 14. Rogushina J., Gladun A. (2021) Task Thesau- rus as a Tool for Modeling of User Informa- tion Needs. In New Perspectives on Enter- prise Decision-Making Applying Artificial Intelligence Techniques, , 385-403. Spring- er, Cham. https://doi.org/10.1007/978-3- 030-71115-3_17. https://link.springer.com/ chapter/10.1007/978-3-030-71115-3_17. 15. Hjorland B. (2008) What is knowl- edge organization (KO)? KO Knowl- edge Organization, 35(2-3), 86-101. h t tps : / /www.researchgate .net /prof i le / Birger-Hjorland/publication/277803483_ What_is_Knowledge_Organization_KO/ links/55d8232608aed6a199a6afce/What- is-Knowledge-Organization-KO.pdf 16. SKOS Simple Knowledge Organizationю (2004)ю System. https://www. w3.org/2004/02/skos/. 17. Biagetti M. T. (2020) Ontologies (as knowl- edge organization systems). ISKO Encyclo- pedia of Knowledge Organization. https:// www.isko.org/cyclo/ontologies. 18. Zeng M. L. (2008)Knowledge organization systems (KOS). Knowledge Organization, 35 (2-3), 160-182. 19. Gladun A., Rogushina J. (2010) Mereologi- cal aspects of ontological analysis for the- sauri constructing. Buildings and the Envi- ronment, 301-308. 20. Rogushina J. (2019) Use of Semantic Simi- larity Estimates for Unstructured Data Analysis // XIX International Scientific and Practical Conference «Information Tech- 33 Моделі та засоби систем баз даних і знань nologies and Security» (ITS 2019). CEUR Vol-2577. 246-258. http://ceur-ws.org/Vol- 2577/paper20.pdf. 21. Hendler J. A., Golbeck J. (2008) Metcalfe’s law, Web 2.0, and the Semantic Web. Web Sem., 6 (1): 14-20. 22. Wagner C. (2004) Wiki: A technology for conversational knowledge management and group collaboration The Communications of the Association for Information Systems, 13(1), 264-289. 23. Völkel M., Krötzsch M., Vrandecic D., Haller H., Studer R. (2006) Semantic wiki- pedia. Proc.e of the 15th international con- ference on World Wide Web, 585-594. 24. Andon P.I., Rogushina J.V., Grishanova I.Y., Reznichenko V.A., Kyrydon A.M., Aristova A.V., Tyschenko A.O. (2021) Ex- perience of Semantic Technologies Use for Development of Intelligent Web Encyclo- pedia. UkrPROG, CEUR Workshoop Proc., Vol-2866, 246-259. http://ceur-ws.org/Vol- 2866/ceur_246-259andon24.pdf. 25. Rogushina J. (2019) Problems of onto- logical analysis use for knowledge rep- resentation of wiki-resources. Problems in programming, 2, 2019, 17-37. https:// doi.org/10.15407/pp2019.02.017. (in Ukrainian) Отримано: 23.03.2022 Про автора: Рогушина Юлія Віталіївна, Канд.фіз.-мат.наук, с.н.с Інституту програмних систем НАН України, публікації в українських виданнях – 200, публікації в іноземних журналах – 40, ORCID http://orcid.org/0000-0001-7958- 2557. Місце роботи автора: Інститут програмних систем НАН України, 03181, Київ-187, проспект Академіка Глушкова, 40, e-mail: ladamandraka2010@gmail.com, 066 550 1999.