Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia"
The aim of the work is to analyze the means of semantic search in Wiki resources and to develop directions for expanding its capabilities through the use of modern tools of knowledge management. The article analyzes the benefits that the use of semantic markup of the Web information resources provid...
Збережено в:
Дата: | 2019 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2019
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/377 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-377 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/f3/397518dbf457fafc92a681eade2aaaf3.pdf |
spelling |
pp_isofts_kiev_ua-article-3772024-04-28T11:07:28Z Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" Использование онтологий для расширения возможностей поиска и навигации в онлайн-версии «Большой украинской энциклопедии» Використання онтологій для розширення можливостей пошуку та навігації в онлайн-версії «Великої української енциклопедії» Rogushina, J.V. Grishanova, I.J. semantic Wiki resources; semantic search; ontology; semantic similarity; Great Ukrainian Encyclopedia UDC 681.3 семантические Wiki-ресурсы; семантический поиск; онтология; семантическое подобие; Большая украинская энциклопедия УДК 681.3 семантичні Wiki-ресурси; семантичний пошук; онтологія; семантична близькість; Велика українська енциклопедія УДК 681.3 The aim of the work is to analyze the means of semantic search in Wiki resources and to develop directions for expanding its capabilities through the use of modern tools of knowledge management. The article analyzes the benefits that the use of semantic markup of the Web information resources provides for users by more convenient and quick access to content. The techniques of application of ontological analysis for search and navigation in semantized Wiki resources are considered. The definition of Wiki ontology that formalizes the information about the structure of the knowledge base of information resource (both ordinary and semantized) based on Wiki technology is proposed. The theoretical foundations of determining the measure of semantic similarity between domain concepts based on ontologies and taxonomies are analyzed. Methods of design of navigation tools oriented on Wiki resources are proposed. These methods are based on retrieval of pages that use semantically related concepts. The implementation of the proposed approach in the online version of the Great Ukrainian Encyclopedia (e-VUE) is described. Such approach supports an extension of the functionality of the encyclopedic resource by providing means of access to content on a semantic level. The methodological principles of the organization of the e-VUE knowledge base and the categorization of its articles that ensure the use of semantic proximity estimations between domain concepts for discovery of such concepts are substantiated. Problems in programming 2019; 4: 11-27 Цель работы – анализ средств семантического поиска в Wiki-ресурсах и разработка направлений расширения его возможностей на основе использования современных средств управления знаниями. В статье анализируются преимущества, которые обеспечивают пользователям использование семантической разметки в информационных ресурсах Web для более удобного и быстрого доступа к контенту. Рассматриваются способы использования онтологий для поиска и навигации в семантизированных Wiki-ресурсах. Приведено определение Wiki-онтологии, которая формализует информацию о структуре базы знаний информационного ресурса (как обычного, так и семантизированного), который базируется на технологии Wiki. Проанализированы теоретические основы определения меры семантического подобия между понятиями на основе онтологий и таксономий. Предложены методы построения средств навигации в Wiki-ресурсах, которые базируются на нахождении страниц и используют семантически близкие понятия. Продемонстрирована реализация предложенного подхода в онлайн-версии «Большой украинской энциклопедии» (е-ВУЕ), которая обеспечивает расширение функционала энциклопедического издания путем предоставления средств доступа к контенту на семантическом уровне. Обоснованы методологические принципы организации базы знаний е-ВУЕ и категоризации ее статей, обеспечивающие использование оценок семантической близости между понятиями для поиска подобных понятий.Problems in programming 2019; 4: 11-27 Ціль роботи – аналіз засобів семантичного пошуку у Wiki-ресурсах та розробка напрямків розширення його можливостей на основі використання сучасних засобів керування знаннями. В статті аналізуються переваги, які забезпечує користувачам використання семантичної розмітки в інформаційних ресурсах Web для більш зручного та швидкого доступу до контенту. Розглядаються способи використання онтологій для пошуку та навігації у семантизованих Wiki-ресурсах. Наведено визначення Wiki-онтології, що формалізує відомості щодо структури бази знань інформаційного ресурсу (як звичайного, так і семантизованого), який базується на технології Wiki. Проаналізовано теоретичні засади визначення міри семантичної подібності між поняттями на основі онтологій та таксономій. Запропоновано методи побудови засобів навігації у Wiki-ресурсах, які базуються на знаходженні сторінок, що описують змістовно близькі поняття. Продемонстровано реалізацію запропонованого підходу в онлайн-версії «Великої української енциклопедії» (е-ВУЕ), що забезпечує розширення функціоналу енциклопедичного видання шляхом надання засобів доступу до контенту на семантичному рівні. Обґрунтовано методологічні принципи організації бази знань е-ВУЕ та категоризації її гасел, що забезпечують використання оцінок семантичної близькості між поняттями для пошуку подібних гасел.Problems in programming 2019; 4: 11-27 Інститут програмних систем НАН України 2019-12-05 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/377 10.15407/pp2019.04.011 PROBLEMS IN PROGRAMMING; No 4 (2019); 11-27 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2019); 11-27 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2019); 11-27 1727-4907 10.15407/pp2019.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/377/380 Copyright (c) 2019 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-28T11:07:28Z |
collection |
OJS |
language |
Ukrainian |
topic |
semantic Wiki resources semantic search ontology semantic similarity Great Ukrainian Encyclopedia UDC 681.3 |
spellingShingle |
semantic Wiki resources semantic search ontology semantic similarity Great Ukrainian Encyclopedia UDC 681.3 Rogushina, J.V. Grishanova, I.J. Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
topic_facet |
semantic Wiki resources semantic search ontology semantic similarity Great Ukrainian Encyclopedia UDC 681.3 семантические Wiki-ресурсы семантический поиск онтология семантическое подобие Большая украинская энциклопедия УДК 681.3 семантичні Wiki-ресурси семантичний пошук онтологія семантична близькість Велика українська енциклопедія УДК 681.3 |
format |
Article |
author |
Rogushina, J.V. Grishanova, I.J. |
author_facet |
Rogushina, J.V. Grishanova, I.J. |
author_sort |
Rogushina, J.V. |
title |
Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
title_short |
Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
title_full |
Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
title_fullStr |
Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
title_full_unstemmed |
Use of ontologies for search and navigation improvement in the online version of the "Great ukrainian encyclopedia" |
title_sort |
use of ontologies for search and navigation improvement in the online version of the "great ukrainian encyclopedia" |
title_alt |
Использование онтологий для расширения возможностей поиска и навигации в онлайн-версии «Большой украинской энциклопедии» Використання онтологій для розширення можливостей пошуку та навігації в онлайн-версії «Великої української енциклопедії» |
description |
The aim of the work is to analyze the means of semantic search in Wiki resources and to develop directions for expanding its capabilities through the use of modern tools of knowledge management. The article analyzes the benefits that the use of semantic markup of the Web information resources provides for users by more convenient and quick access to content. The techniques of application of ontological analysis for search and navigation in semantized Wiki resources are considered. The definition of Wiki ontology that formalizes the information about the structure of the knowledge base of information resource (both ordinary and semantized) based on Wiki technology is proposed. The theoretical foundations of determining the measure of semantic similarity between domain concepts based on ontologies and taxonomies are analyzed. Methods of design of navigation tools oriented on Wiki resources are proposed. These methods are based on retrieval of pages that use semantically related concepts. The implementation of the proposed approach in the online version of the Great Ukrainian Encyclopedia (e-VUE) is described. Such approach supports an extension of the functionality of the encyclopedic resource by providing means of access to content on a semantic level. The methodological principles of the organization of the e-VUE knowledge base and the categorization of its articles that ensure the use of semantic proximity estimations between domain concepts for discovery of such concepts are substantiated. Problems in programming 2019; 4: 11-27 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2019 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/377 |
work_keys_str_mv |
AT rogushinajv useofontologiesforsearchandnavigationimprovementintheonlineversionofthegreatukrainianencyclopedia AT grishanovaij useofontologiesforsearchandnavigationimprovementintheonlineversionofthegreatukrainianencyclopedia AT rogushinajv ispolʹzovanieontologijdlârasšireniâvozmožnostejpoiskainavigaciivonlajnversiibolʹšojukrainskojénciklopedii AT grishanovaij ispolʹzovanieontologijdlârasšireniâvozmožnostejpoiskainavigaciivonlajnversiibolʹšojukrainskojénciklopedii AT rogushinajv vikoristannâontologíjdlârozširennâmožlivostejpošukutanavígacíívonlajnversíívelikoíukraínsʹkoíenciklopedíí AT grishanovaij vikoristannâontologíjdlârozširennâmožlivostejpošukutanavígacíívonlajnversíívelikoíukraínsʹkoíenciklopedíí |
first_indexed |
2024-09-16T04:08:38Z |
last_indexed |
2024-09-16T04:08:38Z |
_version_ |
1818568468889337856 |
fulltext |
Моделі та засоби систем баз даних і знань
© Ю.В. Рогушина, І.Ю. Гришанова, 2019
ISSN 1727-4907. Проблеми програмування. 2019. № 4 11
УДК 681.3 https://doi.org/10.15407/pp2019.04.011
Ю.В. Рогушина, І.Ю. Гришанова
ВИКОРИСТАННЯ ОНТОЛОГІЙ ДЛЯ РОЗШИРЕННЯ
МОЖЛИВОСТЕЙ ПОШУКУ
ТА НАВІГАЦІЇ В ОНЛАЙН-ВЕРСІЇ
«ВЕЛИКОЇ УКРАЇНСЬКОЇ ЕНЦИКЛОПЕДІЇ»
Ціль роботи – аналіз засобів семантичного пошуку у Wiki-ресурсах та розробка напрямків розширен-
ня його можливостей на основі використання сучасних засобів керування знаннями. В статті аналі-
зуються переваги, які забезпечує користувачам використання семантичної розмітки в інформаційних
ресурсах Web для більш зручного та швидкого доступу до контенту. Розглядаються способи викори-
стання онтологій для пошуку та навігації у семантизованих Wiki-ресурсах. Наведено визначення
Wiki-онтології, що формалізує відомості щодо структури бази знань інформаційного ресурсу (як
звичайного, так і семантизованого), який базується на технології Wiki. Проаналізовано теоретичні
засади визначення міри семантичної подібності між поняттями на основі онтологій та таксономій.
Запропоновано методи побудови засобів навігації у Wiki-ресурсах, які базуються на знаходженні
сторінок, що описують змістовно близькі поняття. Продемонстровано реалізацію запропонованого
підходу в онлайн-версії «Великої української енциклопедії» (е-ВУЕ), що забезпечує розширення
функціоналу енциклопедичного видання шляхом надання засобів доступу до контенту на семантич-
ному рівні. Обґрунтовано методологічні принципи організації бази знань е-ВУЕ та категоризації
її гасел, що забезпечують використання оцінок семантичної близькості між поняттями для пошуку
подібних гасел.
Ключові слова: семантичні Wiki-ресурси, семантичний пошук, онтологія, семантична близь-
кість, Велика українська енциклопедія.
Вступ
Ефективність використання Web-
ресурсів значним чином визначається сту-
пенем їх інтелектуалізації – наявністю се-
мантичної розмітки, можливістю пошуку
за змістом, використанням онтологій для
моделювання структури бази знань (БЗ)
тощо. Це впливає на функціонал інформа-
ційного ресурсу (ІР) та забезпечує можли-
вість використання його контенту іншими
інформаційними системами (ІС), що
пов’язані з тією самою предметною облас-
тю (ПрО).
Значення семантизації збільшується
для ІР із складною структурою, гетероген-
ним контентом та великим обсягом даних,
що викликає потребу в застосуванні су-
часних технологій керування розподіле-
ними знаннями. Одна з таких поширених
на сьогодні технологій є Wiki, яка забезпе-
чує спільне створення та використання
інформації у Web.
Інтелектуалізація ІР, що будується
на основі Wiki-технології, має свою струк-
туру. В першу чергу вона базується на
семантизації ресурсу, тобто на встанов-
ленні змістовних зв’язків між Wiki-
сторінками. Такі можливості надає, напри-
клад, семантичне розширення Wiki –
Semantic MediaWiki (SMW) [1], що під-
тримує використання як семантичних влас-
тивостей у розмітці, які визначають зміст
відношень між сторінкою ІР та іншими
сторінками та даними, так і виконання
семантичних запитів, умовами яких мо-
жуть бути значення таких властивостей.
Уся сукупність семантичних властивостей
ІР та їх значень може бути формалізована
за допомогою Wiki-онтології ресурсу.
Основні характеристики онлайн-
версії «Великої української енциклопедії»
(е-ВУЕ vue.gov.ua) дозволяють віднести її
саме до таких ІР: ця енциклопедія містить
велику кількість гасел з різних галузей
знань з різноманітними наборами структу-
рних елементів та мультимедійного ілюст-
ративного матеріалу (рисунки, фотографії,
відео, аудіо, карти, діаграми), між якими
встановлюються різноманітні відношення.
https://doi.org/10.15407/pp2019.04.0
Моделі та засоби систем баз даних і знань
12
Використання елементів онтологіч-
ного аналізу для створення структури БЗ
е-ВУЕ обумовлено високою складністю та
гетерогенністю знань, представлених у
цьому інформаційному ресурсі: виразна
здатність вбудованих можливостей що
використовується як основа для створення
порталу і підтримує такі механізми, як ка-
тегорії, семантичні властивості та семан-
тичні запити, достатня для реалізації такої
системи знань, але не для її дослідження,
вдосконалення та формалізації всіх різно-
манітних аспектів та характеристик.
Тому цей ІР використовується в
даній роботі для демонстрації можливос-
тей розширення пошуку та навігації з ви-
користанням онтологічних знань. Онтоло-
гія ПрО може використовуватися як осно-
ва для знаходження семантично по-
в’язаних гасел е-ВУЕ, що надає ще один
засіб навігації в ІР: користувач отримує
можливість перейти до тих понять ПрО,
які змістовно пов’язані з тим гаслом, яке
він розглядає.
Щоб автоматизувати використання
розподіленого ІР, виникає необхідність у
побудові онтології його БЗ – формалізова-
ної моделі, що дозволяє фіксувати ха-
рактеристики його елементів, їх зв’язків,
властивостей та відношень у формі, прида-
тній для автоматичного оброблення, логіч-
ного виведення та аналізу. Така онтологія
може бути основою для семантичної роз-
мітки ІР, яка уможливлює інтелектуаліза-
цію засобів навігації та пошуку відомостей
на порталі, задовольняючи інформаційні
потреби користувачів із урахуванням їх
семантики.
Одним з напрямків використання
Wiki-онтології ІР є знаходження семанти-
чно близьких Wiki-сторінок: це дозволяє
створити у ресурсі додаткові засоби наві-
гації для швидкого доступу до сторінок зі
спорідненим контентом. При цьому семан-
тична близькість може визначатися відпо-
відно до поточних потреб користувача.
Постановка задачі
Ціль даної роботи – аналіз засобів
семантичного пошуку у Wiki-ресурсах та
напрямків розширення його можливостей
на основі використання онтологій. Нада-
ється теоретичне обґрунтування методо-
логічних принципів використання міри
семантичної близькості між поняттями
онтології, що формалізує семантичну роз-
мітку е-ВУЕ, для розширення функціоналу
цього енциклопедичного видання шляхом
створення засобів навігації між сторінками
на змістовному рівні.
Онтологічне подання знань
Онтології – БЗ спеціального виду,
яка містить семантичну інформацію [2]
з певної ПрО – застосовуються для по-
дання знань різноманітних ПрО в
Web-орієнтованих ІС [3]. Моделі онто-
логій зазвичай містять поняття (класи
та екземпляри), властивості понять (атри-
бути, ролі), відношення між поняттями
(залежності, функції) та додаткові обме-
ження, що визначаються аксіомами [4].
На формальному рівні онтологія –
це система, що складається з наборів по-
нять і тверджень про ці поняття, на основі
яких можна будувати класи, об'єкти, від-
ношення, функції та теорії.
Формальна модель онтології O – це
впорядкована четвірка
FRPTO ,,, ,
де T – скінченна множина концептів (тер-
мінів) ПрО, яку описує онтологія O ; Р –
скінченна множина властивостей концеп-
тів; R – скінченна множина відношень
між концептами заданої ПрО; F – скін-
ченна множина аксіом, заданих на концеп-
тах, властивостях і/або відношеннях онто-
логії O . Відношення представляють тип
взаємодії між концептами ПрО. Приклад
бінарного відношення – "є частиною".
Аксіоми використовуються для моделю-
вання тверджень, що завжди є істинними.
Wiki-онтологія – це окремий випа-
док комп’ютерної онтології, що відображає
особливості технології Wiki та її семантич-
ного розширення. Її виразні можливості
обмежені в області використання аксіом
ПрО та не припускають застосування ха-
рактеристик для об’єктних властивостей
та властивостей даних. Така онтологія
Моделі та засоби систем баз даних і знань
13
може бути побудована автоматизовано за
семантично розміченим Wiki-ресурсом
(набором Wiki сторінок, що містять семан-
тичну розмітку) [5], але на практиці зазви-
чай спочатку розробляють Wiki-онтологію,
а вже на її основі здійснюється реалізація
самого Wiki-ресурсу [6].
Можна вважати (з певним рівнем
спрощення), що Wiki-онтологія та струк-
тура БЗ Wiki-ресурсу є різними формами
подання тієї самої системи знань. Така он-
тологія містить тільки ті знання, які можна
безпосередньо здобути із семантичної
розмітки. Тому в цій онтології відсутні,
приміром, такі характеристики класів та
властивостей, як еквівалентність, відсут-
ність перетину тощо.
Wiki-онтологія конкретизує основні
компоненти онтологічного подання знань
TFRXO ,,, відповідно до технологій
Semantic Web [7], розроблених W3C.
Для не семантизованого Wiki-
ресурсу відповідна онтологія
semant_no_wikiO містить наступні ком-
поненти:
- indcl XXX – множина по-
нять онтології, де clX – множина класів,
що співпадає з множиною категорій Wiki-
ресурсу categP ; indX – множина екземпля-
рів класів – це об’єднання множин Wiki-
сторінок: userP – множина сторінок, ство-
рених користувачами, templateP – множина
сторінок, що описують шаблони, specP –
множина інших спеціальних сторінок;
- }r{LR cl_ier – множина від-
ношень між елементами онтології, де
}"link{"L – множина з одного елемента,
що описує посилання однієї Wiki-сторін-
ки цього ресурсу на іншу Wiki-сторінку
цього ресурсу (посилання на інші види
сторінок у рамках даної моделі не врахо-
вуються); cl_ierr – ієрархічне відношення
між категоріями Wiki-ресурсу, яке визна-
чається в процесі створення нових катего-
рій;
- }f{F equ – множина тих харак-
теристик, що можуть використовуватися
для логічного виведення над онтологією,
для Wiki-онтології обмежується єдиним
відношенням еквівалентності між Wiki-
сторінками (відсильні статті);
- інші елементи онтологічної мо-
делі для цієї Wiki-онтології є порожніми
множинами.
Формальна модель семантично зба-
гачених Wiki-ресурсів є більш складною і
включає ряд елементів, пов'язаних із семан-
тичними властивостями. Онтологія
semant_wikiO містить більше компонентів:
- множина відношень доповню-
ється propsemL _ , елементи якого – семан-
тичні властивості Wiki-сторінок, областю
значення яких є Wiki-сторінки;
- T – множина типів даних (на-
приклад, рядок, ціле), значення з яких мо-
жуть приймати властивості даних класів
онтології, – значення семантичних власти-
востей, що пов’язують не з іншими сторін-
ками, а зі значеннями даних.
Шаблони типових ІО дозволяють
визначати область значення та область ви-
значення об’єктних властивостей Wiki-
онтології, та навпаки, характеристики
об’єктних властивостей з Wiki-онтології є
основою для коректного створення шабло-
нів типових ІО. Семантична розмітка Wiki-
ресурсу дозволяє автоматизувати процес
побудови його Wiki-онтології, і тому для
ІР на основі Semantic MediaWiki досить
просто застосовувати семантичні техноло-
гії, що базуються на використанні онтоло-
гічних знань.
Семантичний пошук
на порталі е-ВУЕ
В ефективності використання
сучасних розподілених баз знань одним з
визначних чинників є організація пошуку,
що дозволяє користувачеві отримати дос-
туп до потрібної інформації. При цьому
важливі як час доступу, так і зрозумілість
і зручність користувацького інтерфейсу.
Знання, представлені інформаційними ре-
сурсами, що організовані на основі Wiki-
технологій, мають певну специфіку [8].
Моделі та засоби систем баз даних і знань
14
Організація подання та збереження
інформації на таких ресурсах визначає за-
соби та методи пошуку. Відомості, що
представлені за допомогою Wiki-сторінок,
з точки зору інформаційно-пошукових си-
стем відносяться до частково структурова-
них: вони групуються за допомогою кате-
горій Wiki, зазвичай містять посилання на
інші Wiki-сторінки того самого ресурсу,
та, якщо застосовуються семантичні Wiki,
включають семантичну розмітку, тобто
властивості інформації, що представлена
на сторінці, охарактеризовані на семанти-
чному рівні.
На сторінці категорії у Wiki-
ресурсах представлено перелік її підкате-
горій та усіх сторінок, що відносяться до
цієї категорії. Це забезпечує досить зручну
навігацію у ресурсі за змістовно поєдна-
ними у категорії групами сторінок, але не
дозволяє отримувати доступ до інформації,
що відноситься до групи категорій.
Засоби пошуку у Wiki-ресурсах
можна класифікувати на основні наступні
групи:
- за ключовими словами (для ен-
циклопедій найчастіше – за гаслом статті
або за початковими літерами назви);
- за тематикою предметної об-
ласті (для енциклопедій – за категоріями
та підкатегоріями статті);
- за типом інформаційного об’єк-
та (для енциклопедій типи ІО теж форма-
лізуються через апарат категорій, конкрет-
ні значення яких здобуваються із узагаль-
нення типів статей енциклопедії);
- за семантикою інформаційного
об’єкта (за його властивостями).
Перший варіант забезпечує най-
більш швидкий доступ до інформації, дру-
гий базується на загальновживаних класи-
фікаторах (що дозволяє формалізувати
класифікацію, але ускладнює пошук для
пересічних користувачів), а третій – вра-
ховує семантику інформаційної потреби
користувача та дозволяє ознайомитися із
семантично близькими статтями.
Пошук за ключовими словами –
назвою гасла, словами в природномовному
контенті – є традиційним, його реалізують
практично всі електронні довідкові та ен-
циклопедійні видання, але він потребує від
користувача знань щодо точного наймену-
вання того, що він шукає. Пошук термінів,
що вводяться користувачем з помилками,
зазвичай не підтримується. Крім того, для
такого пошуку має значення порядок слів
у пошуковому рядку.
Пошук за тематикою є більш гнуч-
ким. Для е-ВУЕ найбільш вживаним є по-
шук за галузями знань та їх підкласами.
Крім того, вводиться багато інших специ-
фічних для окремих галузей категорій, до
яких можна легко перейти з поточного га-
сла. Це забезпечує зручну навігацію для
тих користувачів е-ВУЕ, що досліджують
певну проблему, а не шукають визначення
конкретного терміну.
Третій тип пошуку – за типом інфо-
рмаційного об’єкта – підтримується в
е-ВУЕ за допомогою великої кількості
шаблонів для типових ІО. Кожен шаблон
пов’язаний із відповідною категорією
е-ВУЕ, і користувач може застосовувати
ці категорії і їх ієрархію для навігації у
ресурсі.
У багатьох випадках для користува-
чів найзручнішим виявляється пошук за
типом інформаційного об’єкта. Інформа-
ційний об’єкт (ІО) – це інформаційна мо-
дель об’єкта певної предметної області, що
визначає структуру, атрибути, обмеження
цілісності і, можливо, поведінку цього
об’єкта.
Четвертий тип пошуку – це семан-
тичний пошук, результатом якого має
стати інформаційний об’єкт зі складною
структурою, знання про яку використову-
ються в пошукових процедурах. Його мо-
жна розглядати як окремий випадок проб-
леми розпізнавання об’єктів, якщо у ви-
падку енциклопедій повна реалізація пот-
ребує встановлення семантичних плагінів,
призначених для оперування із семантич-
ними властивостями статей.
У різних Wiki-ресурсах реалізують-
ся різні підмножини видів пошуку. Це за-
лежить від обсягу Wiki-ресурсу, складнос-
ті його структури та від того, на яких саме
користувачів орієнтовано цей ресурс.
Для типових ІО доцільно виділити
найбільш характерні параметри, які можна
Моделі та засоби систем баз даних і знань
15
відображати за допомогою семантичних
властивостей Wiki. Для уніфікованого
представлення таких властивостей доціль-
но розробити відповідні шаблони. Wiki-
онтологія дозволяє формалізувати ці пара-
метри та їх властивості, зв’язати їх з кате-
горіями Wiki-ресурсу, що відповідають
цим ІО. Це дозволяє будувати семантичні
запити для пошуку ІО за їх властивостями
та категоріями.
Саме наявність онтологічної моделі
БЗ е-ВУЕ – основа для виконання семан-
тичного пошуку: Wiki-онтологія містить
знання про семантичні властивості різних
типових ІО – їх назви, призначення, мож-
ливі значення тощо. У семантичному по-
шуку під ІО будемо розуміти ту інформа-
цію, яку користувач отримує в результаті
виконання процесу пошуку. Стосовно
Wiki-ресурсів, як окремі ІО доцільно розг-
лядати Wiki-сторінки як звичайні, так і
спеціальні (приміром, сторінки категорій),
які містять однаковий набір семантичних
властивостей та відносяться до тих самих
категорій.
Найчастіше використовуються за-
пити, що сполучені з функцією ask. Ця
функція використовується так само як
і інші функції синтаксичного аналізатора
MediaWiki: її виклик позначається подвій-
ними фігурними дужками, перед іменем
ставиться символ #, а після – двокрапка.
Спочатку передається сам рядок запиту,
що відбирає потрібну інформацію з Wiki,
а потім усі параметри запиту, розділені
символами вертикальної риси |. В умовах
запиту можуть використовуватися назви
категорій та семантичних властивостей,
а також обмеження щодо значень цих
властивостей. Крім того, можуть викорис-
товувати деякі службові параметри, такі
як поточний час або дата та назва по-
точної сторінки. Запити ask мають таку
форму:
{{#ask:Критерії вибору сторінок
|?Запитувана властивість
|параметри
}}
Якщо користувачів цікавлять не
стільки назви сторінок, що відповідають
умовам запитів, але й інформація, яка
представлена на цих сторінках, тоді потрі-
бно отримати значення семантичних влас-
тивостей цих сторінок. Наприклад:
{{#ask:
[[Категорія:Країна]]
[[Населення::>2000000]]
|?Столиця
|format=broadtable
}}
Слід звернути увагу, що у запиті
необхідно використовувати точні назви
категорій та семантичних властивостей.
Саме для цього може бути використана
Wiki-онтологія ІР, що інтероперабельно
формалізує ці відомості і дозволяє бачити
зв’язки між властивостями та категорія-
ми, їх характеристики тощо, які явно не
подаються у середовищі Semantic Media-
Wiki.
За допомогою семантичного пошу-
ку користувач може отримувати доступ до
інформації з різних Wiki сторінок е-ВУЕ, а
застосування значень семантичних власти-
востей як параметрів запиту дозволяє ав-
томатизувати відбір саме тієї інформації,
що потрібна йому. Це дозволяє економити
час та зусилля користувачів, підвищує
ефективність використання енциклопедії
та забезпечує повніше задоволення персо-
нальних інформаційних потреб різних груп
користувачів.
Семантичні запити можуть вбудо-
вуватися до існуючих сторінок і розширю-
вати можливості навігації (рис. 1) або вик-
ликатися за допомогою шаблонів. Це за-
безпечує можливість інтеграції відомостей
з різних гасел, дозволяє запобігти повтор-
ному введенню інформації та гарантує
автоматизоване внесення змін до усіх ре-
зультатів запиту у випадку змін у тих сто-
рінках, серед яких виконується пошук.
Наприклад, для сторінок категорій,
що відповідають галузям знань е-ВУЕ та їх
підкатегоріям, за допомогою запитів, що
вбудовані у шаблони, виконується пошук
нових гасел відповідної категорії та гасел,
для яких потрібні автори, виводиться ін-
формація про модератора галузі тощо. У
шаблоні “Нові_сторінки_категорії” міс-
титься наступний запит:
Моделі та засоби систем баз даних і знань
16
Рис. 1. Сторінка категорії е-ВУЕ “Технічні науки”,
контент якої будується в результаті виконання семантичних запитів
{{#ask:
[[Категорія:{{PAGENAME}}]]
[[Дата оприлюднення::>0]]
[[Місяць оприлюднення::{{CURRENTMONTH}}]]
[[Рік оприлюднення::{{CURRENTYEAR}}]]
|?Дата оприлюднення
|?Місяць оприлюднення
|?Рік оприлюднення
|format=category
|link=all
|order=descending
|sep=.
|intro=В цьому місяці опубліковано
|outro=
|default=В цьому місяці не оприлюднено нові
статті.
}}
Якщо з’являються нові гасла кате-
горії або в таких гаслах інформація змі-
нюється, контент сторінки категорії онов-
люється автоматично.
Такі шаблони та вбудовані запити
доцільно створювати лише для тих запи-
тів, які мають виконуватися регулярно та
можуть зацікавити велику кількість кори-
стувачів. Якщо інформаційні потреби ко-
ристувача більш специфічні, йому потріб-
но побудувати семантичний запит самос-
тійно.
Середовище Semantic MediaWiki під-
тримує просту, але досить потужну мову
запитів SMW-QL для семантичного пошу-
ку у Wiki-ресурсах, яка дозволяє, по-
перше фільтрувати сторінки за заданими
критеріями, і по-друге, виводити як ре-
зультати запиту тільки цікавлячого корис-
тувача інформацію, а не весь текст Wiki-
сторінки.
Результати таких запитів динамічно
інтегрують актуальну інформацію з інших
Wiki-сторінок і відображають її у зручно-
му для користувача форматі – у вигляді
діаграм, географічних карт, таблиць і схем
Моделі та засоби систем баз даних і знань
17
тощо. Якщо контент сторінок, з яких здо-
буваються потрібні дані, змінюється, то
результати запитів також автоматично
оновлюються, забезпечуючи цим несупе-
речність і погодженість даних. Це дуже
зручно для ІР зі складною структурою та
розгалуженими зв’язками між сторінками.
На жаль, пошукова мова Semantic
MediaWiki має певні обмеження:
- у семантичних запитах не оброб-
ляються ієрархічні відношення між кате-
горіями, наприклад, немає засобів пошуку
підкатегорій обраної категорії;
- категорії не можуть використо-
вуватися як змінна у запиті (можна вводи-
ти тільки фіксоване значення), наприклад,
неможливо знайти Wiki-сторінки, що від-
носяться до тих категорій, що й поточна
сторінка;
- категорії Wiki-сторінок, що від-
повідають умовам запиту, не можуть ви-
водитися в його результатах.
Це обмежує сферу застосування
семантичних запитів та ускладнює вико-
нання пошукових процедур, що пов’язані
з поточною сторінкою, яку проглядає
користувач. Тому виникає потреба у ство-
ренні додаткових засобів пошуку та наві-
гації в ІР, що базуються на Semantic
MediaWiki, які дозволяють усунути ці об-
меження. Але їх застосування потребує
певного теоретичного обґрунтування.
Методи аналізу подібності понять
Для аналізу семантичної близькості
між поняттями ПрО можуть використову-
ватися методи, що спрямовані на знахо-
дження подібності між елементами різних
онтологій. Оцінка подібності понять може
базуватися на їх позиціях в ієрархії класів,
для яких вже визначено подібність: якщо
підкласи та надклас цих понять подібні, то
самі такі поняття теж можуть бути подіб-
ними. Для кількісної оцінки подібності
двох сутностей можуть враховуватися
наступні параметри (ознаки):
- оцінка подібності їх прямих надкласів;
- оцінка подібності всіх їх надкласів;
- оцінка подібності підкласів понять;
- оцінка подібності екземплярів понять.
Аналогічно будуються оцінки подіб-
ності з урахуванням інших (не ієрархіч-
них) зв’язків між поняттями. Наприклад,
якщо поняття
21Op та
21Op пов’язані від-
ношенням
1Or в онтології 1O ; поняття
12Op та
22Op пов’язані відношенням
2Or
в онтології 2O ; поняття
21Op подібне до
поняття
22Op (оцінка подібності вище за
порогову); відношення
1Or подібне до від-
ношення
2Or (оцінка подібності вище за
порогову), тоді можна припустити, що по-
няття
11
Op теж подібне до поняття
12Op
(оцінка подібності вище за порогову).
Для оцінки близькості понять може
застосовуватися також статистичний ана-
ліз, який базується на порівнянні наборів
екземплярів двох класів: подібність по-
нять визначається шляхом порівняння
екстенсіоналів цих понять. Знаходження
відповідності між поняттями базується на
наступному емпіричному правилі:
- класи 1p та 2p онтології 1O екві-
валентні, якщо для всіх екземплярів онто-
логії n,1i,Pi виконується 1i pP
2i pP і, навпаки, 2pPi pPi ;
- клас 1p онтології 1O є підкласом
2p цієї онтології, якщо для всіх екзем-
плярів онтології n,1i,Pi виконується
2i1i pPpP .
Для Wiki-ресурсів, що розробля-
ються без формалізації структури БЗ (при-
кладом такого ІР є Вікіпедія), необхідно
застосовувати саме такі підходи до знахо-
дження СБП. Складність проблеми спів-
ставлення понять в онтології пов’язана з її
поганим масштабуванням: збільшення кіль-
кості понять в онтології та ускладнення її
структури значно збільшують простір
пошуку. Тому в ІР великого обсягу такі
методи потребують значних обчислюва-
льних ресурсів.
Якщо потрібно визначати подіб-
ність понять в одній онтології, то задача
значно спрощується. Тому для тих ІР, що
мають заздалегідь розроблену систему
класів та відношень (прикладом такого ІР
Моделі та засоби систем баз даних і знань
18
є е-ВУЕ), що може бути формалізована як
Wiki-онтологія, доцільно застосовувати
методи знаходження СБП, що базуються
на семантичних мережах.
Використання онтологій у пошуку
змістовно близьких понять дозволяє засто-
совувати знання ПрО для більш інтелекту-
альної навігації в ІР, надаючи прямі пере-
ходи до змістовно пов’язаних сторінок.
Оцінювання семантичної спорідне-
ності понять з використанням семантич-
них мереж для подання знань має довгу
історію [9]. Семантична подібність є особ-
ливим випадком семантичної споріднено-
сті [10]. Деякі дослідники припускають,
що оцінку подібності в семантичних мере-
жах потрібно розглядати із залученням
лише таксономічних зв'язків [11], виклю-
чаючи інші типи зв'язків; але зв'язки між
частинами також можна розглядати як ат-
рибути, які впливають на визначення по-
дібності [12]. В літературі визначено бага-
то критеріїв подібності, але вони рідко су-
проводжуються незалежною характерис-
тикою явища, яке вони вимірюють: їх цін-
ність полягає в корисності для конкретно-
го завдання.
Для окремного випадку онтології,
де застосовується єдине відношення між
поняттями – ієрархічне відношення типу
IS-A, – таксономії – близькість двох тер-
мінів може бути оцінена за відстанню між
поняттями в таксономії вершин, які відпо-
відають цим термінам, в таксономії –
окремому випадку онтології.
Семантична відстань між понят-
тями залежить від довжини найкоротшого
шляху між вершинами та загальної спе-
цифічності двох вершин. Чим коротший
шлях від одного вузла до іншого, тим бі-
льше вони подібні. Якщо між елементами
існує кілька шляхів, використовують дов-
жину найкоротшого з них [13, 14]. Дов-
жина найкоротшого шляху в цій таксоно-
мії між відповідними поняттями, який виз-
начається кількістю вершин (або ребер) в
найкоротшому шляху між двома відповід-
ними вершинами таксономії [11], з ураху-
ванням глибини таксономічної ієрархії
[15] (чим менше довжина шляху між вер-
шинами, тим вони семантично ближчі):
)b,a(dN2log)b,a(S ,
де N – глибина таксономічного дерева,
)b,a(d – довжина найкоротшого шляху
між вершинами а та b.
Однак з цим підходом пов’язана
складна проблема, спричинена уявленням
про те, що всі зв'язки в таксономії являють
собою однорідні відстані. На жаль, рівно-
мірну відстань у таксономії важко визна-
чити і ще важче контролювати.
У реальних таксономіях існує вели-
ка мінливість «відстані», що охоплюється
єдиним таксономічним зв’язком, особливо
коли деякі підмножини таксономії (напри-
клад, біологічні категорії) є набагато
більш щільними, ніж інші. Наприклад, у
WordNet [16] – широко відомій семантич-
ній мережі для англійської мови – можна
знайти прямі зв’язки як між досить подіб-
ними поняттями, так і між відносно дале-
кими. Тому доцільно враховувати семан-
тику відношень між поняттями для різних
таксономічних відношень та враховувати
кількість екземплярів у підкласах.
Деякі міри близькості [17] врахо-
вують тільки глибину вершин термінів:
)b(N)a(N))b,a(p(N2)b,a(S ,
де )b,a(p – найближчий спільний предок
вершин а та b, )x(N – глибина вершини х.
Подібність понять пов’язана також
з їх інформаційним змістом (контентом).
Нехай C – множина понять в таксономії is-
а, що дозволяє множинне успадкування
(multiple inheritance).
Одним із ключових факторів у по-
дібності двох понять є ступінь, в якій вони
поділяють інформацію, зазначену в так-
сономії IS-A високо специфічним понят-
тям, яке відноситься до обох цих понять.
Метод підрахунку країв (edge-counting
method) враховує це опосередковано, оскі-
льки, якщо мінімальний шлях зв’язків IS-
A між двома вузлами довгий, то це озна-
чає, що необхідно високо підійматися в
таксономії до більш абстрактних понять,
щоб знайти найменшу верхню межу – по-
няття, до якого відносяться обидва поня-
ття, що аналізуються.
Моделі та засоби систем баз даних і знань
19
Інформаційний контент (informati-
oncontent) поняття c можна кількісно виз-
начити як p(c) log : чим вище ймовір-
ність використання поняття, тим нижче
його інформативність. Таким чином, чим
вище рівень абстракції поняття (тобто чим
вище воно знаходиться в таксономії), тим
менше його інформаційний контент. Якщо
в таксономії існує унікальна верхня кон-
цепція, то її інформаційний контент дорів-
нює 0.
Така кількісна характеристика ін-
формації забезпечує новий спосіб вимірю-
вання семантичної подібності [18] на
основі екстенсіоналу понять.
Чим більше інформації поділяють
(сумісно використовують) два поняття,
тим більше вони подібні, а інформація, що
сумісно використовується двома поняття-
ми, визначається інформаційним контен-
том понять, що входять до їх складу в
таксономії. Формально така семантична
подібність визначається наступним чином:
p(c)] log[max)c,c(sim
)2c,1c(Sc
21
,
де )2c,1c(S – множина понять, що вхо-
дять до складу як 1c , так і 2c .
Хоча подібність обчислюється з
урахуванням всіх верхніх меж для двох
понять, інформаційна міра дозволяє іден-
тифікувати мінімальну верхню межу,
оскільки жоден клас не є менш інформа-
тивним, ніж його надкласи.
На практиці часто виникає потреба
у вимірюванні подібності слів, а не по-
нять. Використовуючи для представлення
слів з множини W через сукупності понять
в таксономії, які є значеннями (змістами)
слова w, функцію )w(s , таку, що
CW:s , тобто
}m,1k,Cc{)Ww(s k ,
можна визначити
)c,c(simmax)w,w(w_sim ji21 ,
де )w(sc),w(sc 2j1i .
Це узгоджується з визначенням
«диз'юнктивних понять», що використовує
підрахунок країв: вони визначають відс-
тань між двома диз'юнктивними наборами
понять як мінімальну довжину шляху від
будь-якого елемента з першого набору до
будь-якого елемента з другого. Подібність
слів оцінюється через знаходження мак-
симального інформаційного контенту над
усіма поняттями, для яких обидві слова
можуть бути екземпляром.
Це дозволяє створювати множини
семантично близьких слів (СБС), тобто
слів, семантична відстань між якими мен-
ша за обрану порогову величину.
Семантично близькі поняття
(СБП) – це нечітка множина, яка включає
набір понять, для яких кількісне значення
семантичної близькості з обраним поня-
ття вище заданого порогу [19]. Міри
визначення семантичної близькості понять
на основі онтологій використовують різ-
номанітні семантичні характеристики цих
понять – їх властивості (атрибути і від-
ношення з іншими поняттями), взаємне
положення в онтологічних ієрархіях.
В основу багатьох мір близькості
на основі онтологій покладений теорети-
ко-множинний підхід Тверськи [20], який
визначає міру близькості двох об’єктів
шляхом співставлення властивостей
(feature matching). Міра близькості S(a,b)
між об’єктами a і b – це функція трьох
наборів властивостей цих об’єктів A і B, їх
перетину A∩B, доповнень A–B та B–A.
Недоліком більшості мір, які осно-
вані на онтологічних структурах, є симет-
ричність (експертні оцінки показують, що
міра близькості не завжди симетрична),
незалежність від контексту і чутливість
до структури ієрархії. Цю проблему до-
зволяє вирішити застосування асиметри-
чної міри семантичної близькості [21],
яка залежить від напрямку руху між реб-
рами (наприклад, нащадок більш подіб-
ний до предка, ніж предок до нащадка).
В інших роботах пропонуються
міри близькості, які базуються на неієра-
рхічних («горизонтальних») відношеннях
і атрибутах. Оцінювання близькості по-
нять, яке використовує горизонтальні від-
ношення, спирається на припущенні, що
якщо два поняття мають одне й те саме
відношення з третім поняттям, тоді вони
ближче, ніж два поняття, які мають це
відношення з різними поняттями, тобто
Моделі та засоби систем баз даних і знань
20
близькість двох понять залежить від бли-
зькості тих понять, з якими вони мають
відношення. Така міра близькості обчис-
люється рекурсивно.
Атрибутивна міра близькості базу-
ється на близькості значень спільних
атрибутів понять, діапазони яких є літе-
ралами, числами, рядками та іншими ти-
пами даних. Як міри близькості для ряд-
кових даних можна використовувати
нормовану редакторську відстань [22],
для чисел – інверсію різниці, що нормо-
вана максимальним значенням атрибуту.
Використання цих мір близькості
дозволяє оцінювати подібність значень
параметрів понять (властивості даних
екземплярів класів онтології), яким в
семантизованих Wiki-ресурсах відпові-
дають значення семантичних властивос-
тей, що не є посиланнями на інші Wiki-
сторінки.
Аналіз існуючих підходів до кіль-
кісного оцінювання семантичної подібно-
сті понять показує доцільність викорис-
тання для цього таксономій та відстані в
цих таксономіях між поняттями, близь-
кість яких оцінюється, та їх спільним
надкласом. Урахування інших типів он-
тологічних відношень між поняттями та
порівняння їх семантичних властивостей
дозволяють уточнювати ці оцінки відпо-
відно до специфіки ПрО.
Розглянуті вище методи знахо-
дження СБП можуть використовуватися в
е-ВУЕ, де реалізується кілька незалежних
таксономій для категоризації гасел, а інші
зв’язки між гаслами встановлюються за
допомогою семантичних відношень. Ця
інформація щодо структури БЗ е-ВУЕ
представлена у вигляді Wiki-онтології та
може застосовуватися як користувачами
енциклопедії, так і іншими інтелектуаль-
ними ІС.
Структура БЗ е-ВУЕ
Основний інструмент організації
БЗ портальної версії е-ВУЕ – засоби, що
надаються Semantic MediaWiki (категорії
та семантичні властивості). Для структу-
рованого подання інформації використо-
вується набір незалежних таксономій, з
якими пов’язані відповідні набори кате-
горій, між якими встановлені об’єктні від-
ношення типу «клас-підклас» – кожне
гасло може бути віднесено до довільного
набору існуючих категорій, і наявність
ієрархічних зв’язків між цими категорія-
ми не викликає суперечностей в обробці
інформації. Це дозволяє відображати різ-
ні аспекти, за якими можна класифікува-
ти гасла енциклопедії [23]. Для інтеграції
набору семантичних властивостей виді-
ляються типові інформаційні об’єкти
(ІО) [24] – гасла, що відносяться до виз-
наченого набору категорій та мають фік-
сований набір характеристик. Більш дета-
льно типові ІО для е-ВУЕ проаналізовано
в [25].
Онтологічна модель БЗ е-ВУЕ доз-
воляє автоматизовано знаходити змістов-
но близькі поняття серед гасел енциклопе-
дії, аналізуючи їх структуру, семантику та
зв’язки з іншими гаслами. Це дозволяє
пропонувати користувачам нові шляхи
навігації у Wiki-ресурсі та розширені фун-
кціональні можливості у пошуку.
Для визначення близькості між
поняттями можуть використовуватися як
знання з відповідних онтологій ПрО, на-
приклад, кількість посилань-зв’язків між
поняттями та рівень значущості цих від-
ношень, так і відомості з таксономій, що
фіксують відношення між категоріями, та
враховуються як кількість, наприклад,
кількість рівнів між категоріями, до яких
віднесені поняття, що порівнюються, та
обсяг цих категорій.
БЗ е-ВУЕ підтримує довільні зміс-
товні відношення між поняттями, водно-
час як у Вікіпедії можуть використовува-
тися лише два типи відношень – ієрархіч-
не відношення «Клас-елемент класу» (ка-
тегоризація) та відношення зв’язку (поси-
лання між сторінками).
Наявність довільних, семантично
визначених відношень значно розширює
як виразність подання знань у ресурсі, так
і можливості навігації у ньому.
В е-ВУЕ Wiki-онтологія дозволяє
явно визначати наявність або відсутність
ієрархічних зв’язків між категоріями
е-ВУЕ, припустимість або неприпусти-
мість їх перетину; відображати зв’язки
Моделі та засоби систем баз даних і знань
21
між категоріями та типовими ІО; вказува-
ти, які саме семантичні властивості Wiki-
сторінок, що відображають змістовні від-
ношення між різними сторінками енцик-
лопедії, і для яких ІО припустимі ті або
інші відношення, притаманні кожному з
цих ІО; описувати властивості категоризо-
ваних гасел е-ВУЕ та визначати характе-
ристики цих властивостей.
Онтологічна модель структури БЗ
е-ВУЕ використовується для підтримки
семантичної навігації на порталі. Однією з
істотних переваг е-ВУЕ як семантичного
порталу є можливість знаходження СБП.
Такий пошук базується на наступних при-
пущеннях:
- поняття, що відповідають гас-
лам, які відносяться до однакового набору
категорій, семантично ближчі одне до од-
ного, ніж інші поняття, відображені на
порталі;
- поняття, що відповідають гаслам,
які мають однакові чи близькі значення се-
мантичних властивостей, семантично бли-
жчі одне до одного, ніж поняття, що відпо-
відають гаслам, які відображені на пор-
талі, в яких семантичні властивості мають
інші значення або взагалі не визначені;
- поняття, які визначені як семан-
тично близькі за обома попередніми
критеріями, є більш семантично близьки-
ми, ніж ті, для яких виконується тільки
одна умова близькості або не виконується
жодної.
Для е-ВУЕ потребу у знаходженні
СБП може викликати нездатність корис-
тувача коректно обрати галузь знань, до
якої відноситься потрібне йому гасло, або
без помилок ввести потрібний термін. В
таких випадках користувач може отрима-
ти доступ до гасла, що він шукає, не без-
посередньо, а через ті семантично близькі
гасла, які він спроможний знайти.
Наприклад, користувач хоче знайти
відомості про письменника або художни-
ка, прізвище якого він точно не пам’ятає,
та не здатний точно визначити жанр його
творів, але може вказати прізвище його
більш відомого сучасника, який працював
у тому ж жанрі. В деяких випадках про-
блема знаходження СБП вирішується за
допомогою знаходження СБС: це дозволяє
оцінювати семантичну близькість природ-
номовних текстів, що характеризують гас-
ла е-ВУЕ.
Для розширення функціоналу
е-ВУЕ, що стосується пошуку та навігації
у ресурсі, виникає потреба у засобах зна-
ходження семантично близьких ІО – як
глобально близьких (за всією сукупністю
ознак), так і локально близьких (тільки за
певною підмножиною ознак).
Для визначення кількісних оцінок
семантичної близькості довільних гасел та
категорій е-ВУЕ, які при цьому розгляда-
ються як екземпляри класів та класи від-
повідної БЗ, проведено аналіз наукових
досліджень цієї проблематики, розглянуто
переваги та недоліки існуючих підходів,
враховано можливість їх масштабування
для великих даних.
Використання онтологій як основи
формалізації структури бази знань є
ефективним засобом для встановлення
семантичної близькості між елементами
цієї БЗ. Особливу увагу викликає оброб-
ка окремих випадків онтологічних від-
ношень – таких, як відношення «is-a»,
синонімії та ієрархічних відношень
«Клас-підклас» та «Клас-екземпляр кла-
су», що реалізуються базовими засобами
технологічного середовища Semantic
MediaWiki.
Для класифікації сторінок е-ВУЕ
гасел застосовується набір незалежних
таксономій, які дозволяють знаходити
семантично подібні гасла енциклопедії та
можуть використовуватися для класифіка-
ції гасел як окремо, так і інтегровано;
- поділ на три основні групи –
Персоналії, Цивілізація та Природа;
- категоризація за тематичною
спрямованістю: поділ на 27 базових нап-
рямків знань відповідно з класифікацією
ВАК із підкатегоріями різного рівня;
- таксономія типових ІО, для
яких розроблено шаблони з основними
семантичними властивостями та уніфіко-
ваною формою подання на порталі;
Моделі та засоби систем баз даних і знань
22
- поділ за формою публікації:
сторінки, що представлено у паперовій
версії, та сторінки, що подано виключно
на порталі;
- поділ за ступенем готовності:
завершені сторінки; сторінки, що шукають
авторів; сторінки, над якими ведеться
робота;
- поділ за часом публікації, що
враховує такі семантичні властивості
Wiki-сторінки, як Рік публікації, Місяць
публікації та Дата публікації;
- поділ за територіальною спорід-
неністю, що враховує семантичні власти-
вості Wiki-сторінки з областю значення
типу Місто, Країна, Регіон тощо (напри-
клад, Місце народження, Місце розташу-
вання);
- поділ за часовою спорідненіс-
тю, що враховує семантичні властивості
Wiki-сторінки з областю значення типу
Дата (наприклад, Рік народження, Рік
створення);
- поділ за параметрами, специфіч-
ними для певної наукової галузі або ПрО
(наприклад, Кількість учасників, Площа).
В е-ВУЕ підтримуються всі основні
типи пошуку – як за формальними озна-
ками (за ключовими словами) та за катего-
ріями, так і на змістовному рівні за семан-
тичними властивостями. Семантичний
тип пошуку базується на оригінальній
структурі БЗ е-ВУЕ, що розроблена з ура-
хуванням досвіду експертів прикладних
галузей та інженерів зі знань, і саме цей
засіб доступу до інформації складає одну з
основних переваг даного енциклопедій-
ного ресурсу.
Використання СБП для
навігації в е-ВУЕ
Для пошуку СБП в е-ВУЕ можуть
використовуватися наступні джерела
знань щодо понять:
- таксономії категорій, що вико-
ристовуються в е-ВУЕ;
- природномовні описи понять,
що містяться у відповідних Wiki-сторінках;
- гіперпосилання між сторінками;
- семантичні властивості, що по-
в’язують між собою Wiki-сторінки е-ВУЕ;
- семантичні властивості, що по-
в’язують сторінки понять із значеннями
даних.
Відповідно до специфіки енцикло-
педичного ІР, недоцільно шукати сторін-
ки, що збігаються за усіма доступними па-
раметрами – деякі групи параметрів є уні-
кальними (наприклад, прізвище та ім’я
разом з роком народження), а інші є функ-
ціонально залежними від інших парамет-
рів, хоча мають і самостійну цінність (на-
приклад, прізвище особи мовою оригіна-
лу). Тому пропонується знаходити локаль-
ні СБП, обираючи ті характеристики, які
можуть бути корисними для досить широ-
кого кола досліджень.
Для демонстрації можливостей
описаного вище підходу пропонується
наступні локальні СБП, пошук яких вбу-
дованими засобами Semantic MediaWiki
[26] не може бути реалізований:
1) СБП, визначені за належністю
до набору категорій;
2) СБП, визначені за значеннями
обраних семантичних властивостей;
3) СБП, визначені за комбінацією
категорій та значень семантичних влас-
тивостей.
Семантична близькість шуканих
понять визначається відносно поточної
Wiki-сторінки, яку розглядає користувач,
тобто категорії та властивості цієї сторін-
ки аналізуються як параметри такого
обчислення.
У першому випадку для поточної
Wiki-сторінки потрібно знайти гасла,
які віднесені одночасно до тих категорій,
до яких віднесена поточна сторінка. Нині
реалізовано пошук за категоріями та
підкатегоріями галузей знань та за типо-
вими ІО, а службові категорії, що
пов’язані з формою публікації матеріалу
(наприклад, “ВУЕ”) не враховуються
(рис. 2).
Моделі та засоби систем баз даних і знань
23
Рис. 2. Пошук СБП для сторінки е-ВУЕ «Авіація»
Пошук може бути рекурсивно роз-
ширено для пошуку груп СБП, для яких
спільною є тільки певна підмножина кате-
горій поточної сторінки. Предметом дослід-
ження залишається питання щодо ваги
окремих категорій та врахування кількості
підкатегорій та екземплярів у кожній з
категорій, що досліджуються.
Другий варіант – пошук може здій-
снюватися не для всього контенту е-ВУЕ,
а лише для сторінок, що відносяться до
типових ІО одного типу – персоналій,
міст, країн тощо. У такому пошуку врахо-
вуються значення деяких (обраних при
створенні запиту) семантичних власти-
востей, що характерні для цього типу
ІО, але значення цих властивостей зале-
жатимуть від їх значень для поточної сто-
рінки. Наприклад, для типового ІО “Пер-
соналія” можна шукати осіб, що народи-
лися (рис. 3) в тому самому місці, сучас-
ників тощо.
Третій варіант пошуку дозволяє
шукати СБП обраної категорії з набором
семантичних властивостей або категорій,
що притаманні обраній сторінці. Напри-
клад, можна знайти видатних осіб (катего-
рія “Персоналія”), що спеціалізувалися в
тій сфері, до якої відноситься певне понят-
тя або пристрій (рис. 4).
На сьогодні пошук СБП для е-ВУЕ
знаходиться на стадії досліджень, і тому
певні його елементи реалізовано лише на
тестовій версії порталу.
Слід відмітити, що пошук СБП (ло-
кально та глобально) неможливо викону-
вати вбудованими засобами Semantic
MediaWiki. Для кожного такого пошуку
потрібно писати окремі запити, що аналі-
зують код сторінок.
Моделі та засоби систем баз даних і знань
24
Рис. 3. Пошук земляків для сторінок е-ВУЕ категорії «Персоналія»
Рис. 4. Пошук спеціалістів (за набором категорій сторінки) для сторінок е-ВУЕ
Моделі та засоби систем баз даних і знань
25
Висновки
В результаті проведених дослід-
жень розроблено структурну схему БЗ
е-ВУЕ та обумовлено наявність у цій
структурі окремих елементів та зв’язків
між ними. На основі аналізу специфіки
знань, що представлені в е-ВУЕ, обґрун-
товано потребу в використанні онтологіч-
ної моделі Wiki-ресурсу та визначено
специфіку Wiki-онтології, що відповідає
особливостям е-ВУЕ, визначено сферу за-
стосування цієї моделі.
Використання цієї моделі забезпе-
чує підвищення ефективності пошуку та
навігації в інформаційному контенті пор-
тальної версії енциклопедії, підтримує
семантичний пошук.
Проаналізовано існуючі підходи та
методи знаходження СБП, розглянуто
роль онтологій в цьому процесі, дослідже-
но специфіку знаходження семантично
близьких Wiki-сторінок та можливості зас-
тосування для цього онтологічної моделі
БЗ е-ВУЕ, наведено практичні приклади
застосування запропонованого підходу.
Література
1. Semantic MediaWiki. –
https://www.semantic-mediawiki.org/wiki/
Semantic_MediaWiki
2. Guarino N. Formal Ontology in Information
Systems. Formal Ontology in Information
Systems. Proc. of FOIS'98. 3–15. 1998.
3. Ushold M., Gruninger M. Ontologies: Princi-
ples, Methods and Applications. Knowledge
Engineering Review. 1996. Vol. 11,
N 2.
4. Asuncion G. Ontological Engineering: with
Examples from Areas of Knowledge Man-
agement, e-Commerce and the Semantic Web
(Advanced Information and Knowledge Pro-
cessing). –
http://www.amazon.com/gp/reader/
1852335513/ref=sib_rdr_toc/.
5. Rogushina J. Semantic Wiki resources and
their use for the construction of personalized
ontologies. CEUR Workshop Proceedings
1631. 2016. P. 188–195.
6. Рогушина Ю.В. Теоретичні засади засто-
сування онтологій для семантизації ресур-
сів Web. Проблеми програмування. 2018.
№ 2-3. С. 197–203.
7. W3C Semantic Web Activity.
http://www.w3.org/2001/sw/Activity/.
8. Рогушина Ю.В., Прийма С.М., Строкань
О.В. Створення та використання семанти-
чних Wiki-ресурсів: навчальний довідник.
Мелітополь, ФОП Однорог Т.В. 2017.
169 с.
9. Quillian M.R. Semantic memory. In Minsky,
M. (Ed.), Semantic Information Processing.
MIT Press, Cambridge, MA, 1968.
10. Collins, A., Loftus, E. A spreading activation
theory of semantic processing. Psychological
Review. 1975. 82. P. 407–428.
11. Rada R., Mili H., Bicknel E., Blettner M.
Development and application of a metric on
semantic nets. IEEE Transaction on Systems,
Man, and Cybernetics. 1989. 19(1). P. 17–30.
12. Richardson R., Smeaton A.F., Murphy J. Us-
ing WordNet as a knowledge base for meas-
uring semantic similarity between words.
Working paper CA-1294, Dublin City Uni-
versity, School of Computer AppUcations,
Dublin, 1994. ftp://ftp.compapp.
dcu.ie/pub/w-papers/1994/CA1294.ps.Z
13. Lee J.H., Kim M.H., Lee Y.J. Information
retrieval based on conceptual distance in IS-A
hierarchies. Journal of Documentation. 1993.
49(2). P. 188–207.
14. Rada R., Bicknell E. Ranking documents
with a thesaurus. JASIS. 1989. 10(5).
P. 304–310.
15. Leacock C., Chodorow M. WordNet: An
electronic lexical database. Cambrige. 1998.
P. 265.
16. Miller G. WordNet: An on-line lexical data-
base. International Journal of Lexicography,
3(4). (Special Issue). 1990.
17. Wu Z., Palmer M. Verb semantics and lexical
selection. Proc. 32nd Annual Meeting of the
Association for Comput. Linguistics. Las
Cruces. 1994. P. 133–138.
18. Resnik P. Semantic Similarity in a Taxono-
my: An Information-Based Measure and its
Application to Problems of Ambiguity in
Natural Language. Journal of Artificial Intel-
ligence Research. 1999. 11. P. 95–130.
19. Крюков К.В., Панкова Л.А., Пронина В.А.,
Шипилина Л.Б. Меры семантической бли-
зости в онтологиях. Труды научных се-
ссий МИФИ, Научная сессия МИФИ-2010.
Т. 5. Информационно-телекоммуникаци-
онные системы. Проблемы информацион-
ной безопасности. С. 75–78.
20. Tversky A. Features of Similarity.
Psychological Rev. 1977. Vol. 84. P. 327.
21. Bulskov H., Knappe R., Andreasen T. On
Measuring Similarity for Conceptual
http://www.w3.org/TR/photo-rdf/
Моделі та засоби систем баз даних і знань
26
Querying. Proc. 5th Int. FQAS Conf. LNCS.
V. 2522. Berlin: Springer. 2002. P. 100.
22. Levenshtein I.V. Binary codes capable of
correcting deletions, insertions, and reversals.
Cybernetics and Control Theory. 1966.
Vol. 10. P. 707.
23. Методичні рекомендації з підготовки, ре-
дагування та оформлення статей до Вели-
кої української енциклопедії / За ред. Ки-
ридон А.М. К.: ДНУ «Енциклопедичне ви-
давництво». 2015. 120 с.
24. Rogushina J.V. The Use of Ontological
Knowledge for Semantic Search of Complex
Information Objects. Proc. of OSTIS-2017.
2017. P. 127–132.
25. Рогушина Ю.В. Використання семантич-
них властивостей вікі-ресурсів для розши-
рення функціональних можливостей «Ве-
ликої української енциклопедії». Енцик-
лопедичні видання в сучасному інформа-
ційному просторі: колективна монографія
/ За ред. Киридон А.М. – К.: Державна на-
укова установа «Енциклопедичне видав-
ництво». 2017. С. 104–115.
26. Гришанова І.Ю., Рогушина Ю.В. Адапта-
ція технологічних засад semantic mediawiki
до потреб онлайн-версії великої українсь-
кої енциклопедії ВУЕ. Енциклопедистика
в Україні: люди, ідеї, поступ: колективна
монографія / За ред. Киридон А.М. К.:
Державна наукова установа «Енциклопе-
дичне видавництво». 2018. С. 240–253.
References
1. Semantic MediaWiki. –
https://www.semantic-mediawiki.org/wiki/
Semantic_MediaWiki
2. Guarino N. Formal Ontology in Information
Systems. Formal Ontology in Information
Systems. Proc. of FOIS'98. 3–15. 1998.
3. Ushold M., Gruninger M. Ontologies: Princi-
ples, Methods and Applications. Knowledge
Engineering Review. 1996. Vol. 11,
N 2.
4. Asuncion G. Ontological Engineering: with
Examples from Areas of Knowledge Man-
agement, e-Commerce and the Semantic Web
(Advanced Information and Knowledge Pro-
cessing). –
http://www.amazon.com/gp/reader/
1852335513/ref=sib_rdr_toc/.
5. Rogushina J. Semantic Wiki resources and
their use for the construction of personalized
ontologies. CEUR Workshop Proceedings
1631. 2016. P. 188–195.
6. Rogushina J. (2018) Theoretical means of
ontology use for the Web resources
semantization. Problems in Programming.
N 2-3. P. 197–203. [in Ukrainian]
7. W3C Semantic Web Activity. –
http://www.w3.org/2001/sw/Activity/.
8. Rogushina Y.V., Priyma S.M, Strokan O.V.
(2017) Creating and use of the Semantic Wiki
resources: tutorial. Melitopol, FOP Odinorog
T.V. 169 p. [in Ukrainian]
9. Quillian M.R. Semantic memory. In Minsky,
M. (Ed.), Semantic Information Processing.
MIT Press, Cambridge, MA, 1968.
10. Collins, A., Loftus, E. A spreading activation
theory of semantic processing. Psychological
Review. 1975. 82. P. 407–428.
11. Rada R., Mili H., Bicknel E., Blettner M.
Development and application of a metric on
semantic nets. IEEE Transaction on Systems,
Man, and Cybernetics. 1989. 19(1). P. 17–30.
12. Richardson R., Smeaton A.F., Murphy J. Us-
ing WordNet as a knowledge base for meas-
uring semantic similarity between words.
Working paper CA-1294, Dublin City Uni-
versity, School of Computer AppUcations,
Dublin, 1994. ftp://ftp.compapp.
dcu.ie/pub/w-papers/1994/CA1294.ps.Z
13. Lee J.H., Kim M.H., Lee Y.J. Information
retrieval based on conceptual distance in IS-A
hierarchies. Journal of Documentation. 1993.
49(2). P. 188–207.
14. Rada R., Bicknell E. Ranking documents
with a thesaurus. JASIS. 1989. 10(5).
P. 304–310.
15. Leacock C., Chodorow M. WordNet: An
electronic lexical database. Cambrige. 1998.
P. 265.
16. Miller G. WordNet: An on-line lexical data-
base. International Journal of Lexicography,
3(4). (Special Issue). 1990.
17. Wu Z., Palmer M. Verb semantics and lexical
selection. Proc. 32nd Annual Meeting of the
Association for Comput. Linguistics. Las
Cruces. 1994. P. 133–138.
18. Resnik P. Semantic Similarity in a Taxono-
my: An Information-Based Measure and its
Application to Problems of Ambiguity in
Natural Language. Journal of Artificial Intel-
ligence Research. 1999. 11. P. 95–130.
19. Kriukov K.V., Pankova K.V., Pronina V.A.,
Shipilina L.B. (2010) Measures of semantic
proximity in ontologies. Proc.of MIFI-2010,
Vol. 5. Information- telecommunication
systems. Problems of information security.
P. 75–78. [in Russian]
http://www.w3.org/TR/photo-rdf/
Моделі та засоби систем баз даних і знань
27
20. Tversky A. Features of Similarity.
Psychological Rev. 1977. Vol. 84. P. 327.
21. Bulskov H., Knappe R., Andreasen T. On
Measuring Similarity for Conceptual
Querying. Proc. 5th Int. FQAS Conf. LNCS.
V. 2522. Berlin: Springer. 2002. P. 100.
22. Levenshtein I.V. Binary codes capable of
correcting deletions, insertions, and reversals.
Cybernetics and Control Theory. 1966.
Vol. 10. P. 707.
23. Methodical recommendations for preparing,
editing and design of articles for Great
Ukrainian Encyclopedia (2015) / Ed.
Kyrydon A.M., Kyiv, Kyiv, 120 p. [in
Ukrainian]
24. Rogushina J.V. (2017) The Use of
Ontological Knowledge for Semantic Search
of Complex Information Objects // Proc. of
OSTIS-2017. P. 127–132.
25. Rogushina J.V. (2017) Use of semantic
properties of the Wiki resources for
expansion of functional posibilities of “Great
Ukrainian Encyclopedia”. Encyclopaedias in
the modern information space: collective
monograph / Ed. Kyrydon A.M., Kyiv.
P. 104–115. [in Ukrainian]
26. Grishanova I.Y, Rogushina J.V. (2018)
Adaptation of technological means of
Semantic Mediawiki for needs of online
version of Great Ukrainian Encyclopedia //
Encyclopaedias in Ukraine: people, ideas,
steps: collective monograph / Ed. Kyrydon
A.M., Kyiv. P. 240–253. [in Ukrainian]
Одержано 16.10.2019
Про авторів:
Рогушина Юлія Віталіївна,
кандидат фізико-математичних наук,
старший науковий співробітник.
Кількість наукових публікацій в
українських виданнях – 150.
Кількість наукових публікацій в
зарубіжних виданнях – 31.
http://orcid.org/0000-0001-7958-2557,
Гришанова Ірина Юріївна,
науковий співробітник.
Кількість наукових публікацій в
українських виданнях – 18.
Кількість наукових публікацій в
зарубіжних виданнях – 3.
http://orcid.org/0000-0003-4999-6294.
Місце роботи авторів:
Інститут програмних систем
НАН України,
03181, Київ-187,
проспект Академіка Глушкова, 40.
Тел.: 066 550 1999.
E-mail: ladamandraka2010@gmail.com,
i26031966@gmail.com
mailto:ladamandraka2010@gmail.com
mailto:i26031966@gmail.com
|