Use of thesauruses for search of complex information objects on Web on the basis of ontologies
An ontological model of interaction between objects and subjects of the Web semantic search is proposed, its basic elements are characterized, methods for its replenishment and use for filtering information that is pertinent to the personalized needs of users are considered. The types of relations...
Збережено в:
Дата: | 2019 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2019
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/378 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: | ![]() |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-378 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/4f/0741378fdaa14376219705b1a858644f.pdf |
spelling |
pp_isofts_kiev_ua-article-3782024-04-28T11:07:28Z Use of thesauruses for search of complex information objects on Web on the basis of ontologies Использование тезаурусов для поиска сложных информационных объектов в Web на основе онтологий Використання тезаурусів для пошуку складних інформаційних об’єктів у Web на основі онтологій Rogushina, J.V. semantic search; information object; ontology; task thesaurus; semantic markup UDC 004.853, 004.55 семантический поиск; информационный объект; онтология; тезаурус задачи; семантическая разметка УДК 004.853, 004.55 семантичний пошук; інформаційний об’єкт; онтологія; тезаурус задачі; семантична розмітка УДК 004.853, 004.55 An ontological model of interaction between objects and subjects of the Web semantic search is proposed, its basic elements are characterized, methods for its replenishment and use for filtering information that is pertinent to the personalized needs of users are considered. The types of relations between the instances and classes of this model and their characteristics that can have an influence on the time complexity of processing knowledge presented on the basis of this model, are analyzed. One of the important elements of the proposed model are thesauri that represent knowledge regarding tasks for which users are looking for information, and about information resources where such information can be contained. The expediency of using particular cases of ontology – thesauruses – to find semantically similar information objects is substantiated. The types of thesauruses that are used for semantic search are considered, methods for their replenishment and utilization are proposed, and their characteristics are analyzed. In this paper we proposes an algorithm for the automated construction of simple thesaurus, which is formed on the base of the domain ontology and a natural language description of the user’s problem, and methods for generating composite thesauri that are pertinent to new user tasks which are based on the set of simple thesauruses previously built by user. The expressiveness and computational complexity of the proposed methods which depend on the domain ontology characteristics and on the size of the problem description are estimated. Methods of use of the semantically marked Wiki resources as a source of knowledge for constructing ontologies of subject areas and associated typical information objects are considered.Problems in programming 2019; 4: 28-52 Предложена онтологическая модель взаимодействия между объектами и субъектами семантического поиска в Web, охарактеризованы ее основные элементы, рассмотрены методы ее пополнения и применение для фильтрации информации, которая соответствует персонифицированным потребностям пользователей. Проанализированы типы отношений между экземплярами и классами этой модели и их характеристики, которые могут влиять на временную сложность обработки знаний, представленных на основе этой модели. Одним из важных элементов предложенной модели являются тезаурусы, которые отображают знания относительно задач, для решения которых пользователи ищут информацию, и относительно информационных ресурсов, в которых такие сведения могут содержаться. Обоснована целесообразность применения частных случаев онтологии – тезаурусов – для нахождения семантически подобных информационных объектов. Рассмотрены виды тезаурусов, которые используются для семантического поиска, предложены методы их пополнения и проанализированы их характеристики. В работе предложен алгоритм автоматизированного построения простого тезауруса, который формируется на основе онтологии предметной области и естественноязыкового описания задачи пользователя, и методы генерации составных тезаурусов, которые пертинентные новым задачам пользователя, по множеством простых тезаурусов, построенных пользователем ранее. Оцениваются выразительность и вычислительная сложность предложенных методов, которая зависит от свойств онтологии предметной области и от объема описания задачи. Рассмотрены методы использования семантически размеченных Wiki-ресурсов как источника знаний для построения онтологий предметных областей и связанных с ними типичных информационных объектов.Problems in programming 2019; 4: 28-52 Запропоновано онтологічну модель взаємодії між об’єктами та суб’єктами семантичного пошуку у Web, охарактеризовано її основні елементи, розглянуто методи її поповнення та застосування для фільтрації інформації, що відповідає персоніфікованим потребам користувачів. Проаналізовано типи відношень між екземплярами та класами цієї моделі та їх характеристики, що можуть впливати на часову складність обробки знань, що подані на основі цієї моделі. Одним з важливих елементів запропонованої моделі є тезауруси, які відображають знання щодо задач, для розв’язання яких користувачі шукають інформацію, та щодо інформаційних ресурсів, в яких такі відомості можуть міститися. Обґрунтовується доцільність застосування окремих випадків онтології – тезаурусів – для знаходження семантично подібних інформаційних об’єктів. Розглянуто види тезаурусів, які застосовуються для семантичного пошуку, наведено джерела їх поповнення та проаналізовано їх характеристики. В роботі запропоновано алгоритм автоматизованої побудови простого тезаурусу, що утворюється на основі онтології предметної області та природномовного опису задачі користувача, та методи генерації складених тезаурусів, що пертинентні новим задачам користувача, за множиною простих тезаурусів, що побудовані користувачем раніше. Оцінюються виразність та обчислювальна складність запропонованих методів, яка залежить від властивостей онтології предметної області та від обсягу опису задачі. Розглянуто методи використання семантично розмічених Wiki-ресурсів як джерела знань для побудови онтологій предметних областей та пов’язаних з ними типових інформаційних об’єктів.Problems in programming 2019; 4: 28-52 Інститут програмних систем НАН України 2019-12-05 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/378 10.15407/pp2019.04.028 PROBLEMS IN PROGRAMMING; No 4 (2019); 28-52 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2019); 28-52 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2019); 28-52 1727-4907 10.15407/pp2019.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/378/381 Copyright (c) 2019 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-28T11:07:28Z |
collection |
OJS |
language |
Ukrainian |
topic |
semantic search information object ontology task thesaurus semantic markup UDC 004.853 004.55 |
spellingShingle |
semantic search information object ontology task thesaurus semantic markup UDC 004.853 004.55 Rogushina, J.V. Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
topic_facet |
semantic search information object ontology task thesaurus semantic markup UDC 004.853 004.55 семантический поиск информационный объект онтология тезаурус задачи семантическая разметка УДК 004.853 004.55 семантичний пошук інформаційний об’єкт онтологія тезаурус задачі семантична розмітка УДК 004.853 004.55 |
format |
Article |
author |
Rogushina, J.V. |
author_facet |
Rogushina, J.V. |
author_sort |
Rogushina, J.V. |
title |
Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
title_short |
Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
title_full |
Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
title_fullStr |
Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
title_full_unstemmed |
Use of thesauruses for search of complex information objects on Web on the basis of ontologies |
title_sort |
use of thesauruses for search of complex information objects on web on the basis of ontologies |
title_alt |
Использование тезаурусов для поиска сложных информационных объектов в Web на основе онтологий Використання тезаурусів для пошуку складних інформаційних об’єктів у Web на основі онтологій |
description |
An ontological model of interaction between objects and subjects of the Web semantic search is proposed, its basic elements are characterized, methods for its replenishment and use for filtering information that is pertinent to the personalized needs of users are considered. The types of relations between the instances and classes of this model and their characteristics that can have an influence on the time complexity of processing knowledge presented on the basis of this model, are analyzed. One of the important elements of the proposed model are thesauri that represent knowledge regarding tasks for which users are looking for information, and about information resources where such information can be contained. The expediency of using particular cases of ontology – thesauruses – to find semantically similar information objects is substantiated. The types of thesauruses that are used for semantic search are considered, methods for their replenishment and utilization are proposed, and their characteristics are analyzed. In this paper we proposes an algorithm for the automated construction of simple thesaurus, which is formed on the base of the domain ontology and a natural language description of the user’s problem, and methods for generating composite thesauri that are pertinent to new user tasks which are based on the set of simple thesauruses previously built by user. The expressiveness and computational complexity of the proposed methods which depend on the domain ontology characteristics and on the size of the problem description are estimated. Methods of use of the semantically marked Wiki resources as a source of knowledge for constructing ontologies of subject areas and associated typical information objects are considered.Problems in programming 2019; 4: 28-52 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2019 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/378 |
work_keys_str_mv |
AT rogushinajv useofthesaurusesforsearchofcomplexinformationobjectsonwebonthebasisofontologies AT rogushinajv ispolʹzovanietezaurusovdlâpoiskasložnyhinformacionnyhobʺektovvwebnaosnoveontologij AT rogushinajv vikoristannâtezaurusívdlâpošukuskladnihínformacíjnihobêktívuwebnaosnovíontologíj |
first_indexed |
2024-09-25T04:02:58Z |
last_indexed |
2024-09-25T04:02:58Z |
_version_ |
1818527452081684480 |
fulltext |
Моделі та засоби систем баз даних і знань
© Ю.В. Рогушина, 2019
28 ISSN 1727-4907. Проблеми програмування. 2019. № 4
УДК 004.853, 004.55 https://doi.org/10.15407/pp2019.04.028
Ю.В. Рогушина
ВИКОРИСТАННЯ ТЕЗАУРУСІВ ДЛЯ ПОШУКУ
СКЛАДНИХ ІНФОРМАЦІЙНИХ ОБ’ЄКТІВ
У WEB НА ОСНОВІ ОНТОЛОГІЙ
Запропоновано онтологічну модель взаємодії між об’єктами та суб’єктами семантичного пошуку у
Web, охарактеризовано її основні елементи, розглянуто методи її поповнення та застосування для філь-
трації інформації, що відповідає персоніфікованим потребам користувачів. Проаналізовано типи від-
ношень між екземплярами та класами цієї моделі та їх характеристики, що можуть впливати на часову
складність обробки знань, що подані на основі цієї моделі. Одним з важливих елементів запропонова-
ної моделі є тезауруси, які відображають знання щодо задач, для розв’язання яких користувачі шука-
ють інформацію, та щодо інформаційних ресурсів, в яких такі відомості можуть міститися. Обґрунто-
вується доцільність застосування окремих випадків онтології – тезаурусів – для знаходження семанти-
чно подібних інформаційних об’єктів. Розглянуто види тезаурусів, які застосовуються для семантично-
го пошуку, наведено джерела їх поповнення та проаналізовано їх характеристики. В роботі запропоно-
вано алгоритм автоматизованої побудови простого тезаурусу, що утворюється на основі онтології пре-
дметної області та природномовного опису задачі користувача, та методи генерації складених тезауру-
сів, що пертинентні новим задачам користувача, за множиною простих тезаурусів, що побудовані кори-
стувачем раніше. Оцінюються виразність та обчислювальна складність запропонованих методів, яка за-
лежить від властивостей онтології предметної області та від обсягу опису задачі. Розглянуто методи
використання семантично розмічених Wiki-ресурсів як джерела знань для побудови онтологій пред-
метних областей та пов’язаних з ними типових інформаційних об’єктів.
Ключові слова: семантичний пошук, інформаційний об’єкт, онтологія, тезаурус задачі, семантична
розмітка.
Вступ
Сучасні інтелектуальні інформа-
ційні системи (ІІС) орієнтовані на роботу
в розподіленому середовищі Web, що пот-
ребує динамічного отримання актуаль-
них та пертинентних знань з його ресур-
сів. Великий обсяг та складна структура
інформаційних ресурсів (ІР), тенденція
поширення великих даних (Big Data) вик-
ликають потребу у створенні засобів
автоматизованої обробки інформації, які
дозволили б аналізувати зміст цих ресур-
сів та здобувати з них саме ті відомості,
що потрібні користувачу для вирішення
його поточної задачі.
Один з найбільш перспективних
напрямків розв’язання цієї задачі базується
на використанні для цього зовнішніх баз
знань, тобто із семантизацією як самих
ресурсів Web, так і процесу їх пошуку.
У використанні ресурсів Web на найбільш
високому рівні можна виділити дві основні
задачі:
відбір ІР – пертинентні поточні
задачі користувача, що містять інформа-
цію для її розв’язку;
здобуття з ІР тієї інформації,
яка потрібна користувачеві.
Рішення першої задачі є об’єктом
для інформаційно-пошукових та рекомен-
дуючих систем і може бути вдосконалено
за допомогою застосування фонових знань
та інтелектуальних методів їх обробки.
Для розв’язання другої задачі використо-
вують Data Mining, Text Mining, методи
машинного навчання тощо, що дозволяють
здобути з даних неявно представлені в них
відомості. Незалежно від того, наскільки
досконалим буде розв’язок другої пробле-
ми, вона не буде ефективно вирішена, як-
що методи аналізу будуть обробляти не
пертиненті дані.
У найбільш широкому розумінні
семантизація полягає у встановленні
зв’язку між певним інформаційним
об’єктом (ІО) та його змістом. Під се-
мантизацією ІР будемо надалі розуміти
встановлення формалізованих відношень
між цими ІР (або їх елементами та мета-
описами) та формалізованим поданням
знань (наприклад, з онтологією, семанти-
https://doi.org/10.15407/pp2019.04.0
Моделі та засоби систем баз даних і знань
29
чною мережею, фреймом), тобто їх семан-
тичну розмітку на основі обраного подан-
ня знань. Така розмітка – це основа для
більш ефективної навігації та пошуку
в Web.
Під семантичним пошуком [1] за-
звичай розуміють такий пошук інформації,
коли для задоволення інформаційних пот-
реб користувача, що виникають у процесі
розв’язання певної задачі, використову-
ються зовнішні знання щодо суб’єктів і
об’єктів пошукової процедури й методів
аналізу цих знань. Це викликає потребу в
застосуванні формально представлених
зовнішніх відносно пошукової процедури
знань щодо основних елементів цієї про-
цедури. Такі фонові знання можуть стосу-
ватися користувача та специфіки його ін-
формаційних потреб (персоніфікація по-
шуку), структури ІР, серед яких здійсню-
ється пошук, тієї предметної області
(ПрО), до якої відносяться ці ІР. В процесі
семантичного пошуку співставлення запи-
ту користувача з контентом ІР здійснюєть-
ся не безпосередньо, а з урахуванням фо-
нових знань співставляються їх формалі-
зовані інформаційні моделі.
Використання типових ІО дозволяє
чіткіше визначити інформаційну потребу
користувача на змістовному рівні. Це доз-
воляє категоризувати вміст ІР та
пов’язувати елементи контенту з певними
поняттями ПрО, які є типовими – мають
однакові властивості, відносяться до од-
накової групи класів, містять подібні
за структурою та вмістом елементи. На-
приклад, за тими самими умовами корис-
тувач може шукати людину, організацію
або документ. Якщо пошук здійснюється
серед структурованих та класифікованих
ІР, визначення типу ІО дозволяє обрати
категорію або набір категорій, до якої має
відноситися шуканий ІО. Для пошуку
серед неструктурованої інформації вини-
кає потреба спочатку отримати з фонових
знань ПрО інформацію щодо структури
шуканого ІР (його властивості, їх типи
та можливі значення, надкласи та підкла-
си тощо), а потім застосовувати цю інфор-
мацію для фільтрації результатів пошуку,
отриманих за запитом користувача.
Джерелом таких знань можуть бути як
онтології ПрО, до яких відносяться шука-
ні ІР, так і довільні семантично структу-
ровані ІР (наприклад, семантичні Wiki-
ресурси). Важливо, що інформацію щодо
структури та властивостей таких типових
ІО користувач може отримувати із зовні-
шніх джерел знань, а не формулювати
самостійно. Це значно спрощує пошук ІО
зі складною структурою та дозволяє від-
фільтровувати необхідну інформацію се-
ред великої кількості ІР, але користуваче-
ві потрібно самостійно обирати з таких
наборів знань ту підмножину, яка перти-
нентна його задачі.
Наприклад, якщо таким ІО є люди-
на, то різним користувачам можуть бути
необхідні різні аспекти відомостей – щодо
освіти, кваліфікації, здоров’я, сімейного
стану тощо.
Щоб використовувати онтологічні
знання в процесі семантичного пошуку,
потрібно забезпечити: 1) механізми ство-
рення онтологічних моделей інформацій-
них потреб користувачів та ІР, серед яких
здійснюється пошук; 2) методи зіставлення
таких моделей. Перша проблема пов’язана
з формалізацією властивостей основних
елементів пошукової процедури, яка вико-
нується із застосуванням фонових знань, а
друга може розглядатися як окремий випа-
док співставлення незалежно створених
онтологій, на які накладено деякі специфі-
чні обмеження.
Онтологічна модель взаємодії
користувачів та ІР у Web
Щоб проаналізувати методи знахо-
дження в Web ІО зі складною структурою,
що відповідають персональним інформа-
ційним потребам користувачів, необхідно
побудувати модель пошуку, яка дозволяє
чітко та однозначно відобразити властиво-
сті основних компонентів пошукової про-
цедури та зв’язки між ними. Такий опис
має визначити всі базові терміни, що вико-
ристовуються для опису задачі семантич-
ного пошуку та характеризують його учас-
ників, вхідні та вихідні дані, а також кри-
терії, за якими оцінюються результати
пошукового процесу.
Моделі та засоби систем баз даних і знань
30
Сьогодні для моделювання різно-
манітних ПрО широко застосовуються он-
тологічні моделі. Онтологічна модель се-
мантичного пошуку (ОМСП) – це онтоло-
гічна модель, яка формалізує відношення
між основними суб’єктами пошуку, до
яких можна віднести користувачів, експер-
тів, авторів ІР тощо, і його об’єктами (та-
кими, як ІР, ІО, запити та результати їх ви-
конання, описи ПрО тощо). Така модель
дозволяє однозначно описати ті взаємини
між користувачами та ІР, які виникають в
процесі використання знань для задово-
лення інформаційних потреб користувачів.
Для подання моделі може бути використа-
на мова OWL, що дозволяє застосовувати
її в різних ІІС, які функціонують в Web і
використовують його ІР [2].
Використання ОМСП у задачі се-
мантичного пошуку є основою для інтеле-
ктуальної обробки ресурсів Web з викори-
станням онтологічного аналізу. Основна
ідея запропонованого підходу полягає у
тому, що застосовуються два типи онтоло-
гій – зовнішні та внутрішні, відмінність
між якими полягає у наступному:
внутрішня онтологія створю-
ється самими розробниками ІІС відповідно
до специфіки тих задач, що вирішуються
системою, та формалізує структуру та від-
ношення між основними суб’єктами та
об’єктами цієї ІІС, і тому всі характерис-
тики цієї онтології відомі ще до початку
роботи з ІІС і дозволяють чітко та одноз-
начно визначити її виразні можливості,
обсяг та методи обробки;
внутрішні онтології здобува-
ються з ресурсів Web у процесі функцію-
вання ІІС (їх знаходять у зовнішніх репо-
зиторіях, будують відповідно до потреб
користувачів, експортують із різноманіт-
них семантичних представлень даних то-
що), і тому неможливо оцінити до початку
роботи їх властивості та виразну здатність,
що безпосередньо визначають складність
обробки.
Для задачі семантичного пошуку
ОМСП є внутрішньою онтологією, тоді як
отримані з різних джерел онтології ПрО,
ІР та ІО є зовнішніми.
Цей підхід може застосовуватися
для розв’язку інших інтелектуальних за-
дач, пов’язаних з аналізом інформаційних
ресурсів Web. Прикладами таких задач
є проактивне надання рекомендацій, ма-
шинне навчання, створення семантичних
порталів. В таких випадках потрібно
побудувати відмінну від ОМСП модель
взаємодії елементів такої системи (слід
зазначити, що багато класів ОМСП – такі,
як користувач та ПрО – є досить уні-
версальними, і їх можна переносити
до нової моделі тільки з певними допов-
неннями), доповнену специфічними для
задачі класами.
Крім того, ОМСП може бути вико-
ристана для окремих випадків семантично-
го пошуку, приклади яких будуть розгля-
нуті далі, – для пошуку фіксованих під-
множин ІО (пошук вакансій та навчальних
закладів, Web-сервісів) та для пошуку в
інформаційному середовищі, що є підмно-
жиною Web (пошук у репозиторіях RDF
та OWL, у Wiki-ресурсах).
Основні суб’єкти інформаційного
пошуку – сутності, які своїми діями мо-
жуть ініціювати пошуковий процес або
впливати на його результати:
користувачі – ті особи (люди
або програмні сутності), які прагнуть за
допомогою пошуку (наприклад, за допо-
могою певної ІПС) отримати доступ до
певної інформації;
експерти – ті особи, які здатні
певним чином оцінювати об’єкти і суб’єк-
ти пошуку (приміром, надавати кількісну
оцінку якості ІР, його відповідності пев-
ному запиту, визначати зв’язок між онто-
логією ПрО та задачею користувача тощо);
власники ІР – особи, що ство-
рюють або публікують певну інформацію
в Web та можуть визначати її тематику,
якість, умови доступу тощо.
У семантичному пошуку додатково
можуть використовуватися такі суб’єкти,
як група користувачів – скінчена невпо-
рядкована множина користувачів, що по-
єднана за певними спільними властивос-
тями. Приміром, у деяких рекомендуючих
системах кожен користувач може визначи-
ти склад співтовариства, думки якого в по-
Моделі та засоби систем баз даних і знань
31
точній ситуації для нього мають певну
цінність.
Основні об’єкти інформаційного
пошуку – сутності, що використовуються в
процесі виконання пошукових процедур:
ІР; ІО; інформаційне середовище; інфор-
маційно-пошукові системи (ІПС); інфор-
маційні потреби користувачів (ІП); запити,
що формалізують ІП користувачів; резуль-
тати виконання запитів; зовнішні бази
знань (БЗ).
ІР – це сукупність даних (докумен-
тів, файлів тощо), засобів доступу та ко-
ристування цими даними (бібліотека, ар-
хів, база даних тощо). В даній роботі ос-
новна увага приділяється ІР, що предста-
влені в електронній формі та доступні за
допомогою Web, тобто мають унікальні
ідентифікатори (адреси) та характеризу-
ються як за допомогою формальних влас-
тивостей (розмір, час створення модифі-
кації, мова подання тощо), так і через їх
контент. Також для опису ІР можуть ви-
користовуватися метадані, що описують
ці властивості певною формальною мо-
вою (приміром, RDF).
ІО – модель певного об’єкту ПрО в
інформаційному просторі, що визначає
структуру, атрибути, обмеження ціліснос-
ті і, можливо, поведінку цього об'єкта че-
рез контент інформаційних ресурсів. До
складу одного ІР може входити кілька ІО.
З іншого боку, один ІО може бути описа-
ний за допомогою кількох ІР. Приклади
ІО – Web-сервіс, організація, особа, до-
кумент. Приміром, сайт організації може
складатися з набору окремих Web-
сторінок, але на одній з цих сторінок мо-
жуть описуватися кілька осіб.
Інформаційне середовище – сукуп-
ність усіх доступних ІР, їх властивостей
(включаючи їх оцінки користувачами)
і зв’язків між ними. У даній роботі під ін-
формаційним середовищем будемо розу-
міти Web, якому характерні гетороген-
ність, динамічність та великий обсяг ін-
формації, що визначають вимоги та об-
меження до методів пошуку інформації,
що розробляються. Інші приклади інфор-
маційного середовища, що задають інші
специфічні вимоги до пошуку, – корпора-
тивні мережі, сховища даних різних типів,
інформаційний вміст локального обчис-
лювального пристрою.
ІПС – засіб, що встановлює за пев-
ними критеріями кількісну міру відповід-
ності між запитом користувача та інфор-
мацією щодо певної множини ІР або ІО та
знаходить серед них підмножину найбільш
відповідних.
ІП – усвідомлена необхідність в ін-
формації для розв’язання поставленого
завдання за розробленим планом. ІП,
для задоволення якої і виконується пошук
інформації, може бути формалізована за
допомогою запиту (та його контексту),
який характеризує поточні інтереси корис-
тувача, його задачу та здатність до сприй-
няття інформації тощо. У більшості випад-
ків інформаційна потреба користувача є
надто складною, щоб її формалізація
відображала її повністю.
Запит – представлена за допомогою
якоїсь мови формалізація інформаційної
потреби користувача. Це може бути набір
ключових слів – можливо, пов’язаних ло-
гічними операторами (такі запити застосо-
вуються найчастіше), природномовне ре-
чення або перелік значень властивостей
того ІО, який має задовольнити інформа-
ційну потребу (приміром, вхідні та вихідні
дані Web-сервісу або адреса організації,
назва якої потрібна користувачу).
Результат запиту – це скінчена
впорядкована множина ІР або ІО, які ІПС
відібрала серед усіх приступних джерел
інформації шляхом співставлення інфор-
маційної потреби користувача з інформа-
цією щодо цих ІР або ІО. Результати вико-
нання того самого запиту у різний час мо-
жуть різнитися як через зміни в оточую-
чому середовищі, так і через зміни у про-
філі користувача.
Зовнішня БЗ – сукупність формалі-
зовано поданих знань, що створена та
функціонує незалежно від дій користува-
чів та розробників пошукової системи, але
може бути використана в процесі пошуку.
Крім основних об’єктів процесу ін-
формаційного пошуку, ОСМП описує та-
кож додаткові об’єкти, що пов’язані із
семантизацією та персоніфікацією пошу-
кових процедур та з підтримкою колабора-
Моделі та засоби систем баз даних і знань
32
тивного пошуку. Додаткові об’єкти дозво-
ляють більш точно охарактеризувати ос-
новні об’єкти цього процесу. До таких
об’єктів належать:
предметна область (ПрО);
онтології ПрО та ІО;
тезауруси;
лексичні онтології;
теми запитів.
ПрО – деяка підмножина реального
світу, що відповідно до якогось набору
ознак цікавить користувача у певний час.
Це може бути галузь знань, сукупність
територіально поєднаних сутностей тощо.
ПрО може бути формально представлена
через множину понять, їх властивостей,
відношень між ними та різноманітних об-
межень. Нині у Web-орієнтованих інтелек-
туальних системах для формалізації опису
ПрО часто використовуються її онтології.
Онтологія ПрО – це довільна онто-
логія [3], представлена на одному з діа-
лектів OWL [4] та придатна для
комп’ютерної обробки. Класи цієї онтоло-
гії відповідають поняттям обраної ПрО, її
екземпляри пов’язані з окремими випад-
ками цих понять, а властивості дозволя-
ють визначити зв’язки між поняттями та
їх екземплярами. Онтології дозволяють
формально описувати як семантику ПрО,
що цікавить користувача, і задачі, яку він
прагне вирішити, так і семантику тих ІР
та ІО, які містять потрібні користувачеві
відомості. Слід зазначити, що ці онтоло-
гії, на відміну від ОМСП, є зовнішніми
для задачі пошуку: на відміну від ОМСП,
що може в процесі функціювання системи
семантичного пошуку тільки поповнюва-
тися новими екземплярами класів та зна-
ченнями їх властивостей, ці онтології мо-
жуть змінюватися довільним чином – як
внаслідок змін у тих ресурсах, за якими
вони будуються, так і внаслідок безпосе-
редніх вказівок користувача.
Онтологія ІО – онтологія (часто –
таксономія), що формалізує структуру
групи ІО, що є суб’єктами пошуку, та їх
відношення як одного з одним, так і з ін-
шими об’єктами ПрО, що впливають на
обмеження та умови у пошуковому запиті
щодо того, які саме типи та екземпляри ІО
задовольняють потребам користувача.
Задача користувача – поточна за-
дача, для розв’язку якої користувач потре-
бує отримати певну інформацію з зовніш-
ніх ІР. Може бути описана через природ-
номовне (неструктуроване) або структуро-
ване визначення, приклади, елементи
метаданих.
Тезаурус задачі – це окремий ви-
падок онтології ПрО, який містить тільки
онтологічні терміни (класи та екземпля-
ри), але не описує (або обмежено описує)
семантику відношень між ними з метою
аналізу природномовних текстів. Може
автоматизовано генеруватися за онтологі-
єю ПрО та природномовним описом зада-
чі. Це окремий випадок онтології. Прос-
тий тезаурус задачі – тезаурус, який базу-
ється на термінах однієї онтології ПрО.
Складений тезаурус задачі – тезаурус,
який базується на термінах двох або
більш онтологій ПрО.
Тезаурус ІР – це підмножина теза-
урусу задачі, який містить тільки ті його
терміни, для яких знайдено відповідні фраг-
менти у контенті цього ІР. Таким чином,
склад тезаурусу ІР залежить як від теза-
урусу задачі, для якої він будується, так і
від методу співставлення контенту ІР із
термінами цього тезаурусу.
Лексична онтологія ПрО – онтоло-
гія, яка містить формалізовані знання щодо
зв’язків між поняттями певної онтології
ПрО та пертинентними їм елементами
природномовних текстів.
Тема запитів – це скінчена нев-
порядкована множина запитів одного або
кількох різних користувачів, які дозволя-
ють згрупувати їх за певними спільними
властивостями або шляхом перерахування
для того, щоб спільно обробляти їх пара-
метри або отримані за цими запитами
результати. Теми запитів дозволяють
структурувати колаборативний пошук та
організувати обмін інформацією за визна-
ченими напрямками.
На основі ОМСП створюється
інтероперабельний профіль користувача,
який базується на класі ОМСП “Користу-
вач” та як об’єктні властивості використо-
вує екземпляри інших класів цієї онто-
логічної моделі. Відомості в цьому профілі
можна поділити на кілька груп:
Моделі та засоби систем баз даних і знань
33
Реєстраційна інформація:
· ідентифікатор користувача;
· пароль для доступу до ІПС.
Досвід взаємодії ІПС з користу-
вачем:
· список онтологій, які користу-
вач застосовував для опису своїх інформа-
ційних інтересів;
· список тезаурусів, що користу-
вач застосовував у пошукових запитах;
· список раніше виконаних запи-
тів;
· список результатів виконаних
запитів з оцінками користувача для знай-
дених результатів.
Відомості, імпортовані з зовні-
шніх джерел (необов’язкові відомості, їх
може й не бути):
· ідентифікатори користувача в
соціальних мережах, що дають змогу дина-
мічно оновлювати відомості про нього;
· рейтинги користувача в соціа-
льних мережах;
· адреса користувача у Вікіпедії
та інших Wiki-ресурсах;
· адреса сайту користувача;
· сфера компетенцій користувача
(ключові слова, імпортовані з соціальних
мереж);
· посилання на публікації корис-
тувача.
Власні характеристики користува-
ча: сфера компетенцій користувача (спи-
сок ключових слів, що вводяться користу-
вачем безпосередньо).
Формальні дані про користува-
ча (необов’язкові відомості, що дають
змогу ІПС формувати групи користувачів
зі схожими інформаційними потребами):
місце проживання; вік; професія, освіта
тощо.
Для опису ОМСП пропонується ви-
користовувати наступну формальну мо-
дель онтології:
TF,R,X,O ,
яка більш детально описана в [5]. Ця мо-
дель дозволяє формалізувати відношення
між елементами процесу пошуку інформа-
ції в Web, вона досить добре співставля-
ється з технологічними елементами редак-
тора онтологій Protégé та засобами семан-
тичної розмітки Semantic MediaWiki, вико-
ристання яких для поповнення онтологій
розглядатиметься далі.
ОМСП містить такі основні класи,
що пов’язані із типами об’єктів та
суб’єктів семантичного пошуку:
користувач – клас, екземпляри
якого відповідають описам окремих корис-
тувачів, а властивості відповідають пара-
метрам профілю користувача, який описа-
но вище, та зв’язують екземпляри цього
класу із екземплярами інших класів ОМСП
та константами, що визначають значення
певних параметрів із цього профілю;
онтологія ПрО, що містить
опис області, до якої належать інформа-
ційні потреби користувача
n,1i,F,R,XO
iПрОiПрОiПрОiПрО ;
лексична онтологія ПрО – база
знань щодо лексики ПрО, що містить
відомості про лексеми природних мов, які
відповідають термінам онтології ПрО
n,1i,},r{R,XL lexilexilexiПрО ,
де
iПрОiПрОilex TXX
тобто
iiПрОji m,1j,Xx
існує набір фрагментів ПМ
ji
pj
ilexijiПрО
pj
i x)s(r,q,1p},Ts{ –
така онтологія використовується для вста-
новлення зв’язків між елементами природ-
номовних документів і термінами онтоло-
гії ПрО;
тезаурус – множина термінів
Th , що разом із своїми властивостями
характеризують певний суб’єкт пошуку,
дозволяючи співставляти його з іншими
суб’єктами; цей клас у рамках ОМСП має
наступні підкласи, екземпляри яких мають
додаткові властивості:
тезаурус онтології – множина
термінів онтології
Моделі та засоби систем баз даних і знань
34
n,1k,XxTh kO ;
тезаурус множини онтологій –
об’єднання тезаурусів множини онтологій
,p,1m,XO m
*
такого, що містить p онтологій, 1p ,
,p,1m,n,1k,XxTh mmmmk*O
таке, що
mO
p
1m
*O
ThTh
;
тезаурус задачі – множина тер-
мінів з множини Х онтології О, сукупність
яких характеризує ту конкретну задачу
з ПрО, що в цей час розв’язує користувач
(визначається шляхом співставлення онто-
логії О з описом задачі),
iji
jikji m,1js,1k},Xth{Th ;
зважений тезаурус задачі –
множина пар, першим елементом яких є
термін з тезаурусу задачі, сукупність яких
характеризує конкретну задачу з ПрО, а
другим – вага (позитивна чи негативна)
цього терміна для цієї задачі
},w,Xth{Tw
jiijij kki
;m1,j,s1,k ii j
тезаурус ІР – підмножина тер-
мінів тезаурусу задачі, яким відповідають
певні фрагменти контенту або метаопису ІР
z,1q,s,1k,ThthTh jijikqIR
(слід відмітити, що для різних задач тезау-
руси того самого ІР можуть значно різни-
тися);
зважений тезаурус ІР – мно-
жина пар, першим елементом яких є тер-
мін тезаурусу задачі, що містяться в кон-
тенті ІР або в його метаописі, а другим –
вага цього терміну для документа, яка виз-
начається (за різними критеріями) як функ-
ція від кількості появ цього терміну в ІР,
місць його появи та від довжини документа
},w,Th{thTw kikIR jq
;,1,,1 zqsk
ji
тезаурус ІО – множина термі-
нів тезаурусу задачі, що містяться в кон-
тенті ІО або в його метаописі
jijikqIO s,1k,ThthTh –
такий опис дозволяє коректно співставляти
різні типи ІО та ІО одного типу , але з різ-
ною семантикою із урахуванням їх струк-
тури (приміром, розрізняти Web-сервіси,
якщо вхідні дані одного подібні до вихід-
них даних іншого);
зважений тезаурус ІО – мно-
жина пар, першим елементом яких є тер-
міни тезаурусу задачі, що містяться в кон-
тенті ІО або в його метаописі, а другим –
назва того елементу даного ІО (з онтоло-
гічного опису ІО), в якій зустрічається
даний термін
,d,Thth{Tw wikIO jq
;x1,w,s1,k},s1,k IOjiq
зважений тезаурус задачі ко-
ристувача – множина пар, першими еле-
ментами яких є терміни однієї або різних
онтологій, сукупність яких характеризує
інформаційні інтереси користувача, а дру-
гим – вага цього терміна для опису інте-
ресів користувача
},w,Tth{Tw
juserijuserj kПрОkuser
,s1,k
juser
де вага терміну визначається як функція
(як правило, як сума добутків) від ваги пев-
ного ресурсу для користувача та кількості
термінів у цьому ресурсі;
запит – множина ключових
слів, що характеризують одну з інформа-
ційних потреб користувача, пов’язану з
конкретною задачею, за допомогою тезау-
руса;
тема – множина запитів, пов’я-
заних з однією інформаційною потребою,
що дає змогу поєднувати семантично по-
Моделі та засоби систем баз даних і знань
35
в’язані запити різних користувачів, які ба-
зуються на різних онтологіях і тезаурусах;
результат запиту – множина
пар, першим елементом яких є посилання
на ІР, а другим – оцінки цих ІР користува-
чем;
група користувачів – клас, вла-
стивостями якого є ідентифікатор групи і
список користувачів, які з певних причин
об'єднані в одну групу (групи можуть
формуватися шляхом вибору користувача
безпосередньо чи автоматично на основі
відповідності яким-небудь умовам, напри-
клад, групи користувачів з подібними
формальними даними або таких, що вико-
нують схожі запити);
ІР – клас, що описує відомості
про відомі ІПС ресурси (ідентифікатор ре-
сурсу, запити, за якими він був виявлений,
оцінку користувача, якому він був нада-
ний, і його рівень читабельності для цього
користувача) та оцінки цих ресурсів, нада-
ні різними користувачами
niqmzU iiiurl ,,,,, 1 ;
ІО – клас, що описує відомості
про відомі ІПС ІО з певною структурою,
визначеною користувачем, що містяться
в одному чи декількох ІР (ідентифікатор
ІО, запити, за якими він був виявлений,
оцінку користувача, якому він був нада-
ний, і онтологію, що визначає структуру
даного ІО) та оцінки цих ІО, надані різни-
ми користувачами
n,1i,O,m,z,IO iiiurl ;
рекомендація – інформація, що
надається користувачеві ІПС проактивно,
як наслідок аналізу і персональних відомо-
стей про цього користувача, і колабора-
тивного досвіду системи.
агент користувача – це інтелек-
туальний програмний агент, що презентує
інтереси користувача у взаємодії з ІПС та
виконує певні дії в його інтересах.
Застосування такого формалізму, як
агент користувача, дасть змогу, з одного
боку, уникнути приписування людині-
користувачу штучно обмеженої і форма-
льно схарактеризованої сфери інтересів, а
з іншого – забезпечить засоби та методи
прогнозування його вчинків у межах мо-
делі взаємодії користувача та ресурсів у
відкритому інформаційному середовищі.
Для опису поведінки такого агента вико-
ристовуються інтенсіональні відношення,
за допомогою яких можна формалізувати
цілі, наміри й бажання користувача. Таким
чином, у ОМСП проводиться відмінність
між самим користувачем: клас “користу-
вач” відображає інформацію щодо фактів,
пов’язаних з діями користувача, а клас
“агент користувача” містить припущення
щодо мотивації цих дій.
Для того, щоб описати екземпляри
класів ОМСП з indX , необхідно спочатку
формалізувати ті відношення, які для цьо-
го використовуються, та задати їх область
значення та визначення.
Відношення між елементами ОМСП
Однією з основних переваг, яку за-
безпечує наявність використання онтоло-
гічного підходу до моделювання процесу
пошуку, є можливість явно визначити се-
мантику відношень між його основними
елементами, тобто задати не тільки імена
та визначення цих відношень, але й їх вла-
стивості. ОМСП визначає набір таких вла-
стивостей та їх характеристики, що впли-
вають на складність даної моделі і визна-
чають ту дескриптивну логіку, що дозво-
ляє описати ОМСП.
Відповідно до специфіки проблеми
пошуку, між суб’єктами та об’єктами цієї
сфери існують наступні значущі для про-
блеми зв’язки:
між ІР і ПрО;
між ІР і ІО;
між інформаційними потребами
й ПрО;
між ПрО й задачами користувачів;
між користувачами та ПрО;
між користувачами ІПС.
В ОМСП зв’язки відображаються за
допомогою відношень з
}p{}r{rR jicl_ier ,
які дозволяють визначити семантику, об-
ласть значення та її визначення кожного
такого зв’язку. Проаналізувавши властиво-
Моделі та засоби систем баз даних і знань
36
сті цих зв’язків, можна визначити, яка саме
дескриптивна логіка лежить в основі
ОМСП та, відповідно, наскільки складну
мову для подання такої онтології необхід-
но використовувати. Це, в свою чергу,
дозволяє визначити обчислювальну склад-
ність задач, які можна вирішувати з вико-
ристанням такої онтології.
Відношення «клас-підклас»
Ієрархічні відношення «клас-
підклас» cl_ierr (приміром, «експерт» є
підкласом класу «користувач», «мульти-
медійний інформаційний об’єкт» є підк-
ласом класу «ІО») є транзитивними та ан-
тисиметричними:
якщо Х належить до класу А, а
А є підкласом В, то Х належить до В;
якщо А є підкласом В, В є під-
класом С, то є підкласом С;
якщо А є підкласом В, то В не є
підкласом А.
За допомогою таких відношень не
відображаються мереологічні зв’язки різ-
них типів – приміром, відношення “є чле-
ном групи” не можна відображати таким
чином, тому що екземпляр класу “корис-
тувач” не є екземпляром класу “група ко-
ристувачів”. Це викликає потребу включи-
ти до ОМСП інші ієрархічні відношення із
специфічною для ПрО специфікою.
Відношенням «клас-підклас» в
ОМСП пов’язані такі класи (табл. 1):
Таблиця 1. Ієрархічні властивості в ОМСП
Надклас Підклас
Онтологія Онтологія ПрО; Таксономія
ІО; Лексична онтологія; Те-
заурус; Wiki-онтологія
Тезаурус Тезаурус задачі; Тезаурус
користувача; Тезаурус ІР;
Тезаурус ІО
Користувач Експерт; Член групи
ІР Природномовний ІР; Муль-
тимедійний ІР; Семантично
розмічений ІР
ІО Людина; Організація; До-
кумент; Web-сервіс
Об’єктні властивості ОМСП
Відношення, специфічні для цієї
предметної області – відношення семанти-
чного пошуку, що виражаються через вла-
стивості класів, значеннями яких є екзем-
пляри інших класів (приміром, клас «теза-
урус» має властивість «побудований на
основі», значення якого належить до класу
«онтологія ПрО», а клас «тема» має влас-
тивість «містить», значення якого нале-
жить до класу «запит». В даній ПрО не ви-
значені специфічні відношення, які мають
властивості, що можуть застосовуватися
для логічного виведення (тразитивність,
рефлексивність, симетричність тощо). Такі
відношення, в яких і область значення, і
область визначення є екземплярами класів
ОМСП, з точки зору онтологічного аналізу
відповідають об’єктним властивостям }r{ i
відповідної онтології (табл. 2).
Таблиця 2. Об’єктні властивості в ОМСП
Область значень Відношення Область визначення
Користувач Використовує
Онтологія ПрО; Онтологія ІО;
Тезаурус задачі; Тезаурус он-
тології; Тезаурус користувача
Тезаурус ІР; Тезаурус ІО; Тезаурус за-
дачі; Лексична онтологія ПрО; Тезаурус
користувача; Запит; Рекомендація
Базується на
Онтологія ПрО; Онтологія ІО;
Тезаурус задачі; Запит
Тема; Користувач; Результат запиту Є об’єднанням
Запит; Група користувачів;
ІО; ІР
Результат запиту; Рекомендація Є результатом Запит
Агент користувача
Є представни-
ком
Користувач; Група користу-
вачів
Моделі та засоби систем баз даних і знань
37
Через те, що ОМСП створюється
для формалізації вже відомих відношень, а
не для впорядкування термінології, то
недоцільно створювати класи-синоніми:
альтернативні назви понять можна вказу-
вати тільки у поясненні або у визначенні
класу.
Мереологічні відношення в ОМСП,
що відображають різні види специфічних
для ПрО зв’язків типу “частина-ціле”
(приміром, відношення «входить до скла-
ду» пов’язує екземпляри класу «ІР» з
екземплярами класу «результати пошуку»,
а екземпляри класу «користувач» з екзем-
плярами класу «група користувачів») в
загальному випадку не є транзитивними.
Таким чином, для сфери семантич-
ного пошуку не виявлено важливих тран-
зитивних або симетричних відношень між
екземплярами одного класу. Приміром,
якщо користувач А вважає експертом ко-
ристувача В, а користувач В вважає екс-
пертом користувача С, то з цього не ви-
пливає, що користувач А вважає екс-
пертом користувача С. Це пов’язано з
тим, що, як правило, екземпляри одного
класу не взаємодіють безпосередньо один
з одним в процесі пошуку, а їх відношен-
ня можуть встановлюватися тільки через
відношення з екземплярами інших класів.
Приміром, екземпляри класу “користу-
вач” можуть бути пов’язані через екземп-
ляри класу “тезаурус”, що використову-
ються у запиті, або через екземпляри
класу “ІР”, що є результатами пошукової
процедури.
Властивості даних ОМСП
Такі відношення, в яких область
значення є екземплярами класів ОМСП, а
область визначення – іншими типами да-
них, з точки зору онтологічного аналізу
відповідають даних властивостям }p{ i
відповідної онтології (табл. 3).
Властивості даних в ОМСП дозво-
ляють встановити конкретні значення влас-
тивостей екземплярів класів, явно вказав-
ши їх семантику та характеристики. Вка-
зуючи тип значення властивості, можна не
тільки задавати стандартні типи даних
(число, рядок тощо), але й задати значення
із скінченої множини, описавши таким
чином всі припустимі варіанти та вказав-
ши відношення між цими значеннями
(приміром, часткову впорядкованість або
синонімію). Прикладами таких множин
можуть бути різні варіанти подання дати
або часу, що надалі будуть інтерпретува-
тися однаково.
Ці відношення не мають додатко-
вих властивостей, які можуть враховува-
тися в процесі обробки онтології, і тому не
впливають на складність ОМСП.
На основі обробки типів цих зна-
чень будується множина Т для ОМСП.
Онтологічна модель задачі
користувача
Формально проблема побудови он-
тології задачі користувача полягає у нас-
тупному: за онтологією ПрО domainO ,
domaindomaindomaindomaindomain T,F,R,XO ,
та набором Wiki-сторінок userW , семанти-
чна розмітка яких базується на domainO ,
побудувати “легковажну” онтологію зада-
чі користувача userO , знання якої є під-
множиною знань з domainO . Слід зазначи-
ти, що джерела та методи побудови цієї
онтології ПрО знаходяться поза сферою
розгляду даної роботи – вона може мати
довільну структуру та бути сформована як
безпосередньо експертами ПрО, так і за
допомогою різноманітних засобів здобут-
тя онтологічних знань [6].
useruseruseruseruser T,F,R,XO ,
така, що
domainuser XX ,
тобто
domainclusercl XX ,
domaininduserind XX ; domainuser RR ,
тобто
domaincl_ierusercl_ier rr ,
nm,m,0j,n,0i},r{}r{
idomainjuser ;
qt,t,0k,q,0l},p{}p{
ldomainkuser ,
userF ; domainuser TT .
Моделі та засоби систем баз даних і знань
38
Таблиця 3. Властивості даних в ОМСП
Область
значень
Відношення
Область визначення
Назва Тип
Кількість
значень
Користувач Використовує Ключове
слово
Рядок Обов’язкове, єдине
Користувач Має ідентифікатор Ідентифіка-
тор
Рядок Обов’язкове, єдине
Користувач Має пароль Пароль Рядок Обов’язкове, єдине
Користувач Має сайт Сайт Рядок Не обов’язкове,
єдине або кілька
Користувач Має сферу інтересів Ключове
слово
Рядок Не обов’язкове,
єдине або кілька
Користувач Має професію Професія Рядок Не обов’язкове,
єдине або кілька
Користувач Має освіту Освітній
рівень
Рядок, значен-
ня з множини
{неповна сере-
дня, середня,
вища, вчений
ступінь}
Не обов’язкове,
єдине
Користувач Рік народження Рік Число з 4 зна-
ків
Не обов’язкове,
єдине
Користувач Живе у Країна
Місто
Населений
пункт
Рядок Не обов’язкове,
єдине або кілька
Користувач Народився у Країна
Місто
Населений
пункт
Рядок Не обов’язкове,
єдине або кілька
Онтологія
ПрО
Містить Термін Рядок Обов’язкове, єдине
або кілька
Тезаурус Містить Термін Рядок Обов’язкове, єдине
або кілька
Запит Містить Ключове
слово
Рядок Обов’язкове, єдине
або кілька
Така робота має виконуватися в
тому разі, якщо користувач починає пра-
цювати над великою та досить складною
проблемою, рішення якої буде потребува-
ти інформації протягом досить значного
часу, значно більшого, ніж час, потрібний
на побудову власної онтології (приміром,
плануючи дослідження на кілька років,
доцільно витратити кілка годин на те, щоб
надалі отримувати семантично відфіль-
тровані відомості).
Множина екземплярів класів ОМСП
ОМСП поповнюється екземпляра-
ми класів у процесі функціювання систе-
ми пошуку. Наприклад, екземпляри кори-
Моделі та засоби систем баз даних і знань
39
стувачів створюються внаслідок реєстра-
ції користувачів у системі та можуть до-
повнюватися новими значеннями власти-
востей у процесі виконання користувача-
ми пошукових запитів, тоді як екземпля-
ри груп користувачів створюються сами-
ми користувачами відповідно до їх влас-
них інформаційних потреб.
Використання онтологічних
знань у персоніфікованому
семантичному пошуку
У загальному випадку співстав-
лення двох незалежних онтологій, які
знаходяться в репозиторії онтологій [11],
є надзвичайно складною задачею, що пот-
ребує багато часу та додаткової обробки.
Але в інформаційному пошуку викорис-
товуються онтологічні моделі, які мають
достатню для задачі, але досить обмеже-
ну складність. Такі моделі можуть вико-
ристовувати знання з довільних онтологій
ПрО, але містити тільки обмежену їх під-
множину та не застосовувати складний
набір відношень між класами та атрибу-
тами (але сам алгоритм побудови таких
спрощених моделей за довільними онто-
логіями може бути досить складним та
знання-містким).
Застосування ОМСП у процесі се-
мантичного пошуку
Відомості, що представлені в
ОМСП, використовується на різних етапах
семантичному пошуку для (табл. 4):
переформулювання запитів
користувачів відповідно до їх реальних
інформаційних потреб;
фільтрації результатів пошуку,
отриманих від зовнішніх ІПС, відповідно
до їх пертинентності поточним інформа-
ційним потребам користувача;
використання досвіду співтова-
риства користувачів з областями інфор-
маційних потреб, що перетинаються, для
проактивного пошуку та надання рекомен-
дацій;
оцінка відповідності рівня
складності контенту знадених ІР здатнос-
тям користувача до сприйняття інформації
в обраній ПрО.
Таблиця 4. Екземпляри класів в ОМСП
Тип операції Екземпляри класів ОМСП
Переформу-
лювання за-
питів корис-
тувачів
Користувач, Онтологія
ПрО, Тезаурус онтології,
Лексична онтологія ПрО,
Тезаурус задачі, ІО, Тезау-
рус ІО, Запит,
Група запитів
Фільтрація
результатів
Користувач, Онтологія
ПрО, Зважений тезаурус
онтології, Лексична онто-
логія ПрО, Зважений тезау-
рус задачі, Зважений тезау-
рус ІР, Зважений тезаурус
ІО
Викорис-
тання досві-
ду співтова-
риства ко-
ристувачів
Користувач, Група корис-
тувачів, Тема , Онтологія
ПрО, Тезаурус онтології,
Лексична онтологія ПрО,
Тезаурус задачі, Тезаурус
множини онтологій, Запит,
Група запитів, Результат
запиту, Агент користувача
Оцінка рів-
ня складно-
сті контенту
Тезаурус ІО
Тезаурус користувача
Слід враховувати, що така модель
інформаційного пошуку орієнтована на
користувачів із сталими та досить глибоко
усвідомленими інформаційними потреба-
ми, тому процес пошуку інформації може
розглядатися як циклічний процес, різні
етапи якого повторюються у певній послі-
довності, а наповнення ОМСП екземпля-
рами класів продовжується протягом усієї
взаємодії користувача з системою.
Алгоритми такого застосування
елементів онтології та їх властивості роз-
глянуті у наступних розділах.
Семантичний пошук на основі зіс-
тавлення тезаурусів
Будемо вважати, що сферу інте-
ресів користувача в цілому формально
характеризує онтологія відповідної ПрО
(або набір таких онтологій, що відпо-
відають різним аспектам діяльності однієї
особи), а його поточні інтереси – при-
родномовний опис задачі.
Моделі та засоби систем баз даних і знань
40
Природномовний опис задачі – це
неструктуровані або слабо структуровані
дані, аналіз яких потребує попередньої
обробки, а онтологія ПрО у загальному
випадку має довільний розмір та структу-
ру, що надзвичайно ускладнює її безпосе-
реднє використання у пошуку. Тому за
обома цими об’єктами пропонується бу-
дувати тезаурус задачі, що поєднує їх пе-
реваги та дозволяє позбутися недоліків.
Для того, щоб відфільтрувати ре-
зультати роботи зовнішньої ІПС
і отримати тільки ті ІР, що пертинентні
інформаційним потребам користувача, не-
обхідно попередньо сформувати тезаурус
задачі користувача та ПрО, що цікавить
цього користувача, і тезауруси цих ІР, а
потім порівняти ці тезауруси.
Алгоритм побудови простого те-
заурусу задачі
Простий тезаурус задачі
,,r,TTh cl_ier
будується за обраною користувачем онто-
логією ПрО та за описом поточної задачі
(рисунок).
Опис задачі може бути подано
через ПМ-текст, який містить елементи,
пов’язані з елементами онтології, або че-
рез умови, яким мають задовольняти
терміни ПрО, що стосуються цієї задачі.
Розглянемо два етапи побудови такого
тезаурусу.
Етап 1. Автоматизована генерація
простого тезаурусу задачі за описом задачі.
Етап 2. Розширена генерація прос-
того тезаурусу задачі за набором умов, що
використовують інші елементи онтології
О, крім екземплярів та класів.
На етапі 1 теж можна виокремити
два кроки (на практиці може застосовува-
тися їх поєднання). Етап 1.1 полягає у то-
му, що користувач явно та вручну з авто-
матично побудованого переліку класів та
екземплярів Х обирає ті, які він вважає
пертинентними задачі:
Xx,nt1},x,...,x{T
ktkpt1t
.
В найпростіших випадках на цьому кроці
побудова тезаурусу може завершуватися,
але це потребує від користувача більше
зусиль.
Лінгвістичні
БЗ
Здобути з онтології О
множину термінів Х
Етап 1.1.
Вручну обрати з
Х підмножину Т
Т задовольняє
користувача
+
Тезаурус
ПрО
ПМ-опис
задачі Z
Онтологія
ПрО
Етап 1.2.
Знайти в Z фрагменти,
відповідні термінам з Х,
та додати їх до Т
Лексична
онтологія
ПрО
Етап 2.
Використати знання щодо
властивостей елементів О,
та використати їх для
побудови Т
Т задовольняє
користувача
+
-
Надати користувачу
тезаурус Т
-
-
Рисунок. Алгоритм побудови тезаурусу задачі
Моделі та засоби систем баз даних і знань
41
Етап 1.2 використовує різноманітні
методи обробки природномовного опису
задачі (лінгвістичний аналіз, статистична
обробка, аналіз семантичної розмітки), які
дозволяють виявити фрагменти ПМ-
тексту, пов’язані з термінами О.
Ті терміни, для яких в описі задачі
знайдено відповідні фрагменти, заносяться
до простого тезаурусу задачі. На цьому
етапі використовується множина Х онто-
логії О. Один з методів обробки ПМ-опису
задачі Z базується на лексичній онтології
},r{,TXXL lexПрОПрОlexПрО :
якщо
jПрО
pj
q,1p,Ts
є фрагментом ПМ Z, та
Xx)s(r
jpj
lex ,
тоді jx додається до множини Т тезаурусу
задачі.
Такий метод високо ефективний у
тому разі, якщо вже накопичено великий
обсяг лексичної онтології. Для цього мо-
жуть використовуватися безпосереднє по-
повнення лексичної онтології користува-
чами, експорт лінгвістичних знань з від-
повідних словників та баз знань, а також
аналіз семантично розмічених текстів, що
буде розглянуто далі.
Але у багатьох випадках доцільно
використовувати у побудові тезаурусу ін-
формацію про інші елементи онтології, які
дозволяють враховувати властивості
окремих термінів та їх відношення з ін-
шими термінами. В такому разі застосову-
ється етап 2, який спрямований на вдос-
коналення початково сформованого тезау-
русу відповідно до явно сформульованих
умов користувача. Ці умови обумовлені
специфікою задачі, але не є похідними від
її опису. Їх можна розглядати як набір
метаправил для опису інформації, яку
користувач прагне отримати.
Етап 2 можна представити як фун-
кцію, що перетворює онтологію О на про-
стий тезаурус
Th)O(fTh ,
є відображенням набору умов, які форму-
лює користувач щодо тих класів та екзем-
плярів класів онтології О, що потрібно
включити до тезаурусу задачі.
Набір цих умов можна розглядати
як об’єднання (диз’юнкцію) d множин
властивостей елементів онтології (класів
та об’єктів)
)O(f)O(f iTh
d
1i
Th
,
що можуть пов’язувати кожен елемент,
що задовольняє цим вимогам, їх з фіксо-
ваними значеннями або іншими елемента-
ми онтології, – кон’юнкція вимог
)O(f)O(f jiTh
id
1j
iTh
.
Потрібно спочатку здобути з онтології
набори для всіх
d,1i),O(f iTh ,
а потім побудувати їх об’єднання. Усі
d,1i),O(f iTh будуються наступним чи-
ном: оброблюється окремо кожна умова,
за нею генеруються id наборів елементів
(класів та екземплярів) онтології О, після
цього побудувати перетин цих множин.
Побудова множини елементів теза-
уруса для кожної умови
jijjiTh d,1i),O(f
складається з наступних дій, що послідов-
но враховують інформацію з усіх елемен-
тів онтології О.
Множина класів clX є джерелом
тих термінів ПрО, що стосуються поточ-
ного набору задачі користувача, і кожен з
цих термінів може бути доданий до
)O(
jiTh користувачем безпосередньо або
через перерахування в умовах. Окремо об-
роблюються негативні умови щодо класів
– кожен з цих термінів може бути видале-
ний з )O(
jiTh користувачем безпосеред-
ньо або через перерахування в умовах.
Моделі та засоби систем баз даних і знань
42
Множина класів indX є джерелом
тих екземплярів об’єктів ПрО, що стосу-
ються поточного набору задачі користува-
ча, і кожен з цих термінів може бути
доданий до )O(
jiTh користувачем без-
посередньо або через перерахування в
умовах. Можуть також додаватися до
тезаурусу всі екземпляри певного класу.
Окремо обробляються негативні умови
щодо екземплярів класів – кожен з цих те-
рмінів може бути видалений з )O(
jiTh ко-
ристувачем безпосередньо або через пере-
рахування в умовах.
Множина відношень між елемен-
тами онтології
prop_ierjprop_iericl_ier p}p{r}r{rR
може бути використана для побудови
)O(Th
ji
наступним чином:
ієрархічні відношення cl_ierr
дозволяють користувачу включити (або
видалити – для негативних умов) до теза-
урусу )O(Th
ji
надкласи та підкласи обра-
них класів, задавши глибину обробки, на-
приклад, всі підкласи терміну “наукова
публікація” на глибину q;
об'єктні властивості }r{ i , що
встановлюють відношення між екземпля-
рами класів, дозволяють користувачу
включити (або видалити – для негативних
умов) до тезаурусу )O(Th
ji
ті терміни, що
пов’язані з обраними термінами і відно-
шеннями з }r{ i , наприклад, для терміну x
включити до )O(Th
ji
ті терміни, з якими
в онтології О цей термін пов’язаний
об’єктним відношенням “співпрацює з”;
ієрархічні відношення між
об’єктними властивостями prop_ierr доз-
воляють використовувати підкласи відно-
шень замість самих відношень з }r{ i , на-
приклад, якщо для терміну x потрібно
включити (або видалити – для негативних
умов) до )O(Th
ji
ті терміни, з якими в
онтології О цей термін пов’язаний
об’єктним відношенням “співпрацює з” з
множини }r{ i , то потрібно включити до
)O(Th
ji
також ті терміни, з якими в онто-
логії О цей термін пов’язаний об’єкт-
ним відношенням “працює в одному
відділі”, яке є підкласом відношенням
“співпрацює з”;
властивості даних }p{ j , що
встановлюють відношення між екземпля-
рами класів та даними, дозволяють корис-
тувачу включити (або видалити – для
негативних умов) до тезаурусу )O(Th
ji
ті
терміни, що задовольняють певним умо-
вам, в яких задаються значення властивос-
тей даних з }p{ j , наприклад, включити
(або видалити – для негативних умов) до
)O(Th
ji
ті терміни, які в онтології
пов’язані відношенням даних “Рік народ-
ження” більшим за 1900;
ієрархічні відношення між влас-
тивостями даних prop_ierp дозволяють
використовувати підкласи відношень за-
мість самих відношень з }p{ j , наприклад,
якщо для терміну x потрібно включити
(або видалити – для негативних умов) до
)O(Th
ji
ті терміни, що задовольняють пев-
ним умовам, в яких задаються значення
властивостей даних з }p{ j , потрібно
включити (або видалити – для негативних
умов) до )O(Th
ji
ті терміни, які в онтоло-
гії задовольняють умовам щодо підкласів
цих властивостей, наприклад, якщо є умо-
ва щодо відношення даних “Кількість пуб-
лікацій” більше за 10, то потрібно включи-
ти до тезаурусу елементи, для яких
“Кількість публікацій Scopus” більше за 10;
множина характеристик класів
онтології clF , що можуть застосовуватися
для логічного виводу, обробляються в
процесі побудови тезаурусів відповідно до
того, яку саме властивість вони фіксують:
якщо два класи 1x та 2x в онтології О
еквівалентні, і клас 1x занесено до теза-
Моделі та засоби систем баз даних і знань
43
урусу )O(Th
ji
, тоді треба занести до теза-
урусу й клас 2x ;
множина характеристик об’єкт-
них властивостей екземплярів класів он-
тології propF , що можуть застосовуватися
для логічного виводу, обробляються в
процесі побудови тезаурусів відповідно
до того, яку саме властивість вони фіксу-
ють (на практиці це зазвичай не засто-
совується);
множина нелогічних правил
ПрО M використовується для побудови
тезаурусу наступним чином: якщо об’єкт
з онтології О (клас або екземпляр класу)
1o належить до тезаурусу Tho1 та в
онтології в М міститься правило “якщо
Oo1 , тоді Oo1 ”, треба додати до
тезаурусу елемент 2o . Приклад: в тезау-
рус треба додати усі екземпляри осіб
пенсійного віку (тобто тих, вік яких біль-
ше певної константи). Якщо вік особи не-
відомий, але відомо, що вона має дитину
пенсійного віку, а за нелогічними пра-
вилами ПрО вік батьків більше за вік ди-
тини, тоді треба додати до тезаурусу цей
екземпляр класу.
Інші елементи онтології О не вико-
ристовуються безпосередньо для побудови
OTh , але вони можуть застосовуватися
для поповнення та вдосконалення самої
онтології О.
Алгоритм побудови складеного
тезаурусу задачі
Складений тезаурус задачі будуєть-
ся на основі простих або складних тезау-
русів задач. Для цього застосовуються
теоретико-множинні операції перетину,
об’єднання та різниці.
Якщо
,,r,TTh cl_ier11
та
,,r,TTh cl_ier22
– прості тезауруси задачі, і 21 ThTh ,
тоді їх об’єднання
,,r,TTTh cl_ier21об ,
перетин
,,r,TTTh cl_ier21перет
та різниця
,,r,T/TTh cl_ier21різ
– складені тезауруси.
Якщо ,,r,TTh cl_ier11 та
,,r,TTh cl_ier22 – складені тезау-
руси задачі, і 21 ThTh , тоді їх
об’єднання ,,r,TTTh cl_ier21об ,
перетин
,,r,TTTh cl_ier21перет та різниця
,,r,T/TTh cl_ier21різ теж є скла-
деними тезаурусами.
Для того, щоб побудувати складе-
ний тезаурус, користувачеві потрібно об-
рати два раніше створених тезауруси та
визначити, яку саме теоретико-множинну
операцію треба до них застосувати.
Використання складених тезаурусів
дозволяє застосовувати тезаурусне пред-
ставлення знань ПрО, що цікавить певного
користувача, у багатьох задачах, пов’яза-
них з пошуком, аналізом та структуруван-
ням ресурсів Web, відображаючи персона-
льні уявлення окремого користувача щодо
сфери його інформаційних потреб.
На змістовному рівні такий тезау-
рус – це сукупність термінів ПрО, відомих
користувачеві, тобто користувач обирає
лише ту підмножину онтологічних тер-
мінів різних онтологій, які відповідають
його особистим інтересам та уявленням.
Такий тезаурус може застосовува-
тися не тільки безпосередньо в процесі
пошуку, але він є зручним інструментом
для розширення функціоналу семантичної
ІПС. Наприклад, тезаурус ПрО дозволяє
виконувати наступні операції, алгоритми
здійснення яких більш детально описані в
наступних розділах:
оцінка складності природномов-
ного тексту для сприйняття конкретним
користувачем;
Моделі та засоби систем баз даних і знань
44
побудова груп користувачів з
подібними інформаційними потребами
для рекомендуючих систем;
виконання теоретико-множин-
них операцій над тезаурусами, що забез-
печують повторне використання тезауру-
сів для нових задач;
побудова та використання лек-
сичних онтологій.
Алгоритм побудови
зваженого тезаурусу задачі
Зважений тезаурус задачі
s,1j,Tt},wt{Tw jj,j
будується за множиною
s,1j},Xx{T j
тезаурусу задачі Th (простим або складе-
ним) наступним чином: кожному елементу
з Т ставиться у відповідність вага (позитив-
на чи негативна) jw – кількісна характе-
ристика важливості цього терміну для
поточної задачі користувача. Ця оцінка
може задаватися користувачем явно (якщо
зважений тезаурус будується за простим
або складеним тезаурусом) або обчислю-
ватися за раніше заданими оцінаки (якщо
зважений тезаурус будується як об’єд-
нання двох раніше побудованих тезауру-
сів, тоді значення оцінок термінів підсу-
мовуються).
Аналіз виразної здатності
тезаурусу задачі
Для того, щоб використовувати за-
пропонований підхід, необхідно довести,
що виразна здатність таких тезаурусів є
задовільною для виконання семантичного
пошуку. Незважаючи на досить просту
структуру самого тезаурусу задачі, його
виразна здатність визначається методом
його побудови, який використовує всі ті
знання ПрО, що містяться у відповідній
онтології та можуть бути застосовані для
пошуку у тому випадку, якщо б у співста-
вленні задачі користувача та ІР викорис-
товувалися б довільні онтології.
Слід зазначити, що в інших моде-
лях пошуку можуть застосовуватися інші
аспекти онтологічних знань, що не вико-
ристовуються у цій моделі. Крім того, де-
які моделі пошуку дозволяють користува-
чеві явно керувати тим, які саме знання
треба враховувати в процесі пошуку (і
запропонована модель належить саме до
цього класу), тоді як інші моделі не дозво-
ляють користувачу впливати на такий ви-
бір. Переваги та недоліки окремих моде-
лей знаходяться поза розглядом даної
роботи.
Можна стверджувати, що певні
знання з онтології зафіксовані у тезаурусі,
якщо їх відсутність в онтології призвела б
до таких змін у тезаурусі, побудованому за
цією онтологією, які вплинули б на резу-
льтати пошуку. Але таке визначення не
дозволяє оцінити виразну здатність тезау-
русу. В процесі пошуку виконується спів-
ставлення моделі задачі та тезаурусу зада-
чі. В цьому співставленні аналізуються
тільки ті елементи тезаурусу задачі, для
яких знайдені певні відповідності у моделі
задачі. Тому ті елементи тезаурусів онто-
логій, які не входять до тезаурусу задачі,
не впливають на впорядкування результа-
тів пошуку. Якщо у тезаурусу онтології
можна відобразити певний елемент знань
онтології, то ці знання можуть бути відоб-
ражені в тезаурусі задачі.
Тому будемо вважати, що якщо пев-
ний елемент онтології може вплинути на
вміст тезаурусу, то виразна здатність тезау-
русу є достатньою для його відображення
стосовно пошукової процедури.
Твердження 1. Алгоритм побудови
простого тезаурусу задачі дозволяє вико-
ристовувати знання щодо структури ПрО з
онтології, яку користувач вважає пертинен-
тною його поточній задачі, відповідно до
тих умов, які користувач вважає доціль-
ним застосовувати в обраній пошуковій
моделі.
Доказ. Проаналізуємо окремо ко-
жен компонент онтології О, його викорис-
тання для пошуку та те, як цей компонент
відображено в простому тезаурусі задачі
indclO ThThTh .
Розглянемо дане для обох етапів алгорит-
му побудови простого тезаурусу задачі.
Слід зазначити, що на етапі 1 вико-
ристовується лише множина Х онтології
Моделі та засоби систем баз даних і знань
45
О. Завдяки цьому обчислювальна склад-
ність даного алгоритму не вище, ніж
лінійна залежність від кількості класів та
екземплярів класів в онтології О.
На етапі 2, крім класів та екземпля-
рів онтології О, інші елементи використо-
вуються не безпосередньо, а для попов-
нення та вдосконалення самої онтології О,
тому обчислювальна складність побудови
тезаурусу залежить від кількості та типу
умов (наприклад, умов “включити всі ек-
земпляри зі значенням “рік створення” бі-
льшим за 2000”), до яких входять ці еле-
менти, та від розміру відповідних множин
онтології О (наприклад, в онтології ПрО
може бути 3 або 33 властивості даних).
Відповідно до алгоритму побудови
простого тезаурусу задачі, для побудови
тезаурусу можуть бути застосовані:
ієрархічні відношення для роз-
ширення тезаурусу надкласами та підкла-
сами обраних класів на обрану глибину
обробки;
об'єктні властивості для роз-
ширення тезаурусу екземплярами класів,
що пов’язані з вже обраними екземпляра-
ми класів певними об’єктними відношен-
нями;
ієрархічні відношення між
об’єктними властивостями для розширен-
ня тезаурусу, використовувати підкласи
об’єктних відношень замість відношень,
визначених у попередньому пункті;
властивості даних екземплярів
класів для розширення тезаурусу тими
термінами, що задовольняють певним
умовам;
ієрархічні відношення між вла-
стивостями даних розширювати тезаурус,
використовуючи підкласи відношень да-
них замість визначених користувачем від-
ношень даних;
характеристики класів онтоло-
гії для використання еквівалентних класи
замість класів, обраних користувачем;
характеристики об’єктних вла-
стивостей екземплярів класів для логічно-
го виводу в процесі побудови тезаурусів
відповідно до того, яку саме властивість
вони фіксують;
нелогічні правила ПрО для
розширення тезаурусу, якщо задовольня-
ються умови цих правил.
Слід відмітити, що для довільної
онтології та довільного набору умов кори-
стувача досить складно оцінити час побу-
дови тезаурусу, точніше, можна спрогно-
зувати найгірший варіант, але на практиці
час обробки значно менший. Доцільніше
аналізувати окремі випадки як онтологій,
так і умов. Надалі більш детально буде
оцінено обчислювальна складність побу-
дови простого тезаурусу задачі за Wiki-
онтологією – онтологією, яка будується на
основі семантичної розмітки Wiki-
сторінок.
Твердження 2. Алгоритм побудови
складеного тезаурусу задачі дозволяє ви-
користовувати ту частину знання щодо
структури ПрО, які застосовувалися в ал-
горитмі побудови тезаурусів онтологій,
що безпосередньо пов’язані з поточною
задачею користувача та можуть бути спів-
ставленні з фрагментами її природномов-
ного опису (безпосередньо, з використан-
ням логічного виведення або специфічних
для ПрО правил) у тому випадку, коли
складений тезаурус будується за простими
тезаурусами суттєво різних ПрО.
Доказ. На відміну від операцій пе-
ретину, об’єднання та різниці онтологій,
алгоритм побудови складеного тезаурусу
працює дуже швидко, а його обчислюва-
льна складність залежить лише від розмі-
ру простих тезаурусів.
Можна вважати, що простий тезау-
рус, побудований за об’єднанням онтоло-
гій, містить ту саму інформацію для по-
шуку, що й об’єднання простих тезауру-
сів, що побудовані за кількома незалеж-
ними онтологіями (це визначається алго-
ритмом побудови простого тезаурусу за-
дачі), але побудова об’єднання простих
тезаурусів потребує значно менше часу.
Для випадку, коли поєднуються не-
залежні онтології, це випливає з алгорит-
му побудови простого тезаурусу: та час-
тина об’єднаної онтології, що була побу-
дована внаслідок об’єднання, не викорис-
товується в операціях поповнення тезау-
русу, тому що вона не містить відповідних
Моделі та засоби систем баз даних і знань
46
термінів і не задовольняє пов’язаних з ни-
ми умовам.
Якщо поєднуються пов’язані онто-
логії, то можливі три основні варіанти,
суттєві для побудови тезаурусу:
деякі онтологічні знання дуб-
люються в різних онтологіях, і тому це не
впливає на побудову тезаурусу;
деякі онтологічні знання супе-
речать і не можуть бути поєднані, тобто в
об’єднаній онтології обирається лише
один з кількох можливих варіантів зв’язку
між термінами, і тоді у побудові тезаурусу
використовуються ті знання, які користу-
вач вважає більш пертинентними. Якщо
будується об’єднання тезаурусів таких он-
тологій, то такий спосіб виведення, що
привів до додання певного терміну до ре-
зультуючого тезаурусу, буде присутній
хоча б одній з тих онтологій, що
об’єднуються;
деякі онтологічні знання не су-
перечать між собою, але їх об’єднання на-
дає нові зв’язки між термінами онтології.
В такому випадку тезаурус задачі, побудо-
ваний за об’єднаною онтологією, може
містити деякі терміни, що відсутні в усіх
тезаурусах, побудованих за тими онтоло-
гіями, що об’єднуються. Але через те, що
обробка менших онтологій на етапі 1.1
значно простіша, на практиці ці терміни
досить часто користувач додає вручну.
Таким чином, запропонований під-
хід є ефективним тільки для онтологій, що
описують різні ПрО (або суттєво різні ас-
пекти ПрО) і тому мають набори термінів
(класів та екземплярів), що не перетина-
ються. Аналогічно оцінюються перетин та
різниця онтологій та побудованих за ними
тезаурусів.
Твердження 3. Обчислювальна
складність першого етапу алгоритму по-
будови простого тезауруса за онтологією
О лінійно залежить від кількості термінів
у множині Х онтології О, обсягу лексичної
онтології та розміру опису задачі.
Доказ. Відповідно алгоритму побу-
дови тезаурусу, на етапі 1.1. користувач
проглядає весь перелік термінів онтології
О та для кожного з n елементів у множині
Х онтології О приймає рішення щодо того,
чи занести цей елемент до тезаурусу. Від
інших параметрів онтології та задачі цей
етап не залежить явно. Тому, якщо вважа-
ти швидкість прийняття рішення користу-
вачем за постійну величину, то обчислю-
вальна складність етапу 1.1. не перевер-
шує n.
На етапі 1.2 виконується співстав-
лення елементів множини Х з природно-
мовним описом задачі за допомогою
},r{,TXXL lexlexПрО
– лексичної онтології, в якій кожному
елементу (класу або екземпляру класу) з Х
m,1j,Xx j відповідає скінчена кіль-
кість фрагментів ПМ
jpjlexjiПрОpj
x)s(r,q,1p,Ts ,
що співвідносяться з цим елементом.
Для елементів множини Х викону-
ється
n
1j
jq перевірок-співставлень для
кожного фрагмента, час виконання яких
залежить від розміру опису задачі l, якщо
j
n
1j
qmaxq
, то обчислювальна складність
алгоритму для етапу 1.2 не більш як
n*q*l.
Твердження 4. Алгоритм другого
етапу побудови простого тезауруса за он-
тологією О є скінченим, і його обчислю-
вальна складність залежить лінійно від
кількості термінів у множинах Х, М та R
онтології О, кількості вимог та обмежень,
за якими елемент з Х може бути додано до
тезаурусу, рівня вкладеності вимог та кі-
лькості елементів.
Доказ. Скінченність алгоритму ви-
пливає із скінченності множин елементів
та умов щодо них, що перевіряються. Ви-
никненню циклів запобігає те, що кожна
перевірка для кожного елемента не вико-
нується більше одного разу: на кожному
кроці виконання спочатку визначається
множина елементів, які потрібно переві-
рити, – як об’єднання всіх множин, що за-
довольняють початковим умовам, а потім
Моделі та засоби систем баз даних і знань
47
з цієї множини видаляються елементи, що
не задовольняють обмеженням.
Для кожного елементу множини Х
виконується перевірка для кожної з q ви-
мог, що відображають переконання корис-
тувача щодо цікавлячої його ПрО відпові-
дно до алгоритму виконання етепу 2.
Більш точно оцінювати обчислюва-
льну складність алгоритму побудови тезау-
русу доцільно для окремих випадків
онтологій ПрО, що використовуються у
практичних задачах, наприклад, для Wiki-
онтологій, що будуть розглянуті далі.
Алгоритм побудови тезаурусів ІР
Побудова тезаурусів природномов-
них ІР дозволяє здобути з неструктурова-
них текстів відомості, що стосуються тієї
задачі, яка цікавить користувача.
Для цього можуть використовува-
тися лексичні онтології або різноманітні
інші засоби лінгвістичного аналізу. Слід
зазначити, що лексична онтологія містить
відносно невелику підмножину знань що-
до ПМ-представлення термінів, пертинен-
тних задачі користувача, і тому час аналі-
зу текста на її основі має обчислювальну
складність, що залежить від розміру лек-
сичної онтології, побудованої для тезауру-
су задачі (простого або складеного).
Тезаурус ІР
,,,XXTh ThIRIR
це підмножина тезаурусу задачі
,,Rr,XXTh cl_ierTh ,
який містить тільки ті його терміни, для
яких знайдено відповідні фрагменти у кон-
тенті цього ІР. Таким чином, склад тезау-
русу ІР залежить як від тезаурусу задачі,
для якої він будується, так і від методу
співставлення контенту ІР із термінами
цього тезаурусу.
Алгоритм побудови тезаурусу ІР з
використанням лексичної онтології скла-
дається з наступних кроків:
q,1j,Xx Thj у лексичній онтології
},r{R
,TXX
L
lexlex
iПрОiПрОlex
ПрО
шукати відповідні фрагменти ПМ
jpjlexjПрОpj
x)s(r,q,1p,Ts ,
якщо в контенті ІР знайдено хоча б один з
jpj
q,1ps , тоді додати додати jx до
множини IRX :
jjlexjIRj x)(sr:sXx
pp
.
Для необхідності аналізу великої
кількості ІР для виконання кожного по-
шукового запиту виникає необхідність
використовувати такий алгоритм побудо-
ви їх тезауруса, обчислювальна склад-
ність якого лінійно залежить від обсягу ІР
та від обсягу опису задачі, для якої він
будується.
Цей алгоритм застосовується тільки
до тих природномовних ІР, що не супро-
воджуються метаописами. За наявності
метаописів (у форматі RDF [12] чи OWL
[13]) для довільних ІР (природномовних,
мультимедійних, структурованих тощо)
аналогічний алгоритм застосовується до
цих метаданих: аналізуються елементи
метаопису.
Слід зазначити, що запропонований
алгоритм виконує співставлення не для
всіх елементів лексичної онтології, а лише
для тих, що відповідають тезаурусу задачі,
що значно зменшує час його виконання
через порівняно невелику кількість співс-
тавлень. Безпосередньо онтологія ПрО та
опис задачі користувача в ньому не вико-
ристовуються, але відповідні знання з них
містяться в тезаурусі задачі, що будується
за ними.
Алгоритм побудови
зваженого тезаурусу ІР
Зважений тезаурус ІР
s,1j,Tt},wt{Tw jj,jIR
будується за множиною IRX тезаурусу ІР
Th (простим або складеним) наступним
чином: кожному елементу з Т ставиться у
відповідність вага
jIRw – позитивна кіль-
кісна характеристика важливості цього
терміну для ІР, що аналізується.
Моделі та засоби систем баз даних і знань
48
Ця оцінка обчислюється з ураху-
ванням кількості успішних співставлень
контенту ІР з тими елементами лексичної
онтології, що відповідають цьому терміну.
Знаходження відповідностей до терміну в
заголовку або метаописі ІР може мати бі-
льше значення і тому оцінюється більш
високо.
Побудова онтології задачі
Алгоритм побудови онтології зада-
чі наведено в [7]. Для побудови онтології
задачі доцільно застосовувати семантично
розмічені ІР, що використовують пошире-
ні стандарти для такої розмітки. На сього-
дні найбільш відомим та вживаним засо-
бом для цього є семантичні Wiki, напри-
клад, такі ІР, що базуються на Semantic
MediaWiki [8]. Використання семантич-
них Wiki-технологій для створення розпо-
ділених інформаційних ресурсів не тільки
дозволяє досить легко додавати структу-
рування до неструктурованих даних
(НСД), але й є джерелом фонових знань
для аналізу довільних природномовних
текстів відповідної предметної області.
Створення е-ВУЕ як семантизованого
Wiki-ресурсу дозволяє вдосконалити про-
цес генерації таких знань. Використання
онтологічного аналізу – основа для пере-
ходу від неструктурованого контенту [9]
до розподіленої бази знань, придатної для
повторного використання.
Найпростіше використовувати не-
спеціалізовані енциклопедії та довідники
(такі, як електронна версія Великої україн-
ської енциклопедії [10]), але, якщо корис-
тувач має відомості до більш спеціалізо-
ваних ресурсів, то їх застосування може
збільшити ефективність роботи.
Етапи побудови онтології за
Wiki-ресурсом
Якщо користувач явно визначив
множину понять ПрО, що його цікавлять,
за допомогою множини Wiki-сторінок, то-
ді алгоритм побудови онтології ПрО має
наступне.
Етап 1. Обрати множину Wiki-
сторінок Х, що пертинентні ПрО.
Етап 2. Здобути з цих сторінок всі
категорії та відібрати ті, що пертинентні
ПрО (відкинути службові категорії, зайві
для задачі категорії тощо). За множиною
цих категорій побудувати множину класів
ПрО К.
Етап 3. Проаналізувати множину К
та за її структурою додати в онтологію
ієрархічні відношення між класами.
Етап 4. Порівняти множини К та Х
і додати в онтологію ПрО екземпляри кла-
сів, що відповідають Wiki-сторінкам з Х.
Етап 5. Проаналізувати семантичні
властивості сторінок з Х, обрати з них ті,
що стосуються інших сторінок з Х та
додати відповідні об’єктні властивості до
онтології ПрО.
Етап 6. Проаналізувати посилання
(семантичні та звичайні) між сторінками з
Х та додати до онтології ПрО відповідні
відношення між екземплярами класів.
Етап 7. Проаналізувати семантичні
властивості, що пов’язують сторінки з Х з
даними. Додати ці властивості до власти-
востей даних онтології ПрО, а їх значення
– до значень цих властивостей відповід-
них екземплярів онтології.
Рекурсивне розширення онтології ПрО на
основі семантизованого Wiki-ресурсу
У тому випадку, коли користувач
задає не всю множину термінів ПрО, що
його цікавить, а тільки їх початковий на-
бір, алгоритм побудови онтології розши-
рюється наступними етапами:
Етап 2а. Здобути з множини К всі
їх підкатегорії та відібрати ті, що пертине-
нтні ПрО (відкинути службові категорії,
зайві для задачі категорії тощо). За мно-
жиною цих категорій розширити множину
класів ПрО.
Етап 2б. Проаналізувати інші
екземпляри категорій з К та запропону-
вати користувачеві додати їх до Х.
Повторювати етапи 2а та 2б доти,
поки користувач не буде задоволений
термінологічним складом ПрО.
Етап 5а. Проаналізувати семанти-
чні властивості, що пов’язують сторінки з
Х з іншими Wiki-сторінками. За необхід-
ності додати ці сторінки до Х, а самі влас-
тивості додати до множини об’єктних
властивостей онтології ПрО.
Моделі та засоби систем баз даних і знань
49
Повторювати етап 5а доти, поки
користувач не буде задоволений терміно-
логічним складом ПрО.
Алгоритм фільтрації ІР на основі
тезаурусів
Як було вказано вище, через велику
кількість ІР, доступ до яких забезпечує
Web, основна проблема у пошуку інфор-
мації пов’язана не із знаходженням усієї
множини ІР І, пертинентних (більше або
менше) потребам користувача, а у відборі
з цієї множини І тих ІР, що найбільш від-
повідають цій потребі. В даній роботі роз-
глядається та підзадача пошуку в Web, що
стосується фільтрації результатів пошуку
за набором ключових слів, отриманих від
довільної зовнішньої ІПС.
Алгоритм фільтрації результатів
запиту користувача до зовнішнього ІПС:
користувач обирає ІПС, які
забезпечують доступ до ІР (у Web, корпо-
ративній мережі, сховищі даних );
користувач формулює запит,
ідентифікуючи свою інформаційну потре-
бу: за допомогою набору ключових слів,
умов запиту, документів-зразків тощо –
відповідно до можливостей, що надає
обрана ІПС;
користувач обирає онтологію
ПрО та за нею створює (формує або оби-
рає зі вже існуючих) зважений тезаурус
задачі
s,1k},w,Tx{Tw kПрОkuser ;
запит передається до зовніш-
ньої ІПС, від якої отримують відповідні
до запиту результати його виконання – n
посилань на ІР та їхні короткі описи
m,0j},d,ref{I jj ,
де jfRe – http-адреса відповідного ІР,
знайденого ІПС, а jd – коротка інформа-
ція про цей ІР, що зовнішня ІПС надає
користувачеві у відповідь на запит;
якщо множина I не порожня,
тобто ІПС знайшла у відповідь на запит
хоча б один ІР ( 1m ), то потрібно вста-
новити порядок, в якому пропонувати
користувачеві відомості про знайдені ІР.
Тоді для всіх ІР з цієї множини І форму-
ються їх зважені тезауруси m,1j,Tw
jIR
та відповідні їм словники термінів
jIR
X .
Елементи цієї множини з к елементів
jIRkj
Xx – це терміни ПрО, яким від-
повідають певні фрагменти з
j
d – опису
j-го ІР з множини І, запропонованої ІПС.
У зваженому тезаурусі ІР фіксується також
kj
w – вага кожного терміну з
jIR
X , що
кількісно характеризує його важливість у
цьому ІР (відповідно до місця, де знайдено
відповідний фрагмент, та залежно від
кількості таких успішних співставлень –
відповідно до способу оцінювання,
обраного користувачем);
За наявності зважених тезаурусів
задачі та ІР визначення семантичної
близькості між цими об’єктами вирішуєть-
ся за допомогою обчислення коефіцієнту
їх близькості:
n
1i
i
ij
IRiuseruserjIR )x(f*w*w)Tw,Tw(K .
Функція xf виконує співставлен-
ня термінів тезаурусів задачі та ІР:
jIR
jIR
Twx :0
Twx :1
xf .
Коефіцієнт близькості враховує
кількість термінів тезаурусу задачі, що
знайдено у тезаурусі ІР, так і в тезаурусі
ПрО, важливість цих термінів для задачі
користувача та важливість цих термінів
для контенту ІР. На практиці можуть за-
стосовуватися різні варіанти цього крите-
рію, наприклад, нормовані значення
iIRw , що дозволяють обробляти ІР різно-
го обсягу, але для аналізу невеликих фраг-
ментів ПМ-тексту приблизно однакового
розміру, які надають зовнішні ІПС, доста-
тньо використовувати таку оцінку.
Отримавши оцінки для всіх знай-
дених ІР, можна виконати впорядкування
їх списку за цими оцінками, використову-
ючи довільний алгоритм сортування маси-
вів. Знайдені ІР впорядковуються залежно
від значень jK .
Моделі та засоби систем баз даних і знань
50
Часова складність алгоритмів сор-
тування різниться від O(n ) до O(n
2
). Доці-
льно застосовувати такі алгоритми сорту-
вання з часовою складністю O(n log n), як
сортування злиттям, швидке сортування,
пірамідальне сортування. Але слід врахо-
вувати, що стабільні алгоритми сортуван-
ня, що працюють за час O(n log n), потре-
бують O(n) додаткової пам'яті. Якщо
використовуються алгоритми сортування
з часовою складністю O(n), такі як
cортування комірками, cортування підра-
хунком, cортування за розрядами, то вони
потребують використання додаткової
інформації про елементи, приміром, діапа-
зон значень ключа.
В даному випадку елементи мно-
жини, що впорядковуються, містять не
тільки ключ, за яким здійснюється сорту-
вання, але й інформацію про місцезнахо-
дження відповідного файлу, тобто впоряд-
кування відбувалось не у самому масиві
елементів, а в масиві ключів, що є поси-
ланнями на інші дані. Такий підхід не
спрямований на аналіз повного контенту
ІР , але забезпечує той самий рівень аналі-
зу, який використовують користувачі,
вручну проглядаючи такі описи: короткий
опис може некоректно відображати вміст
самого ІР, але це залежить не від засобів
аналізу, а від самого ІР.
Користувачеві надають насамперед
ті ІР, що мають найбільші значення jK –
коефіцієнтів близькості до ПрО. Можна
обмежити множину ІР, що надаються
користувачеві, за двома параметрами, –
кількістю ІР (наприклад, перші 20 най-
ближчих ІР) та значенням jK (наприклад,
надавати ІР) з 5K j .
Доцільно використовувати одноча-
сно як позитивні (відомі, бажані, релеван-
тні терміни), так і негативні (незнайомі,
незрозумілі, нерелевантні проблемі термі-
ни) тезауруси. Якщо в ІР трапляються
терміни з негативною вагою, то зменшує
семантичну близькість ІР до задачі.
Запропонований підхід доцільно
використовувати, якщо:
користувач досить глибоко обіз-
наний у ПрО та близьких до неї областях;
користувач виконує велику
кількість запитів з однієї ПрО, пов’язаних
з різними задачами;
користувач виконує велику
кількість запитів, пов’язаних з однією
ПрО, що відповідають різним її аспектам
або етапам і тому потребують різної
інформації;
користувач досить довго зай-
мається пошуком інформації, і тому час,
який він витрачує на вибір онтології ПрО
та побудову тезаурусу задачі, значно мен-
ше за той час, який він витрачував на руч-
ний прогляд результатів кожного запиту у
цій сфері.
Таким умовам відповідають науко-
ва діяльність (наприклад, моніторинг пуб-
лікацій в обраній сфері, пошук аналогів),
навчальний процес, аналітичні досліджен-
ня тощо.
Висновки
Запропонований у роботі підхід до
застосування онтологічної моделі взаємо-
дії між користувачами та ІР у процесі
семантичного пошуку забезпечує знаход-
ження ІО із складною структурою, фор-
малізований опис яких міститься у зовні-
шніх онтологіях. Це дозволяє використо-
вувати фонові знання, що подаються у
вигляді тезаурусів, для персоніфікованої
фільтрації потрібного користувачам кон-
тенту, що особливо актуально із зростан-
ням кількості, обсягу та структурної
складності ІР, що оброблюються. Перехід
від онтологій до їх окремого випадку –
тезаурусів – зменшує обчислювальну
складність співставлення ІО. Використан-
ня семантичних Wiki-ресурсів як джерела
онтологічних знань дозволяє значно точ-
ніше описувати ПрО, що цікавлять конк-
ретних користувачів, і внаслідок цього
отримувати більш точні результати по-
шуку за менший час.
Література
1. Baeza-Yates R., A. Raghavan R. Next
generation Web search. S. Ceri and M.
Brambilla, editors, Search Computing,
Springer. 2010. P. 11–23.
Моделі та засоби систем баз даних і знань
51
2. Рогушина Ю.В. Семантичний пошук у
Web на основі онтологій: розробка моде-
лей, засобів і методів. Мелітополь: МДПУ
ім. Богдана Хмельницького. 2015. 291 с.
3. Ushold M., Gruninger M. Ontologies:
Principles, Methods and Applications.
Knowledge Engineering Review. 1996. Vol.
11. N 2.
4. Antoniou G., Van Harmelen F. Web ontology
language: Owl. Handbook on ontologies.
Springer Berlin Heidelberg. 2004. P. 67–92.
5. Рогушина Ю.В. Теоретичні засади засто-
сування онтологій для семантизації ресур-
сів Web. Проблеми програмування. 2018.
№ 2-3. С. 197–203.
6. Mitchell, T.M. Machine learning. Burr Ridge,
IL: McGraw Hill, 45(37). 1997. P. 870–877.
7. Rogushina J.V. Models and Methods of
Ontology Use for the Web Semantic search.
Proc. of the 11th International Conference of
Programming UkrPROG 2018, P. 197–203.
http://ceur-ws.org/Vol-2139/197-203.pdf.
8. Semantic MediaWiki. https://www.semantic-
mediawiki.org/wiki/Semantic_MediaWiki.
9. Grimes S. Unstructured Data and the 80
Percent Rule, 2008, Clarabridge, Bridgepoints.
http://breakthroughanalysis.com/2008/08/01
/unstructured-data-and-the-80-percent-rule/.
10. Рогушина Ю.В. Використання семантич-
них властивостей вікі-ресурсів для розши-
рення функціональних можливостей «Ве-
ликої української енциклопедії». Енцик-
лопедичні видання в сучасному інформа-
ційному просторі: колективна монографія
/ За ред. Киридон А.М. К.: Державна нау-
кова установа «Енциклопедичне видавни-
цтво», 2017. С. 104–115.
11. Гладун А.Я., Рогушина Ю.В. Репозитории
онтологии как средство повторного испо-
льзования знаний для распознавания ин-
формационных объектов. Онтология про-
ектирования. 2013. № 1 (7).
12. Resource Description Framework (RDF)
Model and Syntax Specification. W3C
Proposed Recommendation, 1999.
http://www.w3.org/TR/PR-rdf-syntax
13. OWL 2 Web Ontology Language Document
Overview. W3C. 2009.
http://www.w3.org/TR/owl2-overview/.
References
1. Baeza-Yates R., A. Raghavan R. (2010) Next
generation Web search // S. Ceri and M.
Brambilla, editors, Search Computing,
Springer, P.11-23.
2. Rogushina J.V. (2015) Semantic retrieval in
the Web on base of ontologies: design of
methods, means and methods. Melitopol,
MDPU. [in Ukrainian].
3. Ushold M., Gruninger M. (1996) Ontologies:
Principles, Methods and Applications, //
Knowledge Engineering Review, V.11, N 2.
4. Antoniou G., Van Harmelen F. (2004) Web
ontology language: Owl. Handbook
on ontologies. Springer Berlin Heidelberg,
P. 67-92.
5. Rogushina J.V. Theoretical principles of use
of ontologies for semantization of
the Web resources. Problems in program-
ming. 2018. N 2-3. P. 197–203.
6. Mitchell, T. M. (1997) Machine learning.
Burr Ridge, IL: McGraw Hill, 45(37).
P. 870–877.
7. Rogushina J.V. Models and Methods of
Ontology Use for the Web Semantic search.
Proc. of the 11th International Conference of
Programming UkrPROG 2018, P.197-203. –
http://ceur-ws.org/Vol-2139/197-203.pdf.
8. Semantic MediaWiki. https://www.semantic-
mediawiki.org/wiki/Semantic_MediaWiki.
9. Grimes S. (2008) Unstructured Data and the
80 Percent Rule, , Clarabridge, Bridgepoints.
http://breakthroughanalysis.com/2008/08/01
/unstructured-data-and-the-80-percent-rule/.
10. Rogushina J.V. (2017) Use of semantic
properties of the Wiki resources for
expansion of functional posibilities of “Great
Ukrainian Encyclopedia” // Encyclopaedias
in the modern information space: collective
monograph / Ed. Kyrydon A.M., Kyiv.
P. 104–115. [in Ukrainian]
11. Gladun A., Rogushina J. (2013) Ontology
repositories as a means of knowledge reuse
for recognizing of information objects //
Ontology of Design, № 1 (7). [in Russian]
12. Resource Description Framework (RDF)
Model and Syntax Specification. W3C
Proposed Recommendation, 1999.
http://www.w3.org/TR/PR-rdf-syntax.
13. OWL 2 Web Ontology Language Document
Overview. W3C. 2009. http://www.w3.org/
TR/owl2-overview/.
Одержано 24.10.2019
http://www.w3.org/TR/PR-rdf-syntax
http://www.w3.org/TR/owl2-overview/
http://www.w3.org/TR/PR-rdf-syntax
http://www.w3.org/TR/owl2-overview/
http://www.w3.org/TR/owl2-overview/
Моделі та засоби систем баз даних і знань
52
Про автора:
Рогушина Юлія Віталіївна,
кандидат фізико-математичних наук,
старший науковий співробітник.
Кількість наукових публікацій в
українських виданнях – 150.
Кількість наукових публікацій в
зарубіжних виданнях – 31.
http://orcid.org/0000-0001-7958-2557.
Місце роботи автора:
Інститут програмних систем
НАН України,
03181, Київ-187,
проспект Академіка Глушкова, 40.
Тел.: 066 550 1999.
E-mail: ladamandraka2010@gmail.com
mailto:ladamandraka2010@gmail.com
|