A three-dimensional model of semantic search: queries, resources, and results

We propose three-dimensional model of semantic search that analyzes search requests, information resources (IRs) and search results. This model is proposed as an additional tool for describing and comparing information retrieval systems (IRSs) that use various elements of artificial intelligence and...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2023
Автор: Rogushina, J.V.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2023
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/592
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-592
record_format ojs
resource_txt_mv ppisoftskievua/cc/bfbd03f6238e12a6697a0b87e902efcc.pdf
spelling pp_isofts_kiev_ua-article-5922024-04-26T21:18:21Z A three-dimensional model of semantic search: queries, resources, and results Тривимірна модель семантичного пошуку: запити, ресурси та результати Rogushina, J.V. semantic search; ontology; search query UDC 681.3 семантичний пошук; онтологія; пошуковий запит УДК 681.3 We propose three-dimensional model of semantic search that analyzes search requests, information resources (IRs) and search results. This model is proposed as an additional tool for describing and comparing information retrieval systems (IRSs) that use various elements of artificial intelligence and knowledge management for more effective and relevant satisfaction of user information needs. In this work we analyze existing approaches to the semanticization of search queries and the use of external knowledge sources for retrieval process.The values of parameters analyzed by this model are not mutually exclusive, that is, the same IRS can support several search options. More over, the representation means of queries and resources are not always comparable.The model makes it possible to identify IRSs with intersected triads «request-IR-result» and to perform their comparison precisely on these subclasses of search problems. This approach allows to select search algorithms that are more pertinent for specific user tasks and to choose on base of this selection appropriate retrieval services that provide information for further processing. An important feature of the proposed model is that it uses only those IRS characteristics that can be directly evaluated by retrieval users.Prombles in programming 2023; 4: 39-55 Запропонована тривимірна модель семантичного пошуку , що аналізує пошукові запити, інформаційні ресурси та результати пошуку, пропонується як додатковий інструмент опису та співставлення інформаційно-пошукових систем (ІПС), що використовують різноманітні елементи штучного інтелекту та менеджменту знань для більш ефективного та пертинентного задоволення інформаційних потреб користувачів. Потрібно відмітити, що значення параметрів, які аналізує ця модель,   не є взаємовиключними, тобто та сама ІПС може підтримувати кілька варіантів пошуку. Крім того, засоби подання запитів та ресурсів не завжди є порівнюваними.  Проаналізовано існуючі підходи до семантизації пошукових запитів та використання зовнішніх джерел знань для їх виконання.Модель  дозволяє виявляти ІПС, для яких перетинаються тріади “запит-ІР-результат”, та виконувати їх порівняння саме на цих підкласах пошукових задач. Це дозволяє визначати, які алгоритми пошуку виявляються більш пертинентними для конкретних задач користувачів і на основі цього обирати такі сервіси як джерело інформації для подальшої обробки. Важливою особливістю запропонованої моделі є використання лише тих характеристик ІПС, які можуть бути  проаналізовані користувачами.Prombles in programming 2023; 4: 39-55 Інститут програмних систем НАН України 2023-12-18 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/592 10.15407/pp2023.04.039 PROBLEMS IN PROGRAMMING; No 4 (2023); 39-55 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2023); 39-55 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2023); 39-55 1727-4907 10.15407/pp2023.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/592/641 Copyright (c) 2023 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-26T21:18:21Z
collection OJS
language Ukrainian
topic semantic search
ontology
search query
UDC 681.3
spellingShingle semantic search
ontology
search query
UDC 681.3
Rogushina, J.V.
A three-dimensional model of semantic search: queries, resources, and results
topic_facet semantic search
ontology
search query
UDC 681.3
семантичний пошук
онтологія
пошуковий запит
УДК 681.3
format Article
author Rogushina, J.V.
author_facet Rogushina, J.V.
author_sort Rogushina, J.V.
title A three-dimensional model of semantic search: queries, resources, and results
title_short A three-dimensional model of semantic search: queries, resources, and results
title_full A three-dimensional model of semantic search: queries, resources, and results
title_fullStr A three-dimensional model of semantic search: queries, resources, and results
title_full_unstemmed A three-dimensional model of semantic search: queries, resources, and results
title_sort three-dimensional model of semantic search: queries, resources, and results
title_alt Тривимірна модель семантичного пошуку: запити, ресурси та результати
description We propose three-dimensional model of semantic search that analyzes search requests, information resources (IRs) and search results. This model is proposed as an additional tool for describing and comparing information retrieval systems (IRSs) that use various elements of artificial intelligence and knowledge management for more effective and relevant satisfaction of user information needs. In this work we analyze existing approaches to the semanticization of search queries and the use of external knowledge sources for retrieval process.The values of parameters analyzed by this model are not mutually exclusive, that is, the same IRS can support several search options. More over, the representation means of queries and resources are not always comparable.The model makes it possible to identify IRSs with intersected triads «request-IR-result» and to perform their comparison precisely on these subclasses of search problems. This approach allows to select search algorithms that are more pertinent for specific user tasks and to choose on base of this selection appropriate retrieval services that provide information for further processing. An important feature of the proposed model is that it uses only those IRS characteristics that can be directly evaluated by retrieval users.Prombles in programming 2023; 4: 39-55
publisher Інститут програмних систем НАН України
publishDate 2023
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/592
work_keys_str_mv AT rogushinajv athreedimensionalmodelofsemanticsearchqueriesresourcesandresults
AT rogushinajv trivimírnamodelʹsemantičnogopošukuzapitiresursitarezulʹtati
AT rogushinajv threedimensionalmodelofsemanticsearchqueriesresourcesandresults
first_indexed 2024-10-02T04:07:09Z
last_indexed 2024-10-02T04:07:09Z
_version_ 1818528000877002752
fulltext Моделі та засоби систем баз даних і знань 39 © Ю.В. Рогушина, 2023 ISSN 1727-4907. Проблеми програмування. 2023. №4 УДК 681.3 http://doi.org/10.15407/pp2023.04.039 Ю.В. Рогушина ТРИВИМІРНА МОДЕЛЬ СЕМАНТИЧНОГО ПОШУКУ: ЗАПИТИ, РЕСУРСИ ТА РЕЗУЛЬТАТИ Запропонована тривимірна модель семантичного пошуку , що аналізує пошукові запити, інформаційні ресурси та результати пошуку, пропонується як додатковий інструмент опису та співставлення інфор- маційно-пошукових систем (ІПС), що використовують різноманітні елементи штучного інтелекту та менеджменту знань для більш ефективного та пертинентного задоволення інформаційних потреб кори- стувачів. Потрібно відмітити, що значення параметрів, які аналізує ця модель, не є взаємовиключни- ми, тобто та сама ІПС може підтримувати кілька варіантів пошуку. Крім того, засоби подання запитів та ресурсів не завжди є порівнюваними. Проаналізовано існуючі підходи до семантизації пошукових запитів та використання зовнішніх джерел знань для їх виконання. Модель дозволяє виявляти ІПС, для яких перетинаються тріади “запит-ІР-результат”, та виконувати їх порівняння саме на цих підкласах пошукових задач. Це дозволяє визначати, які алгоритми пошуку ви- являються більш пертинентними для конкретних задач користувачів і на основі цього обирати такі сервіси як джерело інформації для подальшої обробки. Важливою особливістю запропонованої моделі є використання лише тих характеристик ІПС, які можуть бути проаналізовані користувачами. Ключові слова: семантичний пошук, онтологія, пошуковий запит. Вступ Пошук інформації (у локальних і глобальних мережах, на окремому комп’ютері) сьогодні є одним із найпоши- реніших завдань, що входить до складу різ- них застосовних систем. Швидке зростання обсягу інформації, яку потрібно обробляти, та ускладнення її структури зумовлюють усе більшу потребу в розвитку засобів зна- ходження відомостей, необхідних користу- вачам для виконання їхніх завдань. Семантичний пошук (СП) – термін, який використовують для позначення на- бору методів, призначених для покращен- ня пошуку в документіах або у базі знань. На відміну від традиційних методів пошу- ку, зосереджених на ранжуванні докумен- тів на основі набору ключових слів (як у запиті користувача, так і в індексованому контенті), методи СП спрямовані на те, щоб враховувати контекст і семантику як запиту користувача, так і тих ресурсів, в яких здійснюється пошук, за допомогою використання засобів обробки природної мови, технологій Semantic Web та методів машинного навчання для отримання більш релевантних результатів. Система семантичного пошу- ку (ССП) – це інформаційна система, що забезпечує пошук і розпізнавання інфор- маційних об’єктів (ІО) різних типів із використанням знань для зіставлення за- питу з наявними інформаційними ресурса- ми на семантичному рівні [1]. ССП можна розглядати як певну інтелектуальну надбу- дову над традиційними інформаційно-- пошуковими системами (ІПС) як загально- го призначення, так і спеціалізованими. Актуальність проблеми семантизації пошуку Багато дослідників звертають увагу на різні аспекти розвитку СП та критерії їх оцінювання [2] . Деякі з них докладно аналізують окремі аспекти СП: наприклад, зосереджуються на ПМ-запитах до баз знань або онтологій RDF [3]. Класичні інформаційно-пошукові системи (ІПС) отримують вхідні дані у ви- гляді запиту користувача, що подається як список ключових слів, а як вихідні дані генерують впорядкований список докуме- нтів, релевантних цим ключовим словам. Пошук у природномовних ресурсах Методи обробки ПМ застосовують- ся для розуміння семантики запиту або до- кументів, для розпізнавання частини мови (Part-Of-Speech – POS) у текстовому конте- нті (наприклад, визначити граматичні теги, Моделі та засоби систем баз даних і знань 40 такі як іменник, сполучник або дієслово до окремих слів). Такий аналіз дає точні результати для повних, правильно сформо- ваних речень [4], але набагато складніший для коротких текстів, таких як запити [5]. Теги POS можна використовувати також для таких задач, як: 1) розрізнення тексто- вих ключових слів, наприклад, для розпізнавання іменованих об’єктів (Named- Entity Recognition – NER), де завдання по- лягає в тому, щоб визначити, які слова відповідають екземплярам об’єктів реаль- ного світу; 2) розділення співпосилання (co-reference resolution), тобто виявлення всіх ключових слова, що посилаються на ту саму сутність у тексті. Синтаксичний аналіз речень (parsing) виводить аналіз ПМ на наступний рівень, охоплюючи загальну структуру речень (як правило, через дерево аналізу залежностей). Методи обробки ПМ часто поєдну- ються з лексичними базами знань для того, щоб ідентифікувати об’єкти в текстовому запиті або контенті та зіставити їх із відпо- відними об’єктами у базі знань (або іншо- му зовнішньому джерелі інформації про предметну область, такі як вікіресурси) для покращення результатів пошуку. Напри- клад, WordNet використовується [6] для усунення неоднозначності слів ПМ. Аналіз структури Вікіпедії дозволяє краще оціню- вати відповідність об’єктів пошуковому запиту [7] або для ідентифікації сутностей під час пошуку у колекціях документів [8] , тоді як [9] обробляють згадки сутності у Вікіпедії разом з іншими характеристиками документів. Концептуально подібні підходи ви- користовуються й у контексті Semantic Web – замість вікіресурсу аналізуються більш структуровані інформаційні джере- ла, такі як онтології, для отримання інфо- рмації щодо структури та екземплярів ін- формаційних об’єктів для кращого розуміння контексту запитів або сутностей, описаних в ПМ-документах. Наприклад, [10] пропонують використо- вувати онтології для інтерпретації ПМ- запитів, перетворюючи на основі дескрип- тивної логіки набір ключових слів на кон’юнкцію понять. Інші дослідника [11] використовують об’єкти та семантичні зв’язки з бази знань DBpedia для групування результатів пошукової систе- ми у більш значущі групи. Методи машинного навчання часто використовуються у СП для визначення семантики слів або сутностей у докумен- тах на основі гіпотези семантичної подіб- ності слів, які зустрічаються в подібних контекстах. Ранні підходи в цій царині пов’язані з побудовою багатовимірних ма- триць, де кожне слово представлене розрі- дженим вектором у просторі великої роз- мірності. Зараз використовуються методи аналізу близькості слів на основі щільних векторних [12], які визначають максима- льну ймовірність спільної появи слів у пе- вному контексті за допомогою нейронної мережі. Це дозволяє генерувати векторні представлення слів із великих текстових корпусів для машинного навчання. Пошук у базах знань Деякі підходи до СП спрямовані на обробку декларативних баз знань (та- ких як онтології або графи знань), а не на колекцій ПМ-документів. Такі бази знань можуть бути подані багатьма різ- ними способами, але наразі більшість іс- нуючих реалізацій базується на стандар- тах Semantic Web – RDF та OWL. Відомі приклади таких баз знань – Google Knowledge Graph [13] , Dbpedia [14] та Wikidata [15] . Користувачі можуть бу- дувати запити до таких джерел інформа- ції як до традиційних ІПС (наприклад, як набір ключових слів) або структуровано (наприклад, SPARQL-запити) . У багатьох дослідженнях, пов’язаних із проєктом Semantic Web [16, 17], аналізується формальний підхід до виконання структурованих запитів до он- тологій, де дескриптивна логіка викорис- товується для ранжирування результатів пошуку. Для покращення пошукових за- питів, орієнтованих на онтології, можуть застосовуватися мета-онтології: як-от, у [18] WordNet використовується для зіс- тавлення елементів онтології з лексични- ми об’єктами. У роботах [19] та [20] розглянуто пошук у ресурсах спеціалізованих інфор- маційних об’єктів, які характеризуються Моделі та засоби систем баз даних і знань 41 типами або відношеннями на основі при- родномовних запитів або ключових слів. Гібридні підходи до пошуку вико- ристовують як текстовий, так і структуро- ваний контент: ІПС доповнює запити з ключових слів шляхом дослідження онто- логічного графу [21], пошук використовує текстові метадані про об’єкти в структу- рованому сховищі [22]. Пошук на основі векторного пред- ставлення об’єктів адаптується для забезпе- чення пошуку у базах знань для аналізу RDF-графів у базах знань. У [23] підходи до вбудовування баз знань поділяються на дві основні групи: методи, засновані на перек- ладі, котрі інтерпретують зв’язки в базі знань як вектор трансляції між двома об’єктами, пов’язаними відношенням, і мо- делі семантичної відповідності, які викорис- товують функції оцінки подібності об’єктів. Приклади семантичних ІПС Практично всі провідні промислові ІПС, такі як Google або Bing, так чи інакше реалізують семантичний пошук, але зазви- чай не оприлюднюють детально методи, які використовують. Здебільшого вони під- тримують пошук у масивах документів, що значно різняться рівнем структурованості та якістю метаданих, а бази знань викорис- товують для вдосконалення запитів та для кращого фільтрування та сортування спис- ку або повернутих документів у цьому контексті. Деякі семантичні ІПС (напри- клад, Swoogle [24]) спеціалізуються на по- шуку саме у базах знань, здебільшого по- даних на основі стандартів Semantic Web – RDF та OWL, але використовують для цьо- го традиційні пошукові алгоритми. Напри- клад, SWSE [25] здійснює семантичний пошук у наборах RDF на основі їхніх мета- даних та впорядковує результати пошуку з використанням алгоритму PageRank на графі відношень між URI та їхніми джере- лами у тріплетах RDF. SemSearch [26] здійснює пошук у ресурсах Semantic Web, перетворюючи за- пити користувача за ключовими словами на формальні запити. Sindice [27] підри- мує пошук у напівструктурованих даних великого обсягу як за ключовими словами та URI, так і структуровані запити. Пошукова система Watson [28] здійснює пошук в онтологіях, виконуючи пошукові запити за ключовими словами та SPARQL-запити. Напрямки семантизації пошуку Наведений вище огляд показує, що методи семантичного пошуку можна розділити на дві основні групи залежно від цільового контенту [29] : - методи підвищення релевантності класичних пошукових систем, де за- пит складається з тексту природною мовою (ПМ) – наприклад, списку ключових слів, а результати є ранжо- ваним списком документів – напри- клад, веб-сторінок або докумнетів; - методи пошуку частково структурова- них даних (зокрема, інформаційних об’єктів певної структури або RDF- трійок) у базі знань (наприклад, в он- тології, семантично розміченому Wiki-ресурсі або графі знань) за запи- том користувача, який може подава- тися у формі ПМ-тексту або деклара- тивної мови запитів, як-от, SPARQL. Для обох груп використовується широкий спектр методів, таких як обробка природної мови для кращого розуміння запиту та контенту даних, технології Semantic Web для керування процесом пошуку з використанням декларативних баз знань, таких як онтології, а також ма- шинного навчання. Складові Інформаційно- пошукових систем У найбільш загальному вигляді пошук складається з трьох складових: 1. запиту користувача q, що відображає його інформаційну потребу; 2. масиву да- них I, в яких здійснюється пошук; 3. результатів пошуку R – тієї інформації, яку отримує користувач внаслідок вико- нання пошукової процедури. В такому ви- падку пошук можна розглядати як функ- цію )I,q(SR = , таку, що IR  . Семантичний пошук є одним з під- типів інформаційного пошуку RRsem  , який має ті самі складові, але доповнюєть- ся використанням зовнішніх джерел знань Моделі та засоби систем баз даних і знань 42 К та методами їх застосування у пошуко- вому процесі: )K,I,q(SR semsem = . Методи пошуку S значною мірою залежать саме від цих трьох складових. У відкритому інформаційному просторі є можливість контролювати тільки q та S, тому дослідження та порівняння алгорит- мів пошуку виконуються на спеціально сформованих тестових наборах І. Системи пошуку досить складно порівнювати саме через те, що вони значно різняться за всіма цими складовими. Тому доцільно визнача- ти координати кожної застосовної системи у такому тривимірному просторі. Але для цього доцільно впорядкувати певним чи- ном типові варіанти значень всіх цих пара- метрів відповідно до їхньої складності. Ця задача не є тривіальною через те, що серед них зустрічається багато непорівнюваних значень, і тому така класифікація є нечіт- кою. Тож виникає потреба проаналізувати можливості семантизації кожної із цих трьох складових та визначити, як саме вони впливають на методи пошуку. Постановка задачі Через велике розмаїття моделей, методів та засобів пошуку інформації, що ускладнюється внаслідок семантизації пошукових процедур, виникає проблема співставлення та вибору тих пошукових сервісів, що відповідають потребам корис- тувачів застосовних систем. Цей вибір має враховувати як особливості ресурсів, се- ред яких планується здійснювати пошук, так і способи подання інформаційних пот- реб користувачів. Тому недостатньо аналі- зувати лише методи співставлення запитів з наявними джерелами інформації. Вини- кає потреба більш точно описувати влас- тивості таких складових пошуку, як запи- ти, результати запитів та інформаційні ре- сурси. Для цього пропонується тривимірна модель семантичного пошуку, яка базу- ється на аналізі цих трьох складових та доповнює класифікацію систем семантич- ного пошуку. Для того, щоб обирати ІПС, що пертинентна певній задачі, необхідно визначити, які значення можуть мати ці параметри, та встановити часткове впо- рядкування цих значень там, де це можли- во, відповідно до їхньої відповідності про- блемі семантизації пошуку. Пошукові запити та їх семанитизація Запит користувача – це формалізо- ваний опис інформації, доступ до якої він прагне отримати. Цей опис може містити ключові слова, пов’язані логічними опера- торами; документ-зразок; тип документа і його тему за класифікатором; списки реко- мендованих чи заборонених користувачем інформаційних джерел; обмеження стосов- но часу або обсягу пошуку тощо. Деякі ІПС дають змогу також вводити такі пара- метри шуканого ІР, як час створення, об- сяг, мова подання тощо. У більш складних або спеціалізованих пошукових механізмах користувач може вказувати тип інформа- ційного об’єкта, відомості про який він прагне отримати з наявних природномов- них ІР (приміром, Web-сервіс, дані про особу чи організацію). Найпростішим варіантом запиту є непорожній набір пос- лідовностей символів. Найчастіше це набір слів ПМ або чисел, але у більш узагальне- ному випадку можуть застосовуватися будь-які послідовності символів, що не по- требують додаткової інтерпретації змісту (наприклад, пошук масок вірусів у файлах). Якщо ж використовуються саме слова пев- ної мови – природної або формальної, то запит може уточнюватися та доповнювати- ся на основі знань щодо цієї мови. Ускладнення запиту збільшує час його обробки, але використання елементів штучного інтелекту та менеджменту знань для побудови запитів дозволяють значно підвищити пертинентність його результа- тів. Тому дослідники в сфері СП значну увагу приділяють класифікації засобів се- мантизації пошукових запитів та доціль- ності їх застосування для різних задач. Запити з ключових слів та їх розширення Традиційні підходи до розширен- ня запиту (query expansion – QE) спира- ються на інтеграцію неструктурованого корпусу та імовірнісних правил для ви- ділення термінів – кандидатів для роз- Моделі та засоби систем баз даних і знань 43 ширення. Ці методи не враховують се- мантику пошукового запиту, що призво- дить до неефективного пошуку інформа- ції. Семантичні підходи до QE долають це обмеження, завдяки чому пошуковий запит розширюється значущими термі- нами, які відповідають потребам корис- тувача. Ці підходи застосовують різні моделі та стратегії до різних структури знань – лінгвістичні методи, методи на основі онтології тощо. Таксономія таких методів, верхній рівень якої наведено на рис.1, пропонується в [30]. Методи розширення пошукових запитів Семантичні методи Не семантичні методи Лінгвістичні методи Онтологічні методи Морфологічне розширення Розширення пов’язаними термінами Домено- залежні методи Домено- незалежні методи Рис.1. Таксономія методів розширення пошукових запитів Основна задача ІПС полягає в то- му, щоб відібрати документи, які містять потрібні користувачам відомості, та здо- бути з них ці відомості. Для цього ІПС обчислюють подібність між пошуковим запитом і документами та отримують спи- сок документів, розташованих у порядку зменшення подібності. Отриманий список документів іноді завеликий і містить бага- то нерелевантних документів. Основною проблемою, яка виникає під час пошуку, є невідповідність терміносистем користува- чів та авторів документів: терміни, які ав- тор використав для опису поняття в доку- менті, відрізняються для користувачів. Основними причинами цього є вживання в ПМ слів зі схожим значенням (синонімія) та багатозначних слів (полісемія). Ця проблема невідповідності ще бі- льше посилюється короткими запитами, які користувачі застосовують для пошуку у Web: більшість таких запитів містить не більше двох-трьох слів [31], а цього недо- статньо для автоматичного розв’язання неоднозначності. Розширення запиту (QE) спрямо- ване на збільшення набору слів у запиті, і семантичні підходи мають суттєві перева- ги перед ручними та статистичними мето- дами , оскільки вони розширюють кожен пошуковий запит значущими поняттями, які беруться зі структури знань (створеної вручну або автоматично) для представ- лення пошукового запиту. Нехай запит q містить непорожню множину ключових слів:  1i|k,...,kq i1 = , тоді розширення запиту – це перетворення його на набір  im|k,...,kq m1ex = . Залежно від того, з яких джерел здобуваються додаткові терміни та як саме здійснюється це здо- буття, можна поділити методи розширен- ня запитів на несемантичні (ручні або ста- тистичні) та семантичні. В свою чергу, існуючі семантичні підходи поділяють на лінгвістичні, онто- логічні та змішані (гібридні). У лінгвісти- чних підходах значення слів виводяться з лінгвістичних баз знань – словників, теза- урусів тощо, які містять синоніми, гіпоні- ми та інші можливі зв’язки слів між по- няттями, що відповідають словам з пошу- кового запиту, і є термінами розширення. Підходи, що базуються на онтологіях, ви- користовують змістовні відношення між поняттями, що входять до запиту, щоб отримати значущі слова для розширення запиту. Змішаний підхід поєднує особли- вості лінгвістичного та онтологічного під- ходів: терміни розширення запиту можуть бути здобуті з баз знань різних типів. Визначення розширення запиту на основі онтології. Нехай запит q містить непорожню множину ключових слів:  1i|k,...,kq i1 = , таких, що пов’язані з непорожнім набором понять  1j|c,...,cc j1 = онтології О: c)q,O(sem = . Розширення запиту – це перетворення його на набір  im|k,...,kq m1ex = , таке, що це перефо- рмулювання запиту зберігає його семан- тику, тобто c)q,O(sem ex = . Моделі та засоби систем баз даних і знань 44 Таке визначення передбачає існу- вання принаймні одного поняття для кож- ного ключового слова запиту . Крім того, кількість понять може не дорівнювати кі- лькості ключових слів. Розширення запиту не означає розширення понять, передба- чених у запиті (тобто мета запиту залиша- ється незмінною), а саме розширення на- бору ключових слів через включення тер- мінів, більш релевантних вже обраним поняттям, щоб ціль запиту стала більш конкретною та зрозумілою для ІПС. Згідно з наведеним вище визначен- ням, можуть виникати два особливі випа- дки пошукового запиту: 1) всі ключові слова запиту стосуються одного поняття онтології, і тоді розширення запиту здійс- нюється на основі аналізу цього поняття в онтології [33]. ; 2) всі ключові слова запи- ту відповідають різним поняттям, тобто ключові слова можна вважати незалежни- ми одне від одного. Сутність е складається з непорож- ньої множини атомарних сутностей ae : 1n},e,...,e{e n a 1 a = , де кожна атомарна сутність ae відображає певний елемент ін- формації, який не можна розділити на інші сутності в обраному контексті. Тож, інте- рпретація атомарності сутностей залежить від контексту. Наприклад, ім’я людини в одному контексті може розглядатися як атомарна сутність, а в іншому контексті розкладатися на ім’я та прізвище. Документ D з точки зору пошуку – це набір сутностей, 1k},e,...,e{D k1 = . В такому розумінні сам документ не є сутні- стю, але містить набір сутностей. Предме- тна область (ПрО) – це підмножина світу, що характеризується певною множиною знань, яка може описуватися через корпус ПрО 1m},D,...,D{K m1 = . Кожна сут- ність ПрО може міститися в документах більш ніж один раз. Експерти в певній ПрО використо- вують у побудові запитів власні знання і відомі їм терміни, а для запитів в областях за межами сфери їхньої компетенції такі досвідчені користувачі широко використо- вували тезауруси та інші зовнішні джерела знань для знаходження термінів. Знання ПрО впливає на поведінку користувачів та забезпечує більш ефективні стратегії вибо- ру термінів, коротші запити [34] і змен- шення помилок у тактиці пошуку [35]. Але користувачі-початківці частіше використовують лише свої обмежені знання про область пошуку і рідко звер- таються до інших джерел знань, хоча ни- зький рівень їхніх знань потребує більше змін початкового запиту для отримання потрібної інформації. Тому саме вони по- требують автоматизованих засобів уточ- нення та вдосконалення їхніх запитів з ви- користанням знань ПрО, зробивши вста- новлення зв’язків між запитами та документами більш коректним. Багато досліджень показує, що он- тології дозволяють подолати розрив між термінами запиту та документами, викорис- товуючи семантику ПрО. Онтології та теза- уруси, які можуть розглядатися як окремі випадки онтологій зі спрощеною формалі- зацією, можуть використовуватися і для ро- зширення запиту як джерело релевантних термінів, і у обробці його результатів для усунення неоднозначності та обчислення подібності між запитами та документами. Онтологія ПрО може розглядатися як комбінація інтенсіональних і екстенсі- ональних знань. Інтенсіональні знання про домен (TBox) подібні до схеми бази даних та формалізують структуру об’єктів ПрО як набір аксіом, а екстенсіональні знання (ABox) відображають відомості про екзе- мпляри об’єктів. Інтенсіональне знання виражається у TBox. Основна мета розширення запиту полягає в тому, щоб обчислити терміни, які відповідають намірам користувача, але не містяться в його запиті, і додати їх до початкового пошукового запиту. Тра- диційні підходи використовують стати- стичний аналіз вмісту корпусу текстів для знаходження термінів-кандидатів. Тому такі підходи добре працюють тільки тоді, коли доступний великий корпус, а вміст цього корпусу релевантний ПрО пошуко- вого запиту. Семантичні підходи не мають таких обмежень, оскільки вони базуються на незалежних від корпусу зовнішніх дже- релах знань (наприклад, лексичному теза- урусі або онтології ПрО). Моделі та засоби систем баз даних і знань 45 Онтологія містить знання про стру- ктуру понять ПрО, тобто являє собою по- тенційне джерело відомостей щодо семан- тично пов'язаних термінів. Семантичне ро- зширення запиту забезпечує інтерпретацію пошукового запиту, використовуючи інфо- рмацію про структуру понять. Терміни ро- зширення отримують на основі визначення кількісних оцінок семантичної подібності між початковими термінами пошукового запиту та іншими поняттями ПрО: запит доповнюється тими термінами, які най- ближче до термінів у запиті користувача. Структура знань може бути пов’язаною з ПрО (тобто описувати класи- фікацію та структуру об’єктів певної обла- сті) або загальною (наприклад, Cyc і EuroWordNet). Поняття, відношення між поняттями та властивості понять станов- лять словник структури знань, тим самим фіксуючи набір семантично значущих те- рмінів для розширення запитів. Тому ефек- тивність такого розширення значною мі- рою залежить як від якості словникового запасу (його точності, повноти, актуально- го представлення знань), так і пертинент- ності обраної структури знань інформацій- ним потребам користувача та відповідності рівня її узагальненості та складності. Прості таксономічні зв’язки , такі як гіпернімія (гіпернім (hypernym) – “Has- A” – слово з широким значенням, під яке підпадають більш конкретні слова, такі як, “тварина” – це гіпернім слова “собака”) і гіпонімія ( гіпонім (hyponym) – “Is-A” – слово з конкретнішим значенням, ніж більш загальний термін, наприклад, “па- цюк” – це гіпонім до слова “тварина”), дозволяють переходити таксономію вгору і вниз для більш загальних категорій і під- категорій відповідно. Використання таких зв’язків для розширення запитів забезпе- чує отримання більш загальних або більш конкретних понять для термінів пошуко- вого запиту зі структури знань. Однак ви- бір відповідної ієрархічної відстані (на- приклад, два або більше рівнів від вихід- ного поняття) для отримання понять- кандидатів розширення зі структури знань залишається досить складною проблемою. Інший тип підходів до розширення запитів зосереджується на нетаксономічних відношеннях структури знань, таких як си- нонімія, тропонімія, антонімія, відношення “частина-ціле”, семантична роль, залеж- ність, типове розташування, причинно- наслідкові відношення тощо [36], забезпе- чуючи структурне представлення змісту слів. Наприклад, у [37] запропоновано ме- тод структурних семантичних взає- мозв’язків (structural semantic interconnections – SSI), який створює струк- турні специфікації можливих значень для кожного слова в контексті та вибирає най- кращу гіпотезу відповідно до граматики, що описує зв’язки між змістовними специфіка- ціями. Метод може застосовуватися до про- блем семантичного усунення неоднозначно- сті, таких як автоматична побудова онтоло- гії, семантичне розширення запитів та усунення неоднозначності слів у глосарію. Однорівневі відношення, такі як синоніми, антоніми та зв’язки пов’язаних понять, є ефективними для усунення не- однозначності у значеннях термінів запиту та можуть бути легко отримані з лінгвіс- тичних джерел знань та онтологій ПрО (наприклад, словників, тезаурусів або WordNet). Значення слів, що описані в лінгві- стичних базах знань (наприклад, у WordNet), широко використовуються ба- гатьма дослідниками для усунення неод- нозначності початкових термінів пошу- кового запиту [38] : слова, які здобуті зі зв’язків глосарію WordNet, є кращими кандидатами для розширення запитів, ніж слова вищого або нижчого рівня таксо- номії. Кожну категорію можна далі розді- лити на підкатегорії відповідно до ключо- вих характеристик. Лінгвістичні підходи базуються на інформації про властивості природної мови для створення термінів розширення. До них належать морфологі- чні підходи, методи на основі синонімії. Підходи морфологічного розши- рення використовують морфологічні фо- рми слів запиту (наприклад, основу, час- тину мови та форми слова) для створення функцій розширення. Експерименти з ви- користанням корпусів різних мов проде- монстрували, що розширення запитів морфологічними варіантами термінів за- Моделі та засоби систем баз даних і знань 46 питу (автоматично здобутих з докумен- тів) дає задовільну продуктивність пошу- ку [39]. Підходи до розширення з викорис- танням пов’язаних термінів використову- ють синонімію та інші типи семантично пов’язаних слів природної мови для роз- ширення пошукового запиту. Джерелами таких знань є словники та тезауруси. Наприклад, найбільш відома лек- сична база даних WordNet [6] об’єднує функції словника та тезауруса. Вона кла- сифікує слова ПМ на іменники, прикмет- ники, дієслова та прислівники, а також групує слова, які мають однакове значен- ня, в набори, що називаються синсетами. Кожен синсет має семантичні зв’язки з іншими (наприклад, зв’язки гіпонімів і меронімів). Саме синсети надають інфор- мацію для розширення запитів: синсети, найбільш подібні до ключових слів запи- ту, додаються до цього запиту. В онтологічних підходах до розши- рення запитів поняття з онтології дода- ються до початкових запитів. Для цього можуть використовуватися як онтології верхнього рівня (доменно-незалежні), так і онтології окремих ПрО, а також більш специфічні онтології різної виразності – онтології задач, користувачів тощо. Для здобуття понять-кандидатів можуть вико- ристовуватися запити мовою SPARQL. Якщо пошук здійснюється в певній ПрО, то доцільно застосовувати релевантні он- тології. У більш узагальнених випадках використовують доменно-незалежні онто- логії, такі як OpenCyc [40], YAGO [41], DBpedia [42] і UNIpedia [43]. Особливий інтерес становлять онтології, пов’язані із Wiki-технологіями, тому що користувачам легше сприймати їхню структуру та обсяг. Наприклад, у [44] запропонована модель збагачення семантичного запиту з використанням онтологій Wikipedia та Dbpedia для отримання термінів для роз- ширення, що семантично споріднені з ключовими словами запиту. Але викори- стання таких доменно-незалежних онто- логій призводить до двох проблем: 1. загальні онтології містять неоднозначні терміни, що мають різні значення у різних ПрО; 2. такі онтології зазвичай не містять спеціалізовані властивості та специфічні терміни окремих ПрО. Звичайні методи семантичного ро- зширення запитів не використовують контекст пошуку окремого користувача (тобто профіль користувача чи історію пошуку), необхідний для визначення пра- вильного контексту запиту користувача. Але визначення контексту пошуку запиту користувача важливо з двох причин: 1) однакові пошукові запити різних ко- ристувачів можуть мати різні цілі; 2) інформаційні потреби одного користу- вача можуть з часом змінюватися. Таким чином, потрібно персоніфікувати розши- рення запитів та розробити засоби відбо- ру актуального контексту. Окрім профілю користувача та іс- торії його запитів, джерелами для збору персоналізованої інформації можуть бути його профілі та поведінка у соціальних мережах, такі як Twitter, Facebook і Linkedln [45]. Але потрібно враховувати, що здебільшого така інформація є закри- тою та охороняється законами про персо- нальні дані. Мультионтологічний підхід, що полягає у використанні кількох онтологій до розширення запитів, є ефективним ін- струментом для пошуку на перетині кіль- кох ПрО [46]. Але його застосування зна- чно ускладнює необхідність узгодження та вирівнювання таких онтологій. Тож, запити з ключових слів (неза- лежно від того, були ці ключові слова вве- дені самим користувачем, чи отримані за- вдяки різноманітним методам розширення запитів – у тому числі й семантичним) з точки зору ІПС обробляються однаково. Природномовні запити Багато сучасних ІПС забезпечують користувачам можливість формулювати запити природною мовою. Обробка при- родномовних пошукових запитів здебіль- шого стосується перетворення ПМ- конструкцій у структуровані запити з ви- користанням методів морфологічного, лін- гвістичного та семантичного аналізу [47], що знаходяться поза сферою даного дос- лідження. Моделі та засоби систем баз даних і знань 47 Обробка запитів ПМ передбачає такі функції, як видалення стоп-слів, морфологічний пошук (відображення слів запиту у базову форму), розпізнавання частин мови. Багато ІПС, що підтримують ПМ- запити, використовують онтології для уточ- нення та співставлення елементів запиту з поняттями відповідної області [48]. Якщо користувач ставить запитання, тобто вво- дить набір слів, що починаються з прислів- ника (“який”, “коли”, “як” тощо), які потрі- бно інтерпретувати у структурований запит, побудувавши відповідну логічну форму: наприклад, перетворити “хто” на “катего- рія:персоналія”. Якщо є наявні знання щодо ПрО, тоді може бути виконане подальше перетворення, що відповідає специфіці ПрО. Наприклад, перетворити “катего- рія:персоналія” на “категорія:працівник” або “категорія:пацієнт”. Далі логічна форма перетворюється на вираз відповідної ІПМ. Інформаційними ресурсами, які використо- вуються для відповідей на запити, можуть бути зовнішні або внутрішні бази знань та онтології. У найбільш узагальненому вигля- ді обробка ПМ-запитів з використанням он- тологій у пошукових системах наведена на рис.2. ПМ-запит Лінгвістична БЗ Онтологія ПрО Лінгвістична обробка Співставлення з поняттями ПрО Семантичний пошук Результати пошуку Рис.2. Обробка ПМ-запитів з використанням онтологій Приклади ІПС, що обробляють ПМ-запити – SemanticWeb Search Engine (SWSE) [49] та Orakel [50]. Google також використовує підходи на основі ПМ для обробки запитів. Структуровані запити Більш складним варіантом пошуко- вих запитів є структуровані запити, які дозволяють користувачам формально опи- сувати умови до відомостей, які вони хо- чуть знайти. Багато традиційних ІПС підтримують такі прості елементи струк- турування, як кон’юнкція та диз’юнкція ключових слів [51] Для побудови таких запитів використо- вуються спеціальні формальні мови – ін- формаційно-пошукові мови (ІПМ) – спеці- альні формалізовані штучні мови, створені для відображення інформаційної потреби користувача у такій формі, що забезпечує її співставлення з інформацією про наявні ІР. Залежно від методу побудови системи пошуку ІПМ поділяють на класифікаційні та дескрипторні [52] (рис.3). Інформаційно- пошукові мови Класифікаційні ІПМ Дескрипторні ІПМ Фолксонемічні ІПМ Фасетні ІПМ Перелічувальні ІПМ Аналітико- синтетичні ІПМ Предметні ІПМ Онтологічні ІПМ Wiki-орієнтовані ІПМ Рис.3. Класифікація ІПМ Класифікаційні ІПМ порівнюють об’єкти за наборами ознак (які можуть бу- ти пов’язані родо-видовими відношення- ми), щоб віднести кожен об’єкт до певно- го класу. До таких ІПМ належать перелі- чувальні, аналітико-синтетичні та фасетні мови. Перелічувальні ІПМ використовують ієрархічні набори ознак пронумерованих класів. На верхньому рівні такі класифі- кації містять найбільш загальну ознаку. Приклади – десяткова класифікація Дьюї, бібліотечні класифікатори. Фасетні ІПМ містять сукупності фасе- тів («фасетна формула» пошукового запи- ту), які описують комбінації спільних оз- Моделі та засоби систем баз даних і знань 48 нак об’єктів. Приклад – класифікація дво- крапкою Шіалі Рамамріта Ранганатаном. Аналітико-синтетичні ІПМ поділяють об’єкти на класи за незалежними ознака- ми від загальних до більш конкретних. Приклад – Універсальна десяткова кла- сифікація (УДК), де перший фасет є голо- вним, а інші – допоміжні [53] . Дескрипторні ІПМ описують запит та об’єкти за допомогою ключових слів. Ключове слово, що виражає найзагальніше, головне значення, за допомогою якого мо- жна точно описати зміст документу або за- питу, називається дескриптором. Упоряд- ковані в алфавітному порядку дескриптори та їхні синоніми утворюють дескрипторний словник, тоді як більш складні зв’язки між дескрипторами та їхніми значеннями відо- бражає інформаційно-пошуковий тезаурус – структурований словник, що формалізує семантичні відношення (такі як відношен- ня еквівалентності, ієрархічні та асоціатив- ні) між термінами ПМ. Це дозволяє вста- новлювати змістовні зв’язки між тими ключовими словами запиту, що не є де- скрипторами, та власне дескрипторами. Серед ІПМ, що використовуються у веб-орієнтованих системах, виділяють та- кі підкатегорії [54]: - класифікаційні ІПМ: пошук викону- ється на основі певної класифікаційної системи, каталогів або таксономії (на- приклад, пошук на основі категорій у Вікіпедії); - предметні ІПМ: пошук виконується за допомогою ключових слів або певних предметних рубрик (наприклад, сема- нтичний пошук у ресурсах на основі Semantic MediaWiki [55]); - дескрипторні ІПМ: пошук виконуєть- ся за допомогою дескрипторів; - фолксонемічні ІПМ: у пошуку вико- ристовуються різноманітні типи фолк- сономій, що візуалізуються як хмари тегів, глосаріїв та онтологій. У багатьох електронних бібліотеках та інформаційно-аналітичних порталах підт- римуються одночасно кілька видів пошу- кових сервісів, що базуються на різних типах ІПМ. У запитах до структурованих та слабо структурованих ІР можуть застосо- вуватися складніші ІПМ. Основним питан- ням у кожній ІПМ є складність оцінки за- питу і, зокрема, вплив кожного компонента мови на цю складність. Чим більш розга- луженою є структура запиту – тим більша точність і тим кращий результат пошуку. З іншого боку, ускладнення структури запи- ту призводить до двох негативних наслід- ків: ускладнення самого процесу побудови запиту для користувачів та зростання об- сягу метаданих, які потрібно зберігати та обробляти по кожному документу. Структуровані запити передбача- ють використання знань щодо структури об’єктів пошуку. Для того, щоб задавати у запиті певні умови щодо властивостей (як формальних, так і семантичних) цілого документу або його фрагментів, потрібно визначити назви цих елементів, тобто ви- користовувати певну схему метаданих або структуру того об’єкта, інформацію про який потрібно знайти. Існує багато мов запитів для пошуку в RDF, такі як DQL, N3QL, R-DEVICE, RDFQ, RDQ, RDQL, SeRQL і т.д., але най- поширенішою є SPARQL – стандарт W3C, який, на відміну від SQL з неоднозначною граматикою і семантикою, має чітку струк- туру і більшу виразність [55]. Основна час- тина запиту на SPARQL – шаблон, що опи- сує підграф, який потрібно знайти в графі RDF. Цей шаблон представляється у вигля- ді набору трійок з перемінними. На сього- дні SPARQL є однією з найбільш виразних мов обробки даних. Крім мови запитів, стандарт SPARQL регламентує протокол взаємодії з базою даних і формат результа- ту, що є великим кроком вперед порівняно із SQL. Наприклад, для пошуку в онтологі- ях використовують запити мовою SPARQL [56]. Це мова, розроблена для моделі даних RDF. Використання твердження SPARQL як стандартної мови запитів для RDF до- зволяє багатьом сховищам даних стати то- чками доступу SPARQL, у такий спосіб за- безпечуючи гнучкий обмін даними між си- стемами. Ця мова є елементом стеку технологій Semantic Web, що підтримує витяг значень зі структурованих і напів- структурованих даних, дослідження від- ношень між даними та складні об'єднання розрізнених баз даних в одному запиті. Моделі та засоби систем баз даних і знань 49 Поширеним прикладом частково структурованих ІР є різноманітні семанти- чні розширення Wiki-ресурсів, в яких еле- менти контенту явно пов’язуються за до- помогою розмітки з поняттями певної ПрО. Пошук у таких ІР підтримується відповід- ними ІПМ, що враховують засоби та мож- ливості такої семантизації даних. Вираз- ність ІПМ, що використовується у семан- тичних Wiki, значно менша за виразність SPARQL, тому що виразність засобів по- дання знань у Wiki-ресурсах також значно поступається виразності RDF та OWL. KiWi (http://www.kiwi-project.eu/) – це семантичне розширення Wiki- технології з додатковими можливостями здобуття інформації, персоналізації, логі- чного виведення та створення запитів. Ос- новними одиницями інформації в KiWi є елементи контенту (Content Items), що ро- зширюють концепцію Wiki-сторінок і мо- жуть бути вкладеними. Кожен такий еле- мент однозначно ідентифікований своїм URI, може містити фрагменти тексту або мультимедіа, посилання та теги [57] . KWQL – це мова запитів на основі пра- вил, яка поєднує характеристики пошуку за ключовими словами з характеристика- ми веб-запитів для уможлення різноманіт- них запитів у KiWi. Мова дозволяє ство- рювати комбіновані запити щодо тексто- вого вмісту, метаданих, структури документа та формальних семантичних анотацій. Запити KWQL варіюються від елементарних і відносно неспецифічних до вибору складних і повністю визначених метаданих. Для пошуку у Wiki-ресурсах, що семантизовані на основі Semantic MediaWiki, використовується проста, але потужна мова запитів SMW-QL [58]. Мова запитів SMW-QL дозволяє фільтрувати сторінки за заданими критеріями і виводи- ти як результати запиту тільки потрібну інформацію, а не весь текст Wiki-сторінки. Якщо сторінки, з яких отримуються потрі- бні дані, будуть змінюватися, то результа- ти запитів також будуть автоматично оно- влюватися, забезпечуючи несуперечність і погодженість даних. Найчастіше використовуються вбудовані запити, сполучені з функцією ask, яка має три основні параметри: пер- ший параметр задає умови щодо набору категорій та значень семантичних власти- востей сторінок; другий параметр визна- чає, які саме значення семантичних влас- тивостей цих сторінок потрібні користу- вачу, а третій параметр вказує форму подання результатів. Таким чином корис- тувач може отримати не тільки перелік документів, а саме потрібні елементи їх- нього контенту [59]. Тож, на основі аналізу ІПМ, можна виділити наступні типи запитів, що обро- бляються в ІПС: - набори ключових слів (що безпосере- дньо вводяться користувачами чи бу- дуються на основі таких запитів за до- помогою різних методів розширення); - ПМ-запити, в яких значення має та- кож порядок слів та їхня форма (в ІПС такі запити також перетворюються на набори ключових слів, але вибір ПМ та методи перетворення значною мі- рою впливають на результати пошу- ку); - структуровані запити, в яких явно описані логічні відношення (диз’юнкція, кон’юнкція, заперечення тощо) між термінами та умови щодо властивостей. Відповідно ІПС за функціоналом обробки пошукових запитів можна класи- фікувати за наявністю наступних сервісів: - співставлення набору ключових слів (довільних послідовностей символів) з наявними ІР – мінімальний функціо- нал ІПС; - розширення набору ключових слів за допомогою зовнішніх та внутрішніх джерел знань; - перетворення ПМ-запитів на набори ключових слів (видалення роздільни- ків, ключових слів, виправлення ор- фографічних помилок, перетворення слів на нормальну форму); - обробка структурованих запитів, де ключові слова пов’язані логічними ві- дношеннями та обмеженнями; - перетворення ПМ-запитів на структу- ровані запити на основі морфологіч- ного, лінгвістичного та семантичного аналізу. Моделі та засоби систем баз даних і знань 50 Інформаційні ресурси, серед яких здійснюється пошук Інформаційні ресурси, серед яких здійснюється пошук різними ІПС, значно різняться [60]: - моделями подання інформації; - рівнем структурованості контенту; - ступенем розподіленості; - обсягом. Пошук може здійснюватися на окремому носії, на певному сайті або пор- талі, у локальній мережі, у базі знань, у відкритому середовищі Web тощо. Інфор- мація, серед якої здійснюється пошук, може бути однорідною або гетерогенною. Метадані, що характеризують наявну ін- формацію, можуть бути уніфіковані або різнорідні та потребувати інтеграції й уз- годження. Чим більше попередніх умов накладено на структуру та подання відо- мостей в ІР, тим складніші та точніші по- шукові запити можна будувати з викорис- танням цих вимог. Залежно від рівня структурованос- ті, ІР поділяють на: - структуровані; - слабо структуровані; - неструктуровані. ІР можуть розглядатися як неструк- туровані, якщо вони містять певні струк- турні елементи, але ці елементи не можуть бути використані для мети пошуку [55]. Найбільш розповсюдженою мо- деллю збереження структурованих даних з кінця 70-х років 20 ст. є реляційна модель, а стандартом на їхню обробку – мова SQL. Однак для НСД ця модель неефективна. Існує велика кількість ІПС, що спе- ціалізуються на пошуку певних типів ІР зі специфічними метаописами (відео, музи- ка, мапи, книги тощо) або на пошуку у пе- вних ПрО (наприклад, товари в електрон- них магазинах). Крім того, у багатьох ін- формаційно-аналітичних системах використовуються спеціалізовані сервіси, що підтримують пошук різноманітних складних інформаційних об’єктів – подо- рожей, навчальних курсів [61]. Якщо пошук здійснюється в ІР ве- ликого обсягу або таких, що швидко змі- нюються, то це потребує застосування ма- сшатбованих технологій подання даних та відповідних методів пошуку в них. На- приклад, для задачі, що виходять за рамки реляційної моделі, прийнято використову- вати моделі даних класу NoSQL, такі як документо-орієнтовані, об'єктні та графові БД. Такі БД мають певні обмеження на операції, що підтримуються традиційними БД. Наприклад, великі розподілені БД по- вністю відмовляються від транзакцій, що забезпечує підвищення продуктивності за рахунок використання паралелізму. Інший клас задач, які важко розв'язувати на ре- ляційній моделі, – це задачі на сильно зв'я- заних даних (графові задачі). Для них сьо- годні найбільше поширення мають RDF- сховища, які використовують стандарти W3C для мови RDF (Resource Description Framework) і запити SPARQL. Ще однією важливою умовою по- шуку є відкритість даних. Наявність дос- тупу до даних є основою їх повторного використання. Багато вимог щодо підтримки дос- тупності та ефективного пошуку інформа- ції відображено в FAIR [62] – принципах керування даними (а саме – знаходжува- ності, доступності, інтероперабельності та повторного використання) без утручання користувача, що були розроблені для фо- рмування цифрової інфраструктури тран- сферу наукових даних. Згідно FAIR, фун- кції пошуку, здобуття і представлення да- них реалізують не користувачі, а інформаційна система. Водночас мова йде не тільки про власне дані і метадані, а й про алгоритми та інструменти керування ними. Щоб використовувати дані, їх необ- хідно спочатку знайти там, де вони збері- гаються. Метадані та дані повинні бути легко доступними як для людей, так і для комп’ютерів, і тому вимоги FAIR чітко характеризують ті властивості ІР, що ма- ють забезпечити їх знаходження та авто- матизовану обробку метаданих. Значна частка існуючих ІР, що роз- роблялися незалежно до цих принципів, але з урахуванням можливостей пошуку, відповідають вимогам FAIR. Наприклад, наведений в [63] аналіз виразних власти- востей середовища Semantic MediaWiki свідчить про те, що семантичні Wiki- Моделі та засоби систем баз даних і знань 51 ресурси, які будуються в цьому середови- щі, відповідають вимогам до відкритих даних великого обсягу. Результати пошуку Серед типів пошуку виокремлю- ють: - адресний пошук, коли результатом структурованого запиту є посилання (адреси, імена) документів, файлів, вебсайтів тощо; - документальний пошук, коли резуль- тат запиту – це або сам документ, або додаткові метадані про нього; - фактографічний пошук, коли резуль- татом пошуку є певна інформація, здобута з доступних ІР. Залежно від того, як задаються умови пошуку, результати пошуку мо- жуть обмежуватися певною кількістю знайдених об’єктів або певною межею, що визначає рівень релевантності запиту та тих об’єктів, з якими цей запит співс- тавляється. Усі ці типи пошуку можуть бути ре- зультатом обробки як набору ключових слів, так і структурованого запиту, але в першому випадку потрібно окремо вказу- вати, що саме має бути результатом запиту. ІР, серед яких здійснюється пошук, можуть значно різнитися (містити текст, зображення, відео, програмний код, струк- туровані дані тощо) та супроводжуватися різними видами метаданих (що характери- зують документ в цілому або також ї його складові), і саме це є причиною того, що й результати пошуку можуть вказувати на певні документи або знаходити окремі елементи цих документів, що відповіда- ють запиту. Крім того, запити можуть яв- но визначати умови щодо того, яку інфор- мацію потрібно надати користувачу.Тому іноді структурно прості результати пошу- ку можуть бути результатом семантичного пошуку та обробки запитів зі складною структурою. Отже, за конкретизацією результа- ти запитів можна класифікувати наступ- ним чином: - бінарні (“так-ні”) відповіді щодо ная- вності потрібної інформації у наявних ресурсах (наприклад, чи наявні доку- менти, що містять рядок символів “абв” або чи існує сайт “abc.org”); - кількісні (скільки документів містять рядок символів “абв” або скільки разів у поточному документі зустрічається цей рядок); - посилання на документи (URL, імена файлів, вікісторінки тощо), які відпо- відають умовам запиту; - посилання на інформаційні об’єкти (наприклад, класи онтології або еле- менти документів), які відповідають умовам запиту; - обрані відповідно до умов запиту зна- чення властивостей знайдених об’єктів (документів або їхніх елемен- тів), які визначені користувачем; - більш складні результати обробки та- ких знайдених значень властивостей (наприклад, сума отриманих значень або графік). Досить часто підсистеми семантично- го пошуку підтримують усі ці варіанти надання результатів пошуку (наприклад, пошук у семантизованих вікіресурсах), але наявність такої класифікації може значно спростити аналіз придатності конкретного технологічного середовища для задач ко- ристувача Висновки та перспективи Основною метою цього досліджен- ня було визначення тенденцій розвитку сервісів семантичного пошуку, що можуть бути застосовані для підтримки функцію- вання інформаційно-аналітичних порталів, які базуються на вікітехнологіях [64]. Аналіз існуючих підходів до семантизації пошуку та результатів їх застосування до- зволяє виокремити перспективні напрямки впровадження елементів онтологічного аналізу у розробку таких систем. Запропонована тривимірна модель семантичного пошуку пропонується як додатковий інструмент опису та співстав- лення пошукових систем, що використо- вують різноманітні елементи штучного ін- телекту та менеджменту знань для більш ефективного та пертинентного задоволен- ня інформаційних потреб користувачів. Як такі методи виконання співставлення між Моделі та засоби систем баз даних і знань 52 запитами та ІР в цій моделі не аналізують- ся, тому що це співставлення є наступним кроком виконання пошуку. Потрібно за- уважити, що значення параметрів, які ана- лізує ця модель, не є взаємозаперечними, тобто та сама ІПС може підтримувати кі- лька варіантів пошуку. Крім того, засоби подання запитів та ресурсів не завжди є порівнюваними (наприклад, структуровані дані, що описуються різними схемами ме- таданих, можуть бути орієнтовані на різні типи задач та відображати різні аспекти даних, але водночас одна схема не є пов- нішою, але виразнішою за іншу). Так са- мо, різні способи фільтрації та подання результатів мають відповідати різним пот- ребам і не завжди можуть порівнюватися за виразністю (наприклад, можливість ві- зуалізації отриманих значень у вигляді графіка не може бути порівняна з можли- вістю виконання логічних або арифметич- них операцій над цими значеннями). Але наявність самих критеріїв порівняння та розширений набір їхніх параметрів надає більш зручний апарат для вибору відпові- дної ІПС. Отже, така модель дозволяє ви- являти ІПС, для яких перетинаються тріа- ди “запит-ІР-результат” та виконувати їх порівняння саме на цих підкласах пошу- кових задач. Це дозволяє визначати, які алгоритми пошуку виявляються більш пе- ртинентними для конкретних задач корис- тувачів і на основі цього обирати такі сер- віси як джерело інформації для подальшої обробки. Важливою особливістю запропоно- ваної моделі є те, що вона використовує лише ті характеристики ІПС, які можуть бути проаналізовані користувачами (ал- горитми, які використовуються в ІПС для співставлення запитів та ресурсів, доступ- ні тільки розробникам цих систем, а їхні наявні описи – приміром, в наукових пуб- лікаціях або в документації – можуть зна- чно відрізнятися від використаних у пото- чній версії програмної реалізації). References 1. Rogushina, J. (2015) The Web semantic ontology-based search: development of models, tools and methods – Melitopol, 291 p. (in Ukrainian) 2. Bast, H., Buchhold, B, Haussmann, E. (2016) Semantic search on text and knowledge bases. Foundations and Trends in Information Retrieval 10(2-3): 119-271. 3. Mangold, C. (2007) A survey and classi- fication of semantic search approaches. Metadata Semantic Ontologies 2(l):23- 34. 4. Manning, C. (2011) Part-of-speech tag- ging from 97% to 100%: Is it time for some linguistics? Gelbukh AF (Compu- tational Linguistics and Intelligent Text Processing, Springer Berlin Heidelberg, 171-189. 5. Hua, W., Wang, Z., Wang, H, Zheng, K, Zhou, X (2015) Short text understanding through lexical-semantic analysis. In: 2015 IEEE 31st International Confer- ence on Data Engineering, 495-506. 6. Fellbaum, C. (2010). WordNet. In: Theory and applications of ontology: computer applications, 231-243. 7. Pehcevski, J., Vercoustre, A., Thom, J. (2008) Exploiting locality of Wikipedia links in entity ranking. In: Advances in Information Retrieval, Springer Berlin Heidelberg, , 258-269. 8. Kaptein, R., Serdyukov, P., de Vries A., Kamps, J. (2010) Entity ranking using wikipedia as a pivot. In: Proc. of the 19th ACM Conference on Information and Knowledge Management, CIKM 2010, 69-78. 9. Schuhmacher, M., Dietz, L., Ponzetto S (2015) Ranking entities for web queries through text and knowledge. In: Proc. of the 24th ACM International on Confer- ence on Information and Knowledge Management, 1461-1470. 10. Tran, T., Cimiano, P., Rudolph, S., Stu- der, R. (2007) Ontology-based interpre- tation of keywords for semantic search. In: Proc. of the 6th International The Semantic Web and 2Nd Asian Confer- ence on Asian Semantic Web Confer- ence, ISWC’07/ASWC’07, 523-536. 11. Schuhmacher, M., Ponzetto, S.P. (2013) Exploiting dbpedia for web search re- sults clustering. In: Proc. of the 2013 Workshop on Automated Knowledge Base Construction, ACM, DOI 10.1145/2509558. 2509574. 12. Mikolov, T., Chen, K., Corrado, G., Dean, J. (2013) Efficient estimation of Моделі та засоби систем баз даних і знань 53 word representations in vector space. arXiv preprint arXiv:1301.3781. 13. Zou, X. (2020). A survey on application of knowledge graph. In: Journal of Physics: Conference Series Vol. 1487, No. 1, 012-016. 14. Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P. N., Bizer, C. (2015). Dbpedia–a large- scale, multilingual knowledge base extracted from wikipedia. Semantic web, 6(2), 167-195. 15. Vrandečić, D., Krötzsch, M. (2014). Wikidata: a free collaborative knowledgebase. Communications of the ACM, 57(10), 78-85. 16. Horrocks, I., Tessaris, S. (2002) Query- ing the semantic web: A formal ap- proach. In: Horrocks I., Hendler J. (eds) The Semantic Web, ISWC 2002, 177- 191 17. Stojanovic, N., Studer, R., Stojanovic, L. (2003). An approach for the ranking of query results in the semantic web. In: The Semantic Web-ISWC 2003: Second International Semantic Web Conference, . Proc. 2, 500-516. 18. Maedche, A., Motik, B., Stojanovic, L., Studer, R., Volz, R. (2003). An infrastructure for searching, reusing and evolving distributed ontologies. In: Proc. of the 12th international conference on World Wide Web, 439-448). 19. Tonon, A., Demartini, G., Cudrd- Mauroux, P. (2012) Combining inverted indices and structured search for ad-hoc object retrieval. In: Proc. of the 35th In- ternational ACM SIGIR Conference on Research and Development in Infor- mation Retrieval, SIGIR ’12,125-134, DOI 10.1145/2348283 20. Pound, J., Mika, P., Zaragoza, H. (2010). Ad-hoc object retrieval in the web of da- ta. In: Proc. of the 19th international conference on World Wide Web, 771- 780. 21. Rocha, C., Schwabe, D., Aragao, M. P. (2004). A hybrid approach for searching in the semantic web. In Proc. of the 13th international conference on World Wide Web, 374-383). 22. Zhang, L., Yu, Y., Zhou, J., Lin, C., & Yang, Y. (2005). An enhanced model for searching in semantic portals. In Proc. of the 14th international conference on World Wide Web, 453-462). 23. Wang, Q., Mao, Z., Wang, B., Guo, L. (2017) Knowledge graph embedding: A survey of approaches and applications. In: IEEE Transactions on Knowledge and Data Engineering 29(12):2724-2743, 24. Ding, L., Finin, T., Joshi, A., Pan, R., Cost, R. S., Peng, Y., Sachs, J. (2004). Swoogle: a search and metadata engine for the semantic web. In: Proc. of the thirteenth ACM international conference on Information and knowledge management, 652-659. 25. Hogan, A., Harth, A., Umbrich, J., Kin- sella, S., Polleres, A., Decker, S. (2011) Searching and browsing linked data with swse: The semantic web search engine. In: Web Semantics: Science, Services and Agents on the World Wide Web 9(4):365-401. 26. Lei, Y., Uren, V.S., Motta, E. (2006) Sem-search: A search engine for the se- mantic web. In: Managing Knowledge in a World of Networks, 15th International Conference EKAW-2006, 238-245. 27. Oren, E., Delbru, R., Catasta, M., Cy- ganiak, R., Stenzhom, H., Tummarello, G. (2008) Sindice.com: a document- oriented lookup index for open linked data. In: IJMSO 3(1):37-52. 28. d’Aquin, M., Motta, E. (2011) Watson, more than a semantic web search engine. In: Semantic web 2(l):55-63. 29. Cudré-Mauroux, P. (2019). Semantic Search. https://exascale.info/assets/pdf/cudre201 8abigdata.pdf. 30. Raza, M. A., Mokhtar, R., Ahmad, N., Pasha, M., Pasha, U. (2019). A taxono- my and survey of semantic approaches for query expansion. In: IEEE Access, 7, 17823-17833. 31. Gabrilovich, E., Broder, A., Fontoura, M., Joshi, A., Josifovski, V., Riedel, L., Zhang, T. (2009). Classifying search queries using the web as a source of knowledge. In: ACM Transactions on the Web (TWEB), 3(2), 1-28. 32. Wu, J., Ilyas, I., Weddell, G. (2011). A study of ontology-based query expansion. In: Technical report CS- 2011–04. https://cs.uwaterloo.ca/research/tr/2011/ CS-2011-04.pdf. 33. Qiu, Y., & Frei, H. P. (1993). Concept based query expansion. In: Proc. of the 16th annual international ACM SIGIR Моделі та засоби систем баз даних і знань 54 conference on Research and development in information retrieval, 160-169. 34. Duggan, G. B., Payne, S. J. (2008). Knowledge in the head and on the web: Using topic expertise to aid search. In: Proc. of the SIGCHI conference on Human factors in computing systems, 39-48. 35. Wildemuth, B. M. (2004). The effects of domain knowledge on search tactic formulation. In: Journal of the american society for information science and technology, 55(3), 246-258. 36. Loukachevitch, N. V., Dobrov, B. V. (2004). Development of Ontologies with Minimal Set of Conceptual Relations. In: LREC. 37. Navigli, R., Velardi, P. (2004). Learning domain ontologies from document warehouses and dedicated web sites. In: Computational Linguistics, 30(2), 151- 179. 38. Liu, S., Liu, F., Yu, C., Meng, W. (2004). An effective approach to docu- ment retrieval via utilizing WordNet and recognizing phrases. In: Proc. of the 27th annual international ACM SIGIR con- ference on Research and development in information retrieval, 266-272. 39. Moreau, F., Claveau, V., Sébillot, P. (2007). Automatic morphological query expansion using analogy-based machine learning. In: Advances in Information Retrieval: 29th European Conference on IR Research, ECIR 2007, Proc. 29, 222- 233). 40. Best, B. J., Gerhart, N., Lebiere, C. (2010). Extracting the ontological structure of OpenCyc for reuse and portability of cognitive models. In: Proc. of the 17th Conference on Behavioral Representation in Modeling and Simulation. 41. Suchanek, F. M., Kasneci, G., Weikum, G. (2008). Yago: A large ontology from wikipedia and wordnet. In: Journal of Web Semantics, 6(3), 203-217. 42. Lehmann, J., Isele, R., Jakob, M., Jentzsch, A., Kontokostas, D., Mendes, P. N., Bizer, C. (2015). Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia. In: Semantic web, 6(2), 167-195. 43. Kalender, M., Dang, J., Uskudarli, S. (2010). Unipedia: A unified ontological knowledge platform for semantic content tagging and search. In: 2010 IEEE Fourth International Conference on Semantic Computing, 293-298. 44. Aggarwal, N., Buitelaar, P. (2012,). Query Expansion Using Wikipedia and Dbpedia. In: CLEF (Online Working Notes/Labs/Workshop). 45. Zhou, D., Wu, X., Zhao, W., Lawless, S., Liu, J. (2017). Query expansion with enriched user profiles for personalized search utilizing folksonomy data. In: IEEE Transactions on Knowledge and Data Engineering, 29(7), 1536-1548. 46. Ray, S. K., Singh, S., Joshi, B. P. (2009). Exploring multiple ontologies and WordNet framework to expand query for question answering system. In: Proc. of the First International Conference on Intelligent Human Computer Interaction: (IHCI 2009), 296-305). 47. Deutch, D., Frost, N., & Gilad, A. (2017). Provenance for natural language queries. In: Proc. of the VLDB Endowment, 10(5), 577-588. 48. Unni, M., Baskaran, K. (2011). Overview of approaches to semantic web search. In: International Journal of Computer Science and Communication (IJCSC), 2, 345-349. 49. Sudeepthi, G., Anuradha, G., Babu, M. S. P. (2012). A survey on semantic web search engine. In: International Journal of Computer Science Issues (IJCSI), 9(2), 241-245. 50. Cimiano, P., Haase, P., Heizmann, J., Mantel, M., Studer, R. (2008). Towards portable natural language interfaces to knowledge bases– The case of the ORAKEL system. In: Data & Knowledge Engineering, 65(2), 325-354. 51. Croft, W. B., Turtle, H. R., Lewis, D. D. (1991). The use of phrases and structured queries in information retrieval. In: Proc. of the 14th annual international ACM SIGIR conference on Research and development in information retrieval, 32-45. 52. Teletska, A. O., Zagnitko, A. P., Nadutenko, M. V. (2018). Classification of information search languages. History, philosophy, law, 120. (in Ukrainian) 53. Chowdhury G. G. (2010) Information Retrieval, 3rd edition. London: Facet Publishing, 488 р. Моделі та засоби систем баз даних і знань 55 54. Serbin, O. (2008). Representation of information search languages in web- oriented systems. In: Scientific works of the V.I. Vernadskyi National Library of Ukraine, (20), 176-184. (in Ukrainian) 55. Rogushina, J. V. (2019). Means and methods of the unstructured data analysis. In: Problems in programming, (1), 57-77. 56. Pérez, J., Arenas, M., Gutierrez, C. (2009). Semantics and complexity of SPARQL. In: ACM Transactions on Database Systems (TODS), 34(3), 1-45. 57. Weiand, K., Hartl, A., Hausmann, S., Bry, F., Furche, T. (2012). Keyword- Based Search over Semantic Data. Semantic Search over the Web, 159-192. 58. Bao, J., Ding, L., Hendler, J. (2008). Knowledge representation and query in semantic MediaWiki: a formal study. Tetherless World Constellation (RPI) Technical Report. DOI 10.1.1.187.4263. 59. Rogushina, J., Priyma, S., Strokan, O. (2017) Creating and Use of Semantic Wiki Resources: A Study Guide. – Melitopol, 169 p. (in Ukrainian) 60. Rogushina, J., Grishanova, I. (2022) Semantic Information Resources with a Complex Structure: Knowledge Representation, Scaling and Search Problems. In: UkrPROG, CEUR Vol- 3501, 158-171. 61. Pryima, S., Rogushina, J., Strokan, O. (2018). Use of semantic technologies in the process of recognizing the outcomes of non-formal and informal learning. In: CEUR Workshop Proceedings, 226-235 62. The FAIR Guiding Principles for scien- tific data management and stewardship. Available from: https://www.nature.com/articles/sdata20 1618. 63. Rogushina, J., Grishanova, I. (2022). Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata. In: Problems in programming, (4), 26-35. 64. Rogushina, J. (2023). Development of intelligent information analytical webportals based on semantic Wiki technologies: problems and challenges. In: Problems in programming, (3), 66- 80. Одержано: 23.11.2023 Про авторів: Рогушина Юлія Віталіївна, Кандидат фіз.-мат.наук, с.н.с. Інституту програмних систем НАН України, публікації в українських виданнях – 200, публікації в іноземних журналах – 40. Індекс Хірша: Scopus – 5, Google Scholar – 20. ORCIDhttp://orcid.org/0000-0001-7958- 2557. Місце роботи авторів: Інститут програмних систем НАН України, 03181, Київ-187, проспект Академіка Глушкова, 40, e-mail: ladamandraka2010@gmail.com, 066 550 1999.