Classification of means and methods of the Web semantic retrieval

Problems associated with the improve ment of information retrieval for open environment are considered and the need for it’s semantization is grounded. Thecurrent state and prospects of development of semantic search engines that are focused on the Web information resources processing are analysed,...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2018
1. Verfasser:	Rogushina, J.V.
Format:	Artikel
Sprache:	Ukrainisch
Veröffentlicht:	PROBLEMS IN PROGRAMMING 2018
Schlagworte:	semantic search ontology; Semantic Web; personification of retrieval UDC 004,853 004.55
Online Zugang:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/220
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Problems in programming
Завантажити файл:

Institution

Problems in programming

_version_	1865434134663397376
author	Rogushina, J.V.
author_facet	Rogushina, J.V.
author_institution_txt_mv	[ { "author": "J.V. Rogushina", "institution": "Institute of Software Systems NAS of Ukraine" } ]
author_sort	Rogushina, J.V.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2024-04-28T11:56:41Z
description	Problems associated with the improve ment of information retrieval for open environment are considered and the need for it’s semantization is grounded. Thecurrent state and prospects of development of semantic search engines that are focused on the Web information resources processing are analysed, the criteria for the classification of such systems are reviewed. In this analysis the significant attention is paid to the semantic search use of ontologies that contain knowledge about the subject area and the search users. The sources of ontological knowledge and methods of their processing for the improvement of the search procedures are considered. Examples of semantic search systems that use structured query languages (eg, SPARQL), lists of keywords and queries in natural language are proposed. Such criteria for the classification of semantic search engines like architecture, coupling, transparency, user context, modification requests, ontology structure, etc. are considered. Different ways of support of semantic and otology based modification of user queries that improve the completeness and accuracy of the search are analyzed. On base of analysis of the properties of existing semantic search engines in terms of these criteria, the areas for further improvement of these systems are selected: the development of metasearch systems, semantic modification of user requests, the determination of an user-acceptable transparency level of the search procedures, flexibility of domain knowledge management tools, increasing productivity and scalability.In addition, the development of means of semantic Web search needs in use of some external knowledge base which contains knowledge about the domain of user information needs, and in providing the users with the ability to independent selection of knowledge that is used in the search process. There is necessary to take into account the history of user interaction with the retrieval system and the search context for personalization of the query results and their ordering in accordance with the user information needs. All these aspects were taken into account in the design and implementation of semantic search engine "MAIPS" that is based on an ontological model of users and resources cooperation into the Web.Problems in programming 2017; 1: 30-50
doi_str_mv	10.15407/pp2017.01.030
first_indexed	2025-07-17T09:49:32Z
format	Article
fulltext	Моделі та засоби систем баз даних і знань © Ю.В. Рогушина, 2017 30 ISSN 1727-4907. Проблеми програмування. 2017. № 1 УДК 004.853, 004.55 Ю.В. Рогушина КЛАСИФІКАЦІЯ ЗАСОБІВ ТА МЕТОДІВ СЕМАНТИЧНОГО ПОШУКУ В WEB Розглянуто проблеми, пов’язані з удосконаленням пошуку інформації у відкритому середовищі, обґрунтована потреба в його семантизації. Проаналізовано сучасний стан та перспективи розвитку систем семантичного пошуку, орієнтованих на обробку інформаційних ресурсів Web, розглянуто кри- терії класифікації таких систем. В цьому аналізі значна увага приділяється використанню у семантич- ному пошуку онтологій, що містять знання щодо предметної області пошуку та користувача, для якого виконується пошук. На основі аналізу властивостей існуючих систем семантичного пошуку з точки зору цих критеріїв виді- лені області подальшого вдосконалення цих систем, запропоновано їх реалізацію у системі семантич- ного пошуку “МАІПС”. Ключові слова: семантичний пошук, онтологія, Semantic Web, персоніфікація пошуку. Вступ Сьогодні Web забезпечує доступ до значної частки інформаційних ресурсів людства. Обсяг такої інформації постійно збільшується, а її структура стає все скла- днішою та більш гетерогенною. Пошук у Web – це ключова техно- логія, тому що використання інформацій- но-пошукових систем (ІПС) є основним способом отримати доступ до вмісту його ресурсів і забезпечити їх ефективне вико- ристання. Це зумовлює потребу в розвитку засобів інформаційного пошуку, що вра- ховують специфіку відкритого інформа- ційного середовища та здатні забезпечити специфічні інформаційні потреби окремих користувачів, позбавивши їх від рутинного аналізу тих інформаційних ресурсів (ІР), які не стосуються їх поточних інтересів. Традиційно інформаційні потреби (ІП) користувачів формалізуються за до- помогою пошукового запиту (ПЗ), на ос- нові якого будується пошуковий образ за- питу (ПОЗ). Такий ПОЗ співставляється з пошуковими образами документів (ПОД), доступ до контенту яких має система, що здійснює інформаційний пошук. Першими ПОД були дані бібліотечних, що містили назви книг та імена їх авторів. Класичними моделями інформаційного пошуку вважа- ють булеві, імовірнісні, векторні та де- скрипторні моделі, на основі яких викону- ється співставлення ПОД та ПОЗ. Яку саме інформацію про документи відображають ПОЗ та ПОД і як саме вони співставляють- ся, залежить від конкретної реалізації по- шукової системи. Зазвичай пошуковий запит склада- ється лише з кількох слів, але нині цього стає недостатньо, тому що кожному тако- му запиту релевантна надто велика кіль- кість ІР, і виникає потреба в застосуванні додаткової інформації щодо інформаційної потреби користувача як для самого пошу- ку, так і для ранжування його результатів. Інформаційні потреби залежать від персональних властивостей користувача, тобто за тим самим запитом різні користу- вачі прагнули б отримати різну інформа- цію (приміром, запит “прогноз погоди” є релевантним різноманітним синоптичним сайтам, але у більшості випадків користу- вача цікавить погода у тому місті, де він знаходиться). Можна ідентифікувати певні ІП як одноразові (у більшості випадків – довідкова інформація або однозначно іде- нтифікований інформаційний об’єкт) або постійні (приміром, пов’язані з професій- ною діяльністю або хобі, коли користувач зацікавлений у постійному отриманні но- вих відомостей з певної тематики), але бі- льшість з них мають певну скінчену дов- жину у часі і перестають бути актуальни- ми через певний час – користувач знахо- дить відомості, що йому потрібні, або змушений діяти без цих відомостей. Крім того, ІП безпосередньо пов’язані з тією поточною задачею, яку вирішує користу- вач, тобто пертинентність відповіді може Моделі та засоби систем баз даних і знань 31 залежати від часу доби, дня тижня та ін- ших додаткових ознак (приміром, у робочі дні та у вихідні або свята користувача ці- кавлять різні проблеми). Такі відомості щодо своїх ІП може безпосередньо вводи- ти сам користувач, але це потребує багато зусиль та часу. Таким чином, виникає пи- тання щодо того, яку саме інформацію до- цільно враховувати в інформаційному по- шуку, звідки її отримувати та як саме фор- малізовувати. Основна тенденція розвитку сема- нтичних пошукових засобів, які викорис- товуються в найрізноманітніших сферах, пов’язана з переходом від виявлення до- кументів, що містять певні ключові слова, до пошуку знань, необхідних для вико- нання поставленого перед користувачем завдання. Використання пошуку в Web, який в основному базується на комбінації пошуку тексту за ключовими словами з обчисленням ранжування важливості до- кументів у залежності від структури по- силань у мережі, має багато обмежень, і тому існує велика кількість науково- дослідних проектів, спрямованих у бік більш інтелектуальних форм отримання інформації, тобто семантичного пошуку [1, 2], під яким надалі будемо розуміти такий пошук інформації, що задовольняє ІП користувача в процесі розв’язання пе- вної проблеми, в процесі якого застосо- вуються (наочно або приховано від кори- стувача) знання щодо різних суб’єктів і об’єктів пошукової процедури й методи аналізу цих знань [3]. Ці знання можуть стосуватися як користувача та його інфо- рмаційних потреб (персоніфікація пошу- ку), так і ІР, серед яких здійснюється по- шукова процедура. Такий пошук, як правило, також ставить ціль забезпечити виконання більш складних пошукових запитів, оцінки яких потребують міркувань через Web. Інше поширене використання поняття семанти- чного пошуку в Web є пошук у великих наборах даних у Semantic Web, який у майбутньому замінить нинішній Web. Це використання тісно пов’язане з першим, тому що семантичне анотування Web- ресурсів та здобуття знань з Web- ресурсів, пов’язані з побудовою бази знань, яка може бути реалізована з вико- ристанням технології Semantic Web. Та- ким чином, семантичний пошук у Web можна аналізувати як розвиток існуючих пошукових засобів на основі нових сема- нтичних технологій, орієнтованих на Web-застосування. Ще один напрямок досліджень, ті- сно пов’язаний з семантичним пошуком, – це пошук у Web, де ІП формулюються як природномовні вирази. Існує багато під- ходів до перетворення таких запитів у фо- рмалізовані структуровані запити, які мо- жуть виконуватися в різноманітних сис- темах семантичного пошуку. Відповідями на ці запити можуть бути як звичайні Web-ресурси, так і структурована або природномовна інформація (приміром, фрагменти природномовних ІР або струк- турована інформація з Вікіпедії). Часто поняття семантичного пошу- ку пов’язують також з деякими іншими семантичними концепціями. Наприклад, фасетний пошуку дозволяє вивчати ре- зультати відповідно з колекцією поперед- ньо визначених категорій – фасет. У тіс- ному зв’язку з семантичним пошуком знаходиться й кластерний пошук, де такі фасети можуть бути не тільки заздалегідь визначеними. Ще одним прикладом є на- дання рекомендацій щодо пов'язаних по- шукових запитів, таких як продовження і корекції пошукових запитів, які добре ві- домі також у не семантичних ІПС. Також до проблеми семантичного пошуку стосу- ється визначення ступеню повнотекстової подоби, де як запит використовуються не окремі ключові слова, а блоки тексту, по- чинаючи від окремих фрази і до цілого документу. Досить близькою задачею є онтологічний пошук подібності (напри- клад, [4]), що базується на подобі між он- тологічними сутностями. Постановка задачі Ефективне застосування інформа- ційних технологій, орієнтованих на роботу з інформаційними ресурсами відкритого середовища Web, потребує аналізу вимог до засобів пошуку інформації та розробки критеріїв їх класифікації та оцінки. Це до- зволить користувачам обирати такі систе- Моделі та засоби систем баз даних і знань 32 ми семантичного пошуку, що більш ефек- тивно задовольняють їх специфічні інфор- маційні потреби та вирішують різні типи проблем. Специфіка пошуку в Web Пошукові механізми, орієнтовані на пошук у Web, мають враховувати специ- фіку цього середовища:  Web є розподіленим. Однією з рушійних чинників поширення в Web є відсутність централізації. Однак, оскільки Web є продуктом діяльності багатьох лю- дей, відсутність централізованого контро- лю створює багато проблем для дослі- дження цієї інформації. По-перше, різні спільноти використовують різні словники, що призводить до проблем синонімії (коли два різних слова мають однакове значен- ня) і багатозначності (коли те ж слово ви- користовується в різних значеннях). По- друге, відсутність редагування або контро- лю якості означає, що надійність кожної сторінки потрібно перевіряти. Інтелектуа- льний Web-агент не може припускати, що вся інформація, яку він збирає, є корект- ною та не суперечною. Через те, що не може бути жодних глобальних обмежень цілісності Web, інформація з різних дже- рел може конфліктувати. Деякі з цих кон- фліктів можуть бути викликані тим, що різні спільноти – політичні, національні, релігійні, професійні тощо – можуть мати фундаментальні розходження в думках з певних питань.  Web є динамічним. Web зміню- ється в неймовірно швидкому темпі, наба- гато швидше, ніж користувач або навіть спеціалізований програмний агент можуть відслідковувати усі зміни. Додаються нові сторінки, а зміст існуючих сторінок змі- нюється. Деякі сторінки досить статичні або міняються на регулярній основі, а інші змінюють контент з непередбачуваними інтервалами. Крім того, значущість таких змін може бути різною: від корекції орфо- графічних та пунктуаційних помилок, що практично не впливає на зміст документа, до таких, які можуть повністю змінити зміст документа або видалити великі обся- ги інформації. Тому потрібно враховувати, що будь-яка знайдена в Web інформація може бути застарілою. Динамічність інфо- рмації у Web створює додаткову проблему для формалізації її семантики.  Web має великий обсяг і постій- но збільшується. Для масштабування за розміром постійно зростаючої мережі ви- никає необхідність в обмеженні виразності мови запитів або використанні спрощених алгоритмів виведення.  Web – це відкрите середовище. Жоден Web-агент не може вважати, що він зібрав всі доступні знання (навіть найбі- льші ІПС індексують близько 25 % наяв- них сторінок). Запити до Web-ресурсів можна по- ділити НА наступних класи відповідно до намірів користувачів [5]: навігаційні – по- бачити певний сайт; інформаційні – отримати певну інформацію; транзакцій- ні – виконати якісь дії у Web. В роботі [6] проаналізовано різні визначення пошуку в Web, в яких ІПС, що орієновані на обро- бку ресурсів Web, розглядаються як комп’ютерні програми, що призначені для пошуку даних у мережі, та розглянуто ІПС різних поколінь. ІПС першого поко- ління (AltaVista, Excite, Webcrawler тощо) знаходило інформацію, що містилася без- посередньо на Web-сторінках, а ранжу- вання результатів враховувало тільки контент знайдених сторінок. ІПС другого покоління для визначення релевантності ІР використовують відомості про струк- туру самої мережі Web, аналізуючи поси- лання на відповідну сторінку й дані, що передаються за http-запитом, а також ін- декс популярності й репутацію ІР. Впер- ше аналіз посилань між сторінками як один з основних факторів ранжування був використаний у Google (механізм PageRank), що й стало визначальним чин- ником популярності цієї ІПС. Для ІПС третього покоління характерна інтегра- ція відомостей, здобутих з різних джерел, на основі семантичного аналізу, що дає змогу враховувати в процесі пошуку та фільтрації як персональні інформаційні потреби користувачів, так і знання щодо ПрО пошуку [7]. Прикладами таких ІПС є Hakia, Google Squared, SenseBot та Wolfram Alpha. Ці ІПС спеціалізуються на пошуку в середовищі семантично струк- Моделі та засоби систем баз даних і знань 33 турованої інформації та її метаописах у форматах OWL і RDF. З розвитком інфра- структури Semantic Web семантичні мета- дані стають більш доступними. Розробка стандартів семантичної розмітки, мов опису ІР (RDF), онтологічних мов, серві- сів, онтологічних баз, систем пошуку в семантичних даних (Swoogle, SWSE, WatsOn), точок SPARQL-доступу, систем логічного виведення, обробки правил то- що сприяє подальшому розвитку сфери інформаційного пошуку в напрямі вико- ристання семантики [8]. Семантизація пошукових систем Різні підходи до пошуку інформа- ції у Web, включаючи частково структу- ровані бази даних, машинне навчання та обробку природної мови, застосовувалися до проблеми аналізу та розуміння Web- сторінок у форматі HTML та XML. Проте відсутність семантики в цих засобах представлення інформації і в інструмен- тах їх обробки значно обмежували якість методів. Тому виникає потреба у предста- вленні знань, що пов’язані з тематикою пошуку. Для того, щоб забезпечити значення для даних, знання мають бути представле- ні в певній формалізованій формі. На про- блемі подання знань спеціалізується така галузь, як штучний інтелект. Ціллю по- дання знань є надання структур, які дозво- ляють ефективно зберігати інформацію, модифікувати її, здійснювати над нею ло- гічне виведення. В процесі досліджень у цій сфері розвивалися численні мови по- дання знання з різними властивостями (від ранніх мов, таких як KL-ONE [9] і KRL [10] до сучасних мов опису онтологій OWL [11]. Для подання знань можна викорис- товувати семантичні мережі, які предста- вляють знання у вигляді набору вузлів, поєднаних поміченими зв’язками та фрейми. Розширені семантичні мережі та фреймові системи, як правило, включають у себе поняття абстракції, яка представле- на за допомогою відношень is-а та instance-of. Відношення is-а вказує, що один клас є підкласом іншого, а відно- шення instance-of вказує, що поняття є членом класу. Ці відношення мають зв’язки з теорією множин: is-а – як від- ношення підмножини, instance-of – як ві- дношення екземпляра множини. Множина відношень is-а визначає частковий поря- док на класах, який часто називають так- сономією або ієрархічною класифікацією. Таксономія може бути використана для узагальнення поняття до більш абстракт- ного класу або спеціалізації класу для своїх більш специфічних понять. Таксо- номії допомагають користувачам у пошу- ку необхідної інформації в Web (примі- ром, як це робиться в Yahoo і Open Directory). Багато дослідників надають пере- вагу онтологіям для подання знань для інформаційного пошуку [12]. Якщо сис- тема представлення знань визначає, як представляти поняття, то онтологія ви- значає, які саме поняття визначені в такій системі й як саме вони взаємопов’язані. Такі формалізовані визначення дозволя- ють автоматизувати набагато глибші мір- кування, але такі визначення набагато ва- жче побудувати. Безпосередньо пов’язано з предста- влення знань у Web використання Resource Description Framework (RDF). Модель да- них RDF [13] – це семантична мережа без успадкування: воно складається з вузлів, які пов’язані поміченими дугами, де вузли представляють собою Web-ресурсів, а дуги – атрибути цих ресурсів. RDF може бути вбудований у довільні Web-документів з використанням XML-синтаксису. Щоб забезпечити створення конт- рольованих, сумісно доступних, розши- рюваних словників (наприклад, онтоло- гій), створено специфікацію RDF Schema, яка визначає ряд властивостей зі специфі- чною семантикою. RDF Schema визначає властивості, які еквівалентні instance-of та is-a, які часто використовуються в подан- ні знань, а також засоби для опису влас- тивостей, домену властивостей і діапазо- ну тощо. Хоча RDF є поліпшенням у порів- нянні HTML і XML, цього недостатньо для відображення семантики, тому що він за- безпечує дуже невеликий набір семантич- них примітивів і має відносно слабкі меха- Моделі та засоби систем баз даних і знань 34 нізми керування еволюцією схеми. Тому виникає потреба в мовах опису онтологій, таких як OWL. Семантичний пошук – це метод ін- формаційного пошуку, в якому релевант- ність документа запиту визначається се- мантично (за близькістю змісту), а не синтаксично (приміром, за частотою ви- користання ключових слів у документі) [14]. Його можна розглядати як надбудову над традиційним інформаційним пошу- ком, необхідну для підвищення пертинен- тності пошуку. Під пертинентністю по- шуку будемо розуміти те, наскільки знай- дена інформація задовольняє ІП користу- вача (на відміну від релевантності, яка визначає відповідність результатів пошу- ку наданому користувачем запиту). Система семантичного пошуку (ССП) – це програмне забезпечення, що виконує семантичний пошук або незале- жно, або як семантична надбудова над іншими ІПС. При цьому взаємодія ССП з іншим програмним забезпеченням і база- ми знань є наочною або прихованою від кінцевого користувача. Результатом робо- ти ССП може бути як здобуття інформа- ції, яка приховано наявна в певному ІР (як текстовому, так і мультимедійному), так і надання користувачеві відомостей про наявні ІР у певному порядку та певній формі, що відповідають персональним потребам саме цього користувача [15]. Для семантичного пошуку у відк- ритому середовищі характерним є те, що потрібні для пошуку знання також дина- мічно здобуваються з цього відкритого середовища, а не закладаються у систему в процесі її створення. Сучасні підходи до семантичного пошуку У семантичному пошуку в Web ви- діляють: 1) підходи, що базуються на струк- турованих мовах запитів [16–22]; 2) підходи, орієнтовані на неквалі- фікованих користувачів, які не потребують знайомства зі спеціалізованими мовами запитів. У свою чергу, у другій групі можна виділити: підходи, де запити складаються із списків ключових слів [23–24]; підходи, де користувачі висловлюють запити при- родною мовою [25–29]. Більш детальний аналіз систем семантичного пошуку, кла- сифікованих за цими параметрами, наве- дено в [30]. Розглянемо кілька прикладів цих підходів. Одна з перших спроб створення се- мантичних запитів у Web – SHOE [31] – базується на структурованих мовах, та на- дає користувачеві: 1) інструмент для анотування Web- сторінок, що дозволяє користувачам дода- вати розмітку сторінки SHOE, обравши онтології, класи та властивості з списку; 2) Web-краулер, який шукає Web- сторінки з розміткою SHOE і зберігає ін- формацію щодо них в індексній базі знань; 3) машину виведення, яка забезпе- чує розмітку нових сторінок за допомогою правил виведення (в основному, правил логіки Хорна); 4) інструменти для запитів, які до- зволяють користувачам задавати структу- ровані запити з використанням онтології. Один з інструментів запитів дозво- ляє користувачам будувати граф, на яко- му вузли представляють постійні або змінні екземпляри, а дуги – відношення між ними. Щоб відповісти на запит, сис- тема знаходить підграфи, що відповідні до графа користувача. Пошуковий ін- струмент SHOE дозволяє користувачеві задавати запити, вибравши спочатку он- тологію із списку, потім обрати класи та властивості з іншого списку. Після цього система будує запит, що з’єднує обрані елементи, здійснює цей запит до БЗ, і представляє результати його виконання у вигляді таблиці. Більшість інших підходів цієї групи базуються на RDF. Наприклад, ІПС Swoogle [32] використовує краулер для ви- явлення, індексації та запитування доку- ментів у форматі RDF. Swoogle в основно- му забезпечує пошук документів та термі- нів Semantic Web (тобто, URI, класів і вла- стивостей). Це дозволяє користувачам бу- дувати запити, що містять умови щодо ме- Моделі та засоби систем баз даних і знань 35 таданих на рівні документа (тобто, запити обробляють документи, що мають RDF як розширення файлу), а також дозволяє ко- ристувачам шукати документи Semantic Web, використовуючи RDF / XML як мову синтаксису. Знайдені документи ранжу- ються відповідно до алгоритму впорядку- вання, який враховує важливість докумен- тів у Semantic Web. Система Corese [33] – це орієнтова- на на Semantic Web ІПС на онтологічній основі, яка знаходить Web-ресурси, що анотовані в RDF(S), за допомогою мови запитів, що базується теж на RDF(S). Corese дозволяє виконувати приблизний пошук у Semantic Web. Для приблизного пошуку використовуються правила виве- дення і обчислення семантичної відстані між класами та властивостями в онтологі- чних ієрархіях. За допомогою цього апара- ту Corese знаходить Web-ресурси, анотації яких є уточненням (спеціалізацією) запиту, а також ресурси, анотації яких відносяться до понять і відношень, які ієрархічно до- сить близькі до запиту. Інший підхід до пошуку за струк- турованими запитами наведено в [34]. Метою цього підходу є апроксимація за- питів до наборів даних RDF за допомогою SPARQL [35]. Для цього запит SPARQL кодується як набір трійок обмежень зі змінними, а приблизна відповідь – це за- міна змінних з даними, які можуть не за- довольняти всім обмеженням. Запропоно- вана стратегія поступово покращує досто- вірність відповідей й спиняється, коли отриманий результат задовольняє корис- тувача. Подальший розвиток підходів на основі структурованих мов розглядається далі. ONTOSEARCH2 [36] надає механізм для пошуку онтологій у Semantic Web. Він зберігає копії онтологій у легкій для обробки дескриптивній логіці і дозволяє виконувати запити SPARQL як до струк- тури, так і до екземплярів онтології. Система Coraal [37] – це ІПС на ос- нові знань, що спеціалізується у пошуку літератури з біомедицини, яка використо- вує евристики на обробки природної мови. Це дозволяє аналізувати тексти і будувати з них трійки RDF, які інтегруються з ная- вними знаннями щодо ПрО пошуку, і ко- ристувач може надавати запити до всієї зібраної інформації за допомогою відпові- дної мови запитів. NAGA – це семантична ІПС [38], яка пропонує мову запитів на основі гра- фів для пошуку в базі знань (БЗ), яка та- кож представлена у вигляді графу. БЗ створюється автоматично за допомогою інструменту для здобуття знань з Web- джерел на основі підходу, запропоновано- го в [39]. Вузли та ребра в графі знань представляють сутності й відношення між об’єктами, відповідно. Мова запитів NAGA розширює SPARQL таким чином, що дозволяє будувати складні запити у вигляді графів з регулярними виразами відносно відношень на мітках дуг. Відпо- відями на запит є підграфи графа знань, які відповідають графу запиту і впорядко- вуються за допомогою моделі зважених помічених графів. Семантичний пошук за ключовими словами Розглянемо кілька прикладів підхо- дів до семантичного пошуку на основі ключових слів. ССП OntoSelect [40] фоку- сується на питаннях, пов’язаних з пошу- ком онтологій. Ця система дозволяє корис- тувачам шукати онтологію, вказавши її назву або тему, яка цікавить користувача. Щоб описати область своєї зацікавленості, користувач може вказати URL Web- документа, який містить інформацію щодо цієї теми. Потім за допомогою лінгвістич- них та статистичних методів автоматично будується набір ключових слів, які вико- ристовуються для пошуку. В роботі [41] описано підхід, який фокусується на покращенні результатів традиційного пошуку за ключовими сло- вами за допомогою даних, отриманих від Semantic Web. Коли користувач надає за- пит, то терміни цього запиту (ключові сло- ва) відображаються у вузли Semantic Web. У випадку неоднозначного співставлення використовуються евристики (наприклад, з урахуванням профілю користувача) для зняття неоднозначності. Після того, як знайдені вузли, що відповідають пошуко- вим термінам, використовує евристики для Моделі та засоби систем баз даних і знань 36 того, щоб визначити, яка саме частина графу Semantic Web навколо цих вузлів має бути надана користувачеві як резуль- тат пошуку (тобто, яким є поріг N для на- дання перших N трійок). Пізніші підходи до семантичного пошуку за ключовими словами в основ- ному орієнтовані на некваліфікованих ко- ристувачів. ССП SemSearch [42] забезпе- чує подібний до Google інтерфейс запитів, що не потребує від користувачів мати знання щодо онтологій або мов. Запити користувачів складаються з двох або бі- льше ключових слів, семантичне значення яких враховується для переформулювання запиту відповідно до синтаксису форма- льної мови запитів. Ключовим словам присвоюються семантичні значення шля- хом співставлення їх з набором класів, властивостей і екземплярів у репозиторії семантичних даних. Кожному ключовому слову може відповідати клас, властивість або екземпляр. Розглядаються різні ком- бінації семантичних співставлень ключо- вих слів. Наприклад, кожному ключовому слову може відповідати клас, або першо- му ключовому слову відповідає клас, а другому – властивість і так далі. Всі ком- бінації співставлень враховуються в про- цесі переформулювання запиту, а за кож- ною комбінацією створюється вдоскона- лений формальний запит, який отриму- ється із заздалегідь визначеного набору шаблонів запитів. Після переформулю- вання формальні запити точно оцінюють- ся, і це забезпечує результати, які семан- тично пов’язані з усіма ключовими сло- вами із запиту користувача. У роботі [43], аналогічно до розгля- нутого вище підходу, запити за ключовими словами трансформуються в кон’юнктивні запити, які мають бути оцінені проти від- носно базової БЗ. Але структура таких фо- рмальних запитів, які оцінюються, не від- повідає якимось попередньо визначеним шаблонам. Формальні запити будуються шляхом використання техніки на основі графів, щоб знайти зв’язки між сутностями в запиті користувача. Трансформація запи- ту складається з трьох кроків:  ключові слова запиту співстав- ляються з елементами онтології;  аналізуються відношення між цими елементами онтології, і на основі цього будуються підграфи БЗ, кожен з яких являє собою набір співвідношень, що пов’язують всі розглянуті елементи, а множина цих підграфів представляє всі можливі відношення між ключовими сло- вами запиту користувача, які не можуть бути явно задані цим користувачем, тобто ці підграфи відповідають різним запитам, що можуть зацікавити користувача;  ці підграфи трансформуються відповідно до правил мови подання запи- тів та генеруються формальні запити, які співставляються із вмістом БЗ. Falcons [22] відноситься до ІПС на основі ключових слів для Semantic Web. Ця система підтримує пошук концептів та об'єктів. Пошук концептів здійснюється шляхом пошуку класів і властивостей в онтології, обраній користувачем, які від- повідають умовам запиту. Крім того, інші онтології можуть бути рекомендовані ко- ристувачу на основі комбінації методу TF- IDF і рейтингу популярності онтологій. Пошук об’єкта виконується аналогічним чином: крім пошуку об’єктів, які відпові- дають умовам запиту, система також ре- комендує інші типи об’єктів, які, ймовірно, теж зацікавлять користувача. SWSE [23] і Sig.Ma [44] – це інстру- менти, що дозволяють користувачам зна- ходити об’єкти RDF за ключовими слова- ми. Зокрема, результат пошуку за ключо- вим словом в SWSE – це список об’єктів, що співставлені з цим ключовим словом з невеликим описом і ім’ям концепту, при- міром, “Person”, “Professor”. Якщо корис- тувач натискає на "Person", то результати фільтруються і користувачу показують тільки список об’єктів класу "Person". Ін- формація про об’єкт інтегрується з кількох джерел і представлена в однорідному ви- гляді. Ядром SWSE є розподілена архітек- тура YARS2 [45] для індексації та пошуку наборів даних RDF. YARS2 збирає фраг- менти інформації і агрегує їх або за раху- нок використання URI об’єктів (у тому ви- падку, якщо унікальний ідентифікатор ви- користовується в різних джерелах), або шляхом використання інших методів кон- Моделі та засоби систем баз даних і знань 37 солідації об’єкта. Крім того, SWSE дозво- ляє досвідченим користувачам будувати складні запити у SPARQL. Подібно до SWSE, Sig.Ma об’єднує результати з кількох джерел, забезпечуючи користувачеві, крім самих ресурсів, узага- льнений погляд на інформації. Фаза зняття неоднозначності аналогічна SWSE, але в цьому випадку дії користувача використо- вуються для усунення нерелевантних дже- рел. Sig.Ma також дозволяє користувачам вказувати список не тільки об’єктів, але й інших властивостей. Ключові слова корис- тувача переводяться в набір запитань, де- які з них звертаються до Yahoo Boss [46] для отримання Web-сторінок, водночас як інші звертаються до індексу даних Semantic Web Sindice [47], щоб зібрати об’єкти і властивості RDF. Нарешті, вся отримана інформація інтегрується, вико- ристовуючи деякі евристики, що базують- ся на використанні URI і методів консолі- дації міток. Новий підхід, спрямований на до- помогу користувачеві в побудові семан- тичних запитів за запитами з ключових слів, представлено в системі QUICK [48]. Семантичний запит – це запит, який вра- ховує онтологію відповідної ПрО. Коли користувач формулює запит з ключового слова, QUICK починає роботу з того, пе- ретворює його в кілька семантичних за- питів, кожен з яких отримується шляхом присвоєння якогось онтологічного понят- тя (властивість, об’єкт тощо з обраної он- тології) для кожного з ключових слів. По- тім користувач має обрати серед семанти- чних запитів, згенерованих системою, найбільш відповідний його інтересам. Якщо жоден семантичної запит, згенеро- ваний QUICK, не подобається користува- чеві, то користувач самостійно може вес- ти систему до генерації відповідного за- питу, забезпечуючи додаткові характери- стики (наприклад, вказуючи, що певне ключове слово має бути використане як властивість або як об’єкт). Серед ІПС на основі ключових слів для Semantic Web важливо відмітити YahooSearch-Monkey [49], яка ставить ціллю поліпшення якості результатів по- шуку ІПС Yahoo! Вона дозволяє власни- кам сторінки вказувати, яку інформацію по Web-сторінці вони хочуть запропону- вати для відображення на сторінці резуль- татів пошуку Yahoo! Видавці можуть на- дати ці характеристики у вигляді мікро- форматів або метаданих RDF, які будуть автоматично отримані в процесі скану- вання сторінок і нададуть ІПС велику кі- лькість інформації. Семантичний пошук за природномовними запитами Багато ССП виконують пошук на основі обробки природної мови. Примі- ром, у системі ORAKEL [27] запити споча- тку переводяться в логічну форму, а потім переформулюються відповідно до цільової мови, тобто тієї мови, на якій базується БЗ. Переклад з логічної форми на цільову мо- вою описується декларативно за допомо- гою Prolog-програми. Загальний підхід не залежить від конкретної цільової мови, тому зміна мови онтології вимагає тільки декларативного опису трансформації в Prolog, але ніяких подальших змін в осно- вній системі. Система орієнтована на ко- ристувача певного типу – інженера лекси- ки, який визначає, як вирази природної мови відображаються на предикатів в БЗ, тобто, як дієслова, прикметники і відносні іменники тощо відображаються на відно- шення в онтології ПрО. В роботі [29] представлена система семантичного пошуку, яка підтримує як пошук у Semantic Web через онтології, так і семантичний пошук у документах, що не відносяться до Semantic Web. Для першого виду пошуку, відповіді на запит природною мовою здобуваються шляхом застосування системи PowerAqua [50], яка працює таким чином: запит користувача перекладається з природної мови в струк- турований формат – “лінгвістичну трій- ку”, а терміни цієї трійки відображаються на семантично релевантні об’єкти онтоло- гії. Потім обираються ті онтологічні сут- ності, які найкраще представляють запит користувача. ССП PowerAqua розширює систему Aqua-Log, запропоновану в [51], що пра- цює з використанням тільки однієї онтоло- гії, на випадок кількох онтологій, та вирі- Моделі та засоби систем баз даних і знань 38 шує проблему неповноти знань шляхом переходу до традиційного пошуку за клю- човими словами, якщо немає онтології, що задовольняє запиту. Другий вид пошуку в [29], а саме, семантичний пошук докумен- тів, що не відносяться до Semantic Web, здійснюється шляхом розширення систе- ми, запропонованої в [52], за допомогою нового підходу до анотування документів, який містить такі етапи:  здобуття текстового представ- лення семантичних сутностей;  пошук цього текстового пред- ставлення у Web-документах;  створення анотації, яка пов’язує семантичні сутності з кожним документом, що містить їх текстові представлення. Сучасний підхід для побудови за- питів SPARQL із запитів природною мо- вою представлено в [53]. Першим кроком у генерації запитів SPARQL є трансфор- мація природномовних запитів у набір понять онтології (класів, екземплярів, властивостей і літералів), які базуються на призначенні правильного поняття он- тології для кожного слова. Якщо система не може автоматично призначити прави- льне поняття онтології для слова, то ви- кликається користувач для виконання цієї дії. Вибір користувачів використовується для навчання системи, щоб поліпшити її характеристики. Другим кроком є будів- ництво трійок онтологічних понять, які, нарешті, вставляються в розділи SELECT та WHERE для генерації запиту SPARQL. Результати оцінки отриманого SPARQL запиту показують користувачу в таблич- ному та в графічному вигляді. Використання онтологій у семантичному пошуку Підхід до семантичного пошуку в Web, представлений в [54], базується на структурованій мові запитів, яка дозволяє сформулювати складні пошукові запити на основі онтологій. Онтологічно збагаче- ний Web разом з комплексним пошуком на основі онтологій здійснюється на базі існуючого Web і з використанням існую- чих орієнтованих на Web ІПС. Замість то- го, щоб інтерпретувати на синтаксису ключових слів чином, фрагменти даних існуючих Web-сторінках пов’язані з яко- юсь онтологічною БЗ, а потім інтерпрету- ються відносно цієї БЗ. Web-контент пов’язаний з семантичним анотаціям, або, з іншої точки зору, Web співставляється з онтологічною БЗ, які потім забезпечує се- мантичний пошук у Web щодо цієї онтоло- гії. Вважається, що семантичні анотації та онтології, що лежать в їх основі, надають- ся явно. Обробка запитів у цьому підході до семантичного пошуку в Web поділяєть- ся на:  офлайнове виведення для попе- редньої обробки онтологічних знань з ви- користанням стандартних методів виве- дення на онтологіях, щоб перетворити се- мантичні анотації в так звані складні сема- нтичні анотації, які публікуються як стан- дартні Web-сторінки, тобто вони можуть бути знайдені за допомогою стандартних пошукових систем для Web;  онлайнове скорочення складних запитів на основі онтологій для пошуку в Web у послідовні або стандартні запити для пошуку в Web, відповіді на які можуть бути отримані за допомогою звичайного пошуку в Web, а потім використані для побудови відповіді на оригінальний пошу- ковий запит на основі онтології. Цей спосіб обробки семантичних запитів є онтологічно коректним (і в бага- тьох випадках також повним). Ранжуван- ня результатів пошуку базується на ран- жируванні об’єктів ObjectRank, яке узага- льнює (і може бути зведено до) звичайне рейтингування PageRank для Web- сторінок. Таким чином, основні частини онтологічного пошуку в Web фактично зводяться до сучасних ІПС. Але важли- вою перевагою даного підходу є те, що цей підхід може бути негайно застосову- ватися до всього існуючого Web, і це мо- жна здійснити на основі існуючих Web- технологій пошуку. Такий напрям дослі- джень спрямований на додавання струк- тури та семантики на основі онтологій до існуючих ІПС у Web шляхом об’єднання існуючих Web-сторінок і запитів з онто- логічними знаннями. Онтологічні знання і анотації, що лежать в основі такого семантичного по- Моделі та засоби систем баз даних і знань 39 шуку, можна класифікувати відповідно до їх вмісту:  загальні знання (наприклад, знання, які містяться у Вікіпедії) для зага- льного пошуку в Web на основі онтології;  спеціалізовані знання (напри- клад, біомедичні знань) для ієрархічного пошуку в Web на основі онтологій. Інтерфейс на основі загальної он- тології для більш досвідчених користува- чів базується на повній потужності струк- турованого мови запитів (для яких базова онтології може бути візуалізована для підтримки формулювання запитів). Для менш досвідчених користувачів викорис- товується заздалегідь визначені прості форми інтерфейси (наприклад, схожі на ті, які використовуються в Google для ро- зширеного пошуку). У роботі [55] досліджується варіант описаного вище підходу, який використо- вує індуктивні методи міркування на дода- ток до дедуктивних. Це додає системі зда- тність обробляти суперечність, шум і не- повноту у даних. Хоча існує багато підходів до се- мантичного пошуку в Web, і вже створено різноманітні системи на основі цих підхо- дів, дослідження в цій області ще знахо- дяться на самому початку, і багато про- блем відкриті для подальших наукових досліджень. Виконання Web-пошуку у вигляді повернення простих природномо- вних відповідей на прості запитання при- родною мовою все ще залишається немо- жливим, не кажучи вже про виконання Web-пошуку для запитів, відповідь на які залежить від певної ПрО. Деякі з найбільш нагальних про- блем пов’язані з тим, як автоматично тра- нсформувати природномовні запити в фо- рмальні на основі онтологій, як автомати- чно додати семантичні анотації до Web- контенту та як автоматично здобувати знання з Web-контенту. Іншим важливим питанням у дослі- дженнях семантичного пошуку в Web є створення та підтримка базових онтологій. Це може здійснюватися:  вручну відповідними фахівцями (наприклад, як це робиться в семантичній Вікіпедії, де різні спільноти можуть визна- чати свої власні онтології);  автоматично, наприклад, шля- хом знаходження в Web вже існуючих фрагментів онтологічних знань та анотацій (з існуючих онтологій або фрагментів он- тологій та з існуючих анотацій Web- сторінок у мікроформатах або RDFa);  напівавтоматично за допомо- гою комбінації перших двох підходів. Очевидно, що чим більше ступінь автоматизації, тим більше і потенційний розмір онтологій, які можуть бути побудо- вані, і менші витрати і зусилля для їх ство- рення і підтримки. Таким чином, для дуже великих масштабів Web є бажаним дуже високий ступінь автоматизації. З цим тісно пов’язаний такий важливий напрямок дос- ліджень, як еволюція, оновлення і відо- браження онтологій, які є основою семан- тичного пошуку в Web. Важливим є й питанням щодо того, як враховувати явну та неявну контекстну інформацію, щоб адаптувати результати пошуку до потреб користувачів. Напри- клад, потреби і мотивація користувачів можуть бути визначені в термінах онтоло- гії на основі строгих або м'яких обмежень і умовних переваг. Критерії класифікації систем семантичного пошуку У роботі [56] проаналізовано під- ходи до пошуку в Web текстових докуме- нтів, не враховуючи пошук структурова- них документів (XML, RDF, OWL тощо). Також не аналізуються ті підходи, які ви- магають, щоб користувач формулював запити формальною мовою, наприклад, SQL або SPARQL, та рішення, де корис- тувач задає не тільки ключові слова, а ще й, приміром, використовує запит за зраз- ком. В цьому огляді аналізуються ІПС, орієнтовані на пошук інформації у Web або на метапошук на основі інших ІПС. При цьому аналізуються тільки ті рішен- ня, які використовують семантичний по- шук. Якщо традиційний пошук докумен- тів залежить головним чином від наявнос- ті ключових слів у документах, то семан- тичний пошук відрізняється від нього Моделі та засоби систем баз даних і знань 40 тим, що використовує ще й певні знання щодо домену пошук. Знання домену може бути формалізована за допомогою онто- логії ПрО, класи якої описують поняття даної ПрО, екземпляри характеризують факти, а властивості – відношення між поняттями та фактами. Ресурсами нази- вають як класи, так і екземпляри. Класифікувати різні підходи до се- мантичного пошуку можна за такими па- раметрами: архітектура, з’єднаність (cou- pling), прозорість, контекст користувача, модифікація запитів, структура онтології і онтологічна технологія. Ці критерії не є повністю незалежними один від одного, але вони відображають важливі характе- ристики ССП. Слід відмітити, що існують й інші критерії для класифікації ССП, на- приклад, продуктивність, масштабова- ність, розподіленість, адаптованість і рей- тинг результатів, але вони менше пов’язані зі специфікою саме семантично- го пошуку. Семантичні ІПС (так само, як і тра- диційні) поділяються за архітектурою на два типи: 1) автономні машини пошуку (з власними краулером та індексною БД); 2) метапошукові системи, яка вико- ристовує індексні БД інших ІПС та інтег- рує отримані від них результати. З’єднаність – це критерій класифі- кації ІПС, який стосується взаємодії між документами і онтологіями. Існують два типи зв’язку – тісний та слабкий. Тісний зв’язок між документами і онтологіями існує тоді, коли метадані документів відносяться безпосередньо до понять конкретної онтології або навпаки (приміром, коли окремі документи розг- лядаються як екземпляри відповідної онтології). Такий підхід дозволяє легко вирішувати проблему омонімії через вибір відповідного поняття в онтології, але це підвищує вартість семантичного анотування документа. На практиці такий підхід застосовують не тільки для спеціа- лізованих інформаційних систем, які ке- рують даними в обмеженій ПрО або для певної організації, але й у більш загаль- них областях застосування, таких як по- шук у Web. Слабкий зв'язок між документами і онтологіями встановлюється тоді, коли до- кументи не прив’язані до певної онтології. У такому випадку існує проблема вибору відповідної онтології для даної ПрО. Та- ким чином, семантична потужність слабо пов’язаних систем обмежена: приміром, важко подолати проблему омонімії. Але цей підхід широко застосовують для по- шуку в Web, якщо тільки дуже невелика частина документів має семантичні аноту- вання. ІПС зі слабким зв’язком можуть бу- ти легко реалізовані у вигляді метапошу- кових систем. Цей критерій має велике значення для вибору ССП через те, що слабкий зв’язок між документами і онтологіями значно обмежує точність семантичного пошуку, водночас як тісний зв’язок між ними дозволяє знаходити тільки анотовані документи, тобто обмежує його повноту. Прозорість ІПС відносно взаємодії користувача з особливостями семантич- ними систем можна поділити на наступні типи:  прозорі: семантичні можливості системи невидимі для користувача, тобто семантична ІПС виглядає так саме, як і традиційна;  інтерактивні: системи можуть запитувати користувача щодо пояснень до запиту або рекомендувати внести модифі- кації у запит;  гібридні: системи поєднують властивості інтерактивних і прозорих сис- тем, тобто у стандартному випадку вони виступають як прозорі системи, але для дуже специфічних завдань можуть вико- ристовувати інтерактивну взаємодію з ко- ристувачем. Прозорість ІПС є одночасно і недо- ліком, і перевагою: з одного боку, корис- тувач позбавлений тривалих діалогів з си- стемою, що робить ІПС зручною у викори- станні, але з іншого боку, користувач не може впливати на семантичні рішення та- кої системи (наприклад, для вирішення омонімії), що потенційно призводить до зниження точності пошуку. Контекст користувача дозволяє оцінити корисність документів для того, Моделі та засоби систем баз даних і знань 41 щоб краще задовольняти інформаційні по- треби конкретного користувача. Можна виділити наступні класи ІПС відносно то- го, як саме вони можуть враховувати цей контекст:  навчання: контекст користувача динамічно здобувається в процесі взаємо- дії користувача з ІПС. На основі запиту та історії уточнень цього запиту система про- гнозує, які саме результати прагне отрима- ти цей користувач. Якщо терміни запиту завжди належать до того самого онтологі- чного контексту, то на основі цього систе- ма може вирішити омонімію, обравши термін з цієї ж онтології.  жорстке кодування (hard- coded) – цей підхід поділяє запити на так звані категорії питань, які визначають ін- формаційну потребу користувача. Система забезпечує фіксовану кількість категорії питань, які використовуються для оцінки запиту. Типові категорії можна визначити, яку інформацію необхідно надати корис- тувачеві, наприклад, "розташування” або "загальні ресурси для". Це дозволяє вирі- шити омонімію, відокремлюючи, примі- ром, назви географічних об’єктів від прі- звищ осіб. Зв’язок запиту користувача з кате- горією питань може здійснюватися явно самим користувачем, або неявно – на ос- нові належності до групи користувачів, або шляхом аналізу самого запиту. Як пра- вило, в рішеннях на основі онтологій класи інформаційних потреб мають відповідати певним онтологічним структурам, таких як типів властивостей. Контекст користувача забезпечує важливу інформацію про інфо- рмаційні потреби користувача. Ця інфор- мація може використовуватися також для модифікації запиту. Семантична модифікація запитів користувача – це добре відомий метод пошуку інформації. В області семантич- ного пошуку часто використовують інфо- рмацію з онтології. Він грає центральну роль у багатьох семантичних пошукових системах. Різні методи були розроблені для того, щоб збільшити повноту і точ- ність пошуку. Наявність онтологій дозво- ляє відносно легко підвищити повноту запиту: онтологія стає для пошукової ма- шини джерелом більш загальних, порів- няно з ключовими словами запиту, термі- нів, – їх надкласів в онтології. Дещо важ- че поліпшити точність запиту. Це потре- бує вирішення проблеми омонімії та ви- бору певного підкласу для кожного з ви- користаних у запиті термінів. Модифікувати запит можна вруч- ну, на основі онтологічного графу та шля- хом переписування запиту. Вручну – це найпростіший спосіб змінити запит, за- лишивши модифікацію запиту користува- чеві. Коли користувач вводить запит, сис- тема повертає йому не тільки знайдені ним документи, але й відповідну частину онтології. Використовуючи знання щодо ПрО, отримані з цього фрагмента онтоло- гії, користувач може сам переформулюва- ти запит, додавши або видаливши певні терміни. Щоб оптимізувати запити користу- вачів на основі графу, необхідно підтри- мувати тісний зв’язок між базою докумен- тів і онтологією. При цьому як онтологічні поняття, так і документи розглядаються як вузли графу. Терміни запиту використо- вуються для того, щоб знайти відповідні вузли графу. З цих вузлів алгоритм обхо- дить граф, щоб визначити документи, се- мантично пов’язані з ними. Ця ціль може бути досягнута, наприклад, за допомогою алгоритму поширення збудження. Моди- фікація запиту на основі графу відрізня- ється від перезапису запитів тим, що не будується новий запит, який потім має об- роблятися в пошуковій системі, а замість цього безпосередньо повертаються відпо- відні документи. Крім того, така обробка аналізує запит у цілому, а не розкладає йо- го на окремі терміни. Перезапис запиту базується на то- му, що запит можна оптимізувати за допо- могою семантичної ІПС. Основні способи перезапису запиту – розширення, обрізка і заміщення термінів. У випадку розширення запит доповнюється термінами, які отри- муються від онтологічного контексту тер- мінів оригінального запиту. Залежно від структури онтології, можуть бути викори- стані різні семантики. Обрізка запиту видаляє терміни з запиту і має протилежний ефект. Також Моделі та засоби систем баз даних і знань 42 вона може бути реалізована шляхом порі- вняння результатів обрізаного запиту з ре- зультатами початкового запиту. Викорис- тання розширення і обрізки запитів у тому випадку, коли запит складається з кон’юнкції (AND) термінів, викликає те, що запит стає більш специфічним з кож- ним додатковим членом, а коли запит складається з диз’юнкції (OR) термінів, то він стає більш загальним. Іншими словами, відносно інформаційної потреби користу- вача, довгі кон’юнкції у запиті дають ви- соку точність, а довгі диз’юнкції забезпе- чують високу повноту пошуку. Отже, обидва методи, розширення диз’юнктивних запитів і обрізка кон’юнктивних запитів, збільшують пов- ноту пошуку, а обрізка диз’юнктивних за- питів і розширення кон’юнктивних запитів збільшують точність пошуку. Багато сис- тем забезпечують лише кон’юнктивні або диз’юнктивні запити, тобто терміни пошуку неявно і незмінно пов’язані тільки оператором AND або тільки оператором OR. Тому ідея диз’юнктивного розширен- ня або обрізки не застосовується до сис- тем, які забезпечують тільки кон’юнктивні запити. Заміщення термінів запиту – це за- міна термінів запиту іншими онтологічно пов’язаними з ними термінами. В цілому, терміни можуть бути замінені на синоні- ми, підкласи або надкласи з онтології для того, щоб збільшити точність або повноту пошуку відповідно. Заміщення розгляда- ється окремо від розширення та обрізки з наступних причин: у порівнянні з набо- ром результатів оригінального запиту диз’юнктивне розширення та кон’юнк- тивна є надмножиною результатів, а диз’юнктивна обрізка і кон’юнктивне ро- зширення є підмножиною результатів. На відміну від цього, заміна може дати набір результатів, який лише частково перекри- ває початковий набір результатів. Якщо користувач ітеративно вико- нує кілька запитів, щоб задовольняють якусь інформаційну потребу, заміщення може бути більш ефективним методом для того, щоб допомогти користувачеві відповідно до його нових знань щодо ПрО. ССП на основі онтологій викорис- товують таку онтологічну структуру, яка містить поняття та відношення між ними. Серед відношень можна виділити наступні:  анонімні відношення, коли ІПС ігнорує ім’я та семантику відношення, а враховує лише наявність взаємозв'язку між двома поняттями онтології, який означає тільки, що ці поняття мають той самий контекст;  стандартні відношення, до яких можна віднести синонімію, мероні- мію, заперечення, “клас-підклас”, “клас- екземпляр”, використання яких збагачує семантичні можливості пошуку, але також вводить залежність від онтологічних структур;  відношення, специфічні для ПрО, які визначають семантику зв’язку між термінами конкретної ПрО (приміром, для географічної ПрО відношенням “бути столицею” можуть бути пов’язані екземп- ляри класів “місто” та “країна”). В процесі пошуку в ССП можуть застосовуватися будь-які комбінації від- ношень всіх трьох типів. Онтологічна технологія пов’язана з тим, яка мова опису онтологій використо- вується (різні рішення використовують для подання онтологій різні мови – F-Logic, RDF, DAML (+OIL) та OWL) та з техноло- гічними питаннями повторного викорис- тання та взаємодії онтологій. Аналіз існуючих ССП на основі цих критеріїв показує, що в різних системах реалізовані різні підмножини семантичних можливостей. Це дозволяє виділити облас- ті подальшого розвитку ССП:  аналіз засобів модифікації за- питів, який забезпечив би кількісне порів- няння методів модифікації запиту;  розвиток метапошукових сема- нтичних ІПС: існуючі метапошукові сис- теми змінюють запити користувачів і пе- респрямовують їх до традиційних ІПС, але не можуть переспрямовувати пошук до інших ССП;  аналіз визнання користувачів: у більшості існуючих ССП семантика є про- зорою для користувача, але чим більше Моделі та засоби систем баз даних і знань 43 інтерактивність цих ІПС, тим потужніше може бути система. Проте важко оцінити, наскільки користувач готовий до певних зусиль з семантичної взаємодії, спрямова- них на те, щоб поліпшити результати його пошуку;  збільшення гнучкості пошуку – багато семантичних ІПС орієнтовані на певну структуру онтології, тобто наклада- ють обмеження на клас онтологій, які вони можуть використовувати, водночас як інші системи (орієнтовані на обробку «анонім- них» властивостей) можуть впоратися з довільними онтологій, але забезпечують більш слабкі семантичні можливості;  впорядкування знайдених до- кументів на основі обраної онтології;  інтеграція з системами керу- вання контентом та документами (CMS /DMS);  продуктивність та масштабова- ність – семантичні пошукові системи ма- ють бути здатні конкурувати зі стандарт- ними пошуковими ІПС. Система семантичного пошуку “МАІПС” Вищенаведений аналіз показує, що при розробці засобів семантичного пошуку в Web необхідно звернути увагу на насту- пні питання:  надати можливість використо- вувати зовнішні бази знань, які містять знання в сфері інформаційних потреб ко- ристувача;  застосовувати інтероперабель- ні засоби подання знань, що підтримують розподілене та повторне використання відомостей щодо предметної області, що цікавить користувача, щодо інформацій- них об’єктів, доступ до яких він прагне отримати, та щодо його особистих мож- ливостей, пов’язаних із сприйняттям ін- формації;  забезпечити користувачам мо- жливість самостійно встановлювати, які саме знання використовуються в процесі пошуку (приміром, надати можливість обирати онтологію ПрО, а потім за цією онтологією модифікувати та вдосконалю- вати пошукові запити);  враховувати історію взаємодії користувача з ІПС та контекст пошуку, щоб персоніфікувати результати пошуку та впорядковувати їх відповідно до інфо- рмаційних потреб користувача;  забезпечити візуалізацію тих знань, що застосовуються для семантич- ного пошуку, щоб пояснити користуваче- ві шляхи отримання результатів та запобі- гти неправильного розуміння його інфор- маційних потреб;  підтримувати збереження істо- рії взаємодії користувача з ІПС, щоб вра- ховувати його персональні потреби та зменшити час обробки запитів (приміром, зберігати постійні інформаційні запити та відомості про онтології, що використову- валися для їх побудови та виконання;  підтримувати переадресацію семантично збагачених запитів до інших ІПС – як традиційних, так і семантичних;  підтримувати колаборативний пошук та враховувати досвід взаємодії з іншими користувачами. Всі ці питання були враховані в процесі проектування та реалізації ССП “МАІПС” [57], яка орієнтована на корис- тувачів, що мають у мережі постійні інфо- рмаційні інтереси. Для цього “МАІПС” надає можливість зберігати й повторно ви- конувати запити, враховувати реакцію ко- ристувача на раніше запропоновані йому ІР (персональна фільтрація), відстежувати появу аналогічних запитів у інших корис- тувачів (колаборативна фільтрація), збері- гати формальний опис сфери інтересів ко- ристувача у вигляді онтології (семантична фільтрація) тощо. Крім того, у ”МАІПС” у процесі профілювання користувачів використову- ється специфічний для природномовних ІР критерій оцінювання – складність тексту для розуміння. Особливістю системи є ви- користання оригінального знання-орієнто- ваного алгоритму, що дає змогу визначити складність розуміння тексту для конкрет- ного користувача (для того, щоб формалі- зувати рівень обізнаності користувача в Моделі та засоби систем баз даних і знань 44 певних ПрО, використовуються тезауруси тих предметних областей, що цікавлять користувачів) [58]. Основою “МАІПС” є технології Semantic Web, зокрема мова по- дання онтологій OWL, і засоби його обро- бки. Для подання знань, що цікавлять ко- ристувача, використовуються онтології ПрО та тезауруси задач, що базуються на них: тезаурус будується користувачем за відповідною онтологією самостійно, а он- тологія вибирається з набору онтологій, запропонованих на сайті розробниками системи. “МАІПС” базується на онтологічній моделі, що здійснює опис семантики взає- модії користувачів і ресурсів “МАІПС” в інформаційному просторі Web [59]. Кори- стувач має вибрати онтологію, що харак- теризує ПрО, яка його цікавить (якщо он- тології немає, то її слід сформувати само- стійно, наприклад, побудувати в Protege чи знайти у Web). В обраній онтології користувач відбирає множину термінів, що стосують- ся його запиту, та формує з них тезаурус запиту. Користувач може позначити тер- міни, наявність яких у шуканому докуме- нті є бажаною або небажаною, а також задати більш складні операції, наприклад, автоматично позначати всі терміни, що знаходяться у певних відношеннях із тер- мінами, позначеними раніше. Це дає змо- гу, зокрема, легко враховувати під час пошуку синоніми чи близькі за значенням слова, а також здійснювати пошук відразу кількома мовами. Унаслідок цього фор- мується непорожня множина слів (чи сло- восполучень)  mwwW ,...,1 , кожне з яких може мати свою позитивну або не- гативну вагу mkvk ,1,  . Після цього для кожного документа kji j ,0,  з множини III ̀`, формується коефіцієнт відповід- ності контексту пошуку:    m k kjkjj wifvskjs 1 ),(,,0, , де        jk jk kj iw iw wif ,0 ,1 ),( . Чим вищим є цей коефіцієнт, тим, імовірно, вищою буде релевантність доку- мента запиту користувача. У ”МАІПС” реалізуються такі ба- зові операції над тезаурусами, як об’єднання, перетинання, різниця. Крім того, підтримується побудова тезауруса за документом, тобто формується множина слів, що використовуються у визначеному ІР. Також користувач може редагувати тезауруси вручну. Кожне слово в тезауру- сі має визначену вагу (ціле позитивне або негативне число), що визначає важливість слова для запиту. Негативні значення від- повідають термінам, які користувач вва- жає небажаними. Тезаурус може відобра- жатися у вигляді хмари тегів (розмір шрифту відображає вагу терміну в тезау- русі, а терміни з негативною вагою позна- чені червоним кольором) [7]. Спосіб ви- конання пошуку залежить від специфіки конкретних ІР (рис. 1). Рис. 1. Пошук в МАІПС на основі онтології Проаналізувавши наявні відомості про інформаційну потребу користувача (для того, щоб обробка виконувалася на семантичному рівні, “МАІПС” викорис- товує знання, що містяться у відповідних зовнішніх і внутрішніх онтологіях), сис- тема передає запит до зовнішніх ІПС. Сьогодні в ролі такої ІПС використову- ється Google, як найдосконаліша з сучас- них пошукових систем. Отримавши у від- повідь від зовнішньої ІПС набір інформа- ційних ресурсів, “МАІПС” намагається здобути з них потрібні користувачеві ві- Моделі та засоби систем баз даних і знань 45 домості. У найпростішому варіанті, якщо потрібний користувачеві ІО є документом (можливо, певного типу), то система пе- ревпорядковує отримані посилання на ІР з урахуванням персональних особливостей користувача та збережених у БД системи відомостей щодо цих ІР. В результаті ви- конання пошуку користувачу надається така інформація: тезаурусний рейтинг ІР, посилання на ІР, його назва, анотація й оцінки легкості читання (рис. 2). Припус- кається, що ІР, у яких зустрічається біль- ше слів з тезаурусу, більш релевантні по- требам користувача. Критерії легкості читання тексту Тезаурусний рейтинг ІР Назва ІР Анотація ІР Рис. 2. Результати пошуку в системі “МАІПС” “МАІПС” реалізована як серверне Інтернет-застосування мовою РНР вер- сії 5. 0. Для збереження внутрішніх даних використовується XML (надалі плануєть- ся використання СУБД MySQL). Онтоло- гії зберігаються у форматах RTF і OWL, тезауруси – у форматі XML. Висновки У дослідженні, результати вико- нання якого наведено в цій роботі, про- аналізовано сучасний стан та перспективи розвитку систем семантичного пошуку, орієнтованих на обробку інформаційних ресурсів Web, розглянуто критерії їх кла- сифікації. На основі цього аналізу запро- поновано засоби та методи персоніфікації семантичного пошуку та зовнішні джере- ла інформації, з яких доцільно здобувати знання, які дозволяють підвищити перти- нентність пошуку і більш повно та точно задовольняти сталі інформаційні потреби користувачів. Ці підходи реалізовано в системі семантичного пошуку “МАІПС”, яку також описано у даній роботі. 1. Hendler J. Web 3.0: The dawn of semantic search. Computer. 2010. 43(l)/. P. 77–80. 2. Baeza-Yates R., A. Raghavan R. Next generation Web search. S. Ceri and M. Brambilla, editors, Search Computing, Springer. 2010. P. 11–23. 3. Lawrence S. Context in the Web Search – http://citeser.nj.nec.com/ lawrence00context.html. 4. Janowicz K., Wilkes M., Lutz M. Similarity- based information retrieval and its role within spatial data infrastructures. Proc. GIScience- 2008, Springer. 2008. P. 151–167. 5. Broder A. A taxonomy of web search, IBM Research, ACM SIGIR Forum archive. Vol. 36 , Issue 2 (Fall 2002). P. 3–10. 6. Гришанова І.Ю. Аналітичний огляд мето- дів і засобів інформаційного пошуку в Semantic Web. Проблеми програмування. 2016. № 1. С. 51–72. 7. Рогушина Ю. В. Семантичний пошук у Web на основі онтологій: розробка моде- лей, засобів і методів. Мелітополь: МДУ- ПУ ім. Б.Хмельницького. 2015. 291 с. 8. Гладун А.Я., Рогушина Ю.В. Семантичні технології: принципи та практики. К.: ТОВ "АДЕФ-Україна". 2016. 308 с. 9. Brachman R., Schmolze J. An overview of the KL-ONE knowledge representation system. Cognitive Science, 1985. 9(2). 10. Bobrow D., Winograd T. An overview of KRL, a knowledge representation language. Cognitive Science 1(1) (1977). 11. Antoniou G., Van Harmelen F. Web ontology language: Owl. In Handbook on ontologies. Springer Berlin Heidelberg. 2004. P. 67–92. 12. Gruber T. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisi- tion. 1993. N 5. P. 199–220. 13. Cyganiak R., Wood D., Lanthaler M.RDF 1. 1 Concepts and Abstract Syntax. W3C Recom- mendation 25 February 2014. http://www.w3.org/TR/2014/REC-rdf11- concepts-20140225/. 14. Rogushina J. Means of the semantic search personification on base of ontological ap- proach. International Journal of Mathematical Sciences and Computing (IJMSC). 2016. Vol. 2. N 3. P. 1–20. – http://www.mecs- press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3- 1.pdf. http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/ http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/ http://www.mecs-press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3-1.pdf. http://www.mecs-press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3-1.pdf. http://www.mecs-press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3-1.pdf. Моделі та засоби систем баз даних і знань 46 15. Rogushina J. Use of the Ontological Model for Personification of the Semantic Search. International Journal of Mathematical Scienc- es and Computing (IJMSC). 2016. Vol. 2, N 1. http://www.mecs-press.org/ijmsc/ijmsc- v2-n1/IJMSC-V2-N1-1.pdf 16. Corby O., Dieng-Kuntz R., Faron-Zucker C. Querying the Semantic Web with Corese search engine. Proc. ECAI-2004, IOS Press. 2004. P. 705–709. 17. Finin T.W., Ding L., Pan R., Joshi A., Kolari P., Java A., Peng Y. Swoogle: Searching for knowledge on the Semantic Web. Proc. AAAI-2005,. AAAI Press / MIT Press, 2005. P. 1682–1683. 18. Heflin J., Hendler J. A., Luke S. SHOE: A blueprint for the Semantic Web. D. Fensel, W. Wahlster, and H. Lieberman, editors. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, MIT Press. 2003. P. 29–63. 19. Kasneci G., Suchanek F.M., Ifrim G., Rama- nath M., Weikum G. NAGA: Searching and ranking knowledge. Proc. ICDE-2008, ШЕЕ Computer Society. 2008. P. 953–962. 20. Oren E., Gueret C., Schlobach S. Anytime query answering in RDF through evolutionary algorithms. Proc. ISWC- 2008, LNCS 5318, Springer. 2008. P. 98–113. 21. Buitelaar P., Eigner T., Declerck T. On- toSelect: A dynamic ontology library with support for ontology selection. Proc. Demo Session at ISWC-2004, 2004. 22. Cheng G., Ge W., Qu Y. Falcons: Searching and browsing entities on the Semantic Web. Proc. WWW-2008, ACM Press, 2008. P. 1101–1102. 23. Harth A., Hogan A., Delbru R., Umbrich J., O’Riain S., Decker S. SWSE: Answers before links. Proc. Semantic Web Challenge 2007, CEUR Workshop Proceedings 295. CEUR- WS.org, 2007. 24. Lei Y., Uren V. S., Motta E. SemSearch: A search engine for the Semantic Web. Proc. EKAW-2006, LNCS 4248, Springer, 2006. P. 238–245. 25. Tran T., Cimiano P., Rudolph S., Studer R. Ontology-based interpretation of keywords for semantic search. Proc. ISWC/ASWC- 2007, LNCS 4825. Springer. 2007. P. 523–536. 26. Zenz G., Zhou X., Minack E., Siberski W., Nejdl W. From keywords to semantic queries. Incremental query construction on the Seman- tic Web. J. Web Sem., 7(3):, 2009. P. 166–176. 27. Cimiano P., Haase P., Heizmann J., Mantel M., Studer R.. Towards portable natural lan- guage interfaces to knowledge bases – The case of the ORAKEL system. Data Knowl. Eng., 65(2), 2008. P. 325–354. 28. Damljanovic D., Agatonovic M., Cunningham H. Natural language interface to ontologies: Combining syntactic analysis and ontology- based lookup through the user interaction. Proc. ESWC-2010, Part I, LNCS 6088. 2010. P. 106–120. 29. Fernandez M., Lopez V., Sabou M., Uren V. S., Vallet D., Motta E., Castells P. Semantic search meets the Web. Proc. ICSC-2008. 2008. P. 253–260. 30. Fazzingaa B., Lukasiewicz T. Semantic search on the Web. Semantic Web – Interop- erability, Usability, Applicability. 2010. N 1. – P. 1–7. – https://www.researchgate.net/pro- file/Thomas_Lukasiewicz/publication/220575 552_Semantic_search_on_the_Web/links/004 6351e94ee8994bd000000.pdf. 31. Heflin J., Hendler J. A., Luke S. SHOE: A blueprint for the Semantic Web. In D. Fensel, W. Wahlster, and H. Lieberman, editors. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, MIT Press. 2003. P. 29–63. – http://www.cse. lehigh.edu/~heflin/pubs/swbook03.pdf. 32. Finin T.W., Ding L., Pan R., Joshi A., Kolari P., Java A., Peng Y. Swoogle: Searching for knowledge on the Semantic Web. Proc. AAAI-2005, AAAI Press / MIT Press. 2005. P. 1682–1683. 33. Corby O., Dieng-Kuntz R., Faron-Zucker C. Querying the Semantic Web with Corese search engine. Proc. ECAI-2004, IOS Press, 2004. P. 705–709. 34. Oren E., Gueret C., Schlobach S. Anytime query answering in RDF through evolutionary algorithms. Proc. ISWC- 2008, LNCS 5318, Springer. 2008. P. 98–113. 35. W3C. SPARQL Query Language for RDF, 2008. W3C Recommendation (15 January 2008). – http: / /www. w3.org/TR/rdf-sparql- query/. 36. Thomas E., Pan J.Z., Sleeman D. H. ON- TOSEARCH2: Searching ontologies semanti- cally. Proc. OWLED-2007, CEUR Workshop Proceedings 258. CEUR-WS.org, 2007. 37. Novacek V., Groza T., Handschuh S. CORAAL – Towards deep exploitation of textual resources in life sciences. Proc. Al- ME-2009, LNCS 5651, Springer, 2009. P. 206–215. 38. Kasneci G., Suchanek F.M., Ifrim G., Rama- nath M., Weikum G. NAGA: Searching and Моделі та засоби систем баз даних і знань 47 ranking knowledge. Proc. ICDE-2008, IIЕЕ Computer Society, 2008. P. 953–962. 39. Suchanek F.M., Kasneci G., Weikum G. Yago: A core of semantic knowledge. Proc. WWW- 2007, ACM Press, 2007. P. 697–706. 40. Buitelaar P., Eigner T., Declerck T. On- toSelect: A dynamic ontology library with support for ontology selection. Proc. Demo Session at ISWC-2004, 2004. 41. Guha R.V., McCool R., Miller E. Semantic search. Proc. WWW-2003, ACM Press, 2003. P. 700–709. 42. Lei Y., Uren V.S., Motta E. SemSearch: A search engine for the Semantic Web. Proc. EKAW-2006, LNCS 4248, Springer, 2006. P. 238–245. 43. Tran T., Cimiano P., Rudolph S., Studer R. Ontology-based interpretation of keywords for semantic search. Proc. ISWC/ASWC- 2007, LNCS 4825, Springer. 2007. P. 523–536. 44. Tummarello G., Cyganiak R., Catasta M., Danielczyk S., Delbru R., Decker S. Sig.ma: Live views on the Web of data. Proc. WWW- 2010, ACM Press, 2010. P. 1301–1304. 45. Harth A., Umbrich J., Hogan A., Decker S. YARS2: A federated repository for querying graph structured data from the Web. Proc. ISWC/ASWC-2007, LNCS 4825, Springer, 2007. P. 211–224. 46. YahooSearchBoss. http://developer.yahoo. com/ search/boss/. 47. Delbru R., Polleres A., Tummarello G., Deck- er S. Context dependent reasoning for seman- tic documents in Sindice. Proc. SSWS-2008, 2008. 48. Zenz G., Zhou X., Minack E., Siberski W., Nejdl W. From keywords to semantic queries – Incremental query construction on the Se- mantic Web. J. Web Sem., 2009. N 7(3). P. 166–176. 49. YahooISearchMonkey. – http ://developer. yahoo, com/searchmonkey. 50. Lopez V., Sabou M., Motta E. PowerMap: Mapping the real Semantic Web on the fly Proc. ISWC-2006, LNCS 4273, Springer, 2006. P. 414–427. 51. Lopez V., Pasin M., Motta E. AquaLog: An ontology- portable question answering sys- tem for the Semantic Web. Proc. ESWC- 2005, LNCS 3532, Springer, 2005. P. 546–562. 52. Castells P., Ferndndez M., Vallet D. An adaptation of the vector-space model for on- tology-based information retrieval. IEEE Trans. Knowl. Data Eng. 2007. N 19(2). P. 261–272. 53. Damljanovic D., Agatonovic M., Cunning- ham H. Natural language interface to ontolo- gies: Combining syntactic analysis and on- tology-based lookup through the user inter- action. Proc. ESWC-2010, Part I, LNCS 6088, Springer, 2010. P. 106–120. 54. Fazzinga B., Gianforme G., Gottlob G., Lukasiewicz T. Semantic Web search based on ontological conjunctive queries. Proc. FoIKS-2010, LNCS 5956, Springer, 2010. P. 153–172. 55. D’Amato C., Esposito F., Fanizzi N., Fazzin- ga B., Gottlob G., Lukasiewicz T. Inductive reasoning and Semantic Web search. Proc. SAC-2010, ACM Press, 2010. P. 1446–1447. 56. Mangol C. A survey and classification of se- mantic search approaches. International Jour- nal of Metadata, Semantics and Ontologies. 2007. N 2(1). P. 23–34. 57. Рогушина Ю. В. Семантический поиск как составляющая управления знаниями в Semantic Web. Материалы международной научно-технической конференции OSTIS- 2012. Минск БГУИР. С. 239–244. 58. Rogushina J. Use of the Ontological Model for Personification of the Semantic Search. International Journal of Mathematical Scienc- es and Computing(IJMSC). 2016. Vol. 2. N 1, – http://www.mecs-press.org/ijmsc/ijmsc-v2- n1/IJMSC-V2-N1-1.pdf 59. Рогушина Ю.В. Разработка онтологиче- ской модели информационной потребнос- ти пользователя при семантическом по- иске. Онтология проектирования. 2014. № 2(12). С. 61–82. – http://agora.guru.ru/scientific_ journal/files/Ontology_Of_Designing_2_2014 _shot.pdf. References 1. Hendler J. Web 3.0: The dawn of semantic search. Computer, 2010, 43(l)/. P. 77–80. 2. Baeza-Yates R., A. Raghavan R. Next generation Web search // S. Ceri and M. Brambilla, editors, Search Computing, Springer, 2010. P. 11–23. 3. Lawrence S. Context in the Web Search – http://citeser.nj.nec.com/ lawrence00context.html. 4. Janowicz K., Wilkes M., Lutz M. Similarity- based information retrieval and its role within http://developer.yahoo.com/ http://developer.yahoo.com/ http://agora.guru.ru/scientific_journal/files/Ontolo-gy_Of_Designing_2_2014_shot.pdf. http://agora.guru.ru/scientific_journal/files/Ontolo-gy_Of_Designing_2_2014_shot.pdf. http://agora.guru.ru/scientific_journal/files/Ontolo-gy_Of_Designing_2_2014_shot.pdf. Моделі та засоби систем баз даних і знань 48 spatial data infrastructures. Proc. GIScience- 2008, Springer, 2008. P. 151–167. 5. Broder A. A taxonomy of web search, IBM Research, ACM SIGIR Forum archive, Vol. 36 , Issue 2 (Fall 2002), P. 3–10. 6. Grishanova I.Y. Analitic review of methods and tools of information search for Semantic Web. Problems in programming, 2016. N 1. P. 51–72. [in Ukrainian]. 7. Rogushina J.V. Semantic retrieval for Web on base of ontologies: design of models, tools and methods. Melitopol: Bogdan Hmelnitsky MDUPU , 2015. 291 p. [in Ukrainian]. 8. Gladun A.Y., Rogushina J.V. Semantic technologies: principles and practics. – K.: ADEF-Ukraine, 2016. 308 p. [in Ukrainian] 9. Brachman R., Schmolze J. An overview of the KL-ONE knowledge representation system. Cognitive Science, 1985, 9(2). 10. Bobrow D., Winograd T. An overview of KRL, a knowledge representation language. Cognitive Science 1(1) (1977). 11. Antoniou G., Van Harmelen F. Web ontolo- gy language: Owl. In Handbook on ontolo- gies. Springer Berlin Heidelberg, 2004. P. 67–92. 12. Gruber T. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition. 1993. N 5. P. 199–220. 13. Cyganiak R., Wood D., Lanthaler M.RDF 1. 1 Concepts and Abstract Syntax. W3C Recommendation 25 February 2014. http://www.w3.org/TR/2014/REC-rdf11- concepts-20140225/. 14. Rogushina J. Means of the semantic search personification on base of ontological approach. International Journal of Mathematical Sciences and Computing (IJMSC), Vol. 2, N 3. 2016. P. 1–20. – http://www.mecs-press.org/ijmsc/ijmsc-v2- n3/IJMSC-V2-N3-1.pdf. 15. Rogushina J. Use of the Ontological Model for Personification of the Semantic Search. International Journal of Mathematical Sciences and Computing(IJMSC), Vol. 2, N 1, 2016. http://www.mecs- press.org/ijmsc/ijmsc-v2-n1/IJMSC-V2-N1- 1.pdf/ 16. Corby O., Dieng-Kuntz R., Faron-Zucker C. Querying the Semantic Web with Corese search engine. Proc. ECAI-2004, IOS Press, 2004. – P. 705–709. 17. Finin T. W., Ding L., Pan R., Joshi A., Kolari P., Java A., Peng Y. Swoogle: Searching for knowledge on the Semantic Web. Proc. AAAI-2005,. AAAI Press / MIT Press, 2005. P. 1682–1683. 18. Heflin J., Hendler J. A., Luke S. SHOE: A blueprint for the Semantic Web. D. Fensel, W. Wahlster, and H. Lieberman, editors. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, MIT Press, 2003. P. 29–63. 19. Kasneci G., Suchanek F.M., Ifrim G., Ramanath M., Weikum G. NAGA: Searching and ranking knowledge. Proc. ICDE-2008, ШЕЕ Computer Society, 2008. P. 953–962. 20. Oren E., Gueret C., Schlobach S. Anytime query answering in RDF through evolutionary algorithms. Proc. ISWC- 2008, LNCS 5318, Springer, 2008. P. 98–113. 21. Buitelaar P., Eigner T., Declerck T. OntoSelect: A dynamic ontology library with support for ontology selection. Proc. Demo Session at ISWC-2004, 2004. 22. Cheng G., Ge W., Qu Y. Falcons: Searching and browsing entities on the Semantic Web. Proc. WWW-2008, ACM Press, 2008. P. 1101–1102. 23. Harth A., Hogan A., Delbru R., Umbrich J., O’Riain S., Decker S. SWSE: Answers before links. Proc. Semantic Web Challenge 2007, CEUR Workshop Proceedings 295. CEUR- WS.org, 2007. 24. Lei Y., Uren V. S., Motta E. SemSearch: A search engine for the Semantic Web. Proc. EKAW-2006, LNCS 4248, Springer, 2006. P. 238–245. 25. Tran T., Cimiano P., Rudolph S., Studer R. Ontology-based interpretation of keywords for semantic search. Proc. ISWC/ASWC- 2007, LNCS 4825, Springer, 2007. P. 523–536. 26. Zenz G., Zhou X., Minack E., Siberski W., Nejdl W. From keywords to semantic queries. Incremental query construction on the Semantic Web. J. Web Sem., 7(3):,2009. P. 166–176. 27. Cimiano P., Haase P., Heizmann J., Mantel M., Studer R.. Towards portable natural language interfaces to knowledge bases — The case of the ORAKEL system. Data Knowl. Eng., 65(2), 2008. P. 325–354. 28. Damljanovic D., Agatonovic M., Cunningham H. Natural language interface to ontologies: Combining syntactic analysis and ontology- based lookup through the user interaction. Proc. ESWC-2010, Part I, LNCS 6088, 2010. P. 106–120. 29. Fernandez M., Lopez V., Sabou M., Uren V. S., Vallet D., Motta E., Castells P. Semantic http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/ http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/ http://www.mecs-press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3-1.pdf. http://www.mecs-press.org/ijmsc/ijmsc-v2-n3/IJMSC-V2-N3-1.pdf. Моделі та засоби систем баз даних і знань 49 search meets the Web. Proc. ICSC-2008, 2008. – P. 253–260. 30. Fazzingaa B., Lukasiewicz T. Semantic search on the Web. Semantic Web – Interoperability, Usability, Applicability, N 1, 2010. P. 1–7. https://www.researchgate.net/ profile/Thomas_Lukasiewicz/publication/220 575552_Semantic_search_on_the_Web/links/ 0046351e94ee8994bd000000.pdf. 31. Heflin J., Hendler J. A., Luke S. SHOE: A blueprint for the Semantic Web. In D. Fensel, W. Wahlster, and H. Lieberman, editors. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential, MIT Press, 2003. P. 29–63. http://www.cse.lehigh. edu/~heflin/pubs/swbook03.pdf. 32. Finin T. W., Ding L., Pan R., Joshi A., Kolari P., Java A., Peng Y. Swoogle: Searching for knowledge on the Semantic Web. Proc. AAAI-2005, AAAI Press / MIT Press, 2005. P. 1682–1683. 33. Corby O., Dieng-Kuntz R., Faron-Zucker C. Querying the Semantic Web with Corese search engine. Proc. ECAI-2004, IOS Press, 2004. P. 705–709. 34. Oren E., Gueret C., Schlobach S. Anytime query answering in RDF through evolutionary algorithms. Proc. ISWC- 2008, LNCS 5318, Springer, 2008. P. 98–113. 35. W3C. SPARQL Query Language for RDF, 2008. W3C Recommendation (15 January 2008). – http://www. w3.org/TR/rdf-sparql- query/. 36. Thomas E., Pan J. Z., Sleeman D. H. ONTOSEARCH2: Searching ontologies semantically. Proc. OWLED-2007, CEUR Workshop Proceedings 258. CEUR-WS.org, 2007. 37. Novacek V., Groza T., Handschuh S. CORAAL – Towards deep exploitation of textual resources in life sciences. Proc. AlME- 2009, LNCS 5651, Springer, 2009. P. 206–215. 38. Kasneci G., Suchanek F. M., Ifrim G., Ramanath M., Weikum G. NAGA: Searching and ranking knowledge. Proc. ICDE- 2008, IIЕЕ Computer Society, 2008. P. 953–962. 39. Suchanek F. M., Kasneci G., Weikum G. Yago: A core of semantic knowledge. Proc. WWW-2007, ACM Press, 2007. P. 697–706. 40. Buitelaar P., Eigner T., Declerck T. OntoSelect: A dynamic ontology library with support for ontology selection. Proc. Demo Session at ISWC-2004, 2004. 41. Guha R. V., McCool R., Miller E. Semantic search. Proc. WWW-2003, ACM Press, 2003. – P. 700–709. 42. Lei Y., Uren V. S., Motta E. SemSearch: A search engine for the Semantic Web. Proc. EKAW-2006, LNCS 4248, Springer, 2006. P. 238–245. 43. Tran T., Cimiano P., Rudolph S., Studer R. Ontology-based interpretation of keywords for semantic search. Proc. ISWC/ASWC- 2007, LNCS 4825, Springer, 2007. P. 523–536. 44. Tummarello G., Cyganiak R., Catasta M., Danielczyk S., Delbru R., Decker S. Sig.ma: Live views on the Web of data. Proc. WWW- 2010, ACM Press, 2010. P. 1301–1304. 45. Harth A., Umbrich J., Hogan A., Decker S. YARS2: A federated repository for querying graph structured data from the Web. Proc. ISWC/ASWC-2007, LNCS 4825, Springer, 2007. P. 211–224. 46. YahooSearchBoss. – http://developer. yahoo.com/ search/boss/. 47. Delbru R., Polleres A., Tummarello G., Decker S. Context dependent reasoning for semantic documents in Sindice. Proc. SSWS- 2008, 2008. 48. Zenz G., Zhou X., Minack E., Siberski W., Nejdl W. From keywords to semantic queries – Incremental query construction on the Semantic Web. J. Web Sem., N 7(3), 2009. P. 166–176. 49. YahooISearchMonkey. – http ://developer. yahoo, com/searchmonkey. 50. Lopez V., Sabou M., Motta E. PowerMap: Mapping the real Semantic Web on the fly Proc. ISWC-2006, LNCS 4273, Springer, 2006. P. 414–427. 51. Lopez V., Pasin M., Motta E. AquaLog: An ontology- portable question answering system for the Semantic Web. Proc. ESWC- 2005, LNCS 3532, Springer, 2005. P. 546–562. 52. Castells P., Ferndndez M., Vallet D. An adaptation of the vector-space model for ontology-based information retrieval. IEEE Trans. Knowl. Data Eng., N 19(2), 2007. P. 261–272. 53. Damljanovic D., Agatonovic M., Cunnin- gham H. Natural language interface to ontologies: Combining syntactic analysis and ontology-based lookup through the user interaction. Proc. ESWC-2010, Part I, LNCS 6088, Springer, 2010. P. 106–120. 54. Fazzinga B., Gianforme G., Gottlob G., Lukasiewicz T. Semantic Web search based on ontological conjunctive queries. Proc. http://developer.yahoo.com/ http://developer.yahoo.com/ Моделі та засоби систем баз даних і знань 50 FoIKS-2010, LNCS 5956, Springer, 2010. P. 153–172. 55. D’Amato C., Esposito F., Fanizzi N., Fazzinga B., Gottlob G., Lukasiewicz T. Inductive reasoning and Semantic Web search. Proc. SAC-2010, ACM Press, 2010. P. 1446–1447. 56. Mangol C. A survey and classification of semantic search approaches. International Journal of Metadata, Semantics and Ontologies, N 2(1), 2007. P. 23–34. 57. Rogushina J.V. Semantic retrieval as a comonent of the Semantic Web knowledge management. Proc.of OSTIS-2012, Minsk . P. 239–244. [in Russian]. 58. Rogushina J. Use of the Ontological Model for Personification of the Semantic Search // International Journal of Mathematical Sciences and Computing(IJMSC), Vol. 2, N 1, 2016. http://www.mecs-press.org/ ijmsc/ijmsc-v2-n1/IJMSC-V2-N1-1.pdf. 59. Rogushina J.V. Design of ontological model of user information need in semantic retrieval. Ontology of designing. P. 61–82. http://agora.guru.ru/scientific_journal/files/On tolo-gy_Of_Designing_2_2014_shot.pdf. [in Russian]. Одержано 07.12.2016 Про автора: Рогушина Юлія Віталіївна, кандидат фізико-математичних наук, старший науковий співробітник. Кількість наукових публікації в українських виданнях – 120. Кількість наукових публікацій в зарубіжних виданнях – 28. Індекс Хірша – 10, http://orcid.org/0000-0001-7958-2557. Місце роботи автора: Інститут програмних систем НАН України, 03181, Київ-187, проспект Академіка Глушкова, 40. Тел.: 066 550 1999. E-mail: ladamandraka2010@gmail.com http://agora.guru.ru/scientific_journal/files/Ontolo-gy_Of_Designing_2_2014_shot.pdf. http://agora.guru.ru/scientific_journal/files/Ontolo-gy_Of_Designing_2_2014_shot.pdf. mailto:ladamandraka2010@gmail.com
id	pp_isofts_kiev_ua-article-220
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T09:49:32Z
publishDate	2018
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/3b/a62e9c4ed5ab456c06f1b61dc406af3b.pdf
spelling	pp_isofts_kiev_ua-article-2202024-04-28T11:56:41Z Classification of means and methods of the Web semantic retrieval Классификация средств и методов семантического поиска в Web Класифікація засобів та методів семантичного пошуку в Web Rogushina, J.V. semantic search, ontology; Semantic Web; personification of retrieval UDC 004,853, 004.55 семантический по- иск, онтология; Semantic Web; персонификация поиска УДК 004.853, 004.55 семантичний пошук, онтологія; семантичний веб; персоніфікація пошуку УДК 004.853, 004.55 Problems associated with the improve ment of information retrieval for open environment are considered and the need for it’s semantization is grounded. Thecurrent state and prospects of development of semantic search engines that are focused on the Web information resources processing are analysed, the criteria for the classification of such systems are reviewed. In this analysis the significant attention is paid to the semantic search use of ontologies that contain knowledge about the subject area and the search users. The sources of ontological knowledge and methods of their processing for the improvement of the search procedures are considered. Examples of semantic search systems that use structured query languages (eg, SPARQL), lists of keywords and queries in natural language are proposed. Such criteria for the classification of semantic search engines like architecture, coupling, transparency, user context, modification requests, ontology structure, etc. are considered. Different ways of support of semantic and otology based modification of user queries that improve the completeness and accuracy of the search are analyzed. On base of analysis of the properties of existing semantic search engines in terms of these criteria, the areas for further improvement of these systems are selected: the development of metasearch systems, semantic modification of user requests, the determination of an user-acceptable transparency level of the search procedures, flexibility of domain knowledge management tools, increasing productivity and scalability.In addition, the development of means of semantic Web search needs in use of some external knowledge base which contains knowledge about the domain of user information needs, and in providing the users with the ability to independent selection of knowledge that is used in the search process. There is necessary to take into account the history of user interaction with the retrieval system and the search context for personalization of the query results and their ordering in accordance with the user information needs. All these aspects were taken into account in the design and implementation of semantic search engine "MAIPS" that is based on an ontological model of users and resources cooperation into the Web.Problems in programming 2017; 1: 30-50 Рассмотрены проблемы, связанные с усовершенствованием поиска информации в открытой среде, обоснована потребность в ее семантизации. Проанализировано современное состояние и перспективы развития систем семантического поиска, ориентированных на обработку информационных ресурсов Web, рассмотрены критерии классификации таких систем. В этом анализе значительное внимание отводится использованию в семантическом поиске онтологий, которые содержат знания относительно предметной области поиска и относительно пользователя, для которого выполняется поиск. На основе анализа свойств существующих систем семантического поиска с точки зрения этих критериев выделенные области дальнейшего усовершенствования этих систем, предложена их реализация в системе семантического поиска "МАИПС".Problems in programming 2017; 1: 30-50 Розглянуто проблеми, пов’язані з удосконаленням пошуку інформації у відкритому середовищі, обґрунтована потреба в його семантизації. Проаналізовано сучасний стан та перспективи розвитку систем семантичного пошуку, орієнтованих на обробку інформаційних ресурсів Web, розглянуто критерії класифікації таких систем. В цьому аналізі значна увага приділяється використанню у семантичному пошуку онтологій, що містять знання щодо предметної області пошуку та користувача, для якого виконується пошук. На основі аналізу властивостей існуючих систем семантичного пошуку з точки зору цих критеріїв виділені області подальшого вдосконалення цих систем, запропоновано їх реалізацію у системі семантичного пошуку "МАІПС".Problems in programming 2017; 1: 30-50 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2018-11-20 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/220 10.15407/pp2017.01.030 PROBLEMS IN PROGRAMMING; No 1 (2017); 30-50 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2017); 30-50 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2017); 30-50 1727-4907 10.15407/pp2017.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/220/212 Copyright (c) 2018 ПРОБЛЕМИ ПРОГРАМУВАННЯ
spellingShingle	semantic search ontology; Semantic Web; personification of retrieval UDC 004,853 004.55 Rogushina, J.V. Classification of means and methods of the Web semantic retrieval
title	Classification of means and methods of the Web semantic retrieval
title_alt	Классификация средств и методов семантического поиска в Web Класифікація засобів та методів семантичного пошуку в Web
title_full	Classification of means and methods of the Web semantic retrieval
title_fullStr	Classification of means and methods of the Web semantic retrieval
title_full_unstemmed	Classification of means and methods of the Web semantic retrieval
title_short	Classification of means and methods of the Web semantic retrieval
title_sort	classification of means and methods of the web semantic retrieval
topic	semantic search ontology; Semantic Web; personification of retrieval UDC 004,853 004.55
topic_facet	semantic search ontology; Semantic Web; personification of retrieval UDC 004,853 004.55 семантический по- иск онтология; Semantic Web; персонификация поиска УДК 004.853 004.55 семантичний пошук онтологія; семантичний веб; персоніфікація пошуку УДК 004.853 004.55
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/220
work_keys_str_mv	AT rogushinajv classificationofmeansandmethodsofthewebsemanticretrieval AT rogushinajv klassifikaciâsredstvimetodovsemantičeskogopoiskavweb AT rogushinajv klasifíkacíâzasobívtametodívsemantičnogopošukuvweb

Classification of means and methods of the Web semantic retrieval

Institution

Ähnliche Einträge