Analytical review on information retrieval methods and applications in the Semantic Web
The article describes and analyzes the Information Retrieval (IR) methods and applications in the environment of Semantic Web. The author provided the basic Information Retrieval concepts, problems, models and classification of IR systems on various grounds. Examples of existing modern search engine...
Gespeichert in:
| Datum: | 2018 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Ukrainian |
| Veröffentlicht: |
PROBLEMS IN PROGRAMMING
2018
|
| Schlagworte: | |
| Online Zugang: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/168 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Institution
Problems in programming| id |
pp_isofts_kiev_ua-article-168 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/24/b138f50ba5c21a3afab027d970ed4124.pdf |
| spelling |
pp_isofts_kiev_ua-article-1682025-11-16T14:46:27Z Analytical review on information retrieval methods and applications in the Semantic Web Аналитический обзор методов и средств информационного поиска в Semantic Web Аналітичний огляд методів і засобів інформаційного пошуку в Semantic Web Grishanova, I.J. information retrieval; semantic search; search engines; Semantic Web UDC 681.3 информационный поиск; семантический поиск; поисковые системы; Semantic Web УДК 681.3 інформаційний пошук; семантичний пошук; пошукові системи; Semantic Web УДК 681.3 The article describes and analyzes the Information Retrieval (IR) methods and applications in the environment of Semantic Web. The author provided the basic Information Retrieval concepts, problems, models and classification of IR systems on various grounds. Examples of existing modern search engines, as well as highlighted the stages of development and listed a list of functional and architectural features of 3-rd search engines generation. The proposed model of IR extends the classification of search engines and search model with the possibility of finding new objects that have become available in the web, and use knowledge represented in the Semantic Web.Prombles in programming 2016; 1: 51-72 В статье изложены и проанализиро-ваны методы и средства информационного поиска в среде Semantic Web. Представлены базовые понятия информационного поиска, задачи, модели и классификация систем информационного поиска по различным признакам. Приведены примеры существующих современных поисковых систем, а также выделены этапы развития и перечислен перечень функциональных и архитектурных признаков 3-х поколений поисковых систем. Предложенная модель информационного поиска для новой среды Semantic Web и Web вещей расширяет классификацию поисковых систем и модель поиска с учетом возможности поиска новых обьектов, которые стали доступными в Web, и использования знаний, представленных в Semantic Web.Prombles in programming 2016; 1: 51-72 В статті надаються та аналізуються методи і засоби інформаційного пошуку в середовищі Semantic Web. Надаються базові поняття інформаційного пошуку, задачі, моделі та класифікація систем інформаційного пошуку за різними ознаками. Наводяться приклади існуючих сучасних пошукових систем, а також надається перелік ознак 3-х поколінь пошукових систем. Запропонована модель інформаційного пошуку в новому середовищі Semantic Web та Web речей розширює класифікацію пошукових систем та модель пошуку з урахуванням можливості пошуку нових об`єктів, доступних по інтернету, та використання знань, що подані в Semantic Web.Prombles in programming 2016; 1: 51-72 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2018-11-21 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/168 10.15407/pp2016.01.051 PROBLEMS IN PROGRAMMING; No 1 (2016); 51-72 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2016); 51-72 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2016); 51-72 1727-4907 10.15407/pp2016.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/168/162 Copyright (c) 2017 ПРОБЛЕМИ ПРОГРАМУВАННЯ |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-11-16T14:46:27Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
information retrieval semantic search search engines Semantic Web UDC 681.3 |
| spellingShingle |
information retrieval semantic search search engines Semantic Web UDC 681.3 Grishanova, I.J. Analytical review on information retrieval methods and applications in the Semantic Web |
| topic_facet |
information retrieval semantic search search engines Semantic Web UDC 681.3 информационный поиск семантический поиск поисковые системы Semantic Web УДК 681.3 інформаційний пошук семантичний пошук пошукові системи Semantic Web УДК 681.3 |
| format |
Article |
| author |
Grishanova, I.J. |
| author_facet |
Grishanova, I.J. |
| author_sort |
Grishanova, I.J. |
| title |
Analytical review on information retrieval methods and applications in the Semantic Web |
| title_short |
Analytical review on information retrieval methods and applications in the Semantic Web |
| title_full |
Analytical review on information retrieval methods and applications in the Semantic Web |
| title_fullStr |
Analytical review on information retrieval methods and applications in the Semantic Web |
| title_full_unstemmed |
Analytical review on information retrieval methods and applications in the Semantic Web |
| title_sort |
analytical review on information retrieval methods and applications in the semantic web |
| title_alt |
Аналитический обзор методов и средств информационного поиска в Semantic Web Аналітичний огляд методів і засобів інформаційного пошуку в Semantic Web |
| description |
The article describes and analyzes the Information Retrieval (IR) methods and applications in the environment of Semantic Web. The author provided the basic Information Retrieval concepts, problems, models and classification of IR systems on various grounds. Examples of existing modern search engines, as well as highlighted the stages of development and listed a list of functional and architectural features of 3-rd search engines generation. The proposed model of IR extends the classification of search engines and search model with the possibility of finding new objects that have become available in the web, and use knowledge represented in the Semantic Web.Prombles in programming 2016; 1: 51-72 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2018 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/168 |
| work_keys_str_mv |
AT grishanovaij analyticalreviewoninformationretrievalmethodsandapplicationsinthesemanticweb AT grishanovaij analitičeskijobzormetodovisredstvinformacionnogopoiskavsemanticweb AT grishanovaij analítičnijoglâdmetodívízasobívínformacíjnogopošukuvsemanticweb |
| first_indexed |
2025-07-17T10:04:29Z |
| last_indexed |
2025-11-17T02:17:26Z |
| _version_ |
1850412664351621120 |
| fulltext |
Моделі та засоби систем баз даних і знань
© І.Ю. Гришанова, 2016
ISSN 1727-4907. Проблеми програмування. 2016. № 1 51
УДК 681.3
І.Ю. Гришанова
АНАЛІТИЧНИЙ ОГЛЯД МЕТОДІВ І ЗАСОБІВ
ІНФОРМАЦІЙНОГО ПОШУКУ В SEMANTIC WEB
В статті надаються та аналізуються методи і засоби інформаційного пошуку в середовищі Semantic
Web. Надаються базові поняття інформаційного пошуку, задачі, моделі та класифікація систем інфор-
маційного пошуку за різними ознаками. Наводяться приклади існуючих сучасних пошукових систем, а
також надається перелік ознак 3-х поколінь пошукових систем. Запропонована модель інформаційного
пошуку в новому середовищі Semantic Web та Web речей розширює класифікацію пошукових систем
та модель пошуку з урахуванням можливості пошуку нових об`єктів, доступних по інтернету, та вико-
ристання знань, що подані в Semantic Web.
Ключові слова: інформаційний пошук, семантичний пошук, пошукові системи, Semantic Web.
Вступ
Філософське і історичне
визначення інформаційного
пошуку. Важливість
персоніфікації у процесі пошуку
Information retrieval (IR) is finding
material (usually documents) of an unstruc-
tured nature (usually text) that satisfies an in-
formation need from within large collections
(usually stored on computers) [1].
Інформаційний пошук є процес
знаходження матеріалу (зазвичай докумен-
тів) неструктурованої природи (частіше
текстів), які задовольняють інформаційній
потребі, у великих колекціях (зазвичай, які
зберігаються на комп`ютерах).
Класичне поняття інформаційного
пошуку (IR – information retrieval, ІП)
базується на задоволенні потреби користу-
вачів у пошуку інформації, тобто інформа-
ційної потреби (information need). Класич-
не визначення інформаційного пошуку
базується на підставі того факту, що кори-
стувач спонукається інформаційною пот-
ребою.
В найбільш загальному сенсі під
інформаційною потребою розуміється
необхідність в інформації, яка потребує
задоволення і зазвичай виражена в інфор-
маційному запиті. Наприклад, планування
поїздки формує інформаційну потребу ви-
вчити розклад руху поїздів та іншого тран-
спорту. Такий процес може бути викона-
ний різним чином – за допомогою телефо-
ну, безпосередньо в касах, в агенстві з
продажу квитків, або за допомогою пошу-
ку та сайту в Інтернеті. Однак незалежно
від форм задоволення інформаційної пот-
реби, сама по собі вона залишається не-
відмінною.
Необхідно зазначити, що коли не-
обхідний маршрут обрано та білети вже
придбані, ця інформація втрачає свою
цінність для користувача, при цьому вона
залишається цінною для інших потенцій-
них споживачів. Така властивість повної
втрати цінності інформації (її споживаць-
кої вартості) для певного споживача в пе-
вний момент, є важливою особливістю
інформаційної потреби, що суттєво відрі-
зняє її від інших видів потреб людини.
Одна й та сама інформація знов може ста-
ти предметом споживання в випадках,
якщо вона буде надана іншому спожива-
чеві, або якщо перед тим самим спожива-
чем знов стане така сама задача, або якщо
запас знань споживача зросте, що дозво-
лить йому побачити в цій інформації нові
аспекти.
Таким чином, інформаційні потреби
мають суто індивідуальний (персональ-
ний) характер. Вони залежать не тільки від
особливостей задач, що вирішуються, але
й від психологічних, освітніх та інших
особистих відмінностей особи, що прий-
має рішення.
Зазвичай виділяють два основних
типи інформаційних потреб:
поточні, які зумовлені притаман-
ною людині допитливістю і які виража-
ються в його прагненні бути в курсі усьо-
Моделі та засоби систем баз даних і знань
52
го, що відбувається в світі;
конкретні (спеціальні), які вира-
жаються в прагненні отримати інформа-
цію, необхідну для вирішення конкретної
задачі – дослідницької, професійної,
управлінської тощо [2].
Основна мета задачі інформацій-
ного пошуку – допомогти користувачу
знайти інформацію, яка йому необхідна.
Процес інформаційного пошуку в загаль-
ному вигляді включає в себе послідовність
операцій, які направлені на збір, обробку і
надання необхідної інформації зацікавле-
ним особам. Процес інформаційного по-
шуку складається з наступних етапів:
визначення (уточнення) інфор-
маційної потреби і формулювання інфор-
маційного запиту;
визначення сукупності можливих
інформаційних джерел;
вилучення інформації з виявле-
них інформаційних джерел;
ознайомлення з отриманою ін-
формацією і оцінювання результатів по-
шуку.
Базовими поняттями оцінювання
ефективності пошуку є релевантність та
пертинентність.
Вирішальною умовою ефективного
задоволення інформаційної потреби є чітке
усвідомлення і чітке вираження того, яка
інформація насправді потрібна споживаче-
ві для вирішення поставленого перед ним
завдання. Без цього важко розраховувати
на отримання релевантного та пертинент-
ного результату.
З моменту виникнення у людини
інформаційної потреби, він починає оці-
нювати всю інформацію, що надходить до
нього, під кутом зору цієї потреби, розді-
ляючи цю інформацію на релевантну і не-
релевантну. Іншими словами, інформацій-
на потреба виникає у людини при поста-
новці перед нею якогось завдання. Людина
обмірковує цю задачу, в результаті чого у
нього в мозку складається образ задачі, або
її модель. Цей образ і служить еталоном, з
яким порівнюється вся подальша інформа-
ція, що надходить. Якщо інформація має
відношення до еталону, вона вважається
доречною. Все, що не має відношення до
еталону – вважається нерелевантною ін-
формацією.
Під впливом міркувань над сутніс-
тю поставленої задачі та вмістом релеван-
тної інформації, що накопичується, уява
людини про цю задачу може уточнюватися
та змінюватися. Психологи називають та-
кий процес зростанням стану поінформо-
ваності про завдання.
Коли людиною накопичено необ-
хідну кількість інформації і виконано де-
який міркувальний процес, вона знаходить
рішення задачі. Після цього вся інформа-
ція, що пов’язана з рішенням задачі, пере-
міщується в зону архівного зберігання. Та-
ким чином, інформаційна потреба може
бути охарактеризована як усвідомлена по-
треба в інформації, яка необхідна для ви-
рішення поставленої задачі за розробленим
планом.
Можливо припустити, що процес
вирішення будь-якої наукової задачі почи-
нається з прийняття будь-яких передумов і
припущень, які в подальшому піддаються
коригуванню і зміні. Під образом чи мо-
деллю завдання слід розуміти гіпотезу, яка
є важливим засобом організації наукового
пошуку.
Вчення про психологічні установки
дозволяє пояснити поняття пертинентнос-
ті, яке є одним з ключових понять теорії
інформаційного пошуку. Під пертинент-
ністю розуміється відповідність знайдених
документів або відомостей справжній ін-
формаційній потребі вченого або спеціалі-
ста, яку він нерідко сам може ясно не усві-
домлювати.
З запропонованої інтерпретації сут-
ності інформаційної потреби та механізму
її задоволення випливає, що віднесення
інформації, що надходить до людини, до
категорії релевантної чи нерелевантної,
повністю визначається тим, який образ по-
ставленої задачі склався у даної людини.
Сам цей образ залежить, принаймні, від
трьох наступних факторів:
інформації, яка вже накопичена
людиною в її пам’яті;
обраного шляху рішення задачі;
темпів і проміжних результатів
рішення.
Моделі та засоби систем баз даних і знань
53
Ще раз необхідно зазначити, що об-
раз завдання під впливом інформації, що
надходить, та проміжних результатів рі-
шення цієї задачі, уточнюється або навіть
змінюється. У зв’язку з цим змінюються і
ознаки, за якими розпізнається і відбира-
ється релевантна інформація. Тому для
адекватного інформаційного обслугову-
вання фахівців необхідно, щоб процес по-
шуку був не тільки індивідуальним, але й
включав у себе постійний зворотній
зв’язок для своєчасного урахування змін у
його інформаційній потребі.
Базові поняття
інформаційного пошуку
Основним засобом передачі інфор-
мації у часі і просторі є документ. Доку-
мент визначається як засіб закріплення
будь-яким чином на спеціальному матері-
алі будь-якої (деякої) інформації про фак-
ти, події, явища об’єктивної дійсності і ро-
зумової діяльності людини [3]. Документи
мають різну форму подання. В автомати-
зованих інформаційно-пошукових систе-
мах це текстова інформація на природній
мові. В повсякденному житті – це може
бути друкована стаття, книга тощо. В Інте-
рнет це може бути рисунок, відео-ролик
або сайт.
З точки зору теорії інформації до-
кумент – це змістовно закінчена одиниця
інформації, яка представлена на якій-
небудь природній мові, що ідентифікуєть-
ся унікальним чином.
Поняття інформаційного пошуку
вперше запровадив в інформатиці амери-
канський математик Келвин Муерс в 1947
році. ІП називається деяка послідовність
операцій, яка виконується з метою знахо-
дження документів, які містять певну ін-
формацію (з подальшою видачею цих до-
кументів або їх копій), або з метою видачі
фактичних даних, які надають відповіді на
задані питання.
Спонукальним приводом інформа-
ційного пошуку, як було зазначено вище, є
інформаційна потреба, яка виражена у фо-
рмі інформаційного запиту. Об’єктами ін-
формаційного пошуку можуть бути доку-
менти, відомості про їх наявність та/або
місцезнаходження, фактографічна інфор-
мація.
Інформаційний запит представляє
собою інформаційну потребу, яка сформу-
льована на природній мові. Результат «пе-
рекладу» інформаційного запиту на інфо-
рмаційно-пошукову мову (ІПМ) називають
пошуковим образом запиту (ПОЗ). Син-
таксис і семантика ІПМ визначається
структурою і наповненням документів та
загальними задачами системи.
Інформаційний пошук розрізняють
наступним чином:
в залежності від мети – адресний
пошук (формально-механічний) та семан-
тичний (тематичний);
в залежності від об’єкта пошуку
– документний та фактографічний;
в залежності від ступеня викори-
стання технічних засобів – ручний або ав-
томатизований;
в залежності від функціональної
ролі – домінуючі/другорядні, центральні
/периферичні, сталі/ситуаційні потреби.
Усі види інформаційного пошуку
перетинаються, тому що цілі та об’єкти
часто взаємопов’язані. Наприклад, доку-
ментний і фактографічний види пошуку
можуть бути як адресними, так і семанти-
чними.
Інформаційний пошук здійснюється
за допомогою інформаційно-пошукових
систем. Інформаційно-пошукова система
(ІПС) – це комплекс пов’язаних між собою
окремих частин, який призначений для
виявлення в будь-якій множині елементів
інформації, які відповідають заданому
інформаційному запиту. Масив елементів
інформації, в якому виконується інформа-
ційний пошук, називається пошуковим
масивом.
Інформаційно-пошукові системи
розділяються на документальні та факто-
графічні. Документальні ІПС у відповідь
на запит видають оригінали, копії або
адреси місцезнаходження документів, що
містять потрібну інформацію. Підклас
документальних ІПС, які видають лише
бібліографічні описи документів, що
знайдені, іноді називаються бібліографіч-
ними ІПС.
Моделі та засоби систем баз даних і знань
54
На відміну від документальних ІПС
фактографічні пошукові системи призна-
чені для видачі безпосередньо необхідної
інформації (наприклад, температури ки-
піння якоїсь рідини, температури води в
морі біля конкретного населеного пункту;
структурних або молекулярних формул
хімічних сполук, що мають певні власти-
вості тощо).
Принципової відмінності між доку-
ментальними і фактографічними ІПС не-
має. Головною ознакою, що поєднує доку-
ментальні і фактографічні ІПС до одного
загального класу є те, що на запити вони
можуть видавати таку й тільки таку інфо-
рмацію, яка була раніше в них введена.
Кожна документальна ІПС (як руч-
на, так і автоматизована), містить наступні
частини:
ІПМ;
правила перекладу текстів доку-
менту і запитів з природної мови на ІПМ;
формальні правила (алгоритми)
пошуку;
технічні засоби, які реалізують
алгоритми пошуку;
масив (множина) документів (або
їх адрес), які записані на якихось носіях
інформації (в сучасних пошукових систе-
мах Інтернету – база індексу).
Інформаційний пошук здійсню-
ється за певними правилами, які визнача-
ють стратегію пошуку, тобто способи до-
сягнення оптимального результату. Стра-
тегія інформаційного пошуку залежить від
типу пошукової задачі, критеріїв видачі і
характеру діалогу між споживачами інфо-
рмації і ІПС.
В загальному вигляді процедура ін-
формаційного пошуку складається з чоти-
рьох етапів:
уточнення інформаційної потре-
би і формулювання запиту;
визначення сукупності інформа-
ційних масивів;
вилучення інформації з інформа-
ційних масивів;
ознайомлення користувача з
отриманою інформацією і оцінювання ре-
зультатів пошуку.
Найбільш загальний вигляд алгори-
тму пошуку, що проводиться незалежно
від форми носіїв і ступеня автоматизації,
показаний на рис. 1.
Рис. 1. Загальний вигляд алгоритму
пошуку
Постановка пошукової проблеми.
На цьому етапі користувач формулює точ-
не визначення і фіксує те, що буде шукати
і в якій області знань (предметній області –
ПрО). Таким чином множина пошуку зву-
жується визначеними межами.
Створення тезаурусу проблеми.
На цьому етапі користувач створює (скла-
дає) перелік слів, які найбільш повно відо-
бражають ПрО або проблему, що була ви-
значена. Як рекомендують спеціалісти з
бібліографічного пошуку, цей перелік по-
винен мати приблизно 10–15 слів.
В залежності від поставленого за-
вдання тезаурус може бути складений на
декількох мовах, для пошуку серед вітчиз-
няних та зарубіжних джерел інформації.
Робота над тезаурусом ведеться весь час, і
в процесі виявлення нових термінів вони
Моделі та засоби систем баз даних і знань
55
тут же додаються до тезаурусу. Найбільш
прийнятною є структура тезаурусу у ви-
гляді семантичних зрізів. У цьому випадку
для кожного основного терміну окремо
будується таблиця для супутних та шумо-
вих слів. Шумових слів у джерелі бути не
повинно. Тобто користувач отримує пакет
таблиць, які можна окремо розширювати і
модифікувати в ході пошуку.
Відбір джерел інформації для по-
шуку. Джерела інформації (масив) обира-
ються виходячи з характеру проблеми
(тобто де найбільш доступні та повно на-
дані джерела) та можливостей користувача
(доступ до Інтернету, бібліотеки тощо).
Виконання пошуку засобами, які
притаманні джерелу інформації. На цьому
етапі користувач з тезаурусу складає по-
шукові запити і реалізує їх методами по-
шуку, які специфічні для даного ресурсу. В
бібліотеці – це пошук в каталогах, якщо
інформацією володіють люди або органі-
зації – пошук та звернення до них, у мере-
жі Інтернет – використовуються пошукові
машини та каталоги, телеконференції та
списки розсилки, сайти та інше. Як фор-
мат, так і семантика запитів варіюється в
залежності від предметної області та вико-
ристовуваного інформаційного ресурсу.
Як рекомендують спеціалісти з бі-
бліографічного пошуку, запити необхідно
складати таким чином, щоб область по-
шуку була максимально конкретизована
та звужена. Необхідно віддавати перевагу
декільком вузьким запитам ніж одному,
але розширеному. В загальному випадку
для кожного основного поняття з тезауру-
су готується окремий пакет запитів. Після
чого проводиться пробне виконання запи-
тів – для уточнення та доповнення тезау-
русу, в тому числі для відсікання шумової
інформації.
Оцінювання отриманих резуль-
татів пошуку. В результаті пошуку ко-
ристувач отримує результативну множину
документів, які надалі необхідно проана-
лізувати і вирішити наскільки повно вони
покривають поставлену пошукову про-
блему.
Перелік ресурсів, отриманих у ре-
зультаті запиту, рекомендується обробляти
в два етапи. На першому етапі відсікають-
ся вочевидь нерелевантні джерела і знову
ж таки проводиться семантичний аналіз з
метою уточнення тезаурусу та модифікації
подальших запитів. На другому етапі об-
робки користувач послідовно вивчає ко-
жен з знайдених ресурсів для безпосеред-
нього аналізу інформації, що знаходиться
в них. У процесі аналізу отриманої інфор-
мації, її треба:
оцінити (за ступенем вірогіднос-
ті, важливості, таємності, пов'язаності між
собою, можливості використання);
інтерпретувати (в світлі інших
даних і глибинної інтуїції), виявивши її
місце в загальній мозаїці фактів;
визначити, чи потрібна (і яка)
додаткова інформація;
ефективно використати (врахува-
ти у своїх планах, передати кому слід, при-
тримати до потрібного моменту).
Прийняття рішення про продо-
вження (закінчення) пошуку. Якщо, оці-
нюючи результати пошуку, користувач
прийшов до висновку, що необхідна ін-
формація знайдена вся, тоді пошук можна
припиняти – подальші пошуки будуть
зайвою тратою дорогоцінного часу. У
зворотній ситуації (неповні відомості) ко-
ристувачеві доведеться приймати рішення
про те, на якому з етапів була допущена
помилка, і спробувати виправити її, після
чого повторити процес пошуку з цього
місця заново. В цьому випадку можливі
три варіанти: неправильно складений те-
заурус проблеми, неправильно обране ін-
формаційне джерело або користувач ско-
ристався недоцільними методами пошуку
(наприклад, виконував пошук суто науко-
вої інформації – статті за допомогою зага-
льно використовуваного пошукового Ін-
тернет-сервісу). Такі ітерації необхідно
повторювати, поки не буде досягнуто по-
зитивного результату. При цьому існує
стовідсотково методологічна проблема –
при ефективному пошуку завжди стоять
два суперечливих завдання: збільшення
охоплення з метою отримання максима-
льної кількості значимої інформації та
зменшення охоплення з метою мінімаль-
ного обсягу шумової інформації. І най-
Моделі та засоби систем баз даних і знань
56
складніше, як завжди, знайти золоту сере-
дину [4].
Найбільш ефективним методом
пошуку документів, які містять наукову
інформацію є вивчення (прочитання) кож-
ного окремого документу. Зрозуміло, що
такий спосіб є практично неможливим,
оскільки кількість документів, як правило,
буває занадто великим, щоб всі їх можна
було прочитати при кожному інформацій-
ному запиті. Тому доводиться використо-
вувати інший, менш ефективний метод,
при якому ІП здійснюється не за самими
текстами документів (умістом), а за корот-
кими характеристиками змісту або певни-
ми зовнішніми ознаками документів. Для
цього кожен документ забезпечується
пошуковим образом документа (ПОД) –
характеристикою, в якій стисло виража-
ється основний зміст документу. Як було
зазначено вище, інформаційний запит та-
кож має бути сформульований у вигляді
такої ж короткої характеристики – ПОЗ.
Завдяки цьому процедура ІП зводиться до
зіставлення ПОД з заданим ПОЗ. Якщо
ПОД з необхідною і достатньою мірою
збігається з ПОЗ, вважається, що цей
документ відповідає на інформаційний
запит. Таке зіставлення виправдане лише
тоді, коли пошуковий образ і пошуковий
запит формулюються в термінах однієї
мови, та ще такого, в якому кожна фраза
допускає одне й тільки одне тлумачення.
ПОД містить загальний опис змісту
документа. Тому такий метод не може
забезпечити знаходження в бібліотеці всіх
документів, які містять потрібну інфор-
мацію. Крім того, в масиві знайдених до-
кументів можуть бути такі, що фактично
не відповідають даному інформаційному
запиту. Такі документи створюють “по-
шуковий шум”.
Важливо пам’ятати, що інформація,
яка міститься в наукових документах,
об’єктивно підпорядковується закону роз-
сіювання. Повнота і точність пошуку яв-
ляють собою конкуруючі показники: під-
вищення одного з них веде до зниження
іншого. При збільшенні повноти пошуку,
ми неминуче зменшуємо його точність і,
навпаки, збільшуючи точність пошуку,
зменшуємо його повноту.
Ефективність інформаційного по-
шуку визначають показники, які характе-
ризують знаходження релевантних доку-
ментів. Вони підрозділяються на семанти-
чні (точність та повнота пошуку, коефіці-
єнт інформаційного шуму, коефіцієнт
втрат тощо) та техніко-економічні (опе-
ративність пошуку, вартість та трудоєм-
ність пошуку).
Відповідність знайдених у процесі
інформаційного пошуку знань або даних
інформаційній потребі користувача (в осо-
бовому випадку – інформаційному запиту)
називається пертинентністю. Змістовна
відповідність відображуваного результату
його запиту за формальними (синтаксич-
ними, морфологічними) ознаками назива-
ється релевантністю.
З проблемою інформаційного по-
шуку першими зіткнулися бібліотекарі.
Для того, щоб читачі могли знаходити в
фондах бібліотеки документи, які їх цікав-
лять, в ній створювалися різні каталоги та
вказівники. В одній з найбільших бібліотек
давнини – в Александрійській бібліотеці –
в 47 р. до н. е. нараховувалось біля 700
тис. томів (свитків папірусу). Складений
Калімахом каталог до фондів цієї бібліоте-
ки (приблизно в 250 р. до н. е.) мав обсяг
120 томів. Як основні елементи книгоопи-
су в цьому каталозі використовувалися
ім’я автора та назва (заголовок) твору.
Якщо твір не мав назви, то Калімах приво-
див його початкові рядки.
Простішим ПОД є його заголовок.
Спираючись на заголовок книги або статті
читач у більшості випадків може судити
про те, чи представляє для нього інтерес ця
книга або стаття і чи варто з нею ознайо-
митися досконало.
Анотацію та реферат документу та-
кож можна вважати його пошуковими
образами. Із збільшенням обсягу рефера-
тивних журналів кількість анотацій та
рефератів, що містяться в них, стало на-
стільки великим, що реферативні журнали
довелося забезпечувати додатковим дові-
дковим апаратом – системою покажчиків,
які значно полегшують для читачів рі-
шення інформаційно-пошукових задач.
Таким чином, реферативні журнали, а та-
кож реферативні журнали з системою по-
Моделі та засоби систем баз даних і знань
57
кажчиків – це найпростіші документальні
ІПС, розраховані на індивідуальне вико-
ристання.
Існує три основних типи інформа-
ційно-пошукових задач:
ретроспективний інформаційний
пошук, тобто пошук вже існуючих доку-
ментів (всіх або частини), які містять відо-
мості про певне питання;
термінове сповіщення окремих
спеціалістів (абонентів) про публікації, які
мають для них потенційний інтерес. Даний
тип інформаційного пошуку називається
виборчим (адресним) розподілом інформа-
ції. Він виконується за постійними інфор-
маційними запитами (так званими “профі-
лями інтересів”), які формуються самими
споживачами. Це окремий випадок інфор-
маційного пошуку;
пошук імен спеціалістів, які во-
лодіють інформацією з певного питання.
З розвитком Semantick Web та Web
речей, цей перелік розширюється можли-
вістю пошуку інформаційних об’єктів, які
доступні за допомогою Інтернету.
2. Класична модель
інформаційного пошуку
Базова стандартна модель, яка ви-
користовується в більшості книг з інфор-
маційного пошуку виглядає, як показано
на рис. 2 [5].
Рис. 2. Класична модель інформаційного
пошуку
Як було зазначено вище, користу-
вач, спонуканий інформаційною потре-
бою, складає запит на деякій мові запитів.
Запит посилається системі, яка вибирає з
колекції документів (масив інформації)
такі документи, що відповідають запиту
згідно з визначеними правилами відпові-
дності. Процес уточнення запиту може
використовуватися для створення нових
запитів та/або для очищення результатів.
Процес пошуку базується на викори-
станні визначеної моделі пошуку. Модель
пошуку характеризується наступними па-
раметрами:
форма подання документів і за-
питів;
критерій змістовної відповіднос-
ті;
методи ранжування результатів
запитів;
механізм зворотнього зв’язку для
оцінювання релевантності документів.
Наведемо стисло класичні моделі
інформаційного пошуку:
булева модель;
ймовірнісна модель;
векторна модель;
дескрипторна модель та моделі,
базовані на класифікаторах.
Булева модель. В цій моделі доку-
мент подається за допомогою набору тер-
мінів, які зберігаються в індексі. Кожен
термін представлений як булева змінна.
Документ (ПОД) подається як поєднання
термінів. Вагові коефіцієнти не вводяться.
Запит (ПОЗ) формується як довільний бу-
левський вираз, що складається з термі-
нів, пов’язаних логічними операціями
(AND, OR, NOT). Мірою відповідності є
значення статусу виборки (TRUE або
FALSE). Така модель проста в реалізації і
використовується в багатьох документа-
льних ІПС. Ефективність пошуку невисо-
ка і неможливо ранжування документів за
релевантністю.
Ймовірнісна модель. В основі
ймовірнісних моделей лежить принцип
його ранжування (Probabilistic Ranking
Principle, PRP). Цей принцип заключаєть-
ся в наступному – найбільш загальна ефе-
ктивність пошуку досягається у випадку,
коли результативні документи ранжують-
Моделі та засоби систем баз даних і знань
58
ся за убуванням ймовірності їх релевант-
ності запиту. Спочатку для кожного до-
кументу оцінюється ймовірність того, що
він релевантний запиту, а потім за цими
оцінками виконується ранжування доку-
ментів.
Для отримання таких оцінок існу-
ють різні способи, а також додаткові до-
пущення та гіпотези, які створені на основі
апріорних відомостей про документи ко-
лекції. Відповідно до цього існує багато
реалізацій ймовірнісної моделі пошуку.
Наприклад, така оцінка може бути обчис-
лена у відповідності з теоремою Байєса за
деякою функцією ймовірностей входження
термів даного документу в релевантні та
нерелевантні документи. Використовуючи
навчальну вибірку (навчальний масив да-
них) обчислюється ймовірність входження
заданого терму в релевантні та нерелеван-
тні документи [6].
Просторово-векторна модель
(Vector Space Model) запропонована Сол-
тоном в 1975 році, але на даний час має
велике поширення. Векторні моделі, на
відміну від булевих, дозволяють ранжува-
ти результативну множину документів за-
питу. Документи (та запити до них) пред-
ставляють собою набір векторів у
n-мірному просторі [7]. Простір містить
n базисних нормалізованих векторів, де n –
загальна кількість різних термів в усіх до-
кументах. Значення компонентів вектора
визначає вага терму (терміну). Показник
відповідності (релевантності) визначається
як оцінка кореляції між векторами. Така
кореляція може бути скалярним добутком
(множенням) вектора запиту на вектор до-
кументу [8]. Документи ранжують за спа-
данням скалярних добутків.
Дескрипторна модель є найпрос-
тішою моделлю пошуку. В ній документ
задається у вигляді набору, асоційованих з
ним зовнішніх атрибутів. У простих сис-
темах дескрипторного пошуку подання
документу описується сукупністю слів або
фраз лексики предметної області (ПрО),
які характеризують зміст документа. Ці
слова і словосполучення називаються де-
скрипторами. Індексування документу в
таких системах реалізується призначенням
для нього сукупності дескрипторів. При
цьому дескриптори можуть приписуватися
документу як на підставі його змісту, так і
на підставі його назви. Такі два процеси
називаються відповідно індексуванням до-
кументу за змістом та індексуванням за
назвою [9]. В деяких дескриптивних сис-
темах індексування документів здійсню-
ється вручну експертами ПрО, в інших во-
но виконується автоматично.
Дескрипторні системи можна відне-
сти до класу систем, орієнтованих на біб-
ліографічний пошук або пошук у каталозі.
Моделі, базовані на класифікато-
рах – є однією з різновидів найпростіших
моделей пошуку. Документ у цій моделі,
як і в дескриптивних системах, подається у
вигляді сукупності асоційованих з ним ат-
рибутів. Атрибутами є ідентифікатори
класів, до яких відноситься даний доку-
мент. Класи формують ієрархічну струк-
туру класифікатора. Запит може бути
представлений двома способами:
простий варіант, коли запитом є
ідентифікатор будь-якого класу з заданого
класифікатора. Критерій релевантності до-
кументу запиту – клас документу збігаєть-
ся з класом, поданим у запиті, або є його
підкласом;
складний варіант – в запиті мож-
на вказати кілька класів класифікатора.
Критерій релевантності документу запиту
– клас документу збігається з будь-яким із
зазначених у запиті класом, або є його
підкласом.
Моделі, базовані на класифікаторах,
близькі до булевських моделей.
Необхідно зазначити, що класичні
моделі розглядають незалежність слів (те-
рмів). Для подання документів та запитів
застосовується одразу декілька моделей.
Ефективність пошуку (інформацій-
но-пошукових систем) аналізується і ре-
гулюється перш за все за рівнем релеван-
тності й пертинентності в частині вдоско-
налення організації запитів користувачів,
пошуку за параметрами, за рахунок клас-
теризації, пошуку за подобою, ранжуван-
ням відгуків, використання «сюжетних
підходів», всебічного використання сема-
нтичних методів (у тому числі із застосу-
Моделі та засоби систем баз даних і знань
59
ванням автоматичного групування доку-
ментів за класифікатором, автоматичним
визначенням раніше незаданих або слабо
структурованих документів, ранжування
документів за змістовою релевантністю,
автоматичного аналізу та змістовного пе-
ретворення запитів, виявлення семантич-
но подібних документів на зразок порів-
нянню з еталоном, наприклад, з викорис-
танням матриці Александера).
3. Типи пошуку
Інформаційний пошук можна розді-
лити на наступні види:
повнотекстовий пошук – при
цьому здійснюється пошук в усьому змісті
документу. Прикладами повнотекстового
пошуку є більшість пошукових систем Ін-
тернету, як Yandex, Google тощо. Зазви-
чай, для прискорення пошуку повнотекс-
товий пошук використовує попередньо
створені індекси (індексну базу);
пошук за метаданими – це по-
шук за деякими атрибутами документу, які
підтримуються системою. Наприклад, на-
зва документу, дата створення, розмір, ав-
тор тощо. Прикладом пошуку за реквізи-
тами є діалог пошуку в файловій системі
(наприклад, в ОС MS Windows). Цей по-
шук зазвичай використовує дескриптивну
модель пошуку;
пошук зображення – це пошук
за вмістом зображення. Пошукова система
зазвичай використовує алгоритми штучно-
го інтелекту – порівняння за зразком та
пошуку за подібністю;
пошук музики – аналогічно по-
шуку зображення, виконує пошук за зраз-
ком у колекції музичних даних;
пошук інформаційних об’єктів
здійснюється в середовищі Web речей; ви-
конує комбінований пошук інформаційних
об`єктів, що доступні в Інтернет, з викори-
станням мета-описів цих об’єктів та з ура-
хуванням типу об’єкта.
4. Класифікація видів пошуку
Адресний пошук. Процес пошуку
документів здійснюється за суто формаль-
ними ознаками, які вказані у запиті. Для
здійснення такого типу пошуку необхідні
наступні умови:
наявність у документі точної ад-
реси;
забезпечення суворого порядку
розташування документів у запам’ято-
вуючому пристрої або в сховищі системи.
Адресами документів можуть бути
адреси Web-серверів та Web-сторінки,
елементи бібліографічного запису, адреси
зберігання документів у сховищі.
Документальний пошук. Процес
пошуку здійснюється в сховищі інформа-
ційно-пошукової системи первинних до-
кументів або в базі даних вторинних доку-
ментів, що відповідають запиту користу-
вача.
Існує два різновиди документально-
го пошуку:
бібліотечний, який спрямований
на знаходження первинних документів;
бібліографічний, який спрямова-
ний на знаходження відомостей про доку-
менти, які подані в вигляді бібліографіч-
них записів.
Фактографічний пошук. Процес
пошуку полягає у пошуку фактів, які від-
повідають інформаційному запиту. До фа-
ктографічних даних відносяться відомості,
які добуті з первинних або вторинних до-
кументів, або які отримані безпосередньо з
джерел їх виникнення.
Розрізняють два підвиди фактогра-
фічного пошуку:
документально-фактографічний,
який полягає у пошуку в документах фра-
гментів тексту, які містять факти;
фактологічний (опис фактів),
який припускає створення нових факто-
графічних описів у процесі пошуку шля-
хом логічної обробки знайденої фактогра-
фічної інформації.
Семантичний пошук. Цей пошук
полягає у пошуку документів за їх змістом.
Для здійснення такого типу пошуку необ-
хідні наступні умови:
переклад змісту документів і за-
питів з природної мови на інформаційно-
пошукову мову для створення пошукових
образів документу і запиту;
Моделі та засоби систем баз даних і знань
60
створення пошукового опису, в
якому вказується додаткова умова пошуку.
Принципова різниця між адресним
та семантичним пошуками полягає у тому,
що при адресному пошуку документ розг-
лядається як об’єкт з точки зору форми, а
при семантичному пошуку – з точки зору
змісту. При семантичному пошуку знахо-
диться множина документів без зазначення
адрес. Це є принциповою відмінністю ка-
талогів і картотек. Бібліотека – це є зіб-
рання бібліографічних записів без вказу-
вання адрес.
5. Інформаційний пошук у
Web-середовищі
Поява та розвиток Інтернету сприя-
ли розширенню поняття пошуку та появі
більш специфічного поняття Web-пошуку.
Оскільки в контексті Web фактори взаємо-
дії людини з комп’ютером та когнітивні
аспекти грають найважливішу роль, кори-
сно деталізувати цю модель, як показано
на рис. 3.
Рис. 3. Класична модель інформаційного
пошуку, поширена на Інтернет-мережу
(Web)
Як було зазначено раніше, інфор-
маційна потреба асоціюється з (виклика-
ється) деякою задачею. Ця потреба верба-
лізується (найбільш часто це виконується
ментально та не дуже чітко) та транслю-
ється в запит, що надається пошуковому
механізму. Цей процес висвітлення та
створення запиту з інформаційної потреби,
в контексті Web здобув велику увагу: в
статті Хольстера та Струбе [10] вказується
на тому, що досвідчені користувачі та но-
вачки конструюють запити по-різному.
Наварро – Пьєтро та ін. [11] вивели когні-
тивну модель для Web-пошуку, Мурамату
та Прат [12] дослідили ментальну модель
користувачів пошукових механізмів тощо.
Також у [13] необхідно зауважити, що всі
ці дослідження базуються на припущенні,
що Web-пошуковці мотивовані (спонуку-
вані) інформаційною потребою.
5.1. Таксономія Web-пошуку. В кон-
тексті Web, вираз “потреба спонукає за-
пит” часто не є інформативним. У 2002
році автор [14] класифікував запити у від-
повідності до їх намірів на три наступних
класи:
навігаційні запити. Такі запити
мають на меті негайний намір побачити
певний сайт;
інформаційні запити. Вони ви-
ражають намір отримати деяку інформа-
цію, яка вважається існуючою на одній або
більше Web-сторінках;
транзакційні запити. Ці запити
виражають намір виконати якусь Web-
опосередковану діяльність – покупку в
Інтернет-магазині, завантаження файлів
тощо.
Навігаційні запити. Метою таких
запитів є дістатися певного сайту, який ко-
ристувач має на увазі. Це визначено тим,
що користувач можливо відвідував цей
сайт у минулому, або він припускає, що
такий сайт існує. Наприклад:
Запит Можливий результат
compaq Http://www.compaq.com
Фуршет http://www.furshet.ua/
Газета
по-киевски
http://mycityua.com
Цей тип пошуку іноді вважається,
як пошук “загальновідомого предмету” в
класичному ІП. Прикладом такого пошуку
Моделі та засоби систем баз даних і знань
61
стало завдання “Пошук домашньої Web-
сторінки”, яке регулярно проводиться при
тестуванні пошукових систем при конфе-
ренції з текстового пошуку (Text Retrieval
Conference).
Навігаційні запити зазвичай мають
тільки один правильний результат.
Транзакційні запити. Мета таких
запитів полягає у тому, щоб досягти місця
(сайту), де можливо провести подальшу
взаємодію (транзакція) для досягнення
певної мети. До основних категорій для
таких запитів можна віднести здійснення
покупок, пошук різних Web-опосередко-
ваних сервісів, завантаження різного типу
файлів (зображень, пісень і т. д.), доступ
до деяких баз даних (наприклад, типу
Yellow Pages), пошук серверів (наприклад,
для ігор) і т. д.
Результати таких запитів з точки
зору класичного ІП дуже важко оцінити.
Все, що можливо – це бінарне значення
оцінки, скажімо, відповідно чи не відпові-
дно. Проте найбільш важливі для корис-
тувачів зовнішні чинники (наприклад, ціна
товару, швидкість обслуговування, якість і
таке інше), як правило, в загальних пошу-
кових системах недоступні.
Інформаційні запити. Метою та-
ких запитів є знайти інформацію, яка при-
пускається існує у Webі в статичній формі.
В подальшому взаємодій ніяких не перед-
бачається, за винятком читання. Під стати-
чною формою мається на увазі, що цільо-
вий документ не створюється як відповідь
на запит користувача. Ця різниця дещо ро-
змита, оскільки змішування результатів,
що характерно для третього покоління
пошукових систем, можливо, призведе до
використання динамічних сторінок.
В будь-якому випадку, інформацій-
ні запити – найбільш приближені до кла-
сичного поняття інформаційного пошуку
(IR), і тому вони далі будуть розглянуті
детальніше.
На відміну від звичайного пошуку,
більшість інформаційних запитів, що здій-
снюються в Інтернеті, семантично є над-
звичайно широкими, наприклад, “автомо-
білі” або “Сан-Франциско”, водночас як
деякі можуть бути вузькими, наприклад
“normocytic anemia” або “метрична систе-
ма”. Досліди інформаційних запитів, про-
ведені в [14] відзначають, що майже 15 %
усіх пошуків за бажану мету вважають га-
рну колекцію посилань за заданою темою,
ніж один добрий документ.
Експериментальні результати дослі-
дження типів запитів надані в таблиці.
Таблиця. Класифікація запитів користува-
чів
Type of
query
User Survey
Query Log
Analysis
Navigational 24.5 % 20 %
Informational ?? (estimated
39 %)
48 %
Transactional > 22 %
(estimated
36 %)
30 %
Пошукові системи необхідні для ви-
рішення всіх трьох типів запитів, хоча ко-
жен тип задовольняється досить різними
результати. Розуміння цієї таксономії має
важливе значення для успішного розвитку
Web-пошуку. Сучасні пошукові системи
добре вирішують інформаційні та навіга-
ційні запити, але транзакційні запити задо-
вольняються лише опосередковано. Шлях
підвищення ефективності пошуку лежить в
удосконаленні семантичного аналізу (тоб-
то розуміння того, про що запит) та змішу-
вання різних зовнішніх баз даних.
5.2. Визначення пошуку в Web-
середовищі. В зв’язку з появою Web, по-
няття пошуку в середовищі Інтернету на-
було іншого змісту. Поняття пошукової
системи стало більш широким та глибшим.
Наведемо декілька новітніх визначень по-
няття пошукової системи (Search Engine),
що прийняті нині в західній науковій літе-
ратурі.
Пошукова система – це комп’ютер-
на програма, яка отримує (retrieves) файли
або документи, або дані з бази даних або
з комп’ютерної мережі (зокрема, з Інтер-
нету) [15].
Пошукова система – це комп’ютер-
на програма, яка знаходить (finds) інфор-
мацію в Інтернеті шляхом пошуку слів,
Моделі та засоби систем баз даних і знань
62
які були введені (як запит – уточнення ав-
тора) [16].
Пошукова система – це комп’ютер-
не програмне забезпечення для пошуку
даних (з текстів або баз даних) для отри-
мання конкретної інформації, а також: сайт
у Web-мережі, який використовує програ-
мне забезпечення для пошуку ключових
слів на інших сайтів [17].
В контексті Web з огляду на тезу,
що „потреба спонукає запит”, у клас по-
няття пошукових систем почали включати
системи „запитання-відповідь” (answer
engine), які дуже часто є фактографічни-
ми ПС. Але деякі системи для отримання
результату пошуку вже починають вико-
ристовувати процедури логічного виводу.
Зважаючи на вищесказане, пошуко-
ва система, в контексті Web, використовує
спеціалізоване програмне забезпечення,
яке має на вході від користувача пошуко-
вий/і термін/и і на виході надає список
Web-сторінок, які вважаються найбільш
релевантними. Більшість пошукових сис-
тем мають величезні бази даних мільярдів
Web-сторінок. Розрізняють два типи Web-
пошукових систем: пошукові системи, ба-
зовані на кроулінгу та каталоги.
Пошукові системи, базовані на
кроулінгу (Crawler-based). Такі системи
створюють свої списки Web-сторінок ав-
томатично. Вони "сканують" (crawl) Інтер-
нет за допомогою робота-"павука" (spider,
програма, яка відвідує Web-сторінки, чи-
тає їх і слідує далі за посиланнями, знай-
деними на Web-сторінці), і повертають ко-
ристувачу результати пошуку, які ранжо-
вані у порядку важливості. Павук повтор-
но відвідує Web-сторінки кожні кілька мі-
сяців для найчастішого оновлення своєї
індексної бази відповідно до внесених на
Web-сторінки змін. Головна перевага по-
шукових систем, базованих на кроулінгу,
полягає у тому, що будь-які зміни, які вне-
сені до Web-сторінки, будуть впливати на
його базу і відповідно – результати пошу-
ку. Таким чином, актуальність змісту Web-
сторінок збігається з ключовими словами,
що використовуються для пошуку.
Каталоги, що створені людиною
(human based directory), залежать від лю-
дей, які його створили та поповнюють.
Вони виконують пошук за ключовими
словами в коротких описах Web-сторінок,
представлених Web-майстрами та спеціа-
лістами, що рецензують та перевіряють
каталог. Разом з цим, Web-сторінки перег-
лядаються людиною і розміщуються в від-
повідну ієрархію категорій. Таким чином,
зміни, внесені до Web-сторінки, на відміну
від скануючих пошукових систем, не бу-
дуть мати ніякого впливу на збережений у
каталозі опис. Отже, хоча на Web-сторінці
і міститься відповідна інформація, яка від-
повідає запиту, але вона не буде відобра-
жена в списку результатів пошуку доки
Web-майстер не змінить опис Web-
сторінки. Саме з цієї причини один з
найперших та найбільших каталог, сфор-
мований людиною Yahoo! перетворено у
більш популярну пошукову систему на ба-
зі сканеру. Таким чином утворюються
комбіновані пошукові системи. Оскільки
каталоги містять інформацію, перевірену
людиною, ця інформація використовується
для фільтрування та ранжування результа-
тів пошуку.
Окрім зазначеного вище, розрізня-
ють наступні типи пошукових механіз-
мів:
пошукові системи;
Web-каталоги;
віртуальні бібліотеки;
мета-пошукові механізми.
Пошукові системи (Search Engines)
є найбільш широким класом ІПС та най-
більш популярним і загальновживаним.
Вони характеризуються наступними влас-
тивостями:
мають базу даних Web-сторінок;
пошук здійснюють за ключовими
словами;
мають скануючого робота.
Яскравим прикладом такої системи
є пошукова система Google.
Web-каталоги (Web Directories). Як
було вказано вище, вони:
мають колекцію Web-ресурсів;
організовані за тематичними ка-
тегоріями в ієрархію;
Моделі та засоби систем баз даних і знань
63
організація в категорії та інше
проводиться вручну.
Приклад такого каталогу – загаль-
новідомий каталог Yahoo.
Віртуальні бібліотеки (Virtual
Libraries). Такі бібліотеки характеризують-
ся наступними ознаками:
мають колекцію Web-джерел;
оцінюються фахівцями з предме-
тної області;
слабо автоматизовані, живляться
людськими ресурсами.
Приклад типової бібліотеки – біблі-
отечний індекс Інтернету – Librarians Index
to the Internet www.lii.org.
Мета-пошукові механізми (Meta-
Search Tools). З назви видно, що такі меха-
нізми використовують ресурси інших по-
шукових систем, а результати фільтрують
та ранжують згідно своїх заданих правил.
Такі системи характеризуються:
не мають власної бази даних;
вони здійснюють запити до ін-
ших пошукових механізмів, розташованих
у Web;
мають дуже поганий дизайн і
можуть тільки змінювати порядок ранжу-
вання результатів.
Класичний приклад такої системи є
MetaCrawler.com. Такі системи користу-
ються попитом, оскільки вони повертають
більш короткий список посилань, що пси-
хологічно більш прийнятно для людини.
5.3. Еволюція пошукових систем
інтернет. У зв’язку з таксономією, наведе-
ною вище, в 2002 році в [14] було визначе-
но три етапи (генерації) розвитку Web-
пошукових систем.
Перше покоління пошукових сис-
тем використовувало в основному інфор-
мацію, яка знаходилась безпосередньо на
Web-сторінках (текст і форматування), ці
пошукові системи дуже близькі до класич-
них ПС. Такі системи виконують в основ-
ному тільки інформаційні запити. Типови-
ми прикладами таких систем в 1995–1997
роках були загальновідомі AltaVista,
Excite, Webcrawler і т. д. Ранжування сай-
тів відбувалося тільки за рахунок контенту
сторінок.
Важливі фактори, які враховувалися
при ранжуванні, включали щільність клю-
чових слів на Web-сторінці, назву, і місце-
знаходження цих ключових слів у цьому
документі. Також ПС першого покоління
для обчислення релевантності враховували
мета-тегі, використання ключових слів в
імені домену, а також в URL-адресі (до-
кладніше – див. [29]).
Основні спам-фільтри робили пере-
вірку на наявність ключових слів у тексті,
представлених на сторінці тим самим ко-
льором, що і фон документу, тобто неви-
димих людському зору. На той час
з’явилися перші портали, в наслідок чого
результати пошуку перетворилися у вели-
чезні рекламні щити та перевантажені ін-
формацією жовті сторінки.
Друге покоління пошукових сис-
тем (початок появи 1998–1999 рр.) харак-
теризується використанням інформації, яка
існує поза Web-сторінкою – Web-
специфічних даних таких, як аналіз поси-
лань (link analysis), тексту якорів (anchor-
text) та відстеження даних, що передають-
ся з http-запитом (click-through data). Та-
ким чином вони стали брати до уваги
структуру Web-мережі.
Друге покоління більш щільно
пов’язано з семантикою запитів, яка бе-
реться з аналізу даних, що подані у Webі
поза сторінки. Деякі з основних компоне-
нтів, які вони використовують є відсте-
ження кліків (tracking clicks), репутація
сторінки (page reputation), індекс популя-
рності (link popularity), темпоральні спо-
стереження (temporal tracking, кількість
часу, що проводять відвідувачі на сторін-
ці), та якість посилань (link quality). Піз-
ніше, ПС другого покоління почали вико-
ристовувати вектори термів (term vectors)
[18], аналіз статистики відвідування (stats
analysis), кеш-дані (cache data) і контекст.
Як аналіз контексту розглядається пошук
на сторінці пар ключових слів, які скла-
даються з двох слів. Це дозволяє краще
виконати віднесення сторінки до певної
категорії.
Першою системою, яка почала ви-
користовувати аналіз посилань між сторі-
Моделі та засоби систем баз даних і знань
64
нками як один з основних факторів ранжи-
рування, стала система Google (PageRank).
ПС DirectHit стала першою, хто побудував
ранжування на аналізі даних, що переда-
ються під час http-запиту. В даний час всі
основні системи використовують всі ці ти-
пи даних. Використання Google PageRank
та метод відстеження кліків DirectHit та
тривалості візиту, підвищило ефективність
пошуку.
Пошукові системи другого поко-
ління підтримують як інформаційні, так і
навігаційні запити. Аналіз посилань та
текст якорів мають вирішальне значення
для навігаційних запитів.
Третє покоління пошукових сис-
тем. На даний час третє покоління пошу-
кових систем знаходиться в стані заро-
дження та початкового розвитку. Ці пошу-
кові системи є спробою поєднати дані з
різних джерел для досягнення головної
мети – видачі результату, що відповідає
потребі користувача. Наприклад, на запит
„Ялта”, ПС має надавати пряме посилання
на сторінку бронювання готелів у Ялті,
сервер мап з мапою міста, на сервер пого-
ди з інформацією про погоду і т. д. Таким
чином, третє покоління – це покоління
пошукових систем, які виходять за рамки
обмежень фіксованої бази даних за допо-
могою семантичного аналізу, визначення
контексту пошуку, вибору динамічної бази
даних і т. д. Завдання полягає у тому, щоб
забезпечити інформаційні, навігаційні і
транзакційні запити.
Третє покоління пошукових техно-
логій покликані об’єднати масштабова-
ність існуючих Інтернет-пошукових сис-
тем з новими та удосконаленими моделями
пошуку релевантності; вони починають
враховувати вподобання користувача,
співробітництво, колективний інтелект,
багатий досвід користувачів, та багато ін-
ших спеціалізованих можливостей, які ро-
блять інформацію більш значимою, а по-
шук – більш продуктивним.
Пошукові системи третього поко-
ління додають до бази даних векторів тер-
мів похідні слова (word stemming) і тезау-
рус, що надає допомогу у здійсненні по-
шуку за контекстом [19]. Автоматичне ви-
значення ключових пар також допомагає
автоматичній категоризації сторінки, ви-
значенню де користувач хоче провести
покупку, а де – здійснити пошук, що
має видати абсолютно різні результати
пошуку на основі контексту або намірів
користувача.
Технології третього покоління зба-
гачені картами Web, які є корисними для
фільтрації – видалення дублікатів сайтів,
а також багатьох самостійних сторінок,
які привертають трафік на всього лише
декілька ключових слів. Це означає, що
сторінки типу дорвеєв (doorways), гейтвеєв
(gateways), вхідних (entry, splash) – спеціа-
льно створені спам-сторінки для цільової
розкрутки сайту на визначені позиції клю-
чових слів, незабаром будуть відфільтро-
вані.
Вони також будуть витягувати як
можна більше даних про індивідуальні
пошукові звички користувача. Всі основні
пошукові системи планують створення пе-
рсональних профілів та агентів, які будуть
накопичувати знання про користувача
протягом певного періоду часу та викорис-
товувати їх виходячи з минулих пошуко-
вих звичок.
Поява Семантичного Web (доклад-
ніше див. [20]) надало нові можливості і
ще більше диференціювало поняття інфо-
рмаційного пошуку. Семантичний Web
надав можливість використовувати існу-
ючу семантичну інформацію – подану за
допомогою семантичної розмітки, вико-
ристовуючи семантичні зв'язки, виконую-
чі різні операції виведення на семантич-
них даних, а також порівняння семантич-
ної інформації. Змінюється і алгоритм ра-
нжування результуючих документів –
вводиться поняття семантичного ранжу-
вання документів. Змінюється алгоритм
пошуку, він стає дедалі розподіленим,
змінюються методи задання пошукового
запиту. Поява різних типів поданої у Web
інформації (різної модальності – мульти-
медійної інформації, відео, аудіо тощо)
потребує використання інших підходів.
Існуюче розділення пошуку за типом
інформації – пошук відео, пошук карти-
нок, тощо (Google, Яндекс) – дуже стис-
нено і неінформативне. Існує синергетич-
на потреба – виконання пошуку в різних
Моделі та засоби систем баз даних і знань
65
типах інформації та подальше змішування
результатів.
Поява нового явища – Web речей
(Web Of Things), який містить не тільки
звичні документи, але й електронні при-
строї та інші побутові речі, які підключені
до Інтернету і можуть керуватися і знахо-
дитися віддалено, також потребує враху-
вання таких нових типів інформаційних
об’єктів.
Таким чином, пошукові системи
3-го покоління виходять за рамки класич-
ного (традиційного) поняття пошуку в
зв’язку з появою нових типів інформації та
нових вимог, що ставлять користувачі пе-
ред пошуковими системами.
В західній літературі з`явився тер-
мін Search 2.0, який асоціюється з третім
поколінням, але має більш чіткі обриси і
більш орієнтовано на бізнес-аудиторію
[21]. У Webі вже існує десяток проектів,
які вважаються проектами Search 2.0 –
Swicki (http://www.swicki.com/), Rollyo
(http://www.rollyo.com/),
Clusty (http://www.clusty.com/),
Wink (http://www.wink.com/),
Lexxe (http://www.lexxe.com/), тощо.
5.4. Приклади технологічних рі-
шень пошукових систем третього поко-
ління. З розвитком нових технологій та
стандартів, паралельно з науковими дослі-
дженнями, та спираючись на них, компанії
бізнес-сектору прагматично розвивають
нове покоління пошукових систем – «ро-
зумних» ПС, "smarter" search engines. На-
ведемо приклади таких технологічних рі-
шень пошукових систем, які інтелектуалі-
зують процес пошуку за рахунок:
структурування та представ-
лення (подання) даних, отриманих з Інтер-
нету;
реалізації семантичної фільтра-
ції за якістю;
організації пошуку серед струк-
турованих даних в Інтернеті;
пошуку в режимі реального ча-
су в Інтернеті;
пошуку в «глибинному» Web
('deep web') [22].
Структурування та подання даних
Wolfram Alpha (Система обчислю-
вання знань, Computational Knowledge
Engine, http://www.wolframalpha.com/,
2009). Цей амбіційний проект стартував 5
березня 2009 року. Автор цього Web-
сервісу – британський фізик Стівен Воль-
фрам (Stephen Wolfram), голова компанії
Wolfram Research, розробник широко ві-
домої у наукових колах програми
Mathematica.
На відміну від традиційних пошу-
кових систем, які обмежуються тим, що за
запитом користувача видають список по-
силань на сайти, які мають відповідати за-
питу, сервіс Wolfram Alpha самостійно
аналізує запити користувача і представляє
йому зведену релевантну інформацію.
З огляду на прийняту класифікацію
ця система є системою „питання-
відповідь”. Автор позиціонує систему не
як пошуковий сервіс (search engine), а як
Computational Knowledge Engine ( «систе-
му обчислювання знання»).
Ця система об’єднує обчислювальні
потужності Mathematica з інструментами,
які експліцитно оперують з усіма типами
даних з тим щоб надати точну відповідь на
запитання, яке сформульоване в природ-
ньомовній формі, в будь-яких можливих
предметних областях [23]. Оскільки ця си-
стема є бізнес-застосуванням, докладного
опису її функціювання у вільному доступі
не має.
Спочатку Wolfram Alpha працював
у закритому (тестовому) режимі, а з 18
травня 2009 р. Web-сервіс відкритий для
всіх бажаючих. За час закритого тестуван-
ня було оброблено близько 23 млн. запи-
тів, а за перший тиждень після відкриття –
близько 100 млн. На сьогоднішній день
Wolfram Alpha є безкоштовним Web-
сервісом.
Предметні області, які обробляють-
ся в системі – математика, фізика, хімія,
астрономія, статистика та дані статистич-
ного аналізу, дати та час, географія, пого-
да, здоров’я та медицина, культура та ме-
діа, музика та освіта, люди та історія, фі-
нанси, лінгвістика і досягнення високих
технологій, спорт тощо.
Моделі та засоби систем баз даних і знань
66
Можливості системи [24]:
переведення одиниці виміру з
однієї системи в іншу;
якщо задати хімічну формулу,
система видасть основну інформацію про
цю речовину / хімічний елемент;
якщо ввести в рядок пошуку 1
apple + 1 orange, – система видасть кіль-
кість калорій, протеїнів, вітамінів, відсут-
ність / наявність холестерину і т. д.;
якщо ввести назву міста, то си-
стема видає інформацію про те, де воно
знаходиться, кількість жителів, схематичне
розташування на карті, поточний час, по-
точну температуру, вологість, швидкість
вітру, стан хмарності, висоту над рівнем
моря, найближчі міста (з відстанню до них
і з кількістю мешканців у цих містах). На-
тиснувши на посилання „Show coordi-
nates”, можна дізнатися координати міста.
Натиснувши на посилання „Satellite
image”, система завантажить знімки міста з
супутника (буде завантажений сайт "Карти
Google");
система виконує різні обчис-
лення: якщо ввести в рядок пошуку, на-
приклад, $ 999 + 15 %, Wolfram Alpha зро-
бить необхідні обчислення;
система надає інформацію про
будь-який сайт. Якщо ввести в рядок по-
шуку URL сайту, система видасть деталь-
ну інформацію: хто є хостинг-
провайдером, де він розташований, кіль-
кість переглядів і кількість візитів за добу,
site rank, найменування і розмір титульної
сторінки, кількість вихідних посилань, кі-
лькість «зображень»;
система може проводити не
тільки найпростіші обчислення, але й ви-
рішувати різні рівняння: якщо ввести, на-
приклад, x ^ 3 sin (x), система видасть рі-
шення у вигляді графіка та в аналітичному
вигляді;
обробка музики, якщо ввести в
рядок пошуку, наприклад, C Eb GC, то си-
стема надасть вичерпну інформацію про ці
музичні ноти;
обробка імен, якщо ввести два
різних імені, наприклад, Vera, Natasha, в
результаті система видає статистичні дані,
що свідчать про те, як часто використову-
ються ці імена;
обробка фінансової інформації:
система може надавати інформацію про
економічний стан (наприклад, про наяв-
ність акціонерного капіталу, вартості одні-
єї акції і т. д.) двох компаній, назви яких
вводяться у пошуковий рядок з пробілом
між назвами;
обробка часової інформації:
якщо ввести дату в форматі, наприклад,
august 28, 1959, то система видасть, який
це був день тижня, можна буде підрахува-
ти, скільки часу (років, місяців, тижнів,
днів) пройшло з цієї дати, хто з відомих
людей народився в цей день, які свята
припадають на цей день.
Для того, щоб дізнатися джерела
інформації, які використовував Wolfram
Alpha, унизу, під знайденої інформацією
знаходиться кнопка „Sources”.
Всю інформацію, яку згенерував
(«навольфраміл» – сленг) Wolfram Alpha,
можна зберегти у вигляді PDF-файлу.
Нажаль, система обробляє тільки
англомовні запити.
Google Squared
Google Squared – цей експеримен-
тальний пошуковий механізм було заяв-
лено 3 червня 2009 р. На відміну від кла-
сичних – «традиційних» пошукових сис-
тем, Google Squared не видає на запит ко-
ристувача сторінку зі списком посилань
на Web-ресурси, що відповідають запиту.
Як результати пошуку користувачу виво-
диться зведена таблиця з інформацією з
запросу. Тобто Google Squared, як і сервіс
Wolfram Alpha, самостійно аналізує (на-
магається аналізувати) запити користува-
ча і надає йому зведену релевантну інфо-
рмацію.
В офіційному блозі пошукового гі-
ганта сказано так: «...Squared Google не
шукає Web-сторінки за вашим запи-
том…він автоматично вибирає і організо-
вує факти зі всього Інтернету» [25].
Як і Wolfram Alpha, сервіс Google
Squared не підтримує українську та росій-
ську мови.
Порівняльне тестування Google
Squared та Wolfram Alpha, наведене авто-
Моделі та засоби систем баз даних і знань
67
ром у червні 2009 р. в [26] показує, що
аналітичні характеристики і можливості
системи Google Squared на даний час явно
поступаються Wolfram Alpha.
Google Squared був експеримента-
льним проектом, в якому корпорація
Google проводила тестування функціоналу
роботи пошукової системи з урахуванням
структурованої інформації та початком
інтелектуальної обробки знань. На даний
час проект закрито.
Sensebot
SenseBot (http://www.sensebot.net/,
2008 р.) заявлена як семантична пошукова
система, яка на пошуковий запит генерує
текстові анотації (резюме), складені з Web-
сторінок, які відносяться до теми пошуко-
вого запиту. Ця система для вилучення
змісту з Web-сторінок і представлення йо-
го користувачеві узгодженим чином вико-
ристовує інтелектуальну обробку текстів
(text mining) і мультидокументну сумарі-
зацію (multidocument summarization). Ра-
зом з результатами система видає „семан-
тичну хмару” концептів ("Semantic Cloud"
of concepts), що дозволяє направити увагу
та керувати результатами.
Оскільки SenseBot є семантичною
пошуковою системою, це означає, що вона
намагається зрозуміти семантику отрима-
них у результаті сторінок. Вона викорис-
товує, як було зазначено вище, інтелектуа-
льну обробку текстів для розбору Web-
сторінок і визначення їх основних семан-
тичних концептів.
На верхньому рівні, система отри-
мує джерела, які видаються пошуковою
системою як результат. Після цього сис-
тема виконує інтелектуальну обробку тек-
сту, отриманого з кожного джерела, вилу-
чаючи ключові концепти. Подібності між
джерелами оцінюються і ті, що семантич-
но знаходяться далеко від запиту або не
зв`язані з загальною масою знайдених
джерел, відкидаються. Концептам прис-
воюється вага, а також для концептів, які
представлені у запиті, задаються префе-
ренційні значення. Після чого виконуєть-
ся відповідно до запатентованого алгори-
тму мультидокументна сумаризація – збір
підсумкового документу, складеного з те-
кстів резюме, які згенеровані зі знайдених
документів. Таким чином, на запит корис-
тувача фактичними результатами Web-
пошуку є резюме, згенероване зі знайде-
них документів.
Найкращі результати можуть бути
досягнуті на множині текстових докумен-
тів, які по суті знаходяться близько до за-
даної теми. Найкраща область застосуван-
ня цієї системи, як зазначає її розробник, є
вертикальні пошукові системи і портали –
фінансові, медичні, правові, бібліотеки і
т. д. Що стосується загального Web-
пошуку, деяка кількість "шуму" неминуча,
навіть для тих джерел, що знаходяться на
перших сторінках результатів, які вважа-
ються найбільш релевантними [27].
Реалізація семантичної фільтрації
інформації за якістю
Hakia
Цей відомий проект (http://www.
hakia.com/) засновано в 2004 р. Для робо-
ти системи була розроблена альтернатив-
на інфраструктура, яка використовує ал-
горитм SemanticRank, який використовує
онтологічну семантику, обчислювальну
лінгвістику та нечітку логіку. На час, коли
система була в відкритому доступі, вона
охоплювала тільки предметну область з
медицини та здоров’я. Заявлялося, що се-
мантична технологія Hakia забезпечує но-
вий досвід пошуку, який орієнтований на
якість, а не популярність. Для проведення
подальшого дослідження в галузі ІП до-
сить корисними є основні 3 критерії, яким
одночасно мають задовольняти якісні ре-
зультати:
якісні результати надходять з
заслуговуючих довіри Web-сайтів, реко-
мендованих бібліотекарами або довірени-
ми особами;
якісні результати представля-
ють собою найбільш свіжу наявну інфор-
мацію;
якісні результати залишаються
абсолютно релевантними до запиту.
Проект був відкритий для користу-
вання до квітня 2014 р. На даний час його
повністю закрили і надалі використовують
http://www/
Моделі та засоби систем баз даних і знань
68
для закритих комерційних рішень з підт-
римки Web-сайтів з обмеженою ПрО.
Організація пошуку серед
структурованих даних у Webі
SWSE
На даний час вже існує багато да-
них, які відповідають запропонованим
стандартам Семантичного Webу (напри-
клад RDF та OWL). Вже існує багато ма-
лих вертикальних словників і онтологій,
які все більше використовуються різними
спільнотами для вирішення своїх конкрет-
них задач: користувачі Webу публікують
описи своїх профілів з використанням фо-
рмату FOAF (Friend of a Friend), провайде-
ри новин транслюють добірку новин у ви-
гляді RSS (RDF Site Summary), зображення
анотуються з використанням різноманіт-
них RDF-словників тощо.
SWSE (http://swse.deri.org/) предста-
вляє собою сервіс, який постійно вивчає та
індексує Семантичний Web (Semantic
Web) і забезпечує легкий у використанні
інтерфейс, за допомогою якого користува-
чі можуть знайти дані, які вони шукають.
SWSE індексує триплети RDF або
OWL, знайдені в Web, і надає послугу з
пошуку серед цих триплетів.
На даний час проект закритий для
зовнішнього використання і інтегрований
у загальні проекти консорціуму W3C.
Swoogle
Swoogle (http://swoogle.umbc.edu/)
–пошукова система, створена спеціально
в рамках розвитку Семантичного Web.
Кроулери Swoogle сканують Web з метою
пошуку спеціального класу Web-доку-
ментів, які називаються семантичними
Web-документами, тобто які написані мо-
вами RDF або OWL. Ця пошукова систе-
ма індексує знайдені семантичні докумен-
ти і зберігає їх, поступово формуючи он-
тологічну базу знань, та виконує пошук
серед RDF-триплетів, видаючи в резуль-
татах пошуку посилання на джерела, які
їх містять та фрагменти відповідних онто-
логій. Пошук здійснюється за ключовими
словами та з використанням додаткових
онтологічних конструкцій – обмежень.
Аналогічні функції пропонують і
пошукові системи WatsOn, Semanticweb-
search, Sindice (http://sindice.com/), Falcons.
Пошук у Web у режимі реального часу
Topsy
Пошукова система Topsy
(http://www.topsy.com/) у режимі реально-
го часу сканує інформацію, яка постійно
генерується користувачами соціальних
мереж Twitter, Digg, тощо. Якщо повідом-
лення містить посилання на Web-
сторінку, то в разі, якщо за алгоритмом
системи таке посилання буде вважатися
важливим, воно буде проіндексоване. Та-
ке індексування пошукова система прово-
дить у режимі реального часу – поява но-
вого посилання на сервісі одразу викликає
процес індексування. Алгоритм визначен-
ня важливості посилань враховує багато
умов, одними з головних є авторитетність
джерела інформації та рівень довіри
(trust).
Кінцевим результатом роботи по-
шукової системи є пошуковий досвід, який
дозволяє користувачам знаходити свіжий,
найбільш соціально значущий контент у
реальному часі у Web. Результати пошуку
індексуються в залежності від їх актуаль-
ності та популярності. Окрім текстової ін-
формації, система індексує фото та відео, а
також інформацію з соціальних мереж
(твіти, пости тощо).
Scoopler
Scoopler – один з найкращих старта-
пів, який запропонував виконання пошуку
в режимі реального часу. Аналогічно по-
шуковій системі Topsy, робот цієї ПС зби-
рає і організовує контент актуального типу
– новини, фотографії та відеоматеріали
значних подій, а також посилання на най-
гарячіші нотатки поточного дня. Джерела-
ми контенту, який індексується, є постійні
оновлення, що поступають з сервісів
Twitter, Flickr, Digg, Delicious тощо. На да-
ний час система викуплена корпорацією
Google і використовується для пошуку в
соціальній мережі Google+.
Моделі та засоби систем баз даних і знань
69
Пошук в «глибинному» Web ('deep web')
DeepDyve
DeepDyve (http://www.deepdyve.com/)
– пошуково-„дослідницька” система, яка
використовує власні (комерційні) техноло-
гії пошуку та індексування, що дозволяють
відбирати багатий, релевантний контент з
тисяч журналів, мільйонів документів і мі-
льярдів незадіяних Web-сторінок глибин-
ного Web. Дослідники, студенти, технічні
спеціалісти, бізнес-користувачі, а також
споживачі іншої інформації, можуть отри-
мати доступ до багатої інформації, що збе-
рігається в „глибинному Web” – інформа-
ції, яка складає переважну більшість в Ін-
тернеті, але не індексується традиційними
пошуковими системами. Пошуково-
дослідницька система DeepDyve відчиняє
шлях до цього поглибленого професійного
контенту і повертає результати, які не на-
вантажені інформацією з оглядових (рефе-
ративних) сайтів та іншою нерелевантною
інформацією.
Система використовує запатенто-
ваний алгоритм KeyPhrase ™, який засто-
совує метод індексації, отриманий при
дослідженнях в області геноміки. Алго-
ритм шукає збіг патернів і символи за
спеціальною метрикою. Система знахо-
дить відповідність документів там, де
традиційні пошукові системи нічого не
знаходять. Тому ця система ідеально під-
ходить для пошуку складних даних, що
містяться в глибинному Web.
Також існує багато пошукових сис-
тем, що виконують пошук у глибинному
Web, які спеціалізуються на конкретній
предметній області та містять перевірені і
рецензовані спеціалістами статті. Такі ПС,
як правило, мають вузько спрямовані ре-
позиторії, що надає реальну перевагу для
цілеспрямованого пошуку дослідника в
певній ПрО.
До таких спеціалізованих порталів
можна віднести Mednar (www.mednar.com)
– портал з глибинного пошуку в галузі
медицини, Biznar (www.biznar.com) –
пошук в бізнес-галузі, Worldwidescience
(www.worldwidescience.org) – глобальний
науковий портал, Science.gov
(www.science.gov) – науковий портал
уряду США, Scitopia (www.scitopia.org) –
пошукова система наукової інформації і
патентів, Nutrition.gov (www.nutrition.gov)
– портал, який містить інформацію про
здоров’я. Більшість порталів глибинного
Web підтримують механізми кластеризації
за темами.
Висновки
Однією з причин підвищеного ін-
тересу до проекту Semantic Web є надія на
поліпшення пошуку в Web. Дослідження з
цієї проблеми ведуться в різних напрям-
ках і дають різноманітні результати у ви-
гляді різних пошукових систем. Такі сис-
теми, як Swoogle, дозволяють лише вико-
нувати пошук онтологій за ключовими
словами. Але такий сервіс є дуже корис-
ним для розробників семантичних систем
і онтологій, хоча він і не розрахований на
звичайного користувача. [28]. Джерелами
інформації у них служать набори RDF-
даних, включаючи дані, що пов’язані в
рамках проекту Linked Open Data і мікро-
формати.
Можна відзначити й інші пошукові
системи Semantic Web, багато з яких зна-
ходяться на стадії бета-тестування, тому
оцінити їх можливості поки важко. Деякі
системи йдуть шляхом „углиблення у
Web”, інші – більш прискіпливо розвива-
ють алгоритми інтелектуального аналізу
та використовують різноманітні джерела
інформації про документи, які знаходять-
ся „поза-документом” у Web. Розвиток
технологій інформаційного пошуку приз-
вів до інтенсивного використання мета-
інформаційно-пошукових систем, багато-
агентних інформаційно-пошукових сис-
тем, систем, побудованих на реалізації
онтологічних, мовних та управлінських
угод і їм подібних. Більшість пошукових
систем йдуть шляхом розвитку персоналі-
зації пошуку, тобто розпізнання та задо-
волення потреб користувача.
Традиційні пошукові системи ста-
ють все більш точними та об’ємними, од-
нак вони не можуть перевершити інтелект
людини. Вони можуть лише порівнювати
слова, а не зміст ідеї, яка обговорюється
ними. Нові технології пошукових систем
3-го покоління ще знаходяться в стадії
формування, але вже нині вони дають по-
Моделі та засоби систем баз даних і знань
70
зитивні результати. Новий пошук може
допомогти зробити пошук більш значу-
щим, суб’єктивним і прив’язаним до задач
(task-based), що стоять перед користува-
чем. Таким чином, розвиток пошукових
систем йде в напрямку задоволення пот-
реб окремого користувача, з його перева-
гами, характером, звичками, поведінкою,
рівнем підготовки і знань тощо.
1. Christopher D. Manning, Prabhakar
Raghavan, Hinrich Schütze. An Introduction
to Information Retrieval, Online edition (c)
2009 Cambridge UP, Draft of April 1,
2009,Website:
http://www.informationretrieval.org
2. Черний Ю.Ю. Школа наукової інформації.
Інформаційні потреби. Основи інформа-
ційного пошуку,
http://www.bogoslov.ru/text/321597.html
3. Захаров В.П. Информационно-поисковые
системы. Учебно-методическое пособие,
Санкт-Петербург, 2005.
4. Медведь В.Н. Методы поиска информации,
http://northedu.ru/content/view/115/159/
5. Van Rijsbergen C.J. Information Retrieval.
London: Butterworths, 1979. Available at
http://www.dcs.gla.ac.uk/Keith/Preface.html
6. Шарапов Р.В., Шарапова Е.В., Саратовце-
ва О.А. Модели информационного поиска.
7. Некрестьянов И.C. Тематико-ориентиро-
ванные методы информационного поиска:
Дис. … канд. техн. наук. – Санкт-
Петербургский государственный универ-
ситет. – СПб, 2000. – 88 с.
8. Дубинский А.Г. Некоторые вопросы при-
менения векторной модели представления
документов в информационном поиске //
Управляющие системы и машины. – 2001.
– № 4. – С. 77–83.
9. Когаловский М.Р. Перспективные техноло-
гии информационных систем. – М.: ДМК
Пресс; М.: Компания АйТи, 2003. – 288 с.
10. Holscher C. and Strube G. Web search
behaviour of Internet experts and Newbies.
Proceedings of WWW9. 2000. Available at
http://www9.org/w9cdrom/81/81.html.
11. Navarro-Prieto R., Scaife M. & Rogers Y.
Cognitive Strategies in Web Searching.
Proceedings of the 5th Conference on Human
Factors & the Web, 1999. Available at
http://zing.ncsl.nist.gov/hfweb/proceedings/na
varro-prieto/index.html.
12. Muramatu J. and Pratt W. Transparent
queries: Investigating Users’ Mental Models
of Search Engines, Proceedings of SIGIR
2001.
13. Choo C. W., Detlor B., and Turnbull D.
Information Seeking on the Web – An
integrated model of browsing and searching.
Proceedings of the Annual Meeting of the
American Society for Information Science
(ASIS), 1999. Available at
http://choo.fis.utoronto.ca/fis/respub/aisis99/
14. Broder A. A taxonomy of web search, IBM
Research, ACM SIGIR Forum archive. –
2002. – Vol. 36 , Issue 2. – P. 3–10.
15. Лексична база англійської мови WordNet,
http://wordnet.princeton.edu/perl/webwn
16. Онлайн словник
http://dictionary.cambridge.org/
17. Онлайн словник
http://www.merriam-webster.com/
18. Rodnessey J. New Search Engines: The Next
Generation of Google Competition, 2009,
http://webupon.com/search-engines/new-
search-engines-the-next-generation-of-
google-competition/
19. Nobles R. The Future Of Search Engine
Optimizing,
http://www.searchengineworkshops.com/artic
les/se-optimization-future.html
20. Андон Ф.И., Гришанова И.Ю., Резничен-
ко В.А. Semantic Web как новая модель
информационного пространства интернет
// Проблеми програмування. – 2008. –
№ 2–3. – С. 417–430.
21. Ezzy E., Search 2.0 vs Traditional Search,
2006, http://www.readwriteweb.com/archives/
search_20_vs_tr.php
22. McLoughlin S. Searching on the web; the
new breed of search engines, 2009,
http://relativemusings.blogspot.com/2009/05/s
earching-on-web-new-breed-of-smarter.html
23. Wolfram S. Wolfram Alpha – computational
knowledge engine, 2009 http://base-
technology.blogspot.com/2009/03/wolfram-
alpha-computational-knowledge.html
24. Сидоров В. Wolfram Alpha – Computational
Knowledge Engine, или Как сложить яблоко
с апельсином?, блог, 2009,
http://netler.ru/pc/wolfram.htm
25. Official Google Blog: Square your search
results with Google Squared,
http://googleblog.blogspot.com/2009/06/squar
e-your-search-results-with-google.html
26. Сидоров В. Google Squared: как успех
Wolfram Alpha взбудоражил Google и что
из этого вышло?.., блог, 2009,
http://netler.ru/pc/google-squared.htm
http://www.readwriteweb.com/archives/
Моделі та засоби систем баз даних і знань
71
27. Soubbotin D. Summarization, the Answer to
Web Search: Interview with Dmitri Soubbotin
of SenseBot, Search Engine Journal, 2007,
http://www.searchenginejournal.com/summari
zation-the-answer-to-web-search-interview-
with-dmitri-soubbotin-of-sensebot/6094/
28. Левшин Д. Web, часть третья // Открытые
системы. – 2008. – № 2.
http://cio.ru/text/print/302/8165094.html
29. Рогушина Ю.В., Гришанова І.Ю. Разработ-
ка принципов представления электронных
изданий, обеспечивающих корректную ин-
дексацию поисковыми системами Интер-
нет // Проблеми програмування. – 2004. –
№ 4. – С. 39–47.
References
1. Christopher D. Manning, Prabhakar
Raghavan, Hinrich Schütze An Introduction
to Information Retrieval, Online edition
(c)2009 Cambridge UP, Draft of April 1,
2009, Website:
http://www.informationretrieval.org
2. Cherniy Y.Y. School of scientific information.
Information needs. Basics of information re-
trieval,
http://www.bogoslov.ru/text/321597.html
3. Zacharov V.P. Informational retrieval
systems, Learning manual, St. Petersburg,
2005
4. Medvedj V.N. Methods of information retriev-
al, http://northedu.ru/content/view/115/159/
5. Van Rijsbergen C.J. Information Retrieval.
London: Butterworths, 1979. Available at
http://www.dcs.gla.ac.uk/Keith/Preface.html
6. Sharapov Р.В.,Sharapova E.V., Saratovceva
O.A., Models of information retirieval.
7. Nekrestyanov I.S. Topic – oriented methods of
information retrieval: The Thesis of Ph.D.:
05.13.11 / Saint-Petersburg State University –
St.Pt., 2000. – 88 p.
8. Dubinskyi A.G. Some questions of the use of
the vector model for the document`s presenta-
tion in the information retrieval // Control
Systems and Computers. – 2001. –
N 4. – P. 77–83.
9. Kogalovskyi M.R. Prospective technologies of
information systems. – M.: DMK Press;
Мoscow: IT Company, 2003. – 288 p.
10. Holscher C. and Strube G. Web search
behaviour of Internet experts and Newbies.
Proceedings of WWW9. 2000. Available at
http://www9.org/w9cdrom/81/81.html.
11. Navarro-Prieto R., Scaife M. & Rogers Y.
Cognitive Strategies in Web Searching.
Proceedings of the 5th Conference on Human
Factors & the Web, 1999. Available at
http://zing.ncsl.nist.gov/hfweb/proceedings/na
varro-prieto/index.html.
12. Muramatu J. and Pratt W. Transparent
queries: Investigating Users’ Mental Models
of Search Engines, Proceedings of SIGIR
2001.
13. Choo C. W., Detlor B., and Turnbull D.
Information Seeking on the Web – An
integrated model of browsing and searching.
Proceedings of the Annual Meeting of the
American Society for Information Science
(ASIS), 1999. Available at
http://choo.fis.utoronto.ca/fis/respub/aisis99/
14. Broder A. A taxonomy of web search, IBM
Research, ACM SIGIR Forum archive. –
2002. – Vol. 36 , Issue 2. – P. 3–10.
15. Lexical base of English language WordNet,
http://wordnet.princeton.edu/perl/webwn
16. Online vocabulary
http://dictionary.cambridge.org/
17. Online vocabulary
http://www.merriam-webster.com/
18. Rodnessey J. New Search Engines: The Next
Generation of Google Competition, 2009,
http://webupon.com/search-engines/new-
search-engines-the-next-generation-of-
google-competition/
19. Nobles R. The Future Of Search Engine Op-
timizing,
http://www.searchengineworkshops.com/artic
les/se-optimization-future.html
20. Andon P.I., Grishanova I.J., Reznichenko V.А.
Semantic Web as a new model of the infor-
mation space of the Internet // Problems in
Programming. – 2008. – N 2–3, P. 417–430.
21. Ezzy E. Search 2.0 vs Traditional Search,
2006, http://www.readwriteweb.com/archi-
ves/search_20_vs_tr.php
22. McLoughlin S. Searching on the web; the new
breed of search engines, 2009,
http://relativemusings.blogspot.com/2009/05/s
earching-on-web-new-breed-of-smarter.html
23. Wolfram S. Wolfram Alpha – computational
knowledge engine, 2009 http://basetechno-
logy.blogspot.com/2009/03/wolfram-alpha-
computational-knowledge.html
24. Sidorov V. Wolfram Alpha – Computational
Knowledge Engine, or How To Add Apple
with Orange?, blog, 2009,
http://netler.ru/pc/wolfram.htm
25. Official Google Blog: Square your search re-
sults with Google Squared,
http://googleblog.blogspot.com/2009/06/squar
e-your-search-results-with-google.html
Моделі та засоби систем баз даних і знань
72
26. Sidorov V. Google Squared: How the Success
of Wolfram Alpha Stirred up Google and
What Happened?.., blog, 2009,
http://netler.ru/pc/google-squared.htm
27. Soubbotin D. Summarization, the Answer to
Web Search: Interview with Dmitri Soubbotin
of SenseBot, Search Engine Journal, 2007,
http://www.searchenginejournal.com/summari
zation-the-answer-to-web-search-interview-
with-dmitri-soubbotin-of-sensebot/6094/
28. Levshin D. Web, part 3, "Open systems". –
2008. – N 2.
http://cio.ru/text/print/302/8165094.html
29. Rogushina J.V., Grishanova I.Y. Development
of the Principles of Electronic Publications,
Providing the Correct Indexing of Internet
Search Engines // Problems in Programming –
2004, N 4. – P. 39–47.
Одержано 08.12.2015
Про автора:
Гришанова Ірина Юріївна,
науковий співробітник,
Кількість наукових публікації в
українських виданнях – 15.
http://orcid.org/0000-0003-4999-6294.
Місце роботи автора:
Інститут програмних систем
НАН України,
03181, Київ-187,
Проспект Академіка Глушкова, 40.
E-mail: i26031966@gmail.com
mailto:i26031966@gmail.com
|