Algorithms of relationships and dependencies search in Web-pages
Methods of extraction and analysis of data – a relatively new and promising branch of computer science, has found its application in information retrieval systems. An algorithm of relationships and dependencies searching in the collections of Web pages. The algorithm does not provide relevant search...
Збережено в:
| Дата: | 2018 |
|---|---|
| Автор: | |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2018
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/167 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| id |
pp_isofts_kiev_ua-article-167 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/50/6525b5aea9e8aa01ffa2afd90421fc50.pdf |
| spelling |
pp_isofts_kiev_ua-article-1672025-11-16T14:46:27Z Algorithms of relationships and dependencies search in Web-pages Алгоритм поиска связей и зависимостей в данных Web-страниц Алгоритм пошуку зв’язків і залежностей між даними Web-сторінок Glybovets, A.M. search engine; Pattern-Recognition; search algorithms; relationships and dependencies UDC 00.007.3 поисковая система, PatternRecognition; алгоритм поиска; связи и зависимости УДК 00.007.3 пошукова система; PatternRecognition; алгоритм пошуку; зв’язки і залежності УДК 007.3 Methods of extraction and analysis of data – a relatively new and promising branch of computer science, has found its application in information retrieval systems. An algorithm of relationships and dependencies searching in the collections of Web pages. The algorithm does not provide relevant search resources. This function is performed by the search engine. It also produces cleaning, integration, and data selection. A special feature of the algorithm is to use the existing data store (search engine or data storage), language independence and ease of implementation.Prombles in programming 2016; 1: 44-50 Методы добычи и анализа данных – относительно новая и перспективная отрасль компьютерных наук, нашла свое применение в системах информационного поиска. В работе предложен алгоритм поиска связей и зависимостей в коллекциях Web-страниц. Алгоритм не предусматривает поиска релевантных ресурсов. Эту функцию выполняет поисковая система. Она также производит очистку, интеграцию и выбор данных. Особенностью алгоритма является использование уже существующего хранилища данных (поисковая система или хранилище данных), языковая независимость и простота реализации.Prombles in programming 2016; 1: 44-50 Методи видобування й аналізу даних – відносно нова і перспективна галузь комп’ютерних наук, що знайшла своє застосування в системах інформаційному пошуку. У роботі запропоновано алгоритм по-шуку зв’язків і залежностей у колекціях Web-сторінок. Алгоритм не передбачає пошуку релевантних ресурсів. Цю функцію виконує пошукова система. Вона також робить очищення, інтеграцію та вибір даних. Особливістю алгоритму є використання вже існуючого сховища даних (пошукова система або сховище даних), мовна незалежність і простота реалізації.Prombles in programming 2016; 1: 44-50 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2018-11-21 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/167 10.15407/pp2016.01.044 PROBLEMS IN PROGRAMMING; No 1 (2016); 44-50 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2016); 44-50 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2016); 44-50 1727-4907 10.15407/pp2016.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/167/161 Copyright (c) 2017 ПРОБЛЕМИ ПРОГРАМУВАННЯ |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-11-16T14:46:27Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
search engine Pattern-Recognition search algorithms relationships and dependencies UDC 00.007.3 |
| spellingShingle |
search engine Pattern-Recognition search algorithms relationships and dependencies UDC 00.007.3 Glybovets, A.M. Algorithms of relationships and dependencies search in Web-pages |
| topic_facet |
search engine Pattern-Recognition search algorithms relationships and dependencies UDC 00.007.3 поисковая система PatternRecognition; алгоритм поиска; связи и зависимости УДК 00.007.3 пошукова система PatternRecognition алгоритм пошуку зв’язки і залежності УДК 007.3 |
| format |
Article |
| author |
Glybovets, A.M. |
| author_facet |
Glybovets, A.M. |
| author_sort |
Glybovets, A.M. |
| title |
Algorithms of relationships and dependencies search in Web-pages |
| title_short |
Algorithms of relationships and dependencies search in Web-pages |
| title_full |
Algorithms of relationships and dependencies search in Web-pages |
| title_fullStr |
Algorithms of relationships and dependencies search in Web-pages |
| title_full_unstemmed |
Algorithms of relationships and dependencies search in Web-pages |
| title_sort |
algorithms of relationships and dependencies search in web-pages |
| title_alt |
Алгоритм поиска связей и зависимостей в данных Web-страниц Алгоритм пошуку зв’язків і залежностей між даними Web-сторінок |
| description |
Methods of extraction and analysis of data – a relatively new and promising branch of computer science, has found its application in information retrieval systems. An algorithm of relationships and dependencies searching in the collections of Web pages. The algorithm does not provide relevant search resources. This function is performed by the search engine. It also produces cleaning, integration, and data selection. A special feature of the algorithm is to use the existing data store (search engine or data storage), language independence and ease of implementation.Prombles in programming 2016; 1: 44-50 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2018 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/167 |
| work_keys_str_mv |
AT glybovetsam algorithmsofrelationshipsanddependenciessearchinwebpages AT glybovetsam algoritmpoiskasvâzejizavisimostejvdannyhwebstranic AT glybovetsam algoritmpošukuzvâzkívízaležnostejmíždanimiwebstorínok |
| first_indexed |
2025-07-17T09:54:27Z |
| last_indexed |
2025-11-17T02:17:23Z |
| _version_ |
1850411017187622912 |
| fulltext |
Моделі та засоби систем баз даних і знань
© А.М. Глибовець, 2016
44 ISSN 1727-4907. Проблеми програмування. 2016. № 1
УДК 007.3
А.М. Глибовець
АЛГОРИТМ ПОШУКУ ЗВ’ЯЗКІВ І ЗАЛЕЖНОСТЕЙ МІЖ
ДАНИМИ WEB-СТОРІНОК
Методи видобування й аналізу даних – відносно нова і перспективна галузь комп’ютерних наук, що
знайшла своє застосування в системах інформаційному пошуку. У роботі запропоновано алгоритм по-
шуку зв’язків і залежностей у колекціях Web-сторінок. Алгоритм не передбачає пошуку релевантних
ресурсів. Цю функцію виконує пошукова система. Вона також робить очищення, інтеграцію та вибір
даних. Особливістю алгоритму є використання вже існуючого сховища даних (пошукова система або
сховище даних), мовна незалежність і простота реалізації.
Ключові слова: пошукова система, PatternRecognition, алгоритм пошуку, зв’язки і залежності.
Вступ
Задачі і методи видобування і роз-
пізнавання Web даних (PatternRecognition)
лежать на межі проблематики баз даних і
штучного інтелекту. Останнім часом гос-
тро постала потреба у добуванні лише
корисної інформації і знань. З’явилася
окрема галузь видобування даних
Webmining, яка використовує методи
DataMining для виявлення і пошуку за-
лежностей у WWW на основі деякого
«осмислення» даних [1, 2]. Традиційно
виділяють чотири етапи аналізу Web
даних (далі – даних): вхідний, поперед-
ньої обробки, моделювання, аналізу
моделі. З’явилися такі категорії Web-
Mining як аналіз використання Web ре-
сурсів (WebUsageMining), видобування
Web-структур (WebStructureMining), ви-
добування Web-контенту (WebContent-
Mining) [3].
У цій роботі, найбільшу увагу ми
приділимо саме видобуванню Web-
контенту. Надалі префікс Web опустимо,
розуміючи його присутність із контексту
видобування контенту – процес видобу-
вання знань із вмісту документів (Web-
сторінок). Дані сторінок представляються
у вигляді текстової, аудіо, відео інформа-
ції, або у деякому структурованому ви-
гляді, наприклад, таблиці чи списку.
Оскільки більшість такої інформації є
текстовою, для її обробки варто вико-
ристовувати методи інтелектуального
аналізу тексту (ІАТ, TextMining або
KnowledgeDiscoveryinText) [4]. Останній
включає структуризацію тексту (парсинг,
стеммінг), виявлення текстових паттер-
нів, аналіз і представлення кінцевої інфо-
рмації.
Ключовими задачами ІАТ є класте-
ризація текстів, обробка змін у колекціях
текстів і пошук, які вирішуються на основі
розпізнавання іменованих елементів (сут-
ностей, власних назв, імен), пошуку
зв’язків об’єкта, виділення термінології
(знаходження ключових слів), автореферу-
вання (виділення з тексту змістовної чи
оціночної інформації).
Більшість Web-документів предста-
вляють текстову інформацію у HTML фо-
рматі. Цей формат має багато спеціальних
символів розмітки, за допомогою яких
можна ідентифікувати корисну інформа-
цію. Проте, навіть спеціальна розмітка
Web-сторінки мало впливає на їх структу-
рованість. Звичайний текстовий документ
складається з абзаців чи параграфів, тоді
як Web-сторінка складається з різних еле-
ментів розмітки таких як навігаційна па-
нель, меню, таблиці, заголовки. Тому, ста-
ндартні методи інтелектуального аналізу
тексту важко застосувати у процесі аналізу
даних Web-сторінок.
Здійснюючи запит, користувач за-
звичай отримує відповідь у вигляді спис-
ку документів, які пошукова система вва-
жає релеватними відповідно до отримано-
го запиту. Важливим фактором при ви-
значенні релевантності документу є кіль-
кість гіперпосилань на даний документ з
інших документів, відвідуваність сторін-
ки, кількість раніше здійснених запитів
Моделі та засоби систем баз даних і знань
45
(схожих з даними за тими чи іншими
ознаками), які були здійснені і в яких да-
ний документ був визначений як релеван-
тний. Різна інформація про об’єкт пошуку
може міститися в різних документах різ-
ної релевантності і для уточнення деякого
факту доводиться переглянути велику
кількість документів для пошуку взає-
мозв’язку між інформацією про об’єкт що
міститься в кожному з цих документів.
Постає задача ефективного пошуку таких
взаємозв’язків. Сучасні пошукові системи
суттєво просунулись у питаннях визна-
чення релевантності документів, проте
вони не мають засобів аналізу інформації
для розпізнавання зазначених перехрес-
них зв’язків.
Опишемо запропонований нами ал-
горитм пошуку зв’язків і залежностей
(АПЗЗ) у даних Web-сторінок. Отримавши
на вхід запит про деякий об’єкт, пошукова
система з АПЗЗ надає на виході окрім ін-
формації про об’єкт і інформацію про його
зв’язки з іншими об’єктами.
Основна частина
Визначення основних понять. Запит
(далі позначатимемо «Зп») – набір слів
(формалізованих або заданих природньою
мовою), які описують об’єкт пошуку.
Експерт (користувач) – особа, яка
здійснює пошук. Вона зазвичай має певні
знання (уявлення) про об’єкт пошуку або
його частину.
Неважливі слова (далі позначати-
мемо «Нс») – слова, словосполучення, те-
рміни і символи, які не дають корисної
інформації про об’єкт пошуку. До таких
слів можна віднести усі знаки пунктуації,
займенники, більшість дієслів, службові
частини мови, спеціальні символи розміт-
ки (HTML, XML тощо).
Ключові слова (далі позначатимемо
«Кс») – слова і терміни, які несуть смис-
лове навантаження і описують об’єкт по-
шуку.
Опис об’єкта пошуку здійснюється
у запиті експертом, який здійснює пошук.
Тоді множина ключових слів є найбіль-
шою підмножиною слів з множини слів
запиту, яка не містить неважливих слів:
Кс = Зп \ Нс.
Стоп-слова (далі позначатимемо
«Сс») – слова та терміни, що визначаються
експертом як такі, що не повністю відпо-
відають його запиту і при будь-яких мож-
ливих зв’язках з запитом зменшують реле-
вантність документу, у якому зустрічаєть-
ся стоп-слово, або експерту неважливі
зв’язки об’єкта пошуку із словом позначе-
ним як стоп-слово.
Ресурс – документ, що містить де-
яку текстову інформацію. Ресурсом буде-
мо називати будь-який текстовий доку-
мент, Web-сторінку (чи навіть Web-
портал).
Пошукова система (ПС) – система,
що здійснює пошук ресурсів згідно зада-
ного запиту експерта без їхнього аналізу та
пошуку зв’язків.
Сучасні Web-сторінки – це елемен-
ти деякого Web-порталу чи Web-
застосунку, які несуть велику кількість
інформації і оперують дуже об’ємними
динамічними і статичними HTML доку-
ментами. Оскільки HTML представляє
інформацію в ієрархічному вигляді і ко-
жен елемент структурно належить яко-
мусь тегові, можна зробити висновок. Ін-
формація, яка має сенс, а також несе деякі
знання розміщується в межах одного тегу
або в деякій неперервній частині докуме-
нту HTML розмітки. Тобто, важлива ін-
формація про об’єкт пошуку міститься у
безпосередній близькості від ключового
слова, за яким здійснювався пошук. То-
му можна стверджувати, що для знахо-
дження зв’язків об’єкта пошуку з інши-
ми об’єктами чи явищами, необхідно
проаналізувати об’єкти, явища і термі-
ни, які знаходяться в деякому околі від
ключових слів пошуку у документі
HTML. Зазвичай такі об’єкти несуть
додаткову інформацію чи приховані знан-
ня про об’єкт пошуку і можуть бути вико-
ристані в уточнюючих запитах до схови-
ща даних (у нашому випадку пошукової
системи), для виявлення наступних
зв’язків та прихованих знань.
Підготовча робота
АПЗЗ не передбачає здійснення
пошуку релевантних ресурсів. Цим займа-
Моделі та засоби систем баз даних і знань
46
ється ПС. Вона виконує функції очищення,
інтеграції і вибору даних. Робота алгорит-
му починається з отримання запиту від
експерта. Запит може бути заданий як
природною мовою, так і іншими, більш
формалізованими способами. Система ре-
алізація алгоритму надсилає аналогічний
(або нормалізований) запит до ПС, для
отримання списку ресурсів, які познача-
ються ПС як релевантні документи. У від-
повідь система отримує від ПС список ре-
левантних ресурсів ( },...,,{ 21 nTTTD ), се-
ред яких і буде здійснюватись подальший
пошук зв’язків і залежностей.
Зрозуміло, що якість роботи алго-
ритму прямо пропорційно залежить від
якості видачі ПС.
Для будь-якого алгоритму обробки
текстової інформації важливим є процес
нормалізації тексту. Він складається із
трьох кроків: розбиття тексту на лексеми
та побудова множини усіх лексем; стема-
тизації кожної лексеми; вилучення з отри-
маної множини усіх неважливих слів (Нс).
Після нормалізації отримується множина
термінів для подальшого аналізу.
Наступним кроком є аналіз кожного
ресурсу для пошуку взаємопов'язаних з
об'єктом пошуку понять у визначеному
околі.
Побудова списку важливих слів
здійснюється наступним чином:
нехай allS – список пар <тер-
мін, кількість> усіх важливих термінів,
порожній на початку аналізу;
для кожного ресурсу T із D ,
будується нормалізований список термінів
S ;
для кожного із термінів запиту,
знаходимо його індекс i у списку S ;
для кожного індексу i , будуємо
його окіл ( nini , ), де n – деяка наперед
задана константа;
для кожного індексу з околу
( nini , ) з множини S , додаємо термін,
що знаходиться за цим індексом до мно-
жини allS таким чином, що якщо термін
вже існує у множині allS збільшуємо зна-
чення кількості на одиницю, якщо ні – до-
даємо пару (термін, 1).
По закінченню allS міститиме тер-
міни, які зустрічаються з ключовими сло-
вами найчастіше у деякому околі, що вка-
зує на взаємозв’язок між об’єктом пошуку
та знайденими термінами.
Оскільки список allS містить пари
(термін, кількість) його можна впорядку-
вати за кількістю. Чим частіше зустріча-
ється термін у такій множині, тим сильні-
шим є його зв’язок з об’єктом пошуку.
Як ми зазначали раніше, пошуком
релевантних даних займається ПС. Вико-
ристання списку термінів allS , для побу-
дови уточнюючих запитів , які можуть
мати зв’язок з об’єктом пошуку, може ма-
ти якісний вплив на покращення релевант-
ності і виявлення нових зв’язків.
Уточнюючі запити – це повторно
здійснений запит до ПС, у якому змінив-
ся набір ключових слів. Після першої
ітерації роботи алгоритму, у розпоря-
дженні експерта постане список термінів,
пов’язаних із запитом користувача. Серед
таких термів з високою ймовірністю бу-
дуть такі, що матимуть якісний вплив на
результати пошуку за використанням цих
термінів у новому запиті у комбінації з
попередньо вказаними ключовими слова-
ми. Після уточнюючого запиту і здійс-
нення аналізу ресурсів за тією ж процеду-
рою, що і на першій ітерації, список
важливих термінів поповниться новими
елементами, які мали зв’язок з об’єктом
пошуку. Ітеративний процес можна про-
довжувати як завгодно довго, в залежнос-
ті від потреб експерта. Чим більше ітера-
цій буде здійснено, тим глибші зв’язки
вдасться виявити на кожній наступній
ітерації.
Опис алгоритму
Формалізований опис алгоритму ві-
дображає наступна процедура:
procedure FindRelationsAlgo
begin
define Q; # Query
define S_all; # Results set
define res_list;
define res_amount = 0;
Моделі та засоби систем баз даних і знань
47
define continue = TRUE;
input(Q);
S_all = empty_set();
res_list = empty_list();
do
Q = normalize(Q);
res_list =
query_for_resources(Q);
res_amount =
length(res_list);
for resource in res_list
do
clean(resource);
define S ;
define
index_list;
define
around_set;
define N;
N = 20;
S =
build_term_set(resource);
index_list =
query_index_list( S , Q);
around_set =
build_around_set(S, index_list, N);
S _all =
union_of_sets(S_all, around_set);
end for
sort( S _all);
present_results(S_all);
input(continue);
if continue == TRUE
define k_words;
input(k_words);
Q =
union_of_sets(Q, k_words);
end if
while continue == TRUE;
return S _all;
end
end procedure FindRelationsAlgo
Опишемо основні складові алгори-
тму.
Зрозуміло, що Q – запит експерта
(користувача), за яким здійснюється по-
шук.
Функція normalize (Q ), здійснює
нормалізацію запиту користувача, виді-
лення ключових слів, усунення неважли-
вих слів і за необхідності (в залежності
від пошукової системи) кожен термін за-
питу лематизується і стемінгується. На
вихід функція видає список ключових
слів запиту.
Функція query_for_resources (Q )
здійснює комунікацію зі сховищем даних
(пошуковою системою). Отриманий на
вхід список ключових слів передається
ПС. Після обробки запиту пошуковою
системою, функція отримує у список ре-
левантних ресурсів. Зауважимо, що цей
список може представлятися у різних фо-
рматах (найпоширенішим є формат
HTML). Тому наша функція повинна ко-
ректно опрацювати отриманий результат і
подати на вихід лише змістовний список
ресурсів.
Процедура clean (resource) здійс-
нює початкову обробку ресурсу, предста-
вленому у деякому форматі (найпошире-
ніший – HTML). Тому попередньо ресурс
слід привести до змістовного вигляду. У
процедурі виділяється смислова (тексто-
ва) частина ресурсу, видаляються симво-
ли розмітки, знаки пунктуації, неважливі
слова.
Функція build_term_set (resource) із
отриманого на вхід тексту ресурсу подає
на вихід список термінів та слів. Важли-
вим є порядок термінів у списку. Слова в
отриманому списку проіндексовані і роз-
ташовані в такому ж порядку, в якому во-
ни зустрічаються в оригіналі ресурсу.
Функція query_index_list ( S , Q )
отримавши на вхід два списки термінів
подає на вихід список індексів входження
кожного терміну з Q у S .
Функція build_around_set ( S ,
index_list, N ) отримавши на вхід S , спи-
сок індексів та значення радіусу околу N ,
подає на вихід список термінів (слів), які
знаходяться в околі N кожного індексу із
списку index_list.
Моделі та засоби систем баз даних і знань
48
Реалізація функції build_around_set
( S , index_list, N ) на псевдокоді вигляда-
тиме так:
function build_around_set ( S ,
index_list, N )
begin
define res_list;
for index in index_list do
define i = index - N ;
if i < 0
i = 0;
end if
while i < index + N
AND i < length(index_list) do
if i != index
add_to_list(res_list, S [i]);
end if
end while
end for
return res_list;
end
end function build_around_set
Звернемо увагу на значення аргу-
менту N . Цей параметр ініціалізовано
константою і не змінюється в процесі
аналізу. Від підбору аргументу N зале-
жить розмір результативного списку.
Надто мале N призведе до того, що кіль-
кість термінів, які потраплять у результа-
тивну множину буде малою, і з високою
ймовірністю, якість проведеного аналізу
буде невисокою, оскільки велика кіль-
кість зв’язаних термінів проігнорується,
не потрапивши в результативний список.
З іншого боку, використання надто вели-
кого радіусу околу значно збільшить ча-
сові затрати роботи алгоритму, але ре-
зультати суттєво не зміняться. Результати
тестування показали, що оптимальними є
значення з проміжку 20–35.
Функція union_of_sets ( S _all,
around_set) виконує роль об’єднання ре-
зультату.
Для тестування алгоритму побудо-
вано програмну систему у вигляді клієнт-
серверного Web застосунку (Web-сайту),
серверна частина якого відповідала за
аналіз і роботу самого алгоритму, а кори-
стувачу надавалася Web-сторінка з отри-
маними даними. Інтерфейсом доступу та
пошуку релевантних даних служила по-
шукова система Google. Мовою програ-
мування виступав Python.
Існує багато OpenSource бібліотек
та інструментів розроблених мовою
Python, що реалізують додаткові функції
для роботи з текстом, HTTP запитами,
мережею, зображеннями, інтерфейсом ко-
ристувача. Однією з таких бібліотек є біб-
ліотека Grab. Основними функціями цієї
бібліотеки є підготовка мережевого запи-
ту (cookies, http-заголовки), відправлення
запитів, отримання відповідей сервера та
їх попередня обробка, робота з DOM-
деревом отриманої у відповідь сторінки
[5]. Ми використали Grab для роботи з
контентом Web сторінки, а саме для отри-
мання текстової інформації із сторінки та
очищенням її від HTML тегів.
Для реалізації Web-серверу ми ско-
ристалися найпоширенішим Python
Framework для розробки Web-систем
Django, дистрибутив якого містить також і
Web-сервер [6].
Представлення отриманих резуль-
татів – важлива складова будь-якої систе-
ми видобування даних. У нашому випадку,
отримані результати представлені у вигля-
ді HTML сторінок.
Результати тестування
Реалізована система показала хо-
роші результати роботи.
Середня кількість понять, що є за-
гальними і не являють собою приховані
знання становить приблизно 30 – 40 % , а
обсяг даних, що були прихованими до об-
робки запиту системою і були представле-
ні у таблиці результатів відповідно стано-
вили 70 – 50 % з усіх отриманих даних в
таблиці результатів.
Важливо зазначити, що якість робо-
ти системи залежить від загальної кількос-
ті даних про об’єкт пошуку, що містяться у
сховищі даних. Так при побудові профай-
лів користувачів, які є публічними особа-
ми кількість термінів, що викривають нові
знання про об’єкт серед усіх отриманих
результатів висока (понад 60 %), а для
осіб, які не є публічними, а значить кіль-
кість інформації у сховищі даних про та-
Моделі та засоби систем баз даних і знань
49
ких осіб менша, результати дещо нижчі
(40 – 50 %).
Як бачимо, система успішно здійс-
нює пошук зв’язків і залежностей. Після
здійснення користувачем додаткових за-
питів, у відповідь система надає нові
зв’язки та нову інформацію про об’єкт
пошуку.
Висновки
Описаний алгоритм дозволяє здій-
снювати ефективний пошук зв’язків між
об'єктом пошуку і даними Web-сторінок.
Найсуттєвішою перевагою алгоритму є
використання вже існуючого сховища
даних. АПЗЗ використовує як сховище
даних будь-яку існуючу ПС (або сховище
даних), до яких існує доступ. Це дозволяє
скоротити часові затрати і уникнути дуб-
лювання розробки уже існуючих систем.
Другим привабливим фактором алгорит-
му є мовна незалежність. АПЗЗ дуже мало
залежить від мови, що використовується
користувачем. Навіть якщо не здійснюва-
ти обробку природної мови у процесі ви-
конання алгоритму, результати роботи
практично не змінюються. Часто обробку
природних мов здійснює сама пошукова
система. На кінець маємо відмітити і про-
стоту реалізації.
Недоліками алгоритму є націленість
на роботу з Web-сторінками. Деякою мі-
рою алгоритм залежить від розміщення
даних у ресурсі.
Суттєвою є і залежність від роботи
пошукових систем. Алгоритм залежить як
від якості пошуку, так і від швидкодії. Ни-
зька релевантність пошуку спричинить
низьку якість результатів. Багато пошуко-
вих систем не дозволяють здійснювати
велику кількість автоматичних запитів,
що, за дуже складних аналізів може приз-
вести до неправильного результату.
Особливості реалізації соціальних
мереж та великих порталів, на яких збері-
гається корисна інформація, зокрема про
їхніх користувачів, часто не дозволяють
здійснити аналіз АПЗЗ. Часто у відповідь
на запит до таких порталів отримується
закодована сторінка (наприклад, JavaScript
код), який не піддається аналізу. З іншого
боку, кожна з великих соціальних мереж
надає спеціальні інструменти для роботи з
даними, що розміщені у мережі. Викорис-
тання таких інструментів може якісно
вплинути на роботу алгоритму, особливо
при пошуку зв’язків деякої особи з іншими
об’єктами, особами і даними.
Шляхами удосконалення алгоритму
бачиться покращення роботи з соціальни-
ми мережами і побудова дерева залежнос-
тей на кожному кроці взаємодії із ПС. По-
будова деякого дерева, на кожному рівні
якого зберігатимуться нові знайдені
зв’язки допоможе відповісти на питання:
як саме, або за рахунок чого об’єкт має
зв’язок з іншим.
Програмна реалізація алгоритму
показала хороші результати роботи. Окрім
посилань на сторінки користувача, який є
об’єктом запиту, у соціальних мережах
користувач системи отримує таблицю із
зв’язками (профайл) об’єкта пошуку з ін-
шими об’єктами. Середнє відношення ко-
рисних даних у результативній таблиці
складає 55 – 65 %.
1. Глибовець М.М., Глибовець А.М., Поляков
М.В. Інтелектуальні мережі // Навчальний
посібник, Дніпропетровськ, Нова ідеологія,
2014. – 464 с.
2. Глибовець М.М., Жигмановський А.А., За-
болотний Р.І., Захоженко П.О. Веб серві-
си оброблення документів // Національний
університет "Києво-Могилянська акаде-
мія". – К.: НаУКМА, 2012. – 212 с.
3. Глибовец А.Н., Глибовец Н.Н., Покопцев
Д.Е., Сидоренко М.О. Структурированные
данные и семантическая паутина: техноло-
гии Wiki // Проблеми програмування. –
2013. – № 1. – С. 45–67.
4. Петренко А.І. Grid і інтелектуальна оброб-
ка даних [Електронний ресурс]. – Режим
доступу: http://datamining.netallted.cad.
kiev.ua/downloads/DataMining.pdf
5. grab 0.6.29 : Python Package Index [Елек-
ронний ресурс] – Режим доступу:
https://pypi.python.org/pypi/grab/0.6.29 –
2015 р.
6. Django: The Web framework for
perfectionists with deadlines [Елекронний
ресурс] – Режим доступу:
https://www.djangoproject.com/
https://pypi.python.org/pypi/grab/0.6.29
https://pypi.python.org/pypi/grab/0.6.29
https://www.djangoproject.com/
https://www.djangoproject.com/
https://www.djangoproject.com/
Моделі та засоби систем баз даних і знань
50
References
1. Glybovets М.М., Glybovets А.М., Poliakov
М.V. Intellectual networks, Dnipropetrovsk,
newideology. – 2014. – 464 p.
2. Glybovets М.М., Jigmanovskiy А.А., Zabolot-
niy R.I., Zahojenko P.O. Webservices for
documents processing. – K.: National univer-
sity of “Kyiv-Mohyla academy”. 2012. –
212 p.
3. Glybovets M.M Glybovets А.M., Pokoptsev
D.E., Sidorenko M.O. Structured data and
thesemantic web // Problems of programming.
– 2013. – N 1. – P. 45–67.
4. Petrenko А.І. Grid and intelligent data pro-
cessing [online] Available from:
http://netallted.cad.kiev.ua/downloads/DataMi
ning.pdf. [accesed: 2008]. – 2008.
5. grab 0.6.29 Python Package Index. [online]
Available from: https://pypi.python.org/pypi
/grab/0.6.29. [accesed © 1990–2015]. – 2015.
6. Django The Web framework for perfectionists
with deadlines. [online] Available from:
https://www.djangoproject.com/. [accesed: ©
2005–2015]. – 2015.
Одержано 16.12.2015
Про автора:
Глибовець Андрій Миколайович,
кандидат фізико-математичних наук,
доцент кафедри мережних технологій
Кількість наукових публікацій в
українських виданнях – 28.
Індекс Гірша – 3.
http://orcid.org/0000-0003-4282-481X
Місце роботи автора:
Національний університет
«Києво-Могилянська академія»,
04655, Київ, вул. Г. Сковороди 2.
Тел.: (044) 463 6985.
E-mail: andriy@glybovets.com.ua
http://netallted.cad.kiev.ua/downloads/DataMining.pdf
http://netallted.cad.kiev.ua/downloads/DataMining.pdf
https://pypi.python.org/pypi/grab/0.6.29
https://pypi.python.org/pypi%20/grab/0.6.29
https://pypi.python.org/pypi%20/grab/0.6.29
https://www.djangoproject.com/
https://www.djangoproject.com/
https://www.djangoproject.com/
|