Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки

Розроблено систему комплексного оперування даними в мережі Інтернет, яка надає користувачу ефективні, зручні та прості у використанні інструменти обробки веб-даних на всіх етапах взаємодії з семантичною павутиною від створення веб-ресурсів до пошуку інформації. В основу системи покладено нову предме...

Full description

Saved in:
Bibliographic Details
Published in:Управляющие системы и машины
Date:2018
Main Author: Зосімов, В.В.
Format: Article
Language:Ukrainian
Published: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2018
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/150488
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки / В.В. Зосімов // Управляющие системы и машины. — 2018. — № 4. — С. 32-45. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860246118567247872
author Зосімов, В.В.
author_facet Зосімов, В.В.
citation_txt Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки / В.В. Зосімов // Управляющие системы и машины. — 2018. — № 4. — С. 32-45. — Бібліогр.: 8 назв. — укр.
collection DSpace DC
container_title Управляющие системы и машины
description Розроблено систему комплексного оперування даними в мережі Інтернет, яка надає користувачу ефективні, зручні та прості у використанні інструменти обробки веб-даних на всіх етапах взаємодії з семантичною павутиною від створення веб-ресурсів до пошуку інформації. В основу системи покладено нову предметно орієнтовану мову оперування веб-даними та словник семантичної розмітки корпоративних веб-ресурсів. Цель. Разработка системы комплексного оперирования веб-данных в рамках концепции семантической паутины, направленной на совершенствование методов поиска информации, создание веб-ресурсов с интегрированной семантической разметкой и программных поисковых агентов. Результаты.На основе результатов исследования были разработаны: общая структура и словарь семантической разметки для корпоративных веб-ресурсов, предметно-ориентированный язык обработки веб-данных и программный комплекс, реализующий работу всех модулей описанной системы комплексной обработки веб-данных. Purpose. Development of the integrated web-data operating system within the concept of the semantic web, focused on improving the methods of information search, the creation of web resources with integrated semantic markup and programme search agents. Results. Based on the research results, a general structure and semantic markup dictionary for corporate web resources, the domain specific language of web data operating and the soft-ware package that implements the work of all modules of the described system for the web-data complex operating are developed.
first_indexed 2025-12-07T18:36:37Z
format Article
fulltext 32 ISSN 0130-5395, Control systems and computers, 2018, № 4 DOI https://doi.org/10.15407/usim.2018.04.0032 УДК004.9 В.В. ЗОСІМОВ канд. техн. наук, доцент, Миколаївський нац. ун-т ім. В.А. Сухомлинського, м. Миколаїв, 54030, вул. Нікольська, 24, тел.: (0512) 37-88-09 zosimovvv@gmail.com КОМПЛЕКСНИЙ ПІДХІД ДО ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ ОБРОБКИ ВЕБ-ДАНИХ НА ОСНОВІ СЕМАНТИЧНОЇ РОЗМІТКИ Розроблено систему комплексного оперування даними в мережі Інтернет, яка надає користувачу ефективні, зручні та прості у використанні інструменти обробки веб-даних на всіх етапах взаємодії з семантичною павутиною від створення веб-ресурсів до пошуку інформації. В основу системи покладено нову предметно орієнтовану мову оперування веб-даними та словник семантичної розмітки корпоративних веб-ресурсів. Ключові слова: пошук інформації, модель ранжування, метапошукова система, семантична розмітка, онтології, структура веб-ресурсу, видобування даних, предметно орієнтована мова, система керування вмістом. Вступ Поняття пошук інформації в мережі Інтернет в науковій літературі зводиться, як правило, до вивчення алгоритмів роботи пошукових сис- тем. До них відносять збір та індексацію ін- формації з веб-ресурсів, пошук веб-сторінок, які відповідають ключовим словами пошуко- вого запиту і ранжування отриманих резуль- татів в порядку релевантності пошуковому за- питу [1].Пошук та аналіз текстової інформації досліджували видатні вітчизняні та зарубіжні вчені: Ньюелл А., Люгер Д. Ф., Фостер Д. М., Анісімов О.В., Поспєлов Д. О., Попов Є. В., Широков В. О. Однак мало хто розглядає процес пошуку інформації в Інтернеті з точки зору користува- ча, для якого отримання списку веб-ресурсів, релевантних його запиту, є лише першим кро- ком до отримання шуканої інформації. Іс- нує ряд факторів, які мають значний вплив на швидкість і зручність пошуку інформації з точки зору користувача. Їх можна розділити на дві групи: Якість пошукової видачі: інструменти взаємодії користувача з по- шуковою видачею (фільтри, сортування, вибір методів і моделей ранжування); візуальне представлення конкретного веб- ресурсу в пошуковій видачі, тобто якість і ін- формативність його опису; ранжування результатів пошуку з урахуван- ням контексту введеного пошукового запиту. Тут маються на увазі методи, які дозволяють пошуковій системі зрозуміти, що шукає ко- ристувач — товар, послугу, інформаційні статті або наукові публікації. Якість веб-сторінки, представленої в резуль- татах пошуку: зручність навігації за веб-ресурсом —впли- ває на те, наскільки швидко користувач може розібратися зі структурою веб-ресурсу і відшу- кати на ньому необхідну інформацію або здій- снити дію, наприклад, замовити послугу; зручність подання інформації на веб- сторінці (шрифт, розмір тексту, кольору, роз- ташування елементів, інше стильове оформ- лення); ISSN 0130-5395, УСиМ, 2018, № 4 33 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки наявність реклами, яка ускладнює сприйнят- тя інформації (наскільки вона нав’язлива, її кіль- кість, розташування, можливість відключити); унікальність і якість інформації —чи є вона унікальною, або це вільний виклад (рерайт) існуючої на інших веб-ресурсах інформації. Пошук інформації з точки зору користувача та пошукової системи Пошук інформації в мережі Інтернет з позиції ко- ристувача та з позиції пошукової системи це два різних процеси, які мають різні цілі і результати. Пошук інформації з огляду на пошукову систе- му, полягає в знаходженні серед безлічі представ- лених в мережі веб-сторінок таких, які відповіда- ють ключовим словами, введеним в рядку запиту. Потім відбувається ранжування отриманих ре- зультатів на підставі закритих від користувача ал- горитмів, на роботу яких він ніяк не може впли- нути. Тобто ранжування результатів проводиться за однаковими моделям без урахування контек- сту пошуку, індивідуальних потреб користувача і предметної області. Додаткові опції, пропоновані при розширеному пошуку не можна вважати ін- струментом впливу на ранжування результатів, оскільки вони є фільтрами, що відсіюють частину результатів пошуку [2]. На цьому завдання пошу- кової системи вважається виконаним. Для користувача метою пошуку інформації є отримання конкретної інформації з певної пред- метної області в певному контексті. На етапі перегляду результатів пошуку користувач може оцінити ймовірність присутності на веб-ресурсі необхідної інформації за стислим описом сто- рінки з мета-тега <description> і фрагментів тексту сторінки, що містять одне з ключових слів. Достовірність такої оцінки ускладнює той факт, що ці мета-теги заповнюють фахівці зі штучного просування веб-ресурсів, які знають як зробити їх привабливими в першу чергу для пошукових систем, а потім — для користувача. Інформація в мета-тегах не завжди достовірно відображає інформаційний зміст веб-сторінки, і складається для залучення на веб-ресурс по- тенційних клієнтів. Після прийняття рішення про те, що роз- міщена на веб-ресурсі інформація може бути корисною, користувач переходить за поси- ланням. На цьому етапі перед користувачем постає нове завдання пошуку необхідної ін- формації в межах одного веб-ресурсу. Значний вплив на швидкість отримання результату і на можливість в принципі його отримати впливає структура, система навігації і візуальне оформ- лення веб-ресурсу. Для успішного досягнення цілей пошуку, користувачеві необхідно отримати прості і зро- зумілі в застосуванні інструменти, які дозволя- ють ефективно долати описані труднощі, що виникають при пошуку інформації. Можливі шляхи підвищення ефективності пошуку інформації Виходячи з вищесказаного актуальним завдан- ням є розробка методів персоналізації результа- тів роботи пошукових систем шляхом надання користувачу інструментів управління пошуко- вою видачею, а також використання нових моде- лей ранжування[3], заснованих на суб’єктивних для кожного користувача параметрах. На етапі роботи з пошуковою видачею необ- хідно надати користувачеві інструменти на- лаштування параметрів відображення списку веб-ресурсів, починаючи з вибору елементів вмісту, які відображатимуться, і закінчуючи візуальним оформленням кожного елемента списку. Потужним інструментом для підви- щення ефективності пошуку інформації є ви- користання пошукових агентів, тому в системі мають буті реалізовані програмні засоби роз- робки пошукових агентів, доступні широкому колу користувачів без досвіду в галузі розробки веб-додатків. На етапі пошуку інформації на конкретному веб-ресурсі необхідно реалізувати новий підхід до відображення корисної для користувача ін- формації в тому вигляді, який дозволить йому максимально швидко її сприймати, витрачаю- чи при цьому мінімум часу на ознайомлення зі структурою, системою навігації та візуальним оформленням веб-ресурсу. Ця концепція пе- 34 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов редбачає уніфікацію відображення інформації для часто використовуваних типів веб-ресурсів (сайт компанії, інтернет-магазин, сайт новин, блог) на основі семантичних шаблонів. Розробка таких методів передбачає широ- ке використання семантичної розмітки в коді веб-сторінок, що дозволить застосовувати ме- тоди машинної обробки представленої на них інформації. Розробка концепції семантичної павутини стала наступним кроком розвитку глобальної мережі. Розміщена в мережі Інтернет інфор- мація зручна для розуміння людиною. Семан- тична павутина була розроблена для того, щоб зробити інформацію придатною для автома- тичного аналізу та синтезу висновків. Незва- жаючи на явні переваги застосування даної технології, вона не набула значного поширен- ня в веб-середовищі [4]. Інтеграція бізнес-процесів України в серед- овище закордонних партнерів диктує необхід- ність розвитку сфери електронної комерції як необхідної умови існування сучасних компаній. Значні результати досягнуті в розробці моде- лей семантичної розмітки інтернет-магазинів як основного інструменту ведення електро- нної комерції. В той же час досить мало ува- ги приділяється електронному ринку послуг, а саме структурним та семантичним стандартам розробки корпоративних веб-ресурсів. В укра- їнському сегменті всесвітньої павутини лише незначний відсоток веб-ресурсів, розроблений з використанням стандартів семантичної роз- мітки. Така ситуація стала наслідком існуючих з самого зародження концепції семантичної павутини, проблем практичної реалізації та особливостей вітчизняного ринку розробки веб-ресурсів. Для реалізації зазначеного підходу необхід- но розв’язати наступні задачі: інтеграцію семантичної розмітки до існу- ючих веб-ресурсів; розробку нових веб-ресурсів із вбудованою семантичною розміткою; розробку методів видобування даних з веб- ресурсів з інтегрованою семантичною розміт- кою та без неї. Система комплексного оперування даними в мережі Інтернет В статті представлена системакомплексного оперування даними в мережі Інтернет (КОДІ) в межах концепції семантичної павутини, орі- єнтованої на вдосконалення методів пошуку інформації, створення веб-ресурсів з інтегро- ваною семантичною розміткою та програмних пошукових агентів. Робота системи представлена на прикладі обробки даних, представлених на корпоратив- них веб-ресурсах українського сегменту всес- вітньої павутини. Далі подано загальну структуру системи та опис її окремих модулів. Структурна схема системи КОДІ. В основу системи покладено нову предметно орієнтова- ну мову оперування веб-даними, що містить всі необхідні функції для видобування, збереження та відображення інформації, представленої на веб-ресурсах. Другим важливим компонентом системи є розроблений словник семантичної розмітки корпоративних веб-ресурсів, викорис- тання якого значно прискорює обробку даних. Для забезпечення ефективної роботи техно- логії необхідно дослідити вміст корпоративних веб-ресурсів, розробити загальну структуру та словник семантичних тегів для опису побудо- ваної структури. Загальна схема системи КОДІ представлена на рис. 1. Для визначення структури корпоративних веб- ресурсів було проведено експеримент, в ході яко- го покроково було досліджено: загальну структу- ру, елементи навігації, інформаційні розділи. В ході експерименту досліджено структуру 1000 корпоративних веб-ресурсів. Його аналіз та видобування даних здійснювалось за вико- ристання автоматичного парсера, реалізовано- го засобами розробленої в роботі мови оперу- вання веб-даними. Веб-ресурси для аналізу були автоматично відібрані з видачі пошукової системи Google на запит «Наша компанія». Таке формулювання пошукового запиту очевидно забезпечує високу ISSN 0130-5395, УСиМ, 2018, № 4 35 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки імовірність наявності в результатах пошуку саме корпоративних сайтів. Загалом було переглянуто 1284 результати пошуку, з них були відсіяні по- вторні посилання на вже оброблені веб-ресурси, дошки об’яв та сайти-агрегатори послуг. Наступним кроком дослідження є побудова семантичного словника представлення корпо- ративних веб-ресурсів. Дослідження існуючих рішень показало, що як базовий набір класів для опису семантичної структури корпоративних веб-ресурсів доціль- но використовувати стандарти Good Relations, який є спеціалізованим розширенням най- більш поширеного словника Schema.org для електронної комерції. Використання готових стандартів гарантує високий рівень сумісності розробленої техно- логії з існуючими інструментами. Цей стандарт містить необхідні класи для опису: контактні дані для компаній та співро- бітників, відгуки, продукцію, ціни, способи доставки та оплати. Враховуючи базову онтологію, було додано нові класи згідно структури корпоративних веб-ресурсів. Предметно-орієнтована мова оперування веб-даними. Будь-яка обробка даних, видобу- тих з веб-сторінок не є складним завданням і може бути ефективно реалізована існуючими засобами програмування. Нетривіальним є завдання саме видобування інформації з веб- ресурсів. Існує безліч підходів до створення веб-сторінок і використання кожного з них на виході генерує свій унікальний html-код. Тому сьогодні не існує ефективних програмних рі- шень, які дозволили б уніфікувати цей процес для всіх веб-ресурсів. Сьогодні для отримання даних з веб-сторінки застосовуються спеціальні програми — гра- бери. Їх завдання — збір інформації з певних веб-сайтів за певними параметрами. Але для кожного конкретного веб-ресурсу необхідно писати окрему програму, яка зможе отриму- вати дані з урахуванням стильових, програм- них і структурних особливостей кожного веб- ресурсу. Для вирішення завдання уніфікації процесу видобування розроблено предметно- орієнтовану мову (ПОМ) з широким функціо- налом для оперування веб-даними [5-7]. Метою розробки такої мови було забез- печення системи зручними та інтуїтивно зрозумілими програмними засобами оброб- ки веб-даних, що будуть доступні не тільки досвідченим розробникам, а й власникам веб-ресурсів без практичних навичок в галу- зі програмування. Використання ПОМ замість мов загально- го призначення істотно підвищує рівень аб- страктності коду, що дозволяє вести розробку швидко і ефективно, створювати легкі в розу- мінні та супроводі програми. Для виявлення переліку необхідних функцій предметно орієнтованої мови проведено низку експериментів з видобування та збереження інформації з веб-ресурсів. Для видобування даних розроблено програми-парсери на мові програмування Perl. Далі представлено два варіанти програмної реалізації однієї задачі засобами мови програ- мування загального призначення Perl та розро- бленої предметно-орієнтованої мови. #!/usr/bin/perl -w use 5.10.0; use strict; use Data::Dumper; Рис.1. Загальна схема системи КОДІ 36 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов use Mojo::UserAgent; use DBI; my $dsn=»DBI:SQLite:dbname=store.sqlite»; my $table=»сигнализаціі»; my $url=»http://bezpeka.top/signalizatsii- gsm»; #отримуємо вміст HTML сторінки my $dbh = DBI->connect($dsn,undef,undef, { RaiseError => 1 }) or die $DBI::errstr; my $ua = Mojo::UserAgent->new; my $res=$ua->get($url)->result; if ($res->is_error) { say $res->message; exit(1); } #парсинг HTML-коду my $dom = Mojo::DOM->new(); $dom=$dom->parse($res->body); unless ($dom) { say «операція парсингу HTML-коду не ви- конана»; exit(1); } #пошук необхідних даних та збереження їх в масив @data my @data; my @items=$dom->find(’div[class~=»product- layout»]’)->each; unless (@items) { say «Список товарів не знайдено»; exit(1); } foreach my $i (@items) { my $link=$i->at(’div.caption > h4 > a’); my $url=$link->attr(’href’); my $name=$link->text; my $desc=$i->at(’div.caption > p’)->text; push @data, {url=>$url,name=>$name, desc=>$desc}; } #створення таблиці з результатами $dbh->do(«create table if not exists ’$table’ (id int primary key,name text, desc text, url text)») or die $DBI::errstr; #збереження результатів в таблицю my $sth=$dbh->prepare(«insert into ’$table’(name,desc,url) values(?,?,?)») or die $DBI::errstr; foreach my $e (@data) { $sth->execute($e->{name},$e->{desc},$e- >{url}) or die $DBI::errstr; } Незважаючи на тривіальну задачу і вико- ристання «доброзичливих» модулів, які при- ховують більшу частину деталей, отриманий програмний код є важким для розуміння недо- свідчених користувачів. Крім того дана програма має такі недоліки: нестійкість до модифікацій API викорис- таних бібліотек; низька репрезентативність коду, що усклад- нює розуміння структури програми, спираю- чись на програмний код; незручна в налагодженні та тестуванні; потребує значних модифікацій в разі вико- ристання інших модулів. Програмна реалізація на ПОМ є значно ви- разнішою. URL http://bezpeka.top/signalizatsii-gsm SECTION d {div[class~=»product-layout»]} d.title=TEXT {div.caption > h4 > a} d.link=LINK {div.caption > h4 > a} d.description=TEXT {div.caption > p} STORE type=DB name=»сигналізації» data=d Більшу частину «коду» становить інформа- ція про структуру представлення даних на веб- ресурсі, яку користувач легко може отримати використовуючи вбудовані функції сучасних браузерів. Такий код легко писати, читати і модифікувати звичайним користувачам. Його не потрібно змінювати у разі використання різних методів збереження даних або вико- ристання інших алгоритмів для отримання та парсингу HTML-коду. Завдання обробки помилок, налагодження і тестування бере на себе система виконання. Загальну схему взаємодії модулів розробле- ної мови представлено на рис. 2. ISSN 0130-5395, УСиМ, 2018, № 4 37 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки Розроблена мова є декларативною, що в су- купності з візуальним редактором дає можли- вість користуватись нею навіть недосвідченим користувачам. Для професійних програмістів розроблено текстовий редактор. Мова підтримує два варіанти збереження даних — це бази даних та системи контролю версій, що дозволяє корис- тувачам переглядати історію змін необхідної ін- формації і проводити додаткові дослідження. Семантичний профіль відображення вмісту корпоративних веб-ресурсів. Семантичний про- філь являє собою смислову розмітку всіх еле- ментів веб-сторінки додатковими тегами та атрибутами, які дозволяють визначити не тіль- ки стильове оформлення, але й сенс певного блоку веб-сторінки [8]. Використовуючи той же набір тегів, що і для семантичної розмітки, користувач може створювати шаблони відо- браження веб-сторінок певного типу в тому ви- гляді, який дозволить йому найбільш швидко і ефективно отримувати необхідну інформацію. При цьому він може відключити відображення тих блоків, які, на його думку, позбавлені ко- рисної інформації. Як приклад розглянемо структуру веб-ресурсу mebel-art.com.ua, який розміщений на першій сторінці пошукової видачі Google за запитом «меблі на замовлення». Головна сторінка веб-ресурсу представлена на рис. 1. При стандартній роздільній здатнос- ті екрану 1920 × 1080 точок, висота «корисної» області при роботі з веб-браузером становить близько 940 точок. Сукупна довжина сторінки становить 6568 точок. А значить для перегляду всієї інформації на сторінці, користувач змуше- ний прокрутити вниз більш шести екранів. При цьому вся корисна інформація може бути розміщена не більше ніж на двох екранах. Інші елементи веб-сторінки створені для підви- щення маркетингової привабливості сторінки або для кращої індексації сторінок пошуковими системами. Структуру головної сторінки веб-ресурсу mebel-art.com.ua показано на рис. 3. 1 —Шапка сайту, де міститься вся необхідна користувачеві інформація: логотип, контактні дані, навігаційне меню, кошик, пошук, реє- страція. Цей блок є інформативним. 2 —Блок «заклик до дії (call to action)», в якому розміщена графічна ілюстрація і форма виклику замірника. Призначення таких блоків суто маркетингове, спонукати відвідувача до Рис. 2. Схема взаємодії компонентів предметно орієнтованої мови оперування веб-даними 38 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов негайних дій, викликати майстра, замовити зворотний дзвінок, забронювати столик тощо. Неінформативний, оскільки виклик замір- ника, як правило, здійснюється тільки після дзвінка і узгодження всіх деталей. 3 —Блок «схема роботи» також ємаркетин- говим, який візуалізує схему замовлення, але не надає користувачеві ніякої конкретної ін- формації про деталі роботи компанії — термі- ни, вартість, варіанти оплати і т.ін. Неінфор- мативний, тому що не скасовує необхідності здійснювати дзвінок і з’ясовувати деталі. 4 —Блок «проекти» є інформативним, тому що дає користувачеві можливість ознайомити- ся з продукцією, яку надає фірма; у цьому бло- ці представлено саме ту інформацію, яка необ- хідна користувачеві для прийняття рішення. 5 —Блок «заклик до дії», аналогічний блоку №2 — неінформативний. 6 —Блок «наші роботи», який по суті дублює вміст блоку №4, але, на відміну від нього, тут інформація представлена в незручному вигля- ді, без рубрикації — неінформативний. 7 —Блок «відгуки клієнтів» дозволяє озна- йомитися з реальними відгуками клієнтів; ін- формативний, тому що допомагає користува- чеві прийняти рішення. 8 —Блок «стаття» містить зображення і текст. Не містить корисної для прийняття рішення ін- формації, але є необхідною умовою для успішно- го просування веб-ресурсу в пошуковій видачі. Неінформативний, тому що створений спеці- ально для індексації пошуковою машиною. 9 —Блок «заклик до дії» неінформативний. 10 —Нижня частина сайту, в якій дублюється представлена в шапці контактна інформація. Посилання на сторінки каталогу дублюють навігаційне меню в шапці і сприяють кращій індексації сайту пошуковими системами «в глибину». Неінформативний, тому що ство- рений спеціально для індексації пошуковою машиною. Аналіз веб-ресурсу показав, що інформатив- ними є блоки 1, 4, 7; висота їх становить 1736 точок. Тобто інформативний (корисний для користувача) вміст сторінки становить 26, 4 відсотків. На рис. 4 показано зовнішній вигляд Рис. 3. Структура головної сторінки веб- ресурсу mebel-art.com.ua ISSN 0130-5395, УСиМ, 2018, № 4 39 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки веб-ресурсу з відключеним відображенням не- інформативних блоків. Використовуючи також можливості нової DSL-мови був створений шаблон відображен- ня для сайтів компаній, який дозволяє відо- бражати подану інформацію більш компактно. Результати роботи подано на рис. 5. Важливо відзначити, що шаблон можна за- стосовувати автоматично до всіх веб-ресурсів даного виду. Тобто всі веб-ресурси компаній бу- дуть відображатися з тим же стильовим оформ- ленням (колір, розміри блоків, шрифти, розмір тексту тощо) Для підвищення ефективності роботи з новою мовою розроблений візуальний інтер- фейс, заснований на технології WYSIWYG. Для розмітки існуючих веб-ресурсів розро- блено візуальний інтерфейс, в якому відобра- Рис. 4. Веб-сторінка з відключеним відображенням неінформативних блоків 40 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов жається веб-сторінка повністю. При натис- канні на будь-який текстовий або графічний елемент сторінки підсвічується елемент роз- мітки DOM і з’являється вікно для введення тега розмітки вручну або для вибору зі списку готових тегів. Для розробки нових веб-ресурсів за стан- дартами семантичної розмітки розроблено систему керування вмістом веб-ресурсу (CMS), в якій теги семантичної розмітки вбудовані в ядро системи і автоматично інтегруються в код на етапі генерації веб-сторінки. Можливості мови дозволяють користувачам створювати шаблони відображення веб-сторінок на основі семантичного профілю веб-ресурсу. З цією метою використовується візуальний інтерфейс, в якому користувач може шляхом перетягування мишею елементів створювати шаблон відображення для певного типу веб- ресурсів (сайт компанії, інтернет-магазин, но- винний сайт, блог). Семантична розмітка веб-ресурсів у зв’язці з універсальним граббером може принципово змінити порядок взаємодії користувача з по- шуковою системою. Поняття веб-ресурсу зміниться і більше не буде самостійним сайтом зі своїм строго ви- значеним дизайном, який відображається по зверненню до доменного імені. Новий підхід визначає веб-ресурс як набір даних і семантич- ний профіль, складені за певними правилами. На підставі семантичного профілю дані мо- жуть бути відображені в будь-якому зручному для користувача вигляді на підставі його осо- бистого шаблону відображення для відповід- ного типу веб-ресурсів.Користувач отримує можливість довільно змінювати структуру веб-ресурсу, обирати, які саме елементи веб- сторінки будуть відображатися, а які будуть проігноровані. Також семантичний профіль дозволяє опе- рувати даними поза доменним іменем, на- Рис.5. Веб-сторінка після застосування шаблону відображення ISSN 0130-5395, УСиМ, 2018, № 4 41 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки Рис. 6. Результати обробки пошукових даних 42 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов приклад, порівнювати прямо на етапі пошуку певні види послуг або товарів, застосовувати фільтри і сортування. Модуль пошуку інформації.Модуль інфор- маційного пошуку реалізовано у вигляді ме- тапошукової системи, що як базові результати використовує пошукову видачу Google.com.ua. В системі реалізовано нові можливості, для підвищення якості та зручності пошуку інфор- мації для користувача: вибір альтернативної моделі ранжування ре- зультатів пошуку на основі оцінок користувачів; вибір шаблонів відображення результатів пошуку; розробка власних шаблонів відображення результатів пошуку; застосування пошукових агентів для по- стобробки пошукової видачі; розробка власних пошукових агентів Результати пошуку за запитом «метало- пластикові вікна Київ» із застосуванням ша- блону «Вакансії+контакти», що відображає повний текст сторінок вакансії та контакти, а також застосуванням пошукового агенту, який відбирає в пошуковій видачі Google всі компанії, що є офіційними дилерами або ви- робниками і в яких є відкриті вакансії подано на рис. 6. Спочатку результати пошуку Google додат- ково обробляються пошуковим агентом, збе- рігаються в базу даних, а потім виводяться на екран згідно шаблону відображення. В лівій колонці відображаються поле для вводу пошукового запиту та результати пошу- ку. В правій колонці розташовані налаштуван- ня пошуку: вибір шаблону відображення результатів пошуку – надає можливість обрати, яка саме інформація з веб-сторінки і в якому вигляді буде відображена на сторінці результатів. Реа- лізовано також можливість додавання власних шаблонів; пошукові агенти – дозволяє обрати один з існуючих пошукових агентів для більш деталь- ного аналізу пошукової видачі. Також реалізо- вано можливість додавання власних пошуко- вих агентів; вибір моделі ранжування; шаблон відображення веб-ресурсів – до- зволяє обрати шаблон для відображення вміс- ту конкретного веб-ресурсу при переході за посиланням з пошукової видачі. Висновки За використання програм-парсерів, реа- лізованих засобами мови програмування Perl, досліджено процес видобування даних з веб-ресурсів. На основі отриманих даних було виявлено перелік необхідних функцій, використаних при розробці нової пред- метно орієнтованої мови оперування веб- даними За допомогою автоматичного парсера, реалі- зованого засобами представленої в статті мови проаналізовано інформаційний вміст 1000 корпоративних веб-ресурсів. На базі отрима- них даних побудовано загальну структуру кор- поративних сайтів. Дослідження існуючих словників семан- тичної розмітки показало, що як базовий на- бір класів для опису семантичної структури корпоративних веб-ресурсів доцільно вико- ристовувати стандарти Good Relations, який є спеціалізованим розширенням найбільш по- ширеного словника Schema.org для електро- нної комерції. Враховуючи базову онтологію, було додано нові класи згідно структури кор- поративних веб-ресурсів. На базі створеної ПОМ та словника се- мантичної розмітки корпоративних веб- ресурсів, розроблено програмний комплекс, що реалізує роботу всіх модулів описаної системи КОДІ. Розроблена предметно орієнтована мова для оперування веб-даними є ефективним інстру- ментом для збору, зберігання і відображення вмісту веб-ресурсів. Використання деклара- тивного підходу в сукупності з візуальним ре- дактором дає можливість користуватись нею навіть недосвідченим користувачам.Також розроблена ПОМ є ефективною платформою для створення пошукових агентів на основі се- мантичної розмітки. ISSN 0130-5395, УСиМ, 2018, № 4 43 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки Використання семантичного профілю веб- ресурсу дозволяє відображати інформацію в будь-якому зручному для користувача вигля- ді на підставі його особистого шаблону відо- браження для відповідного типу веб-ресурсів. Користувач отримує можливість довільно змінювати структуру веб-ресурсу. Модуль інформаційного пошуку, реалізова- ний у вигляді метапошукової системи, значно підвищує ефективність пошуку за використан- ня шаблонів відображення результатів пошуку та пошукових агентів. Розроблена система надає користувачу ефективні, зручні та прості у використанні ін- струменти обробки веб-даних на всіх етапах взаємодії з семантичною павутиною від ство- рення веб-ресурсів до пошуку інформації. СПИСОК ЛІТЕРАТУРИ 1. Zosimov V., Stepashko V., Bulgakova O.Inductive Building of Search Results Ranking Models to Enhance the Relevance of Text Information Retrieval. “Database and Expert Systems Applications, Valencia, Spain / Ed. by Markus Spies at al. — Los Alamitos: IEEE Computer Society, 2015. — 316 p. / — P. 291—295 2. Zosimov V., Stepashko V., Bulgakova O. Enhanced technology of efficient Internet retrieval for relevant information using inductive processing of search results:. — Artificial Intelligence Methods and Techniques for Business and Engineering Applications — Rzeszow, Poland; Sofia, Bulgaria: ITHEA, 2012. — 99—112 рp. 3. Zosimov V., Bulgakova O. Usage of Inductive Algorithms for Building a Search Results Ranking Model Based on Visitor Rating Evaluations. Proceedings of the 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies, CSIT 2018, IEEE,September, Pages 2018 466—470 4. Zosimov V. Prospects for Applying the Concept of the Semantic Web Analysis for Existing sites. Індуктивне моделю- вання складних систем, : Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2014. — Вип. 6. — С. 41—46. 5. Van Deursen A., Klint P., Visser J. Domain-Specific Languages: An Annotated Bibliography. ACM SIGPLAN Notices. Vol. 35, N 6.2000. P. 26—36. 6. Сухов А.О. Сравнение систем разработки визуальных предметно-ориентированных языков. Математика программных систем: межвузовский сборник научных статей / Перм. гос. нац. исслед. ун-т. — Пермь, 2012. — С. 84—111. 7. Казакова А.С. Методы и инструменты реализации предметно-ориентированных языков программирования. Системное программирование. 2009. Т. 4. С. 51—80. 8. Zosimov V. Khrystodorov O., Bulgakova O. Dynamically changing user interfaces: software solutions based on automatically collected user information. Proceedings of the Institute for System Programming, vol 30:3 3, 2018, P. 207—220. DOI: 10.15514/ISP-2018-30(3)-15 Надійшла 21.11.2018 REFERENCES 1. Zosimov V., Stepashko V., Bulgakova O. 2015. Inductive Building of Search Results Ranking Models to Enhance the Relevance of Text Information Retrieval. “Database and Expert Systems Applications, Valencia, Spain. Ed. by Markus Spies at al. — Los Alamitos: IEEE Computer Society. pp. 291—295 2. Zosimov V., Stepashko V., Bulgakova O. 2012. Enhanced technology of efficient Internet retrieval for relevant information using inductive processing of search results:. — Artificial Intelligence Methods and Techniques for Business and Engineering Applications. Rzeszow, Poland; Sofia, Bulgaria: ITHEA. pp. 99—112. 3. Zosimov V., Bulgakova O. 2018. Usage of Inductive Algorithms for Building a Search Results Ranking Model Based on Visitor Rating Evaluations. Proceedings of the 12th International Scientific and Technical Conference on Computer Sciences and Information Technologies, CSIT 2018, IEEE. pp. 466—470 4. Zosimov V. 2014. Prospects for Applying the Concept of the Semantic Web Analysis for Existing sites. Inductive Modelling of complex systems : K.: ISSC ITSNACandMOCUkraine, 6. С. 41—46. 5. Van Deursen A., Klint P., Visser J. 2000. Domain-Specific Languages: An Annotated Bibliography. ACM SIGPLAN Notices. Vol. 35, N 6. pp. 26—36. 6. SuchovA.O. 2012. Comparison of visual object-oriented languagesdevelopment systems. Mathematics of software systems: intercollegiate collection of scientific articles . Perm. gov. nat. research. un-t. Perm. pp. 84—111. 44 ISSN 0130-5395, Control systems and computers, 2018, № 4 В.В. Зосімов 7. KazakovaA.S. 2009. Methods and tools for implementing domain-specific programming languages. System programming. Vol. 4. pp. 51—80. 8. Zosimov V. Khrystodorov O., Bulgakova O. 2018. Dynamically changing user interfaces: software solutions based on auto matically collected user information. Proceedings of the Institute for System Programming, vol 30:3 3. pp. 207—220. DOI: 10.15514/ISP-2018-30(3)-15 Received 21.11.2018 Zosimov V.V., Ph.D in Techn.Sciences, Associate Professor of the Computer Science and Applied Mathematics Department V.O. Sukhomlynsky Mykolaiv National University, Nikolska str., 24, Mykolaiv, 54030, Ukraine zosimovvv@gmail.com TECHNOLOGY OF WEB APPLICATIONS BASED ON THE CYBER-ENTITIES IDENTIFICATION Introduction.The rapid development of information technology in recent decades has put for the society the tasks of effectively process large volumes of poorly structured information presented in the form of web pages. Among them, the standards research for the certain types of web resources development, the search, extraction, processing, analysis, storage and display of information. Purpose. Development of the integrated web-data operating system within the concept of the semantic web, focused on improving the methods of information search, the creation of web resources with integrated semantic markup and programme search agents. Methods. Methods of analysis and data processing, Data mining, Web Mining, machine learning methods, group method of data handling, modern methods for constructing software products with modular architecture, search agents developing methods, semantic markup inte-grating methods. Results. Based on the research results, a general structure and semantic markup dictionary for corporate web resources, the domain specific language of web data operating and the soft-ware package that implements the work of all modules of the described system for the web-data complex operating are developed. Conclusions. The proposed system of integrated web-data operating, provides the user with efficient, convenient and easy to use tools for processing web data at all stages of interaction with the world wide web from the web resources creation to the information search. The system is based on a new domain specific web-data operating language and the corporate web resources semantic markup dictionary. Keywords: information search, ranking model, meta-search system, semantic markup, ontology, web resource structure, Data mining, domain specific language, content management system. Зосимов В.В., кандидат технических наук, доцент, Николаевский национальный университет им. В.А. Сухомлинского, Николаев, Украина, zosimovvv@gmail.com КОМПЛЕКСНЫЙ ПОДХОД К ПОВЫШЕНИЮ ЭФФЕКТИВНОСТИ ОБРАБОТКИ ВЕБ-ДАННЫХ НА ОСНОВЕ СЕМАНТИЧЕСКОЙ РАЗМЕТКИ Введение. Стремительное развитие информационных технологий в последние десятилетия поставило перед обществом целый ряд задач по эффективной обработке больших объемов слабоструктурированной информации, представленной в виде веб-страниц. Среди них — исследование стандартов разработки определенных видов веб- ресурсов, поиск, извлечение, обработка, анализ, хранение и отображение информации. Цель. Разработка системы комплексного оперирования веб-данных в рамках концепции семантической паутины, направленной на совершенствование методов поиска информации, создание веб-ресурсов с интегрированной семантической разметкой и программных поисковых агентов. ISSN 0130-5395, УСиМ, 2018, № 4 45 Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки Методы. Методы анализа и обработки данных, DataMining, WebMining, методы машинного обучения, метод группового учета аргументов, современные методы построения программных продуктов с модульной архитектурой, методы разработки поисковых агентов и интеграции семантической разметки. Результаты.На основе результатов исследования были разработаны: общая структура и словарь семантической разметки для корпоративных веб-ресурсов, предметно-ориентированный язык обработки веб-данных и программный комплекс, реализующий работу всех модулей описанной системы комплексной обработки веб- данных. Выводы. Представленная система комплексной обработки веб-данных предоставляет пользователю эффективные, удобные и простые в использовании инструменты для обработки веб-данных на всех этапах взаимодействия со всемирной паутиной — от создания веб-ресурсов до поиска информации. В основу системы положен новый предметно-ориентированный язык обработки веб-данных и словарь семантической разметки корпоративных веб-ресурсов. Ключевый слова: поиск информации, модель ранжирования, метапоисковая система, семантичная розметка, онтологии, структура веб-ресурса, извлечение знаний из данных, предметно-ориентированный язык, система управления содержанием
id nasplib_isofts_kiev_ua-123456789-150488
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Ukrainian
last_indexed 2025-12-07T18:36:37Z
publishDate 2018
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Зосімов, В.В.
2019-04-08T13:15:22Z
2019-04-08T13:15:22Z
2018
Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки / В.В. Зосімов // Управляющие системы и машины. — 2018. — № 4. — С. 32-45. — Бібліогр.: 8 назв. — укр.
0130-5395
DOI https://doi.org/10.15407/usim.2018.04.0032
https://nasplib.isofts.kiev.ua/handle/123456789/150488
004.9
Розроблено систему комплексного оперування даними в мережі Інтернет, яка надає користувачу ефективні, зручні та прості у використанні інструменти обробки веб-даних на всіх етапах взаємодії з семантичною павутиною від створення веб-ресурсів до пошуку інформації. В основу системи покладено нову предметно орієнтовану мову оперування веб-даними та словник семантичної розмітки корпоративних веб-ресурсів.
Цель. Разработка системы комплексного оперирования веб-данных в рамках концепции семантической паутины, направленной на совершенствование методов поиска информации, создание веб-ресурсов с интегрированной семантической разметкой и программных поисковых агентов. Результаты.На основе результатов исследования были разработаны: общая структура и словарь семантической разметки для корпоративных веб-ресурсов, предметно-ориентированный язык обработки веб-данных и программный комплекс, реализующий работу всех модулей описанной системы комплексной обработки веб-данных.
Purpose. Development of the integrated web-data operating system within the concept of the semantic web, focused on improving the methods of information search, the creation of web resources with integrated semantic markup and programme search agents. Results. Based on the research results, a general structure and semantic markup dictionary for corporate web resources, the domain specific language of web data operating and the soft-ware package that implements the work of all modules of the described system for the web-data complex operating are developed.
uk
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Интеллектуальные информационные технологии и системы
Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
Комплексный подход к повышению эффективности обработки веб-данных на основе семантической разметки
An Integrated Approach to Improving the Efficiency of Web Data Processing Based on Semantic Markup
Article
published earlier
spellingShingle Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
Зосімов, В.В.
Интеллектуальные информационные технологии и системы
title Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
title_alt Комплексный подход к повышению эффективности обработки веб-данных на основе семантической разметки
An Integrated Approach to Improving the Efficiency of Web Data Processing Based on Semantic Markup
title_full Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
title_fullStr Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
title_full_unstemmed Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
title_short Комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
title_sort комплексний підхід до підвищення ефективності обробки веб-даних на основі семантичної розмітки
topic Интеллектуальные информационные технологии и системы
topic_facet Интеллектуальные информационные технологии и системы
url https://nasplib.isofts.kiev.ua/handle/123456789/150488
work_keys_str_mv AT zosímovvv kompleksniipídhíddopídviŝennâefektivnostíobrobkivebdanihnaosnovísemantičnoírozmítki
AT zosímovvv kompleksnyipodhodkpovyšeniûéffektivnostiobrabotkivebdannyhnaosnovesemantičeskoirazmetki
AT zosímovvv anintegratedapproachtoimprovingtheefficiencyofwebdataprocessingbasedonsemanticmarkup