Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used bot...
Збережено в:
Дата: | 2021 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2021
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-439 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/bb/8fdf2224ad8a99a94b6dad546b1e7cbb.pdf |
spelling |
pp_isofts_kiev_ua-article-4392024-04-26T22:46:30Z Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level Застосування онтологічного аналізу для обробки метаданих при інтерпретації Big Data на семантичному рівні Rogushina, J.V. Gladun, A.Y. Big Data; ontology; metadata; semantic markup UDC 004.853, 004.55 Big Data; онтологія; метадані; семантична розмітка УДК 004.853, 004.55 The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used both in order to effectively analysis of information acquried from certain sets of Big Data, and to make this acquisition more useful. With the help of such ontologies, users can formally describe the scope of their information needs, define the structure of the required information objects and explicitly highlight critical for current task domain aspects. Subject of rocessing in the semantics analysis of Big Data is their metadata usually represented by unstructured natural language text. We need to standardize the representation of meta-descriptions wit use of appropriate ontologies that determine the structure and content of individual elements of metadata.Problems in programming 2020; 4: 55-70 В роботі розглядаються основні аспекти застосування сучасних технологій менеджменту знань для здобуття інформації з Big Data. Як показує аналіз сучасного стану досліджень у цій сфері, для того, щоб ефективно визначати, яку саме інформацію можна отримати з певних наборів Big Data, так і зробити це здобуття більш корисним (наприклад, недоцільно здобувати вже відомі або наочні правила), потрібно застосовувати фонові знання, які містяться в онтологіях предметних областей, що цікавлять користувачів. За допомогою таких онтологій користувачі можуть формально описувати сферу своїх інформаційних потреб, задавати структуру потрібних інформаційних об’єктів та явно виділяти ті аспекти предметної області, які є важливими для поточної задачі. Це викликає необхідність у засобах пошуку або створення онтологій, які відповідають задачі користувача. Предметом обробки в процесі аналізу семантики Big Data є їх метадані, в яких відомості про зміст Big Data, як правило, представлені неструктурованим природномовним описом. Тому виникає потреба у стандартизації подання метаописів з використанням відповідних онтологій, які визначають структуру та семантику окремих елементів метаданих. Застосування методів Data Mining дозволяє здобувати необхідні знання з неструктурованих елементів таких метаданих. Новизна досліджень, які запропоновані у цій роботі, полягає у тому, що фонові знання, які використовуються для аналізу Big Data та їх метаописів, генеруються автоматизовано відповідно до поточної задачі користувача (на основі семантично розмічених Wiki-ресурсів та пов’язаних з ними онтологій), що забезпечує більш пертинентний підбір наборів Big Data, з яких здобуваються потрібні користувачеві знання. Такий підхід дозволяє зменшити обсяг вибірки, що обробляється, та зменшити час та складність її аналізу.Problems in programming 2020; 4: 55-70 Інститут програмних систем НАН України 2021-01-25 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439 10.15407/pp2020.04.055 PROBLEMS IN PROGRAMMING; No 4 (2020); 55-70 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2020); 55-70 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2020); 55-70 1727-4907 10.15407/pp2020.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439/443 Copyright (c) 2021 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-26T22:46:30Z |
collection |
OJS |
language |
Ukrainian |
topic |
Big Data ontology metadata semantic markup UDC 004.853 004.55 |
spellingShingle |
Big Data ontology metadata semantic markup UDC 004.853 004.55 Rogushina, J.V. Gladun, A.Y. Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
topic_facet |
Big Data ontology metadata semantic markup UDC 004.853 004.55 Big Data онтологія метадані семантична розмітка УДК 004.853 004.55 |
format |
Article |
author |
Rogushina, J.V. Gladun, A.Y. |
author_facet |
Rogushina, J.V. Gladun, A.Y. |
author_sort |
Rogushina, J.V. |
title |
Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
title_short |
Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
title_full |
Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
title_fullStr |
Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
title_full_unstemmed |
Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level |
title_sort |
application of ontological analysis for metadata processing in the interpretation of big data at the semantic level |
title_alt |
Застосування онтологічного аналізу для обробки метаданих при інтерпретації Big Data на семантичному рівні |
description |
The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used both in order to effectively analysis of information acquried from certain sets of Big Data, and to make this acquisition more useful. With the help of such ontologies, users can formally describe the scope of their information needs, define the structure of the required information objects and explicitly highlight critical for current task domain aspects. Subject of rocessing in the semantics analysis of Big Data is their metadata usually represented by unstructured natural language text. We need to standardize the representation of meta-descriptions wit use of appropriate ontologies that determine the structure and content of individual elements of metadata.Problems in programming 2020; 4: 55-70 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2021 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439 |
work_keys_str_mv |
AT rogushinajv applicationofontologicalanalysisformetadataprocessingintheinterpretationofbigdataatthesemanticlevel AT gladunay applicationofontologicalanalysisformetadataprocessingintheinterpretationofbigdataatthesemanticlevel AT rogushinajv zastosuvannâontologíčnogoanalízudlâobrobkimetadanihpriínterpretacííbigdatanasemantičnomurívní AT gladunay zastosuvannâontologíčnogoanalízudlâobrobkimetadanihpriínterpretacííbigdatanasemantičnomurívní |
first_indexed |
2024-09-16T04:07:58Z |
last_indexed |
2024-09-16T04:07:58Z |
_version_ |
1818568299828477952 |
fulltext |
Моделі та засоби систем баз даних і знань
© Ю.В. Рогушина, А.Я. Гладун, 2020
ISSN 1727-4907. Проблеми програмування. 2020. № 4 55
УДК 004.853, 004.55 https://doi.org/10.15407/pp2020.04.055
Ю.В. Рогушина, А.Я. Гладун
ЗАСТОСУВАННЯ ОНТОЛОГІЧНОГО АНАЛІЗУ
ДЛЯ ОБРОБКИ МЕТАДАНИХ ПРИ ІНТЕРПРЕТАЦІЇ
BIG DATA НА СЕМАНТИЧНОМУ РІВНІ
Розглядається застосування менеджменту знань для аналізу Big Data. Щоб визначати, яку саме інфор-
мацію можна отримати з Big Data, і зробити це здобуття більш ефективним, пропонується застосовува-
ти фонові знання з онтологій предметних областей. За допомогою таких онтологій користувачі можуть
формально описувати свої інформаційні потреби, задавати структуру потрібних інформаційних
об’єктів та явно виділяти важливі для поточної задачі аспекти. Предметом аналізу Big Data є їх мета-
дані, в яких відомості про семантику, як правило, представлені неструктурованим природномовним
описом. Тому виникає потреба у стандартизації подання метаданих, в яких онтології визначають струк-
туру та семантику окремих елементів.
Ключові слова: Big Data, онтологія, метадані, семантична розмітка.
Вступ
Метадані дозволяють охарактеризу-
вати контекст, контент і структуру Big
Data, а також методи керування ними.
Метадані накопичуються з плином часу та
документують історію Big Data. Метада-
ними необхідно керувати, як самими
даними, оскільки вони мають бути захи-
щені від втрати, несанкціонованого вида-
лення, збережені або знищені, а також дос-
туп до керування ними має бути організо-
вано через розподіл прав доступу і вико-
нання певних правил безпеки. Семантику
Big Data відображають, як правило, не-
структуровані природномовні описи, що
входять до складу метаданих, але обробка
такої інформації потребує значно більше
зусиль порівняно з обробкою структурова-
ної інформації. Тому ціль даної роботи –
аналіз напрямків структурування метаопи-
сів Big Data з використанням існуючих
стандартів.
Метадані та їх властивості
Метадані у найбільш широкому розу-
мінні – це дані про дані. Але таке визна-
чення надто просте й неконструктивне. Ві-
кіпедія визначає метадані як дані з форма-
льної системи вищого рівня, що описує
задану систему даних або як структуровані
дані, що характеризують певні сутності
для їх ідентифікації, пошуку, оцінки та ке-
рування ними [1]. Це окремий тип інфор-
маційних ресурсів (ІР), які потребують
специфічних засобів подання, створення та
обробки (ІР – це будь-яка сутність, яка
спроможна передавати чи зберігати інте-
лектуальну інформацію або знання [2]).
Хоча спочатку метадані признача-
лися тільки для опису даних, проте остан-
нім часом вони використовуються для
опису найрізноманітніших інформаційних
ресурсів (ІР) та об’єктів (концептуальних
схем, онтологій, сервісів тощо). Вони до-
зволяють характеризувати життєвий цикл
даних, дії та потреби різних суб’єктів об-
робки даних. Нині метадані дозволяють
характеризувати зміст ІР, наприклад, опи-
сувати модель предметної області (ПрО)
на семантичному рівні.
Розвиток інформаційних технологій
став причиною істотного розширення фун-
кцій метаданих і викликав їхнє різноманіт-
тя. Зміст метаданих, їхні функції і засоби
їхнього представлення визначалися тими
інформаційними технологіями, що вико-
ристовувалися для створення таких ІС,
специфікою ПрО та тих ІР, що обробляли-
ся цими ІС.
Розповсюдження електронних біб-
ліотек [3], в яких зберігаються ІР різних
типів, сховищ даних та знань, що впрова-
джують технології Semantic Web [4], ви-
кликало посилення інтересу до семантиза-
ції метаданих [5].
На сьогодні існує велика кількість
визначень метаданих, що відображають
Моделі та засоби систем баз даних і знань
56
різні точки зору на цей термін та на сферу
використання метаданих [6]. Метадані —
це інформація, що робить дані корисними
[7]. Таке визначення описує сферу засто-
сування метаданих, але є надто загальним
для практичного використання. Напри-
клад, для Big Data це визначає роль мета-
даних, але не дозволяє конкретизувати ви-
моги до способів їх представлення.
Метадані призначені як для комп'ю-
терної обробки, так і для інтерпретації
людиною інформації про цифрові і нециф-
рові об'єкти [8]. В роботі [9] метадані
визначаються як структуровані дані, що
містять характеристики сутностей, які во-
ни описують, для цілей їхньої ідентифіка-
ції, пошуку, оцінки та керування. Слід
враховувати, що метадані, які використо-
вуються для опису ресурсів Web, є, як пра-
вило, слабо структурованими, але вони ві-
дповідають погодженим моделям, що за-
безпечують їх операційну інтероперабель-
ність у неоднорідному середовищі [10].
В роботі [11]. метаданими назива-
ється будь-яка дескриптивна інформація
про інші джерела даних, яка сприяє органі-
зації, ідентифікації, представленню, визна-
ченню місця розташування, забезпеченню
інтероперабельності, керуванню і викорис-
танню цих даних. В роботі [12] метадані
характеризують не інформаційний ресурс
у цілому, а певний елемент даних, що
відноситься до цього ресурсу. Такий підхід
найбільш відповідає специфіці збереження
Big Data у великих сховищах, тоді як іден-
тифікувати потрібно підмножину даних, що
пертинентні конкретній задачі користувача.
Метадані можуть використовувати-
ся для визначення семантики інформації,
отже, для поліпшення її пошуку і вибірки,
розуміння і використання. Наприклад, в
[13] розглядається застосовуватися онто-
логій та тезаурусів для семантичного ано-
тування ІР та їх елементів, що є основою
для машинного навчання та здобуття знань
з даних. Залежно від цілей анотування мо-
жуть застосовуватися онтології різної
складності (від контрольованих словників
та глосаріїв до онтологій із складними від-
ношеннями інверсії, неперетину тощо).
Dublin Core (http://www.dublincore.org/) є
прикладом легкої онтології, яка широко
використовується для опису характеристик
електронних документів та семантизації
метаданих.
Конкретний склад функцій метада-
них залежить від особливостей тієї систе-
ми, що їх використовує, від характеру ІР та
їх елементів, які описують ці метадані, від
базових інформаційних технологій систе-
ми, від потреб її користувачів і від бага-
тьох інших факторів.
Властивості метаданих:
1. Відносність поділу ІР на дані та
метадані – метадані для однієї ІС можуть
розглядатися як дані в іншій, та навпаки
(наприклад, онтологія, що використову-
ється для анотування ПМ-тексту, є елеме-
нтом метаданих, а та сама онтологія в ре-
позиторії онтологій [14] є даними);
2. Багаторівневість опису власти-
востей будь-якого іншого ресурсу може
здійснюватися в термінах більш абстракт-
ної системи понять, які можуть утворюва-
ти ієрархію рівнів, яка може включати до-
вільну кількість рівнів (наприклад, Meta
Object Facility (MOF) [15] має три рівні, а
Dublin Core – два);
3. Гетерогенність ІР та даних, що
можуть описуватися метаданими: власти-
вості, які дозволяють охарактеризувати
метадані, залежать від специфіки самих
даних та сфери їх використання;
4. Відчуженість метаданих від ІР:
метадані можуть зберігатися незалежно
або бути убудованими в ІР, які вони харак-
теризують;
5. Ступінь залежності від контен-
та визначається змістом самих метаданих
(наприклад, дата створення і тип файлу не
залежать від контенту, тоді як анотація те-
ксту визначається контентом);
6. Ступінь залежності від ПрО ви-
значається цілями створення метаописів,
які можуть бути спеціалізованими або уні-
версальними;
7. Ступінь структурованості;
8. Рівень гранулярности опису ре-
сурсів визначає, які саме елементи ІР опи-
суються метаданими;
9. Ступінь динамічності визнача-
ється тим, за яких умов та як часто можуть
змінюватися метадані;
Моделі та засоби систем баз даних і знань
57
10. Ступінь формалізованості ви-
значається тим, які засоби використову-
ються для представлення метаданих. Для
представлення метаданих (ПМ, ПМ з об-
меженим словником, формальні мови –
наприклад, OWL [16]).
Існує багато інших властивостей
метаданих, які можуть враховуватися в рі-
зних дослідженнях (наприклад, засоби
представлення, способи збереження та на-
явність явного подання), але вони не є
принциповими для опису Big Data і тому
не розглядаються у даній роботі.
Недоліки систем метаданих [17] –
це низька оперативність відновлення інфо-
рмації; неузгоджене введення змін у мета-
дані, що призводить до суперечливості та
дублювання; недостатня автоматизація си-
стеми ведення метаданих на основі керу-
вання контентом; орієнтованість на роботу
з одним типом об'єктів (ІР та їх елементів,
які описують метадані); відсутність єдиної
моделі метаданих для всіх типів об'єктів;
відсутність спільного розуміння одиниці
опису метаданих – екземпляра метаданих,
який описується сукупністю параметрів,
що не перетинається з іншими сукупнос-
тями, що описуються іншими метаданими;
неповнота набору об'єктів метаданих, які
зазвичай не містять відомості про засоби
обробки та збереження даних.
Неструктуровані дані
Неструктуровані дані (НСД) – це
інформація, яка не має попередньо визна-
ченої моделі даних або не організована за-
здалегідь [18]. Якщо певні елементи мета-
даних не мають формалізованої структури,
то для здобуття з них потрібної інформації
необхідно застосовувати методи, що оріє-
нтовані на аналіз НСД. Саме НСД потен-
ційно мають найбільшу цінність як джере-
ла нових знань, і чим більше таких даних
доступні для аналізу, тим точніше резуль-
тати. Більш детально властивості НСД та
засоби їх обробки проаналізовано в [19].
Природномовна інформація – на-
бори слів природної мови (ПМ) довільної
довжини, поєднані за слабо формалізова-
ними лінгвістичними правилами та пред-
ставлені в електронній формі, може аналі-
зуватися як НСД. Це обумовлюється тим,
що хоча така текстова інформація містить
деякі структурні елементи, але у більшості
ІР такі структурні елементи не представ-
лені явно, і тому їх здобуття потребує ве-
ликого часу та зусиль.
Для аналізу НСД можна застосову-
вати семантичну розмітку. Найбільш кори-
сним засобом семантичної розмітки є
зв’язування елементів ІР з елементами он-
тології (наприклад, фрагмент ПМ-тексту
пов’язується з класом або екземпляром
класу онтології, а інший елемент – із зна-
ченням його властивості). Але з точки зору
легкості впровадження безпосереднє за-
стосування онтологій для семантизації ІР є
недоцільним – більшість користувачів не
володіють онтологічним аналізом, не зна-
ють мови подання онтологій тощо. Тому
більш корисно використовувати простіші
засоби семантизації, наприклад, семантич-
ну Wiki-розмітку. Така семантична вікіфі-
кація може виконуватися як експертами
ПрО, так і технічними співробітниками.
Значний недолік цього підходу –
семантична Wiki-розмітка ІР, що побудо-
вана для однієї ПрО, не може використо-
вуватися для іншої ПрО. Тому доцільно
застосовувати онтології вищого рівня, для
створення яких можуть застосовуватися
онлайнові енциклопедії, що побудовані на
основі технологій семантичних Wiki (на-
приклад, портальна версія Великої україн-
ської енциклопедії е-ВУЕ [20]). Семантич-
на розмітка дозволяє також аналізувати
семантичну подібність між поняттями об-
раної та використовувати її надалі для ана-
лізу НСД [21].
Метадані для Big Data
Властивості метаданих, їх склад і
функції істотно залежать від технологій
реалізації систем, в яких вони використо-
вуються, особливостей описуваних ними
ресурсів, а також від області застосування
і конкретних програм.
Певний набір даних розглядається
як Big Data, якщо він володіє однією або
декількома характеристиками, так званими
характеристиками «5V»: об’єм; швид-
кість; різноманіття; достовірність; цін-
ність [22]. Метадані, які характеризують
Big Data, можуть містити інформацію про
Моделі та засоби систем баз даних і знань
58
джерело даних; про автора і дату створен-
ня документа; кількість записів у наборі
даних; опис цих даних тощо. В обробці Big
Data аналіз метаданих має ключове зна-
чення, тому що метадані містять інформа-
цію не тільки про походження даних
[23, 24], але й про їх зміст.
Метадані для Big Data [25] – це
структурована або напівструктурована
інформація, яка дозволяє створювати,
керувати і використовувати Big Data у різ-
ний час і у різних сферах діяльності, а та-
кож робити відбір таких наборів Big Data,
що релевантні задачі, яку необхідно вирі-
шити [26]. Для опису метаданих викорис-
товуються різні природні та штучні мови.
Природні мови є найбільш багатими і ви-
разними в порівнянні з іншими засобами
подання метаданих. Вони призначені не
для комп'ютерної обробки, а для людей, і
не забезпечують однозначності і строгості
інтерпретації метаданих, і тому такі описи
аналізуються як НСД.
Штучні мови, які використовуються
для опису метаданих, – це мови опису да-
них СУБД, концептуального моделювання,
опису онтологій, бізнес-процесів; мови по-
дання онтологій OWL, RDF; мови розміт-
ки тощо.
Стандартизація метаданих
Стандартизація метаданих – основа
інтероперабельності та повторного вико-
ристання як самих метаданих, так і тих ІР,
що характеризують ці метадані. Тому мі-
жнародні організації зі стандартизації при-
діляють велику увагу розробці форматів
метаданих, які призначені для формально-
го опису різних типів ІР та інформаційних
об’єктів (ІО). Такі стандарти включають в
себе набір властивостей, що дозволяють
характеризувати конкретний ІО. Такі стан-
дарти можуть бути залучені (з різною ефе-
ктивністю) для опису Big Data. Нині в
Україні три міжнародні стандарти, що сто-
суються метаданих, (ISO 15489-1:2016
[27], ISO 15836-1:2017 [28], ISO 15836-
2:2019 [29]) прийнято як національні стан-
дарти методом підтвердження [30, 31].
Стандарт ISO 15489-1:2016 Informa-
tion and documentation – Records manage-
ment — Part 1: Concepts and principles
(Інформація і документація. Керування
документами. Частина 1: Поняття і
принципи) визначає основні поняття і
принципи керування документами і інфо-
рмацією. Цей стандарт може бути застосо-
ваний для відображення основних власти-
востей Big Data: 1) автентичності; 2) дос-
товірності; 3) цілісності; 4) придатності їх
до обробки). В стандарті описано інфор-
маційні поля, що входять в структуру ме-
таданих. Для Big Data ці поля дозволяють
відобразити наступну інформацію: опис
контенту Big Data – це структура даних
(форма, формат, зв’язки між блоками Big
Data); середовище створення; взає-
мозв’язок з іншими блоками Big Data (ша-
рдинг, реплікація) і метаданими; ідентифі-
катори та іншу інформацію, що потрібна
для видобутку і подання даних; дії і події,
що пов’язані з цими Big Data (дата, час дій,
зміна метаданих тощо). Big Data, які не су-
проводжуються такими метаданими, не
можуть використовуватися повноцінно.
Стандарт ISO 15836-1:2017 Informa-
tion and documentation — The Dublin Core
metadata element set — Part 1: Core
elements (Інформація та документація. На-
бір елементів метаданих «Дублінське яд-
ро». Частина 1: Основні елементи) описує
15 елементів Dublin Core, які використо-
вують для опису ресурсів. В цьому станда-
рті під ресурсом розуміють будь-який
об’єкт, який можна ідентифікувати (на-
приклад, у сфері комп’ютерних наук ресу-
рсами виступають окремі документи, тек-
сти, аудіо- та відео-файли, Web-сторінки,
бази даних тощо). Big Data та їх метадані
теж відповідають такому визначенню і
можуть розглядатися як ресурси. 15-
елементне «ядро», зазначене в цьому стан-
дарті, є частиною більшого набору слов-
ників метаданих та технічних специфіка-
цій, що підтримуються Дублінською ініці-
ативою метаданих (Dublin Core Metadata
Initiative, DCMI) [32]. Основні елементи
можуть використовуватися в поєднанні з
термінами метаданих з інших сумісних
словників у контексті профілів застосун-
ків, як зазначено в абстрактній моделі
DCMI [DCAM]. В табл. 1 приведена
специфікація 15 елементів метаданих
Dublin Core.
Моделі та засоби систем баз даних і знань
59
Таблиця 1. Специфікація 15 елементів метаданих Dublin Core
Назва
елемента
Мітка
елемента
Визначення Коментар
title Заголовок Назва ресурсу
creator Автор
Сутність, відпові-
дальна за створен-
ня контенту ресу-
рсу
Людина, організація або сервіс; зазвичай збіга-
ється з ім'ям людини, назвою організації або
сервісу
subject Тема
Тема контенту ре-
сурсу
Як правило, подається ключовими словами,
фразами або кодами класифікації. Рекоменду-
ється вибирати значення з певного словника.
Просторова або часова приналежність ресурсу
повинна описуватися елементом coverage
description Опис
Опис контенту ре-
сурсу
Опис контенту ресурсу може включати зміст,
анотацію, графічну презентацію або короткий
текстовий опис ресурсу
publisher Видавець
Сутність, що ро-
бить ресурс дос-
тупним
Людина, організація або сервіс; зазвичай збіга-
ється з ім'ям людини, назвою організації або
сервісу
contributor Учасник
Сутність, що бере
участь у створенні
контенту ресурсу
Людина, організація або сервіс; зазвичай збіга-
ється з ім'ям людини, назвою організації або
сервісу
Date Дата
Дата події в жит-
тєвому циклі ре-
сурсу
Може використовуватися для подання інфор-
мації про час з будь-яким рівнем точності
type Тип
Вид або категорія
контенту ресурсу
Рекомендується вибирати значення з певного
словника, такого як DCMI Type Vocabulary. Фі-
зичне або цифрове подання ресурсу визначаєть-
ся елементом format
format Формат
Фізичне або циф-
рове подання ре-
сурсу, вимір
Вимірювання може бути, наприклад, розміром
або тривалістю
identifier
Ідентифіка-
тор
Конкретне поси-
лання на ресурс в
цьому контексті
Рекомендується визначати ресурс за допомогою
рядка або числа, що задовольняє формальній
системі ідентифікації
source Джерело
Посилання на ре-
сурс, на основі
якого складено
цей ресурс
Цей ресурс може складатися з "Джерела" част-
ково або повністю. Рекомендується визначати
"Джерело" за допомогою рядка або числа, що
задовольняє формальній системі ідентифікації
coverage Охоплення
Простір або гра-
ниці, з якими по-
в'язано вміст ре-
сурсу
Як правило, географічне положення (назва міс-
ця або координати), часовий період (назва пері-
оду, дата, набір дат) або підвідомча область (та-
ка як адміністративна область)
language Мова
Національна мова
вмісту
Рекомендується вибирати значення з певного
словника, такого як RFC 4646
relation Зв’язування
Посилання на зв'я-
заний ресурс
Рекомендується визначати "зв'язування" за до-
помогою рядка або числа, що задовольняє фор-
мальній системі ідентифікації
rights
Правова
інформація
Правова інформа-
ція, пов'язана з
ресурсом
Зазвичай "Правова інформація" містить правові
угоди щодо ресурсу, включаючи інформацію
про права на інтелектуальну власність
Моделі та засоби систем баз даних і знань
60
Міжнародний стандарт ISO 15836-
2:2019 Information and documentation – The
Dublin Core metadata element set – Part 2:
DCMI Properties and classes (Інформація та
документація. Набір елементів метаданих
«Дублінське ядро». Частина 2: DCMI вла-
стивості і класи) є розширенням і допов-
ненням першої частини цього стандарту
ISO 15836-1. Розширення полягає у тому,
що він надає програмістам загальну уні-
версальну мову для створення та аналізу
метаданих. Така універсальна мова забез-
печує розширений опис елементів метада-
них, використовуючи їх оновлені власти-
вості та класи. Стандарт ISO 15836-2 збі-
льшує початковий набір з 15 основних
властивостей до 40 властивостей і 20 кла-
сів для підвищення точності і виразності
описів у стандарті Dublin Core. Основна
увага цього стандарту зосереджена на опи-
су загальних властивостях елементів мета-
даних, що необхідні для базової інтеропе-
рабельності між різними мовами програ-
мування та предметними областями їх за-
стосування.
Такий набір властивостей і класів
подається як словник RDF і може викорис-
товуватися для зв’язаних даних (Linked
Data). Кожна властивість і клас ідентифі-
кується глобальним ідентифікатором для
використання в даних RDF. Розробники
метаданих, що не належать до RDF, мо-
жуть використовувати словник у XML,
JSON, UML та реляційних БД, не застосо-
вуючи глобальний ідентифікатор і специ-
фічні для RDF аспекти визначень термінів.
Значення URI можуть бути викори-
стані для створення посилань зі значень
елементів на відповідні ресурси Web. URI
– це уніфіковані локатори ресурсів (URL-
адреси) або постійні ідентифікатори, такі
як уніфіковані імена ресурсів (URN). Ста-
ндарт Dublin Core визначає лише посилан-
ня другого типу. У стандарті подані імена
властивостей, які можуть бути префіксами
для використання як ідентифікатори або
цитуватися як повні URI, використовуючи
простір імен PURL за замовчуванням.
Таким чином, важливим досягнен-
ням базового набору елементів Dublin Core
є те, що його розширена семантика дає
можливість опису будь-яких Web-ресурсів.
Однак існують і негативні наслідки цієї
позитивної характеристики.
1. Розширення семантики припус-
кає різні інтерпретації (найбільш складни-
ми в інтерпретації є пари "relation –
source", "creator – contributor", "type –
format".
2. Для опису конкретних категорій
ресурсів глобальний рівень є недостатнім:
він не відображає важливі характеристики
ресурсу. Це стосується основних ПМ-
об'єктів опису в репозиторіях – статей,
матеріалів конференцій, книг, дисертацій.
Тому можуть вводитися більш де-
тальні елементи опису ресурсів з викорис-
танням: розширеного набору термів Dublin
Core, які нам надає стандарт ISO 15836
Part 2: "DCMI Properties and classes "(ISO
15836-2: 2019); інших форматів метаданих,
таких як MODS (Metadata Object
Description Schema) на базі спрощеного
набору елементів формату MARC, ETD-
MS для опису дисертацій, Data Cite
Metadata Schema та інших; власних набо-
рів метаданих, які формуються на основі
розширеного формату з додаванням спе-
цифічних елементів.
Для забезпечення уніфікації значень
і потрібного рівня деталізації метаданих,
отримуваних по OAI-PMH у форматі базо-
вого DC, репозіторії-агрегатори застосо-
вують набір рекомендацій щодо обов'язко-
вого використання деяких полів; уніфікації
використання полів (наприклад, для статей
рекомендується записувати назву журналу
в поле dc: source); уніфікації формулювань
значень полів, важливих для пошуку та
щодо заповнення полів з можливостями
структурування.
Тенденції розвитку структур мета-
даних йдуть у напрямку більшого різнома-
ніття і диференціації елементів. Це пов'яза-
но з підвищенням ролі репозиторіїв в струк-
турі відкритої науки, з розміщенням науко-
вих публікацій, підготовлених за підтримки
фондів, у репозиторії як альтернативі публі-
кацій в журналах відкритого доступу.
З огляду на ці тенденції, ми можемо
виділяти у своїх внутрішніх структурах
метаданих окремі елементи, щоб згодом
передавати їх в деталізованих обмінних
форматах.
Моделі та засоби систем баз даних і знань
61
Метадані та типові інформаційні
об’єкти
Як показав аналіз сучасних систем
метаданих, вони дозволяють описувати не
тільки ІР у цілому, але й типові для певної
ПрО інформаційні об’єкти, які описуються
у цих ІР та є їх елементами. Типові інфор-
маційні об’єкти (ТІО) характеризуються
набором семантичних властивостей, які
можуть бути описані в метаданих кожного
екземпляра. ТІО можуть описувати як ІО
(документи, елементи БД, мультимедійну
інформацію), так і об’єкт реального світу
(персоналій, організації, географічні
об’єкти тощо). Доцільність створення ТІО
визначається специфікою ПрО конкретної
ІС: якщо в системі обробляється певна кі-
лькість елементів із подібним набором
властивостей та характеристик, тоді доці-
льно виділити для них окремий ТІО.
Відповідно до концепції ТІО [33],
які дозволяють класифікувати інформацію
про різноманітні ІО зі складною структу-
рою на семантичному рівні, значення де-
яких елементів метаданих Dublin Core мо-
жуть бути віднесені до певних ТІО (табл.
2), що надалі визначає правила їх аналізу
та обробки. Крім того, деякі з них можуть
розглядатися як ТІО – поняття ПрО, що
відповідають класам та екземплярам класів
онтології ПрО, тоді як інші є ПМ-описами.
Визначити ТІО елементів дозволяє аналіз
коментарів, що надаються у стандарті.
Таблиця 2. ТІО елементів метаданих
Dublin Core
Назва ТІО
title Поняття ПрО
creator Персоналія, Організація, Сервіс
subject Поняття ПрО
description ПМ-опис, НСД
publisher Персоналія, Організація, Сервіс
contributor Персоналія, Організація, Сервіс
Date Структуровані дані, Дата
type Поняття з онтології “Ресурси”
format ТІО (поняття з онтології “Типи да-
них”)
identifier Посилання
source Посилання
coverage Поняття з онтології “Географічні
об’єкти”
language Поняття з онтології “Мови”
relation Посилання
rights ПМ-текст, НСД
Структура та відношення між ТІО
можуть відображатися різними засобами
подання знань. Наприклад, в онтологіях
ТІО відповідають класи, а їх характерис-
тикам – властивості екземплярів класів. В
семантичних Wiki-ресурсах для подання
ТІО використовуються шаблони, що міс-
тять категорії та набір семантичних влас-
тивостей ТІО (рис. 1).
Рис. 1. Використання шаблонів в Semantic MediaWiki для подання ТІО
Моделі та засоби систем баз даних і знань
62
Використання Data Mining для
аналізу метаданих Big Data
На сьогодні створено багато мето-
дів, що забезпечують здобуття знань з різ-
них типів ІР – структурованих, частково
структурованих та неструктурованих [34].
Аналіз таких методів показує, що внесен-
ня структурних елементів у дані значно
зменшує простір рішень та зменшує час
обробки.
Досить часто основою для створен-
ня ТІО є застосування різних напрямків
Data Mining для здобуття знань з метада-
них цих ТІО для більш ефективної роботи
ІС. Особливо це актуально для Big Data,
тому що саме аналіз метаданих такої ін-
формації є основою для створення наборів
Big Data, що можуть використовуватися
як дані для машинного навчання (катего-
ризації та кластеризації). В такому випад-
ку властивості ТІО є параметрами вибірки
даних, значення яких аналізуються мето-
дами Data Mining [35] , і тому коректне
створення ТІО є визначальним фактором
обробки Big Data в цілому.
Data Mining – це процес, спрямо-
ваний на виявлення нових значущих коре-
ляцій, шаблонів і тенденцій у результаті
аналізу великого обсягу збережених даних
з використанням методик розпізнавання
зразків та застосування статистичних і ма-
тематичних методів. Особливо ефектив-
ними методи Data Mining стали із розвит-
ком та накопиченням Big Data. Можна
казати, що Data Mining – це процес авто-
матизованого здобуття з наявних інфор-
маційних ресурсів нових знань, які неяв-
ним чином присутніми в оброблюваній
інформації.
Результати Data Mining у значній
мірі залежать від тих даних, які вони об-
робляють: від їх повноти, актуальності,
релевантності поставленій задачі та якості,
та від знань, на основі яких обираються ці
дані. Тому в тому випадку, якщо побудова
набору даних базується на аналізі їх мета-
даних, саме склад та якість метаданих
значним чином визначають якість тих
знань, що можна здобути з ІР.
Інструменти Data Mining дозволя-
ють знаходити нові закономірності у да-
них самостійно й також самостійно буду-
вати гіпотези про взаємозв'язки між їх
елементами. Оскільки саме формулювання
гіпотези щодо залежностей є найскладні-
шим завданням, то перевага Data Mining у
порівнянні з іншими методами аналізу є
очевидною. Але для їх ефективного вико-
ристання ці результати мають бути
пов’язані з відповідним поняттєвим апара-
том, який формалізується засобами подан-
ня знань, наприклад, за допомогою онто-
логій [36]. У багатьох випадках такий
зв’язок встановлюється через семантичні
метадані – ті елементи метаданих, що
пов’язані з певним поданням знань,
наприклад, з елементами онтології відпо-
відної ПрО. Знання, що здобуваються та-
ким чином з даних, дозволяють у свою
чергу вдосконалити онтологію ПрО, яка
надалі використовуватиметься для ство-
рення метаданих. Таким чином, створення
метаданих та їх використання для вдоско-
налення онтологій є циклічним процесом,
який підтримує більш ефективне збере-
ження та використання даних.
Найпоширеніші сфери використан-
ня Data Mining пов’язані із вирішенням
задач класифікації, кластеризації та про-
гнозування. Слід відмітити, що Data
Mining характеризує не стільки конкретну
інформаційну технологію, скільки процес
пошуку закономірностей (кореляцій, тен-
денцій, взаємозв'язків) за допомогою ма-
тематичних і статистичних алгоритмів,
наприклад, регресійного й кореляційного
аналізу тощо.
Найбільш розповсюджена задача,
що вирішується за допомогою Data
Mining, – це задача класифікації: вирішен-
ня задачі класифікації дозволяє виявити
ознаки, що характеризують групи об'єктів
досліджуваного набору даних – класи, за
якими новий об'єкт можна віднести до то-
го чи іншого класу. Ця задача безпосеред-
ньо пов’язана з онтологічним аналізом і
дозволяє віднести екземпляри до відпові-
дних класів. Для вирішення задачі класи-
фікації можуть використовуватися методи:
найближчого сусіда (Nearest Neighbor);
k-найближчого сусіда (k-Nearest
Neighbor); Байєсівські мережі (Bayesian
Networks); індукція дерев рішень; нейрон-
ні мережі (neural networks).
Моделі та засоби систем баз даних і знань
63
Задачу кластеризації можна розг-
лядати як логічне продовження ідеї кла-
сифікації і полягає в розподілі множини
об'єктів на групи (кластери), при цьому в
кожному кластері зібрані об’єкти, які
схожі за параметрами. Варто зауважити,
що на відміну від класифікації, кількість
кластерів і їхніх характеристик визнача-
ють у процесі побудови кластерів, вихо-
дячи зі ступеня близькості поєднуваних
об'єктів по сукупності параметрів. В он-
тологічному аналізі ця задача виникає на
попередньому етапі та дозволяє побуду-
вати набір базових класів онтології й
встановити між ними ієрархічні відно-
шення.
Задача асоціації – задача пошуку
асоціативних правил (визначення взаємоз-
в'язків), що полягає у визначенні наборів
об'єктів, які часто зустрічаються серед
множини подібних наборів. Відмінність
асоціації від двох попередніх задач Data
Mining: пошук закономірностей здійсню-
ється не на основі властивостей аналізова-
ного об'єкта, а між декількома подіями,
що відбуваються одночасно.
Інші розповсюджені задачі Data
Mining – задачі прогнозування, асоціації,
визначення відхилень тощо – також мо-
жуть застосовуватися для вдосконалення
онтологій шляхом обробки даних відпові-
дних ПрО, доступних через Web.
Якщо дані, що обробляються в Data
Mining, є ресурсами Web, то це вносить
багато додаткових вимог до методів аналі-
зу. Тому у Data Mining виокремлюють та-
кий напрямок, як Web Mining. Системи
Web Mining дозволяють знаходити зако-
номірності в інформаційних ресурсах
Web, застосовуючи технологію Data
Mining для аналізу неструктурованої, не-
однорідної, розподіленої і значної за обся-
гом інформації, яка знаходиться на Web-
вузлах. У Web Mining можна виділити такі
напрямки, як Web Content Mining і Web
Usage Mining, Opinion Mining. В Web
Mіnіng можна виділити наступні етапи:
- вхідний етап (іnput stage) –
отримання "сирих" даних із джерел (логи
серверів, тексти електронних документів);
- етап попередньої обробки
(preprocessіng stage) – дані представляють-
ся у формі, необхідній для успішної побу-
дови тієї чи іншої моделі;
- етап моделювання (pattern
dіscovery stage);
- етап аналізу моделі (pattern
analysіs stage) – інтерпретація отриманих
результатів.
Конкретні процедури кожного ета-
пу залежать від поставленого завдання. У
зв'язку із цим виділяють різні категорії
Web Mіnіng [37]: аналіз використання
Web-ресурсів (Web Usage Mіnіng); отри-
мання Web-структур (Web Structure
Mіnіng); здобуття Web-контенту (Web
Content Mіnіng.
Значна частина даних – це ПМ-
тексти. Саме в таких даних зазвичай міс-
титься найбільш корисна інформація. То-
му аналіз таких даних в Data Mining також
виокремлюють в спеціальний підрозділ –
Text Mining [38]. Технологія Text Mining
містить процеси добування знань і висо-
коякісної інформації з ПМ-масивів. Це
звичайно відбувається за допомогою ви-
явлення шаблонів і тенденцій за допомо-
гою статистичних та лінгвістичних мето-
дів.
Значно підвищити ефективність
Data Mining в усіх його напрямках дозво-
ляє застосування фонових знань ПрО. Це
дозволяє не шукати заново вже відомі ко-
ристувачам закономірності та семантично
збагатити зв’язки між параметрами (влас-
тивостями об’єктів, що аналізуються) за
рахунок наявних знань щодо відношень
між ними.
Одним з актуальних напрямків за-
стосування фонових знань в Data Mining є
аналіз Big Data та їх метаданих. Це обумо-
влено надзвичайно великими обсягами
самих даних та їх динамічністю, що приз-
водить до динамічності тих метаданих, що
їх описують. Тому важливими вимогами
до методів їх аналізу є швидкодія та наяв-
ність евристик, що дозволяють значно
скоротити час аналізу. Наприклад, знання
щодо відношення “клас-підклас” між па-
раметрами метаданих дозволяє вдоскона-
лити навчальну вибірку.
Це обумовлює необхідність отри-
мання таких фонових знань, яке склада-
ється з наступних підзадач:
Моделі та засоби систем баз даних і знань
64
1) пошук ІР, що пертинентні за-
дачі користувача;
2) здобуття з цих ІР необхідних
фонових знань;
3) використання отриманих знань
для аналізу даних.
У випадку аналізу Big Data ці зада-
чі конкретизуються наступним чином:
1.1. Вибір сховища Big Data, в яко-
му здійснюється пошук;
1.2. Пошук або створення онтології
ПрО, що містить фонові знання щодо за-
дачі користувача;
1.3. Аналіз метаданих Big Data з
метою вибору набору даних, що пертине-
нтні задачі користувача, з використанням
фонових знань обраної онтології ПрО;
1.4. Генерація потрібного набору да-
них (підмножини Big Data за визначеними
умовами) з використанням знань онтології;
2) Здобуття з онтології ПрО тих
термінів та відношень між ними, які пот-
рібні для більш ефективного аналізу вели-
кого обсягу інформації (наприклад, для
зменшення кількості параметрів даних або
для зменшення кількості записів за більш
точними умовами відповідності задачі);
3) Використання отриманих знань
для аналізу отриманого набору даних та
для інтерпретації отриманого результату.
Таким чином, онтології дозволяють
як аналізувати семантично метадані, що
описують Big Data (наприклад, заміняти
терміни в описі задачі на синоніми або на
семантично подібні поняття, звужувати
або розширювати запит), так і аналізувати
самі дані (наприклад, використовуючи
обмеження на можливі значення парамет-
рів або виводячи з одних даних інші).
Семантичні Wiki-ресурси
як джерело фонових знань для
аналізу метаданих Big Data
Дослідження методів отримання
фонових знань, які характеризують ПрО
Big Data, є актуальним напрямком науко-
вих досліджень, що спрямовані на обробку
таких даних. Це обумовлено тим, що, як
правило, для наборів Big Data не пропону-
ються пертинентні онтології тими особами
або організаціями, що створюють та збері-
гають такі набори даних. У більшості ви-
падків використання онтологічного аналізу
для Big Data обмежується вибором онтоло-
гії для визначення структури та змісту ме-
таданих, яка не є специфічною для певної
ПрО. Але використання знань ПрО може
значно підвищити ефективність обробки.
Висока часова складність, на яку
впливає великий розмір простору ознак у
Big Data, викликає проблеми в викорис-
танні традиційних методів штучного ін-
телекту до такої інформації. Доцільно для
їх оптимізації застосовувати наявні знан-
ня щодо ПрО, до якої відносяться як самі
Big Data, так і задача, для вирішення якої
здійснюється аналіз цих Big Data. Це до-
зволяє не здобувати ці знання повторно
та використовувати їх для логічного ви-
ведення та встановлення відношень між
елементами метаданих Big Data. Ефекти-
вність такого підходу визначається пер-
тинентністю вибору бази знань та засо-
бами подання самих знань. На сьогодні
найбільш поширеним рішенням для по-
дання розподілених знань з точки зору
сумісного та повторного використання є
онтології. Але побудова та пошук онто-
логій, що є пертинентними конкретній
задачі, є складною проблемою. Значно
простіше генерувати онтологічні струк-
тури за семантизованими Wiki-
ресурсами. Такі онтології мають обмеже-
ну виразну здатність, але вони можуть
створюватися автоматизовано за тим на-
бором Wiki-сторінок, які обирає користу-
вач. Крім того, такий підхід дозволяє від-
фільтровувати тільки ту інформацію, яка
потрібна для вирішення задачі, що значно
обмежує обсяг побудованої онтології та
зменшує час на її використання.
Пошук пертинентної онтології не-
можливо повністю автоматизувати, хоча
співставлення метаданих Big Data з мета-
описами онтологій в репозиторії дозволяє
виконати попередній відбір. Проблема
ускладнюється тим, що значна частина спе-
ціалістів, що працюють з Big Data та їх ме-
таданими, не мають достатнього досвіду у
роботі з онтологіями. Тому доцільно засто-
совувати як джерело фонових знань такі ІР,
що задовольняють наступним умовам:
Моделі та засоби систем баз даних і знань
65
1) досить прості для розуміння їх
змісту та обсягу;
2) досяжні через Web;
3) зберігаються у відкритих фор-
матах;
4) дозволяють автоматизовано
генерувати онтології з фіксованим набо-
ром понять.
Таким вимогам відповідають сема-
нтично розмічені Wiki-ресурси. Виразні
можливості Semantic MediaWiki [39] – се-
мантичного розширення MediaWiki [40] –
дозволяє явно фіксувати зміст відношень
між Wiki-сторінками, які відповідають
класам онтології.
Для того, щоб використовувати та-
кий Wiki-ресурс як джерело фонових
знань в аналізі Big Data, доцільно застосо-
вувати Wiki-онтологію цього ІР, яка є
формалізованою моделлю знань ресурсу
та дозволяє фіксувати характеристики йо-
го елементів, їх зв’язків, властивостей та
відношень у формі, придатній для автома-
тичного оброблення, логічного виведення
та аналізу. Wiki-онтологія – це окремий
випадок онтології ПрО [41], виразні мож-
ливості якої обмежені відповідно до вира-
зності Wiki та її семантичного розширення
та не припускають застосування характе-
ристик для об’єктних властивостей та вла-
стивостей даних. Використання цієї моде-
лі для семантичної розмітки (як назви
категорій та семантичних властивостей)
забезпечує побудову уніфікованого набо-
ру ієрархічно пов’язаних категорій, шаб-
лонів типових інформаційних об’єктів, їх
семантичних властивостей та запитів, що
їх використовують.
Важливою особливістю семантизо-
ваних Wiki-ресурсів є можливість генера-
ції Wiki-онтології не для всієї сукупності
сторінок, а тільки для певної підмножини,
обраної користувачем явно переліком сто-
рінок або за допомогою семантичного за-
питу (рис. 2). Параметрами такого запиту
є категорії та умови щодо значень семан-
тичних властивостей сторінок.
Рис. 2. Засоби Semantic MediaWiki для експорту інформації в RDF-форматі
Моделі та засоби систем баз даних і знань
66
Висновки
Для можливості інтеграції даних із
внутрішніх та зовнішніх джерел та покра-
щення керування Big Data, їх оцінювання
та інтерпретації для виконання приклад-
них задач штучного інтелекту ми викорис-
тали семантичні технології та онтології.
Метадані є основними джерелами інфор-
мації про Big Data на протязі всього їх
життєвого циклу. Для того, щоб правиль-
но відбирати набори даних з Big Data,
необхідно навчитись автоматично видобу-
вати знання з їх метаданих за допомогою
семантичних технологій. Доцільно засто-
совувати для цього такі джерела фонових
знань як щодо цих метаданих, так і щодо
ПрО, для якої потрібно аналізувати дані,
як онтології та тезауруси.
Для семантичного аналізу метада-
них ми використовуємо природномовні
анотації, які входять до складу метаданих.
Семантична обробка інформації метада-
них дозволяє отримати від них неявні
знання про самі дані. Аналіз текстів мета-
даних безпосередньо пов’язана із семан-
тикою та певними логічними правилами,
тому без метаданих та методів їх аналізу
було б практично неможливо обійтися.
Запропоновані нами методи аналізу
природномовних анотацій є найбільш
адекватним засобом співставлення семан-
тики метаданих Big Data з тими задачами,
для рішення яких вони можуть застосову-
ватися. На сьогоднішній день відсутні
загальноприйняті, універсальні стандарти
про метадані, а найбільш часто викорис-
товується універсальний стандарт опису
метаданих Dublin Core.
Ми запропонували використовува-
ти технології Wiki та їх семантичне роз-
ширення як джерело фонових знань щодо
ПрО задачі користувача. Ці знання можуть
також бути використані при оцінюванні
семантичної близькості термінів домену
для структурування елементів метаданих
Big Data.
Новизна досліджень, які запропо-
новані у цій роботі, полягає у новому під-
ході до інтеграції та структуруванні даних
в інтелектуальних системах, який базуєть-
ся на семантичному аналізі та інтерпрета-
ції структурованих, частково структурова-
них та неструктурованих метаданих, які
описують Big Data, та формуванні на їх
основі пертинентного задачі користувача
набору даних із застосуванням онтології
предметної області.
Література
1. Метадані.
https://uk.wikipedia.org/wiki/Метадані
2. Dublin Core Metadata Initiative. DCMI
TYPE Vocabulary.
http://dublincore.org/documents/demitype-
vocabulary
3. Резніченко В А., Захарова О В., Захарова
Е.Г. Електронні бібліотеки: інформаційні
ресурси та сервіси. Проблеми програму-
вання. 2005. № 4. С. 60–72.
4. Berners-Lee T., Hendler J., Lassila O. The
semantic web. Scientific american. 2001.
284(5). P. 34–43.
5. Dunsire G., Willer M. Standard library
metadata models and structures for the
Semantic Web. Library hi tech news. 2011.
6. Когаловский М. Р. Метаданные, их свойс-
тва, функции, классификация и средства
представления. Труды 14-й Всероссийской
научной конференции «Электронные биб-
лиотеки: перспективные методы и тех-
нологии, электронные коллекции» – RCDL-
2012. 2012. http://ceur-ws.org/Vol-934/
paper3.pdf
7. Grotschel M., Lugger J. Scientific Informa-
tion System and Metadata. Konrad-Zuse-
Zentrum fur Informationstechnik. Berlin.
http://www.zib.de/
groetschel/pubnew/paper/groetschelluegger
1999.pdf
8. Halshofer B., Klas W. A Survey of Techni-
ques for Achieving Metadata Interoperability.
ACM Computing Surveys. 2010. Vol. 42.
N 2. Article 7.
9. Taylor C. An Introduction to Metadata. The
University of Queensland, Australia.
http://www.libraty.uq.edu.au/papers/ctmeta4.
html
10. Lagose C. Metadata for the Web. Cornell
University. CS 431 - March 2. 2005.
11. Feng L., Brussee R., Blanken H., Veenstra M.
Languages for Metadata. In: Multimedia
Retrieval. Data-Centric Systems and
http://www.zib.de/
Моделі та засоби систем баз даних і знань
67
Applications, Springer, 23–51.
http://www.springerlink.com/
content/m276p88003533q86/.
12. Jeusfeld M.A. Metadata. In: Encyclopedia of
Database Systems, Springer. 2009. Р. 1723–
1724. http ://www. springerlink.com/content/
h241167167r35055/.
13. Corcho O. Ontology based document
annotation: trends and open research
problems. Intern. Journal of Metadata,
Semantics and Ontologies. 2006. Vol. 1. Is. 1.
http://www.dia.fi.upm.es/~ocorcho/document
s/IJMSO2006_Corcho.pdf .
14. Гладун А.Я., Рогушина Ю.В. Репозитории
онтологий как средство повторного испо-
льзования знаний для распознавания
информационных объектов. Онтология
проектирования. 2013. № 1 (7). С. 35–50.
15. Overbeek J. F. Meta Object Facility (MOF):
investigation of the state of the art. 2006.
http://citeseerx.ist.psu.edu/viewdoc/download
?doi=10.1.1.96.4092&rep=rep1&type=pdf.
16. OWL Web Ontology Language. Overview.
W3C Recommendation: W3C, 2009. –
http://www.w3.org/TR/owl-features/.
17. Кобелев А. Е., Вязилов Е. Д. Сучасні під-
ходи по створенню метаданих. Сучасні
проблеми дистанційного зондування Землі
з космосу. 2010. 7(4). C. 194–203.
http://d33.infospace.ru/d33_conf/sb2010t4/19
4-203.pdf.
18. Unstructured_data. – https://en.wikipedia.org/
wiki/Unstructured_data.
19. Рогушина Ю. В. Засоби та методи аналізу
неструктурованих даних. Проблеми про-
грамування. 2019. № 1. С. 57–77.
http://pp.isofts.kiev.ua/ojs1/article/view/348/3
46.
20. Андон П.І., Рогушина Ю.В., Резніченко
В.А., Киридон А.М., Арістова А.В., Тище-
нко А.О. Досвід використання семантич-
них технологій для створення інтелектуа-
льних ВЕБ-енциклопедій (на прикладі ро-
зробки порталу E-ВУЕ). Проблеми про-
грамування. 2020. № 2–3. С. 246–258.
21. Rogushina J. Use of Semantic Similarity
Estimates for Unstructured Data Analysis
CEUR Vol-2577, Selected Papers of the
XIX International Scientific and Practical
Conference "Information Technologies
and Security" (ITS 2019). Kyiv. 2019.
P. 246–258. http://ceur-ws.org/Vol-2577/
paper20.pdf.
22. Demchenko Y., De Laat C., Membrey P.
Defining architecture components of the Big
Data Ecosystem. In 2014 International
Conference on Collaboration Technologies
and Systems (CTS). 2014. P. 104–112.
23. Smith K., Seligman L., Rosenthal A., Kurcz
C., Greer M., Macheret C., Eckstein A. "Big
Metadata" The Need for Principled Metadata
Management in Big Data Ecosystems.
Proceedings of Workshop on Data analytics
in the Cloud. 2014. P. 1–4).
24. Dey A., Chinchwadkar G., Fekete A.,
Ramachandran K. Metadata-as-a-service. 31st
IEEE International Conference on Data
Engineering Workshops. 2015. P. 6–9.
25. Chen M., Mao S., Liu Y. Big data: A survey.
Mobile networks and applications. 2014.
19(2). P. 171–209.
26. Rogushina J., Gladun A., Pryima S. Use of
Ontologies for Metadata Records Analysis in
Big Data. Selected Papers of the XVIII
International Scientific and Practical
Conference "Information Technologies and
Security" (ITS 2018). CEUR Vol-2318.
http://ceur-ws.org/Vol-2318/paper5.pdf.
27. ISO 15489-1:2016 Information and
documentation – Records management – Part
1: Concepts and principles.
28. ISO 15836-1:2017 Information and
documentation – The Dublin Core metadata
element set – Part 1: Core elements.
29. ISO 15836-2:2019 Information and
documentation – The Dublin Core metadata
element set – Part 2: DCMI Properties and
classes.
30. ДСТУ ISO 15489-1:2018 Інформація та
документація. Керування записами. Час-
тина 1. Поняття та принципи (ISO 15489-
1:2016, IDT).
31. ДСТУ ISO 15836-1:2018 Інформація та
документація. Набір елементів метаданих
Дублінського ядра. Частина 1. Основні
елементи (ISO 15836-1:2017, IDT).
32. Weibel S.L., Koch T. The Dublin core
metadata initiative. D-lib magazine. 2000.
6(12). P. 1082–9873.
33. Рогушина Ю.В. Використання тезаурусів
для пошуку складних інформаційних
об’єктів у Web на основі онтологій. Про-
блеми програмування. 2019. № 4. С. 11–27.
34. Гладун А.Я., Рогушина Ю.В. Семантичні
технології: принципи та практики. –
К.:ТОВ "ВД "АДЕФ-Україна". 2016. 308 с.
http://eprints.isofts.kiev.ua/669/.
35. Гладун А.Я., Рогушина Ю.В. Data Mining:
пошук знань в даних. К.:ТОВ "ВД "АДЕФ-
Україна". 2016. 452 с.
http://www.springerlink.com/
http://eprints.isofts.kiev.ua/669/
Моделі та засоби систем баз даних і знань
68
36. Nigro H.O. ed. Data Mining with Ontologies:
Implementations, Findings, and Frameworks:
Implementations, Findings, and Frameworks.
IGI Global. 2007. 289 p.
37. Kosala R., Blockeel H. Web mining research:
A survey. ACM Sigkdd Explorations
Newsletter. 2000. 2(1). P. 1–15.
https://arxiv.org/pdf/cs/0011033.pdf
38. Berry M. W., Castellanos M. Survey of text
mining. Survey of Text Mining:Clustering,
Classification, and Retrieval. Computing
Reviews. 2007. 45(9). P.548.
39. Krötzsch M., Vrandečić D., Völkel M.
Semantic MediaWiki. International Semantic
Web Conference. 2006. Р. 935–942.
https://link.springer.com/content/pdf/10.1007
/11926078_68.pdf.
40. MediaWiki. URL:
https://www.mediawiki.org/wiki/MediaWiki.
41. Rogushina J. Analysis of Automated
Matching of the Semantic Wiki Resources
with Elements of Domain Ontologies.
International Journal of Mathematical
Sciences and Computing (IJMSC). 2017. Vol.
3. N 3. P. 50–58. URL: http://www.mecs-
press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3-
5.pdf.
References
1. Metadata. –
https://uk.wikipedia.org/wiki/Метадані
2. Dublin Core Metadata Initiative. DCMI
TYPE Vocabulary.–
http://dublincore.org/documents/demitype-
vocabulary. (in Ukrainian)
3. Reznichenko V.A., Zakharova O.V.,
Zakharova E.G. Electronic libraries:
information resources and services. Problems
in programming. 2005. № 4. P.60–72. (in
Ukrainian)
4. Berners-Lee T., Hendler J., Lassila O. The
semantic web. Scientific american. 2001.
284(5). P. 34–43.
5. Dunsire G., Willer M. Standard library
metadata models and structures for the
Semantic Web. Library hi tech news. 2011.
6. Kogalovsky M.R. Metadata, their properties,
functions, classification and presentation
means. Proc. of the 14th All-Russian
Scientific Conference "Digital Libraries:
Promising Methods and Technologies,
Electronic Collections" – RCDL-2012, 2012.
http:ceur-ws.org/Vol-934/paper3.pdf. (in
Russian)
7. Grotschel M., Lugger J. Scientific
Informa¬tion System and Metadata. Konrad-
Zuse-Zentrum fur Informationstechnik.
Berlin. http://www.zib.de/
groetschel/pubnew/paper/groetschelluegger
1999.pdf
8. Halshofer B., Klas W. A Survey of
Techni¬ques for Achieving Metadata
Interoperability. ACM Computing Surveys.
2010. Vol. 42. No. 2. Article 7.
9. Taylor C. An Introduction to Metadata. The
University of Queensland, Australia.
http://www.libraty.uq.edu.au/papers/ctmeta4.
html
10. Lagose C. Metadata for the Web. Cornell
University. CS 431 - March 2. 2005.
11. Feng L., Brussee R., Blanken H., Veenstra M.
Languages for Metadata. In: Multimedia
Retrieval. Data-Centric Systems and
Applications, Springer, 23–51.
http://www.springerlink.com/
content/m276p88003533q86/.
12. Jeusfeld M.A. Metadata. In: Encyclopedia of
Database Systems, Springer. 2009. Р. 1723–
1724. http ://www. springerlink.com/content/
h241167167r35055/.
13. Corcho O. Ontology based document
annotation: trends and open research
problems. Intern. Journal of Metadata,
Semantics and Ontologies. 2006. Vol. 1. Is. 1.
http://www.dia.fi.upm.es/~ocorcho/document
s/IJMSO2006_Corcho.pdf .
14. Gladun A., Rogushina J. Repositories of
ontologies as a means of knowledge reuse for
recognition of information objects. Ontology
of design. 2013. N 1 (7). P. 35–50. (in
Russian)
15. Overbeek J. F. Meta Object Facility (MOF):
investigation of the state of the art. 2006.
http://citeseerx.ist.psu.edu/viewdoc/download
?doi=10.1.1.96.4092&rep=rep1&type=pdf.
16. OWL Web Ontology Language. Overview.
W3C Recommendation: W3C, 2009. –
http://www.w3.org/TR/owl-features/.
17. Kobelev A.E., Vyazilov E.D. Modern
approaches to metadata creating. Modern
problems of remote sensing of the Earth from
space. 2010. 7 (4). P. 194–203.
http://d33.infospace.ru/d33_conf/sb2010t4/19
4-203.pdf. (in Ukrainian)
18. Unstructured_data. – https://en.wikipedia.org/
wiki/Unstructured_data.
Моделі та засоби систем баз даних і знань
69
19. ROGUSHINA J. (2019) Means and methods
of unstructured data analysis. // Problems in
programming, N 1, P. 57–77.
http://pp.isofts.kiev.ua/ojs1/article/view/348/3
46. (in Ukrainian)
20. Andon P., Rogushina J., Grishanova I.,
Reznichenko V., Kyrydon A., Aristova A.,
Tyschenko A. (2020) Experience of the
semantic technologies use for intelligent Web
encyclopedia creation (on example of the
Great Ukrainian Encyclopedia portal).
Problems in programming, N 2-3.
P. 246–258. (in Ukrainian)
21. Rogushina J. Use of Semantic Similarity
Estimates for Unstructured Data Analysis
CEUR Vol-2577, Selected Papers of the
XIX International Scientific and Practical
Conference "Information Technologies and
Security" (ITS 2019). Kyiv. 2019.
P. 246–258. http://ceur-ws.org/Vol-2577/
paper20.pdf.
22. Demchenko Y., De Laat C., Membrey P.
Defining architecture components of the Big
Data Ecosystem. In 2014 International
Conference on Collaboration Technologies
and Systems (CTS). 2014. P. 104–112.
23. Smith K., Seligman L., Rosenthal A., Kurcz
C., Greer M., Macheret C., Eckstein A. "Big
Metadata" The Need for Principled Metadata
Management in Big Data Ecosystems.
Proceedings of Workshop on Data analytics
in the Cloud. 2014. P. 1–4).
24. Dey A., Chinchwadkar G., Fekete A.,
Ramachandran K. Metadata-as-a-service.
31st IEEE International Conference on Data
Engineering Workshops. 2015. P. 6–9.
25. Chen M., Mao S., Liu Y. Big data: A survey.
Mobile networks and applications. 2014.
19(2). P. 171–209.
26. Rogushina J., Gladun A., Pryima S. Use of
Ontologies for Metadata Records Analysis in
Big Data. Selected Papers of the XVIII
International Scientific and Practical
Conference "Information Technologies and
Security" (ITS 2018). CEUR Vol-2318.
http://ceur-ws.org/Vol-2318/paper5.pdf.
27. ISO 15489-1:2016 Information and
documentation – Records management – Part
1: Concepts and principles.
28. ISO 15836-1:2017 Information and
documentation – The Dublin Core metadata
element set – Part 1: Core elements.
29. ISO 15836-2:2019 Information and
documentation – The Dublin Core metadata
element set – Part 2: DCMI Properties and
classes.
30. DSTU ISO 15489-1: 2018 Information and
documentation. Records management. Part 1.
Concepts and principles (ISO 15489-1: 2016,
IDT). (in Ukrainian)
31. DSTU ISO 15836-1: 2018 Information and
documentation. Dublin Core Metadata
Element Set. Part 1. Basic elements (ISO
15836-1: 2017, IDT). (in Ukrainian)
32. Weibel S.L., Koch T. The Dublin core
metadata initiative. D-lib magazine. 2000.
6(12). P. 1082–9873.
33. Rogushina J. The use of thesauri to search for
complex Web information objects based on
ontologies. Problems of programming. 2019.
№ 4, P. 11–27. (in Ukrainian)
34. Gladun A., Rogushina J. Semantic
technologies: principles and practices. 2016.
Kyiv. ADEF-Ukraine. 308 p. (in Ukrainian)
35. Gladun A., Rogushina J. Data Mining: search
for knowledge in data. 2016. Kyiv. ADEF-
Ukraine. 452 p. (in Ukrainian)
36. Nigro H.O. ed. Data Mining with Ontologies:
Implementations, Findings, and Frameworks:
Implementations, Findings, and Frameworks.
IGI Global. 2007. 289 p.
37. Kosala R., Blockeel H. Web mining research:
A survey. ACM Sigkdd Explorations
Newsletter. 2000. 2(1). P. 1–15.
https://arxiv.org/pdf/cs/0011033.pdf
38. Berry M. W., Castellanos M. Survey of text
mining. Survey of Text Mining:Clustering,
Classification, and Retrieval. Computing
Reviews. 2007. 45(9). P. 548.
39. Krötzsch M., Vrandečić D., Völkel M.
Semantic MediaWiki. International Semantic
Web Conference. 2006. Р. 935–942.
https://link.springer.com/content/pdf/10.1007
/11926078_68.pdf.
40. MediaWiki. URL:
https://www.mediawiki.org/wiki/MediaWiki.
41. Rogushina J. Analysis of Automated
Matching of the Semantic Wiki Resources
with Elements of Domain Ontologies.
International Journal of Mathematical
Sciences and Computing (IJMSC). 2017. Vol.
3. N 3. P. 50–58. URL: http://www.mecs-
press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3-
5.pdf.
Одержано 23.10.2020
Моделі та засоби систем баз даних і знань
70
Про авторів:
Рогушина Юлія Віталіївна,
Кандидат фізико-математичних наук,
старший науковий співробітник.
Кількість наукових публікацій в
українських виданнях – 130.
Кількість наукових публікацій в
зарубіжних виданнях – 28.
http://orcid.org/0000-0001-7958-2557,
Гладун Анатолій Ясонович,
кандидат технічних наук, доцент,
старший науковий співробітник відділу
комплексних досліджень інформаційних
технологій.
Кількість наукових публікацій в
українських виданнях – 67.
Кількість наукових публікацій в
зарубіжних виданнях – 53.
https://orcid.org/0000-0002-4133-8169.
Місце роботи авторів:
Інститут програмних систем
НАН України, 03181, Київ-187,
проспект Академіка Глушкова, 40.
E-mail: ladamandraka2010@gmail.com.
Міжнародний науково-навчальний центр
інформаційних технологій та систем НАН
та МОН України,
03680, Київ, Україна,
проспект Академіка Глушкова, 40.
Тел.: +38(044) 526-2549.
E-mail: glanat@yahoo.com
mailto:ladamandraka2010@gmail.com
mailto:glanat@yahoo.com
|