Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level

The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used bot...

Full description

Saved in:

Bibliographic Details
Date:	2021
Main Authors:	Rogushina, J.V., Gladun, A.Y.
Format:	Article
Language:	Ukrainian
Published:	PROBLEMS IN PROGRAMMING 2021
Subjects:	Big Data ontology metadata semantic markup UDC 004.853 004.55
Online Access:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Problems in programming
Download file:

Institution

Problems in programming

_version_	1865432566940565504
author	Rogushina, J.V. Gladun, A.Y.
author_facet	Rogushina, J.V. Gladun, A.Y.
author_institution_txt_mv	[ { "author": "J.V. Rogushina", "institution": "Institute of Software Systems NAS of Ukraine" }, { "author": "A.Y. Gladun", "institution": "International Research and Training Center for Information Technologies and Systems of the National Academy of Sciences and the Ministry of Education and Science of Ukraine" } ]
author_sort	Rogushina, J.V.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2024-04-26T22:46:30Z
description	The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used both in order to effectively analysis of information acquried from certain sets of Big Data, and to make this acquisition more useful. With the help of such ontologies, users can formally describe the scope of their information needs, define the structure of the required information objects and explicitly highlight critical for current task domain aspects. Subject of rocessing in the semantics analysis of Big Data is their metadata usually represented by unstructured natural language text. We need to standardize the representation of meta-descriptions wit use of appropriate ontologies that determine the structure and content of individual elements of metadata.Problems in programming 2020; 4: 55-70
doi_str_mv	10.15407/pp2020.04.055
first_indexed	2025-07-17T09:45:50Z
format	Article
fulltext	Моделі та засоби систем баз даних і знань © Ю.В. Рогушина, А.Я. Гладун, 2020 ISSN 1727-4907. Проблеми програмування. 2020. № 4 55 УДК 004.853, 004.55 https://doi.org/10.15407/pp2020.04.055 Ю.В. Рогушина, А.Я. Гладун ЗАСТОСУВАННЯ ОНТОЛОГІЧНОГО АНАЛІЗУ ДЛЯ ОБРОБКИ МЕТАДАНИХ ПРИ ІНТЕРПРЕТАЦІЇ BIG DATA НА СЕМАНТИЧНОМУ РІВНІ Розглядається застосування менеджменту знань для аналізу Big Data. Щоб визначати, яку саме інфор- мацію можна отримати з Big Data, і зробити це здобуття більш ефективним, пропонується застосовува- ти фонові знання з онтологій предметних областей. За допомогою таких онтологій користувачі можуть формально описувати свої інформаційні потреби, задавати структуру потрібних інформаційних об’єктів та явно виділяти важливі для поточної задачі аспекти. Предметом аналізу Big Data є їх мета- дані, в яких відомості про семантику, як правило, представлені неструктурованим природномовним описом. Тому виникає потреба у стандартизації подання метаданих, в яких онтології визначають струк- туру та семантику окремих елементів. Ключові слова: Big Data, онтологія, метадані, семантична розмітка. Вступ Метадані дозволяють охарактеризу- вати контекст, контент і структуру Big Data, а також методи керування ними. Метадані накопичуються з плином часу та документують історію Big Data. Метада- ними необхідно керувати, як самими даними, оскільки вони мають бути захи- щені від втрати, несанкціонованого вида- лення, збережені або знищені, а також дос- туп до керування ними має бути організо- вано через розподіл прав доступу і вико- нання певних правил безпеки. Семантику Big Data відображають, як правило, не- структуровані природномовні описи, що входять до складу метаданих, але обробка такої інформації потребує значно більше зусиль порівняно з обробкою структурова- ної інформації. Тому ціль даної роботи – аналіз напрямків структурування метаопи- сів Big Data з використанням існуючих стандартів. Метадані та їх властивості Метадані у найбільш широкому розу- мінні – це дані про дані. Але таке визна- чення надто просте й неконструктивне. Ві- кіпедія визначає метадані як дані з форма- льної системи вищого рівня, що описує задану систему даних або як структуровані дані, що характеризують певні сутності для їх ідентифікації, пошуку, оцінки та ке- рування ними [1]. Це окремий тип інфор- маційних ресурсів (ІР), які потребують специфічних засобів подання, створення та обробки (ІР – це будь-яка сутність, яка спроможна передавати чи зберігати інте- лектуальну інформацію або знання [2]). Хоча спочатку метадані признача- лися тільки для опису даних, проте остан- нім часом вони використовуються для опису найрізноманітніших інформаційних ресурсів (ІР) та об’єктів (концептуальних схем, онтологій, сервісів тощо). Вони до- зволяють характеризувати життєвий цикл даних, дії та потреби різних суб’єктів об- робки даних. Нині метадані дозволяють характеризувати зміст ІР, наприклад, опи- сувати модель предметної області (ПрО) на семантичному рівні. Розвиток інформаційних технологій став причиною істотного розширення фун- кцій метаданих і викликав їхнє різноманіт- тя. Зміст метаданих, їхні функції і засоби їхнього представлення визначалися тими інформаційними технологіями, що вико- ристовувалися для створення таких ІС, специфікою ПрО та тих ІР, що обробляли- ся цими ІС. Розповсюдження електронних біб- ліотек [3], в яких зберігаються ІР різних типів, сховищ даних та знань, що впрова- джують технології Semantic Web [4], ви- кликало посилення інтересу до семантиза- ції метаданих [5]. На сьогодні існує велика кількість визначень метаданих, що відображають Моделі та засоби систем баз даних і знань 56 різні точки зору на цей термін та на сферу використання метаданих [6]. Метадані — це інформація, що робить дані корисними [7]. Таке визначення описує сферу засто- сування метаданих, але є надто загальним для практичного використання. Напри- клад, для Big Data це визначає роль мета- даних, але не дозволяє конкретизувати ви- моги до способів їх представлення. Метадані призначені як для комп'ю- терної обробки, так і для інтерпретації людиною інформації про цифрові і нециф- рові об'єкти [8]. В роботі [9] метадані визначаються як структуровані дані, що містять характеристики сутностей, які во- ни описують, для цілей їхньої ідентифіка- ції, пошуку, оцінки та керування. Слід враховувати, що метадані, які використо- вуються для опису ресурсів Web, є, як пра- вило, слабо структурованими, але вони ві- дповідають погодженим моделям, що за- безпечують їх операційну інтероперабель- ність у неоднорідному середовищі [10]. В роботі [11]. метаданими назива- ється будь-яка дескриптивна інформація про інші джерела даних, яка сприяє органі- зації, ідентифікації, представленню, визна- ченню місця розташування, забезпеченню інтероперабельності, керуванню і викорис- танню цих даних. В роботі [12] метадані характеризують не інформаційний ресурс у цілому, а певний елемент даних, що відноситься до цього ресурсу. Такий підхід найбільш відповідає специфіці збереження Big Data у великих сховищах, тоді як іден- тифікувати потрібно підмножину даних, що пертинентні конкретній задачі користувача. Метадані можуть використовувати- ся для визначення семантики інформації, отже, для поліпшення її пошуку і вибірки, розуміння і використання. Наприклад, в [13] розглядається застосовуватися онто- логій та тезаурусів для семантичного ано- тування ІР та їх елементів, що є основою для машинного навчання та здобуття знань з даних. Залежно від цілей анотування мо- жуть застосовуватися онтології різної складності (від контрольованих словників та глосаріїв до онтологій із складними від- ношеннями інверсії, неперетину тощо). Dublin Core (http://www.dublincore.org/) є прикладом легкої онтології, яка широко використовується для опису характеристик електронних документів та семантизації метаданих. Конкретний склад функцій метада- них залежить від особливостей тієї систе- ми, що їх використовує, від характеру ІР та їх елементів, які описують ці метадані, від базових інформаційних технологій систе- ми, від потреб її користувачів і від бага- тьох інших факторів. Властивості метаданих: 1. Відносність поділу ІР на дані та метадані – метадані для однієї ІС можуть розглядатися як дані в іншій, та навпаки (наприклад, онтологія, що використову- ється для анотування ПМ-тексту, є елеме- нтом метаданих, а та сама онтологія в ре- позиторії онтологій [14] є даними); 2. Багаторівневість опису власти- востей будь-якого іншого ресурсу може здійснюватися в термінах більш абстракт- ної системи понять, які можуть утворюва- ти ієрархію рівнів, яка може включати до- вільну кількість рівнів (наприклад, Meta Object Facility (MOF) [15] має три рівні, а Dublin Core – два); 3. Гетерогенність ІР та даних, що можуть описуватися метаданими: власти- вості, які дозволяють охарактеризувати метадані, залежать від специфіки самих даних та сфери їх використання; 4. Відчуженість метаданих від ІР: метадані можуть зберігатися незалежно або бути убудованими в ІР, які вони харак- теризують; 5. Ступінь залежності від контен- та визначається змістом самих метаданих (наприклад, дата створення і тип файлу не залежать від контенту, тоді як анотація те- ксту визначається контентом); 6. Ступінь залежності від ПрО ви- значається цілями створення метаописів, які можуть бути спеціалізованими або уні- версальними; 7. Ступінь структурованості; 8. Рівень гранулярности опису ре- сурсів визначає, які саме елементи ІР опи- суються метаданими; 9. Ступінь динамічності визнача- ється тим, за яких умов та як часто можуть змінюватися метадані; Моделі та засоби систем баз даних і знань 57 10. Ступінь формалізованості ви- значається тим, які засоби використову- ються для представлення метаданих. Для представлення метаданих (ПМ, ПМ з об- меженим словником, формальні мови – наприклад, OWL [16]). Існує багато інших властивостей метаданих, які можуть враховуватися в рі- зних дослідженнях (наприклад, засоби представлення, способи збереження та на- явність явного подання), але вони не є принциповими для опису Big Data і тому не розглядаються у даній роботі. Недоліки систем метаданих [17] – це низька оперативність відновлення інфо- рмації; неузгоджене введення змін у мета- дані, що призводить до суперечливості та дублювання; недостатня автоматизація си- стеми ведення метаданих на основі керу- вання контентом; орієнтованість на роботу з одним типом об'єктів (ІР та їх елементів, які описують метадані); відсутність єдиної моделі метаданих для всіх типів об'єктів; відсутність спільного розуміння одиниці опису метаданих – екземпляра метаданих, який описується сукупністю параметрів, що не перетинається з іншими сукупнос- тями, що описуються іншими метаданими; неповнота набору об'єктів метаданих, які зазвичай не містять відомості про засоби обробки та збереження даних. Неструктуровані дані Неструктуровані дані (НСД) – це інформація, яка не має попередньо визна- ченої моделі даних або не організована за- здалегідь [18]. Якщо певні елементи мета- даних не мають формалізованої структури, то для здобуття з них потрібної інформації необхідно застосовувати методи, що оріє- нтовані на аналіз НСД. Саме НСД потен- ційно мають найбільшу цінність як джере- ла нових знань, і чим більше таких даних доступні для аналізу, тим точніше резуль- тати. Більш детально властивості НСД та засоби їх обробки проаналізовано в [19]. Природномовна інформація – на- бори слів природної мови (ПМ) довільної довжини, поєднані за слабо формалізова- ними лінгвістичними правилами та пред- ставлені в електронній формі, може аналі- зуватися як НСД. Це обумовлюється тим, що хоча така текстова інформація містить деякі структурні елементи, але у більшості ІР такі структурні елементи не представ- лені явно, і тому їх здобуття потребує ве- ликого часу та зусиль. Для аналізу НСД можна застосову- вати семантичну розмітку. Найбільш кори- сним засобом семантичної розмітки є зв’язування елементів ІР з елементами он- тології (наприклад, фрагмент ПМ-тексту пов’язується з класом або екземпляром класу онтології, а інший елемент – із зна- ченням його властивості). Але з точки зору легкості впровадження безпосереднє за- стосування онтологій для семантизації ІР є недоцільним – більшість користувачів не володіють онтологічним аналізом, не зна- ють мови подання онтологій тощо. Тому більш корисно використовувати простіші засоби семантизації, наприклад, семантич- ну Wiki-розмітку. Така семантична вікіфі- кація може виконуватися як експертами ПрО, так і технічними співробітниками. Значний недолік цього підходу – семантична Wiki-розмітка ІР, що побудо- вана для однієї ПрО, не може використо- вуватися для іншої ПрО. Тому доцільно застосовувати онтології вищого рівня, для створення яких можуть застосовуватися онлайнові енциклопедії, що побудовані на основі технологій семантичних Wiki (на- приклад, портальна версія Великої україн- ської енциклопедії е-ВУЕ [20]). Семантич- на розмітка дозволяє також аналізувати семантичну подібність між поняттями об- раної та використовувати її надалі для ана- лізу НСД [21]. Метадані для Big Data Властивості метаданих, їх склад і функції істотно залежать від технологій реалізації систем, в яких вони використо- вуються, особливостей описуваних ними ресурсів, а також від області застосування і конкретних програм. Певний набір даних розглядається як Big Data, якщо він володіє однією або декількома характеристиками, так званими характеристиками «5V»: об’єм; швид- кість; різноманіття; достовірність; цін- ність [22]. Метадані, які характеризують Big Data, можуть містити інформацію про Моделі та засоби систем баз даних і знань 58 джерело даних; про автора і дату створен- ня документа; кількість записів у наборі даних; опис цих даних тощо. В обробці Big Data аналіз метаданих має ключове зна- чення, тому що метадані містять інформа- цію не тільки про походження даних [23, 24], але й про їх зміст. Метадані для Big Data [25] – це структурована або напівструктурована інформація, яка дозволяє створювати, керувати і використовувати Big Data у різ- ний час і у різних сферах діяльності, а та- кож робити відбір таких наборів Big Data, що релевантні задачі, яку необхідно вирі- шити [26]. Для опису метаданих викорис- товуються різні природні та штучні мови. Природні мови є найбільш багатими і ви- разними в порівнянні з іншими засобами подання метаданих. Вони призначені не для комп'ютерної обробки, а для людей, і не забезпечують однозначності і строгості інтерпретації метаданих, і тому такі описи аналізуються як НСД. Штучні мови, які використовуються для опису метаданих, – це мови опису да- них СУБД, концептуального моделювання, опису онтологій, бізнес-процесів; мови по- дання онтологій OWL, RDF; мови розміт- ки тощо. Стандартизація метаданих Стандартизація метаданих – основа інтероперабельності та повторного вико- ристання як самих метаданих, так і тих ІР, що характеризують ці метадані. Тому мі- жнародні організації зі стандартизації при- діляють велику увагу розробці форматів метаданих, які призначені для формально- го опису різних типів ІР та інформаційних об’єктів (ІО). Такі стандарти включають в себе набір властивостей, що дозволяють характеризувати конкретний ІО. Такі стан- дарти можуть бути залучені (з різною ефе- ктивністю) для опису Big Data. Нині в Україні три міжнародні стандарти, що сто- суються метаданих, (ISO 15489-1:2016 [27], ISO 15836-1:2017 [28], ISO 15836- 2:2019 [29]) прийнято як національні стан- дарти методом підтвердження [30, 31]. Стандарт ISO 15489-1:2016 Informa- tion and documentation – Records manage- ment — Part 1: Concepts and principles (Інформація і документація. Керування документами. Частина 1: Поняття і принципи) визначає основні поняття і принципи керування документами і інфо- рмацією. Цей стандарт може бути застосо- ваний для відображення основних власти- востей Big Data: 1) автентичності; 2) дос- товірності; 3) цілісності; 4) придатності їх до обробки). В стандарті описано інфор- маційні поля, що входять в структуру ме- таданих. Для Big Data ці поля дозволяють відобразити наступну інформацію: опис контенту Big Data – це структура даних (форма, формат, зв’язки між блоками Big Data); середовище створення; взає- мозв’язок з іншими блоками Big Data (ша- рдинг, реплікація) і метаданими; ідентифі- катори та іншу інформацію, що потрібна для видобутку і подання даних; дії і події, що пов’язані з цими Big Data (дата, час дій, зміна метаданих тощо). Big Data, які не су- проводжуються такими метаданими, не можуть використовуватися повноцінно. Стандарт ISO 15836-1:2017 Informa- tion and documentation — The Dublin Core metadata element set — Part 1: Core elements (Інформація та документація. На- бір елементів метаданих «Дублінське яд- ро». Частина 1: Основні елементи) описує 15 елементів Dublin Core, які використо- вують для опису ресурсів. В цьому станда- рті під ресурсом розуміють будь-який об’єкт, який можна ідентифікувати (на- приклад, у сфері комп’ютерних наук ресу- рсами виступають окремі документи, тек- сти, аудіо- та відео-файли, Web-сторінки, бази даних тощо). Big Data та їх метадані теж відповідають такому визначенню і можуть розглядатися як ресурси. 15- елементне «ядро», зазначене в цьому стан- дарті, є частиною більшого набору слов- ників метаданих та технічних специфіка- цій, що підтримуються Дублінською ініці- ативою метаданих (Dublin Core Metadata Initiative, DCMI) [32]. Основні елементи можуть використовуватися в поєднанні з термінами метаданих з інших сумісних словників у контексті профілів застосун- ків, як зазначено в абстрактній моделі DCMI [DCAM]. В табл. 1 приведена специфікація 15 елементів метаданих Dublin Core. Моделі та засоби систем баз даних і знань 59 Таблиця 1. Специфікація 15 елементів метаданих Dublin Core Назва елемента Мітка елемента Визначення Коментар title Заголовок Назва ресурсу creator Автор Сутність, відпові- дальна за створен- ня контенту ресу- рсу Людина, організація або сервіс; зазвичай збіга- ється з ім'ям людини, назвою організації або сервісу subject Тема Тема контенту ре- сурсу Як правило, подається ключовими словами, фразами або кодами класифікації. Рекоменду- ється вибирати значення з певного словника. Просторова або часова приналежність ресурсу повинна описуватися елементом coverage description Опис Опис контенту ре- сурсу Опис контенту ресурсу може включати зміст, анотацію, графічну презентацію або короткий текстовий опис ресурсу publisher Видавець Сутність, що ро- бить ресурс дос- тупним Людина, організація або сервіс; зазвичай збіга- ється з ім'ям людини, назвою організації або сервісу contributor Учасник Сутність, що бере участь у створенні контенту ресурсу Людина, організація або сервіс; зазвичай збіга- ється з ім'ям людини, назвою організації або сервісу Date Дата Дата події в жит- тєвому циклі ре- сурсу Може використовуватися для подання інфор- мації про час з будь-яким рівнем точності type Тип Вид або категорія контенту ресурсу Рекомендується вибирати значення з певного словника, такого як DCMI Type Vocabulary. Фі- зичне або цифрове подання ресурсу визначаєть- ся елементом format format Формат Фізичне або циф- рове подання ре- сурсу, вимір Вимірювання може бути, наприклад, розміром або тривалістю identifier Ідентифіка- тор Конкретне поси- лання на ресурс в цьому контексті Рекомендується визначати ресурс за допомогою рядка або числа, що задовольняє формальній системі ідентифікації source Джерело Посилання на ре- сурс, на основі якого складено цей ресурс Цей ресурс може складатися з "Джерела" част- ково або повністю. Рекомендується визначати "Джерело" за допомогою рядка або числа, що задовольняє формальній системі ідентифікації coverage Охоплення Простір або гра- ниці, з якими по- в'язано вміст ре- сурсу Як правило, географічне положення (назва міс- ця або координати), часовий період (назва пері- оду, дата, набір дат) або підвідомча область (та- ка як адміністративна область) language Мова Національна мова вмісту Рекомендується вибирати значення з певного словника, такого як RFC 4646 relation Зв’язування Посилання на зв'я- заний ресурс Рекомендується визначати "зв'язування" за до- помогою рядка або числа, що задовольняє фор- мальній системі ідентифікації rights Правова інформація Правова інформа- ція, пов'язана з ресурсом Зазвичай "Правова інформація" містить правові угоди щодо ресурсу, включаючи інформацію про права на інтелектуальну власність Моделі та засоби систем баз даних і знань 60 Міжнародний стандарт ISO 15836- 2:2019 Information and documentation – The Dublin Core metadata element set – Part 2: DCMI Properties and classes (Інформація та документація. Набір елементів метаданих «Дублінське ядро». Частина 2: DCMI вла- стивості і класи) є розширенням і допов- ненням першої частини цього стандарту ISO 15836-1. Розширення полягає у тому, що він надає програмістам загальну уні- версальну мову для створення та аналізу метаданих. Така універсальна мова забез- печує розширений опис елементів метада- них, використовуючи їх оновлені власти- вості та класи. Стандарт ISO 15836-2 збі- льшує початковий набір з 15 основних властивостей до 40 властивостей і 20 кла- сів для підвищення точності і виразності описів у стандарті Dublin Core. Основна увага цього стандарту зосереджена на опи- су загальних властивостях елементів мета- даних, що необхідні для базової інтеропе- рабельності між різними мовами програ- мування та предметними областями їх за- стосування. Такий набір властивостей і класів подається як словник RDF і може викорис- товуватися для зв’язаних даних (Linked Data). Кожна властивість і клас ідентифі- кується глобальним ідентифікатором для використання в даних RDF. Розробники метаданих, що не належать до RDF, мо- жуть використовувати словник у XML, JSON, UML та реляційних БД, не застосо- вуючи глобальний ідентифікатор і специ- фічні для RDF аспекти визначень термінів. Значення URI можуть бути викори- стані для створення посилань зі значень елементів на відповідні ресурси Web. URI – це уніфіковані локатори ресурсів (URL- адреси) або постійні ідентифікатори, такі як уніфіковані імена ресурсів (URN). Ста- ндарт Dublin Core визначає лише посилан- ня другого типу. У стандарті подані імена властивостей, які можуть бути префіксами для використання як ідентифікатори або цитуватися як повні URI, використовуючи простір імен PURL за замовчуванням. Таким чином, важливим досягнен- ням базового набору елементів Dublin Core є те, що його розширена семантика дає можливість опису будь-яких Web-ресурсів. Однак існують і негативні наслідки цієї позитивної характеристики. 1. Розширення семантики припус- кає різні інтерпретації (найбільш складни- ми в інтерпретації є пари "relation – source", "creator – contributor", "type – format". 2. Для опису конкретних категорій ресурсів глобальний рівень є недостатнім: він не відображає важливі характеристики ресурсу. Це стосується основних ПМ- об'єктів опису в репозиторіях – статей, матеріалів конференцій, книг, дисертацій. Тому можуть вводитися більш де- тальні елементи опису ресурсів з викорис- танням: розширеного набору термів Dublin Core, які нам надає стандарт ISO 15836 Part 2: "DCMI Properties and classes "(ISO 15836-2: 2019); інших форматів метаданих, таких як MODS (Metadata Object Description Schema) на базі спрощеного набору елементів формату MARC, ETD- MS для опису дисертацій, Data Cite Metadata Schema та інших; власних набо- рів метаданих, які формуються на основі розширеного формату з додаванням спе- цифічних елементів. Для забезпечення уніфікації значень і потрібного рівня деталізації метаданих, отримуваних по OAI-PMH у форматі базо- вого DC, репозіторії-агрегатори застосо- вують набір рекомендацій щодо обов'язко- вого використання деяких полів; уніфікації використання полів (наприклад, для статей рекомендується записувати назву журналу в поле dc: source); уніфікації формулювань значень полів, важливих для пошуку та щодо заповнення полів з можливостями структурування. Тенденції розвитку структур мета- даних йдуть у напрямку більшого різнома- ніття і диференціації елементів. Це пов'яза- но з підвищенням ролі репозиторіїв в струк- турі відкритої науки, з розміщенням науко- вих публікацій, підготовлених за підтримки фондів, у репозиторії як альтернативі публі- кацій в журналах відкритого доступу. З огляду на ці тенденції, ми можемо виділяти у своїх внутрішніх структурах метаданих окремі елементи, щоб згодом передавати їх в деталізованих обмінних форматах. Моделі та засоби систем баз даних і знань 61 Метадані та типові інформаційні об’єкти Як показав аналіз сучасних систем метаданих, вони дозволяють описувати не тільки ІР у цілому, але й типові для певної ПрО інформаційні об’єкти, які описуються у цих ІР та є їх елементами. Типові інфор- маційні об’єкти (ТІО) характеризуються набором семантичних властивостей, які можуть бути описані в метаданих кожного екземпляра. ТІО можуть описувати як ІО (документи, елементи БД, мультимедійну інформацію), так і об’єкт реального світу (персоналій, організації, географічні об’єкти тощо). Доцільність створення ТІО визначається специфікою ПрО конкретної ІС: якщо в системі обробляється певна кі- лькість елементів із подібним набором властивостей та характеристик, тоді доці- льно виділити для них окремий ТІО. Відповідно до концепції ТІО [33], які дозволяють класифікувати інформацію про різноманітні ІО зі складною структу- рою на семантичному рівні, значення де- яких елементів метаданих Dublin Core мо- жуть бути віднесені до певних ТІО (табл. 2), що надалі визначає правила їх аналізу та обробки. Крім того, деякі з них можуть розглядатися як ТІО – поняття ПрО, що відповідають класам та екземплярам класів онтології ПрО, тоді як інші є ПМ-описами. Визначити ТІО елементів дозволяє аналіз коментарів, що надаються у стандарті. Таблиця 2. ТІО елементів метаданих Dublin Core Назва ТІО title Поняття ПрО creator Персоналія, Організація, Сервіс subject Поняття ПрО description ПМ-опис, НСД publisher Персоналія, Організація, Сервіс contributor Персоналія, Організація, Сервіс Date Структуровані дані, Дата type Поняття з онтології “Ресурси” format ТІО (поняття з онтології “Типи да- них”) identifier Посилання source Посилання coverage Поняття з онтології “Географічні об’єкти” language Поняття з онтології “Мови” relation Посилання rights ПМ-текст, НСД Структура та відношення між ТІО можуть відображатися різними засобами подання знань. Наприклад, в онтологіях ТІО відповідають класи, а їх характерис- тикам – властивості екземплярів класів. В семантичних Wiki-ресурсах для подання ТІО використовуються шаблони, що міс- тять категорії та набір семантичних влас- тивостей ТІО (рис. 1). Рис. 1. Використання шаблонів в Semantic MediaWiki для подання ТІО Моделі та засоби систем баз даних і знань 62 Використання Data Mining для аналізу метаданих Big Data На сьогодні створено багато мето- дів, що забезпечують здобуття знань з різ- них типів ІР – структурованих, частково структурованих та неструктурованих [34]. Аналіз таких методів показує, що внесен- ня структурних елементів у дані значно зменшує простір рішень та зменшує час обробки. Досить часто основою для створен- ня ТІО є застосування різних напрямків Data Mining для здобуття знань з метада- них цих ТІО для більш ефективної роботи ІС. Особливо це актуально для Big Data, тому що саме аналіз метаданих такої ін- формації є основою для створення наборів Big Data, що можуть використовуватися як дані для машинного навчання (катего- ризації та кластеризації). В такому випад- ку властивості ТІО є параметрами вибірки даних, значення яких аналізуються мето- дами Data Mining [35] , і тому коректне створення ТІО є визначальним фактором обробки Big Data в цілому. Data Mining – це процес, спрямо- ваний на виявлення нових значущих коре- ляцій, шаблонів і тенденцій у результаті аналізу великого обсягу збережених даних з використанням методик розпізнавання зразків та застосування статистичних і ма- тематичних методів. Особливо ефектив- ними методи Data Mining стали із розвит- ком та накопиченням Big Data. Можна казати, що Data Mining – це процес авто- матизованого здобуття з наявних інфор- маційних ресурсів нових знань, які неяв- ним чином присутніми в оброблюваній інформації. Результати Data Mining у значній мірі залежать від тих даних, які вони об- робляють: від їх повноти, актуальності, релевантності поставленій задачі та якості, та від знань, на основі яких обираються ці дані. Тому в тому випадку, якщо побудова набору даних базується на аналізі їх мета- даних, саме склад та якість метаданих значним чином визначають якість тих знань, що можна здобути з ІР. Інструменти Data Mining дозволя- ють знаходити нові закономірності у да- них самостійно й також самостійно буду- вати гіпотези про взаємозв'язки між їх елементами. Оскільки саме формулювання гіпотези щодо залежностей є найскладні- шим завданням, то перевага Data Mining у порівнянні з іншими методами аналізу є очевидною. Але для їх ефективного вико- ристання ці результати мають бути пов’язані з відповідним поняттєвим апара- том, який формалізується засобами подан- ня знань, наприклад, за допомогою онто- логій [36]. У багатьох випадках такий зв’язок встановлюється через семантичні метадані – ті елементи метаданих, що пов’язані з певним поданням знань, наприклад, з елементами онтології відпо- відної ПрО. Знання, що здобуваються та- ким чином з даних, дозволяють у свою чергу вдосконалити онтологію ПрО, яка надалі використовуватиметься для ство- рення метаданих. Таким чином, створення метаданих та їх використання для вдоско- налення онтологій є циклічним процесом, який підтримує більш ефективне збере- ження та використання даних. Найпоширеніші сфери використан- ня Data Mining пов’язані із вирішенням задач класифікації, кластеризації та про- гнозування. Слід відмітити, що Data Mining характеризує не стільки конкретну інформаційну технологію, скільки процес пошуку закономірностей (кореляцій, тен- денцій, взаємозв'язків) за допомогою ма- тематичних і статистичних алгоритмів, наприклад, регресійного й кореляційного аналізу тощо. Найбільш розповсюджена задача, що вирішується за допомогою Data Mining, – це задача класифікації: вирішен- ня задачі класифікації дозволяє виявити ознаки, що характеризують групи об'єктів досліджуваного набору даних – класи, за якими новий об'єкт можна віднести до то- го чи іншого класу. Ця задача безпосеред- ньо пов’язана з онтологічним аналізом і дозволяє віднести екземпляри до відпові- дних класів. Для вирішення задачі класи- фікації можуть використовуватися методи: найближчого сусіда (Nearest Neighbor); k-найближчого сусіда (k-Nearest Neighbor); Байєсівські мережі (Bayesian Networks); індукція дерев рішень; нейрон- ні мережі (neural networks). Моделі та засоби систем баз даних і знань 63 Задачу кластеризації можна розг- лядати як логічне продовження ідеї кла- сифікації і полягає в розподілі множини об'єктів на групи (кластери), при цьому в кожному кластері зібрані об’єкти, які схожі за параметрами. Варто зауважити, що на відміну від класифікації, кількість кластерів і їхніх характеристик визнача- ють у процесі побудови кластерів, вихо- дячи зі ступеня близькості поєднуваних об'єктів по сукупності параметрів. В он- тологічному аналізі ця задача виникає на попередньому етапі та дозволяє побуду- вати набір базових класів онтології й встановити між ними ієрархічні відно- шення. Задача асоціації – задача пошуку асоціативних правил (визначення взаємоз- в'язків), що полягає у визначенні наборів об'єктів, які часто зустрічаються серед множини подібних наборів. Відмінність асоціації від двох попередніх задач Data Mining: пошук закономірностей здійсню- ється не на основі властивостей аналізова- ного об'єкта, а між декількома подіями, що відбуваються одночасно. Інші розповсюджені задачі Data Mining – задачі прогнозування, асоціації, визначення відхилень тощо – також мо- жуть застосовуватися для вдосконалення онтологій шляхом обробки даних відпові- дних ПрО, доступних через Web. Якщо дані, що обробляються в Data Mining, є ресурсами Web, то це вносить багато додаткових вимог до методів аналі- зу. Тому у Data Mining виокремлюють та- кий напрямок, як Web Mining. Системи Web Mining дозволяють знаходити зако- номірності в інформаційних ресурсах Web, застосовуючи технологію Data Mining для аналізу неструктурованої, не- однорідної, розподіленої і значної за обся- гом інформації, яка знаходиться на Web- вузлах. У Web Mining можна виділити такі напрямки, як Web Content Mining і Web Usage Mining, Opinion Mining. В Web Mіnіng можна виділити наступні етапи: - вхідний етап (іnput stage) – отримання "сирих" даних із джерел (логи серверів, тексти електронних документів); - етап попередньої обробки (preprocessіng stage) – дані представляють- ся у формі, необхідній для успішної побу- дови тієї чи іншої моделі; - етап моделювання (pattern dіscovery stage); - етап аналізу моделі (pattern analysіs stage) – інтерпретація отриманих результатів. Конкретні процедури кожного ета- пу залежать від поставленого завдання. У зв'язку із цим виділяють різні категорії Web Mіnіng [37]: аналіз використання Web-ресурсів (Web Usage Mіnіng); отри- мання Web-структур (Web Structure Mіnіng); здобуття Web-контенту (Web Content Mіnіng. Значна частина даних – це ПМ- тексти. Саме в таких даних зазвичай міс- титься найбільш корисна інформація. То- му аналіз таких даних в Data Mining також виокремлюють в спеціальний підрозділ – Text Mining [38]. Технологія Text Mining містить процеси добування знань і висо- коякісної інформації з ПМ-масивів. Це звичайно відбувається за допомогою ви- явлення шаблонів і тенденцій за допомо- гою статистичних та лінгвістичних мето- дів. Значно підвищити ефективність Data Mining в усіх його напрямках дозво- ляє застосування фонових знань ПрО. Це дозволяє не шукати заново вже відомі ко- ристувачам закономірності та семантично збагатити зв’язки між параметрами (влас- тивостями об’єктів, що аналізуються) за рахунок наявних знань щодо відношень між ними. Одним з актуальних напрямків за- стосування фонових знань в Data Mining є аналіз Big Data та їх метаданих. Це обумо- влено надзвичайно великими обсягами самих даних та їх динамічністю, що приз- водить до динамічності тих метаданих, що їх описують. Тому важливими вимогами до методів їх аналізу є швидкодія та наяв- ність евристик, що дозволяють значно скоротити час аналізу. Наприклад, знання щодо відношення “клас-підклас” між па- раметрами метаданих дозволяє вдоскона- лити навчальну вибірку. Це обумовлює необхідність отри- мання таких фонових знань, яке склада- ється з наступних підзадач: Моделі та засоби систем баз даних і знань 64 1) пошук ІР, що пертинентні за- дачі користувача; 2) здобуття з цих ІР необхідних фонових знань; 3) використання отриманих знань для аналізу даних. У випадку аналізу Big Data ці зада- чі конкретизуються наступним чином: 1.1. Вибір сховища Big Data, в яко- му здійснюється пошук; 1.2. Пошук або створення онтології ПрО, що містить фонові знання щодо за- дачі користувача; 1.3. Аналіз метаданих Big Data з метою вибору набору даних, що пертине- нтні задачі користувача, з використанням фонових знань обраної онтології ПрО; 1.4. Генерація потрібного набору да- них (підмножини Big Data за визначеними умовами) з використанням знань онтології; 2) Здобуття з онтології ПрО тих термінів та відношень між ними, які пот- рібні для більш ефективного аналізу вели- кого обсягу інформації (наприклад, для зменшення кількості параметрів даних або для зменшення кількості записів за більш точними умовами відповідності задачі); 3) Використання отриманих знань для аналізу отриманого набору даних та для інтерпретації отриманого результату. Таким чином, онтології дозволяють як аналізувати семантично метадані, що описують Big Data (наприклад, заміняти терміни в описі задачі на синоніми або на семантично подібні поняття, звужувати або розширювати запит), так і аналізувати самі дані (наприклад, використовуючи обмеження на можливі значення парамет- рів або виводячи з одних даних інші). Семантичні Wiki-ресурси як джерело фонових знань для аналізу метаданих Big Data Дослідження методів отримання фонових знань, які характеризують ПрО Big Data, є актуальним напрямком науко- вих досліджень, що спрямовані на обробку таких даних. Це обумовлено тим, що, як правило, для наборів Big Data не пропону- ються пертинентні онтології тими особами або організаціями, що створюють та збері- гають такі набори даних. У більшості ви- падків використання онтологічного аналізу для Big Data обмежується вибором онтоло- гії для визначення структури та змісту ме- таданих, яка не є специфічною для певної ПрО. Але використання знань ПрО може значно підвищити ефективність обробки. Висока часова складність, на яку впливає великий розмір простору ознак у Big Data, викликає проблеми в викорис- танні традиційних методів штучного ін- телекту до такої інформації. Доцільно для їх оптимізації застосовувати наявні знан- ня щодо ПрО, до якої відносяться як самі Big Data, так і задача, для вирішення якої здійснюється аналіз цих Big Data. Це до- зволяє не здобувати ці знання повторно та використовувати їх для логічного ви- ведення та встановлення відношень між елементами метаданих Big Data. Ефекти- вність такого підходу визначається пер- тинентністю вибору бази знань та засо- бами подання самих знань. На сьогодні найбільш поширеним рішенням для по- дання розподілених знань з точки зору сумісного та повторного використання є онтології. Але побудова та пошук онто- логій, що є пертинентними конкретній задачі, є складною проблемою. Значно простіше генерувати онтологічні струк- тури за семантизованими Wiki- ресурсами. Такі онтології мають обмеже- ну виразну здатність, але вони можуть створюватися автоматизовано за тим на- бором Wiki-сторінок, які обирає користу- вач. Крім того, такий підхід дозволяє від- фільтровувати тільки ту інформацію, яка потрібна для вирішення задачі, що значно обмежує обсяг побудованої онтології та зменшує час на її використання. Пошук пертинентної онтології не- можливо повністю автоматизувати, хоча співставлення метаданих Big Data з мета- описами онтологій в репозиторії дозволяє виконати попередній відбір. Проблема ускладнюється тим, що значна частина спе- ціалістів, що працюють з Big Data та їх ме- таданими, не мають достатнього досвіду у роботі з онтологіями. Тому доцільно засто- совувати як джерело фонових знань такі ІР, що задовольняють наступним умовам: Моделі та засоби систем баз даних і знань 65 1) досить прості для розуміння їх змісту та обсягу; 2) досяжні через Web; 3) зберігаються у відкритих фор- матах; 4) дозволяють автоматизовано генерувати онтології з фіксованим набо- ром понять. Таким вимогам відповідають сема- нтично розмічені Wiki-ресурси. Виразні можливості Semantic MediaWiki [39] – се- мантичного розширення MediaWiki [40] – дозволяє явно фіксувати зміст відношень між Wiki-сторінками, які відповідають класам онтології. Для того, щоб використовувати та- кий Wiki-ресурс як джерело фонових знань в аналізі Big Data, доцільно застосо- вувати Wiki-онтологію цього ІР, яка є формалізованою моделлю знань ресурсу та дозволяє фіксувати характеристики йо- го елементів, їх зв’язків, властивостей та відношень у формі, придатній для автома- тичного оброблення, логічного виведення та аналізу. Wiki-онтологія – це окремий випадок онтології ПрО [41], виразні мож- ливості якої обмежені відповідно до вира- зності Wiki та її семантичного розширення та не припускають застосування характе- ристик для об’єктних властивостей та вла- стивостей даних. Використання цієї моде- лі для семантичної розмітки (як назви категорій та семантичних властивостей) забезпечує побудову уніфікованого набо- ру ієрархічно пов’язаних категорій, шаб- лонів типових інформаційних об’єктів, їх семантичних властивостей та запитів, що їх використовують. Важливою особливістю семантизо- ваних Wiki-ресурсів є можливість генера- ції Wiki-онтології не для всієї сукупності сторінок, а тільки для певної підмножини, обраної користувачем явно переліком сто- рінок або за допомогою семантичного за- питу (рис. 2). Параметрами такого запиту є категорії та умови щодо значень семан- тичних властивостей сторінок. Рис. 2. Засоби Semantic MediaWiki для експорту інформації в RDF-форматі Моделі та засоби систем баз даних і знань 66 Висновки Для можливості інтеграції даних із внутрішніх та зовнішніх джерел та покра- щення керування Big Data, їх оцінювання та інтерпретації для виконання приклад- них задач штучного інтелекту ми викорис- тали семантичні технології та онтології. Метадані є основними джерелами інфор- мації про Big Data на протязі всього їх життєвого циклу. Для того, щоб правиль- но відбирати набори даних з Big Data, необхідно навчитись автоматично видобу- вати знання з їх метаданих за допомогою семантичних технологій. Доцільно засто- совувати для цього такі джерела фонових знань як щодо цих метаданих, так і щодо ПрО, для якої потрібно аналізувати дані, як онтології та тезауруси. Для семантичного аналізу метада- них ми використовуємо природномовні анотації, які входять до складу метаданих. Семантична обробка інформації метада- них дозволяє отримати від них неявні знання про самі дані. Аналіз текстів мета- даних безпосередньо пов’язана із семан- тикою та певними логічними правилами, тому без метаданих та методів їх аналізу було б практично неможливо обійтися. Запропоновані нами методи аналізу природномовних анотацій є найбільш адекватним засобом співставлення семан- тики метаданих Big Data з тими задачами, для рішення яких вони можуть застосову- ватися. На сьогоднішній день відсутні загальноприйняті, універсальні стандарти про метадані, а найбільш часто викорис- товується універсальний стандарт опису метаданих Dublin Core. Ми запропонували використовува- ти технології Wiki та їх семантичне роз- ширення як джерело фонових знань щодо ПрО задачі користувача. Ці знання можуть також бути використані при оцінюванні семантичної близькості термінів домену для структурування елементів метаданих Big Data. Новизна досліджень, які запропо- новані у цій роботі, полягає у новому під- ході до інтеграції та структуруванні даних в інтелектуальних системах, який базуєть- ся на семантичному аналізі та інтерпрета- ції структурованих, частково структурова- них та неструктурованих метаданих, які описують Big Data, та формуванні на їх основі пертинентного задачі користувача набору даних із застосуванням онтології предметної області. Література 1. Метадані. https://uk.wikipedia.org/wiki/Метадані 2. Dublin Core Metadata Initiative. DCMI TYPE Vocabulary. http://dublincore.org/documents/demitype- vocabulary 3. Резніченко В А., Захарова О В., Захарова Е.Г. Електронні бібліотеки: інформаційні ресурси та сервіси. Проблеми програму- вання. 2005. № 4. С. 60–72. 4. Berners-Lee T., Hendler J., Lassila O. The semantic web. Scientific american. 2001. 284(5). P. 34–43. 5. Dunsire G., Willer M. Standard library metadata models and structures for the Semantic Web. Library hi tech news. 2011. 6. Когаловский М. Р. Метаданные, их свойс- тва, функции, классификация и средства представления. Труды 14-й Всероссийской научной конференции «Электронные биб- лиотеки: перспективные методы и тех- нологии, электронные коллекции» – RCDL- 2012. 2012. http://ceur-ws.org/Vol-934/ paper3.pdf 7. Grotschel M., Lugger J. Scientific Informa- tion System and Metadata. Konrad-Zuse- Zentrum fur Informationstechnik. Berlin. http://www.zib.de/ groetschel/pubnew/paper/groetschelluegger 1999.pdf 8. Halshofer B., Klas W. A Survey of Techni- ques for Achieving Metadata Interoperability. ACM Computing Surveys. 2010. Vol. 42. N 2. Article 7. 9. Taylor C. An Introduction to Metadata. The University of Queensland, Australia. http://www.libraty.uq.edu.au/papers/ctmeta4. html 10. Lagose C. Metadata for the Web. Cornell University. CS 431 - March 2. 2005. 11. Feng L., Brussee R., Blanken H., Veenstra M. Languages for Metadata. In: Multimedia Retrieval. Data-Centric Systems and http://www.zib.de/ Моделі та засоби систем баз даних і знань 67 Applications, Springer, 23–51. http://www.springerlink.com/ content/m276p88003533q86/. 12. Jeusfeld M.A. Metadata. In: Encyclopedia of Database Systems, Springer. 2009. Р. 1723– 1724. http ://www. springerlink.com/content/ h241167167r35055/. 13. Corcho O. Ontology based document annotation: trends and open research problems. Intern. Journal of Metadata, Semantics and Ontologies. 2006. Vol. 1. Is. 1. http://www.dia.fi.upm.es/~ocorcho/document s/IJMSO2006_Corcho.pdf . 14. Гладун А.Я., Рогушина Ю.В. Репозитории онтологий как средство повторного испо- льзования знаний для распознавания информационных объектов. Онтология проектирования. 2013. № 1 (7). С. 35–50. 15. Overbeek J. F. Meta Object Facility (MOF): investigation of the state of the art. 2006. http://citeseerx.ist.psu.edu/viewdoc/download ?doi=10.1.1.96.4092&rep=rep1&type=pdf. 16. OWL Web Ontology Language. Overview. W3C Recommendation: W3C, 2009. – http://www.w3.org/TR/owl-features/. 17. Кобелев А. Е., Вязилов Е. Д. Сучасні під- ходи по створенню метаданих. Сучасні проблеми дистанційного зондування Землі з космосу. 2010. 7(4). C. 194–203. http://d33.infospace.ru/d33_conf/sb2010t4/19 4-203.pdf. 18. Unstructured_data. – https://en.wikipedia.org/ wiki/Unstructured_data. 19. Рогушина Ю. В. Засоби та методи аналізу неструктурованих даних. Проблеми про- грамування. 2019. № 1. С. 57–77. http://pp.isofts.kiev.ua/ojs1/article/view/348/3 46. 20. Андон П.І., Рогушина Ю.В., Резніченко В.А., Киридон А.М., Арістова А.В., Тище- нко А.О. Досвід використання семантич- них технологій для створення інтелектуа- льних ВЕБ-енциклопедій (на прикладі ро- зробки порталу E-ВУЕ). Проблеми про- грамування. 2020. № 2–3. С. 246–258. 21. Rogushina J. Use of Semantic Similarity Estimates for Unstructured Data Analysis CEUR Vol-2577, Selected Papers of the XIX International Scientific and Practical Conference "Information Technologies and Security" (ITS 2019). Kyiv. 2019. P. 246–258. http://ceur-ws.org/Vol-2577/ paper20.pdf. 22. Demchenko Y., De Laat C., Membrey P. Defining architecture components of the Big Data Ecosystem. In 2014 International Conference on Collaboration Technologies and Systems (CTS). 2014. P. 104–112. 23. Smith K., Seligman L., Rosenthal A., Kurcz C., Greer M., Macheret C., Eckstein A. "Big Metadata" The Need for Principled Metadata Management in Big Data Ecosystems. Proceedings of Workshop on Data analytics in the Cloud. 2014. P. 1–4). 24. Dey A., Chinchwadkar G., Fekete A., Ramachandran K. Metadata-as-a-service. 31st IEEE International Conference on Data Engineering Workshops. 2015. P. 6–9. 25. Chen M., Mao S., Liu Y. Big data: A survey. Mobile networks and applications. 2014. 19(2). P. 171–209. 26. Rogushina J., Gladun A., Pryima S. Use of Ontologies for Metadata Records Analysis in Big Data. Selected Papers of the XVIII International Scientific and Practical Conference "Information Technologies and Security" (ITS 2018). CEUR Vol-2318. http://ceur-ws.org/Vol-2318/paper5.pdf. 27. ISO 15489-1:2016 Information and documentation – Records management – Part 1: Concepts and principles. 28. ISO 15836-1:2017 Information and documentation – The Dublin Core metadata element set – Part 1: Core elements. 29. ISO 15836-2:2019 Information and documentation – The Dublin Core metadata element set – Part 2: DCMI Properties and classes. 30. ДСТУ ISO 15489-1:2018 Інформація та документація. Керування записами. Час- тина 1. Поняття та принципи (ISO 15489- 1:2016, IDT). 31. ДСТУ ISO 15836-1:2018 Інформація та документація. Набір елементів метаданих Дублінського ядра. Частина 1. Основні елементи (ISO 15836-1:2017, IDT). 32. Weibel S.L., Koch T. The Dublin core metadata initiative. D-lib magazine. 2000. 6(12). P. 1082–9873. 33. Рогушина Ю.В. Використання тезаурусів для пошуку складних інформаційних об’єктів у Web на основі онтологій. Про- блеми програмування. 2019. № 4. С. 11–27. 34. Гладун А.Я., Рогушина Ю.В. Семантичні технології: принципи та практики. – К.:ТОВ "ВД "АДЕФ-Україна". 2016. 308 с. http://eprints.isofts.kiev.ua/669/. 35. Гладун А.Я., Рогушина Ю.В. Data Mining: пошук знань в даних. К.:ТОВ "ВД "АДЕФ- Україна". 2016. 452 с. http://www.springerlink.com/ http://eprints.isofts.kiev.ua/669/ Моделі та засоби систем баз даних і знань 68 36. Nigro H.O. ed. Data Mining with Ontologies: Implementations, Findings, and Frameworks: Implementations, Findings, and Frameworks. IGI Global. 2007. 289 p. 37. Kosala R., Blockeel H. Web mining research: A survey. ACM Sigkdd Explorations Newsletter. 2000. 2(1). P. 1–15. https://arxiv.org/pdf/cs/0011033.pdf 38. Berry M. W., Castellanos M. Survey of text mining. Survey of Text Mining:Clustering, Classification, and Retrieval. Computing Reviews. 2007. 45(9). P.548. 39. Krötzsch M., Vrandečić D., Völkel M. Semantic MediaWiki. International Semantic Web Conference. 2006. Р. 935–942. https://link.springer.com/content/pdf/10.1007 /11926078_68.pdf. 40. MediaWiki. URL: https://www.mediawiki.org/wiki/MediaWiki. 41. Rogushina J. Analysis of Automated Matching of the Semantic Wiki Resources with Elements of Domain Ontologies. International Journal of Mathematical Sciences and Computing (IJMSC). 2017. Vol. 3. N 3. P. 50–58. URL: http://www.mecs- press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3- 5.pdf. References 1. Metadata. – https://uk.wikipedia.org/wiki/Метадані 2. Dublin Core Metadata Initiative. DCMI TYPE Vocabulary.– http://dublincore.org/documents/demitype- vocabulary. (in Ukrainian) 3. Reznichenko V.A., Zakharova O.V., Zakharova E.G. Electronic libraries: information resources and services. Problems in programming. 2005. № 4. P.60–72. (in Ukrainian) 4. Berners-Lee T., Hendler J., Lassila O. The semantic web. Scientific american. 2001. 284(5). P. 34–43. 5. Dunsire G., Willer M. Standard library metadata models and structures for the Semantic Web. Library hi tech news. 2011. 6. Kogalovsky M.R. Metadata, their properties, functions, classification and presentation means. Proc. of the 14th All-Russian Scientific Conference "Digital Libraries: Promising Methods and Technologies, Electronic Collections" – RCDL-2012, 2012. http:ceur-ws.org/Vol-934/paper3.pdf. (in Russian) 7. Grotschel M., Lugger J. Scientific Informa¬tion System and Metadata. Konrad- Zuse-Zentrum fur Informationstechnik. Berlin. http://www.zib.de/ groetschel/pubnew/paper/groetschelluegger 1999.pdf 8. Halshofer B., Klas W. A Survey of Techni¬ques for Achieving Metadata Interoperability. ACM Computing Surveys. 2010. Vol. 42. No. 2. Article 7. 9. Taylor C. An Introduction to Metadata. The University of Queensland, Australia. http://www.libraty.uq.edu.au/papers/ctmeta4. html 10. Lagose C. Metadata for the Web. Cornell University. CS 431 - March 2. 2005. 11. Feng L., Brussee R., Blanken H., Veenstra M. Languages for Metadata. In: Multimedia Retrieval. Data-Centric Systems and Applications, Springer, 23–51. http://www.springerlink.com/ content/m276p88003533q86/. 12. Jeusfeld M.A. Metadata. In: Encyclopedia of Database Systems, Springer. 2009. Р. 1723– 1724. http ://www. springerlink.com/content/ h241167167r35055/. 13. Corcho O. Ontology based document annotation: trends and open research problems. Intern. Journal of Metadata, Semantics and Ontologies. 2006. Vol. 1. Is. 1. http://www.dia.fi.upm.es/~ocorcho/document s/IJMSO2006_Corcho.pdf . 14. Gladun A., Rogushina J. Repositories of ontologies as a means of knowledge reuse for recognition of information objects. Ontology of design. 2013. N 1 (7). P. 35–50. (in Russian) 15. Overbeek J. F. Meta Object Facility (MOF): investigation of the state of the art. 2006. http://citeseerx.ist.psu.edu/viewdoc/download ?doi=10.1.1.96.4092&rep=rep1&type=pdf. 16. OWL Web Ontology Language. Overview. W3C Recommendation: W3C, 2009. – http://www.w3.org/TR/owl-features/. 17. Kobelev A.E., Vyazilov E.D. Modern approaches to metadata creating. Modern problems of remote sensing of the Earth from space. 2010. 7 (4). P. 194–203. http://d33.infospace.ru/d33_conf/sb2010t4/19 4-203.pdf. (in Ukrainian) 18. Unstructured_data. – https://en.wikipedia.org/ wiki/Unstructured_data. Моделі та засоби систем баз даних і знань 69 19. ROGUSHINA J. (2019) Means and methods of unstructured data analysis. // Problems in programming, N 1, P. 57–77. http://pp.isofts.kiev.ua/ojs1/article/view/348/3 46. (in Ukrainian) 20. Andon P., Rogushina J., Grishanova I., Reznichenko V., Kyrydon A., Aristova A., Tyschenko A. (2020) Experience of the semantic technologies use for intelligent Web encyclopedia creation (on example of the Great Ukrainian Encyclopedia portal). Problems in programming, N 2-3. P. 246–258. (in Ukrainian) 21. Rogushina J. Use of Semantic Similarity Estimates for Unstructured Data Analysis CEUR Vol-2577, Selected Papers of the XIX International Scientific and Practical Conference "Information Technologies and Security" (ITS 2019). Kyiv. 2019. P. 246–258. http://ceur-ws.org/Vol-2577/ paper20.pdf. 22. Demchenko Y., De Laat C., Membrey P. Defining architecture components of the Big Data Ecosystem. In 2014 International Conference on Collaboration Technologies and Systems (CTS). 2014. P. 104–112. 23. Smith K., Seligman L., Rosenthal A., Kurcz C., Greer M., Macheret C., Eckstein A. "Big Metadata" The Need for Principled Metadata Management in Big Data Ecosystems. Proceedings of Workshop on Data analytics in the Cloud. 2014. P. 1–4). 24. Dey A., Chinchwadkar G., Fekete A., Ramachandran K. Metadata-as-a-service. 31st IEEE International Conference on Data Engineering Workshops. 2015. P. 6–9. 25. Chen M., Mao S., Liu Y. Big data: A survey. Mobile networks and applications. 2014. 19(2). P. 171–209. 26. Rogushina J., Gladun A., Pryima S. Use of Ontologies for Metadata Records Analysis in Big Data. Selected Papers of the XVIII International Scientific and Practical Conference "Information Technologies and Security" (ITS 2018). CEUR Vol-2318. http://ceur-ws.org/Vol-2318/paper5.pdf. 27. ISO 15489-1:2016 Information and documentation – Records management – Part 1: Concepts and principles. 28. ISO 15836-1:2017 Information and documentation – The Dublin Core metadata element set – Part 1: Core elements. 29. ISO 15836-2:2019 Information and documentation – The Dublin Core metadata element set – Part 2: DCMI Properties and classes. 30. DSTU ISO 15489-1: 2018 Information and documentation. Records management. Part 1. Concepts and principles (ISO 15489-1: 2016, IDT). (in Ukrainian) 31. DSTU ISO 15836-1: 2018 Information and documentation. Dublin Core Metadata Element Set. Part 1. Basic elements (ISO 15836-1: 2017, IDT). (in Ukrainian) 32. Weibel S.L., Koch T. The Dublin core metadata initiative. D-lib magazine. 2000. 6(12). P. 1082–9873. 33. Rogushina J. The use of thesauri to search for complex Web information objects based on ontologies. Problems of programming. 2019. № 4, P. 11–27. (in Ukrainian) 34. Gladun A., Rogushina J. Semantic technologies: principles and practices. 2016. Kyiv. ADEF-Ukraine. 308 p. (in Ukrainian) 35. Gladun A., Rogushina J. Data Mining: search for knowledge in data. 2016. Kyiv. ADEF- Ukraine. 452 p. (in Ukrainian) 36. Nigro H.O. ed. Data Mining with Ontologies: Implementations, Findings, and Frameworks: Implementations, Findings, and Frameworks. IGI Global. 2007. 289 p. 37. Kosala R., Blockeel H. Web mining research: A survey. ACM Sigkdd Explorations Newsletter. 2000. 2(1). P. 1–15. https://arxiv.org/pdf/cs/0011033.pdf 38. Berry M. W., Castellanos M. Survey of text mining. Survey of Text Mining:Clustering, Classification, and Retrieval. Computing Reviews. 2007. 45(9). P. 548. 39. Krötzsch M., Vrandečić D., Völkel M. Semantic MediaWiki. International Semantic Web Conference. 2006. Р. 935–942. https://link.springer.com/content/pdf/10.1007 /11926078_68.pdf. 40. MediaWiki. URL: https://www.mediawiki.org/wiki/MediaWiki. 41. Rogushina J. Analysis of Automated Matching of the Semantic Wiki Resources with Elements of Domain Ontologies. International Journal of Mathematical Sciences and Computing (IJMSC). 2017. Vol. 3. N 3. P. 50–58. URL: http://www.mecs- press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3- 5.pdf. Одержано 23.10.2020 Моделі та засоби систем баз даних і знань 70 Про авторів: Рогушина Юлія Віталіївна, Кандидат фізико-математичних наук, старший науковий співробітник. Кількість наукових публікацій в українських виданнях – 130. Кількість наукових публікацій в зарубіжних виданнях – 28. http://orcid.org/0000-0001-7958-2557, Гладун Анатолій Ясонович, кандидат технічних наук, доцент, старший науковий співробітник відділу комплексних досліджень інформаційних технологій. Кількість наукових публікацій в українських виданнях – 67. Кількість наукових публікацій в зарубіжних виданнях – 53. https://orcid.org/0000-0002-4133-8169. Місце роботи авторів: Інститут програмних систем НАН України, 03181, Київ-187, проспект Академіка Глушкова, 40. E-mail: ladamandraka2010@gmail.com. Міжнародний науково-навчальний центр інформаційних технологій та систем НАН та МОН України, 03680, Київ, Україна, проспект Академіка Глушкова, 40. Тел.: +38(044) 526-2549. E-mail: glanat@yahoo.com mailto:ladamandraka2010@gmail.com mailto:glanat@yahoo.com
id	pp_isofts_kiev_ua-article-439
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T09:45:50Z
publishDate	2021
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/8b/6887d7eee1a8ca785fb50df78005f38b.pdf
spelling	pp_isofts_kiev_ua-article-4392024-04-26T22:46:30Z Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level Застосування онтологічного аналізу для обробки метаданих при інтерпретації Big Data на семантичному рівні Rogushina, J.V. Gladun, A.Y. Big Data; ontology; metadata; semantic markup UDC 004.853, 004.55 Big Data; онтологія; метадані; семантична розмітка УДК 004.853, 004.55 The paper considers the main aspects of modern technologies applied for knowledge analysis to obtain information from Big Data. The analysis of the current state of research in this area shows that background knowledge subject areas of user interest represented by domain ontologies can be used both in order to effectively analysis of information acquried from certain sets of Big Data, and to make this acquisition more useful. With the help of such ontologies, users can formally describe the scope of their information needs, define the structure of the required information objects and explicitly highlight critical for current task domain aspects. Subject of rocessing in the semantics analysis of Big Data is their metadata usually represented by unstructured natural language text. We need to standardize the representation of meta-descriptions wit use of appropriate ontologies that determine the structure and content of individual elements of metadata.Problems in programming 2020; 4: 55-70 В роботі розглядаються основні аспекти застосування сучасних технологій менеджменту знань для здобуття інформації з Big Data. Як показує аналіз сучасного стану досліджень у цій сфері, для того, щоб ефективно визначати, яку саме інформацію можна отримати з певних наборів Big Data, так і зробити це здобуття більш корисним (наприклад, недоцільно здобувати вже відомі або наочні правила), потрібно застосовувати фонові знання, які містяться в онтологіях предметних областей, що цікавлять користувачів. За допомогою таких онтологій користувачі можуть формально описувати сферу своїх інформаційних потреб, задавати структуру потрібних інформаційних об’єктів та явно виділяти ті аспекти предметної області, які є важливими для поточної задачі. Це викликає необхідність у засобах пошуку або створення онтологій, які відповідають задачі користувача. Предметом обробки в процесі аналізу семантики Big Data є їх метадані, в яких відомості про зміст Big Data, як правило, представлені неструктурованим природномовним описом. Тому виникає потреба у стандартизації подання метаописів з використанням відповідних онтологій, які визначають структуру та семантику окремих елементів метаданих. Застосування методів Data Mining дозволяє здобувати необхідні знання з неструктурованих елементів таких метаданих. Новизна досліджень, які запропоновані у цій роботі, полягає у тому, що фонові знання, які використовуються для аналізу Big Data та їх метаописів, генеруються автоматизовано відповідно до поточної задачі користувача (на основі семантично розмічених Wiki-ресурсів та пов’язаних з ними онтологій), що забезпечує більш пертинентний підбір наборів Big Data, з яких здобуваються потрібні користувачеві знання. Такий підхід дозволяє зменшити обсяг вибірки, що обробляється, та зменшити час та складність її аналізу.Problems in programming 2020; 4: 55-70 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2021-01-25 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439 10.15407/pp2020.04.055 PROBLEMS IN PROGRAMMING; No 4 (2020); 55-70 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2020); 55-70 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2020); 55-70 1727-4907 10.15407/pp2020.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439/443 Copyright (c) 2021 PROBLEMS IN PROGRAMMING
spellingShingle	Big Data ontology metadata semantic markup UDC 004.853 004.55 Rogushina, J.V. Gladun, A.Y. Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title	Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title_alt	Застосування онтологічного аналізу для обробки метаданих при інтерпретації Big Data на семантичному рівні
title_full	Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title_fullStr	Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title_full_unstemmed	Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title_short	Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level
title_sort	application of ontological analysis for metadata processing in the interpretation of big data at the semantic level
topic	Big Data ontology metadata semantic markup UDC 004.853 004.55
topic_facet	Big Data ontology metadata semantic markup UDC 004.853 004.55 Big Data онтологія метадані семантична розмітка УДК 004.853 004.55
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/439
work_keys_str_mv	AT rogushinajv applicationofontologicalanalysisformetadataprocessingintheinterpretationofbigdataatthesemanticlevel AT gladunay applicationofontologicalanalysisformetadataprocessingintheinterpretationofbigdataatthesemanticlevel AT rogushinajv zastosuvannâontologíčnogoanalízudlâobrobkimetadanihpriínterpretacííbigdatanasemantičnomurívní AT gladunay zastosuvannâontologíčnogoanalízudlâobrobkimetadanihpriínterpretacííbigdatanasemantičnomurívní

Application of ontological analysis for metadata processing in the interpretation of BIG DATA at the semantic level

Institution

Similar Items