Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata
In this research work we considere the basic principles, models and methods of the FAIR (Findable, Accessible, Interoperable, Reusable) scientific data management paradigm as a separate case of Big Data. This paradigm is focused on the reuse of scientific research results.Basic principles of FAIR ap...
Збережено в:
| Дата: | 2022 |
|---|---|
| Автори: | , |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
PROBLEMS IN PROGRAMMING
2022
|
| Теми: | |
| Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/473 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Problems in programming |
| Завантажити файл: | |
Репозитарії
Problems in programming| id |
pp_isofts_kiev_ua-article-473 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/4b/46ac871561e078dce572d477f8b9614b.pdf |
| spelling |
pp_isofts_kiev_ua-article-4732023-01-19T05:53:43Z Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata Дослідження принципів, моделей та методів парадигми менеджменту наукових даних FAIR для аналізу метаданих BIG DATA Rogushina, J.V. Grishanova, I.J. metadata; Big Data; semantic Wiki resources UDC 681.3 метадані; Big Data; семантичні Wiki-ресурси УДК 681.3 In this research work we considere the basic principles, models and methods of the FAIR (Findable, Accessible, Interoperable, Reusable) scientific data management paradigm as a separate case of Big Data. This paradigm is focused on the reuse of scientific research results.Basic principles of FAIR apply to three types of entities: data (or any digital object), metadata (information about this digital object) and infrastructure. Information on various projects, initiatives and communities working on solving the problems of scientific data and their metadata integration is examined.We analyze how the properties of FAIR data contribute to the unification and integration of the scientific infrastructure in the paradigm of open science, which is based on free access to research results and open data.Prombles in programming 2021; 4: 26-35 Розглянуто базові принципи, моделі та методи парадигми менеджменту наукових даних FAIR (Findable, Accessible, Interoperable, Reusable як окремого випадку великих даних (Big Data), яка орієнтована на повторне використання результатів наукових досліджень. Проаналізовано, як властивості даних FAIR сприяють уніфікації й об’єднанню наукової інфраструктури у парадигмі відкритої науки. Запропоновано методи та програмні засоби, за допомогою яких властивості даних FAIR можуть відтворюватися у семантично розмічених Wiki-ресурсах, що побудовані на основі Semantic MediaWiki.Prombles in programming 2021; 4: 26-35 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2022-02-07 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/473 10.15407/pp2021.04.026 PROBLEMS IN PROGRAMMING; No 4 (2021); 26-35 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2021); 26-35 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2021); 26-35 1727-4907 10.15407/pp2021.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/473/477 Copyright (c) 2022 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2023-01-19T05:53:43Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
metadata Big Data semantic Wiki resources UDC 681.3 |
| spellingShingle |
metadata Big Data semantic Wiki resources UDC 681.3 Rogushina, J.V. Grishanova, I.J. Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| topic_facet |
metadata Big Data semantic Wiki resources UDC 681.3 метадані Big Data семантичні Wiki-ресурси УДК 681.3 |
| format |
Article |
| author |
Rogushina, J.V. Grishanova, I.J. |
| author_facet |
Rogushina, J.V. Grishanova, I.J. |
| author_sort |
Rogushina, J.V. |
| title |
Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| title_short |
Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| title_full |
Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| title_fullStr |
Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| title_full_unstemmed |
Study of principles, models and methods of FAIR paradigm of scientific data management for analysis for BIG data metadata |
| title_sort |
study of principles, models and methods of fair paradigm of scientific data management for analysis for big data metadata |
| title_alt |
Дослідження принципів, моделей та методів парадигми менеджменту наукових даних FAIR для аналізу метаданих BIG DATA |
| description |
In this research work we considere the basic principles, models and methods of the FAIR (Findable, Accessible, Interoperable, Reusable) scientific data management paradigm as a separate case of Big Data. This paradigm is focused on the reuse of scientific research results.Basic principles of FAIR apply to three types of entities: data (or any digital object), metadata (information about this digital object) and infrastructure. Information on various projects, initiatives and communities working on solving the problems of scientific data and their metadata integration is examined.We analyze how the properties of FAIR data contribute to the unification and integration of the scientific infrastructure in the paradigm of open science, which is based on free access to research results and open data.Prombles in programming 2021; 4: 26-35 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2022 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/473 |
| work_keys_str_mv |
AT rogushinajv studyofprinciplesmodelsandmethodsoffairparadigmofscientificdatamanagementforanalysisforbigdatametadata AT grishanovaij studyofprinciplesmodelsandmethodsoffairparadigmofscientificdatamanagementforanalysisforbigdatametadata AT rogushinajv doslídžennâprincipívmodelejtametodívparadigmimenedžmentunaukovihdanihfairdlâanalízumetadanihbigdata AT grishanovaij doslídžennâprincipívmodelejtametodívparadigmimenedžmentunaukovihdanihfairdlâanalízumetadanihbigdata |
| first_indexed |
2025-07-17T09:46:15Z |
| last_indexed |
2025-07-17T09:46:15Z |
| _version_ |
1850409780767621120 |
| fulltext |
26
Моделі та засоби систем баз даних і знань
Вступ
Цифрові технології усе ширше про-
никають у різні галузі, загострюючи про-
блему керування великими даними, вима-
гаючи оптимізації методів і підходів до об-
робки даних, а також ефективних способів
збору даних. Одним з окремих випадків Big
Data [1] є наукові дані великого обсягу. Не-
зважаючи на те, що термін «великі дані»
частіше пов’язують із соціальними мере-
жами та фінансовою індустрією, спочатку
великі дані генерувалися в рамках широко-
масштабних наукових проєктів – зокрема,
проєкту Великого адронного колайдера, що
вимагало створення принципово нових за-
собів і методів обробки екстремально вели-
ких обсягів відомостей, які генерувалися у
ході експериментів.
Тому, здійснюючи дослідження щодо
застосування сучасних методів керування
знаннями для інтелектуальної обробки Big
Data та їх метаданих [2], доцільно проана-
лізувати існуючі підходи до подання та об-
робки великих наукових даних.
У поєднанні з величезною кількістю
даних, які сьогодні необхідно обробляти в
наукових і медичних дослідженнях, важ-
лива системна вимога полягає в тому, щоб
дані не губилися. Поширеним підходом
для запобігання втраті даних є збереження
їх у каталозі даних. Каталоги даних допо-
магають організовувати, структурувати та
відстежувати метадані та згенеровані дані,
щоб інформацію можна було зберігати та
обмінюватися в межах організації. Вико-
ристання каталогів даних може навіть при-
вести до того, що вчені отримають більше
цитат, оскільки вони створюють можливос-
ті для розробки або повторного використан-
ня попередніх досліджень.
Наприклад, каталог даних значно по-
легшує пошук відповідних даних. Щоб до-
зволити всій науковій спільноті отримати
якнайбільшу користь від даних досліджень,
повторне використання даних слід покра-
щити надійним способом, захищаючи як
виробника даних, так і зовнішніх повтор-
них користувачів.
Підвищуючи якість і порівнянність
даних досліджень, колеги-вчені повинні
мати можливість повторно використовува-
ти певний набір даних. Встановлення до-
віри між виробниками даних і зовнішніми
повторними користувачами даних є про-
блемою, яка вимагає більш серйозних змін
у поведінці вчених, ніж просто збільшення
додаткових метаданих у наборі даних.
Щоб сприяти необхідним змінам,
сьогодні кілька фінансових агенцій вима-
гають, аби одержувачі гранту надали план
управління даними або план управління
даними, з описом того, яким чином дані
будуть доступні для колег-дослідників.
Аналіз публікацій показує, що сьогодні
не існує єдиної форми представлення ве-
ликих наукових даних, доступної для ко-
мерціалізації, що ускладнює одержання
вигоди від інвестицій у дослідницькі інф-
раструктури.
УДК 681.3 http://doi.org/10.15407/рр2021.04.026
Ю.В. Рогушина, І.Ю. Гришанова
ДОСЛІДЖЕННЯ ПРИНЦИПІВ, МОДЕЛЕЙ ТА МЕТОДІВ
ПАРАДИГМИ МЕНЕДЖМЕНТУ НАУКОВИХ ДАНИХ
FAIR ДЛЯ АНАЛІЗУ МЕТАДАНИХ BIG DATA
Розглянуто базові принципи, моделі та методи парадигми менеджменту наукових даних FAIR (Findable,
Accessible, Interoperable, Reusable як окремого випадку великих даних (Big Data), яка орієнтована на
повторне використання результатів наукових досліджень. Проаналізовано, як властивості даних FAIR
сприяють уніфікації й об’єднанню наукової інфраструктури у парадигмі відкритої науки. Запропоно-
вано методи та програмні засоби, за допомогою яких властивості даних FAIR можуть відтворюватися
у семантично розмічених Wiki-ресурсах, що побудовані на основі Semantic MediaWiki.
Ключові слова: метадані, Big Data, семантичні Wiki-ресурси.
© Ю.В. Рогушина, І.Ю. Гришанова, 2021
ISSN 1727-4907. Проблеми програмування. 2021. № 4
27
Моделі та засоби систем баз даних і знань
Саме в науці довелося вперше розби-
ратися зі збереженням і передачею великих
масивів даних, з питаннями дотримання
прав їхніх власників, створення безпечного
інформаційного і правового середовища для
користувачів наукового устаткування, облі-
ку соціальних наслідків упровадження но-
вих технологій тощо. В інших областях при
роботі з Big Data акцент ставиться на ефек-
тивності використання конкретних методів
і їхньої максимальної універсальності, а не
на забезпеченні відкритості і доступності
наявних даних. Детальний огляд таких до-
сліджень наведено в [3].
Тому значний інтерес викликають
FAIR – принципи керування даними без
втручання користувача, що можна розгляда-
ти як один із перших кроків до формуван-
ня цифрової інфраструктури для трансферу
наукових результатів у форму, зрозумілу
інвесторам, чиновникам, суспільству і при-
датну для контролю за обсягами наукових
даних.
FAIR дані (FAIR_data) – це дані, які
відповідають принципам знаходжуваності,
доступності, інтероперабельності та по-
вторного використання [4].
У березні 2016 консорціум науков-
ців і організацій визначив базові принципи
«FAIR Guiding Principles for scientifi c data
management and stewardship”, де був вве-
дений відповідний акронім FAIR (Findable,
Accessible, Interoperable, Reusable) для зруч-
ності ведення дискусії.
Властивості FAIR даних
Дані FAIR мають наступні власти-
вості:
1. Findable. Щоб використовувати
дані, їх необхідно спочатку знайти там, де
вони зберігаються. Метадані та дані пови-
нні бути легко доступними як для людей,
так і для комп’ютерів. Можливість машин-
ної обробки метаданих є важливим для
автоматичного виявлення наборів даних і
служб, тому це важливий компонент проце-
су FAIRifi cation.
F1. (Мета)даним призначається
глобально унікальний і постійний іденти-
фікатор.
F2. Дані описуються докладними ме-
таданими (визначені в R1 нижче).
F3. Метадані чітко і явно містять
ідентифікатор даних, які вони описують.
F4. (Мета)дані реєструються або ін-
дексуються в пошуковому ресурсі.
Тож, для вирішення задачі пошуку
даних, такі дані і додаткові матеріали мають
мати достатньо повні метадані, мета-опис і
унікальний постійний ідентифікатор.
2. Accessible. Коли користувач знахо-
дить необхідні дані, він/вона повинен знати,
як до них отримати доступ (можливо, вклю-
чаючи аутентифікацію та авторизацію).
A1. (Мета)дані можна отримати за
їхнім ідентифікатором за допомогою стан-
дартизованого протоколу зв’язку.
A1.1 Протокол є відкритим, безко-
штовним і універсальним.
A1.2 Протокол припускає процедуру
аутентифікації та авторизації, якщо це необ-
хідно.
A2. Метадані доступні, навіть якщо
дані не доступні.
Задача доступності формулюється
так, що метадані (з метаописами) і самі дані
мають бути зрозумілі для людини та при-
датні для програмної обробки. Дані повинні
зберігатися в надійному репозиторії.
3. InteroperableЗазвичай дані потріб-
но інтегрувати з іншими даними. Крім того,
дані мають взаємодіяти із застосунками або
робочими процесами для аналізу, зберіган-
ня та обробки.
I1. (Мета)дані використовують офі-
ційну, доступну, спільну та широко застосо-
вану мову для представлення знань.
I2. (Мета)дані використовують слов-
ники, які відповідають принципам FAIR.
I3. (Мета)дані включають кваліфіко-
вані посилання на інші (мета)дані. Таким чи-
ном, задача інтероперабельності (сумісності)
може бути вирішена за умови, коли для мета-
даних використовується формальна, доступ-
на та широко вживана мова подання знань.
4. Reusable. Кінцевою метою FAIR є
оптимізація повторного використання да-
них. Щоб досягти цього, метадані та дані
повинні бути добре описані, щоб їх можна
було відтворювати та/або комбінувати в різ-
них налаштуваннях.
R1. Мета(дані) повинні бути деталь-
но описані набором точних і відповідних
атрибутів.
28
Моделі та засоби систем баз даних і знань
R1.1. (Мета)дані видаються з чіткою
та доступною ліцензією на використання
даних.
R1.2. (Мета)дані пов’язані з їх похо-
дженням.
R1.3. (Мета)дані відповідають стан-
дартам спільноти, що стосуються домену.
Отже, вимога повторного викорис-
тання говорить про те, що дані і колекції
мають однозначні ліцензії, які описують їх
використання та чітку інформацію про дже-
рело даних та їхнє походження.
Наприклад, агентство DARPA, що
традиційно працює над проблемами інте-
грації фундаментальних наукових праць із
прикладними рішеннями, реалізує проєкт
Automating Scientifi c Knowledge Extraction,
що спрямований на автоматизацію проце-
сів здобуття наукових знань з визначенням
місцезнаходження нових інформаційних
ресурсів, а також їхнього аналізу з метою
отримання нових знань і генерації нових
моделей.
У рамковій програмі ЄС із розвитку
наукових досліджень і технологій «Гори-
зонт — 2020» продемонстрована необхід-
ність у створенні нових методів і підходів
до обробки даних, таких як персоналізація
та деперсоналізація даних, миттєвий збір
даних тощо, рішення яких неможливе без
ефективної організації керування потока-
ми даних.
Для подолання різнорідності БД, для
уніфікації й об’єднання наукової інфра-
структури 2016 року було створено портал
EOSC (European Open Science Cloud) [5] –
віртуальне середовище із вільним доступом
для збереження, керування, аналізу і пере-
дачі даних із усіх сфер знань в усі країни
ЄС. Наукова цифрова інфраструктура ЄС
містить множину регламентованих, від-
критих, але спеціалізованих БД і репози-
торіїв: BioMA, Global Marine Information
System (GMIS), Central Core DNA Sequence
Information System (CCSIS) і ін. Подібні
ресурси постійно актуалізуються, мають
чіткі регламенти представлення даних на-
укових досліджень, надають інструменти і
механізми для керування контентом, однак
тематика даних обмежена, а правила пред-
ставлення метаданих не погоджені (різно-
рідні). Спроби створення універсальних
сховищ даних, незалежних від тематики до-
сліджень, призводять до розбалансування
системи збереження, тому що репозиторії
не мають обмежень щодо формату пред-
ставлення даних і дескрипторів метаданих.
Внаслідок цього інформаційна система
ускладнюється, втрачає гнучкість і не забез-
печує ефективного пошуку даних і їхнього
повторного використання.
На рішення подібних проблем наці-
лена ініціатива Go FAIR, що містить базові
принципи поліпшення можливостей пошу-
ку, забезпечення доступу до даних, їхньої
сумісності і, що особливо важливо, повтор-
ного використання [6].
Згідно FAIR, функції пошуку, здо-
буття і представлення даних реалізують
не користувачі, а інформаційна система.
При цьому мова йде не тільки про влас-
не дані і метадані, а й про алгоритми та
інструменти керування ними. Крім того,
до розробки підходів щодо керування на-
уковими даними залучаються всі зацікав-
лені сторони: науково-дослідні організа-
ції й окремі вчені; оператори баз даних і
видання, що публікують наукові статті і
результати експериментів; організації, що
фінансують ці наукові дослідження; ви-
робники програмного забезпечення й ін-
струментів обробки даних; компанії, що
надають послуги з аналізу й інтерпретації
даних. Важливо, що в коло зацікавлених
сторін також включаються самі обчислю-
вальні системи (алгоритми обробки да-
них) як самостійний об’єкт — залежно від
їхнього рейтингу приймається рішення
про включення обчислювального методу
до конфігурації [7].
Для підтримки пошукових функцій
(серед даних і метаданих) інформаційному
блоку надається унікальний постійний гло-
бальний ідентифікатор, а самі дані опису-
ються розширеною множиною метаданих,
які однозначно і явно включають ідентифі-
катор описуваних даних. Дані (та метадані)
реєструються чи індексуються в доступно-
му для пошуку ресурсі.
Для оптимізації доступу до даних
потрібно керуватися наступними засада-
ми: дані (метадані) можуть бути отримані
за їхнім ідентифікатором за стандартизо-
ваними протоколами зв’язку; протокол до-
29
Моделі та засоби систем баз даних і знань
ступу до даних – відкритий і передбачає
використання уніфікованого протоколу
доступу — за необхідності для доступу до
даних використовується процедура аутен-
тификації й авторизації, а метадані можуть
бути доступні навіть за відсутності досту-
пу до самих даних.
Має бути забезпечена сумісність да-
них не тільки з іншими даними, а й із засто-
сунками та інструментами для їх аналізу,
збереження й обробки: дані (метадані) ви-
користовують формальну, доступну і поши-
рену мову опису даних; дані (метадані) ви-
користовують словники, що реалізовані від-
повідно до керівних принципів FAIR; дані
(метадані) містять у собі повні посилання
на інші дані (метадані).
Кінцева мета FAIR — оптиміза-
ція повторного використання даних та їх
об’єднання в різних задачах: дані (метада-
ні) докладно описують із застосуванням на-
бору однозначних і релевантних атрибутів;
дані (метадані) супроводжуються чіткою і
доступною ліцензією на їхнє використання;
дані (метадані) мають детальну історію їх-
нього походження; дані (метадані) подають-
ся у відповідності зі стандартами тематич-
ного наукового співтовариства.
Представлені елементи даних і мета-
даних взаємопов’язані, але водночас неза-
лежні й відокремлені. Кожен з них визначає
сукупність метрик (характеристик) – вимог,
які передаються ресурсам, інструментам,
словникам обробки даних для забезпечення
їх повторного використання третіми сторо-
нами, у тому числі коли вони не мають пря-
мого відношення до науки. Водночас існує
можливість керування рівнем входження в
озера даних FAIR тих чи інших користува-
чів за рахунок градації у процесі визначення
характеристик наданих ресурсів. Варіюючи
і комбінуючи метрики опису об’єктів, мож-
на досягти високого ступеня адаптивності
представлення даних і метаданих в інфор-
маційній системі. .
Керівні принципи FAIR не потребу-
ють будь - якої стандартизації чи конкрет-
ної технології підтримки. Принципи висту-
пають як керівництво для створення даних
для озер даних з урахуванням функціональ-
ності їх пошуку, доступності, сумісності і
повторного використання.
Наведені принципи стосуються трьох
типів сутностей: дані (або будь-який цифро-
вий об’єкт), метадані (інформація про цей
цифровий об’єкт) та інфраструктура. На-
приклад, принцип F4 визначає, що і мета-
дані, і дані реєструються або індексуються
в ресурсі з можливістю пошуку (компонент
інфраструктури).
У цілому FAIR подібний до open data,
але існує ключова відмінність. Відкриті
дані доступні кожному без будь-яких ліцен-
зійних обмежень, угод, авторських прав чи
патентів, тоді як FAIR допускає можливість
доступу до даних (метаданих) у певний час
і за певних умов. Інакше кажучи, FAIR-дані
можуть бути як відкритими, так і частками,
якщо вони доступні лише визначеній групі
користувачів. Такий підхід є більш гнучким
і дозволяє характеризувати дані на кожному
етапі їхнього життєвого циклу.
Наприклад, у процесі фізичного екс-
перименту дані доступні тільки групі екс-
периментаторів, потім — науковому спів-
товариству з метою їхньої інтерпретації, а
після обробки переходять у загальний до-
ступ (open data) як результат експерименту.
На практиці наукові дані неодноразово пе-
реходять через такі стадії «відкритості». У
переважній більшості випадків персональні
і комерційні дані не можуть бути загально-
доступними, це суперечить ідеям open data,
але допустимо в FAIR.
Зараз багато європейських дослід-
ницьких інфраструктур (DTU Library,
International Neuroinformatics Coordinating
Facility, TU Dublin, Biobanking and
Biomolecular Resources Research
Infrastructure of Czech Republic, Radboud
University тощо) використовують концеп-
цію FAIR для надання доступу до своїх
наукових даних. Створено і розвивають-
ся методичні рекомендації та інструкції з
представлення даних відповідно до FAIR.
У рамках програми «Горизонт-2020»
ініційовано проєкт PaNOSC, що поєднує
шість великих європейських дослідниць-
ких інфраструктур (ESRF, European XFEL,
CERIC-ERIC, ELI Delivery Consortium, ESS,
ILL) для розвитку Європейської хмари від-
критої науки (European Open Science Cloud)
— універсального міждисциплінарного
репозиторію наукових даних із відкритим
30
Моделі та засоби систем баз даних і знань
доступом для дослідників у всіх галузях.
У рамках PaNOSC дослідникам з таких га-
лузей, як хімія, біологія, матеріалознавство
тощо надаються сервіси й інструменти для
збереження, пошуку й аналізу даних, отри-
маних на нейтронній і фотонній дослід-
ницьких інфраструктурах.
За рахунок використання постійних
унікальних ідентифікаторів реалізується
можливість передачі метаданих між сер-
вісами. Це дозволяє збільшити на порядок
можливість повторного використання ре-
зультатів наукового дослідження в масшта-
бах прямо не зв’язаних тематичних галузей
наукових досліджень. У перспективі мова
йтиме про забезпечення для усього світово-
го наукового співтовариства, незалежно від
тематики досліджень, доступу через EOSC
до експериментальних даних від європей-
ських дослідницьких інфраструктур.
На поточному етапі досліджень мова
йде не стільки про об’єкт цифрової наукової
інфраструктури (база даних, озеро даних),
скільки про послугу керування великими
даними: реалізується механізм керування
множиною даних, доступним різним типам
користувачів — науковим співтовариствам,
державним структурам тощо.
Парадигма Відкритої Науки
Парадигма Відкритої Науки є спро-
бою світової наукової спільноти розв’язати
проблему наукової невідтворюваності
(scientifi c irreproducibility) [8, 9]. «Наукова
невідтворюваність – неспроможність по-
вторити чужі експерименти та дійти того ж
висновку – [10]. Для цього запропоновано
базові принципи, на яких повинні ґрунтува-
тися наукові дослідження:
- Відкритий доступ. Тобто резуль-
тати досліджень, наукові публікації, які по-
ширюються онлайн і без затрат або інших
перешкод, повинні мати вільний доступ.
- Відкрита наука. Дослідники ді-
ляться своїми методами, програмним кодом
та даними досліджень через централізовані
спеціалізовані репозиторії.
- Відкриті дані. Дані повинні бути
вільно доступні кожному для використання,
повторного аналізу і публікації на свій роз-
суд, без обмежень з боку авторського права,
патентів або інших механізмів контролю.
Виходячи з цих принципів, дослід-
ники мають не тільки публікувати свої дані
в Web, а й надавати до них доступ у тако-
му вигляді (і форматі), щоб забезпечити їх
сумісність із поширеними стандартами, а
також можливість їх повторного викорис-
тання. Проблема ускладнюється тим, що
йдеться про дані великого обсягу, які швид-
ко змінюються та слабо структуровані, тоб-
то їх подання та збереження базується на
технологіях Big Data.
Впровадження FAIR
Із початку 2018 року спільнота GO
FAIR працює над впровадженням Керівних
принципів FAIR. Результатом цих спіль-
них зусиль є структура з трьох пунктів, яка
формулює основні кроки до кінцевої мети –
глобального Інтернету даних і послуг FAIR,
де дані є знаходжуваними, доступними, ін-
тероперабельними та повторно використо-
вуваними (FAIR) для машин.
На сайті https://www.go-fair.org/fair-
principles/ надано докладне роз’яснення
принципів і практичне керівництво щодо
того, як розробляти та використовувати
FAIR дані, де їх шукати [11].
Структура FAIRifi cation дає практич-
ні вказівки «як це зробити» для зацікавле-
них сторін, які прагнуть бути FAIR.
Крім того, дотримуючись цієї струк-
тури, зацікавлені сторони можуть бути впев-
нені, що їхні зусилля щодо FAIRifi cation
будуть оптимально скоординовані із зусил-
лями інших зацікавлених сторін у спільноті
GO FAIR. Структура з трьох пунктів макси-
мізує повторне використання існуючих ре-
сурсів, максимізує взаємодію та прискорює
зближення стандартів і технологій, що під-
тримують дані та послуги FAIR.
Як правило, процес FAIRifi cation по-
чинається, коли спільнота практиків роз-
глядає свої вимоги до метаданих, що сто-
суються домену ПрО, та інші міркування
політики, і формулює ці міркування як ком-
поненти метаданих, що використовуються
машиною. Для складання цих міркувань
можна керуватися розділом Метаданих для
машин (M4M) Workshops.
Схеми метаданих для повторного вико-
ристання, створені в M4M, складають частину
більшого профілю впровадження FAIR (FIP).
31
Моделі та засоби систем баз даних і знань
Профіль впровадження FAIR, у свою
чергу, керує вибором і конфігурацією інф-
раструктури FAIR. Наприклад, використан-
ня точок даних FAIR (FDP) або FAIR Digital
Objects (FDO), які сприяють створенню гло-
бального Інтернету даних і послуг FAIR.
Розроблений підхід допомагає широ-
кому колу зацікавлених сторін побачити, що
для них означає «справедливий процес» на
практиці, і ввійти в новий ландшафт FAIR.
Це не тільки зберігає пріоритет практичних
елементів FAIRifi cation, а й дозволяє розпо-
ділити підхід до координації громади, який
необхідний для швидкого масштабування
та конвергенції.
З квітня 2020 року функціонують ро-
бочі групи, які розробляють методи, інстру-
менти та документацію навколо платформи
процесу FAIRifi cation:
• Робоча група Metadata 4 Machines
• Робоча група FAIR Implementation
Profi le
• Робоча група FAIR Data Point
У зв’язку з викликами, пов’язаними
з пандемією COVID-19, 3-кроковий
FAIRifi cation Framework активно розробля-
ється в кількох проєктах. Безпосередньою
метою цих трьох робочих груп є створення
посібника, який об’єднає методи та ресурси
для проведення семінарів M4M, для ство-
рення профілів впровадження FAIR та для
встановлення точок даних FAIR.
Проаналізувавши розробки, що
пов’язані зі створенням та використанням
FAIR для наукових Big Data, можна відміти-
ти доцільність застосування онтологій ПрО,
що відповідають окремим галузям наук або
є основою для інтеграції інформації з різ-
них галузей та з різних країн. Такі онтології
можуть бути використані як джерело знань
для метаданих таких Big Data. Але це ви-
кликає потребу в автоматизованій побудові
відповідних онтології – за пертинентними
інформаційними ресурсами різного ступеня
структурованості та з використанням уже
існуючих онтологічних структур.
Створення джерела даних FAIR
на базі Semantic MediaWiki.
Семантизовані Wiki-ресурси, такі
як Semantic MediaWiki, які дозволяють
створювати семантичні дані та базуються
на використанні стандартів Semantic Web,
надають потужне рішення для спільного
редагування даних та їхніх метаописів,
створення різних довільних наборів влас-
тивостей у шаблонах цих метаописів, з
одночасним поданням їх як в машинно-об-
роблюваній формі, так і формі, придатній
для розуміння людиною, що в результаті
дає можливість оперувати цими даними,
автоматизовано керувати, проводити ана-
ліз, публікувати.
Однак Semantic MediaWiki не міс-
тить адекватних і ефективних вбудованих
функцій імпорту та експорту між інтер-
операбельними форматами Semantic Web
(таких, як RDF або OWL) і внутрішнім
Wiki-форматом. Для вирішення цієї зада-
чі розробляються проєкти, як наприклад,
RDFIO (pharmb.io/project/rdfi o.) – набір
інструментів для імпорту RDF-даних в га-
лузі біомедичних досліджень в Semantic
MediaWiki з метаданими, які необхідні
для експорту цих даних у формат RDF або
OWL [12] .
Семантизація програмних засобів,
що використовують онтології для керуван-
ня метаданими наукових даних, є перспек-
тивним напрямком, який дозволить неза-
лежно від галузі наукових досліджень, при-
йнятих у цій галузі стандартів, типів даних,
розробити інформаційний ресурс (ІР), який
спільно створюється і спільно використову-
ється відповідно до усіх принципів FAIR.
Використання для цього семантич-
ного розширення Wiki-технології [13, 14]
Semantic MediaWiki [15], що історично себе
показало досить потужним інструментом,
має широке використання, відкритий код
та відкриті принципи розробки і підтрим-
ки, постійно розвивається, – є найбільш ви-
правданим вибором.
Вбудовані можливості Semantic
MediaWiki з завантаження файлів різного
формату і додавання до них метаданих з
різним набором атрибутів, які можливо змі-
нювати, доповнювати, та які мають можли-
вість обробки програмно, водночас зрозумі-
лі звичайній людині. Простий і доступний
інтерфейс, проста мова розмітки, інтуїтив-
ний інтерфейс, можливість спільної робо-
ти, відкрите розміщення в Web, роблять
MediaWiki найкращим рішенням.
32
Моделі та засоби систем баз даних і знань
Розглянемо відповідність ІР, що ство-
рений у середовищі Semantic MediaWiki,
основним вимогам FAIR.
Findable
Першим кроком для використання
даних є їх пошук.
Semantic MediaWiki надає можливос-
ті семантичного пошуку – на основі семан-
тичних властивостей та категорій окремих
Wiki-сторінок, які можуть розглядатися як
гнучкий набір метаданих. Забезпечується
можливість машинної обробки таких мета-
даних. .
F1. Таким (Мета)даним в Semantic
MediaWiki надається глобальний унікаль-
ний і постійний ідентифікатор – кожній се-
мантичній властивості або категорії в ІР від-
повідає окрема Wiki-сторінка з унікальним
ідентифікатором, яка описує характеристики
та сферу застосування відповідного фраг-
менту метаданих. Крім того, забезпечується
можливість перегляду того, де саме (на яких
сторінках) використовується цей фрагмент
метаданих та яких значень він набуває.
Рис.1. Пошук метаданих в середовищі
Semantic MediaWiki
Певні набори метаданих, які ха-
рактеризують типові для ІР інформаційні
об’єкти, можна об’єднувати за допомогою
стандартного механізму «Форми» та «Ша-
блони» MediaWiki.
F2. Механізми MediaWiki мають
можливість додавати докладні метадані до
даних, які завантажуються до стандартного
сховища MediaWiki, або вказувати гіперпо-
силання на зовнішнє сховище. Для цього
також використовуються семантичні влас-
тивості та категорії.
F3. Метадані чітко і експліцит-
но містять ідентифікатор даних, які вони
описують. Ідентифікатор даних в Semantic
MediaWiki подається окремим значенням
властивості, що додається до набору влас-
тивостей метаданих (рис.2).
ù ùùùùù
= ùùùùù
= ùùùùù
= ùùùùùùùùù ùù ùù
= ùùùùù ùùùùù ùù ùùù
ùùù ùùùùù
= ùùùù
= ùùùùùù ùùù
ùùùùùù ùùù
ùùùù ùùù ùùù ùùù
ùù ùùù
ùùùùùù ù
= ùùùùùùù ù
ùùù ùùùùùùù ùùù
= ùùùù
ùùùùùù
ùùùùùùùù ù
= ùùùùù ù
ùùùù ù ùùù ùùù
ù
Рис.2. Приклад присвоювання значень
семантичних властивостей на основі
шаблонов у середовищі Semantic
MediaWiki.
F4. Метадані реєструються або індек-
суються в пошуковому ресурсі. Оскільки
Semantic MediaWiki є Web-застосуванням,
вона містить файл налаштувань, де є можли-
вість вказати тип відкритості – відкрита чи
закрита система. Цей тип вказується лише
раз у момент першого запуску й записуєть-
ся в файл налаштування LocalSettings.php.
Для відповідності цьому принципу, треба
встановити у цьому файлі певні права:
# Enable/disable reading by anonymous
users
$wgGroupPermissions[‘*’][‘read’] =
true;
# Enable/disable anonymous editing
$wgGroupPermissions[‘*’][‘edit’] =
true;
# Allow new user registrations
$ w g G r o u p P e r m i s s i o n s [ ‘ * ’ ]
[‘createaccount’] = true;
Для ефективного знаходження да-
них такі дані і додаткові матеріали до них
повинні мати достатньо повні метадані,
а також метаопис і унікальний постійний
ідентифікатор. Дані, розміщені на сторін-
ках Semantic MediaWiki з вказаними нала-
33
Моделі та засоби систем баз даних і знань
штуваннями, подаються до Web відкрито і
добре індексуються глобальними пошуко-
вими системами, такими як Google та Bing.
Accessible
Коли користувач знайде необхідні
дані, він повинен знати, як до них можна
отримати доступ. Можливо, включаючи ау-
тентифікацію та авторизацію. Таку інфор-
мацію в Semantic MediaWiki можна допо-
внювати окремими атрибутами на сторін-
ках із метаописами.
A1. (Мета)дані можна отримати за
їхнім ідентифікатором за допомогою стан-
дартизованого протоколу зв’язку. Зазвичай
Web-системи розміщуються на серверах
і мають стандартний http або захищений
https протокол доступу.
A1.1 Протоколи http та https є від-
критими, безкоштовними і універсальними.
Вони є базовими протоколами Інтернет і
Web.
A1.2 Протокол https за необхідності
припускає процедуру аутентифікації та ав-
торизації.
A2. Метадані доступні, навіть якщо
дані більше не доступні. Оскільки мета-
дані розміщуються окремо на сторінках
MediaWiki (фізично – в БД MediaWiki), цей
принцип виконується.
Отже, метадані (з метаописами) і
самі дані в Semantic MediaWiki (з відповід-
ними налаштуваннями серверів та інфра-
структури, заданими наборами метаданих із
властивостями унікальних ідентифікаторів)
зрозумілі як для людини, так і для програм-
ної обробки й зберігаються в надійному ре-
позиторії, тобто відповідають зазначеним
вище вимогам.
Interoperable
Дані, що представлені за допомогою
Semantic MediaWiki, можуть бути інтегро-
вані з іншими даними. Крім того, дані мо-
жуть взаємодіяти з іншими застосуваннями
або робочими процесами для аналізу, збері-
гання та обробки.
I1. (Мета)дані в Semantic MediaWiki
використовує базові стандарти Semantic
Web, експорт даних в XML, RDF, а за мож-
ливості встановлення інших додаткових
плагінів, то і в OWL або інші спеціалізовані
стандарти. PDF, CSV, LaTeX, тощо. Експорт
результатів семантичного пошуку в фор-
мат RDF входить до функціоналу Semantic
MediaWiki.
I2. MediaWiki є відкритою системою,
тобто за умови відкритого типу встановлен-
ня (як вказано в п.F4 і A1), система публіка-
ції даних і метаданих, базована на Semantic
MediaWiki, може використовувати, інте-
грувати, імпортувати (стандартна функція
імпорту або додатковий спеціальний пла-
гін) будь-які словники, онтології, які подані
стандартною мовою Semantic Web, що від-
повідає принципам FAIR.
I3. (Мета)дані в Semantic MediaWiki
включають посилання на інші метадані.
Стандартний функціонал MediaWiki дозво-
ляє додавати необмежену кількість поси-
лань на інші джерела, а можливість додава-
ти різні додаткові властивості дозволяє роз-
ширювати набори властивостей до даних в
залежності від задачі.
Отож, задача інтероперабельності
(сумісності) в Semantic MediaWiki вирі-
шується простою публікацією додаткових
властивостей, які для людини показуються
простими описами, а для програмного запи-
ту надаються в одному із загальновживаних
форматів XML, JSON, RDF.
Reusable
Повторне використання даних у
Semantic MediaWiki забезпечується ме-
ханізмами семантичних властивостей та
категорій Semantic MediaWiki, які підтри-
мують гнучке внесення змін до структури
метаданих ресурсу та автоматизацію дея-
ких елементів цього процесу. Такі власти-
вості однозначно описані на окремих Wiki-
сторінках, тому їх можна відтворювати та
комбінувати в різних налаштуваннях.
R1. Можливість Semantic MediaWiki
додавати необмежену кількість атрибутів
та категорій кожній сторінці забезпечує ви-
могу FAIR щодо того, що метадані повинні
бути детально описані множиною точних і
відповідних атрибутів.
R1.1. Механізми MediaWiki розро-
блялась для використання у відкритому
середовищі з різними правами власності,
тому вона містить певні механізми додаван-
ня інформування про різні типи ліцензій до
різних об’єктів.
R1.2. Походження даних та метада-
них досягається в Semantic MediaWiki шля-
34
Моделі та засоби систем баз даних і знань
хом додавання додаткового метаопису про
джерело та умови походження даних.
R1.3. (Мета)дані в Semantic MediaWiki
відповідають стандартам спільноти, які сто-
суються домену ПрО, що може бути форма-
лізована за допомогою онтології цієї ПрО,
яка використовується як основа для семан-
тичної розмітки Wiki-сторінок і визначає на-
бори даних, їхні імена та можливі значення.
Висновки
Наведений вище аналіз парадигми
менеджменту наукових даних FAIR та по-
рівняння основних вимог FAIR до подання
даних та метаданих з виразними власти-
востями середовища Semantic MediaWiki
свідчить про те, що інформаційні ресурси,
які створюються в цьому середовищі, від-
повідають сучасним вимогам до відкритих
даних великого обсягу. Це уможливлює ви-
користання таких Wiki-ресурсів як основи
для побудови та семантичного аналізу мета-
даних у релевантних предметних областях.
Одним із можливих напрямків застосуван-
ня цього підходу є використання структури
метаданих Wiki-ресурсу для аналізу мета-
даних Big Data.
Даний підхід апробовано в проце-
сі створення бази знань портальної версії
Великої української енциклопедії (vue.gov.
ua) [16], яка є джерелом інтероперабельних
знань, що придатні для повторного вико-
ристання в інших інтелектуальних застосу-
ваннях.
Література
1. Hurwitz, J., Nugent, A., Halper, F., Kaufman,
M., 2013,. Big Data. New York.
2. Rogushina J., Gladun A., Pryima S. Use of
Ontologies for Metadata Records Analysis
in Big Data. Selected Papers of the XVIII
International Scientifi c and Practical
Conference “Information Technologies and
Security” (ITS 2018). CEUR Vol-2318. http://
ceur-ws.org/Vol-2318/paper5.pdf.
3. Балякин А., Малышев А. Управление
большими данными в исследовательских
инфраструктурах // Открытые системы.
СУБД, 2020, № 03. – https://www.osp.ru/
os/2020/03/13055606.
4. FAIR_data. https://en.wikipedia.org/wiki/
FAIR_data.
5. Gomez-Diaz, T., Recio, T. (2021). Open
comments on the Task Force SIRS report:
Scholarly Infrastructures for Research Software
(EOSC Executive Board, EOSCArchitecture).
6. The FAIR Guiding Principles for scientifi c data
management and stewardship. Available from:
https://www.nature.com/articles/sdata201618.
7. The FAIR data principles. Available from:
: https://www.force11.org/group/fairgroup/
fairprinciples (дата обращения: 29.08.2020).
8. The Irreproducibility Crisis of Modern Science
– CUSES, Consequences and the Road to
Reform, National Association of Scholars,
2018, Available from: https://www.nas.org/
reports/the-irreproducibility-crisis-of-modern-
science.
9. Challenges in irreproducible research, Nature,
18-10-2018, Available from: https://www.
nature.com/collections/prbfkwmwvz/.
10. Baker, 1,500 scientists lift the lid on
reproducibility. Nature, 533(7604): 452-454.
(2016) doi:10.1038/533452a, Available from:
https://www.nature.com/articles/533452a.
11. Three-point FAIRifi cation Framework.
Available from: https://www.go-fair.org/how-
to-go-fair/.
12. Lampa, S., Willighagen, E., Kohonen, P., King,
A., Vrandečić, D., Grafström, R., Spjuth, O.
2017. RDFIO: extending Semantic MediaWiki
for interoperable biomedical data management.
Journal of biomedical semantics, 8(1), 2017,
P.1-13.
13. Manual:What is MediaWiki?. Available
from: https://www.mediawiki.org/wiki/
Manual:What_is_MediaWiki%3F.
14. MediaWiki. Available from: https://www.
mediawiki.org/wiki/MediaWiki.
15. Krötzsch M., Vrandečić D., Völkel M.
Semantic mediawiki. International semantic
web conference, 2006, pp. 935-942. Available
from: https://link.springer.com/content/
pdf/10.1007/11926078_68.pdf.
16. Rogushina J.V., Grishanova I.J. Ontological
methods and tools for semantic extension
of the media WIKI. Проблеми програму-
вання, № 2-3, 2020. С.-61-73. Available
from: http://pp.isofts.kiev.ua/ojs1/article/
download/398/437
References
1. Hurwitz, J., Nugent, A., Halper, F., Kaufman,
M. (2013). Big Data. New York.
35
Моделі та засоби систем баз даних і знань
2. Rogushina J., Gladun A., Pryima S. Use of
Ontologies for Metadata Records Analysis in Big
Data. Selected Papers of the XVIII International
Scientifi c and Practical Conference “Information
Technologies and Security” (ITS 2018). CEUR
Vol-2318. Available from: http://ceur-ws.org/Vol-
2318/paper5.pdf [Accessed 18/11/2021]
3. Baliakin A., Malyshev A. (2020) Management
of Big Data in research infrastructures. Open
systems, 03. Available from: https://www.osp.
ru/os/2020/03/13055606 [Accessed 18/11/2021]
4. FAIR_data. Available from: https://en.wikipedia.
org/wiki/FAIR_data [Accessed 18/11/2021]
5. Gomez-Diaz, T., Recio, T. (2021). Open
comments on the Task Force SIRS report:
Scholarly Infrastructures for Research Software
(EOSC Executive Board, EOSCArchitecture).
arXiv preprint arXiv:2108.06127.
6. The FAIR Guiding Principles for scientifi c data
management and stewardship. Available from:
https://www.nature.com/articles/sdata201618
[Accessed 18/11/2021]
7. The FAIR data principles. Available from:
https://www.force11.org/group/fairgroup/
fairprinciples [Accessed 18/11/2021]
8. The Irreproducibility Crisis of Modern Science
– CUSES, Consequences and the Road to
Reform, National Association of Scholars,
(2018), Available from: https://www.nas.org/
reports/the-irreproducibility-crisis-of-modern-
science [Accessed 18/11/2021]
9. Challenges in irreproducible research,
Nature, 18-10-2018, Available from: https://
www.nature.com/collections/prbfkwmwvz/
[Accessed 18/11/2021]
10. Baker, 1,500 scientists lift the lid on
reproducibility. Nature, 533(7604): 452-454.
(2016) doi:10.1038/533452a, Available from:
https://www.nature.com/articles/533452a.
11. Three-point FAIRifi cation Framework https://
www.go-fair.org/how-to-go-fair/ [Accessed
18/11/2021]
12. Lampa, S., Willighagen, E., Kohonen, P.,
King, A., Vrandečić, D., Grafström, R., &
Spjuth, O. (2017). RDFIO: extending Semantic
MediaWiki for interoperable biomedical data
management. Journal of biomedical semantics,
8(1), 1-13 [Accessed 18/11/2021]
13. Manual:What is MediaWiki? Available from:
https://www.mediawiki.org/wiki/Manual:What_
is_MediaWiki%3F [Accessed 18/11/2021]
14. MediaWiki. Available from: https://www.
mediawiki.org/wiki/MediaWiki.
15. Krötzsch M., Vrandečić D., Völkel M. (2006)
Semantic mediawiki. International semantic web
conference, pp. 935-942. Available from: https://link.
springer.com/content/pdf/10.1007/11926078_68.
pdf [Accessed 18/11/2021]
16. Rogushina J.V., Grishanova I.J. (2020)
Ontological methods and tools for semantic
extension of the media WIKI. Problems
in Programming, 2-3, P.-61-73. Available
from: http://pp.isofts.kiev.ua/ojs1/article/
download/398/437 [Accessed 18/11/2021].
Отримано: 20.11.2021
Об авторах:
Рогушина Юлія Віталіївна,
Канд.фіз.-мат.наук, старший науковий спів-
робітник Інституту програмних систем
НАН України, публікації в українських ви-
даннях – 170, публікації в іноземних журна-
лах – 35, індекс Хірша (Scopus) – 5, ORCID
http://orcid.org/0000-0001-7958-2557.
e-mail: ladamndraka2010@gmail.com
Гришанова Ірина Юріївна,
науковий співробітник Інституту програмних
систем НАН України, публікації в україн-
ських виданнях – 19, публікації в іноземних
журналах – 3, індекс Хірша (Scopus) – 1,
ORCID http://orcid.org/0000-0003-4999-6294.
Місце роботи авторів:
Інститут програмних систем
НАН України, 03181, Київ-187,
проспект Академіка Глушкова, 40,
e-mail: ladamandraka2010@gmail.com,
i26031966@gmail.com
066 550 1999.
|