Fuzzy data in semantic Wiki-resources: models, sources and processing methods
We analyze main types of dirty data processed by intelligente information systems, criteria of data classification and means of detection non-classical properties of data. Results of this analysis are represented by ontological model that contains taxonomy of classical and nonclassical data and know...
Збережено в:
Дата: | 2023 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2023
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/569 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-569 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/1b/b74e929b98caed21fb91e0593841821b.pdf |
spelling |
pp_isofts_kiev_ua-article-5692024-04-26T21:28:48Z Fuzzy data in semantic Wiki-resources: models, sources and processing methods Нечіткі дані у семантичних wiki-ресурсах: моделі, джерела та методи обробки Rogushina, J.V. ontology; semantically incorrect data; dirty data; Wiki resource UDC 681.3 онтологія; семантично некоректні дані; брудні дані; Wiki-ресурс УДК 681.3 We analyze main types of dirty data processed by intelligente information systems, criteria of data classification and means of detection non-classical properties of data. Results of this analysis are represented by ontological model that contains taxonomy of classical and nonclassical data and knowledge-oriented methods of their transformation. Special attention is paid to semantically incorrect data that corresponds to vague knowledge. This ontological model intended to provide more effectively methods for transforming raw data into smart data suitable for automatic analysis, knowledge acquisition and reuse in other information systems. The ontological approach provides integration of the proposed model with other external ontologies that formalize characteristics of various methods and software tools that can be used fo data analysis (data mining, inductive inference, semantic queries, and instrimental tools for testing various aspects of the ontology quality, etc.).The work uses the experience of knowledge base developing of the portal version of the Great Ukrainian Encyclopedia e-VUE. This information resource is based on the semantic Wiki technology, it has a large volume, a complex structure and contains a large number of various heterogeneous information objects. Wiki resources are interesting from the point of view of collaborative processing the fuzzy datathat describe heterogeneous information objects and knowledge structures. Due to the fact that the creation of this information resource involves a large number of specialists of various scientific fields, who have different areas of expertise and qualifications in use of knowledge-oriented technologies, there are many differences in the understanding of the rules for presenting and structuring data, and therefore a significant part of the Encyclopedia content needs additional verification of its correctness. Therefore, we need in formalized and scalable solutions for detection and processing various types of inconsistence, incompleteness and semantic incorrectness of data. The proposed approach can be useful for the creation of other large-scale resources based on both the semantic Wiki technology and other technological platforms for collaborative processing of distributed data and knowledge.Prombles in programming 2023; 2: 67-83 Запропонована у роботі онтологічна модель призначена для класифікації різних типів некласичних та семантично некоректних даних, щоб уможливити ефективніше знаходження методів виявлення таких даних та засобів їх обробки. Така обробка, що може розглядатися як одна зі складових Smart data, має зробити дані придатними для автоматичного аналізу та повторного використання в інших інформаційних системах. Онтологічний підхід забезпечує інтеграцію запропонованої моделі з іншими зовнішніми онтологіями, що описують різноманітні методи та програмні засоби аналізу даних. У роботі використано досвід розробки бази знань портальної версії Великої української енциклопедії е-ВУЕ, яка має великий обсяг, складну структуру та містить велику кількість різноманітних гетеро- генних інформаційних об’єктів. Участь великої кількості спеціалістів різних наукових напрямків у створенні цього ресурсу викликає розбіжності у розумінні правил подання та структурування даних, і тому виникає необхідність додаткової веріфікації контенту. Для цього потрібні формалізовані та масштабовані рішення для знаходження та опрацювання різноманітних типів нечіткості, неповноти та семантичної некоректності контенту. Запропонований підхід може бути корисним для створення інших великомасштабних ресурсів як на основі семантичних Wiki, так і інших технологічних платформ колаборативної обробки розподілених даних та знань.Prombles in programming 2023; 2: 67-83 Інститут програмних систем НАН України 2023-08-04 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/569 10.15407/pp2023.02.067 PROBLEMS IN PROGRAMMING; No 2 (2023); 67-83 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2023); 67-83 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2023); 67-83 1727-4907 10.15407/pp2023.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/569/620 Copyright (c) 2023 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-26T21:28:48Z |
collection |
OJS |
language |
Ukrainian |
topic |
ontology semantically incorrect data dirty data Wiki resource UDC 681.3 |
spellingShingle |
ontology semantically incorrect data dirty data Wiki resource UDC 681.3 Rogushina, J.V. Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
topic_facet |
ontology semantically incorrect data dirty data Wiki resource UDC 681.3 онтологія семантично некоректні дані брудні дані Wiki-ресурс УДК 681.3 |
format |
Article |
author |
Rogushina, J.V. |
author_facet |
Rogushina, J.V. |
author_sort |
Rogushina, J.V. |
title |
Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
title_short |
Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
title_full |
Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
title_fullStr |
Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
title_full_unstemmed |
Fuzzy data in semantic Wiki-resources: models, sources and processing methods |
title_sort |
fuzzy data in semantic wiki-resources: models, sources and processing methods |
title_alt |
Нечіткі дані у семантичних wiki-ресурсах: моделі, джерела та методи обробки |
description |
We analyze main types of dirty data processed by intelligente information systems, criteria of data classification and means of detection non-classical properties of data. Results of this analysis are represented by ontological model that contains taxonomy of classical and nonclassical data and knowledge-oriented methods of their transformation. Special attention is paid to semantically incorrect data that corresponds to vague knowledge. This ontological model intended to provide more effectively methods for transforming raw data into smart data suitable for automatic analysis, knowledge acquisition and reuse in other information systems. The ontological approach provides integration of the proposed model with other external ontologies that formalize characteristics of various methods and software tools that can be used fo data analysis (data mining, inductive inference, semantic queries, and instrimental tools for testing various aspects of the ontology quality, etc.).The work uses the experience of knowledge base developing of the portal version of the Great Ukrainian Encyclopedia e-VUE. This information resource is based on the semantic Wiki technology, it has a large volume, a complex structure and contains a large number of various heterogeneous information objects. Wiki resources are interesting from the point of view of collaborative processing the fuzzy datathat describe heterogeneous information objects and knowledge structures. Due to the fact that the creation of this information resource involves a large number of specialists of various scientific fields, who have different areas of expertise and qualifications in use of knowledge-oriented technologies, there are many differences in the understanding of the rules for presenting and structuring data, and therefore a significant part of the Encyclopedia content needs additional verification of its correctness. Therefore, we need in formalized and scalable solutions for detection and processing various types of inconsistence, incompleteness and semantic incorrectness of data. The proposed approach can be useful for the creation of other large-scale resources based on both the semantic Wiki technology and other technological platforms for collaborative processing of distributed data and knowledge.Prombles in programming 2023; 2: 67-83 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2023 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/569 |
work_keys_str_mv |
AT rogushinajv fuzzydatainsemanticwikiresourcesmodelssourcesandprocessingmethods AT rogushinajv nečítkídaníusemantičnihwikiresursahmodelídžerelatametodiobrobki |
first_indexed |
2024-09-16T04:08:46Z |
last_indexed |
2024-09-16T04:08:46Z |
_version_ |
1818568349101064192 |
fulltext |
67
Моделі і засоби систем баз даних та знань
Вступ
Щоб дані стали корисними, їх по-
трібно інтерпретувати та перетворювати
на знання. Вже зараз значна частка даних є
неструктурованою, містить помилки та су-
перечності, потребує додаткових уточнень
для їх коректного розуміння і таким чином
вимагає додаткової обробки перед тим, як
ці дані стають придатними для подальшо-
го аналізу та практичного використання.
Тому виникає потреба як у розробці мето-
дів такої попередньої обробки даних, так і
в класифікації тих проблем, які ці методи
мають розв’язати.
Попередня обробка дозволяє пере-
творювати “сирі” дані на “розумні”, які
більш придатні для автоматизованого здо-
буття корисних відомостей. Залежно від
того, які саме невизначеності потрібно
вирішувати, можуть застосовуватися різні
процедури попереднього обробки. Тому
доцільно класифікувати існуючі види не-
визначеності даних та розробити відповід-
ну таксономічну модель.
Крім того, на вибір методів обробки
впливає як тип самих “сирих” даних, так і
предметна область, до якої вони належать.
Для деяких типів невизначеності допус-
тимо використання автоматичних методів
перетворення, деякі потребують безпосе-
редньої участі людини. Існує велика кіль-
кість ситуацій, коли попередня обробка
даних може автоматизовано використо-
вувати зовнішні джерела знань. У таких
випадках участь людини-експерта може
обмежуватися вибором таких джерел або
формулюванням умов для їх пошуку. Зна-
ння проблеми, для розв’язання якої мають
використовуватися дані, а також структури
інформаційних об’єктів дозволяють забез-
печити перетворення даних на семантич-
ному рівні. Наприклад, оцінюючи семан-
тичну близькість між різними концептами
предметної області.
Таке перетворення даних у широко-
му сенсі відповідає напрямку досліджень,
що отримав назву Smart data. Але методи
та задачі цих перетворень істотно залежать
як від предметної області (ПрО), для якої
здійснюється аналіз, так і від особливос-
тей власне “сирих” даних. Розпливчастий
характер і нечіткість притаманні багатьом
типам інформації, що переробляється лю-
диною та інформаційними системами. На
відміну від класичних даних (КД), яким
властиві повнота, точність, узгодженість
УДК 681.3 http://doi.org/10.15407/pp2023.02.067
Ю.В. Рогушина
НЕЧІТКІ ДАНІ У СЕМАНТИЧНИХ WIKI-РЕСУРСАХ:
МОДЕЛІ, ДЖЕРЕЛА ТА МЕТОДИ ОБРОБКИ
Запропонована у роботі онтологічна модель призначена для класифікації різних типів некласичних
та семантично некоректних даних, щоб уможливити ефективніше знаходження методів виявлення
таких даних та засобів їх обробки. Така обробка, що може розглядатися як одна зі складових Smart
data, має зробити дані придатними для автоматичного аналізу та повторного використання в інших
інформаційних системах. Онтологічний підхід забезпечує інтеграцію запропонованої моделі з інши-
ми зовнішніми онтологіями, що описують різноманітні методи та програмні засоби аналізу даних. У
роботі використано досвід розробки бази знань портальної версії Великої української енциклопедії
е-ВУЕ, яка має великий обсяг, складну структуру та містить велику кількість різноманітних гетеро-
генних інформаційних об’єктів. Участь великої кількості спеціалістів різних наукових напрямків у
створенні цього ресурсу викликає розбіжності у розумінні правил подання та структурування даних,
і тому виникає необхідність додаткової веріфікації контенту. Для цього потрібні формалізовані та
масштабовані рішення для знаходження та опрацювання різноманітних типів нечіткості, неповноти
та семантичної некоректності контенту. Запропонований підхід може бути корисним для створення
інших великомасштабних ресурсів як на основі семантичних Wiki, так і інших технологічних плат-
форм колаборативної обробки розподілених даних та знань.
Ключові слова: онтологія, семантично некоректні дані, брудні дані, Wiki-ресурс.
© Ю.В. Рогушина, 2023
ISSN 1727-4907. Проблеми програмування. 2023. №2
68
Моделі і засоби систем баз даних та знань
та визначеність, сирі дані не відповідають
цим вимогам і можуть бути нечіткими та
неповними. Крім того, певна підмножина
даних генерується внаслідок м’яких об-
числень, що моделюють неоднозначність
та непевність міркувань людини на основі
методів нечіткої логіки [1]. Такі обчислен-
ня дозволяють аналізувати дані, що міс-
тять різні види невизначеності, неповноти
та помилок.
Об’єднуючи дані з розрізнених дже-
рел, можна отримувати нову інформацію
за допомогою їх аналізу. Але якість нової
інформації залежить не лише від алгорит-
мів аналізу, а й від якості даних. Це можуть
бути як нечіткі твердження, так і нечіткі
продукційні правила. Джерела нечіткос-
ті інформації знаходяться всередині самої
взаємодії людини з навколишнім світом,
тобто обумовлені природою відображення
об’єктивної реальності. КД не дозволяють
відображати всю існуючу інформацію про
реальний світ, або маніпулювати знання-
ми, які можуть бути неточними, невизна-
ченими, розпливчастими тощо. Результати
аналізу таких даних можуть бути нена-
дійними та некоректними. Тому виникає
потреба у ширшій моделі даних, яка б до-
зволила використовувати брудні дані в ін-
формаційних системах. Дані вважаються
брудними, якщо користувач або програма,
що працюють коректно, не в змозі отрима-
ти результат їхньої обробки, або отримує
неправильний результат через певні про-
блеми з даними. Водночас потрібно аналі-
зувати два різні аспекти – з якої причини
дані стали брудними та що можна зроби-
ти, аби вони стали придатними для аналі-
зу. Наприклад, джерелами брудних даних
можуть бути помилки введення, або онов-
лення даних, помилки передачі даних, або
некоректно обрана форма подання даних.
У цій статті весь набір неточних,
розпливчастих, невизначених, непослідов-
них, неповних тощо даних, які не можуть
бути віднесені до КД, будемо називати
некласичними даними (НКД). Цей термін
близький до брудних даних, але охоплює
більший спектр причин, через які аналіз
даних не дає того результату, на який він
спрямований. Природа та походження та-
ких даних різняться, тому існує потреба
в різних технологіях для роботи з НКД.
У широкому сенсі причинами ви-
никнення брудних даних, отриманих із
різноманітних джерел даних, є відсутність
певної інформації, її неправильність (не-
відповідність реальному світу або іншим
даним) і нестандартні подання самих да-
них. У деяких випадках вони потребують
автоматизованого очищення, в інших до
них доцільно застосовувати різні моделі
м’яких обчислень. Іноді вони потребують
явної перевірки та виправлення, але у всіх
цих ситуаціях основою для отримання ко-
рисних результатів є визначення типу їх
відмінності від класичних даних.
Класифікація НКД допомагає оби-
рати методи роботи з брудними даними та
метрики для вимірювання якості даних.
Типи некласичних даних
Існує багато типів брудних даних,
які за різними властивостями відрізняють-
ся від КД та непридатні для обробки тра-
диційними методами. Такими властивос-
тями є неточність, неповнота, нечіткість
та неузгодженість даних, а також неодноз-
начність їх інтерпретації та вибору моделі
подання.
Розглянемо інформаційний об’єкт
(ІО) I: де O – об’єкт, що описується дани-
ми; A – атрибут, значенням якого є дані; a
– значення атрибута А; К – впевненість у
виборі атрибуту; k – впевненість у значен-
ні атрибута. Невизначеність даних щодо
ІО є характеристикою змісту інформації –
а та А , а їх ненадійність – характеристи-
кою істинності інформації к і К, щодо їх
відповідності дійсності. Інформація є не-
надійною, якщо в інформаційній одиниці
I впевненості к і К не можна представити
двома значеннями: 1 (істинно) і 0 (хибно).
Одна з форм ненадійності – неточність.
Вона належить до якості значень фактів.
Для обробки таких даних використову-
ють коефіцієнти впевненості, що кількісно
оцінюють ступінь впевненості в тому, що
атрибут має саме це значення, і це значен-
ня належить саме до цього атрибута. Оцін-
ки правдоподібності к і К істотно залежать
від суб’єктивно заданих для кожного пра-
вила умовних ймовірностей.
Неповні дані (Incomplete data) – це
69
Моделі і засоби систем баз даних та знань
дані, в яких відсутнє значення певного
атрибута. Така неповнота може бути ви-
кликана некоректним читанням або від-
сутністю доступу до інформації [2]. Для
обробки неповних даних важливим ас-
пектом аналізу є розуміння того, чи іс-
нує взагалі значення такого атрибута для
певного інформаційного об’єкта (навіть
невідоме на поточний момент), чи воно
взагалі не може бути отримане на поточ-
ний момент(наприклад, дата смерті для
ще живої людини). Одним із поширених
способів формалізації й обробки непо-
вних даних, який може бути застосований
до даних у відкритому інформаційному
середовищі, є запропонований Коддом
метод «Null Values» (A-marks) [3], відпо-
відно до якого дані є неповними, якщо
значення певної властивості для конкрет-
ного об’єкта на поточний момент невідо-
мо, хоча сама ця властивість притаманна
об’єкту і може бути довизначена пізніше.
Різноманітні логічні системи використо-
вують різні позначення, щоб ідентифі-
кувати тип неповноти даних. Таке неві-
доме значення позначають спеціальною
константою, і будь-яке входження такого
значення може бути замінене на конкрет-
не значення з множини припустимих. Для
роботи з невідомими значеннями потрібні
багатозначні логіки з епістемічними зна-
ченнями істинності, такі як тризначна ло-
гіки Лукашевича, n-значна логіки Поста.
Вони дозволили перейти від двох оцінок
істинності – “істинно” або “хибно” – до
довільної кількості тверджень (приміром,
“істинно”, “невідомо”, “недоступно” або
“хибно”) з відповідними таблицями іс-
тинності для всіх логічних операцій.
Неузгоджені дані (Inconsistent data)
– це дані, інтерпретація яких викликає се-
мантичний конфлікт: їх одночасна істин-
ність не є припустимою. Концепція неузго-
дженості радше стосується зберігання да-
них у різних моделях, аніж безпосередньо
даних та інтеграції (поєднання) інформації
з різних джерел. Наприклад, в одному дже-
релі даних рік народження особи Х – 1985,
а в іншому – 1988. Однією з причин не-
узгодженості може бути використання різ-
них одиниць виміру (наприклад, відстань
між А та В наводиться в кілометрах або у
милях) або різним порядком введення ін-
формації (наприклад, формат дати “11.05”
та “05.11”). В таких випадках перетворен-
ня та узгодження даних може бути автома-
тизоване після аналізу семантики джерела.
Значно складніше обробляти дані, в яких
використовуються ті самі (або схожі) назви
параметрів, але вони мають різний зміст.
Наприклад, в двох джерелах вказана кіль-
кість публікацій для особи Х, але в першо-
му джерелі враховуються всі публікації, а
в другому – тільки публікації англійською.
Ще одна причина неузгодженості – помил-
кове введення значення: наприклад, дата
народження “33.41.77” не може бути інтер-
претована в будь-яких форматах подання
дати). Крім того, розбіжності в значеннях
даних можуть бути зумовлені часом їх вве-
дення. Приміром, у різних джерелах кіль-
кість публікацій для особи Х може дорів-
нювати 55 та 78, але в першому випадку
відомості введені за 2015 рік, а в другому –
за 2020. У таких випадках інтеграція даних
повинна базуватися на виборі найновіших
даних. Але в цьому випадку теж потріб-
но враховувати семантику даних – зокре-
ма, значення певних даних можуть тільки
зменшуватися, а інших – тільки збільшу-
ватися.
Непевні дані (Uncertain data) – це
дані, для яких неможливо визначити точно
їх істинність (через недостатню інформо-
ваність, або через відсутність точного зна-
чення). Скажімо, експерт дає суб’єктивну
оцінку твердження, в якій він не впевне-
ний, але намагається оцінити ймовірність
того, що така інформація буде істинною
або хибною на деякому інтервалі значень
(зазвичай – [0, 1] і [0, 100], де перше та
останнє значення ідентифікують правдиву
та неправдиву інформацію відповідно) [4].
Ймовірність істинності може залежати від
кількості неузгоджених записів у базі да-
них, від рейтингу експертів, від статистич-
них прогнозів, від індивідуальної точності
інструментів вимірювання, від кількості
оброблених даних тощо. Крім того, непев-
ні дані можуть бути результатом обробки
інших непевних даних.
Неоднозначні дані (Ambiguous data)
– дані, які припускають кілька різних ва-
ріантів інтерпретації. Неоднозначність
70
Моделі і засоби систем баз даних та знань
даних може бути викликана: 1. використан-
ням абревіатур та скорочень, які можуть
розшифровуватися різними способами; 2.
неповним контекстом (наприклад, відсут-
ністю явного визначення одиниць виміру;
3. різним порядком елементів даних.
Нечіткі або розпливчасті дані
(Fuzzy or vague data) – дані, для яких не-
моживо чітко й точно визначити значення,
подані за допомогою лінгвістичних змін-
них, що досить суб’єктивно описують не-
чіткі множини об’єктів [5]. Для обробки
таких даних, можна застосувати спеціальні
математичні механізми (наприклад, нечіт-
ку логіку).
Невизначені дані (Imprecise data)
– це дані, в яких замість одного значен-
ня міститься певний набір або інтервал
можливих значень. Вони не є неправди-
вими або помилковими і не порушують
цілісність інформаційної системи, якщо їх
властивості викликані існуванням значен-
ня, яке неможливо виміряти з достатньою
точністю.
У класифікації НКД вадливо визна-
чити критерії, за якими здійснюється поділ
даних. Тому важливо не тільки визначити
основні типи даних та їхні підтипи, а й
розробити таксономію таких даних. Зазви-
чай таксономія брудних даних базується на
ієрархічній декомпозиції їх основних про-
явів – відсутності даних, їх неправильності
(у різних значеннях) та непридатності для
подальшого аналізу та використання. Така
таксономія включає лише атомарні типи
брудних даних і не розглядає їхні різно-
манітні комбінації. Верхні рівні запропо-
нованої у даній роботі таксономії даних не
можуть містити інших підкласів, тому що
вони враховують усі можливі альтернативи
(але не їхні комбінації). Якщо таксономія
використовується для більш конкретної
сфери, або стосується певної підмножини
даних, то деякі її підкласи можуть бути
видалені, а інші – розширені додатковими
підкласами нижчого рівня.
Такий підхід до класифікації та ана-
лізу НКД пропонується в [6], де розгляда-
ються брудні дані (dirty data), що проявля-
ються у різний спосіб, і внаслідок цього
такі НКД поділяються на неправильні дані,
неповні непридатні для аналізу. У цій ро-
боті розроблено комплексну таксономію
брудних даних, яка дозволяє зрозуміти,
звідки вони виникають, як виявляються і
як можуть бути очищені для забезпечен-
ня якіснішого аналізу даних. Ця класифі-
кація дуже детальна та багаторівнева, але,
на жаль, занадто складна для сприйняття
та практичного використання. Важливо,
що автори дослідження звертають увагу на
критерії класифікації на кожному рівні та
переконуються у відсутності інших гілок
таксономії.
Ця таксономія обмежується дея-
кими підтипами даних – розглядаються
тільки числові та текстові дати, не аналі-
зуються мультимедійні дані та метадані.
Але у більш узагальнених випадках аналі-
зу НКД потрібно враховувати й такі дані,
а також дані у більш специфічних форма-
тах (як-от, потокові дані від різноманітно-
го обладнання) та частково структуровану
інформацію (зокрема, метадані без повної
стандартизації). Наприклад, деякі аспекти
некоректності даних, пов’язаних із оброб-
кою метаданих та інтеграцією компонент
програмної інженерії, які у свою чергу
пов’язані із застосуванням методів Data
Mining до мультимедійних даних у реаль-
ному часі, розглянуто в [7]. Важливо під-
креслити, що таксономія НКД значною
мірою залежить від тієї інформаційної
технології (ІТ), що використовується для
створення, збереження та обробки даних.
Саме можливості ІТ визначають, які дані
можна ввести та зберегти так, щоб надалі
вони розглядалися як брудні, на яких ета-
пах знаходження та виправлення брудних
даних виконується автоматично та які зо-
внішні засоби аналізу даних можуть бути
інтегровані до базової технології.
Постановка задачі
Перетворення брудних даних на
Smart data, придатних для аналізу та здо-
буття знань, є важливим етапом розробки
інформаційних ресурсів великого обсягу
та складної структури. Це дозволяє ефек-
тивно застосовувати інформацію з таких
ресурсів та підвищує якість її семантич-
ної обробки. Класифікація НКЗ забезпечує
основу для розуміння впливу брудних да-
них на аналіз даних, а також допомагають
71
Моделі і засоби систем баз даних та знань
обрати методи роботи з брудними даними
та показники для вимірювання якості да-
них. В такій класифікації важливо врахо-
вувати не тільки текстові та числові дані,
а й всі інші типи даних, що використову-
ються та обробляються в певному ресурсі
– мультимедійні дані, потокові дані з різно-
го обладнання і частково структуровану ін-
формацію (наприклад, метадані без повної
стандартизації або формати представлення
знань). У цій роботі ми пропонуємо онто-
логічну модель НКД, що орієнтована на
модель подання інформації у семантичних
Wiki-ресурсах. Ця модель містить таксо-
номію даних та формально описує ті ме-
тоди й засоби , які дозволяють знаходити
та перетворювати ці дані у форми, більш
придатні для семантичної обробки. Запро-
понована розширена класифікація спрямо-
вана на визначення джерел брудних даних
в цьому технологічному середовищі і до-
зволяє формалізувати їх типи для більш
коректної обробки та по змозі способи за-
побігання їх появі.
Таксономія НКД
У даній статті ми пропонуємо ви-
користовувати більш розширену класи-
фікацію для визначення джерел брудних
даних, формалізації їхніх типів для корек-
тнішої обробки засобами м’яких обчис-
лень та за можливості шляхів запобігання
їх виникненню. Цей підхід орієнтований
на підтримку технологій створення та ви-
користання семантичних інформаційних
ресурсів великого обсягу та складною
структурою. Важливо розуміти, що той
самий фрагмент даних може бути відне-
сений одночасно до різних підкласів, якщо
він містить одночасно кілька різних неко-
ректностей. Основна мета створення такої
таксономії – забезпечити однозначну іден-
тифікацію типу НКД, щоб дати відповідь
на питання щодо можливості та шляхів їх
перетворення. Це дозволяє ефективніше
перетворювати сирі дані на Smart data без
безпосередньої участі експертів зі знань на
всіх етапах – необхідні рекомендації здо-
буваються з цієї таксономії (рис.1).
Рис.1. Таксономія класичних та некласичних даних (верхній рівень)
72
Моделі і засоби систем баз даних та знань
Запропонована класифікація НКД
доповнена додатковим класом – семан-
тично некоректні дані (рис.1-А). На від-
міну від брудних даних, різницю таких
даних і класичних можна виявити тільки
на етапі їх семантичної інтерпретації, у
разі якщо збережені значення не відпо-
відають обмеженням ПрО. Тому таке ви-
явлення потребує аналізу знань щодо цієї
ПрО із зовнішніх джерел. Наприклад, се-
мантична некоректність може стосуватися
віку співробітника, якщо мінімальне або
максимальне значення визначаються пев-
ними характеристиками його професії та
вимогами законодавства певної країни.
Семантично некоректні дані можуть мати
ті самі джерела, що й брудні дані, але,
крім того, існують підкласи семантично
некоректних даних, що є такими через не-
коректність вибору понять, пов’язаних з
тими атрибутами, значення яких є неко-
ректними, з неповною семантичною по-
дібністю обраних атрибутів та з вибором
області значень цих атрибутів.
До прикладу, якщо замість поняття
“працівник” обрано поняття “людина”, то
це не дозволяє коректно відобразити дані
щодо службових собак (таких, як пес Па-
трон), які входять до складу певного під-
розділу .
Всі класи даних (як класичні дані
і НКД, так і семантично некоректні дані)
мають багато підкласів (рис.1-Б), ієрар-
хія та деталізованість яких залежать від
цілі класифікації. В даній роботі основна
увага звертається на те, як ці особливості
впливають на обробку інформації на се-
мантичному рівні. Запропонована таксо-
номія НСД реалізована як окремий випа-
док онтології з єдиним типом відношення
«клас-підклас» та формалізована засоба-
ми Protege. Класи цієї онтології пов’язані
ієрархічним відношенням “клас-підклас”,
що можуть бути візуалізовані за допомо-
гою плагіну OntoGraf (рис.3), а екземпля-
рами є різноманітні приклади НКД та тих
класичних даних, в які вони можуть бути
перетворені – вручну або автоматизовано.
Методи обробки НКД
Кожний тип НКД потребує різних
методів детектування та обробки. Іноді
спочатку потрібно виявити, який саме тип
некоректності присутній у даних, тому що
це може бути незрозуміло із власно даних.
Тільки після цього можна знайти відпо-
віді на наступні питання: чи потребують
такі дані виправлення, чи можна перетво-
рити їх на класичні дані, і, якщо можливо,
чи виконується таке перетворення авто-
матизовано чи з допомогою людини та чи
потребує воно застосування додаткових
джерел знань або інструментів аналізу.
У запропонованій таксономії на
верхньому рівні всі брудні дані поділя-
ються на два класи відповідно до того,
наявні хоч якісь дані чи вони пропущені
(missing) – їх значення взагалі відсутні на
певний момент часу. Третього варіанту не
може бути. Дані вважаються відсутніми,
якщо у певне поле не введено жодного
значення. В іншому випадку дані введено,
і вони вважаються брудними з інших при-
чин.
Дані можуть бути пропущеними з
різних причин: 1. коли це дозволено від-
повідно до їх змісту (нульові дані) – зна-
ченні невідомі або неважливі, або 2. коли
пропущене введення даних не дозволено.
У першому випадку дані можуть
бути відсутні через те, що вони ще неві-
домі, але вже існують (наприклад, відо-
мо, що людина має електронну пошту, але
адреса невідома), через те, що вони поки
що відсутні (людина ще не завела пошту,
але збирається це зробити) або ж через те,
що їх значення відсутнє в принципі (лю-
дина померла за багато століть до появи
Інтернету). У другому випадку це є по-
милкою введення і потребує знаходження
відсутніх значень (наприклад, у переліку
виконавців проєкту відсутнє прізвище ке-
рівника).
Зрозуміло, що це різні види ну-
льових даних, і тому у багатьох систе-
мах м’яких обчислень з ними пов’язують
різні спеціальні значення (“не відомо”,
“не існує”, “не визначено”). Логічне ви-
ведення на основі таких даних базується
на багатозначних логіках, де для кожного
спеціального значення існують правила
виведення та аксіоми. Найпростіші з них
– значення “не відомо” замінюється на на-
бір усіх припустимих значень, а “не існує”
73
Моделі і засоби систем баз даних та знань
– на значення, що не співпадає з жодним
існуючим. Визначення типу пропущених
даних потребує знань щодо ПрО, які отри-
муються від експерта або із зовнішніх
джерел знань.
Таку інформацію доцільно пов’яза-
ти безпосередньо із класами та підкласами
таксономії НСД. Для цього пропонується
розширена онтологічна модель НКД, до
якої надаються наступні класи, значення
яких використовуються як об’єктні влас-
тивості підкласів НКД: 1. метод детекту-
вання НСД (рис.2-А); 2. метод перетво-
рення на НКД; 3. зовнішні джерела інфор-
мації (рис.2-Б).
До зовнішніх джерел інформації
належать різноманітні бази знань та онто-
логії різної виразності, такі як тезауруси,
контрольовані словники тощо
Екземпляри цих класів – це кон-
кретні методи Data Mining, машинного
навчання, логічного виведення, а також
посилання на зовнішні онтології ПрО.
Ці властивості даних можуть роз-
глядатися як логічні змінні зі значеннями
“Так” і “Ні”, або як нечіткі логічні змінні
з ймовірнісними значеннями в діапазоні
від 0 до 1. Такі властивості даних певним
чином дублюють інформацію, що неявно
представлена у таксономії НСД (тому що
саме ці параметри і є основою для таксо-
номічного поділу на верхньому рівні), але
їх використання значно полегшує обробку
інформації – ці дані можуть використову-
ватися в умовах для запитів щодо пошуку
засобів обробки.
Популяція онтологічної моделі ек-
земплярами є складним процесом, що
потребує детального аналізу актуальних
досліджень із різних напрямків аналі-
зу даних та є поза межами даного дослі-
дження. Але запропонована онтологічна
модель задає структуру того, як відповід-
на інформація може бути представлена та
пов’язана з іншими елементами (рис.2-В).
Рис.2. Методи, що використовуються для знаходження та корекції НКД
74
Моделі і засоби систем баз даних та знань
Брудні дані та семантичні Wiki
Прояви брудних та некоректних да-
них багато в чому залежать від того тех-
нологічного середовища, в якому ці дані
створюються, зберігаються та обробля-
ються. Найбільш важливим фактором є
виразність, яку середовище забезпечує як
для подання інформації (даних та метада-
них), так і для їх пошуку: спотворене може
бути лише те, що можна відобразити. Крім
того, різноманітні інструментальні засоби
містять різні види автоматизованого узго-
дження даних. Потрібно враховувати, що
джерелом брудних даних може бути не-
вдалий вибір моделі подання даних, яка
не пертинентна вирішуваній проблемі, –
наприклад, використання текстового типу
замість числового призводить до непра-
вильного впорядкування даних.
Надалі ми пропонуємо конкретиза-
цію таксономії НКД для технологічного
середовища семантичних Wiki (а саме –
MediaWiki та його розширення Semantic
MediaWiki), в якому присутній широкий
спектр брудних даних із різних джерел.
Семантизація Wiki-ресурсів значно роз-
ширює виразність цієї технології, але ви-
кликає необхідність аналізувати також і
семантичну коректність інформації.
Wiki-технології забезпечують роз-
поділену обробку інформації у відкри-
тому середовищі Web. Особливістю цієї
технології є те, що користувачі самостій-
но створюють та редагують контент сто-
рінок. З одного боку, це забезпечує швид-
кий розвиток Wiki-ресурсів та збільшення
їх обсягу, а з іншого – викликає велику
кількість різноманітних помилок та нео-
днозначностей у даних. Це потребує роз-
робки додаткових моделей та методів пе-
ревірки сирих даних, визначення джерел
того, що вони стають НКД. Важливо розу-
міти, що причини нечіткості та неповноти
даних у Wiki-ресурсах не завжди є наслід-
ком помилок або відсутності достовірної
інформації. Саме тому Wiki-середовище
стає цікавим прикладом для класифікації
брудних даних та пошуку шляхів їх транс-
формації у класичні дані.
У багатьох випадках контент Wiki-
ресурсу перетворюється на НКД через
невдалий вибір моделі та структури кон-
тенту, що не пертинентні реальному світу.
На жаль, у багатьох випадках така ситу-
ація визначається тільки в процесі нако-
пичення гетерогенного контенту, в якому
потрібно подавати складні інформаційні
об’єкти, які не відповідають попередньо
обраним моделям. Основним елементом
контенту Wiki-ресурсу є Wiki-сторінка,
що має унікальне ім’я та набір властивос-
тей, котрі можуть розглядатися як метада-
ні.
Найбільш уживане зараз програмне
забезпечення для Wiki-систем – MediaWiki
[8], яку використовують проекти такі ві-
домі проєкти, як Wikipedia, Wikidata та
Wikibooks. Введення даних у MediaWiki
підтримується зручним редактором кон-
тенту і забезпечує наступні елементи
структурування даних: 1. категорії, які
дозволяють групувати сторінки (сторінка
може належати до довільної кількості ка-
тегорій, а відношення часткового впоряд-
кування дозволяє створювати набори іє-
рархій цих категорій); 2. посиланнями між
Wiki-сторінками; 3. простори імен сто-
рінок; 3. шаблони, які уніфікують окремі
елементи контенту сторінок.
MediaWiki не містить засобів пе-
ревірки узгодженості використання цих
елементів та не відображає семантику
зв’язків між ними. Для вирішення цих про-
блем використовують семантичні плагіни,
що розширюють виразність Wiki-ресурсу
за допомогою семантичної розмітки, що
дозволяє пов’язувати певні елементи кон-
тенту з поняттями ПрО. Така розмітка
допомагає у структуруванні інформації і
робить дані доступнішими для автоматич-
ного аналізу. Наприклад, плагін Semantic
MediaWiki (SMW) [9] дозволяє пов’язувати
зв’язки між Wiki-сторінками та даними
з поняттями довільної ПрО та підтримує
пошук за цими зв’язками, щоб інтегрува-
ти інформацію з різних Wiki-сторінок, та
генерувати за Wiki-сторінками онтологіч-
ні структури [10], які можуть використо-
вувати інші системи [11]. Приклад Wiki-
ресурсу на основі SMW – портал Великої
української енциклопедії – е-ВУЕ [12] .
SMW дозволяє доповнювати кон-
тент Wiki-ресурсі: 1. семантичними влас-
тивостями Wiki-сторінок; 2. шаблонами
75
Моделі і засоби систем баз даних та знань
типових інформаційних об’єктів, які за-
безпечують уніфіковану семантичну роз-
мітку та спрощують введення значень
властивостей; 3. семантичними запита-
ми. Саме для цих даних можлива поява
семантичної некоректності різних типів.
Це викликано тим, що SMW дозволяє
безпосередньо формалізувати семантику
класів та екземплярів ІО, але не містить
достатньо розвинутих засобів для контр-
олю їх несуперечності та узгодженості.
Для семантичних Wiki-ресурсів виникає
необхідність перевірки семантичної узго-
дженості введених даних з правилами
ПрО, які відображені у зовнішніх джере-
лах знань, таких як онтології.
Одним із інструментів для цього
є використання метрик семантичної по-
дібності та семантичної близькості між
елементами онтології, які дозволяють
кількісно оцінити пертинентність вико-
ристання як теги розмітки для семантич-
них властивостей цих класів, відношень
та екземплярів онтології відповідної ПрО.
Семантична близькість є окремим
випадком семантичної спорідненості ІО,
що стосується спільних властивостей ІО,
тоді як семантична спорідненість відо-
бражає ймовірність використання ІО в
спільному контексті. Семантично близькі
поняття ПрО – це нечітка множина, яка
включає набір понять, для яких кількісне
значення семантичної близькості з обра-
ним поняттям вище заданого порогу. Міри
визначення семантичної близькості по-
нять на основі онтологій використовують
їхні властивості (атрибути і відношення з
іншими поняттями) [13] та взаємне поло-
ження в онтологічних ієрархіях [14, 15].
Використовуючи поняття певної
ПрО як теги семантичної розмітки Wiki-
ресурсу, потрібно переконатися, що обра-
не ім’я властивості відповідає відношен-
ню саме цієї області і не використовується
в іншому значенні в іншій ПрО (в такому
випадку виникає потреба у додатковому
уточненні). Тому одним із важливих кро-
ків перевірки семантичної узгодженості
Wiki-даних є визначення кількісної оцінки
семантичної спорідненості. Така спорід-
неність між тегами певної Wiki-сторінки
оцінюється як функція від семантичної
відстані між відповідними поняттями он-
тології ПрО та може використовувати до-
вільну підмножину зв’язків між поняття-
ми ПрО, що відповідає цілям оцінювання
[16].
Для визначення подібності між те-
гами семантичного Wiki-ресурсу виникає
потреба у вимірюванні подібності тих
слів, що використовуються як імена тегів
(тобто імен семантичних властивостей
сторінки), а не понять, яким відповідають
ці теги. Така подібність дозволяє відокре-
мити досить схожі імена різних понять від
різних імен близьких за змістом або то-
тожних понять. Це дозволяє розв’язувати
семантичну некоректність, що виникає
внаслідок колективної паралельної робо-
ти спеціалістів різних галузей зі вдоско-
налення структури Wiki-ресурсу: досить
часто створюються семантичні власти-
вості зі схожими іменами, які мають різне
значення у різних галузях знань.
Е-ВУЕ та брудні дані
Розглянемо детальніше викорис-
тання онтологічної моделі брудних даних
семантичного Wiki-ресурсу на прикладах,
пов’язаних із розробкою та поповненням
е-ВУЕ (vue.gov.ua). Ми обрали цей інфор-
маційний ресурс, тому що він побудова-
ний на MediaWiki та SMW, має складну
структуру, великий обсяг та відображає
зв’язки між поняттями різних областей. В
ньому представлені екземпляри різних ІО,
що описані даними різних типів – текст,
числа, посилання, мультимедіа тощо.
У створенні та оновленні гасел
е-ВУЕ бере участь велика кількість спів-
робітників установи, тоді як сам контекст
створюють незалежні експерти різних
ПрО. Внаслідок цього виникають нео-
днозначні тлумачення вимог щодо форми
подання даних, щодо структури та пра-
вил застосування шаблонів типових ІО та
їхніх атрибутів. Використання таксоно-
мії НКД дозволяє більш точно виявляти
причини виникнення неточності й неко-
ректності даних у Wiki-ресурсі та у разі
можливості рекомендувати шляхи їх пере-
творення. Залежно від типу некоректнос-
ті, необхідно змінювати дані або вносити
доповнення та зміни в їхню модель.
76
Моделі і засоби систем баз даних та знань
Для інтеграції набору семантич-
них властивостей виділяються типові ІО
– групи гасел, віднесених до визначеного
набору категорій та які мають фіксований
набір характеристик.
Відсутні дані в е-ВУЕ. Відсутні
дані допустимі у шаблонах ІО, якщо для
деяких екземплярів певні властивості не-
відомі (на даний момент або взагалі). Цю
ситуацію потрібно враховувати в проце-
сі створення шаблону (тобто обов’язково
проводити перевірку, що значення не є по-
рожнім), тому що в іншому випадку спро-
ба вивести неіснуючу інформацію призве-
де до помилок. Така перевірка потребує
додаткових обчислень, тому потрібно кон-
сультуватися зі спеціалістами ПрО щодо її
необхідності.
Наприклад, в е-ВУЕ шаблон ІО
«Персоналія» містить параметр, що від-
повідає семантичній властивості «Псев-
донім». Але не всі видатні особи, пред-
ставлені в енциклопедії, мали псевдоні-
ми. Тому код шаблону містить перевірку,
за результатами якої значенні властивості
виводиться тільки в тому випадку, якщо
воно не є порожнім:
{{if||{{{Псевдонім|}}}| ‘’’Псевдоніми’’’
{{#arraymap:
{{{Псевдонім|}}}|;|x|[[Псевдонім::x]]}}}}
Інформація про можливість таких
ситуацій має бути отримана від експерта
ПрО до початку використання відповідно-
го шаблону.
Для складніших ситуацій (неточна
інформація, відсутність частини значен-
ня) можна ввести різні значення для різ-
них типів відсутніх даних та виконувати
перевірку для кожного з варіантів:
{{if||{{{Псевдонім|::Null value}}}|
‘’’Значення не визначено’’’
{{if||{{{Псевдонім|:: Other type}}}|
‘’’Значення не представлене в при-
датній формі}}
Неоднозначні дані у е-ВУЕ. Такі
дані викликані використанням неодноз-
Рис.3. Приклади неоднозначних та непридатих даних у е-ВУЕ
13.03.2022
2023.03.19
77
Моделі і засоби систем баз даних та знань
начних абревіатур та скорочень або не-
повнотою даних. Приклад неповноти да-
них – у тексті гасла є посилання на інше
гасло, але інформація про ім’я цього гасла
є неповною та допускає кілька варіантів
доповнення (наприклад, наведено тіль-
ки прізвище без ініціалів або ініціали без
повного імені – рис.3-А). В такому ви-
падку проблема не може бути розв’язана
автоматично засобами SMW та потребує
або участі експерта, або застосування зо-
внішніх джерел знань та мір семантичної
близькості. Приміром, якщо кілька гасел
мають імена, що можуть бути скорочені
до використаного у посиланні, то доціль-
но обрати те, що має більше спільних ка-
тегорій з гаслом, в якому міститься поси-
лання.
Дані, непридатні для обробки в
е-ВУЕ через нестандартне подання. Такі
дані не можуть бути ефективно викорис-
тані (знайдені за запитами, об’єднані
тощо) через те, що подання інформації не
відповідає прийнятим правилам та стан-
дартам. Причини такої невідповіднос-
ті можуть бути різними. Частина з них
пов’язана із окремими елементами даних,
а інша – саме зі зв’язками між елемента-
ми даних, присутніми у даних зі склад-
ною структурою. Наприклад, службовий
шаблон «Стаття на редагуванні» (рис.3-Б)
дозволяє визначити поточний статус ще
не оприлюдненої статті. Обов’язковими
параметрами є тільки «Автор гасла», «Га-
лузь гасла», «Дата замовлення» та «По-
точний статус» (їх відсутність є непри-
пустимою помилкою та належить до НКД
«Неприпустимі відсутні дані». Атрибут
«Поточний статус» визначає, що саме за-
раз роблять зі статтею, і його значення ма-
ють приймати значення з обмеженої мно-
жини {підготовка автором, рецензування,
перевірка науковим редактором, літера-
турне редагування, узгодження з автором,
інше}. Всі інші значення цього параметру
не розпізнаються SMW як помилка, але
вони не будуть коректно оброблятися у
запитах (рис.3-Б).
Дані, непридатні для обробки в е-ВУЕ
через неструктуроване нестандартне по-
Рис.4. Приклад неоднозначних даних е-ВУЕ, що непридатні
для обробки в е-ВУЕ через нестандартне подання
78
Моделі і засоби систем баз даних та знань
дання – це підтип нестандартного подання
даних (рис.4). В цьому випадку дані на-
лежать до НКД не через зв’язки з інши-
ми елементами даних, а через властивості
окремих значень. Найпоширеніші ситуації
в е-ВУЕ з такими даними – це некоректний
вибір одиниць виміру. Зокрема, якщо вка-
зано, що чисельність населення наведена
у тисячах осіб, то потрібно вводити число
в 1000 разів менше реального значення.
Якщо для міста Ашгабат введено, що його
чисельність – 1000000 тис. осіб, то це є по-
милкою, яка потребує виправлення. Такі
помилки практично неможливо знаходити
автоматично (тільки шляхом співставлен-
ня із зовнішніми базами даних, інформація
в яких може відрізнятися через різний час
оприлюднення), але досить легко викону-
ється експертом відповідної ПрО. Слід від-
значити, що в деяких випадках помітити
такі помилки досить складно, тому що, на-
приклад, швидкість вітру в метрах на се-
кунду або у кілометрах на годину відрізня-
ються менш ніж на порядок.
Семантично некоректні дані в
е-ВУЕ. Розпізнавання семантично не-
коректних даних для Wiki-середовища
включає наступні ситуації (рис.5):
- використовується ім’я атрибута,
яке не існує;
- використовується посилання на
значення атрибута, якого не існує;
- категорія значення за змістом не
відповідає атрибута;
- введене значення атрибута не ре-
левантне, або містить непотрібні елемен-
ти;
- за допомогою семантичних влас-
тивостей сформовано складний інформа-
ційних об’єкт, який не може існувати в
реальному світі.
Важливо підкреслити, що значен-
нями даних, оброблюваних в середовищі
SMW, можуть бути не тільки текст та чис-
ла, але й мультимедійні дані – зображен-
ня, аудіо та відео. Розпізнавання їх семан-
тики (наприклад, розпізнавання тексту у
зображеннях або розпізнавання мовлення
Рис.5. Таксономія семантично некоректних даних (фрагмент)
79
Моделі і засоби систем баз даних та знань
в аудіофайлах) знаходиться поза сферою
дослідження даної роботи, а семантика
таких даних визначається на основі аналі-
зу їхніх метаописів.
Пошук семантичних некоректнос-
тей вручну з допомогою експерта потре-
бує багато часу для великих обсягів даних
та не є надійним. Тому його доцільно за-
стосовувати тільки на початкових етапах
створення бази знань Wiki-ресурсу, коли
експерт ще тільки шукає коректні відпо-
відності між моделями даних та реальним
світом.
Один із поширених варіантів се-
мантично некоректних даних в е-ВУЕ –
посилання на сторінку гасла, якої не існує
(рис.5-Б). Цей тип НКД контролюється
засобами середовища MediaWiki – поси-
лання виводиться червоним кольором. У
такому разі доцільно обирати одне з мож-
ливих рішень – створювати відповідну
відсильну сторінку, змінювати значення
посилання на існуюче (якщо була припу-
щена помилка в імені) або перетворювати
тип даних такого атрибута на текстовий
замість посилання. Останнє рішення оби-
рають для тих атрибутів, які мають багато
різних значень, що не використовуються в
інших гаслах і не є достатньо значущими
для створення окремої сторінки. Напри-
клад, вказуючи місце народження певної
особи, достатньо дати посилання на кра-
їну та найближчий регіональний центр, а
назву невеликого селища залишити тільки
в природномовному контенті сторінки.
Інший варіант семантичної неко-
ректності – використовується значення
атрибута, що не є релевантним, хоча від-
повідає узагальненим вимогам щодо типу
даних. Однією з найпоширеніших груп
НКД в е-ВУЕ є повторювання у значенні
семантичної властивості імені властивості
або одиниць вимірювання (рис.5-Б). Так,
якщо у значенні властивості «Орден» вве-
дено «ордени Леніна», то слово «ордени»
є зайвим та заважатиме у семантичному
пошуку осіб, нагороджених цим орденом.
Найбільш ефективний метод виявлення
таких помилок – напівавтоматичний: спо-
чатку створюється семантичний запит,
результатами якого є значення властивос-
ті, що перевіряється. Потім ці результати
впорядковуються, і експерт проглядає їх,
переконуючись у правильному виборі зна-
чень та коректності впорядкування.
Семантична некоректність ви-
бору атрибутів даних в е-ВУЕ – це ще
один тип семантичної некоректності, ви-
кликаний неоднозначністю слів природ-
ної мови, які використовуються для назв
шаблонів та властивостей. Це пов’язано з
тим, що в цьому мультидисциплінарному
ІР виникає потреба для ідентифікації по-
нять та відношень різних ПрО, які мають
різний зміст (тобто їх необхідно відріз-
няти у пошуку), але терміносистеми цих
ПрО перетинаються й потребують додат-
кового уточнення. Наприклад, властивість
“Відзнака” для персоналій, що стосується
нагород за результати діяльності, має зо-
всім іншу область значення та набір мож-
ливих значень, аніж властивість “Особли-
ва відзнака“ в біології, яка характеризує
відмінності між тваринами та рослинами.
Для семантичних властивостей у SMW
така перевірка частково автоматизова-
на (рис.12). На жаль, такий пошук надає
тільки статистичні оцінки подібності та
є основою для подальшого аналізу: по-
трібно перевірити, чи використовують-
ся в ПрО обидва знайдені терміни (і тоді
ситуація не є помилковою), чи викорис-
товується тільки один з них (тоді інший
є некоректним), чи немає взагалі таких
або подібних понять, і потрібно видалити
обидва. Для цього доцільно застосовувати
запити до онтології ПрО. В першому ви-
падку введені дані за замовчанням будуть
віднесені до типу “посилання”. Через те,
що ймовірність існування Wiki-сторінки з
таким ім’ям дуже мала, такі дані будуть
виводитися червоним кольором, який у
цьому технологічному середовищі вказує
на помилку. Обробка такої семантичної
некоректності досить проста: користувач
має обрати один з варіантів – створити
відповідну властивість або замінити вико-
ристане ім’я властивості на ім’я існуючої.
Семантична некоректність вибо-
ру області значення атрибутів в е-ВУЕ
пов’язана з тим, що в SMW відсутня мож-
ливість конкретизувати область значен-
ня властивості типу “Посилання” через
набір категорій або обмеження значень
80
Моделі і засоби систем баз даних та знань
семантичних властивостей. Наприклад,
якщо для семантичної властивості “Міс-
це народження” обрано значення “Дніпро
(річка)” замість “Дніпро (місто)”, то таку
некоректність можуть розпізнати тільки
експерти, тому що тільки вони можуть
відокремити неправильно використані
значення від особливих ситуацій (напри-
клад, людина дійсно народилася у океані
на кораблі). На відміну від онтологічних
моделей, де можна явно вказати область
значення та область визначення відно-
шень, середовище SMW безпосередньо
не підтримує такі функцій, але дозволяє
створювати онтологічну модель фрагмен-
ту ІР (в форматі RDF) [17], яку можна об-
робляти зовнішніми інструментами для
аналізу онтологій.
Семантично некоректні відношен-
ня між екземплярами типових ІО в е-ВУЕ.
В деяких випадках неприпустимі ситуа-
ції певної ПрО легко описати логічними
правилами, але SMW не містить відповід-
ного формального апарату. Зокрема, якщо
сторінка особи А посилається на сторінку
особи Б як на попередника у досліджен-
нях, але сторінка особи Б посилається на
сторінку особи А як на попередника у до-
слідженнях, то така ситуація є семантич-
но некоректною. Інший приклад – сторін-
ка особи А посилається на сторінку особи
Б як на батька, але сторінка особи Б поси-
лається на сторінку особи А як на брата.
Автоматизована перевірка таких ситуацій
у Semantic MediaWiki неможлива через те,
що виразна здатність середовища не до-
зволяє визначати формально такі характе-
ристики властивостей, як транзитивність,
симетричність, антисиметричність тощо.
Більш складні поєднання потребують ви-
ведення у багатозначній логіці. Такі се-
мантичні неузгодженості можна знахо-
дити на основі логічного виведення, що
знаходиться поза можливостями Semantic
MediaWiki, але може підтримуватися зо-
внішніми засобами онтологічного аналізу.
Тому може бути запропоноване наступне
рішення: 1. Згенерувати RDF-файл за на-
бором Wiki-сторінок, для яких потрібно
виконати перевірку на НКД, 2. Виконати
перевірку цієї згенерованої сукупності да-
них.
Семантична некоректність кате-
горії даних в е-ВУЕ. Для багатозначних
гасел ця проблема вирішується безпосе-
реднім додаванням назви ПрО або кате-
горії поняття до назви гасла, що викорис-
товують багатозначні терміни, – як-от,
“Болід (астрономія)” замість “Болід” та
“Бетховен (кратер)” замість “Бетховен”.
Це знімає семантичну неоднозначність,
але може спричинити некоректні поси-
лання з інших гасел: в них можуть бути
використані імена без цих уточнень, осо-
бливо у випадку, якщо ці гасла створю-
валися раніше, ніж ті, на які вони поси-
лаються. Для перевірки цього доцільно
створювати онтологічне представлення
певного фрагменту ІР, що перевіряється.
SMW надає можливість генерувати ре-
зультати семантичних запитів у форматі
RDF. Після цього згенеровану онтологію
можна співставити із зовнішніми онтоло-
гічними моделями або продемонструвати
її структуру експерту. Слід відзначити,
що графічне подання онтологічної інфор-
мації значно спрощує її сприйняття лю-
диною та є потужним інструментом для
виявлення семантичних некоректностей
різних типів.
Найпростіший випадок такої неко-
ректності – помилковий вибір категорії
сторінки (безпосередньо або через вико-
ристання нерелевантного шаблону). Пер-
ший випадок, причиною якого зазвичай є
копіювання контенту іншої сторінки для
подальшого редагування, легко відсте-
жити за допомогою оцінок семантичної
подібності. Але це потребує написання
спеціалізованого програмного коду. Дру-
гий випадок значно менш наочний, тому
що категорія може бути надана сторінці
одним із багатьох вкладених шаблонів.
Детектування таких ситуацій може ба-
зуватися на виявленні групи сторінок з
однаковими некоректно обраними кате-
горіями та їх порівняння для виявлення
спільно використаних шаблонів. Таке
дослідження потребує глибокого аналі-
зу бази даних ІР. Запобігти таким ситу-
аціям дозволяє створення онтологічної
моделі ІР (не автоматизоване), в якому
формалізовано фіксуються всі відношен-
ня між семантичними властивостями,
81
Моделі і засоби систем баз даних та знань
категоріями та шаблонами безпосеред-
ньо у момент їх створення у ресурсі [18].
Онтологічна модель має значно більшу
виразність порівняно з SMW і дозволяє
відображати характеристики цих еле-
ментів бази знань та обмеження щодо їх
використання. Важливо, що запити до
такої моделі виконуються автоматично,
тобто можна визначити для сторінки з
некоректною категорією усі ті шаблони,
що містять таку категорію. Крім того,
для її аналізу можна застосовувати різ-
номанітні спеціалізовані аналітичні ін-
струменти. Зараз існує велика кількість
інструментальних засобів для перевірки
різних аспектів якості онтологій. Напри-
клад, OOPS! (OntOlogy Pitfall Scanner!)
(http://oops.linkeddata.es/) – відкрите про-
грамне забезпечення, яке дозволяє вияв-
ляти транзитивні та симетричні власти-
вості об’єктів. Вибір засобів перевірки
залежить від того, які саме семантичні
некоректності потрібно перевірити. Піс-
ля цього можливо прийняти одне з двох
можливих рішень – внести зміни у від-
повідний шаблон або згенерувати інший
шаблон з іншим набором категорій.
Потрібно враховувати, що всі пе-
ревірки семантики у Wiki-середовищі,
що стосуються використання категорій,
потребують написання додаткового про-
грамного коду, на відміну від обробки се-
мантичних властивостей. Тому доцільно
дублювати інформацію щодо категорій за
допомогою апарату семантичних власти-
востей, які надає Semantic MediaWiki.
Наведені приклади НСД, що мож-
ливі у технологічному середовищі SMW
та виникали в процесі створення е-ВУЕ,
не вичерпують усі ситуації, які проаналі-
зовано в запропонованій вище онтологіч-
ній моделі. Крім того, в процесі розвитку
інструментарію для розробки семантич-
них Wiki-ресурсів, збільшується набір си-
туацій, що виявляються та розв’язуються
вбудованими засобами. З іншого боку,
зростання обсягу та ускладнення струк-
тури інформаційних ресурсів на основі
цієї технології призводить до появи нових
прикладів НСД, які можуть бути класифі-
ковані на основі цієї моделі, але потребу-
ють спеціалізованих засобів обробки.
Висновки
Запропонована у дослідженні онто-
логічна модель призначена для класифі-
кації різних типів брудних та семантич-
но некоректних даних, що уможливлює
ефективніший пошук методів виявлення
таких даних та засобів їх обробки. Така
обробка, що може розглядатися як одна
зі складових Smart data, має зробити дані
придатними для автоматичного аналізу
та використання в інших інформаційних
системах. Онтологічний підхід забезпечує
інтеграцію запропонованої моделі з інши-
ми зовнішніми онтологіями, що описують
різноманітні методи та програмні засоби
аналізу даних (наприклад, онтологія ін-
дуктивних методів [19] та онтологія Data
Mining [20]) та можуть бути застосовані
для пошуку некоректностей у даних та їх
очищення, а також із онтологіями ПрО, в
яких представлені більш коректні, точні
та актуальні відомості.
У роботі використано досвід роз-
робки бази знань портальної версії Вели-
кої української енциклопедії е-ВУЕ, вели-
кою за обсягом, із складною структурою
та великою кількістю різноманітних гете-
рогенних інформаційних об’єктів. Через
те, що в створенні цього інформаційно-
го ресурсу бере участь велика кількість
спеціалістів різних наукових напрямків
із різною областю експертизи та різною
кваліфікацією щодо застосування знання-
орієнтованих інформаційних технологій,
виникає багато розбіжностей у розумінні
правил подання та структурування даних.
Тому виникає необхідність у формалізова-
них та масштабованих рішеннях для зна-
ходження та опрацювання різноманітних
типів нечіткості, неповноти та семантич-
ної некоректності контенту.
Слід підкреслити, що наведені при-
клади некласичних даних, що можливі у
технологічному середовищі SMW та ви-
никали в процесі створення е-ВУЕ, не ви-
черпують усі ситуації, які проаналізовано
в запропонованій вище онтологічній мо-
делі. Крім того, в процесі розвитку ін-
струментарію для розробки семантичних
Wiki-ресурсів, збільшується набір ситу-
ацій, що виявляються та розв’язуються
вбудованими засобами. З іншого боку,
82
Моделі і засоби систем баз даних та знань
зростання обсягу та ускладнення струк-
тури інформаційних ресурсів на основі
цієї технології призводить до появи нових
прикладів НСД, які можуть бути класифі-
ковані на основі цієї моделі, але потребу-
ють спеціалізованих засобів обробки.
Запропонований підхід може бути
корисним для створення інших велико-
масштабних ресурсів як на основі техно-
логії семантичних Wiki, так і інших тех-
нологічних платформ колаборативної об-
робки розподілених даних та знань.
References
1. Zadeh L. A. Fuzzy sets and information gran-
ularity. Fuzzy sets, fuzzy logic, and fuzzy
systems: selected papers, 1979, pp.433-454.
2. Motro, A., Smets, P. Uncertainty Manage-
ment in Information Systems: From Needs
to Solutions. Springer, 1997. 464 p. DOI:
http://dx.doi.org/10.1007/978-1-4615-6245-
0.
3. Codd E. F. Missing information (applicable
and inapplicable) in relational databases.
ACM Sigmod Record, 15(4), 1986, pp.53-
53.
4. Parsons S. Current Approaches to Handling
Imperfect Information in Data and Knowl-
edge Bases // Knowledge and Data Engi-
neering IEEE, Vol.8, №3, 1996. pp. 483-488.
5. Zadeh L. A. The concept of a linguistic
variable and its application to approxi-
mate reasoning. Information sciences, 8(3),
1975pp.199-249, DOI: http://dx.doi.org/
10.1016/0020-0255(75)90036-5.
6. Kim W., Choi, B. J., Hong E. K., Kim S.
K., Lee D. A taxonomy of dirty data. Data
mining and knowledge discovery, 7, 2003,
pp.81-99.
7. Kim W., Chae K. J., Cho D. S., Choi B.,
Jeong A., Kim M., Yong H. S. The Chamois
component-based knowledge engineering
framework. Computer, 35(5), 2002, pp.45-
54.
8. Koren Y. Working with MediaWiki. San
Bernardino, CA, USA: WikiWorks Press.
157-159(2012). URL: uplooder.net.
9. Semantic MediaWiki. https://www.seman-
tic-mediawiki.org/wiki/Semantic_MediaWi-
ki.
10. Guarino N. Formal Ontology in Information
Systems. Formal Ontology in Information
Systems. // Proc. of FOIS’98, 3-15, 1998.
11. Rogushina J.V., Grishanova I.J. Ontological
methods and tools for semantic extension of
the media WIKI. Problems in programming,
№ 2-3, 2020. pp.61-73. DOI:10.15407/
pp2020.02-03.061.
12. Andon P.I., Rogushina J.V., Grishanova I.Y.,
Reznichenko V.A., Kyrydon A.M., Aristova
A.V., Tyschenko A.O. Experience of Se-
mantic Technologies Use for Development
of Intelligent Web Encyclopedia. Proc. of
the 12th International Scientific and Practi-
cal Conference of Programming (UkrPROG
2020),CEUR Workshoop Proceedings, 2021,
Vol-2866, P.246-259. http://ceur-ws.org/
Vol-2866/ceur_246-259andon24.pdf
13. Tversky A. Features of similarity. Psycho-
logical review, 84(4), 1977, pp.327-341.
14. Rada R., Mili H., Bicknell E., Blettner M.
Development and application of a metric on
semantic nets. IEEE transactions on systems,
man, and cybernetics, 19(1), 1989, pp.17-30.
15. Resnik P. Semantic Similarity in a Taxono-
my: An Information-Based
Measure and its Application to Problems of
Ambiguity in Natural Language. In: Journal
of Artificial Intelligence Research 11, 1999,
pp.95-130..
16. Rogushina J. Use of Semantic Similarity
Estimates for Unstructured Data Analysis.
Selected Papers of ITS 2019. CEUR Vol-
2577, pp.246-258. URL: http://ceur-ws.
org/Vol-2577/paper20.pdf [last accessed
2023/02/122].
17. RDF Web Ontology Language. Overview,
W3C, 2012. https://www.w3.org/RDF/ [last
accessed 2023/02/15].
18. Rogushina J., Grishanova I. Ontological
methods and tools for semantic extension
of the media WIKI technology. Problems in
Programming, № 2-3, 2020, pp.61-73.
19. Pidnebesna H., Stepashko V. Ontology Ap-
plication to Constructing the GMDH-Based
Inductive Modeling Tools. Semantic Web
Technologies, 2022, pp. 263-292.
20. Panov P., Dzeroski S., Soldatova L. On-
toDM: An ontology of data mining. In: 2008
IEEE International Conference on Data Min-
ing Workshops, IEEE, 2008, pp. 752-760.
Одержано: 05.04.2023
83
Моделі і засоби систем баз даних та знань
Про автора:
Рогушина Юлія Віталіївна,
канд.фіз.-мат.наук, с.н.с.
Публікації в українських виданнях – 200,
публікації в іноземних журналах – 40.
Індекс Хірша: Scopus – 5, Google Scholar
– 20.
ORCID http://orcid.org/0000-0001-7958-
2557.
Місце роботи автора:
Інститут програмних систем НАН
України,
03181, Київ-187, проспект Академіка
Глушкова, 40,
e-mail: ladamandraka2010@gmail.com,
066 550 1999.
|