Methods consolidated data processing using dataspaces
Problems which arise up during work with separate sources with depositories information using and databases are analyzed. There are formalized model of dataspace as mean of integration and information analysis from separate sources. It is shown that the algebraic systems of database and datawarehous...
Saved in:
| Date: | 2025 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
PROBLEMS IN PROGRAMMING
2025
|
| Subjects: | |
| Online Access: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/828 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Problems in programming |
| Download file: | |
Institution
Problems in programming| id |
pp_isofts_kiev_ua-article-828 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/91/9c497a8dea796fed25bbe9915b439591.pdf |
| spelling |
pp_isofts_kiev_ua-article-8282025-09-02T15:42:07Z Methods consolidated data processing using dataspaces Методи опрацювання консолідованих даних за допомогою просторів даних Shakhovska, N.B. UDC 51.001.57+004.652.4+004.827 УДК 51.001.57+004.652.4+004.827 Problems which arise up during work with separate sources with depositories information using and databases are analyzed. There are formalized model of dataspace as mean of integration and information analysis from separate sources. It is shown that the algebraic systems of database and datawarehouse class are the subclasses of the dataspace class algebraic system. The features of information integration are certain from heterogeneous sources. The chart of information integration and facilities of data exchange is built.Prombles in programming 2011; 4: 72-84 Проаналізовано проблеми опрацювання даних з різнотипних джерел. Побудовано формальну модель простору даних та уведено операції над ним. Показано, що алгебраїчні системи бази даних та сховища даних є підкласами алгебраїчної системи класу «простір даних». Визначено особливості інтеграції даних з різнорідних джерел. Побудовано схему інтеграції даних та засоби обміну даними.Prombles in programming 2011; 4: 72-84 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-09-02 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/828 PROBLEMS IN PROGRAMMING; No 4 (2011); 72-84 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2011); 72-84 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2011); 72-84 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/828/880 Copyright (c) 2025 PROBLEMS IN PROGRAMMING |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2025-09-02T15:42:07Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
UDC 51.001.57+004.652.4+004.827 |
| spellingShingle |
UDC 51.001.57+004.652.4+004.827 Shakhovska, N.B. Methods consolidated data processing using dataspaces |
| topic_facet |
UDC 51.001.57+004.652.4+004.827 УДК 51.001.57+004.652.4+004.827 |
| format |
Article |
| author |
Shakhovska, N.B. |
| author_facet |
Shakhovska, N.B. |
| author_sort |
Shakhovska, N.B. |
| title |
Methods consolidated data processing using dataspaces |
| title_short |
Methods consolidated data processing using dataspaces |
| title_full |
Methods consolidated data processing using dataspaces |
| title_fullStr |
Methods consolidated data processing using dataspaces |
| title_full_unstemmed |
Methods consolidated data processing using dataspaces |
| title_sort |
methods consolidated data processing using dataspaces |
| title_alt |
Методи опрацювання консолідованих даних за допомогою просторів даних |
| description |
Problems which arise up during work with separate sources with depositories information using and databases are analyzed. There are formalized model of dataspace as mean of integration and information analysis from separate sources. It is shown that the algebraic systems of database and datawarehouse class are the subclasses of the dataspace class algebraic system. The features of information integration are certain from heterogeneous sources. The chart of information integration and facilities of data exchange is built.Prombles in programming 2011; 4: 72-84 |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2025 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/828 |
| work_keys_str_mv |
AT shakhovskanb methodsconsolidateddataprocessingusingdataspaces AT shakhovskanb metodiopracûvannâkonsolídovanihdanihzadopomogoûprostorívdanih |
| first_indexed |
2025-09-17T09:24:42Z |
| last_indexed |
2025-09-17T09:24:42Z |
| _version_ |
1850410459340996608 |
| fulltext |
Моделі та засоби систем баз даних і знань
72
УДК 51.001.57+004.652.4+004.827
Н.Б. Шаховська
МЕТОДИ ОПРАЦЮВАННЯ КОНСОЛІДОВАНИХ ДАНИХ
ЗА ДОПОМОГОЮ ПРОСТОРІВ ДАНИХ
Проаналізовано проблеми опрацювання даних з різнотипних джерел. Побудовано формальну модель
простору даних та уведено операції над ним. Показано, що алгебраїчні системи бази даних та сховища
даних є підкласами алгебраїчної системи класу «простір даних». Визначено особливості інтеграції
даних з різнорідних джерел. Побудовано схему інтеграції даних та засоби обміну даними.
Вступ
Інформаційне суспільство – сус-
пільство, в якому створення, передавання,
перетворення, використання, інтеграція і
маніпулювання інформацією – важлива
господарська, політична і культурна
діяльність. Специфікою цього виду сус-
пільства є те, задача консолідації даних
(об’єднання даних, розміщених у різних,
наперед неузгоджених джерелах) виникає
досить часто. Так, для університету прик-
ладом консолідації є формування наукових
звітів, визначення показників успішності
та якості навчання, формування рейтингу
кафедри тощо; для обласної адміністрації –
це визначення критичних показників
розвитку регіону на основі даних,
отриманих з організацій державної та
недержавної форми власності.
Постановка проблеми в
загальному вигляді
Причини виникнення проблеми
подання та опрацювання різнотипових
даних:
− глобалізація суспільства – прагнення
знайти нові дані шляхом консолідації
даних з джерел, призначених для
локального застосування;
− прагнення зберігати дані «вічно» –
навіть потужні системи керування базами
даних (СКБД) також мають обмеження на
кількість даних;
− визначення авторства даних;
− опрацювання різнотипових даних –
даних, що зберігаються в різних системах з
різними методами доступу та
особливостям організації даних;
− забезпечення цілісності даних – в
системах зберігаються метадані, а не самі
об’єкти;
− дублювання даних, що надходять з
різних джерел, довіра до джерела даних;
− невизначеність, яка виникає внас-
лідок різнотипового проектування систем,
з яких консолідуються дані;
− визначення операцій, виконання яких
привело до зміни даних;
− зміна класу задач дослідників – від
статистичних до інтелектуальних (пошук
залежностей, «важливих даних»).
Тому при опрацюванні даних з
різних джерел та керування ними виникає
проблема якості цих даних (відповідності
даних вимогам користувачів). На рівні
задач, для яких використовується точкове
джерело, якість даних цього джерела є
достатньою, і задовольняє (повністю чи
частково) потреби осіб, що приймають
рішення на їх основі. Проте, коли йде мова
про використання даних з декількох
джерел, наперед неузгоджених та з
невідомими структурами, якість таких
даних різко знижується і вже не може
задовольняти потреб користувача через
неузгодженість форматів, різне пред-
ставлення тощо.
Аналіз останніх досліджень
Над опрацюванням різнотипних
даних працювали Colin White, A. Sheth, J.
Larson, Maurizio Lenzerini, Frederick Lane,
Christoph Koch, Xin Dong, Л.А.
Калиниченко, С.А. Ступников, А.В.
© Н.Б. Шаховська, 2011
ISSN 1727-4907. Проблеми програмування. 2011. № 4
Моделі та засоби систем баз даних і знань
73
Фомичев, М.Н. Гриньов, С.Д. Кузнецов та
ін. [1 – 4]. Розроблені моделі та метамови
опрацювання різнотипних даних. Проте,
вказані моделі та методи опрацьовують
або лише наперед відомі типи даних
(здебільшого, реляційні бази даних), або
вирішують лише часткові проблеми
опрацювання різнотипних даних –
наприклад, індексування для
пришвидшення пошуку. Тому виникає
проблема керування розрізненою
інформацією, а саме її подання у
зрозумілому для користувачів вигляді
(навіть якщо вони не знають особливостей
організації структур цього джерела даних)
та опрацювання (пошуку, інтеграції,
видобуванні нових знань тощо).
Одним із базових завдань
опрацювання різнотипних даних є
інтеграція. Розроблені на сьогодні методи
інтеграції даних за своєю функ-
ціональністю поділяються на два типи:
інтеграція веб-застосувань та інтеграція на
основі сховищ даних. Проте специфіка
опрацювання консолідованих даних, а
саме [5]:
− наявність великої кількості
різнотипних джерел даних, не
виключаються протиріччя та
суперечливість інформації;
− наявність великої кількості моделей
зберігання джерел даних (реляційні бази
даних (РБД), сховища даних (СД),
напівструктуровані текстові файли,
електронні таблиці, статичні та динамічні
веб-сайти тощо);
− відсутність або недотримання розроб-
никами стандартів називання елементів
систем
вказує на те, що для врахування інформації
від усіх об’єктів галузі необхідно поєднати
обидва типи інтеграції та вдосконалити
наявні моделі зберігання даних.
Проблеми керування інформацією
виникають в організацій, робота яких
полягає в опрацюванні великої кількості
різнотипних, взаємонезалежних джерел
даних. Такий тип системи отримав назву
простір даних (ПД). На відміну від систем
інтеграції даних, що також пропонують
загальноприйнятий доступ до різнорідних
джерел даних, простори даних не
припускають, що вci семантичні
взаємозв'язки між джерелами відомі i
вказані. У користувачів, які працюють з
просторами даних, немає єдиної схеми, за
якою вони можуть створювати запити. У
деяких випадках семантичні зв'язки
невідомі через невизначену кількість
початкових джерел, які залучені до ПД,
або через брак кваліфікованих людей у
визначенні таких зв'язків. У інших
випадках, не вci семантичні зв'язки
необхідні для класифікації послуг
користувачам.
Отже, робота присвячена вирі-
шенню актуальної проблеми подання та
опрацювання різнотипних джерел та
підвищення якості консолідованих даних.
Для цього необхідно формалізувати
поняття простору даних і визначити
операцій над ним.
Постановка задачі
Поняття «консолідація» широко
використовується в інших сферах
діяльності, зокрема, в керуванні
ресурсами. Так, можна зустріти таке
визначення консолідацїі: консолідація
(бізнесу) – злиття або поглинання малих
компаній у більші. Структуризація
процесів керування бізнесом та
опрацювання різнотипних даних показана
на рис. 1.
Рис. 1. Структуризація процесів керування
бізнесом та опрацювання різнотипних
даних
Моделі та засоби систем баз даних і знань
74
Консолідовані дані – це отримані з
декількох джерел та системно інтегровані
різнотипні інформаційні ресурси, які в
сукупності поділені ознаками повноти,
цілісності, несуперечності та складають
адекватну інформаційну модель проблем-
ної області з метою її аналізу опрацювання
та ефективного використання в процесах
підтримки прийняття рішень.
Наведена аналогія з бізнесом
показує, що якість даних у джерелах даних
для вирішення задач, для яких це джерело
призначене, є достатньою. Але коли йде
мова про консолідовані дані, необхідно
здійснювати узгодження та перетворення
даних, оскільки фізичне об’єднання без
попереднього опрацювання різко знижує
їх якість.
Інформаційні продукти (ІП) певної
предметної області та консолідовані дані
становитимуть простір даних. Однією із
задач, яка виникатиме у процесі
консолідації, є невизначеність даних, що є
результатом дублювання, неточності,
відсутності, протиріччя даних (рис. 2).
Рис. 2. Схема консолідації даних
Іншою задачею є визначення та
узгодження схем даних інформаційних
ресурсів. Існуючі методи (теорія інтеграції,
канонічні системи, онтологічний пошук)
опрацьовують або наперед відомі схеми
даних, або вимагають, щоб джерела даних
(інформаційні продукти) перебували під
жорстким контролем, що не дає змоги
встановлювати змінні семантичні зв’язки.
Також одною з перепон використання
проаналізованих методів інтеграції є те,
що розробники наявних ІП не завжди
дотримувалися стандартів під час розроб-
лення схем даних. Аналіз можливостей
застосування існуючих стандартів показав,
що розроблення словника даних дозволить
уникнути цю проблему та частково
уніфікувати схеми джерел даних.
Наявні методи опрацювання розріз-
нених даних потребують вдосконалення,
оскільки у просторі даних наперед
невідомо всіх учасників та їх структури
даних.
Основний матеріал
Введемо ряд означень.
Інформаційний ресурс (ІР) – масиви
документів у інформаційних системах:
бібліотеках, архівах, фондах, банках
даних, інших видах інформаційних систем,
організовані для багаторазово викорис-
тання та вирішення проблем користувача.
Структура даних ІР (СДІР) –
загальна властивість інформаційного
ресурсу, з яким взаємодіє та або інша
програма, опис складних інформаційних
об’єктів засобами простіших типів даних.
Характеризується: множиною допустимих
значень; множиною допустимих операцій;
характером організованості.
Інформаційний продукт (ІП) –
документований інформаційний ресурс,
підготовлений відповідно до потреб
користувачів і поданий у формі товару.
Інформаційними продуктами є програмні
продукти, текстові файли, веб-сторінки,
електронні таблиці, xml-файли, бази
даних, сховища даних та інша інформація.
Каталог ІП – метадані про ІП.
Описує місцезнаходження ІП, його СДІР,
методи доступу до ІР тощо.
Множина інформаційних продуктів
Ip предметної області містить найповнішу
інформацію про предметну область, а отже
якість прийнятих керівних рішень на її
основі є найвищою. Множину всіх
інформаційних продуктів предметної
області назвемо простором даних.
DS= <DB, DW, Wb, Nd, Gr>,
де DB, DW, Wb, Nd, Gr – інформаційні
Моделі та засоби систем баз даних і знань
75
продукти, що подають множини баз даних,
сховищ даних, веб-сторінок, текстових
файлів, електронних таблиць, графічних
даних відповідно.
Стан інформаційного продукту –
зафіксований у певний момент часу його
інформаційний ресурс Ir та відомості про
ІП (каталог даних) Cg. Стан
інформаційного продукту будемо
позначати:
IpS : >=< CgIrS Ip , .
Стан простору даних – множина
станів усіх інформаційних продуктів
предметної області та відношень між
ними. Стан ПД позначатимемо DSS .
Множину інформаційних продуктів
простору даних, операцій над ІР в них та
предикатів на множині Iр назвемо
алгебраїчною системою сигнатури
простір даних [6].
aDS =<Ip, PΩ , FΩ >, (1),
де Ip = DS – скінченна множина станів
інформаційних продуктів певної
предметної галузі (баз даних DB, сховищ
даних DW, статичних Web-сторінок Wb,
текстових даних Nd, графічних та
мультимедійних даних Gr),
{ }PbPu OO ,,0PP O=Ω – множина операцій
над інформаційними ресурсами ІП, де
0PO – нульарна операція, результатом якої
є стан заданого ІП у просторі даних; PuO –
множина унарних операцій над простором
даних DS. Результатом цих операцій є
зміна стану простору даних; PbO –
множина бінарних операцій над просто-
рами даних. Результатом цих операцій є
утворення нового простору даних; FΩ –
множина предикатів, заданих на множині
інформаційних продуктів простору даних.
Серед предикатів також є нульмісний
предикат 0FΩ , результатом якого є
TRUE, якщо для заданого інформаційного
продукту Ip відомо його структури даних
ІР, та FALSE у іншому випадку.
Алгебраїчна система (1) скінченна,
оскільки множина інформаційних продук-
тів DS та їх станів є скінченною.
Говорячи про інформаційний про-
дукт, матимемо на увазі його вміст
(інформаційний ресурс), а також множину
відомостей про нього (розміщення, схема
доступу, швидкість оновлення інформації
тощо). Також описуватимемо операції, які
виконуються над ІР залежно від його
СДІР.
Основною операцією, що вико-
нується над вмістом текстових файлів,
ефектронних таблиць та веб-сторінок, є
операція пошуку. Структури даних цих
інформаційних ресурсів є простими, і як
відомо, називаються типами даних, тому
детально описуватись не будуть
Отже, хоча інформаційні продукти,
що входять в ПД, за своїм характером є
різними та керуються різними
платформами, проте вони всі виконують
однакову роль: надають дані для простору
даних через фіксацію свого стану та
забезпечують виконання притаманних для
них операцій, причому ці операції та їх
результати є визначені для усього
простору даних.
Результатом нульарної операції над
простором даних DS є стан заданого
інформаційного продукту Ip:
),(0 IpDSOS PIp = . (2)
Нульарний оператор є розши-
ренням реляційної операції селекції без
задання умови.
Уведено унарні операції алгебра-
їчної системи сигнатури простір даних.
Унарними операціями над просторами
даних є шістка:
,,,,{ accessmetastructuredsimple SeSeSe σ=PuO
},, AgConsolidAgent , (3)
де Agent – операція визначення СДІР;
metastructuredsimple SeSeSe ,, – операції пошуку;
accessσ – операція доступу.
Визначення СДІР здійснюється за
допомогою інтелектуального агента (ІА) і
полягає у доповненні Cg новими даними
про СДІР ІП
CgIpCgDSf Agent
Ip .)( U⎯⎯ →⎯ , (4)
де Cg – каталог простору даних, Ip.Cg –
каталог ІП Ip.
Моделі та засоби систем баз даних і знань
76
Агент Agent задано кортежем:
Effector,Solver
,Base_Experience
,Dic,EM,Cg
Agent = , (5)
де Cg – інформація про джерела, що вже є
у ПД; EM – компонента агента, що
відповідає за сприйняття середовища
(сенсор), тобто середовище керування
моделями; Dic – база знань, що містить
знання агента про власні можливості
(терміни-синоніми, що позначають у
джерелах одні й ті ж властивості);
Experience_Base – база накопиченого
досвіду агента, що містить “історію”
впливів на агент з боку середовища й
відповідної їм реакції агента
(Experience_Base= )(() DicDateevdate=σ ); Solver –
компонента, що відповідає за навчання
(подає список розбіжностей, які виявив
агент); Effector – компонента, яка від-
повідає за дії агента (формування запиту за
декількома джерелами, приведення
результатів запитів за джерелами до єдиної
структури, відмова у запиті).
В основі роботи агента лежить
інформація про джерела, які вже є у
просторі. Його задачею є порівняння
структур даних джерела даних, що
входитиме у простір, із структурами даних
джерел у ПД, та визначення різниці. Це
дозволило автоматизувати формування
запитів, що виконуються у просторі даних.
Чим більше джерел здатний «розрізнити»
агент, тим точніше буде інформація в DS і
тим ефективніше можна буде проводити
процедури консолідації, пошуку та опра-
цювання даних у ПД.
Отже, результатом роботи агента є
встановлення взаємозв’язку між схемами
даних.
Консолідація даних – це об'єднання
інформаційних ресурсів ІП у сховище
консолідованих даних визначеної струк-
тури DW.rel з метою подальшого опра-
цювання для прийняття керівних рішень:
DW.rel=<Ip1.Ir∪…∪ Ip n.Ir;
Ip1.Cg ∪…∪ Ip n.Cg> ⎯⎯⎯ →⎯consolid
DSS . (6)
Агрегація даних – це обчислення
узагальнених значень на основі даних
відношень вимірів для підтримки
стратегічного або тактичного керування з
детальних даних.
rel=Ag(DB1.r,…,DBn.r).
Запит про довільні дані simpleSe – у
користувачів повинна бути можливість
запиту будь-якого елемента даних,
незалежно від його формату і моделі
даних. Здійснюється на основі множини
ключових слів keyword та каталогу ІП Cg.
)(: CgSe keywordsimple σ . (7)
Стуктуровані запити будуються з
використанням SQL та подібних мов. За
допомогою каталогу визначається джере-
ло, в якому здійснюватиметься пошук, що
містить структуровану інформацію. Запит
виконується безпосередньо до джерела
даних.
...))(((: 1''. ∪= IpSe keywordxstructuredxCgstructured σπσ
)))((... nkeywordx Ipσπ∪ . (8)
Запити до метаданих мають
забезпечуватися можливостями:
− отримання даних про джерело
відповіді та місцезнаходження джерела;
− визначення елементів даних у
просторі даних, що можуть залежати від
заданого елемента даних і підтримка
гіпотетичних запитів;
− визначення рівня невірогідності
відповіді.
)(:Se _meta Cgparamuserσ , (9)
де user_param – множина параметрів
користувача (вимог до запиту), його
профілю, або вимог, які ставляться до
рішення.
Доступ до кожного з ІП залежить
від прав користувача. Права доступу
кожного із користувачів до заданого iIp
вказуються у Cg. Під профілем ко-
ристувача будемо розуміти підмножину
каталогу даних, яка вказує на ті ІП, до
яких користувач має доступ.
)(:profile Yesaccess Cg=σ . (10)
ПД можуть вкладатися одне в
інший (наприклад, ПД району вкладається
Моделі та засоби систем баз даних і знань
77
в ПД області), і вони можуть
перекриватися (наприклад, ПД в сфері
туризму перекривається з ПД оздоровчо-
лікувальної, історичної сфери та сфери
керування природними ресурсами). Тому в
ПД містяться правила розмежування
доступу.
Бінарними операціями над
множинами ІП є розширені теоретико-
множинні операції об’єднання, перетину
та різниці:
{ }−∩∪= ,,PbO .
Уведено бінарну операцію
об’єднання просторів даних:
DS3=DS1∪DS2:
profile(Agent(Cg1)∪Agent(Cg2)),
213 CgCgCg ∪= .
Операція об’єднання ПД вико-
ристовується також для додавання нового
інформаційного продукту до простору
даних: оскільки використовується мно-
жинне представлення інформаційних про-
дуктів ПД, то множина ІП ПД даних може
складатися і з одного інформаційного
продукту:
DS2=DS1∪ {Ip}:
profile(Agent(Cg1)∪ Agent(Ip.Cg)),
CgIpCgCg .13 ∪= .
Бінарна операція перетину прос-
торів даних:
DS3=DS1∩DS2:
profile(Agent(Cg1)∩Agent(Cg2)),
213 CgCgCg ∩= .
Бінарна операція різниці ПД:
DS3=DS1–DS2: profile(Agent(Cg1) –
– Agent(Cg2)), 213 CgCgCg −= .
Операція різниці використовується
також для вилучення інформаційного
продукту з простору даних:
DS2=DS1–{Ip}: profile(Agent(Cg1) –
– Agent(Ip.Cg)), CgIpCgCg .13 −= .
Розширені операції об’єднання,
перетину та різниці означають теоретико-
множинне об’єднання, перетин чи різницю
каталогів даних просторів даних. При
цьому доступ користувачів до ІП з
просторів даних DS1 та DS2 визначається
профілем, сформованим на основі нового
каталогу Cg3.
Предикати на інформаційних
продуктах – реєстр ІП, що містить базову
інформацію про кожного з них: джерело,
ім'я, місцезнаходження в джерелі, розмір,
дату створення, власника та інше, а також
результат порівняння подібності структур
даних один з одним.
Для організації роботи з розріз-
неними джерелами використовують
словник термінів та понять (ключових
слів) Dic, який містить синонімічний опис
одного і того ж концепту в різних
джерелах даних. Заповнення словника
даних на початку здійснюється за допо-
могою розробленої онтології предметної
області, пізніше – автоматизовано (ODW –
сховище консолідованих даних).
Metadata(DS)∪Dic⇒ODW. (11)
Зміна стану ПД полягає не тільки у
зміні наповнення інформаційних ресурсів
ІП, але й зміні стану інформації про них.
Наприклад, якщо за допомогою агента
визначення структури джерела ми визна-
чаємо схему даних певної бази даних, то
тим самим зберігаємо інформацію у
реєстрі продуктів, змінивши його стан.
Розроблено предикати алгебраїчної
системи сигнатури простір даних.
Нульмісний предикат 0FΩ :
повертає TRUE, якщо для заданого
інформаційного продукту Ip відомо його
структури даних ІР, та FALSE в іншому
випадку:
∅≠Ω )(:),(0 DicDicIp IpF σ . (12)
Предикат порівняння структур
даних інформаційних ресурсів ІП
використовується для визначення
відмінностей та подібностей у структурах
даних інформаційних ресурсів, що входять
до складу простору даних:
DicIpIpeq →Ω ),( 21 .
Для аналізу інформації, що
зберігається у різних джерелах,
користувачі ПД, виходячи з їхнього
профілю формуватимуть алгебраїчні
вирази. Вони задаватимуть необхідні їм
Моделі та засоби систем баз даних і знань
78
операції з множини PΩ над елементами
DS. Оскільки профіль визначає перелік
джерел, до яких користувач має доступ, та
операції над ними, то це дозволить
уникнути проблеми ведення додаткової
раціоналізації виразів за умов певної
розмитості у визначенні операцій.
Алгебраїчні вирази – це запити, які
формує користувач для отримання необ-
хідних йому даних. Оскільки основою
побудови ПД є підтримка подальшого
процесу прийняття рішень на основі
консолідованих даних, то необхідно
проаналізувати вплив цих даних на якість
прийнятого рішення. Критерій кращого чи
гіршого рішення залежить від предметної
області та конкретної задачі. Прикладами
критеріїв є: співпадіння прогнозованого
плану з реальним, мінімізація кількості
вхідних даних, згортка параметрів тощо.
Корисність даних для певного
користувача чи групи користувачів
залежить також і від ступеня довіри до
джерела даних. Тоді визначення ступеня
довіри i-го користувача до j-го джерела
даних:
n
jiTrust
jiTrust
n
k
k ),(
),( 1
∑
== , (13)
де n – кількість звернень користувача до
ресурсу, ),( jiTrustk – значення лінгвіс-
тичної змінної, що відображає довіру
довіри i-го користувача до j-го джерела
даних при k-у зверненні.
Для розрахунку загального ступеня
довіри до джерела j узагальнено формулу
(13):
( )
mn
jiTrust
Trust
m
i
j *
),(
1
∑
== , (14)
де m – кількість користувачів, що
звертались до ресурсу.
Ступінь довіри може встанов-
люватись і до конкретної характеристики
джерела даних. Тоді він враховуватиме
ступінь довіри до джерела загалом і довіру
до конкретної характеристики:
n
jiTrust
jiTrustjiTrust
n
k
attr
k
attr
∑
== 1
),(
),(),( , (15)
де attr – назва атрибута, для якого
здійснюється визначення ступеня довіри.
Визначимо корисність даних для
прийняття рішення. Нехай є критерій
RR j ∈ оцінки наслідків рішення
),...,,...,( 1 nj xxxx = , розподіл значень якого
залежить тільки від компоненти jx альтер-
нативи x . Якщо має місце незалежність
критеріїв R1, R2,…,Rm за перевагою, то
багатовимірна функція корисності прий-
нятого рішення v(r) представлена у вигляді
∑
=
=
m
j
jjj rvkrv
1
)()( , (16)
де vj(rj0) = 0; vj(rj*) = 1; 0< kj <1; j=1,2,…,m;
∑
=
=
m
j
jk
1
1 . Функцію vj, що виражає оцінку
значення rj, можна вважати j-ю ком-
понентою функції корисності, а kj – вагою,
що визначає критерій jR . У випадку прос-
торів даних вага джерела даних j визна-
чається як ),( jiTrustk j = , де і є заданим і
вказує на конкретного користувача.
Для оцінювання якості даних у ПД
застосовано загальний методичний підхід
до виділення адекватної номенклатури
стандартизованих в ISO 9126 базових
характеристик і субхарактеристик.
Функціональна придатність
визначається повнотою накопичених
об’єктів – відносною кількістю об'єктів або
документів, наявних у джерелах даних, до
загальної кількості об'єктів, що потрапили
у сховище консолідованих даних.
Оскільки методи інтеграції, що засто-
совуються до СД, не можуть застосо-
вуватись до ПД, то визначення функ-
ціональної придатності є однією з базових
характеристик, що досліджується у роботі:
∑
=
i isourceCount
ODWCountplenitude
)(
)( . (17)
Коректність даних – це ступінь
відповідності даних про об'єкти в базах
даних реальним об'єктам у заданий момент
Моделі та засоби систем баз даних і знань
79
часу, що визначається змінами самих
об'єктів, некоректних записів про їх стан
або некоректними розрахунки їх
характеристик. Вибір та встановлення
вимог до коректності даних оцінюють за
ступенем покриття накопиченими,
актуальними і достовірними даними стану
і зміни зовнішніх об'єктів, які вони
відображають. Оскільки у роботі джере-
лами даних є не об’єкти предметної
області, а ІП, то під коректністю даних
будемо розуміти кількісну характеристику,
що відображає відносну кількість описів
об'єктів з джерел даних, які не містять
дефектів і помилок, до загальної кількості
об'єктів у ПД:
)(
))(( 6.0
ODWCount
ODWCount
identy Trust>=
σ . (18)
Ресурсна економічність у стандарті
відображено зайнятістю ресурсів цент-
рального процесора, оперативної, зовніш-
ньої та віртуальної пам'яті тощо. Цей
показник у роботі не проаналізовано,
оскільки існують розроблені методи
(наприклад, метод критичних робіт) та
засоби визначення завантаженості
ресурсів.
Практичність – важко формалізо-
ване поняття, яке визначає функціональну
придатність і корисність застосування
консолідованих даних для певних
користувачів. У цю групу показників
входять субхарактеристики, які відоб-
ражають зрозумілість, зручність освоєння,
системну ефективність і простоту вико-
ристання даних. Деякі субхарактеристики
можна оцінювати економічними показ-
никами – витратами праці і часу
спеціалістів на реалізацію певних функцій
взаємодії з даними. У ПД оцінка
практичності здійснюватиметься за
допомогою функції корисності прийнятих
рішень (16).
Супроводжуваність даних відобра-
жається зручністю і ефективністю
адаптації структури та змісту описів даних
залежно від змін у зовнішньому
середовищі застосування, а також у
вимогах і функціональних специфікаціях
замовника. Узагальнено якість супровод-
жуваності консолідованих даних можна
оцінювати потребою ресурсів для її
забезпечення і для реалізації. Для оцінки
супроводжуваності розроблені методи та
засоби (наприклад, технологія ETL –
витягнення, трансформування, заванта-
ження), тому в роботі ця характеристика
даних не розглядається.
Мобільність характеризується три-
валістю і трудомісткістю їх інсталяції,
адаптації та заміщення при перенесенні на
інші апаратні та операційні платформи. У
ПД характеристика мобільності пов’язана
зі зміною даних про джерела даних у
каталозі:
( )( )
( )ODWCount
ODWCount
actuality updatemetadata 30_ <=
σ
. (19)
Отже, під якістю консолідованих
даних у просторі даних будемо розуміти
інтегральну характеристику, яка відоб-
ражає повноту накопичення даних,
коректність, мобільність та корисність
прийнятих рішень:
Maxrvsqualitysq →+= )(21 , (20)
де quality – інтегральний безрозмірний
показник характеристик якості даних,
10 ≤≤ quality ,
actualitynidentynplenitudenquality ⋅+⋅+⋅= 321
1s – коефіцієнт важливості повноти нако-
пичення даних,
)(rv – значення багатовимірної функції
корисності, 2s – коефіцієнт важливості
якості прийнятих рішень,
121 =+ ss .
Схемою сховища консолідованих
даних gC ′ назвемо скінченну множину
імен атрибутів {А1, А2, ..., Аn}, значення
яких є чіткими; {A_unk1, A_unk2, A_unkp} з
нечіткими або недермінованими зна-
ченнями; множину імен атрибутів {Unk1,
Unk2, …, Unkm}, доменами яких є числові
дані, що моделюють імовірнісні дані,
значення функції приналежності нечітких
множин; схему словника синонімів Dic та
схему каталогу даних Cg:
gC ′=<{А1, А2,...,Аn},{A_unk1, A_unk2,
A_unkp},{Unk1, Unk2, …,Unkm},Dic,Cg>.
Кортежем консолідованих даних
Моделі та засоби систем баз даних і знань
80
consolid_data назвемо інформаційний опис
об’єкта t джерела даних S, поданий у
вигляді кортежу значень характеристик,
підмножина значень якого містить дані
про об’єкт, джерело даних та синонімічні
назви об’єкта, причому ці дані можуть
бути неповні, нечіткі чи недетерміновані
дані.
Наведемо приклади кортежу консо-
лідованих даних для різних типів джерел
даних.
1. Реляційна база даних – у цьому
випадку використовується розширений
реляційний кортеж relt :
Unktdataconsolid rel ∪=_ ,
}_,...,_{},...,{ 11 mnrel unkaunkaaat ∪= ,
де },...,{ 1 naa – значення чітких атрибутів,
}_,...,_{ 1 munkaunka – значення атрибутів
з невизначеністю.
2. Сховище даних – множина значень
вимірів та характеристик фактів подано як
кортеж dwt :
},_,...,_{
}_,...,_{...
...}_,...,_{},...,{
},...,{...},...,{
,_
1
1
1111
1111
trfrf
ksk
mlrfrf
nkkndw
dw
unkaunka
unkaunka
unkaunkaaa
aaaat
Unktdataconsolid
∪
∪∪
∪∪∪
∪∪∪=
∪=
де ija – значення чіткої j-ї характеристики
i-го виміру, jrfa – значення j-ї характер-
ристики відношення фактів, ijunka _ – зна-
чення j-го атрибутів з невизначеністю i-го
виміру, jrfunka _ – значення j-ї характер-
ристики з невизначеністю відношення
фактів.
3. Напівструктурований текст –
описуються значення вершин семантичної
мережі та ступінь приналежності цих
значень до об’єктів, назви яких описані у
словнику синонімів textt :
Unktdataconsolid text ∪=_ ,
}_,...,_{},...,{ 11 mntext unkaunkaaat ∪= .
Кортеж консолідованих даних
consolid_data – це множина значень харак-
теристик об’єкта сутності, описана як
consolid_data=<C,C_unk,Unk,{dic},{cg}>,
де C – підмножина значень атрибутів із
чіткими значеннями, textdwrel ttt ∪∪=C ,
C_unk – підмножина значень атрибутів з
нечіткими значеннями, Unk – підмножина
значень атрибутів із ступенями істинності
значень атрибутів С_unk і
meta(С_unk,Unk)=1, {dic} – множина зна-
чень словника даних, {cg} – множина зна-
чень каталога даних.
Сховищем консолідованих даних
gc ′ назвемо відношення з схемою gC ′ та
множиною кортежів консолідованих даних
consolid_data. Модель сховища консолі до-
ваних даних містить дані з усіх типів
джерел ПД. Для опису інформаційних про-
дуктів ПД розроблено структури даних
(рис. 3). Відношення tbl_meta містить ін-
формацію про структури джерел даних, що
вже є у ПД (In_DS встановлено в TRUE) та
джерела, що додається до ПД. Tbl_Path
зберігає шляхи усіх джерел даних.
Tbl_Oper містить перелік операцій, що
виконуються над даними, поданими у
різних моделях.
Рис. 3. Схема відношень бази знань для
аналізу структури джерел даних
Для кожної операції розроблена
процедура, яка запускається за необ-
хідності. При надходженні нового джерела
можна взнати, як доступатися до його
даних. Tbl_Model містить перелік моделей
даних, з якими співпрацюємо у ПД. Алго-
ритм роботи ІА визначення структури
джерела, формального поданого в (5),
показаний на рис. 4.
Моделі та засоби систем баз даних і знань
81
Рис. 4. Алгоритм роботи агента
Для консолідації даних в сховищі
консолідованих даних gc ′ вико рис-
товується каталог, схема якого показана на
рис. 5.
Також необхідно передбачити той
факт, що у різний термін часу джерела
можуть мати різний ступінь довіри.
Мається на увазі, що не завжди
інформація, отримана з джерела даних,
буде достовірною. Це особливо прита-
манно Веб-ресурсам.
Рис. 5. Схема каталогу простору даних
Для встановлення ступеню довіри
до джерела використовуватиметься
лінгвісттична змінна Trust (рис. 6).
Інтервал Назва
[0; 0.20) Не вірю
[0.20; 0.40) Неправдоподібно
[0.40; 0.60) Треба перевірити
[0.60; 0.80) Цілком можливо
[0.80; 1) Вірю
Рис. 6. Лінгвістична змінна Trust
Тоді схема каталогу ПД, поданої на
рис. 5, доповнюється відношенням про
довіру.
Кожен користувач може вказувати
власний ступінь довіри до джерела. Також
ступінь довіри розраховується на основі
статистичного аналізу задоволеності
користувачів результатами запиту, який
виконувався у заданому джерелі. Для
вказання задоволеності також вико-
ристовується лінгвістична змінна Trust.
Також необхідно розробити структуру
даних для словника даних, яка показана на
рис. 7.
Рис. 7. Структура даних словника
синонімів
Введемо елементи метамови ПД.
Вважатимемо, що запит q до ПД заданий
коректно, якщо він складається з
елементів, описаних у Cg та Dic.
Моделі та засоби систем баз даних і знань
82
( )
par:
Dicc,...,c
,Trust
,Cgobject
par:q
n
object)c...c(object n
⎪
⎭
⎪
⎬
⎫
⎪
⎩
⎪
⎨
⎧
∈
>
∈
=
1
0
1 ,
де object – об’єкт, про який йде мова у
запиті, ( )ncc ,...,1 – назви характеристик
об’єкта, par – список параметрів запиту.
Залежно від типу джерела параметри
можуть відігравати роль: параметрів пошу-
ку – в текстових даних; умови вибору –
для структурованих даних.
Алфавіт запиту об’єднує алфавіт
усіх джерел даних, до яких направляють
запит, а для встановлення характеристик
вибираються усі можливі синоніми:
{ } { } { } { }HkeylRDic ∪∪∪= Re ,
де описані схеми баз даних, сховищ даних,
ключових слів текстових файлів,
заголовків веб-документів відповідно.
Практична реалізація
Інформатизація ВНЗ викликає
задачу консолідації, оскільки універ-
ситетом розроблено ряд інформаційних
систем, які мають обмінюватися між
собою інформацією, а також надавати
частину інформацію у корпоративне
сховище даних ВНЗ з метою подальшого її
аналітичного опрацювання:
− пошуку залежностей між отриманими
оцінками студентів по предметах та за
результатами вступу;
− пошуку дисциплін, у яких показники
«Успішність», «Якість» або дуже високі,
або дуже низькі;
− пошуку залежностей між
результатами наукової діяльності
студентів та їх практичними здобутками
у вигляді проходження практик, участі в
олімпіадах, конкурсах робіт тощо.
Схему взаємодії основних БД
університету показано на рис. 8.
Рис. 8. Схема взаємодії основних БД
«Львівської політехніки»
Продемоструємо результат заванта-
ження даних з інших систем. Тут
розглянемо два варіанти: традиційне
завантаження (без попереднього аналізу
даних), завантаження після аналізу даних.
Проблеми при завантаженні даних
традиційним чином виникають тоді, коли
з’являються нові спеціальності чи групи,
які необхідно додати у відповідні
довідники. Окрім того, додатково необ-
хідно визначати, яка група закріплена за
якою кафедрою. Також проблемою є
наявність суперечностей: так, є записи про
студентів одної групи, що навчаються на
різних спеціальностях. Відсоток неспівпа-
дінь – 12 %. Результат порівняння тради-
ційного завантаження та завантаження з
попереднім аналізом наведено в табл. 1.
Таблиця 1. Аналіз функціональності –
порівняння результату традиційного
завантаження та з попереднім аналізом
Кіль-
кість
студен-
тів
Кіль-
кість
нових
груп
Кількість
об’єктів,
завантаже-
них
традиційно
Кіль-
кість
заванта-
жень з
агентом
17324 0 17324 17324
17324 2 17272 17324
17324 4 17211 17324
17324 7 17001 17324
Моделі та засоби систем баз даних і знань
83
Попередній аналіз даних дозволяє
завантажувати весь обсяг інформації без
втрат (рис. 9). Для систем автоматизації
навчального процесу ВНЗ 11 =s (див.
(20)).
0
20000
40000
60000
80000
100000
120000
140000
Н
ем
од
иф
іко
ва
на
ко
нс
ол
ід
ац
ія
In
te
gr
at
io
n
Se
rv
ic
es
М
од
иф
іко
ва
на
ко
нс
ол
ід
ац
ія
Кількість об'єктів
Кількість коректно
поданих об'єктів
Кількість коректно
визначених
об'єктів з повним
співпадінням
Кількість коректно
визначених
об'єктів-синонімів
Рис. 9. Аналіз коректності - системи
Окрім систем, джерелами даних є
також локальні файли користувачів. У них
міститься інформація про студентів
заочної форми навчання. Перш за все
продемонструємо відбитки вхідних даних
для нормалізованої бази даних (рис. 10).
Завантаження інформації здійс-
нюється у сильно формалізовані відно-
шення. Далі використовуємо інтелек-
туальний агент визначення структур
даних, що будує семантичну мережу для
текстових вхідних джерел. Правила
побудови мережі показано на рис. 11.
Рис. 10. Приклад джерел даних для
системи ВНЗ (текстові дані)
describe
id name type divi-
dion includes not
includes
syno-
nic must be
1 surname string enter symbol number
2 prizvyw4e string tab symbol number 1
3 firstname string prob symbol number 1
4 string td symbol number 1
5 group string enter symbol spesial spets_id
6 група string enter symbol spesial 5 spets_id
7 прізвище string tr symbol number 1
Рис. 11. Правила побудови мережі
Заповнення цього відношення –
напівавтоматичне. Перш за все, визначено
студентів, які вже є в базі даних, але
позначені як відраховані. Їх додатково
вносити не потрібно, а лише змінити їх
історію. Далі визначаються атрибути, у які
агент спробує записати вхідні дані.
Проаналізуємо якість консолідова-
них даних. Відсоток помилок, що робить
агент, зменшується з ростом кількості
джерел (табл. 2).
Таблиця 2. Аналіз коректності даних –
текст
Кількість
джерел
Кількість
похибок Відсоток
5 3 60 %
12 6 50 %
23 12 52 %
27 12 44 %
45 15 33 %
67 23 34 %
75 24 32 %
Висновки
У роботі вирішено науково-прик-
ладну проблему опрацювання різнотипних
джерел даних з метою підвищення якості
консолідованих даних шляхом вико рис-
тання розроблених теоретичних засад та
програмних засобів організації просторів
даних як множини інформаційних продук-
тів та операцій над ними.
У результаті виконання цієї роботи
отримані наступні результати.
1. Розроблено алгебраїчну систему
сигнатури ПД, яка складається з множини
ІП, предикатів та операцій на них. Це
дозволило розробити операції консолідації
Моделі та засоби систем баз даних і знань
84
та пошуку даних з різнотипних джерел,
структура даних яких наперед невідома.
2. Розроблено інтелектуальний
агент визначення структури джерела даних
шляхом порівняння структур джерел
даних, наявних у ПД, із структурами
джерел даних, які входитимуть у ПД, що
дозволило сформувати єдиний тип запитів
до джерел даних з урахуванням ступеня
довіри та отримати коректні відповіді на
сформовані запити.
3. Розроблено структури даних
каталогу даних і синонімічного словника
та методи розрахунку ступеню довіри
користувача до джерел даних, що
дозволило збільшити релевантність
відповіді та розробити метод визначення
якості консолідованих даних.
1. Qi Su, Jennifer Widom, "Indexing Relational
Database Content Offline for Efficient
Keyword-Based Search," ideas // 9th
International Database Engineering &
Application Symposium (IDEAS'05). –
2005. – P. 297 – 306.
2. Аграновский А.В., Арутюнян Р.Э.
Индексация массивов документов. –
[Електронний ресурс]. - [Режим доступу]:
http://www.scandocs.ru/page.jsp?pk=node_11
85787748359.
3. Denoyer L, Gallinari P. The Wikipedia XML
Corpus. SIGIR Forum, 2006.
4. DeRose P., Shen W., Chen F., Lee Y., Burdick
D., Doan A., Ramakrishnan R. DBLife:
Acommunity information management
platform for the database research
community. In CIDR, 2007.
5. Dong X., Halevy A. A Platform for Personal
Information Management and Integration. In
CIDR, 2005.
6. Мальцев А.И. Алгебраические системы. –
М., 1970. – 392 с.
Отримано 21.03.2011
Про автора:
Шаховська Наталія Богданівна,
кандидат технічних наук, доцент,
доцент кафедри інформаційних систем та
мереж.
Місце роботи автора:
Національний університет
«Львівська політехніка»,
м. Львів, вул. С. Бандери, 28.
Тел.: (032) 2582404,
natalya233@gmail.com
|