Формальне подання простору данных у вигляді алгебраичної системи

Проаналізовано проблеми опрацювання розрізнених даних. Побудовано формальну модель простору даних та уведено операції над ним. Показано алгебраїчні системи бази даних та сховища даних, які є підкласами алгебраїчної системи «простір даних». Визначено особливості інтеграції даних із різнорідних джерел...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Системні дослідження та інформаційні технології
Дата:2011
Автор: Шаховська, Н.Б.
Формат: Стаття
Мова:Українська
Опубліковано: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2011
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/50105
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Формальне подання простору данных у вигляді алгебраичної системи / Н.Б. Шаховська // Систем. дослідж. та інформ. технології. — 2011. — № 2. — С. 128-140. — Бібліогр.: 6 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860235735950426112
author Шаховська, Н.Б.
author_facet Шаховська, Н.Б.
citation_txt Формальне подання простору данных у вигляді алгебраичної системи / Н.Б. Шаховська // Систем. дослідж. та інформ. технології. — 2011. — № 2. — С. 128-140. — Бібліогр.: 6 назв. — укр.
collection DSpace DC
container_title Системні дослідження та інформаційні технології
description Проаналізовано проблеми опрацювання розрізнених даних. Побудовано формальну модель простору даних та уведено операції над ним. Показано алгебраїчні системи бази даних та сховища даних, які є підкласами алгебраїчної системи «простір даних». Визначено особливості інтеграції даних із різнорідних джерел. Побудовано схему інтеграції даних та засоби обміну даними. Проанализированы проблемы обработки данных с различных источников. Построена формальная модель пространства данных и введены операции над ним. Показано, что алгебраические системы базы данных и хранилища данных являются подклассами алгебраической системы класса «пространство данных». Обозначены особенности интеграции данных с разных источников. Разработано схему интеграции данных и средств обмена данными. Problems of data processing from the different sources are analyzed. The formal model of date space and operations on it are described. It is shown that algebraic systems of data space and data warehouses are subclasses of algebraic system of «data space» class. The features of data integration from different sources are determined. The scheme of data integration and means of data exchange is developed.
first_indexed 2025-12-07T18:24:05Z
format Article
fulltext © Н.Б. Шаховська, 2011 128 ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 TIДC НОВІ МЕТОДИ В СИСТЕМНОМУ АНАЛІЗІ, ІНФОРМАТИЦІ ТА ТЕОРІЇ ПРИЙНЯТТЯ РІШЕНЬ УДК 51.001.57+004.652.4+004.827 ФОРМАЛЬНЕ ПОДАННЯ ПРОСТОРУ ДАНИХ У ВИГЛЯДІ АЛҐЕБРАЇЧНОЇ СИСТЕМИ Н.Б. ШАХОВСЬКА Проаналізовано проблеми опрацювання розрізнених даних. Побудовано фор- мальну модель простору даних та уведено операції над ним. Показано ал- гебраїчні системи бази даних та сховища даних, які є підкласами алгебраїчної системи «простір даних». Визначено особливості інтеграції даних із різнорід- них джерел. Побудовано схему інтеграції даних та засоби обміну даними. ВСТУП Інформаційне суспільство — суспільство, в якому створення, поширення, дифузія, використання, інтеграція та маніпулювання інформацією — важли- ва господарська, політична і культурна діяльність [6]. Специфікою цього виду суспільства є те, що інформаційна технологія є центральною позицією для виробництва, економіки та суспільства загалом. У сучасному суспільстві інформація є найдорожчою цінністю, а індустрія отримання, опрацювання і трансляції інформації — провідною галуззю діяльності, в яку з кожним роком все більше інвестують грошей. Як вважають провідні вчені, інформація є важливим стратегічним ресурсом, відсутність якої призводить до суттєвих втрат в економіці. Інформатизація суспільства виступає одним із вирішальних чинників модернізації економіки на ринко- вих засадах і запорукою інтеграції України у світове співтовариство. Для прийняття адекватних рішень у певній галузі необхідно, щоб дані, які надходять із різних джерел і використовуються для прийняття керівних рішень, задовольняли такі вимоги: • були повними, несуперечливими та вчасно надходили; • були інформативними, оскільки вони застосовуватимуться для прийняття рішень; • були однакової структури, для можливості завантажувати їх у єдине сховище даних та аналізувати; • зберігалися в однакових моделях даних та були незалежними від платформи розроблення, для можливості використання їх іншими засобами. Однак, на сьогодні немає жодної методики опрацювання даних, яка б задовольняла всі зазначені вимоги до опрацювання даних, тому немає мож- Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 129 ливості аналізувати стан галузі загалом, використовуючи першоджерела ін- формації, а не визначені наперед статистичні звіти. Так, наприклад, для ке- рівництва туристичною галуззю використовуються результати аналізу зве- деної форми 1 Тур та надходжень із митниць. Така наявна інформація дозволяє фіксувати факт настання певної причини та її наслідки, але найчас- тіше не дозволяє визначати причини, оскільки для аналізу використовується обмежена і наперед жорстко визначена частина інформації. За останні роки спостерігалося зростання потреби в «даних, які засто- совуються у всіх сферах», що призвело до виникнення нового типу інфор- маційної інтелектуальної системи. Найгостріші проблеми керування інфор- мацією виникають в організацій (наприклад, готелів, баз відпочинку, оздоровчих закладів, туристичних агентств), робота яких полягає в опрацю- ванні великої кількості різнотипних, взаємонезалежних джерел даних. Та- кий тип системи отримав назву «простір даних». На відміну від систем ін- теграції даних, що також пропонують загальноприйнятий доступ до різнорідних джерел даних, простори даних не припускають, що вci семан- тичні взаємозв’язки між джерелами відомі та вказані. Багато користувачів, які працюють із просторами даних проводять дослідження даних, i немає єдиної схеми, за якою вони можуть створювати запити. Тому важливо, що запити є дозволеними елементами, щоб конкретизувати piзнi ступені струк- тури, при цьому використання ключового слова робить запит більш струк- турованим. Простір даних розглядають як нову абстракцію керування даними [4]. Основоположником ідеї просторів даних був А. Хелеві. Нині розроблюють- ся два проекти, орієнтовані на підтримку просторів індивідуальних даних. Перший з них — проект SEMEX (SEMantic Explorer — система навігації та пошуку по повнотекстових документах), виконується у Вашингтонському університеті під керівництвом А. Хелеві. Другий, називається iMeMex, ви- конується під керівництвом Йенса-Петера Диттриха в компанії «ETH Zurich». Проте, як видно з аналізу Інтернет-джерел [2, 3], жоден із проектів ще не формалізував поняття простору даних, що, у свою чергу, призводить до розрізненості підходів роботи з ними. Мета роботи — формалізація та математичний опис простору даних з метою уніфікації описів джерел даних; розроблення алгебраїчної системи класу «простір даних». Об’єктом дослідження є процес консолідації даних певної галузі за умов наявності різнотипних джерел даних. Предметом дослідження є методи підвищення якості консолідованих даних, отриманих із різнотипних джерел. АЛГЕБРАЇЧНА СИСТЕМА КЛАСУ ПРОСТОРУ ДАНИХ Введемо деякі означення. Інформаційний ресурс (ІР) — дані, які можна багаторазово використо- вувати для вирішення проблем користувача. Прикладами інформаційних ресурсів є текстові файли, веб-сторінки, електронні таблиці, xml-файли, бази даних, сховища даних. Структура даних ІР (СДІР) — загальна властивість інформаційного об’єкта, з яким взаємодіє та або інша програма. Ця загальна властивість ха- рактеризується: Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 130 • множиною допустимих значень цієї структури; • множиною допустимих операцій; • характером організованості. Каталог ІР — метадані про ІР. Описує місцезнаходження ІР, його СДІР, методи доступу тощо. Множина інформаційних ресурсів Ir предметної області містить найповнішу інформацію про предметну область. Такий вид інформації на- зиватимемо консолідованою. Якість прийнятих рішень на основі консолідо- ваної інформації є вищою, ніж на основі даних з точкових джерел, оскільки є можливість пошуку прихованих залежностей даних. Множина всіх інфор- маційних ресурсів предметної області — простір даних. 〉〈= GrNdWbDWDBDS ,,,, , (1) де DB, DW, ODW, Wb, Nd, Gr — інформаційні ресурси, що подають множи- ни баз даних, сховищ даних, веб-сторінок, текстових файлів, електронних таблиць та графічних даних відповідно. Стан інформаційного ресурсу — зафіксований у певний момент часу вміст інформаційного ресурсу (даних) та відомостей про нього. Стан ін- формаційного ресурсу позначатимемо IrS . Стан простору даних — стани всіх інформаційних ресурсів предметної області (множина даних) та відношень між ними. Стан ПД позначатимемо DSS . Множину інформаційних ресурсів простору даних, операцій над ними та предикатів на множині Ir називатимемо алгебраїчною системою класу «простір даних». Рис. 1. Схема зв’язку елементів простору даних DB DW Wb Nd CG EM Gr ODW Se Wo Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 131 ,,, 〉ΩΩ〈= FPIrDS (2) де DSIr = — множини інформаційних ресурсів певної предметної галузі (баз даних ,DB сховищ даних DW, статичних Web-сторінок Wb, текстових даних Nd графічних та мультимедійних даних Gr ), },,{ 0 bu PP OOPP O=Ω — множина операцій над інформаційними ресурсами, де: 0PO — нульарна операція, результатом якої є стан заданого інформаційного ресурсу; uPO — множина унарних операцій над простором даних DS. Результатом цих опе- рацій є зміна стану простору даних; bPO — множина бінарних операцій над просторами даних. Результатом цих операцій є утворення нового простору даних. FΩ — множина предикатів, заданих на множині інформаційних ре- сурсів простору даних. Серед предикатів також є нульарний предикат 0FΩ , результатом якого є TRUE, якщо для заданого інформаційного ресурсу Ir відомого його структури даних, та FALSE в іншому випадку. Алгебраїчна система (2) скінченна, оскільки множина інформаційних ресурсів DS є скінченною [1]. Інформаційні ресурси простору даних Говорячи про інформаційний ресурс, матимемо на увазі його вміст (дані). Також описуватимемо операції, які виконуються над даними залежно від його СДІР. Як вже було перераховано вище, інформаційними ресурсами простору даних є текстові файли, електронні таблиці, веб-сторінки, графічні файли (карти, об’єкти на яких задані точково або векторно), бази даних та сховища даних. Основною операцією, що виконується над вмістом текстових файлів, електронних таблиць та веб-сторінок є операція пошуку. Структури даних цих інформаційних ресурсів є простими, і як відомо, називаються типами даних, тому детально описуватись не будуть. Реляційна база даних — це алгебраїчна система, в якої носієм є множи- на реляційних відношень r , множиною операцій — реляційна алгебра ,ℜ множиною предикатів — словник даних (схема даних бази даних) R [2]. 〉ℜ〈= RrDB ,, , (3) },,,,{ −∩∪=ℜ σπ . Сховищем даних (СД) назвемо шістку 〉〈= funcRMrmRFrfDBDW ,,,,, , де DB — множина вхідних баз даних (реляційних, багатовимірних, об’єктно-орієнтованих, ненормалізованих тощо, або множина відношень, їх схем та обмежень цілісності, які містять інформацію з вхідних баз даних), rf — множина відношень фактів, RM — схема ,rf rm — множина від- ношень метаданих, RM — схема ,rm func — множина процедур прийнят- тя рішень. Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 132 Метадані — дані, що містять опис структури сховища даних, джерел та приймачів даних тощо (дані про дані). Тоді нові дані (або рішення) — це результат застосування функцій схо- вища даних над відношенням фактів: )_,( paramuserrffuncDesign= , де paramuser_ — множина параметрів користувача або вимог, які став- ляться до рішення. Відношення між вимірами — відношення, яке є зв’язком між певними вимірами та відношенням фактів: ....21 relrfVVV n →×××× У відношенні фактів виміри подаються за допомогою зовнішніх клю- чів, а самі значення — за допомогою атрибутів агрегації. У свою чергу, rel можуть бути параметрами для інших відношень між вимірами і тим самим створювати ієрархію вимірів. Отже, хоча інформаційні ресурси, що входять в ПД, за своїм характе- ром є різними та керуються різними платформами, проте вони всі викону- ють однакову роль: надають дані для простору даних через фіксацію свого стану та забезпечують виконання притаманних для них операцій, причому ці операції та їх результати є визначені для всього простору даних. ОПЕРАЦІЇ АЛГЕБРАЇЧНОЇ СИСТЕМИ КЛАСУ «ПРОСТІР ДАНИХ» Нульарна операція. Результатом нульарної операції над простором даних DS є стан заданого інформаційного ресурсу: ).(0 DSOS PIr = Наприклад, нульарний оператор поверне стан заданої бази даних i : ).(0 DSOS iDB = Унарні операції. Унарними операціями над просторами даних є шіст- ка: },,,,,),({ accessmetastructuredsimple AgentSeSeSeAgent σℵ=PuO де },,,,{ fed consolid funcAgσ⎯⎯⎯ →⎯ℜ=ℵ — операції над інформаційними ресур- сами з відомими СДІР, )(ℵAgent — операції над інформаційними ресурса- ми з попереднім визначенням СДІР. Визначення СДІР даних здійснюється за допомогою інтелектуального агента .)( ODWCGEM Agent⎯⎯ →⎯ (4) Агент Op подається сімкою об’єктів: ,,,_,,, 〉〈= EffectorSolverBaseExperienceDicEMCGAgent (5) де CG — ідентифікатор внутрішнього стану агента (інформація про джере- ла, що вже є у ПД); EM — компонента агента, що відповідає за сприйняття Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 133 середовища (сенсор), тобто середовище керування моделями; Dic — база знань, що містить знання агента про власні можливості (терміни-синоніми, що позначають у джерелах одні й ті ж властивості); Experience_Base — база накопиченого досвіду агента, що містить «іс- торію» впливів на агента з боку середовища й відповідної їм реакції агента );(_( () DicBaseExperience Dateevdate==σ Solver — компонента, що відповідає за навчання (подає список розбіжностей, які виявив агент); Effector — ком- понента, яка відповідає за дії агента (формування запиту по декількох дже- релах, приведення результатів запитів по джерелах до єдиної структури, відмова у запиті). В основі роботи агента лежить інформація про джерела, які вже є у просторі. Його завданням є порівняння структур даних джерела даних, що входитимуть у простір, із структурами даних джерел, що вже є у просторі, а також визначення різниці. Це дозволить автоматизувати формування запи- тів, що виконуватимуться у просторі даних. Чим більше джерел здатний «розрізнити» агент, тим точніше буде ін- формація в ODW і тим ефективніше можна буде проводити процедури інте- грації, пошуку та опрацювання даних у просторі даних DS. Розглянемо завдання порівняння інформації з двох схем даних для од- накових фізичних сутностей. При цьому допускається, що схеми мають різні системи кодування, тобто той самий об’єкт може мати в цих схемах різні ідентифікатори. Допускається, що назви таблиць, атрибутів і розподіл атри- бутів по таблицях можуть розрізнятися. Але передбачається, що між схема- ми існують взаємозв’язки, які можуть бути задані експертами. Наше завдан- ня — класифікувати типи можливих взаємозв’язків і знайти необхідні умови для рішення різних завдань інтеграції даних на основі цих взаємозв’язків. Нехай деяка сутність описується в першій схемі даних відношенням A, що містить кортежі { }nxxx ,...,, 21 , а в другій схемі даних відношенням B, що містить кортежі { }myyy ,...,, 21 . Відношення A і B можуть бути як окремими таблицями в реляційній схемі даних, так і переглядами. Запишемо формаль- но умову, що A і B містять однакові фізичні сутності. Будемо вважати, що в цьому випадку існують взаємозв’язки між окремими атрибутами ix та iy . Розглянемо різні типи таких взаємозв’язків між двома скалярними ат- рибутами x та y , визначеними на скінченних доменах X та Y відповідно. • Змістовний взаємозв’язок доменів. Найзагальнішим типом взаємо- зв’язку можна вважати випадок, коли ми хоча б можемо визначити, чи спів- падають об’єкти по атрибутах x та y, або не співпадають і чи співпадають назви-синоніми у словнику термінів Dic. Тобто, задана функція змістовної еквівалентності: { } YXDicYXP =→× ,1,0: . ,1),( =yxP якщо по атрибутах x та y об’єкти співпадають, 0),( =yxP в іншому випадку. Якщо 1),( =yxP і YXDic ≠ , то доповнюємо Dic новими синонімами. • Існує відображення, що конвертує X та Y за умови, якщо для будь- якого значення Xx∈ існує значення Yy∈ таке, що по атрибутах x та y об’єкти будуть співпадати. Тобто, існує відображення YXF →: таке, що для всіх Xx∈ виконується рівність Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 134 .,1))(,( YXDicxFxP ≠= (6) • Існує узагальнююче відображення з X в Y (Y — узагальнення X) за умови, якщо для будь-якого значення Xx∈ існує рівно одне значення Yy∈ таке, що по атрибутах x та y об’єкти будуть співпадати. Тобто, існує відображення YXF →: таке, що для всіх Xx∈ виконується умова (2.5) і нерівність YX DicDicyxP ,,1),( < для всіх ).(xFy ≠ (7) • Існує узагальнююче відображення X на Y ( X — деталізація Y ) за умови, якщо для будь-якого значення Xx∈ існує лише одне значення Yy∈ , і для будь-якого y існує хоча б одне значення x таке, що по атрибутах x і y об’єкти будуть співпадати. Тобто, існує відображення YXF →: таке, що для всіх Yy ∈ існує ,Xx∈ такий що yxF =)( ; і для всіх Xx∈ вико- нуються умови (8) і (9). • Ізоморфізм доменів існує за умови, якщо є відображення ,: YXF → що задовольняє умовам (8) і (9), і зворотне до нього ,:1 XYF →− також за- довольняючим умовам (6) і (7). Будемо вважати, що об’єкт, заданий кортежем { }nxxxa ,...,, 21= в одній схемі даних, співпадає з об’єктом, заданим кортежем { }myyyb ,...,, 21= в іншій схемі даних, якщо вони співпадають за всіма взаємозалежними атри- бутами, тобто для всіх функцій взаємозв’язку відношень →× jiij YXP : { }1,0→ має місце рівність .1),( =jiij yxP Множину пар індексів ),,( ji для яких задані функції ijP , позначимо { }),( ji=Ω , ),(xNumi = ),(yNumj = ., Dicyx ∈ Тоді можна задати функцію відповідності об’єктів { }1,0: →× BAP таким чином: 1),( =baP , якщо 1),( =jiij yxP для всіх ( ) Ω∈ji, ; (8) 0),( =baP , якщо існує ( ) Ω∈ji, такі, що .1),( ≠jiij yxP (9) Перейдемо до класифікації взаємозв’язків між схемами даних. 1. Відповідність об’єктів. Якщо Ω не порожня, і задана функція }1,0{: →×BAP , будемо говорити, що встановлено відповідність об’єктів. Нехай 1X і 1Y є первинними ключами відношень A і B. Тоді, якщо вибрати всі пари },{ 11 yx , для яких 1}),...,,{},,...,,({),( 2121 == mn yyyxxxPbaP , одержи- мо таблицю відповідності Dic із заголовком }:,:{ 1111 〉〈〉〈 YyXx . Маючи таку таблицю, можна робити запити, що отримують дані з обох схем таким чином: Select mn yyyxxx ,...,,,,...,, 2121 From A, B, Dic Where 11 .XADic.X = and 11 .YBDic.Y = 2. За кортежем a із відношення A можна швидко знайти у відношенні B кортеж b такий, що 1),( =baP , не створюючи й не використовуючи табли- цю відповідності. Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 135 3. За кортежем з A можна однозначно визначити кортеж у B. 4. Відношення A і B синхронізовані. Якщо за кортежем з A можна од- нозначно визначити кортеж у B і за кортежем із B можна однозначно визна- чити кортеж в A, будемо говорити, що відношення A і B синхронізовані. Зміст цієї умови полягає в тому, що якщо перенести деякий кортеж a із A в B, а потім назад, то гарантовано не буде створено нового запису, що дублює a . Отже, результатом роботи агента є встановлення взаємозв’язку між схемами даних. Продемонструємо результат роботи агента. Користувач відсилає запит такої структури: Вибрати тури, де рейс = «Пам’ятник Шевченка» У словнику даних властивість «рейс» описана як race_id. Т а б л и ц я .Словник Dic Код Властивість Назва 1 рейс race_id 2 тур tour_id Нехай є такі дві бази даних туристичних організацій (рис. 2, 3) та веб- сайт турагентсва (рис. 4). Завданням агента є визначення туристичної фірми, що надає рейси, в які входить відвідування пам’ятника Шевченку. Рис. 2. Схема бази даних туристичного агентства 1 ob_hotel ob_room oh_room rf_room ob_monum oh_hotel dc_order dt_eksk rf_type dt_order rf_hotel ob_admunit rf_zanr rf_admuni…ob_customer rf_plan ob_admun… ob_race ob_stop ob_raice Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 136 Перш за все, агент визначає, чи є вказаний атрибут (рейс) у перерахо- ваних у каталозі джерел простору даних та в якому відношенні. Визначено, що такий атрибут існує в першій із наведених баз даних у відношенні <?xml version="1.0" encoding="UTF-8"?> <xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:od="urn:schemas-microsoft-com:officedata"> <xsd:element name="dataroot"> <xsd:complexType> ………………………. </xsd:complexType> </xsd:element> <xsd:element name="dc_order"> <xsd:annotation> <xsd:appinfo> <od:index index-name="PrimaryKey" index-key="id " primary="yes" unique="yes" clustered="no"/> <od:index index-name="customer_id" index-key="customer_id " primary="no" unique="no" clustered="no"/> <od:index index-name="race_id" index-key="race_id " primary="no" unique="no" clustered="no"/> <od:index index-name="ob_hoteldc_order" index-key="hotel_id " primary="no" unique="no" clustered="no"/> ………………………….. </xsd:complexType> </xsd:element> </xsd:schema> Рис. 4. XML-файли туристичного агентства 3 Рис. 3. Схема бази даних туристичного агентства 2 ob_hotel ob_hotel ob_room ob_room ob_admunit dt_order rf_type rf_hotel rf_admuni … ob_admun … rf_room rf_plan dc_order ob_customer dc_race ob_race dt_raice Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 137 dc_race. Далі здійснюється порівняння схеми цієї бази даних із наступною реляційною базою даних та xml-файлом. Результат порівняння вказаних джерел подано на рис. 5. Тут показано таблиці, які відсутні у джерелах даних, а також відмінності у таблицях із однаковими назвами. Встановлено відношення з однаковою схемою та з однаковим характе- ром наповнення: dc_race у першій базі даних та dc_order у другій. Встанов- лено атрибути-синоніми: race_id та dcrace_id. Хоча у xml-файлі описано від- ношення з атрибутом race_id, то встановлено, що вміст цього відношення не відповідає вмісту аналогічного у першій базі даних. Інтеграція даних — це об’єднання даних, які знаходяться у різних сис- темах (Базах даних). Існують такі методи інтеграції [4, 5]: • консолідація даних — це збір даних із територіально віддалених або різноплатформенних джерел iDB даних в єдине сховище даних DW з метою їх подальшого опрацювання та аналізу: DSn SrDBrDBrelDW ⎯⎯⎯ →⎯= consolid 1 ... ∪…∪ ; (10) • операція федералізації даних полягає у витяганні даних з первинних систем на підставі зовнішніх вимог. Усі необхідні перетворення даних здій- снюються при їх витяганні з первинних файлів. DSS : ).(.).(.: 11 rDBrDBrmrDBrDBrmS nnfedfedDS == σσ ∪…∪ . (11) Таблиці, яких нема в жодній із баз dc_race нема у прешій базі dt_eksk нема у другій базі ob_monum нема у другій базі ob_stop нема у другій базі oh_race нема у другій базі rf_type нема у другій базі rf_zanr нема у другій базі Поля, яких нема в жодній із баз dc_order count відсутнє у другій базі dc_order race_id відсутнє у другій базі dc_order realiz відсутнє у другій базі dc_order recr_name відсутнє у другій базі dc_order type_recr відсутнє у другій базі rf_plan count відсутнє у другій базі Таблиця Поле База Властивості dt_raice Тип поля Джерело стрічок class 1 nvarchar (50) «віп»; «стандарт» 2 nvarchar (30) «віп»; «стандарт»; «євро» Рис. 5. Результат роботи оператора Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 138 Агрегація даних — це обчислення узагальнених значень на основі да- них відношень вимірів для підтримки стратегічного або тактичного керу- вання з детальних даних: )..,,.( 1 rDBrDBAgrel n…= . Запит про довільні дані simpleSe — у користувачів має бути можливість запиту будь-якого елементу даних, незалежно від його формату та моделі даних. Здійснюється на основі ключових слів key_word та каталогу ІР Cg: )(_simple : CgwordkeySe σ . (12) Приклад запиту: вибрати інформацію про журнали, у навзі яких є слово «Системні». Інформація зберігається у напівструктрованому вигляді. Структуровані запити будуються з використанням SQL та подібних мов. За допомогою каталогу визначається, чи містить джерело, у якому здійснюватиметься пошук, структуровану інформацію. Якщо це так, то виконується запит безпосередньо до джерела даних. В іншому випадку за- пит продовжується виконуватись по каталогу даних у вигляді пошуку клю- чових слів: )(,: )(_structured SourceSe Cgwordkey σσ . (13) Приклад запиту: Select * from tour where race_id = «Пам’ятник Шевчен- ку». Перш за все, агент визначає джерела, де зберігається інформація про рейс, співставляє їх, а потім вибираються ті, де за характеристикою рейсу є Пам’ятник Шевченку. Запити до метаданих мають забезпечувати можливості: • отримання даних про джерело відповіді та місцезнаходження джерела; • визначення елементів даних у просторі даних, що можуть залежати від заданого елементу даних, і підтримка гіпотетичних запитів; • визначення рівня невірогідності відповіді. )(:Se _meta Cgparamuserσ , (14) де user_param — множина параметрів користувача (вимог до запиту), його профілю або вимог, які ставляться до рішення. Приклад запиту: знайти розміщення всіх джерел, які мають більше, ніж три спільних відношення. Бінарні операції. Простори даних можуть вкладатися одне в одне (наприклад, простір даних району вкладається в простір даних області), і вони можуть перекриватися (наприклад, простір даних у сфері туризму пе- рекривається з просторами даних оздоровчо-лікувальної, історичної сфери та сфери управління природними ресурсами). Бінарними операціями над множинами ІР є операція об’єднання ПД та операція перетину ПД: { }∩∪= ,PbO . Уведемо бінарну операцію об’єднання просторів даних: ,,,, 2121212121 NdNdWbWbDWDWDBDBDSDS ∪∪∪∪=<∪ Формальне подання простору даних у вигляді алгебраїчної системи Системні дослідження та інформаційні технології, 2011, № 2 139 >∪∪ 2121 , ODWODWCrCr ))()(( 21 CgAgentCgAgentprofileCg ∪= , 21 IntIntInt == , 21 SeSeSe == , 21 EMEMEM == . Уведемо операцію перетину просторів даних: ,,,, 2121212121 NdNdWbWbDWDWDBDBDSDS ∩∩∩∩=<∩ >∩∩ ,, 2121 ODWODWCrCr 21 CgCgCg ∩= , 21 WoWoWo ∩= , 21 IntIntInt ∩= , 21 SeSeSe ∩= , 21 EMEMEM == . Предикати на інформаційних ресурсах Предикати на інформаційних ресурсах — реєстр ресурсів, що містить най- більш базову інформацію про кожного з них: джерело, ім’я, місцезнахо- дження в джерелі, розмір, дату створення і власника та ін., а також результат порівняння подібності структур даних один із одним. Для організації робот із розрізненими джерелами використовують слов- ник термінів та понять (ключових слів) Dic, який містить синонімічний опис одного і того ж концепту в різних джерелах даних. Заповнення словника даних на початку здійснюється за допомогою розробленої онтології пред- метної області, пізніше — автоматизовано: Metadata(DS)∪Dic⇒ODW. Зміна стану простору даних полягає не тільки у зміні наповнення ін- формаційних ресурсів, але й зміні стану інформації про них. Наприклад, якщо за допомогою агента визначення структури джерела ми визначаємо схему даних певної бази даних, то тим самим ми зберігаємо інформацію у реєстрі ресурсів, змінивши його стан. Виділимо предикати алгебраїчної системи класу «простір даних». Нульарний предикат 0FΩ : повертає TRUE, якщо для заданого інфор- маційного ресурсу Ir відомого його структури даних, та FALSE у іншому випадку. Предикат порівняння структур даних інформаційних ресурсів .),( 21 DicIrIreq →Ω Формування алгебраїчних виразів Алгебраїчні вирази формуватимуть користувачі ПД для аналізу інформації, що зберігається у різних джерелах, виходячи з їхнього профілю. Вони зада- Н.Б. Шаховська ISSN 1681–6048 System Research & Information Technologies, 2011, № 2 140 ватимуть необхідні їм операції з множини ℘ над елементами множини DS. Оскільки профіль визначає перелік джерел, до яких користувач має доступ, та операції над ними, то це дозволить уникнути проблеми ведення додатко- вої раціоналізації виразів в умовах певної розмитості у визначенні операцій. ВИСНОВКИ Розроблено алгебраїчну систему класу «простір даних», яка складається з множини інформаційних продуктів, предикатів та операцій на них. Це дозволило розробити операції консолідації та пошуку даних із різнотипних джерел, структура даних яких наперед невідома. Розроблено інтелектуаль- ний агент визначення структури джерела даних шляхом порівняння струк- тур джерел даних, наявних у ПД, із структурами джерел даних, які входити- муть в ПД, що дозволило сформувати єдиний тип запитів до джерел даних. Новизна роботи полягає в поданні простору даних як алгебраїчної сис- теми. Уведено операції над просторами даних. Практична цінність полягає у визначенні основних задач і компонент простору даних та зв’язки між ними. Подальші дослідження стосуватимуться формалізації методів пошуку неструктурованих, напівструктурованих та суворо структурованих даних. ЛІТЕРАТУРА 1. Мальцев А.И. Алгебраические системы. — М.: Наука, 1970. — 392 с. 2. Аграновский А.В., Арутюнян Р.Э. Индексация массивов документов. — http://www.scandocs.ru/page.jsp?pk=node_1185787748359. 3. Su Q., Widom J. Indexing Relational Database Content Offline for Efficient Key- word-Based Search. Proceedings of the Ninth International Database Engineering and Applications Symposium (IDEAS), 25–27 july. — Canada, Montreal. — 2005. — Р. 297–306. 4. Шаховська Н.Б. Простори даних: поняття та призначення // Матеріали конф. CSIT-2007. — Львів. — 2007. — С. 269–277. 5. Шаховська Н.Б. Простір даних області наукових досліджень // Моделювання та інформаційні технології. — 2009. — № 45. — С.132–140. 6. Чернов А.А. Становление глобального информационного общества: проблемы и перспективы: монографія. — М.: «Дашков и К», 2003. — 232 с. Надійшла 25.03.2009
id nasplib_isofts_kiev_ua-123456789-50105
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Ukrainian
last_indexed 2025-12-07T18:24:05Z
publishDate 2011
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Шаховська, Н.Б.
2013-10-04T23:14:24Z
2013-10-04T23:14:24Z
2011
Формальне подання простору данных у вигляді алгебраичної системи / Н.Б. Шаховська // Систем. дослідж. та інформ. технології. — 2011. — № 2. — С. 128-140. — Бібліогр.: 6 назв. — укр.
1681–6048
https://nasplib.isofts.kiev.ua/handle/123456789/50105
51.001.57+004.652.4+004.827
Проаналізовано проблеми опрацювання розрізнених даних. Побудовано формальну модель простору даних та уведено операції над ним. Показано алгебраїчні системи бази даних та сховища даних, які є підкласами алгебраїчної системи «простір даних». Визначено особливості інтеграції даних із різнорідних джерел. Побудовано схему інтеграції даних та засоби обміну даними.
Проанализированы проблемы обработки данных с различных источников. Построена формальная модель пространства данных и введены операции над ним. Показано, что алгебраические системы базы данных и хранилища данных являются подклассами алгебраической системы класса «пространство данных». Обозначены особенности интеграции данных с разных источников. Разработано схему интеграции данных и средств обмена данными.
Problems of data processing from the different sources are analyzed. The formal model of date space and operations on it are described. It is shown that algebraic systems of data space and data warehouses are subclasses of algebraic system of «data space» class. The features of data integration from different sources are determined. The scheme of data integration and means of data exchange is developed.
uk
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Системні дослідження та інформаційні технології
Нові методи в системному аналізі, інформатиці та теорії прийняття рішень
Формальне подання простору данных у вигляді алгебраичної системи
Формальное представление пространства данных в виде алгебраической системы
A formal representation of the data space in the form of algebraic system
Article
published earlier
spellingShingle Формальне подання простору данных у вигляді алгебраичної системи
Шаховська, Н.Б.
Нові методи в системному аналізі, інформатиці та теорії прийняття рішень
title Формальне подання простору данных у вигляді алгебраичної системи
title_alt Формальное представление пространства данных в виде алгебраической системы
A formal representation of the data space in the form of algebraic system
title_full Формальне подання простору данных у вигляді алгебраичної системи
title_fullStr Формальне подання простору данных у вигляді алгебраичної системи
title_full_unstemmed Формальне подання простору данных у вигляді алгебраичної системи
title_short Формальне подання простору данных у вигляді алгебраичної системи
title_sort формальне подання простору данных у вигляді алгебраичної системи
topic Нові методи в системному аналізі, інформатиці та теорії прийняття рішень
topic_facet Нові методи в системному аналізі, інформатиці та теорії прийняття рішень
url https://nasplib.isofts.kiev.ua/handle/123456789/50105
work_keys_str_mv AT šahovsʹkanb formalʹnepodannâprostorudannyhuviglâdíalgebraičnoísistemi
AT šahovsʹkanb formalʹnoepredstavlenieprostranstvadannyhvvidealgebraičeskoisistemy
AT šahovsʹkanb aformalrepresentationofthedataspaceintheformofalgebraicsystem