60 Years of Databases (final part)

The article provides an overview of research and development of databases since their appearance in the 60s of the last century to the present time. The following stages are distinguished: the emergence formation and rapid development, the era of relational databases, extended relational databases,...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2023
Автор: Reznichenko, V.A.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2023
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/560
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-560
record_format ojs
resource_txt_mv ppisoftskievua/51/f915f3a2da2e8c7114ab44152bced751.pdf
spelling pp_isofts_kiev_ua-article-5602023-10-23T13:11:01Z 60 Years of Databases (final part) 60 років базам даних (заключна частина) Reznichenko, V.A. Database types: hierarchical; network; relational; navigational; temporal; spatial; spatio-temporal; spatio-network; moving objects; deductive; active; object- oriented; object-relational; distributed; parallel; arrays; statistical; multidimensional; data UDC 004.94 типи баз даних: ієрархічна; мережева; реляційна; навігаційна; темпоральна; просторова; просторово-темпоральна; просторово-мережева; об’єктів, що переміщуються; дедуктивна; активна; об’єктно-орієнтованаж об’єктно-реляційнаж розподілена; паралельна УДК 004.94 The article provides an overview of research and development of databases since their appearance in the 60s of the last century to the present time. The following stages are distinguished: the emergence formation and rapid development, the era of relational databases, extended relational databases, post-relational databases and big data. At the stage of formation, the systems IDS, IMS, Total and Adabas are described. At the stage of rapid development, issues of ANSI/X3/ SPARC database architecture, CODASYL proposals, concepts and languages of conceptual modeling are highlighted. At the stage of the era of relational databases, the results of E. Codd’s scientific activities, the theory of dependencies and normal forms, query languages, experimental research and development, optimization and standardization, and transaction management are revealed. The extended relational databases phase is devoted to describing temporal, spatial, deductive, active, object, distributed and statistical databases, array databases, and database machines and data warehouses. At the next stage, the problems of post-relational databases are disclosed, namely, NOSQL-, NewSQL- and ontological databases. The sixth stage is devoted to the disclosure of the causes of occurrence, characteristic properties, classification, principles of work, methods and technologies of big data. Finally, the last section provides a brief overview of database research and development in the Soviet Union.  Наводиться огляд досліджень і розробок баз даних із моменту їх виникнення в 60-х роках минулого століття і по сьогодні. Виділяються наступні етапи: виникнення і становлення, бурхливий розвиток, епоха реляційних баз даних, розширені реляційні бази даних, постреляційні бази даних і великі дані. На етапі становлення описуються системи IDS, IMS, Total і Adabas. На етапі бурхливого розвитку висвітлені питання архітектури баз даних ANSI/X3/SPARC, пропозицій КОДАСИЛ, концепції і мов концептуального моделювання. На етапі епохи реляційних баз даних розкриваються результати наукової діяльності Е. Кодда, теорія залежностей і нормальних форм, мови запитів, експериментальні дослідження і розробки, оптимізація та стандартизація, управління транзакціями. Етап розширених реляційних баз даних присвячений опису темпоральних, просторових, дедуктивних, активних, об’єктних, розподілених та статистичних баз даних, баз даних масивів, машин баз даних і сховищ даних. На наступному етапі розкрита проблематика постреляційних баз даних, а саме: NOSQL, ключ-значення, стовпчикові, документні, графові, NewSQL, онтологічні. Шостий етап присвячений розкриттю при- чин виникнення, характерних властивостей, класифікації, принципів роботи, методів і технологій ве- ликих даних. Нарешті, в останньому із розділів подається короткий огляд досліджень і розробок баз даних у Радянському Союзі.Problems in programming 2023; 1: 66-103 Інститут програмних систем НАН України 2023-04-27 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/560 10.15407/pp2023.01.066 PROBLEMS IN PROGRAMMING; No 1 (2023); 66-103 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2023); 66-103 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2023); 66-103 1727-4907 10.15407/pp2023.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/560/611 Copyright (c) 2023 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2023-10-23T13:11:01Z
collection OJS
language Ukrainian
topic Database types: hierarchical
network
relational
navigational
temporal
spatial
spatio-temporal
spatio-network
moving objects
deductive
active
object- oriented
object-relational
distributed
parallel
arrays
statistical
multidimensional
data
UDC 004.94
spellingShingle Database types: hierarchical
network
relational
navigational
temporal
spatial
spatio-temporal
spatio-network
moving objects
deductive
active
object- oriented
object-relational
distributed
parallel
arrays
statistical
multidimensional
data
UDC 004.94
Reznichenko, V.A.
60 Years of Databases (final part)
topic_facet Database types: hierarchical
network
relational
navigational
temporal
spatial
spatio-temporal
spatio-network
moving objects
deductive
active
object- oriented
object-relational
distributed
parallel
arrays
statistical
multidimensional
data
UDC 004.94
типи баз даних: ієрархічна; мережева; реляційна; навігаційна; темпоральна; просторова; просторово-темпоральна; просторово-мережева; об’єктів
що переміщуються; дедуктивна; активна; об’єктно-орієнтованаж об’єктно-реляційнаж розподілена; паралельна
УДК 004.94
format Article
author Reznichenko, V.A.
author_facet Reznichenko, V.A.
author_sort Reznichenko, V.A.
title 60 Years of Databases (final part)
title_short 60 Years of Databases (final part)
title_full 60 Years of Databases (final part)
title_fullStr 60 Years of Databases (final part)
title_full_unstemmed 60 Years of Databases (final part)
title_sort 60 years of databases (final part)
title_alt 60 років базам даних (заключна частина)
description The article provides an overview of research and development of databases since their appearance in the 60s of the last century to the present time. The following stages are distinguished: the emergence formation and rapid development, the era of relational databases, extended relational databases, post-relational databases and big data. At the stage of formation, the systems IDS, IMS, Total and Adabas are described. At the stage of rapid development, issues of ANSI/X3/ SPARC database architecture, CODASYL proposals, concepts and languages of conceptual modeling are highlighted. At the stage of the era of relational databases, the results of E. Codd’s scientific activities, the theory of dependencies and normal forms, query languages, experimental research and development, optimization and standardization, and transaction management are revealed. The extended relational databases phase is devoted to describing temporal, spatial, deductive, active, object, distributed and statistical databases, array databases, and database machines and data warehouses. At the next stage, the problems of post-relational databases are disclosed, namely, NOSQL-, NewSQL- and ontological databases. The sixth stage is devoted to the disclosure of the causes of occurrence, characteristic properties, classification, principles of work, methods and technologies of big data. Finally, the last section provides a brief overview of database research and development in the Soviet Union. 
publisher Інститут програмних систем НАН України
publishDate 2023
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/560
work_keys_str_mv AT reznichenkova 60yearsofdatabasesfinalpart
AT reznichenkova 60rokívbazamdanihzaklûčnačastina
first_indexed 2024-09-12T19:29:59Z
last_indexed 2024-09-12T19:29:59Z
_version_ 1818568501530460160
fulltext 66 Моделі і засоби систем баз даних і знань УДК 004.94 http://doi.org/10.15407/pp2023.01.066 В.А.Резніченко 60 РОКІВ БАЗАМ ДАНИХ (заключна частина) Наводиться огляд досліджень і розробок баз даних із моменту їх виникнення в 60-х роках минулого століття і по сьогодні. Виділяються наступні етапи: виникнення і становлення, бурхливий розвиток, епоха реляційних баз даних, розширені реляційні бази даних, постреляційні бази даних і великі дані. На етапі становлення описуються системи IDS, IMS, Total і Adabas. На етапі бурхливого розвитку ви- світлені питання архітектури баз даних ANSI/X3/SPARC, пропозицій КОДАСИЛ, концепції і мов кон- цептуального моделювання. На етапі епохи реляційних баз даних розкриваються результати наукової діяльності Е. Кодда, теорія залежностей і нормальних форм, мови запитів, експериментальні дослі- дження і розробки, оптимізація та стандартизація, управління транзакціями. Етап розширених реля- ційних баз даних присвячений опису темпоральних, просторових, дедуктивних, активних, об’єктних, розподілених та статистичних баз даних, баз даних масивів, машин баз даних і сховищ даних. На наступному етапі розкрита проблематика постреляційних баз даних, а саме: NOSQL, ключ-значення, стовпчикові, документні, графові, NewSQL, онтологічні. Шостий етап присвячений розкриттю при- чин виникнення, характерних властивостей, класифікації, принципів роботи, методів і технологій ве- ликих даних. Нарешті, в останньому із розділів подається короткий огляд досліджень і розробок баз даних у Радянському Союзі. Ключові слова: Типи баз даних: ієрархічна, мережева, реляційна, навігаційна, темпоральна, просторо- ва, просторово-темпоральна, просторово-мережева, об’єктів, що переміщуються, дедуктивна, актив- на, об’єктно-орієнтована, об’єктно-реляційна, розподілена, паралельна, масивів, статистична, багато- вимірна, машина баз даних, сховища даних, NoSQL, ключ-значення, стовпчикова, документно-орієн- тована, графова, мультимодельна, хмарна, наукова, багатозначна, XML, NewSQL, онтологічна, великі дані. © В.А.Резніченко, 2023 ISSN 1727-4907. Проблеми програмування. 2023. №1 Бази даних зображень База даних зображень (БДЗ) – це база даних, яка надає ефективні й розвинуті за- соби й технології для підтримання процесів моделювання, збереження, індексування, пошуку і маніпулювання зображеннями та їхніми метаданими [1045]. Текстовий пошук зображень (text based image retrieval – TBIR). Діяльність щодо використання зображень в базах да- них почалася в середині 70-х років минуло- го століття в зв’язку із появою розвинутих промислових СУБД. Основні роботи цього періоду були зосереджені на текстовому підході до пошуку зображень. Його суть полягала в анотуванні й пошуку зображень на основі текстової інформації. Зображення описувалися набором ключових слів, або текстовими дескрипторами і за допомогою закладених у СУБД засобів пошуку за тек- стом шукалися потрібні зображення. 1979 року відбулася міжнародна конференція з питань використання технологій баз даних у графічних додатках, де було підбито під- сумки щодо БДЗ. У статтях [1047, 1048] по- дано грунтовні огляди праць із текстового опису й пошуку зображень у БД станом на 1984 і 1992 роки. Згодом у зв’язку із складністю і різ- номаніттям описових елементів зображень дослідники усвідомили необхідність ство- рення універсальних керованих словників, класифікаційних схем та інших підходів до термінологічного впорядкування опису зображень. Уперше це питання поруши- ла Сара Шатфорд (Sara Shatford) у праці [1049], яка з часом опосередковано привела до появи різних тезаурусів, дотичних до зо- бражень. Контентний пошук зображень (content-based image retrieval - CBIR). На по- чатку 90-х років з’явилися праці з проблем пошуку зображень за їхнім вмістом. Цей 67 Моделі і засоби систем баз даних і знань напрямок дістав назву контентного пошу- ку зображень. Вважається [1050], що тер- мін CBIR уперше був використаний япон- ським інженером Тошіказу Като (Toshikazu Kato) 1992 року для опису процедури авто- матичного пошуку зображень у базі даних на основі заданих кольорів і фігур [1051]. Згодом цей термін почав використовуватись для опису технологій здобування, індексу- вання, порівняння і пошуку зображень із ви- користанням їхніх низькорівневих характе- ристик-фічерів (features). Таких, приміром, як колір, текстура, фігура, місце знаходжен- ня тощо, які можна добувати із зображення автоматично. Зазначимо, що термін «фічер» (feature) широко використовується в ма- шинному навчанні й розпізнаванні образів і означає індивідуальну вимірювальну влас- тивість або характеристику явища/об’єкта. А фічерний вектор – це n-мірний вектор числових фічерсів, які представляють пев- ний об’єкт. Саме в такому контексті ми ви- користовуємо цей термін у БДЗ. Відтоді було досліджено й запропо- новано багато методів і технологій у цьому напрямку, реалізовано чимало дослідниць- ких і комерційних систем пошуку зобра- жень. Водночас використовуються методи, засоби й алгоритми з таких наукових сфер, як статистика, розпізнавання образів, об- робка сигналів і комп’ютерний зір [1052]. Цій тематиці було присвячено чимало спе- ціальних випусків провідних журналів, а також опубліковано багато монографій [1053–1058]. У праці [1059] на підставі аналізу великої кількості систем CBIR було запро- поновано загальну концептуальну схему функціонування CBIR, наведену на рисун- ку нижче. 68 Моделі і засоби систем баз даних і знань Опишимо отримані результати в об- ласті CBIR на основі цієї схеми. Обробка зображень – сегментація. Сегментація зображень є важливим кроком у вирішенні задач розпізнавання, стиснен- ня, візуалізації й пошуку зображень. Початковим етапом аналізу (роз- пізнавання вмісту) зображення є його сег- ментація. Суть сегментації – розбиття зо- браження на численні області/об’єкти для спрощення й/або зміни представлення зо- браження, аби його було простіше і легше аналізувати [1061]. Використовується пере- важно для визначення об’єктів і меж (ліній, кривих тощо) у зображенні. Дослідження у сфері сегментації зо- бражень були ініційовані на початку 90-х років практично одночасно з появою на- прямку CBIR. Існує гостра потреба визначення, які ж фічери має зображення. Зазвичай це до- сягається розбиттям зображення на велику кількість однорідних (відносно певної влас- тивості) прямокутних областей, кожна з яких називається сегментом, а сам процес – сегментацією. Існує багато методів сегмен- тації, огляд і аналіз яких наведено в [1061 – 1064]. «Найсвіжішім» на момент написан- ня статті є огляд [1065], де аналізуються 11 методів 4-х категорій та їх застосування в 10-и предметних областях. Добування фічерів. Із зображень добуваються низькорівневі характеристи- ки (фічери) і запам’ятовуються в БД у ви- гляді фічерних векторів. Добування фічерів складає основу CBIR. До базових фічерів зображень належать колір, текстура, фігура, місце розташування. Коротко обговоримо існуючі методи добування й представлення цих фічерів. Колір. Колір є найбільш викорис- товуваним фічером під час пошуку зобра- жень. Кольори визначаються відповідно до обраного колірного простору. Існує ба- гато колірних просторів і використовують- ся вони в різних додатках. Опис колірних просторів можна знайти в [1066]. Стандарт MPEG-7 [1067] до складу дескрипторів ко- льору включив: основний колір, прямий ко- лір, колірний простір, квантування кольору, кольорову розкладку, масштабований колір, структуру кольору. Найбільш уживаним способом представлення є колірна гістогра- ма [1068]. Здебільшого це спільне розподі- лення інтенсивності трьох колірних каналів (RGB). З огляду на те, що більшість гісто- грам є розрядженими й тому чутливими до шуму, була запропонована кумулятивна гіс- тограма [1069], яка продемонструвала свої переваги порівняно зі звичайною колірною гістограмою. В праці [1070] пропонується також метод квантування колірного про- стору, що підвищує ефективність пошуку. Запропоновані також інші способи пред- ставлення кольору для цілей пошуку. Зо- крема, коваріаційна матриця кольору (color covariance matrix), моменти кольорів (color moments) [1069], набори кольорів (color sets) [1071, 1072], вектори когерентності ко- льору [1073]. Текстура. Текстура – зображення, що відтворює візуальні властивості будь-яких поверхонь чи об’єктів. Вона містить важ- ливу інформацію про структурне впорядку- вання поверхонь і їхній взаємозв’язок із на- вколишнім середовищем. Свого часу вона виявилась доволі корисною у вирішенні за- дач розпізнавання образів і комп’ютерного зору, а також плідно використовується в CBIR. На початку 70-х років був запропо- нований метод представлення текстурних фічерів у вигляді матриці співпадіння (co- occurrence matrix) [1074]. У подальшому він був розвинутий у праці [1075]. У [1076] було запропоновано варіант представлення тек- стурних фічерсів на основі психологічних досліджень візуального сприйняття зобра- жень людиною. Цей метод виявився доволі привабливим у CBIR, адже сприяв створен- ню зручнішого для користувача інтерфейсу. Вдосконалений варіант був застосований в системах QBIC [1077] і MARS [1078]. На початку 90-х багато вчених поча- ли використовувати вейвлет-перетворення у вивченні способів представлення текстури. У праці [1079] пропонується застосовувати добуту з піддіапазонів вейвлета статистику як представлення текстури. За допомогою цього підходу було досягнуто 90% точності на 112 текстурах Бродаца. У праці [1080] з метою подальшого покращення класифіка- ційної точності була використана дерево- видна структура вейвлет-перетворення. Для 69 Моделі і засоби систем баз даних і знань підвищення продуктивності були запропо- новані підходи, які поєднували вейвлет-пе- ретворення з іншими методами. Наприклад, розширення Карунена – Лоєва (Karhunen – Loeve expansion) і карти Кохонена (Kohonen maps) [1081], матриця співпадінь [1082, 1083]. Були запропоновані й досліджені представлення текстури марковськими ви- падковими полями [1084], багатоканальною фільтрацією [1085], фільтрацією Габора [1086], а також фрактальне [1087]. Протягом багатьох років публікува- лись оглядові й порівняльні статті [1088 – 1090]. Однією з останніх статей цього типу є [1091]. В ній аналізуються 22 методи/мо- делі представлення текстур, які належать до 4-х класів і 18-ти підкласів. Фігура. Існують два способи пред- ставлення фігур – у вигляді контуру й у ви- гляді площини [1092]. Найбільш використо- вуваними методами цих двох представлень є дескриптори Фурьє і моментні інваріанти (moment invariants). Основна ідея використання дескрип- торів Фурьє полягає в представленні фічера фігури у вигляді контурного перетворення Фурьє. Перші праці в цьому напрямку на- лежать до початку 70-х років [1093, 1094]. У праці [1092] запропонований модифі- кований дескриптор Фурьє для усунення перешкод під час оцифровування зобра- жень. Основна ідея використання момент- них інваріантів полягає у представленні фічера фігури за допомогою поверхневих моментів, інваріантних до перетворення. 1962 року в праці [1095] було виділено 7 таких моментів. У [1096] висунутий швид- кий метод обчислення моментів у бінар- них зображеннях. Для представлення фігур були також запропоновані: метод кінцевих елементів (finite element method – FEM) [1097], функція повороту (turning function) [1098], гістограма направлення граней (edge directions histogram) [1099], вейвлет-де- скриптор [1100]. Були також опубліковані оглядові статті [1101, 1102]. Здійснювалися дослідження із представлення об’ємних фі- гур [1103 – 1106]. Колірне розподілення (color layout). У середині 90-х років у зв’язку зі збільшен- ням розмірів зображень дійшли висновку, що хорошим рішенням для представлен- ня й пошуку зображень є використання не точного попіксельного представлення зо- бражень, а так званого колірного розподі- лення (як з точки зору фічерів кольору, так і просторових взаємозв’язків). Ідея полягала в розділенні зображення на підблоки й до- буванні колірних фічерів із кожного з них [1106, 1107]. Концепція колірного розподі- лення була досліджена й удосконалена в на- ступних працях [1073, 1108-1112], а також застосована до текстури й інших фічерів зо- бражень. Просторове розміщення. Також є важливим фічером зображення й зазвичай застосовується до просторових об’єктів. Визначається переважно у вигляді понять «вгорі, внизу, ліворуч, праворуч тощо» згідно із розміщенням конкретного об’єкта [1113]. В [1086] для представлення просто- рової інформації використовується центр ваги об’єкта і мінімальний обмежуючий його прямокутник. В інших працях про- понується використовувати лише центр об’єкта [1114]. Взаємне розміщення об’єктів важ- ливіше за їхні абсолютні координати. Для зазначення взаємного розміщення частіше використовуються рядки символів (ліворуч/ праворуч > зверху/знизу) [1115]. У праці [1116] для підтримки семантичного по- шуку зображень представлений алгоритм моделювання просторового контенту. Ори- гінальний метод просторового взаємного розміщення об’єктів прописується в [1117]. Багатовимірне індексування. Аби CBIR був дійсно масштабованим для колек- ції зображень великого розміру, необхідні ефективні методи багатовимірного індексу- вання. З цього погляду значну роль відігра- ють наступні два фактори: - Велика розмірність. Розмірність фічерних векторів зазвичай приблизно 102. - Неевклідова міра подібності. Оскільки евклідова міра не здатна ефектив- но імітувати людське сприйняття певного візуального контенту, варто використовува- ти інші міри подібності. Тож для вирішення цих проблем- спершу необхідно зменшити розмірність векторів, а потім застосувати відповідні ме- тоди багатовимірного індексування, здатні підтримувати неевклідові міри подібності. 70 Моделі і засоби систем баз даних і знань Що ж до зменшення розмірності, то було запропоновано два основні підходи: перетворення Карунена – Лоєва (Karhunen- Loeve transform – KLT) і кластерізація по стовпчиках (column-wise clustering). Зокре- ма, метод KLT досліджується й використо- вується в працях [1121-1124]. Метод клас- терізації по стовпчиках був запропонований 1983 року [1125]. Існуючі популярні методи багатови- мірного індексування включають блочний (bucketing) алгоритм, k-d – дерева, пріори- тетні k-d – дерева, квадродерева, K-D-B-, hB-, R-, R+, R*-дерева. Історія методів ба- гатовимірного індексування сягає середини 1970-х років, коли вперше були розроблені кліткові методи, квадродерева (quad-tree) і k-d – дерева (k-d – tree). Однак їхня про- дуктивність була далека від задовільної. Враховуючи потреби індексації просторо- вих даних, тобто багатовимірної інформа- ції, що виникають у системах ГІС і САПР, 1984 року в праці [1126] Антонін Гуттман (Antonin Guttman) вперше запропонував структуру індексації R-дерева. На основі цієї праці було висунуто багато інших варі- антів R-дерева: R+ -дерево [1127], удоско- налене R-дерево [1128], R*-дерево [1129]. Проте було показано, що вони перестають масштабуватися за умови розмірів векторів вище 20. У статтях [1122, 1130] представле- ні огляди порівняльного аналізу різних ме- тодів індексування станом на 1996 рік. Як ми вже зазначали, другим аспек- том у проблемі пошуку зображень є неев- клідова міра подібності. Було висунуто два підходи в цьому напрямку: кластерізація і нейронні мережі. В праці [1131] був запро- понований метод інкрементної кластери- зації для динамічного пошуку інформації. Цей метод уможливлював обробку багато- вимірних даних і використання неевклідо- вих мір подібності. В подальшому він був розвинутий у праці [1132]. У [1133] запропоновано використан- ня нейронних мереж карт самоорганізації (self-organization map – SOM) як інструмен- ту побудови індексів деревовидної струк- тури у пошуку зображень. У працях [1118- 1120] подано широкий огляд методів індек- сування й доступу. Детальніша інформація з цього приводу наведена в розділі «Просто- рові бази даних». Зіставлення зображень. Для порів- няння зображення запиту із зображеннями бази даних слід визначити метрики їх по- дібності. Це робиться шляхом введення поняття відстані між зображеннями. Чим менша відстань між ними, тим ближчі вони один до одного. У монографії [1134], обсягом у по- над 750 сторінок, наводиться вичерпний перелік метрик відстаней, які використову- ються в різних науках. Зокрема, там опи- сано 150 метрик для виміру відстаней у комп’ютерних науках, із них 35 метрик, що застосовуються у зображеннях. Наведемо кілька з них, котрі найчас- тіше використовуються в наукових статтях і системах для визначення подібності зобра- жень. Євклідова відстань – найчастіше ви- користовувана метрика для визначення сту- пеня близькості зображень, визначається як відстань між двома точками евклідового простору, який вираховується за теоремою Піфагора. Відстань міських кварталів (city block distance) – метрика, введена Герма- ном Мінковським. Згідно з цією метрикою відстань між двома точками дорівнює сумі модулів різниці їхніх координат. Тобто це відстань між двома точками із нанесеною прямокутною сіткою, коли переміщатися можна лише по сторонах сітки. Вона також називається метрикою Манхеттена, прямо- кутною метрикою, метрикою сітки. Відстань шахової дошки (chessboard distance). Припускає, що існує сітка і можна переміщатися сторонами сітки й по діаго- налі, тобто як король у шахах. Також нази- вається відстанню ходу короля й відстанню Чебишева. Відстань Махаланобіса (Mahalanobis distance) – міра відстані між векторами ви- падкових величин, що узагальнює поняття Евклідової відстані. Запропонована індій- ським статистиком Махаланобісом 1936 року [1135]. З допомогою відстані Махала- нобіса можна визначити подібність невідо- мої і відомої вибірки. Вона відрізняється від відстані Евкліда тим, що враховує кореляції між змінними та інваріантна до масштабу. Косинусна відстань (cosine distance), 71 Моделі і засоби систем баз даних і знань відома також як косинусна подібність, є мі- рою величини різниці між двома фічерними точками, використовуючи косинусне зна- чення кута між двома векторами у вектор- ному просторі. Відстань Мінковського (Minkowski distance) – параметрична метрика на евклі- довому просторі, яку можна розглядати як узагальнення евклідової відстані та відстані міських кварталів. Дістала назву на честь німецького математика Германа Мінков- ського, який уперше систематично вивчив дане сімейство функцій відстані. Кореляційна відстань (correlation distance) – популярний спосіб виміру від- стані у вигляді кореляції двох фізичних то- чок із кінцевими дисперсіями. Системи CBIR. У типовій системі CBIR (див. рисунок вище) висхідні зобра- ження зберігаються в БД із використанням відповідних методів. Із цих зображень до- буваються візуальні фічери. Вони пред- ставляються багатовимірними фічерними векторами, запам’ятовуються в БД фічерів та індексуються для швидкого пошуку з ви- користанням відповідних методів доступу. Для знаходження відповідного зображення користувач вказує його у запиті. Система добуває із цього зображення всі фічери й представляє їх у вигляді фічерних векто- рів. Далі з допомогою розроблених проце- дур подібності відбувається співставлення фічерних векторів зображення запиту та зображень бази даних із використанням ін- дексів і методів доступу. Зображення бази даних, які задовольняють співставлення, передаються користувачеві. Перша комерційна система CBIR була розроблена 1995 року в IBM і мала на- зву QBIC (Query By Image Content) [1077]. Відтоді була розроблена велика кількість комерційних і експериментальних систем CBIR. Такі, як MARS [1078], Photobook [1097], Virage [1137], Visual SEEK [1138], Netra [1139], SIMPLIciti [1140]. У звіті [1059] подано аналіз 58 систем і додатків CBIR, розроблених до 2002 року, із зазна- ченням їх першоджерел. Окрім цього, по- дана підсумкова таблиця із наведенням використаних у них фічерів. Стаття [1141] містить огляд понад 200 публікацій із CBIR станом на 2000 рік. Чудові огляди щодо методів і принципів пошуку інформації в CBIR-системах опубліковані в статтях [1043, 1044, 1136]. Семантичний пошук зображень (Semantic-Based Image Retrieval – SBIR). Недолік CBIR полягає у відсутності семантики. За допомогою низькорівневих фічерів неможливо описувати високорів- неві поняття, що сприймаються людиною. Тобто існував «семантичний розрив» між низькорівневими фічерами зображення та використовуваними людиною високорівне- вими поняттями предметної області. У стат- ті [1141] семантичний розрив визначається як «неспівпадіння інформації, яку можна виділити з візуальних даних, та інтерпрета- ції цих же даних користувачем у конкретній ситуації». У зв’язку з цим на початку 2000-х років з’явилися дослідження, а згодом і роз- робки із семантичного пошуку зображень (Semantic-Based Image Retrieval – SBIR). У звіті [1142] виділяються три рівні мов. Рівень 1. Пошук за низькорівневими фічерами, такими, як колір, текстура, фігу- ра, просторове розміщення. Типовим є за- пит «знайти зображення, схожі на задане». Рівень 2. Пошук об’єктів заданого типу, що ідентифікуються вказаними фіче- рами, з можливим застосуванням логічних правил виведення. Приклад: «знайти зобра- ження з автомобілями». Рівень 3. Пошук за абстрактними ха- рактеристиками, які включають високорів- неві міркування про цілі, способи, методи представлення зображених предметів або сцен. Може включати пошук названих по- дій або зображення з емоційним чи релігій- ним значенням тощо. Наприклад, «знайти зображення радіючого натовпу». Рівні 2 і 3 належать до класу SBIR, а різниця між рівнями 1 і 2 характеризує «се- мантичний розрив». Натепер пропонуються такі 5 методів зменшення семантичного розриву: - використання онтологій для ви- значення високорівневих концептів/понять; - методи машинного навчання для встановлення взаємозв’язків між низькорів- невими фічерами й високорівневими кон- цептами запиту; - кластерізація даних; 72 Моделі і засоби систем баз даних і знань - зворотній зв’язок по релевантнос- ті (relevance feedback – RF) у пошуковий цикл для безперервного вивчення намірів користувачів; - семантичні шаблони (semantic template – ST) для підтримки високорівне- вого пошуку зображень. Стисло опишемо ці методи, деталь- ніше можна ознайомитися з ними в [1143 – 1146]. Онтологія об’єктів. Онтологічний підхід передбачає створення таксономічної онтологічної структури понять щодо фіче- рів зображень. У таких системах спочатку визначаються різні інтервали для низько- рівневих фічерів. Ці інтервали визначають дескриптори зображень проміжного рівня, як-от, «світло-зелений, зелений, темно-зеле- ний». Вони також можуть узагальнюватись із побудовою в кінцевому варіанті онтоло- гії понять і можуть використовуватись для визначення високорівневих понять запитів. Наприклад, «хмара» може бути визначена як «довільна опукла» (фігура), світло-бла- китного» (кольору), «однотонна» (тексту- ра), «вгорі» (просторове розміщення). На онтологіях можна визначити спеціальні правила виведення. Найпростішими з них є таксономічні правила. Прикладом такої он- тологічної системи є [1114]. Розбиття фічерів на інтервали по- требує використання єдиних правил іме- нування вершин створюваної онтології. Так, зокрема, в [1147 пропонується система іменування кольорів. У праці [1148] запро- понована система з 12 основних кольорів, 5 рівнів яскравості й 3 рівнів насиченості. Всього 180 варіантів кольору. Для пошуку картин визначаються поняття: теплий ко- лір, холодний колір, контрастність (світло- темний, тепло-холодний, доповнюючий). Приміром, знайти картини, написані в світ- ло-темних тонах. За аналогією з кольором виникає необхідність створення системи іменування текстури, яка б стандартизувала опис і представлення текстур [1149]. Як ви- явилося, іменування текстур доволі складна задача, і досі немає єдиної системи імену- вання. Машинне навчання. В багатьох ви- падках для отримання високорівневих се- мантичних фічерів варто використовувати такі формальні засоби, як навчання з учите- лем і без нього. У SBIR використовуються такі мето- ди навчання з учителем, як метод опорних векторів (support vector machine – SVM), а також байєсівський класифікатор, штучна нейронна мережа, бутстрепінг, дерево рі- шень. Скажімо, в [1150] SVM використову- ється для анотування зображень, в [1151] з допомогою бінарного байєсівського класи- фікатора високорівневі поняття виводяться з низькорівневих фічерів зображень. У [1152] штучна нейронна мережа також застосову- ється для встановлення взаємозв’язку між фічерами зображень і попередньо вибра- ними високорівневими поняттями. В [1153] для анотування великої колекції зображень було застосовано метод бутстрепінгу. В [1154] спершу будується дерево рішень на основі набору зображень, релевантних за- питу, й потому використовується як модель для класифікації зображень бази даних від- повідно до двох класів: релевантних і нере- левантних. Кластеризація зображень. Це типо- вий метод навчання без учителя для цілей пошуку зображень. Мета кластеризації – розбиття багатовимірної неструктурованої множини даних на ряд підмножин даних зі схожими характеристиками [1155, 1156]. Він передбачає групування наборів даних зображень таким чином, щоб максимізува- ти схожість зображень всередині кластерів і мінімізувати схожість поміж різними клас- терами. Для кластеризації зображень найпо- пулярнішими є методи К-середніх (K-means) [1143] та його варіанти, Ncut [1157], нечіт- кої кластеризації с-середніх (fuzzy c-means) [1158]. Показовим прикладом використання кластеризації є автоматичне уточнення міри подібності для співставлення зображень за схемою, наведеною на рисунку нижче й за- пропонованої в [1159]. 73 Моделі і засоби систем баз даних і знань Вона функціонує так. На підставі зо- браження запиту і обраної міри подібності відшукуються схожі зображення, вони ран- жируються й обираються найближчі з них. Потім на основі гіпотези, що зображення з однаковою семантикою мають тенденцію до групування, здійснюється кластеризація для розподілу результуючих зображень за різними семантичними класами. Далі сис- тема виводить кластери зображень і уточ- нює міру подібності згідно зворотнього звязку користувача. Для пошуку зображень застосову- ються також методи розпізнавання об’єктів. Зворотній зв’язок за релевантніс- тю (relevance feedback – RF). На відміну від попередніх підходів, метод RF передбачає онлайнову обробку, що забезпечує опера- тивну реакцію на наміри користувача. Тра- диційно RF використовувався в текстових інформаційно – пошукових системах, а від середини 90-х років почав застосовуватись у CBIR для включення користувача в пошу- ковий цикл з метою зменшення «семантич- ного розриву» між тим, що формулюється в запиті й наміром пошуку користувача. Дослідження показали, що застосування RF суттєво підвищує продуктивність CBIR- систем [1160]. Двома найбільш використо- вуваними стратегіями RF є зміна ваги фіче- рів (re-weighting) і переміщення точки запи- ту (query-point-movement) [1161]. Семантичні шаблони (ST). Семан- тичний шаблон – це відображення між ви- сокорівневими поняттями й низькорівне- вими візуальними фічерами. Зазвичай ST визначається як «репрезентативний» фічер поняття/концепта, що вираховується із ко- лекції зразків зображень. Використанню ST у CBIR присвячені праці [1162 – 1165]. Мультимодельні бази даних Концепція мультибаз даних, тобто систем, які уможливлюють роботу з багать- ма БД, зародилася наприкінці 70-х років у зв’язку з широким упровадженням БД на виробництві й створенням комп’ютерних мереж. Ця концепція постійно розвивалася протягом наступних 40 років.Виділяються наступні етапи її розвитку: - інтеграція неоднорідних баз даних; - федеративні бази даних; - багатоваріантне зберігання; - мультимодальні бази даних; - полі-бази даних. Зупинимося докладніше на мульти- модальних БД, стисло описавши всі інші. Інтеграція неоднорідних баз даних. Ідея інтеграції баз даних із різними моделя- ми даних зародилася на початку 80-х років (тоді панували три моделі даних – ієрархіч- на, мережева й реляційна) з метою забезпе- чення одночасного й спільного використан- ня прикладною програмою кількох баз да- них, організованих у рамках різних СУБД. Інтеграція спрямовувалась на подолання програмної та інформаційної несумісності баз даних. Суттєві результати в цьому на- прямку були отримані радянським ученим Калініченком Л.А. Калініченко Л.А. 1983 року він опублікував моногра- фію [1166] із представленням методів ви- рішення проблеми інтеграції баз даних, що базуються на створенні загальної моделі даних високого рівня і перетворенні довіль- них моделей даних на загальну модель. Федеративні бази даних. Федера- тивна база даних (ФБД) – це віртуальна база даних, що являє собою прозору інте- грацію багатьох автономних, можливо, неоднорідних і розподілених БД у логічно єдину БД для спільного використання й об- міну даними. Уперше ідея федеративності була ви- словлена 1979 року у звіті [1168] й згодом детально пропрацьована Хеймбігнером і 74 Моделі і засоби систем баз даних і знань Маклеодом (Heimbigner, McLeod) 1985 року в праці [1169]. ФДБ надає єдиний зовнішній інтерфейс, який дозволяє запам’ятовувати й вишукувати дані в автономних БД із вико- ристанням спільної мови запитів. Для цьо- го ФБД декомпозує запит на підзапити для їх відпрацювання складовими БД й відтак об’єднує отримані результати з використан- ням так званих «посередників» (wrappers). Дуже важливим аспектом ФБД є ав- тономність їхніх БД-компонентів, тобто рі- вень їх самостійності. В працях [454, 1170] була пропонована 1 досліджена наступна класифікація автономності: - проєктна – здатність самостійно ухвалювати проєктні рішення будь-якого плану; - комунікаційна – здатність ухвалю- вати рішення щодо того, чи варто взаємоді- яти з іншими БД-компонентами і як саме; - виконавча – здатність виконувати власні локальні операції, ініційовані ло- кальними користувачами або подіями, без будь-якої взаємодії із зовнішнім оточенням федерації; - асоціативна – здатність ухвалюва- ти рішення щодо того, чи варто «ділитися» своїми функціональними можливостями й ресурсами з іншими учасниками федерації і, якщо так, то якою мірою, аж до самостій- ного виходу з федерації або входу до неї. У працях [1171 – 1174] були також запропоновані й досліджені інші види авто- номності. Особливою характеристикою ФБД є їхня гетерогенність (неоднорідність), яка належить до моделей даних, семантики да- них, до обмежень цілосності та мов запитів. Важливою особливістю ФБД є їхня здатність підтримувати правила відобра- ження/співставлення схем баз даних феде- рації. Загальноприйнятим рішенням є ви- користання глобальної схеми, що містить релевантні складові схем – членів федера- ції і опис відображень у вигляді поглядів (views). Водночас пропонується два прин- ципових рішення залежно від напрямку ві- дображень [1175]: 1 Як було зазначено в [454], у 80-х роках термін мультибази даних широко використовувався дослідниками в різних контекстах. Зокрема, в роботах [1178, 1179] під ними малися на увазі слабозв’язані ФБД, у [1185, 1186] – сильнозв’язані багато федеративні БД, а в [1187 – 1189] –- сильнопов’язані однофедеративні. - Global as View (GaV): глобальна схема визначаєтьсч в термінах локальних схем; - Local as View (LaV): локальні схеми визначаються в термінах глобальної схеми. Наприклад, у відомій федеративній системі Multibase [1176] підтримується гло- бальна схема і єдиний інтерфейс для фор- мування запитів. Запити, сформульовані відносно глобальної схеми, декомпозують- ся відповідно до існуючих підсхем і обро- бляються локальними базами даних. Виділяють три категорії ФБД [1177]: слабопов’язані (loosely coupled), сильнопов’язані (tightly coupled) й гібрид- ні залежно від того, хто керує федерацією і яким чином інтегруються компоненти. В слабопов’язаній ФБД саме адміністратор БД відповідальний за включення БД до фе- дерації й глибину її інтеграції з іншими БД федерації. БД-компоненти такої федерації не підлягають управлінню адміністратора ФБД. У деяких джерелах слабопов’язані ФБД називаються інтероперабельними БД (interoperable database). У сильнопов’язаній ФБД на її адміністратора покладається від- повідальність за створення й управління федерацією та активним контролем за до- ступом до компонентів-БД. У гібридному підході робиться спроба об’єднати переваги попередніх двох підходів. Зокрема, можли- вість прямого доступу до багатьох інших сховищ даних та використання глобальної схеми для отримання інформації про ло- кальні схеми. Система є однофедеративною (single federation), якщо в ній можна представити не більше однієї федеративної схеми. В ін- шому випадку система є багатофедератив- ною (multiple federation). Були здійснені дослідження з архі- тектури ФБД, всебічний аналіз яких подано в огляді [454]. У 80-х роках розроблено ряд слабопов’язаних [1178 – 1180], сильнопов’я- заних однофедеративних [1181, 1182] і си- льнопов’язаних багатофедеративних ФБД [1183, 1184]1. 75 Моделі і засоби систем баз даних і знань У другій половині 80-х років була опублікована ціла серія аналітичних огля- дів на дану тематику [454, 1190 – 1194], що свідчить про її велику на той час по- пулярність. Багатоваріантне зберігання. Від- родження ідеї мультимодельності баз да- них припало на початок 2000-х років. 2006 року Ніл Форд (Neal Ford) висловив ідею багатомовного програмування (Polyglot Programming) [1195]. Її суть полягала в наступному. Кожна мова програмування найкраще придатна для вирішення за- дач певного класу. Через це, створюючи крупні системи, бажано використовувати не одну мову, а кілька, програмуючи кож- ну функціональну задачу тією мовою, яка реалізує її найефективніше. На підставі цієї ідеї 2008 року Скотт Лебернайт (Scott Leberknight) ввів поняття багатоваріантного зберігання (polyglot persistence) [1196] для баз даних. Мається на увазі можливість на- давати прийнятні способи представлен- ня, зберігання і маніпулювання даними для різних класів задач розроблюваної системи з використанням багатьох одно- модельних різнотипних баз даних і про- грами-посередника для інтеграції цих баз даних. Скотт Лебернайт Було розроблено ряд дослідниць- ких прототипів, підтримуючих концеп- цію багатоваріантного зберігання [1197 – 1199]. Так у системі Spark SQL [1199] надається API, де з допомогою мов Data- Frames і SQL можна працювати з такими сховищами даних, як JSON, JDBC, Hive, ORC і Parquet. Мультимодельні БД. 2009 року Лука Гаруллі (Luca Garulli) вперше роз- робив і випустив на ринок мультимедій- ну БД Orient DB. Згодом, 2012 року, на конференції “Nosql Matters 2012” у Кель- ні (Німеччина) він уперше застосував термін багатомодельність відносно баз даних і передбачив розвиток систем кла- су NoSQL у нові системи з додатковою функціональністю та підтримкою різних моделей даних включно [1200]. Він за- пропонував створювати єдині інтегрова- ні багатофункціональні NoSQL-продукти замість того, щоб збирати різні, окремі системи NoSQL разом для забезпечення аналогічного результату. Відтоді саме в розумінні Гаруллі почали застосовува- ти термін «мультимодельна база даних». Тобто єдина система баз даних, що під- тримує велику кількість моделей даних. Зазначимо, що Гаруллі розробив також СУБД Arcade DB і Arcade Trader. Лука Гаруллі Мультимодельна БД (ММБД) – це БД, яка підтримує велику кількість моделей даних у межах однієї інтегрованої СУБД і забезпечує стандарти даних і стандарти мов запитів кожної з моделей. На рис. нижче наведено графічну ін- терпретацію мультимодельної БД. 76 Моделі і засоби систем баз даних і знань Теорія категорій. Було здійснено ряд досліджень [1201 – 1203], де обґрунтовується застосування теорії категорій для формально- го опису відображень між моделями даних у ММБД. ММБД мають усі характерні для БД властивості: − зберігання даних, їх резервне копію- вання й відновлення; − розвинуті мови запитів і механізми індексування; − підтримку ACID транзакцій; − «безшовну» інтеграцію різних моде- лей; − рзвиток механізмів захисту й обме- жень прав доступу. Системи ММБД. На рис. нижче наве- дено часову вісь із зазначенням років появи мультимодальних систем завдяки, або розши- ренню вихідного форимату новим, або почат- ковій реалізації як мультимодальної СУБД. Еволюція систем природним чином відпо- відала зростанню популярності відповідних моделей. Так, зокрема, перша хвиля появи ММБД припадає на початок 21-го століття у зв’язку з появою XML. Реляційні СУБД по- чали включати XML, застосовуючи стандарт SQL/XML, або ж його діалекти. Друга хвиля пов’язана із другим десятиліттям у зв’язку із настанням епохи NoSQL і великих даних. Уже 2015 року провідні аналітики Gartner заявили: «Майбутнє СУБД, їхніх архітектур і способів використання — мультимодельність» [1204]. Від 2017 року всі лідируючі виробники СУБД пропонують мультимодальні рішення, реля- ційні і NoSQL, на основі єдиної платформи. Існують три стратегії підтримки муль- тимодельності [1205]: − розробка принципово нової стратегії зберігання для підтримки багатьох моделей даних; − розширення вихідної стратегії збе- рігання для підтримки додаткових моделей даних; 77 Моделі і засоби систем баз даних і знань − створення нового зовнішнього ін- терфейсу на основі вихідної стратегії збері- гання. В наступній таблиці наводяться ММБД відповідно до цієї класифікації. Далі наводиться таблиця із зазначен- ням моделей/структур даних, що підтриму- ються відповідними ММБД. У списку до- даткових моделей є стовпчик, який включає об’єктну модель, визначені користувачем типи й вкладені структури даних. Попу- лярність СУБД взято із сайту DB-Engines Ranking (https://db-engines:com/en/renking) станом на березень 2022 року. Порівняльний аналіз ММБД. Із зростанням кількості платформ мультимо- дальних баз даних почалися дослідження з їхнього порівняльного аналізу. До прикладу, в працях [1206 – 1208] подається аналіз іс- нуючих ММБД і порівняльні оцінки ММБД з іншими SQL і NoSQL БД. Огляди з ММБД. Упродовж остан- ніх років було написано кілька аналітичних оглядів і монографій із ММБД [454, 1177, Стратегия под дер жки мультимо дельности Тип исходной модели СУБД Новая стратегия хранения реляционная PostgreSQL SQL server IBM DB2 Oracle DB колоночная Cassandra CrateDB DynamoDB ключ/значение Riak key документная Cosmos DB Расширение исходной страте гии хранения реляционная MySQL колоночная HPE Vertica документная ArangoDB MongoDB графовая OrientDB объектная Cache Новый внешний интерфейс на основе исходной стратегии хранения реляционная Sinew ключ/значение C-treeACE Oracle NoSQL Database документная Couchbase MarkLogic 78 Моделі і засоби систем баз даних і знань 1205, 1209 – 1211]. Даний розділ написаний переважно на основі матеріалу оглядів [454, 1210]. Полісховища (polystore). Полі-БД (poly-database) – це мультибаза даних, яка інтегрує багато гетерогенних баз даних і надає велику кількість інтерфейсів для фор- мулювання запитів [1209]. Полі-БД поєднує властивості мультимодальних і багатоварі- антних БД. Як і мультимодальна, вона під- тримує багато гетерогенних моделей даних, водночас, як і багатоваріантна, надає велику кількість зовнішніх інтерфейсів під кожну з підтримуваних моделей даних. Вважвєть- ся, що першою системою полі сховищ була BigDAWG, представлена 2015 року [1198]. Крім того, до цього класу належать також CloudMdsQL [1212], Myria [1213], Apache Drill [1214], QoX [1215], Musketeer [1216], Rheem [1217], AWESOME [1218]. Етап 6. Великі дані (2010 – 2020+) Світовий обсяг оцифрованої інфор- мації зростає по експоненті. Від початку 1980-х років цифрова інформація подвою- ється щокожні 40 місяців. Згідно з даними компанії IBS, до 2003 року світ накопичив 5 ексабайтів даних (1 ЕБ = 1 млрд. гігабай- тів), а нині така кількість відтворюється кожні два дні. До 2008 року цей обсяг зріс до 0,18 зетабайта (1 ЗБ = 1024 ексабайта), до 2011 року – до 1,76 зетабайта, до 2013 – до 4,4 зетабайта. В травні 2015 року глобальна кількість даних перевищила 6,5 зетабайта. 2025 року, за прогнозами, люд- ство сформує 163 зетабайта інформації. Наведемо цитату з [1219], яка роз- криває суть проблеми великих даних: «Да- них стає все більше й більше, але водночас з поля зору випадає та обставина, що про- блема ажніяк не зовнішня, вона викликана не стільки невимовно великою кількістю даних, як неспроможністю старими методами впоратися з новими обсягами. Спостеріга- ється дисбаланс – здатність породжувати дані виявилася сильнішою за здатність їх переробляти… За ім’ям Big Data прихову- ється якісний перехід у комп’ютерних тех- нологіях, здатний викликати серйозні зміни, Не випадково цей перехід називають новою технічною революцією». Широке використання терміну «ве- ликі дані» пов’язують із Кліффордом Лін- чем (Clifford Lynch), редактором журналу Nature. 3 вересня 2008 року він підготував спеціальний випуск номера найстарішого британського наукового журналу, присвя- чений пошуку відповіді на питання: «Як можуть вплинути на майбутнє науки техно- логії, які уможливлюють роботу з великими обсягами даних?» [1220]. Кліффорд Лінч Варто також підкреслити, що впер- ше цей термін усе ж озвучив Джон Р. Маши (John R. Mashey) 1998 року [1221, 1222], який з приводу застосування терміну ска- зав: «Мені була необхідна найпростіша й коротка фраза, аби вказати, що межі об- числювальної техніки продовжують роз- ширюватися». Джон Р. Маши 79 Моделі і засоби систем баз даних і знань Исходная модель СУБД Дополнительные модели/структуры П оп ул яр но ст ь (2 02 2) Адрес Ре ля ци он на я/ SQ L К ол он оч на я К лю ч/ зн ач ен ие JS O N X M L Гр аф ов ая R D F В ло ж ен на я/ О П Т /о бъ ек тн ая Реляционная PostgreSQL P P P P P ***** https://wiki.postgresql.org/wiki/Main_Page SQL Server P P P P P ***** https://ru.wikipedia.org/wiki/Microsoft_ SQL_Server IBM DB2 P P P P P ***** https://en.wikipedia.org/wiki/IBM_Db2 Oracle DB P P P P P P P ***** https://en.wikipedia.org/wiki/Oracle_ Database Oracle MySQL P P P ***** https://en.wikipedia.org/wiki/MySQL Sinew P P * SAP HANA P P P ***** https://en.wikipedia.org/wiki/SAP_HANA Колоночная Cassandra P P P ***** https://ru.wikipedia.org/wiki/Apache_ Cassandra CrateDB P P P P *** https://en.wikipedia.org/wiki/CrateDB DynamoDB P P P P P ***** https://en.wikipedia.org/wiki/Amazon_ DynamoDB HPE Vertica P P P *** https://en.wikipedia.org/wiki/Vertica Ключ/ значение Riak P P P P ***** https://en.wikipedia.org/wiki/Riak c-treeACE P P P * https://en.everybodywiki.com/C-treeACE Oracle NoSQL DB P P P P **** https://en.wikipedia.org/wiki/Oracle_ NoSQL_Database Datastax P P P ***** https://en.wikipedia.org/wiki/DataStax Redis P P P ***** https://uk.wikipedia.org/wiki/Redis Документная ArangoDB P P P **** https://en.wikipedia.org/wiki/ArangoDB Couchbase P P ***** https://en.wikipedia.org/wiki/Couchbase_ Server MongoDB P P P ***** https://en.wikipedia.org/wiki/MongoDB Cosmos DB P P P P P P ***** https://en.wikipedia.org/wiki/Cosmos_DB MarkLogic P P P P P P ***** https://en.wikipedia.org/wiki/MarkLogic AllegroGraph P P *** https://en.wikipedia.org/wiki/AllegroGraph ArcadeDB P P P P * https://en.wikipedia.org/wiki/ArcadeDB EnterpriseDB (EDB Postgres) P P P P **** https://en.wikipedia.org/wiki/EnterpriseDB Графовая OrientDB P P P P **** https://en.wikipedia.org/wiki/OrientDB GraphDB P P **** https://db-engines.com/en/system/ GraphDB Amazon Neptune P P **** https://en.wikipedia.org/wiki/Amazon_ Neptune Объектная InterSystems Caché P P P P **** https://en.wikipedia.org/wiki/ InterSystems_Cach%C3%A9 80 Моделі і засоби систем баз даних і знань Цей термін одразу ж призвичаївся в академічному середовищі, передусім щодо проблеми росту і різноманітнос- ті наукових даних, а згодом широко роз- повсюдився в діловому світі. 2010 року з’являються перші продукти й технології, які безпосередньо стосуються пробле- ми обробки великих даних. До 2011 року найбільші постачальники інформаційних технологій у своїх ділових стратегіях по- чинають використовувати поняття «Ве- ликі дані». Це, зокрема, стосується IBM, Oracle, Microsoft, Hewllet-Packard, EMC. А основні аналітики ринку інформацій- них технологій присвячують концепції спеціальні дослідження. В цьому ж 2011 році аналітична компанія Gartner відзна- чила великі дані як тренд номер два в ін- формаційно- технологічній інфраструкту- рі (після віртуалізації). Із 2013 року великі дані як академічний предмет починають вивчати у вузівських програмах щодо на- уки про дані, обчислювальних науках та інженерії. 2015 року Gartner відзначила, що технологія великих даних перейшла від етапу галасу до практичного застосу- вання. Існує багато визначень великих да- них [1223, 1224]. Узагальнюючи ці та інші матеріали, дамо наступне визначення. Великі дані (Big Data) – це величез- ні обсяги неоднорідної, неструктурованої або слабо структурованої, суттєво розпо- діленої та інтенсивно зростаючої, мінли- вої й використовуваної цифрової інформа- ції, яку неможливо обробити традиційни- ми засобами. Це також методи, технології й засоби їх збору, зберігання, обробки й аналізу з метою отримання сприйнятних людиною результатів. Характеристичні властивості великих даних. 2001 року Дуглас Лейні (Douglas Laney), аналітик Gartner Inc. , сформулював визначальні характерис- тики сучасних даних [1225], які дістали назву «Три V»: Volume, Velocity, Variety (обсяг, швидкість, різноманітність). І хоча він не говорив про великі дані, а просто про дані, однак у науковому середовищі ці три властивості почали розглядатися як визначальні характеристики саме великих даних. Дуглас Лейні Згодом Зікопулос (Zikopoulos) [1226] запропонував додати ще 2 ознаки – досто- вірність і цінність (Veracity, Value), отримав- ши таким чином «П’ять V». З часом були висунуті додаткові визначальні характерис- тики Big Data [1227 - 1230], що дістали на- зву «Сім V» і «Десять V». Серед науковців заведено вважати, що великі дані почина- ються з обсягів у петабайти і з інформацій- ними потоками у 100 ГБ на добу. Класифікація великих даних. Ре- дактор журналу Web 2.0 Journal Дайон Хінч- кліф (Dion Hinchcliffе) дав класифікацію Big Data [1231, 1232], яка дозволяє співвід- носити технологію з результатом, на який чекають від обробки Big Data. Хінчкліф по- діляє підходи до Big Data на три групи: Fast Data (швидкі дані), їх обсяг вимірюється терабайтами – петабайтами; Big Analytics (велика аналітика – петабайтні – екзабайтні дані та Deep Insight (глибоке розуміння) – екзабайти – зетабайти. Групи відрізняють- ся між собою не лише обсягами даних, а й якістю рішення задач із їхньої обробки. Швидкі дані. Розуміючи, що тради- ційні методи зберігання, переміщення, об- робки й вибірки даних недостатні, індустрія великих даних створила абсолютно новий набір методів і адаптувала деякі з існуючих, що дозволило обробляти всю сукупність ін- формації за прийнятний час. Обробка для Fast Data не передбачає отримання нових знань, її результати співвідносяться із апрі- орним знанням і дозволяють робити висно- вки про те, як відбуваються ті чи інші про- цеси. Вона дозволяє краще й детальніше 81 Моделі і засоби систем баз даних і знань побачити все, що відбувається, підтвердити або ж заперечити певні гіпотези. Лише не- велика частина з існуючих наразі техно- логій придатна для вирішення задач Fast Data. До цього списку потрапляють деякі технології роботи зі сховищами (продукти Hadoop, MapReduce, Greenplum, Netezza, Oracle Exadata, Teradata, СУБД типу Verica й kdb). Швидкість роботи цих технологій має зростати синхронно із зростанням об- сягів даних. Велика аналітика. Задачі, які вирі- шуються засобами Big Analytics, помітно відрізняються, до того ж не лише кількісно, а і якісно. А відповідні технології мають допомагати в отриманні нових знань. Вони слугують для перетворення зафіксованої в даних інформації в нове знання. Однак на цьому середньому рівні не передбачається наявність штучного інтелекту у виборі рі- шень або будь-яких автономних дій аналі- тичної системи – вона будується за принци- пом «навчання з учителем». Інакше кажучи, весь її аналітичний потенціал закладаєть- ся в неї у процесі навчання. Класичними представниками такої аналітики є продукти MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache і Mahout. Глибоке розуміння. Могутніх, але не сфокусованих інструкментів Big Analytics недостатньо, аби зажити слави великих даних. Deep Insight передбачає цілеспря- моване навчання без учителя (unsupervised learning) і використання сучасних методів аналітики, застосовуваних у конкретних об- ластях, а також різні способи візуалізації. На цьому рівні можливе виявлення знань і закономірностей, апріорно невідомих. Ме- тоди глибокого проникнення дозволять пе- ретворити всю інформацію в оперативно ді- ючий колективний інтелект. Принципи роботи. Виходячи з ви- значення Big Data, можна сформулювати наступні основні принципи роботи з таки- ми даними [1233]. Розподіленість. Зберігати інформа- цію в одному місці безглуздо і практично неможливо. Тому технологія роботи з Big Data має використовувати розподілене збе- рігання, управління, обробку й аналіз да- них, що зберігаються в різних сховищах да- них в усьому світі. Горизонтальна масштабованість. Оскільки даних може бути як завгодно ба- гато – будь-яка система, яка має на меті об- робку великих даних, повинна бути розши- рюваною. Вдвічі зріс обсяг даних – удвічі збільшився кластер, і все продовжує працю- вати з такою ж продуктивністю. Відмовостійкість. Принцип гори- зонтальної масштабованості припускає, що машин у кластері може бути багато. Як-от, Hadoor –кластер має понад 42000 машин. Це означає, що частина цих машин гаран- товано буде виходити з ладу. Методи робо- ти з великими даними мають враховувати можливість таких збоїв і переживати їх без будь-яких значних наслідків. Локальність даних. У великих роз- поділених системах дані розподілені серед великоЇ кількісті машин. У разі, якщо дані фізично знаходяться на одному сервері, а обробляються на іншому, то витрати на передачу даних можуть перевищувати ви- трати на саму обробку. Тому одним із най- важливіших принципів проєктування Big Data-рішень є принцип локальності даних. За можливості обробляємо дані на тій же машині, де вони зберігаються. Інтерпретація даних у процесі їх обробки (schema-on-road). Традиційні бази даних працюють за принципом schema-on- road – спочатку необхідно визначити схему і лише після цього можна вводити дані і пра- цювати з ними. В Big Data робота з даними може здійснюватися за принципом schema- on-road – дані надходять до сховища таки- ми, як є, без будь-якого попереднього опису, без зазначення їхньої структури й семанти- ки. І лише в процесі вибірки для обробки відбувається їх «осмислення». Усі сучасні засоби роботи з велики- ми даними так чи інакше дотримуються цих п’яти принципів. Методи і технології. Дотепер ство- рено і адаптовано велику кількість методів і технологій для збору, агрегування, мані- пулювання, аналізу й візуалізації великих даних. Ці методи й технології запозичені з різних сфер, із статистикою, інформатикою, прикладною математикою й економікою включно. Це означає, що для отримання ви- годи з великих даних, необхідно використо- вувати гнучкий міждисциплінарний підхід. 82 Моделі і засоби систем баз даних і знань Деякі методи й технології були розроблені для оперування значно меншими обсягами і розмаїттям даних, але були успішно адап- товані для Big Data. Інші були розроблені останнім часом, зокрема, для збору й аналі- зу великих даних. У звіті [1234] підрозділу McKinsey Global Institute (MGI) міжнарод- ної аудиторсько – консалтингової компанії McKinsey & Company наводяться методи й технології аналізу і візуалізації, придатні для Big Data. В ньому наводяться: – методи аналізу (інтелектуальний аналіз даних – Data Mining, краудсорсинг (crowdsourcing), машинне навчання, штуч- ні нейронні мережі, розпізнавання образів, імітаційне моделювання, просторовий ана- ліз, генетичні алгоритми тощо; – технології (бізнес-аналітика – Business intelligence, хмарні обчислення, сховища даних, розподілені системи тощо); – засоби (Big Table, Cassandra, Dynamo, Google Fill System, Hadoop, MapReduce); – методи візуалізації (хмара тегів (Tag cloud), кластерграма (Clustergram), іс- торичний потік (History flow), просторовий інформаційний потік (Spatial information flow). Модель великих даних. Реляційна модель даних (РМД) не застосовується для великих даних. Її структура строго форма- лізована, в свою чергу великі дані можуть бути слабоструктурованими, або ж взагалі не мати структури. РМД передбачає існу- вання схеми, а великі дані можуть бути без- схемними. Реляційна алгебра для великих даних абсолютно не придатна, Проблема незалежності даних взагалі не постає перед великими даними. Тому класичні архітек- турні рішення РМД у вигляді архітектури ANSI/X3/SPARC не застосовні. Ідея кон- цептуальної інформаційної моделі у вели- ких даних відсутня. Гордість РМД – теорія залежностей і нормальних форм абсолютно не придатна через те, що нова декомпози- ція стає згубною для великих даних. Тож для них більш природна концепція існу- вання єдиного універсального відношення. Ще одна гордість РМД – принцип ACID для транзакцій є задорогим, неефективним і не- потрібним задоволенням. У зв’язку з цим у великих даних за- стосовують моделі даних NoSQL. Найпо- пулярнішою є модель ключ – значення. На цій моделі визначена модель обчислень MapReduce – модель розподіленої обробки даних, запропонована компанією Google для обробки великих обсягів «сирих» да- них на комп’ютерних кластерах (великої кількості комп’ютерних вузлів). MapReduce була розроблена співробітниками Google Джеффрі Діном (Jeffrey Dean) і Санджаєм Гемаватом (Sanjay Ghemawat) [1235]. Джеффрі Дін Санджай Гемават Стаття має величезну популяр- ність. На момент підготовки даного мате- ріалу вона була опублікована в двох дже- релах, і на неї було зроблено понад 33000 посилань. 83 Моделі і засоби систем баз даних і знань Ця модель обчислень передбачає ви- конання трьох етапів. Етап Map – попередня обробка і фільтрація вхідних даних у вигляді вели- кого списку значень. При цьому головний вузол кластера отримує цей список, ділить його на частини й передає робочим вузлам. Кожен робочий вузол задіює функцію Map до локальних даних і в результаті видається велика кількість пар «ключ – значення». Що саме буде знаходитися в ключі і в значенні – вирішувати користувачеві. Етап Shuffle. Відбувається непомітно для користувача. На цій стадії на кожному робочому вузлі на основі ключів, створених функцією Map, значення «розбираються по корзинах» (сортуються). Кожна корзина від- повідає одному ключу виводу стадії Map. Ці корзини слугують входом для Reduce. Етап Reduce. Кожна корзина зі зна- ченнями, сформованими на етапі Shuffle, потрапляє на вхід функції Reduce. Ця функ- ція задається користувачем і обчислює фі- нальний результат для окремої «корзини». Множина всіх значень, повернутих функ- цією Reduce, є фінальним результатом MapReduce задачі. Попри простоту MapReduce, її пере- вага в тому, що це архітектура, яка забезпе- чує: – автоматичне розпаралелювання даних із величезного масиву по великій кількості вузлів обробки, що виконують процедури MapReduce; – ефективне балансування заванта- ження цих обчислювальних вузлів, яке не дозволяє їм простоювати або бути занадто перевантаженими; – технологію відмовостійкої робо- ти, яка передбачає, що під час виконання загального завдання частина вузлів обробки може вийти з ладу, або з якоїсь іншої при- чини припинить обробку даних. Дослідження й розробки баз даних у колишньому СРСР (1970 – 1991) Опис досліджень і розробки в галу- зі баз даних буде неповним без урахування 2 Когаловский М. Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002г., 800с. 3 Банки данных и информационно-поисковые системы. Библиографический указатель. Киев: АН УССР. Институт кибернетики им. В.М.Глушкова, 1984. 231 с. результатів, отриманих в цій царині в ко- лишньому СРСР. На початку цього сторіч- чя відомий учений – енциклопедист в галузі баз даних М.Р. Когаловський опублікував фантастичну монографію «Енциклопедія технологій баз даних»2. В ній є розділ «Ві- тчизняні дослідження і розробки» у главі «Короткий нарис еволюції технологій баз даних». Тут міститься ґрунтовний мате- ріал з історії баз даних в СРСР. Власне, весь наступний текст є суттєво скороче- ним і дещо переробленим змістом вище зга- даного розділу. Довелося опустити значну частину бібліографії і численні посилання на розділи енциклопедії. За можливості по- силання замінені прізвищами авторів. Єди- не, що додано нами, це останній розділ із персоналіями. Щоб уявити обсяг здійснених на той час досліджень, наведемо фрагмент із мо- нографії М.Р.Когаловського, який містить бібліографію в 380 назв: «… ми змушені переважно обмежитися тут мінімаль- ною кількістю бібліографічних посилань, бо досить значна бібліографія зайняла б сотні сторінок. Навіть порівняно фраг- ментарна бібліографія, укладена за ініціа- тивою члена-кореспондента Академії наук СРСР А.О.Стогнія, опублікована 1984 року, являє собою видання обсягом понад 200 сторінок».3 Организація й інфраструктура досліджень і розробок Попри те, що потреби й передумови розвитку досліджень і прикладних розро- бок, пов’язаних із технологіями баз даних, існували в країні й раніше, активна діяль- ність у цій сфері розгорнулася лише на по- чатку 70-х років. Саме в цей період поча- лося масове виробництво обчислювальних систем третього покоління ЕС ЕВМ, що мали дискове обладнання зовнішньої па- мяті прямого доступу, без якої неможливе створення систем баз даних. Першим великим форумом зацікав- лених у цій галузі спеціалістів стала Все- союзна конференція з автоматизованих сис- 84 Моделі і засоби систем баз даних і знань тем управління, яка відбулася восени 1973 року в Ташкенті і проводилася в Інституті кібернетики Узбецької академії наук. На конференції працювала спеціалізована сек- ція «Банки даних». Конференція приверну- ла увагу до проблематики баз даних в краї- ні. До цього часу в кількох організаціях уже здійснювалися розробки інструментально- го програмного забезпечення. Конференція виявила гостру потребу в створенні постійно діючого науково-сус- пільного організаційного ядра вітчизняної спільноти спеціалістів у галузі баз даних. Цю функцію було покладено на засновану Державним комітетом з науки і техніки 1974 року Робочу групу з програмного забезпе- чення банків даних (РГБД), пізніше (1984) реорганізовану в Науково- технічну комісію ДКНТ із баз даних. Ця комісія функціонува- ла до 1987 року. Головою РГБД протягом усього пе- ріоду її функціонування був Г.К.Столяров (Інститут математики АН БРСР), заступни- ками голови – Л.А.Калініченко (ІНЕУМ), В.М.Савинков (ВНІІПОУ) і А.О.Стогній (Інститут кібернетики АН УРСР), ученим секретарем – В.П. Дерибас (Інститут мате- матики АН БРСР). РГБД проводила всесоюзні конфе- ренції із банків даних і всесоюзні піврічні семінари, створювала тимчасові цільові й експертні підгрупи. Вона також видавала «Звіти РГБД» і методичні матеріали, керува- ла редакційною радою основного періодич- ного збірника із СУБД і БД «Прикладна ін- форматика», співпрацювала з міжнародни- ми профільними групами USA CODASYL DBTG і British Computer Society DBAWG. Пізніше, 1978 року, для розгортання й координації робіт у даній галузі в рамках Академіїх наук СРСР була створена Комісія з банків даних та інформаційно – пошуко- вих систем при Президіумі Академії наук, що функціонувала до 1991 року. Головою Комісії протягом усього цього періоду був член-кореспондент АН СРСР А.О.Стогній, заступником голови – В.І.Філіпов (ОЦ АН СРСР), а вченим секре- тарем – П.І.Андон (СКБ програмного забез- печення ІК АН України). Спільними зусиллями РГБД і Комісії було організовано п’ять Всесоюзних кон- ференцій із банків даних. Здійснювалося формування державних планів наукових до- сліджень із профілю цих організацій, розро- блялися методичні матеріали, проводилася експертиза розробок великих систем про- грамного забезпечення. Зрештою, тут необхідно відзначи- ти важливу роль низки вітчизняних видав- ництв. Провідну роль у виданні моногра- фічної літератури вітчизняних і зарубіжних авторів із проблематики систем баз даних відігравало видавництво «Фінанси і статис- тика». Чималим також є внесок видавництв «Наука» і «Світ». Створення програмного інструментарію Однією з необхідних умов практич- ного використання технологій баз даних є оснащення організацій – розробників і ко- ристувачів додатків необхідним програм- ним інструментарієм, передусім системами управління базами даних. Як уже зазнача- лося, на початковому етапі розвитку техно- логій баз даних в країні не існувало таких програмних засобів і можливостей їх при- дбання за кордоном. Тому необхідно було здійснити самостійні розробки СУБД попри відсутність досвіду створення таких склад- них програмних систем. Перші кроки у вирішенні цієї задачі здійснювалися на початку 70-х років, коли почалося виробництво обчислювальних машин сімейства ЄС ЕВМ. Роботи спря- мовувалися у двох напрямках. Передусім були здійснені спроби створення власних оригінальних вітчизняних СУБД. Водночас у пришвидшеному режимі розроблялися аналоги деяких широко розповсюджених за кордоном СУБД, здатних функціонувати на вітчизняних апаратно-програмних плат- формах. Подібний підхід було застосовано також підчас створення СУБД для апарат- них платформ, серійне виробництво яких почалося в країні після появи платформи ЄС ЕВМ, - для СМ ЕВМ, АСВТ, ІВМ–су- місних персональних комп’ютерів тощо. Імовірно, першим проєктом в краї- ні, спрямованим на створення оригінальної вітчизняної СУБД, сумірної із передовими досягненнями міжнародного рівня, була СУБД типу CODASYL НАБОБ для плат- форми ЄС ЕВМ, розробка якої почалась у 85 Моделі і засоби систем баз даних і знань вказаний період у ВДПТІ ЦСУ СРСР. Поряд із СУБД НАБОБ згодом були розроблені також і інші оригінальні вітчиз- няні системи. СУБД типу CODASYL ПАР- МА для платформи ЄС ЕВМ із операцій- ною системою ОС ЄС була створена НДІ УМС (м. Перм). В Обчислювальному цен- трі Академії наук було розроблено СУБД типу CODASYL КОМПАС для платформи БЕСМ-6 із операційною системою ДІС- ПАК. В Інституті проблем управління було розпочато роботи з реалізації СУБД іє- рархічного типу для платформи ЄС ЕВМ, згодом продовжені і ВНДІСІ й завершені створенням системи ІНЕС користуваль- них пристроїв. В Інституті кібернетики АН УРСР було створене сімейство сумісних реляційних СУБД ПАЛЬМА для платформ ЄС ЕВМ, СМ ЕВМ і ІВМ-сумісних персо- нальних комп’ютерів. У Міністерстві легкої промисловості Латвії була розроблена роз- винута реляційна СУБД ВІРА. Інститут сис- темного програмування РАН створив мо- більний SQL-сервер на платформі UNIX і як засіб вільно поширюваного програмного забезпечення передав його разом із вихідни- ми текстами до консорціуму Free Software Foundation. Інститутом системного аналі- зу РАН розроблена мультимедійна СУБД НІКА для персональних комп’ютерів. Вар- то відзначити також створення у Воронезь- кому СКТБ «Системпрограм» сімейства сучасних реляційних СУБД ІНТЕГРАЛ для різних програмно-апаратних платформ. Серед СУБД та інших засобів про- грамного забезпечення систем баз даних, створених в країні, що мають зарубіжні ана- логи, найширшого розповсюдження набули СУБД СІНБАД (МНІПІ АСУ ГХ); СУБД ОКА і телемонітор КАМА Інституту кібер- нетики АН УРСР; СУБД ДІСОД, розроблена НДІ «Восход»; система БАНК Пермського НДІУМС; створена радянсько-болгарським інститутом ІНТЕРПРОГРАМА в Софії сис- тема СЕДАН; система РЕБУС Всесоюзного науково-дослідного інституту непромисло- вої сфери та ряд інших розробок. Зауважи- мо, що деякі зі згаданих систем, зокрема, ОКА і ДІСОД мали надзвичайно розвинуте оточення, функціонально значно багатше, ніж у систем прототипів. Розробка додатків Головною сферою застосування тех- нологій баз даних у 70-і – 80-і роки в СРСР були автоматизовані системи управління різного рівня в економіці. Розроблялися такі унікальні системи макрорівня, як Авто- матизована система планових розрахунків (АСПР) Держплану країни і планових ор- ганів республік та Автоматизована система Державної статистики (АСДС). Дещо зго- дом СУБД стали невід’ємним компонентом програмного забезпечення числених галу- зевих систем управління. Одначе наймасовішою сферою засто- сування були автоматизовані системи управ- ління підприємствами. Типову архітектуру таких систем і комплекс типових додатків розробив інститут «Центропрограмсистем» (м. Калінін). Цей інструментарій викорис- товувався на практиці численними промис- ловими підприємствами країни. Активну підтримку діяльності у вка- заному напрямку надавав міжнародний Ра- дянсько – Болгарський інститут «Інтерпро- грама» (Софія), який створив різноманітне типове програмне забезпечення, широко розповсюджене в обох країнах. У 80-і роки на основі технологій баз даних було створено ряд інформаційних систем центральних організацій різних ві- домств – патентної служби, Держстандарту, Вищої атестаційної комісії, Всесоюзного науково-технічного інформаційного центру тощо. СУБД почали використовуватися для створення інформаційних систем на тран- спорті та будівництві, у найбільших дер- жавних бібліотеках, в системах управління складними технічними системами, в бага- тьох інших галузях. Однак усі ці розробки були доступні лише великим організаціям, спроможним утримувати в своїй структурі центри обробки даних. Радикальна зміна ситуації відбулася у другій половині 80-х років, коли в країні почали з’являтися персональні комп’ютери. Навіть доволі скромні за своїми функціо- нальними можливостями й надзвичайно прості в користуванні СУБД, створені для цієї швидко прогресуючої апаратної плат- форми, уможливили застосування найпро- стіших технологій баз даних у системах обробки даних для задоволення інформа- 86 Моделі і засоби систем баз даних і знань ційних потреб практично в будь-якій сфері життєдіяльності. Деякі додаткові відомості про розви- ток додатків технологій баз даних в СРСР 70-х -80-х років можна знайти в оглядах4. Наукові дослідження в галузі систем баз даних Дослідження, пов’язані з розроб- кою нових СУБД. Фактор абсолютної но- визни проблеми для вітчизняних спеціаліс- тів вимагав здійснення досліджень на бага- тьох етапах реалізації першої вітчизняної СУБД типу CODASYL НАБОБ. При ство- ренні системи ІНЄС, що стала прототипом СУБД ІНЄС, була розроблена деревовидна структура індексу з блоками, що розщеплю- ються. В ІНЄС уперше серед ієрархічних СУБД застосована ідея самоописуваності баз даних, пропонована раніше для реля- ційних систем. На основі досвіду реалізації системи КОМПАС її авторами була запро- понована інтегрована реляційно – мережева модель даних. У процесі створення SQL-серверу Інституту системного програмування було узагальнено й ефективно використано до- свід реалізації передових дослідницьких прототипів реляційних СУБД – System R і Ingres, втілені концепції відкритих систем і мобільності програмного забезпечення, ви- користані деякі принципи об’єктного підхо- ду. Творці системи ПАЛЬМА використали в своєму проєкті принципи багаторівневої архітектури СУБД і техніку відображення моделей даних. Розвиток теорії реляційних баз даних. Проблеми математичної теорії ре- ляційних баз даних викликали в країні та- кий же значний інтерес , як і за кордоном. Їм була присвячена велика кількість дослі- джень, здійснених переважно в 70-і – 80-і роки. Більшість праць цього напрямку пов’язана з дослідженнями у галузі теорії залежностей і теорії нормалізації; з оцінкою можливостей реляційних мов, із питаннями 4 Перевозчикова О.Л., Ющенко Е.Л. Тенденции развития систем обработки даных// Программирование. 1977. №5. С.70-90. Dale A.G. Database Management Systems Development in the USSR. Computing Surveys, Vol. 11, No. 3, 1979, pp.213-226. еквівалентності реляційних баз даних, з алгебраїчними аспектами реляційної моде- лі даних. Досліджувалися також аксіома- тичні підходи в області реляційної моделі, формальні методи синтезу схем і логічного проєктування реляційних баз даних. До- сліджувалися також взаємозв’язок логіки і реляційної моделі, питання обчислюваності реляційних запитів. Велику увагу приверта- ли проблеми неповноти інформації в реля- ційних базах даних. Моделювання даних. Вітчизняні роботи в цій царині почалися ще в 70-і роки. До цього напрямку належать, зокрема, до- слідження, пов’язані зі створенням кано- нічної моделі даних для систем інтеграції неоднорідних баз даних [Л.А.Калініченко та інші] і моделей даних концептуального рівня архітектури мультимодельної багато- рівневої СУБД [М.Р. Когаловський та інші]. Деякими авторами вводяться різні розши- рення реляційної моделі. У середині 70-х років у мовах про- грамування сформувалася концепція аб- страктного типу даних, яка вплинула на по- дальший розвиток підходів у сфері моделю- вання даних [О.В. Замулін та інші]. Потужніші моделі потребувалися в системах інтеграції неоднорідних інформа- ційних ресурсів. Одна з таких моделей ви- значається мовою Синтез [Л.А. Калінічен- ко]. Дослідженню логіко-математичних основ моделювання даних присвячені праці В.І.Філіпова, В.А.Крахта, М.Ш.Цаленка. Відображення моделей даних. У зв’язку з розробками розподілених систем баз даних, систем інтеграції неоднорідних баз даних і СУБД із багаторівневою архі- тектурою, серед них і мультимодальних систем, виникли проблеми відображення моделей даних. Їх вирішенню були присвя- чені дослідження радянських авторів, спря- мовані на створення методів перетворення моделей даних і конструювання комутатив- них відображень [Л.А.Калініченко], на роз- робку архітектурних аспектів відображення 87 Моделі і засоби систем баз даних і знань моделей даних [М.Р.Когаловський] та спе- цифікацію визначення відображень для кон- кретних моделей даних [Р.П.Крамаренко, А.Л.Віллемс]. СУБД із мультимодельним зовніш- нім рівнем. У радянських дослідницьких проєктах, пов’язаних із розробками муль- тимодельних СУБД, існували два підхо- ди. В першому з них [М.Р.Когаловський, М.М.Виноградов та інші] роль концепту- альної моделі даних відіграє функціонально достатньо розвинута модель, яка забезпечує можливості відображення широко розпо- всюджених моделей. Другий підхід орієнтувався на нові дослідження в мовах програмування. Вод- ночас концептуальна модель, направду, не фіксується в системі. В системі програму- вання баз даних АТЛАНТ [О.В.Замулін] передбачається можливість її специфікації як певної системи типів даних, котрі ви- значаються користувачем засобами інстру- ментальної системи. Аналогічний підхід фактично застосовується в [Х.-М.Х Хаав], де інструментальною системою є система програмування ПРИЗ, на основі якої реалі- зована СУБД DABU. Управління конкурентним до- ступом. Серед ранніх публікацій в галузі управління конкурентним доступом у сис- темах баз даних передусім можна назвати працю [М.В.Оленін та інші], в якій дослі- джена і запропонована модель паралельних транзакцій для розподіленого об’єктного середовища. Варто також згадати здійсне- ну в рамках проєкту вільно розповсюджу- ваного мобільного SQL-серверу реалізацію методу серіалізації транзакцій, заснованого на двофазному протоколі предикатних бло- кувань [С.В.Кузнєцов та інші]. Г.Г.Домбровська досліджувала тех- ніку підтримки вкладених транзакцій і транзакцій інших типів на рівні механізмів управління буферизацією в середовищі збе- рігання бази даних. Вона ж показала, що внесення деякої додаткової інформації в 5 Кузнецов С.Д. Методы оптимизации выполнения запросов в реляционных СУБД// Сб. Итоги науки и техники. Вычислительные науки. Т.1. – М.: ВИНИТИ, 1989. – С.76–145. 6 Задорожный В.И. Методы вычисления и оптимизации рекурсивных запросов в дедуктивных базах данных. Препринт докл.//V Всесоюз. конф. «Системы баз данных и знаний». Львов, 1991. 47 с. 7 Калиниченко Л.А., Рывкин В.М. Машины баз данных и знаний. М.: Наука, 1990. 296с. дерево активних транзакцій дозволяє суттє- во розширити сферу застосування техніки управління транзакціями. Оптимізація запитів у систе- мах баз даних. Варто відзначити фунда- ментальний аналітичний огляд5 і окре- мі статті С.Д.Кузнєцова, а також огляд В.І.Задорожного6 з оптимізації рекурсивних запитів у системах дедуктивних баз даних. Системи програмування баз даних і знань. Ідеї створення мов програмування, котрі забезпечували б єдине ефективне се- редовище як для розробки додатків, так і для управління даними, вперше були висловле- ні О.В.Замуліним. Система програмування із вхідною мовою Бояз була реалізована на платформі БЕСМ-6 і використовувалася в деяких організаціях. Групою О.В.Замуліна було виконано великий комплекс дослі- джень в царині мов програмування баз да- них, розроблено й реалізовано сучаснішу (порівняно з Бояз) мову Атлант. Аналогічний доволі цікавий підхід у сфері створення мови програмування і бази даних був запропонований пізніше, напри- кінці 70-х років в Інституті кібернетики АН Естонії. Засобами системи програму- вання високого рівня ПРИЗ, яку її ідеолог Е.Х.Тиугу кваліфікує як інструмент концеп- туального програмування, можна не лише програмувати додатки, а й описувати та підтримувати на стадії виконання потрібну модель даних для цього додатку. Саме так авторами була реалізована, зокрема, СУБД DABU. Машини баз даних. Перші вітчиз- няні дослідження в цій сфері з’явилися на- прикінці 70-х – початку 80-х років. Новий сплеск розробок на цю тему був пов’язаний із заснуванням в країні в середині 80-х ро- ків програми НІР зі створення засобів об- числювальної техніки нового покоління. У монографії Л.А.Калініченка7 пред- ставлені результати здійсненого в Інституті проблем інформатики РАН комплексного дослідження представлення даних і знань в 88 Моделі і засоби систем баз даних і знань машинах баз даних, їхньої архітектури і ме- тодів ефективної апаратної реалізації. Об’єктні бази даних. У ранній праці С.Д.Кузнєцова аналізуються найважливіші принципи об’єктивного підходу і концеп- ції об’єктних СУБД. Водночас приділяєть- ся особлива увага аспектам моделювання даних, мовам запитів у таких системах та оптимізації об’єктних запитів. Принципи відображення розвинутих об’єктних моде- лей досліджувалися в рамках проєкту СИН- ТЕЗ Інституту проблем інформатики РАН. Дедуктивні бази даних. До ранніх досліджень у цьому напрямку, можна від- нести розробки Інституту прикладної ма- тематики Академії наук, в результаті якої була створена діюча система «Запит – від- повідь» [Е.З.Любимський та інші]. Великий цикл теоретичних досліджень у напрямку дедуктивних баз даних здійснений спільно М.І.Дехтярем та А.Я.Діковським. Грунтов- ний аналіз і класифікація відомих методів обчислення й оптимізації рекурсивних запи- тів у системах дедуктивних баз даних пода- но в працях В.І.Задорожного. Йому належать також інші результати у сфері мов запитів і оптимізації в дедуктивних базах даних. Розподілені бази даних. У 70-і роки в країні активізувалися роботи зі створення обчислювальних мереж. Водночас у стилі, цілком адекватному централізованому ха- рактеру управління економікою й іншими сферами життєдіяльності радянської дер- жави, було поставлено масштабне завдання створення Державної мережі обчислюваль- них центрів (ДМОЦ). У проєкті такої мере- жі передбачалося й створення функціоную- чих в її середовищі розподілених баз даних. Основні дослідження в цьому напрямку були розгорнуті в наукових закладах Мо- скви (ІНЕУМ, ІПМ, ВДПТІ ЦСУ СРСР), Києва (ІК АН УРСР), Риги (ІЕВТ АН Лат- війської РСР). Публічні обговорення науково-тех- нічних проблем розподілених баз даних почалися 1975 року, коли в Інституті кібер- нетики АН УРСР відбувся семінар «Прин- ципи побудови РАБД державної мережі ВЦ». За рік ширший семінар із цих проблем організувала в Паневежисі РГБД спільно з Інститутом фізики й математики АН Литов- ської РСР. Один із напрямків досліджень був присвячений розробці математичних моде- лей, які дозволяли б оптимізувати організа- цію і функціонування систем розподілених баз даних [Е.М.Беніамінов та інші]. Важлива проблема – організація нео- днорідних розподілених баз даних із мож- ливостями інтеграції даних – розглядалася відповідно до концепцій дослідницького проєкту СІЗІФ, який виконувався на той час в ІНЕУМ. Уже на ранньому етапі досліджень розроблялися конкретні інструментальні за- соби для створення розподілених баз даних. Прикладом може бути гібридна СУБД Ба- зис (ІНЕУМ), яка підтримувала інтегровані бази даних із фактографічними й текстови- ми даними. Інтеграція інформаційних ресур- сів. Дослідження у сфері інтеграції інфор- маційних ресурсів почалися в СРСР у се- редині 70-х років у рамках робіт із створен- ня розподілених баз даних. Найяскравішим прикладом вітчизня- них розробок цього періоду безумовно є пе- редовий проєкт СИЗИФ Інституту електро- нних управляючих машин. У проєкті була розроблена архітектурна концепція системи інтеграції неоднорідних баз даних, засно- вана на інтегруючій канонічній моделі, яка забезпечує єдине представлення даних для всіх включених у систему даних. Це пред- ставлення – схема віртуальної бази даних – описується за допомогою спеціальної мови. Була пропонована також заснована на логі- ці предикатів мова маніпулювання даними, представленими в термінах цієї схеми. Окрім цього авторами проєкту був розроблений метод побудови комутативних відображень моделей даних, що забезпечує підтримку відповідності між даними інте- грованих баз даних і даними віртуальної бази даних. Застосування цього методу було продемонстровано на прикладі відображен- ня мережевої моделі даних CODASYL у ре- ляційну модель. У низці публікацій за матеріалами проєкту були продемонстровані можливості використання мови Синтез для однорідного опису інформаційних ресурсів, представле- них засобами різних моделей структурова- них і слабоструктурованих даних. 89 Моделі і засоби систем баз даних і знань Проєктування баз даних і розробка додатків. Чи не найпопулярніша сфера до- сліджень і розробок в галузі технологій баз даних пов’язана з проблемами проєктуван- ня систем баз даних, вирішення яких має доволі важливе значення для забезпечення ефективного практичного використання цих технологій. Пік активності вітчизняних дослі- джень у цій сфері припав на 80-і роки. Не випадково на 2-ій Всесоюзній конфе- ренції «Банки даних» для обслуговуван- ня проблем проєктування баз даних було організовано спеціальну секцію. В цей період у різних наукових центрах країни над вказаною проблематикою успішно працювало кілька груп дослідників. Звіс- но, досить привабливим був напрямок, пов’язаний із формальними методами синтезу схем реляційних баз даних. Од- нак розроблялися й інші підходи, голов- ною метою яких було створення засобів інфологічного моделювання предметної області системи бази даних і відображен- ня його результатів у середовище кон- кретних СУБД. Один із напрямків цих робіт був пов’язаний із створенням «інженерної» методики проєктування концептуальної схеми бази даних у термінах, близьких до ER-моделі, і перетворення її в схему бази даних, вибраної проєктувальником СУБД [В.В.Бойко та інші]. Більш формалізований підхід із ви- користанням спеціально розроблених роз- винутих засобів інформаційного моделю- вання був запропонований групою дослід- ників із ВНДПІ АСУ Газпрому і ВНДІПОУ ДКНТ. За задумом авторів це дослідження мало б стати теоретичним базисом автома- тизованої системи проєктування баз даних. Було розроблено прототип такої системи – Омега-1. Інший підхід, також націлений на автоматизовану технологію проєктування був запропонований в ІК УРСР. Розроблена модель для опису предметної сфери підтри- мує ієрархію різного роду абстракцій. На її основі створено мову опису концептуаль- них схем. Реалізований прототип системи ПРОБАД, що базується на запропоновано- му підході. У працях Г.І.Фурсіна та інших осно- вні цілі полягали в створенні концептуаль- ної моделі даних високого рівня, заснова- ної на обчисленні предикатів, технології її використання, а також інструментарію для підтримки процесу моделювання предмет- ної області системи бази даних її засобами. Цікавим є підхід В.М.Вєтошкіна та інших, у якому джерелом інформації для формалізованого процесу синтезу схеми реляційної бази даних є вербальний опис предметної області. Розроблено також ме- тод синтезу схеми бази даних, оптимальної щодо введеного автором критерію склад- ності. Поряд із вказаними підходами роз- вивався напрямок, пов’язаний із моделю- ванням семантики предметної області засо- бами, використовуваними в системах пред- ставлення знань [М.Ш.Цаленко, Е.Х.Тиугу, М.І.Кахро та інші]. Вибір і оцінка СУБД. Проблеми ви- бору СУБД для конкретних додатків або для додатків у певній специфічній предметній області, а також для оцінки характеристик їхнього функціонування актуальні на всіх стадіях розвитку технологій. Особливо, коли йдеться про розробки великих систем і систем із критичними вимогами до продук- тивності, ресурсів пам’яті, надійності. У вітчизняних розробках систем баз даних були спроби визначення сукупності факторів, здатних стати основою вибору й оцінки СУБД для конкретного додатку. Здійснювався порівняльний аналіз характе- ристик різних СУБД, пропонувалися мето- дики оцінки й вибору СУБД для конкретних додатків. Робилися також спроби оцінки ха- рактеристик функціонування СУБД з допо- могою методів імітаційного моделювання [Г.К.Столяров, О.М.Вейнеров та інші]. Од- нак застосування техніки імітаційного мо- делювання не мало подальшого розвитку. Ймовірно, одна з причин криється в тому, що отримувані з допомогою дороговартіс- них імітаційних моделей, оцінки виявля- ються доволі грубими. Ефективнішими ви- явилися підходи, засновані на використанні засобів збору статистики функціонування, якими оснащені сучасні СУБД. Для оцінки продуктивності СУБД в середовищі деяких 90 Моделі і засоби систем баз даних і знань типових додатків консорціумом ТРМ роз- роблені еталонні тести. Ще до заснування цього консорціуму близький підхід вико- ристовувався в дослідженнях Центрпро- грамсистем, пов’язаних із отриманням по- рівняльних оцінок продуктивності промис- лово-супроводжувальних СУБД. Персоналії В цьому прикінцевому розділі пода- ється узагальнений опис внеску окремих науковців, які брали участь у розробці про- блематики баз даних в колишньому СРСР. Автор статті або був знайомий з ними по спільній роботі в РГБД, або зачитувався їх- німи монографіями і статтями. Наперед перепрошую, що багатьох достойників, які здійснили суттєвий внесок у розвиток баз даних, не згадано в цьому розділі. Персональні відомості наведені в алфавітному порядку. Андон Пилип Іларіонович Акадаемік НАН України, доктор фі- зико-математичних наук, заслужений діяч науки і техніки України. Лауреат державних премій в галузі науки і техніки УРСР і Укра- їни, премій Ради Міністерств СРСР, премій НАН України ім.. В,М,Глушкова й імені С.О.Лебедєва. 8 Дрибас В. П., Курскова Г. Л., Столяров Г. К. и др Введение в реляционные модели базы данных. Минск: Препринт/ Ин-т математики АН БССР, №4(20), 1977, 54 с. 9 Дрибас В.П. Реляционные модели баз даннях. Минск: БГУ, 1982, 192 с. Член РГБД, член програмних коміте- тів Першої і Другої Всесоюзних конферен- цій «Банки даних». Учений секретар Комісії з банків даних та інформаційно-пошукових систем Координаційного комітету Академії наук СРСР із обчислювальної техніки. Підготував 11 кандидатів і 5 докто- рів наук. Опублікував понад 200 наукових праць, зокрема, 5 монографій. Під його керівництвом розроблено цілий ряд систем загальнодержавного і га- лузевого рівня. Він був головним конструк- тором систем ІНФОР і ЮПІТЕР, а також на- уковим керівником систем ПАЛЬМА, ОКА, КАМА. Дрибас Віктор Прокопович Співробітник Інституту математики АН БРСР. Секретар РГБД ДКНТ протягом усього часу її існування. У 70-х роках опублікував досить по- пулярний на той час препринт з реляційної моделі даних8, а його монографія з реляцій- ної моделі баз даних9 упродовж багатьох ро- ків користувалася заслуженим авторитетом. В.П.Дрибас також працював над мо- делюванням даних із багатозначною класи- фікацією об’єктів, а також над рекомендаці- ями щодо вибору баз даних. Замулін Олександр Васильович (1943 – 2006) 91 Моделі і засоби систем баз даних і знань Учень А.П.Єршова, доктор фізико- математичниїх наук, професор, головний науковий співробітник Інституту систем інформатики ім.. А.П.Єршова СВ РАН, зав. кафедрою Новосибірського державного університету. А.В.Замулін активно працював у галузі інформативно-пошукових систем і систем управління базами даних. Він очолював створення інформаційно-по- шукової системи загального призначення Вега для ЕОМ БЕОМ, що була на той час однією з кращих ІПС у СРСР. Вважається одним із засновників но- вого наукового напрямку – створення сис- тем програмування баз даних. Під його ке- рівництвом була розроблена перша в світі мова програмування баз даних БОЯЗ (1976) і заснована на ній система програмування баз даних БОЯЗ-6 (1979); мова програму- вання баз даних Атлант (1986) і заснована на ній система програмування баз даних (1989); мова специфікації баз даних Руслан (1994), яка була визнана за кордоном. О.В.Замулін опублікував понад 100 праць, зокрема, 2 монографії, присвячені ти- пам даних у мовах програмування і базах да- них10 та системам програмування баз даних11. Був співголовою РГБД і членом Ко- місії по банках даних Координаційного ко- мітету АН СРСР із обчислювальної техніки. О.В.Замулін був також членом ред- колегії журналу «Програмування» й між- народних журналів “Information Systems”, “Universal Computer Science”, “The Computer Journal”, членом редколегії періодичної збірки статей «Системна інформатика». Калініченко Леонід Андрійович (1937 – 2018) Доктор фізико-математичних наук, зав. лаб. Інституту проблем інформатики РАН, професор ВМК МДУ, лауреат Держав- ної премії СРСР в галузі науки і техніки, за- ступник голови РГБД. 10 Замулин А.В. Типы данных в языках программирования и базах данных. Новосибирск: Наука, 1987. 152 с. 11 Замулин А.В. Системы программирования баз данных и знаний. Новосибирск: Наука, 1990. 352 с. 12 Калиниченко Л.А. и др. Архитектура и алгоритмы систем управления распределенными базами данных / Л.А.Калиниченко, О.Е.Костромина, О.Н.Хитрова. М.: ИНЭУМ, 1982. 140с. 13 Калиниченко Л.А. Методы и средства интеграции неоднородных баз данных. М.: Наука, 1983, 140с. 14 Калиниченко Л.А., Рывкин В.М. Машины баз данных и знаний. М.: Наука, 1990, 296с. Сфера наукових інтересів – методи інтеграції неоднорідних баз даних і управ- ління розподіленими базами даних. Доволі змістовний огляд12 і моно- графії з питань інтеграції неоднорідних баз даних13 та машин баз даних14 не втратили корисності й цитуються дотепер. Наукові до- слідження Л.А.Калініченка були впровадже- ні в системах Базис і Сізіф, мові СИНТЕЗ. Підготував 10 кандидатів наук. Член редколегії журналу “Distributed and parallel databases”. Засновник і голова московської секції АСМ SIGMOD. Когаловський Михаїл Рувимович 92 Моделі і засоби систем баз даних і знань Учений в галузі баз даних та інфор- маційних систем, кандидат технічних наук, старший науковий співробітник, доцент, член редколегій журналів «Програмуван- ня», «Інформаційне товариство», «Електро- нні бібліотеки», професійний член АСМ, учений секретар Московської секції АСМ SIGMOD, провідний науковий співробітник Інституту проблем ринку РАН. Науковий редактор і перекладач російських видань монографій із баз даних Джефрі Ульмана, Кристофера Дейта, Алана Саймона, специ- фікацій мови визначення даних CODASYL, а також знаменитого звіту ANSI/X3/SPARC. М.Р.Когаловський – член робочої групи з питань програмного забезпечення банків даних (РГБД) при Держкомітеті з на- уки і техніки впродовж усього часу її існу- вання (1974 – 1987). Член і співголова Про- грамних комітетів низки великих міжнарод- них і вітчизняних наукових конференцій, має понад 200 друкованих праць, зокрема, 6 монографій. Його монографія «Енцикло- педія технологій баз даних»15 оцінюється спеціалістами як «фантастично тяжка пра- ця, яка реально закриває діру в літературі, присвяченій базам даних», а видання книги вважається винятково корисним як для ві- тчизняних спеціалістів, так і для світової громадськості16. Пасічник Володимир Володимирович Доктор технічних наук, професор Національного університету «Львівська по- літехніка». Вихованець наукової школи Інститу- ту кібернетики імені В.М.Глушкова. Учас- ник і керівник багатьох міжнародних науко- вих проєктів і перспективних науково-до- слідницьких розробок. Автор 14 монографій і навчальних посібників, серед яких особливо виділяєть- ся монографія17, в якій досліджуються пи- тання реляційної моделі баз даних, теорії залежностей і нормальних форм. Лауреат 15 Когаловский М.Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002. 800с. 16 Кузнецов С.Д. «Энциклопедия технологий баз данных» Михаила Рувимовича Когаловского. - http://www. citforum.perm.ru/book/enctbd/enctbd_ vv.shtml 17 Пасичник В.В., Стогний АА. Реляционные модели баз данных. Киев : ИК АН УССР, 1983. 286 с. 18 В.М. Савинков, В.Д. Цальп. Программирование на АЛГОЛе (Учеб. пособие для втузов). М. : Высшая школа, 1975. - 215 с. 19 Першиков В.И., Савинков В.М. Толковый словарь по информатике: Более 10000 терминов. Москва: Финансы и статистика, 1991. – 536 с. Державної премії України в галузі науки і техніки, відмінник освіти України. Працював провідним експертом із технологій баз даних і знань ДКНТ СРСР та країн – членів Ради економічної взаємо- допомоги. В.В.Пасічник підготував понад два десятки кандидатів і докторів наук у галузі баз даних і знань, інформаційного аналізу й сучасних інформаційних технологій. Савінков Володимир Макарович Заступник директора з наукової ро- боти ВДПТІ ЦСУ СРСР. Заступник голови РГБД. Член організаційних і програмних комітетів Всесоюзних конференцій «Банки даних». Відповідальний редактор збірки «Алгоритми й організація вирішення еко- номічних задач» та «Прикладна інформати- ка». На той час вони були найавторитетні- шими періодичними виданнями в країні, які публікували праці на тему систем баз даних та інформаційних систем. В.М.Савінков – співавтор підручника по Алголу18, тлумачного словника з інфор- матики19 й монографії, присвяченої проєк- 93 Моделі і засоби систем баз даних і знань туванню баз даних20. Редактор перекладу з англійської мови добре відомої монографії Чарльза Мідоу21. Стогній Анатолій Олександрович (1932 – 2007) Доктор фізико-математичних наук, професор, член-кореспондент АН СРСР і член-кореспондент НАН України, заступ- ник директора Інституту кібернетики НАН України, директор Інституту прикладної ін- форматики (м.Київ). Лауреат Державної премії СРСР в галузі науки і техніки 1968 року в складі колективу розробників ЕОМ МИР-1. Лау- реат премії ім. М.Островського, премії ім. В.М.Глушкова. Сфера наукових інтересів: системи обробки даних, інформаційні системи і бази даних. Заступник голови РГБД, голова Ко- місії з банків даних інформаційно-пошу- кових систем Координаційного комітету Академії наук СРСР із обчислювальної техніки. Член організаційного й програм- ного комітетів Всесоюзних конференцій «Банки даних». 20 Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем. Москва: Финансы и статистика, 1989 – 350 с.. 21 Мидоу, Чарльз Т.. Анализ информационных систем: сокр. пер. с англ. / Ч. Мидоу ; под общ. ред. и с послесл. канд. техн. наук В. М. Савинкова ; [пер. Б. В. Ананьев и др.]. - М. : Прогресс, 1977. - 400 с. Столяров Геннадій Костянтинович Ініціатор і беззмінний голова ство- реної в країні національної Міжвідомчої «Робочої групи з програмного забезпечення банків даних (РГБД)» (1973 – 87 рр.), яка об’єднала провідних розробників банків даних СРСР. Наглядач від Академії наук СРСР у робочих групах із баз даних США й Великобританії. Голова Комісії Президії АН БРСР із автоматизації (інформатизації) наукових до- сліджень. Керівник Робочої групи Комісій Академій наук соцкраїн із обчислювальної техніки. Був заступником головного кон- структора ЕОМ «Мінськ-1», «Мінськ-2», «Мінськ-23». Керував розробкою програм- ного забезпечення для ЕОМ «Мінськ». Лау- реат Державної премії СРСР в галузі науки і техніки (1970) та Державної премії БРСР в галузі науки і техніки (1982). Г.К.Столяров – ініціатор, науковий керівник і учасник розробки та впрова- дження сімейства сумісних документально- фактографічних інформаційних систем для великих, міні- й персональних комп’ютерів, баз даних і конвертерів. Нагороджений медаллю «Піонер комп’ютерної техніки» (Computer Pioneer Award) – найпрестижнішою нагородою 94 Моделі і засоби систем баз даних і знань Комп’ютерної спільноти IEEE. Вручена за роботу над програмним забезпеченням комп’ютерів «Мінськ», програмним забез- печенням інформаційних систем, за по- ширення й просування концепцій систем управління базами даних. Тиугу Енн Харальдович (1935 – 2020) Доктор технічних наук, професор, академік Естонської Академії наук, почес- ний професор Талліннського технічного університету, професор Королівського тех- нологічного інституту в Стокгольмі. Лауреат Державної премії СРСР в галузі науки і техніки. В Інституті кіберне- тики АН ЕРСР під керівництвом Е.Х.Тиугу в кінці 70-х років був розроблений підхід щодо створення єдиного середовища мови програмування і бази даних. У монографії22 запропоновані методологія концептуально- го моделювання предметної області й під- тримуючий її інструментарій, які виявилися придатними для створення СУБД. Засобами системи програмуван- ня високого рівня ПРИЗ23, яку її ідеолог Е.Х.Тиугу кваліфікує як інструмент концеп- туального програмування, можна підтриму- вати потрібну модель даних. Таким чином авторами була реалізована СУБД DABU. 22 Тыугу Э Х. Концептуальное программирование. М.: Наука, Гл. ред. физ.-мат. литерат., 1984. 256 с. 23 Кахро М.И. и др. Инструментальная система п рограммирования ЕС ЭВМ (ПРИЗ) / М.И. Кахро, А.П. Калья, Э.Х. Тыугу. М.: Финансы и статистика, 1981, 158 с. Філіпов Віктор Іванович Співробітник ОЦ АН СРСР. Колек- тив, очолюваний В.І.Філіповим, розробив методи реалізації систем управління базами даних. Ним було розроблено інтерпретуючу систему ДІАЛОГ для ЕОМ ВЕОМ-6, з якою користувачі спілкувалися в інтерактивному режимі спочатку через телетайпи, а згодом і через дисплеї. Була розроблена також СУБД типу CODASYL КОМПАС для платформи ВЕОМ-6 із операційною системою ДІС- ПАК. Під керівництвом В.І.Філіпова була реалізована перша в країні СУБД СУРНА та інтерактивна реляційна СУБД ДІСУР. Він запропонував модель, інтегруючу функціо- нальні можливості реляційної моделі й ме- режевої моделі CODASYL, а також теоре- тико-множинний підхід до моделей даних. В.І.Філіпов був заступником голови Комісії із банків даних та інформаційно-по- шукових систем Координаційного комітету АН СРСР у галузі обчислювальної техніки. Цаленко Михайло Шамшонович Кандидат фізико-математичних наук, доктор технічних наук, професор. Завідувач кафедри математики РДГУ. Завідував науко- во-дослідницькими лабораторіями, викла- дав у МДУ і в Педагогічному інституті. Автор монографій на тему сучасної алгебри і теорії баз даних, десятків статей з алгебри, інформатики і лінгвістики. На початку 70-х років він перший в країні випустив препринт з реляційної мо- 95 Моделі і засоби систем баз даних і знань делі даних, написаний за працями Кодда, що став настільною книгою практично для всіх дослідників з баз даних. Згодом він у переробленому вигляді був надрукований у двох номерах збірки «Алгоритми і орга- нізація вирішення економічних задач» за редакцією В.М.Савінкова24. Варто також особливо відзначити дві його монографії, де досліджуються математичні моделі баз даних25 і методи моделювання семантики баз даних26. Післямова На жаль, чимало питань, пов’язаних з історією баз даних, залишилися поза цим оглядом. До них належать матеріали щодо баз даних в інтернеті, бази даних XML, структури зберігання, методи доступу й питання оптимізації, мови й системи про- грамування баз даних, словники/довідники, робота конференцій і симпозіумів, видавни- ча діяльність. Сподіваюся, що ці питання в майбутньому все ж таки будуть висвітлені. References 1044. Long F., Zhang H.J., Feng D.D. Fundamentals of content-based image retrieval. In: Feng, D.D., Siu, WC., Zhang, HJ. (Eds.), Multimedia Information Retrieval and Management, Springer, Berlin, 2003. 1045. Döller M., Kosch H. Image Database. In Encyclopedia of Database Systems, Ling Liu, M. Tamer Özsu Editors, pp. 1761 - 1766 1046. Blaser A. Data Base Techniques for Pictorial Applications, Florence, Italy, June 20-22, 1979, Proceedings. Lecture Notes in Computer Science 81, Springer 1980, 1047. Tamura H, Yokoya N. Image database systems: a survey. Pattern Recognition, 1984,, Vol. 17, No 1, pp 29-43 1048. Chang S.-K., Hsu A. Image information systems: Where do we go from here? IEEE Trans. on Knowledge and Data Engineering Vol. 4 No. 5, 1992 pp. 431–442 24 Цаленко М.Ш. Реляционные модели баз данных (обзор) // Алгоритмы и организация решения экономических задач / Под ред. В.М. Савинкова. Вып. 9. М.: Статистика, 1977. С. 18-36 Цаленко М.Ш. Реляционные модели баз данных (обзор) // Алгоритмы и организация решения экономических задач / Под ред. В.М. Савинкова. Вып. 10. М.: Статистика, 1977. С. 16-29 25 Цаленко М.Ш. Семантические и математические модели баз данных // Ито-ги науки и техники. Сер.: Информатика. Т.9, 1985. 208 с. 26 Цаленко М Ш. Моделирование семантики в базах данных. М.: Наука. Гл. ред. физ.-мат. лит., 1989. 288 с. 1049. Shatford S. Analyzing the subject of a picture: a theoretical approach. Cataloging & Classification Quarterly. 1986, Vol. 6, No 3, pp. 39–62. 1050. Content-based image retrieval. - https:// en.wikipedia.org/wiki/Content-based_ image_retrieval 1051. Kato T. (April 1992). “Database architecture for content-based image retrieval”. SPIE/ IS&T 1992 Symposium on Electronic Imaging: Science and Technology, International Society for Optics and Photonics, 1992, pp. 112–123. 1052. Lew M.S., Sebe N., Djeraba Ch., Jain R. Content-based multimedia information retrieval: State of the art and challenges. ACM Transactions on Multimedia Computing, Communications, and Applications, 2006, Vol. 2, No. 1, pp. 1–19 1053. Jain R., Guest E., Special Issue on Visual Information Management, Communications of ACM, 40(12), 30-32, Dec. 1997. 1054. Gudivada V.N., Raghavan J.V. Special issue on content-based image retrieval systems, IEEE Computer Magzine, Vol. 28, No. 9, September 1995. 1055. Narasimhalu A.D. Special section on content-based retrieval. Multimedia Systems, 1995, 3 (1): 1-2. 1056. Pentland A., Picard R., Special issue on digital libraries, EEE Transactions on Pattern Analysis and Machine Intelligence, 1996. No 8, 1057. Schatz B., Chen H., Building large-scale digital libraries, Computer, 1996, Vol. 26, No. 5, pp. 22-26 1058. Linda G. Shapiro, George C. Stockman. Computer Vision. Prentice Hall PTR, Upper Saddle River, NJ, USA, 2001, 608 p. 1059. Veltkamp R.C, Tanase M. Content-Based Image Retrieval Systems: A Survey, Dept. Computing Science, Utrecht University, Utrecht, The Netherlands, Tech. Rep. UU- CS-2000-34, 2002 96 Моделі і засоби систем баз даних і знань 1060. Frank Y. Shih. Image Segmentation. In Encyclopedia of Database Systems, Ling Liu, M. Tamer Özsu Editors, pp. 1795 - 1803 1061. Linda G. Shapiro and George C. Stockman (2001): “Computer Vision”, New Jersey, Prentice-Hall, 609 p. 1062. Image segmentation. - https://en.wikipedia. org/wiki/Image_segmentation 1063. Pal N.R., Pal S.K. A review on image segmentation techniques. Pattern Recognition. 1993, vol. 26, No. 9, pp. 1277–1294. 1064. Manpreet Kaur, Lal Chand. Review of image segmentation and its techniques. Journal of Emerging Technologies and Innovative Research (JETIR), 2018, Vo. 5, No. 7, pp. 974-981 1065. Salwa Abdulateef, Mohanad Salman. A Comprehensive Review of Image Segmentation Techniques. Iraqi Journal for Electrical And Electronic Engineering, 2021, vol. 17, No. 2, pp. 166-175 1066. Plataniotis K.N., Venetsanopoulos A.N. Color Image Processing and Applications. Springer, Berlin, 2000. 1067. Manjunath B.S., et al. Introduction to MPEG-7. Wiley, New York, 2002. 1068. Zhao Q., Yang J., Liu H. Stone Images Retrieval Based on Color Histogram. In IEEE International Conference on Image Analysis and Signal Processing, 2009, pp. 157-161. 1069. Stricker M., Orengo M. Similarity of color images. In Proc. SPIE Storage and Retrieval for Image and Video Databases, 1995. 1070. Wan X,, Kuo K. Color distribution analysis and quantization for image retrieval. In SPIE Storage and Retrieval for Image and Video Databases IV, vol.SPIE 2670, 1996, pp. 9- 16 1071. Smith J.R., Chang S.-F. Single color extraction and image query, in Proc. IEEE Int. Conf. on Image Proc., 1995. 1072. Smith J.R., Chang S.-F. Tools and techniques for color image retrieval, in IS & T/SPIE Proceedings, Vol. 2670, Storage & Retrieval for Image and Video Databases IV, 1995. 1073. Pass G., Zabih R., Miller J. Comparing images using color coherence vectors. In MULTIMEDIA ‘96: Proceedings of the fourth ACM international conference on Multimedia, 1997, pp. 65–73 1074. Haralick R.M., Shanmugam K., DinsteinI. Texture features for image classification, IEEE Transactions on Systems, Man, and Cybernetics, 1973, Vol. SMC-3, No. 6, pp.: 610-621 1075. Gotlieb C.C., Kreyszig H.E. Texture descriptors based on co-occurrence matrices, Computer Vision, Graphics, and Image Processing, Vol. 51, No. 1, 1990, pp. 70–86 1076. Tamura H., Mori S., Yamawaki T. Texture features corresponding to visual perception. EEE Transactions on Systems, Man, and Cybernetics, 1978, Vol.8, No. 6, pp. 460- 473 1077. Flickner M., Sawhney H., Niblack W., Ashley J., Qian Huang, Dom B., Gorkani M., Hafner J., Lee D., Petkovic D., Steele D., Yanker P. “Query by image and video content: the QBIC system”. Computer. 1995, Vol. 28, No.9, pp. 23–32. 1078. Huang T.S., Mehrotra S., Ramchandran K. Multimedia Analysis and Retrieval System (MARS) project. In P.B. Heidorn. B. Sandore (eds) Proceedings of the 33rd Annual Clinic on Library Application of Data Processing: Digital Image Access and Retrieval, Urbana, IL, March 1996, pp. 100-117. University of Illinois, 1997. 1079. Smith J.R., Chang S.-F. Transform features for texture classification and discrimination in large image databases. In Proceedings of 1st International Conference on Image Processing, 1994, pp. 407-411. 1080. Chang, Kuo C.-C.J. Texture analysis and classification with tree-structured wavelet transform. IEEE Transactions on Image Processing, 1993, Vol. 2, No.4, pp. 429– 441 1081. Gross M.H., Koch R., Lippert L., Dreger A. Multiscale image texture analysis in wavelet spaces, In Proceedings of 1st International Conference on Image Processing, 1994. pp. 412–416 1082. Kundu A. Chen J.-L. Texture classification using QMF bank-based subband decomposition. CVGIP: Graphical Models and Image Processing 54(5), 1992, pp. 369–384. 1083. Thyagarajan K.S., Nguyen T., Persons C. 97 Моделі і засоби систем баз даних і знань A maximum likelihood aproach to texture classification using wavelet transform. In Proceedings of 1st International Conference on Image Processing, 1994, vol. 2, pp. 640– 644 1084. Cross, Jain A.K. Markov random field texture models. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. PAMI-5, No.1, 1983, pp.25–39 1085. Plataniotis K.N., Androutsos D., Venetsano po ulos A.N. Multichannel filters for image processing. Signal Processing: Image Communication, Vol 9, No. 2, 1997, pp.143-158 1086. Ma W.Y., Manjunath B. Netra: a toolbox for navigating large image databases. Proceedings of the IEEE International Conference on Image Processing, 1997, pp. 568–571. 1087. Pentland A.P. Fractal-based description of natural scenes, EEE Transactions on Pattern Analysis and Machine Intelligence. Vol. PAMI-6, No. 6, 1984, pp. 661–674. 1088. Weszka J., Dyer C., Rosenfeld A., A comparative study of texture measures for terrain classification. EEE Transactions on Systems, Man, and Cybernetics. Vol. SMC- 6, No. 4, 1976, pp. 269 - 285 1089. Ohanian P.P., Dubes R.C. Performance evaluation for four classes of texture features. Pattern Recognition, vol. 25, no. 8, pp. 819–833, 1992. 1090. Ma W.Y. Manjunath B.S. A comparison of wavelet transform features for texture image annotation. In Proceedings Second International Conference on Image Processing (ICIP’95), 1995, vol. 2, pp. 256-259, 1091. Armi L., Fekri-Ershad S. Texture image analysis and texture classification methods - a review. International Online Journal of Image Processing and Pattern Recognition, Vol. 2, No.1, pp. 1-29, 2019 1092. Rui Y., She A.C., Huang T.S. Modified fourier descriptors for shape representation—a practical approach, in Proc. of First International Workshop on Image Databases and Multi Media Search, 1996, pp. 22-23 1093. Zahn C.T., RoskiesR.Z. Fourier descriptors for plane closed curves, IEEE Transactions on Computers, 1972, Vol. C-21, No. 3, pp. 269 - 281 1094. Persoon E., Fu K.S. Shape Discrimination Using Fourier Descriptors. IEEE Transactions on Systems, Man, and Cybernetics, 1977, Vol. 7, No. 3, pp. 170 - 179 1095. Hu M. Visual Pattern Recognition by Moment Invariants. IRE Transactions on Information Theory, IT-08, 1962, Vol. 8, No.2, pp. 179-187. 1096. Yang М., Algregtsen F. Fast computation of invariant geometric moments: A new method giving correct results, in Proceedings of 12th International Conference on Pattern Recognition, 1994, pp. 201-204. 1097. Pentland A., Picard , Sclaroff S. Photobook: Content-based manipulation of image databases, International Journal of Computer Vision, 1996, 18 (3), pp. 233– 254. 1098. Arkin E.M., Chew L., Huttenlocher D., Kedem K., Mitchell J. An efficiently computable metric for comparing polygonal shapes, IEEE Trans. Patt. Recog. Mach. Intell. 13(3), 1991. 1099. Lin H.-C., Chiu C.-Y., Yang S.-N. Finding textures by textual descriptions, visual examples, and relevance feedbacks. Pattern Recognition Letters, 2003, vol. 24, No. 12, pp. 2255-2267 1100. Chuang G.C.-H., Kuo C.-C.J. Wavelet descriptor of planar curves: Theory and applications, IEEE Trans. Image Proc. 5(1), 56–70, 1996. 1101. Li B., Ma S.D. On the relation between region and contour representation. Proceedings of 12th International Conference on Pattern Recognition, 1995. 1102. Mehtre B.M., Kankanhalli M., Lee W.F. Shape measures for content based image retrieval: A comparison, Information Processing & Management 33(3), 1997. 1103. Taubin G. Recognition and positioning of rigid objects using algebraic moment invariants, in SPIE Vol. 1570, Geometric Methods in Computer Vision, 1991. 1104. Wallace I., Mitchell O. Three-dimensional shape analysis using local shape descriptors, IEEE Trans. Patt. Recog. and Mach. Intell., PAMI-3(3), May 1981. 1105. Wallace I., Wintz P. An efficient three- 98 Моделі і засоби систем баз даних і знань dimensional aircraft recognition algorithm using normalized Fourier descriptors, Computer Graphics and Image Processing 13, 1980. 1106. Faloutsos C., Flickner M., Niblack W., Petkovic D., Equitz W., Barber R. Efficient and Effective Querying by Image Content, Journal of Intelligent Information Systems, Vol. 3, No. 3-4, 1994, pp. 231–262. 1107. Chua T.S., Tan K.-L., Ooi B.C. Fast signiture-based color-spatial image retrieval. In ICMCS ‘97: Proceedings of the 1997 International Conference on Multimedia Computing and Systems, 1997 . 1108. Lu H., Ooi B., Tan K., Efficient image retrieval by color contents. In Proc. of the 1994 International Conference on Applications of Databases, 1994, pp 95– 108 1109. Smith J.R. Chang S.-F. Single color extraction and image query. In Proc. IEEE International Conference on Image Processing, 1995. 1110. Rickman R.M., Stonham T.J. Content- based image retrieval using colour tuple histograms,.In Proc. SPIE Storage and Retrieval for Image and Video Databases IV, 1996. 1111. Stricker M., Dimai A. Color indexing with weak spatial constraints. In Proc. SPIE Storage and Retrieval for Image and Video Databases IV, 1996. 1112. Huang J., Kumar S., Mitra M., Zhu W.- J., Zabih R. Image indexing using color correlogram. In Proc.of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR ‘97), 1997. 1113. Mojsilovic A., Rogowitz B. ISee: perceptual features for image library navigation, Proceedings of the SPIE, Human Vision and Electronic Imaging, vol. 4662, 2002, pp. 266–277. 1114. Mezaris V., Kompatsiaris I., Strintzis M.G. An ontology approach to object-based image retrieval, Proceedings of the ICIP, vol. II, 2003, pp. 511–514. 1115. Chang S.K., Shi Q.Y., Yan C.W. Iconic indexing by 2D string. IEEE Trans. Pattern Anal. Mach. Intell. 9 (3) (1987) 413–428. 1116. Ren W., Singh M., Singh C., Image retrieval using spatial context, Ninth International Workshop on Systems, Signals and Image Processing (IWSSIP’02), Manchester, November, 2002. 1117. Smith J.R., Li C.-S. Decoding image semantics using composite region templates, IEEEWorkshop on Content- Based Access of Image and Video Libraries (CBAIVL-98), June 1998, pp. 9–13. 1118. Gaede V., Günther O. Multidimensional access methods. ACM Comput Surv. 1998;30(2):170–231. 1119. Ahn H.K., Mamoulis N., Wong H.M. A survey on multidimensional access methods. Technical report, Utrecht University (2001) 1120. Venkateswaran J. A Survey of Recent Multidimensional Access Methods. Technical Report, University of Missouri- Rolla. -2004. 162 p. 1121. Faloutsos C., Lin K.-I. Fastmap: A fast alogorithm for indexing, data-mining and visualization of traditional and multimedia datasets. ACM SIGMOD Record, Vol. 24, No 2, 1995, pp. 163–174 1122. Ng R.T., Sedighian A. Evaluating multi- dimensional indexing structures for images transformed by principal component analysis, in Proc. SPIE Storage and Retrieval for Image and Video Databases, 1996. 1123. White D., Jain R. Similarity indexing: Algorithms and performance, in Proc. SPIE Storage and Retrieval for Image and Video Databases, 1996. 1124. Chandrasekaran V., Manjunath B.S.,Wang Y.F., Winkeler J., Zhang H. An eigenspace update algorithm for image analysis. CVGIP: Graphical Models and Image Processing Journal, Vol. 59, No. 5,1997, pp. 321-332 1125. Salton G., McGill M.J. Introduction to Modern Information Retrieval, McGraw- Hill, New York, 1983. 1126. Guttman A. R-tree: A dynamic index structure for spatial searching. ACM SIGMOD Record, Vol. 14, No. 2, 1984, pp. 47–57 1127. Sellis T., Roussopoulos N., Faloutsos C. The R+-tree: A dynamic index for multi- dimensional objects. Proceedings of the 13th VLDB Conference, Brighton 1987, pp. 507-518. 99 Моделі і засоби систем баз даних і знань 1128. Greene D. An implementation and performance analysis of spatial data access methods. Proceedings of the Fifth International Conference on Data Engineering, 1989, pp. 606–615 1129. Beckmann N., Kriegel H.-P., Schneider R., Seeger B. The R*-tree: An efficient and robust access method for points and rectangles. SIGMOD ‘90: Proceedings of the 1990 ACM SIGMOD international conference on Management of data, 1990, pp. 322–331 1130. White D. A., Jain R. Similarity indexing: Algorithms and performance. Proc. SPIE 2670, Storage and Retrieval for Still Image and Video Databases IV, 1996 1131. Charikar M., Chekur C., Feder T., Motwani R. Incremental clustering and dynamic information retrieval. Proc. of the 29th Annual ACM Symposium on Theory of Computing, 1997, pp. 626–635. 1132. Rui Y., Chakrabarti K., Mehrotra S., Zhao Y., Huang T.S. Dynamic clustering for optimal retrieval in high dimensional multimedia databases. University of Illinois, Department of Computer Science Technical Report MARS-97-10. Urbana, IL: Department of Computer Science, 1997. 1133. Zhang H.J., D. Zhong. A scheme for visual feature based image retrieval. Proc. SPIE 2420, Storage and Retrieval for Image and Video Databases III, 1995 1134. Deza M.M., Deza E. Encyclopedia of Distances. Springer; Softcover reprint of the original 3rd ed. 2014. 753 p. 1135. Mahalanobis P.C. On the generalised distance in statistics. Proceedings of the National Institute of Sciences of India, 1936, vol. 2, No. 1, pp. 49—55. 1136. Patil R.S., Agrawal A.J. Content-based Image Retrieval Systems: A Survey. Advances in Computational Sciences and Technology, 2017, Vol. 10, No. 9, pp. 2773- 2788 1137. Gupta A., Jain R. Visual information retrieval, Commun. ACM 40 (5) (1997) 70–79. 1138. Smith J.R., Chang S.F. VisualSeek: a fully automatic contentbased query system, Proceedings of the Fourth ACM International Conference on Multimedia, 1996, pp. 87–98. 1139. Ma W.Y., Manjunath B. Netra: a toolbox for navigating large image databases, Proceedings of the IEEE International Conference on Image Processing, 1997, pp. 568–571. 1140. Wang J.Z., Li J., Wiederhold G. SIMPLIcity: semantics-sensitive integrated matching for picture libraries, IEEE Trans. Pattern Anal. Mach. Intell. 23 (9) (2001) 947–963. 1141. Smeulders A.W.M, Worring M., Santini S., Gupta A., Jain R. Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000, Vol. 22, No 12, pp.1349–1380. 1142. Eakins J., Graham M. Content-based image retrieval, Technical Report, University of Northumbria at Newcastle, 1999, 59 p. 1143. Ying Liua, Dengsheng Zhanga, Guojun Lua, Wei-Ying Mab. A survey of content- based image retrieval with high-level semantics. Pattern Recognition, Vol. 40, No. 1, 2007, pp. 262–282 1144. Mussarat Yasmin, Sajjad Mohsin, Muhammad Sharif. Intelligent Image Retrieval Techniques: A Survey. Journal of Applied Research and Technology, 2014, Vol. 12, No. 1, pp. 87-103 1145. Kherfi M.L., Ziou D., Bernardi A. Image Retrieval from the World Wide Web: Issues, Techniques, and Systems, ACM Computing Surveys, 2004, Vol. 36, No. 1, pp. 35–67 1146. Popescu A., Grefenstette G. A Conceptual Approach to Web Image Retrieval. Proceedings of the International Conference on Language Resources and Evaluation, LREC 2008, 2008, pp. 297-304 1147. Berk T., Brownston L., Kaufman A. A new color-naming system for graphics language. IEEE Comput. Graphics Appl. 2 (3), 1982, pp. 37–44. 1148. Stanchev P.L., Green Jr. D., Dimitrov B. High level color similarity retrieval, Int. J. Inf. Theories Appl. 10 (3) (2003) 363–369. 1149. Rao A.R., Lohse М. Towards a texture naming system: identifying relevant dimensions of texture, IEEE Proceedings of the Fourth Conference on Visualization, 1993, pp. 220–227. 1150. Shi R., Feng H., Chua T.-S., Lee C.-H. An 100 Моделі і засоби систем баз даних і знань adaptive image content representation and segmentation approach to automatic image annotation. International Conference on Image and Video Retrieval (CIVR), 2004, pp. 545–554. 1151. Vailaya A., Figueiredo M.A.T., Jain H.J., Zhang A.K. Image classification for content-based indexing. IEEE Transactions on Image Processing, 2001, Vol. 10, No.1, pp. 117–130. 1152. Town C.P., Sinclair D. Content-based image retrieval using semantic visual categories. Society for Manufacturing Engineers, Technical Report MV01-211, 2001. 1153. Feng H., Chua T.-S. A boostrapping approach to annotating large image collection. Workshop on Multimedia Information Retrieval in ACM Multimedia, November 2003, pp. 55–62. 1154. MacArthur S.D., Brodley C.E., Shyu C.- R. Relevance feedback decision trees in content-based image retrieval. Proceedings of the IEEE Workshop on Content-Based Access of Image and Video Libraries (CBAIVL’00), June 2000, pp. 68–72. 1155. Jain A., Dubes R. Algorithms for Clustering Data. Englewood Cliffs, NJ: Prentice-Hall, 1988. 1156. Baraldi A., Alpaydin М Constructive feedforward ART clustering networks— Part I and II. IEEE Trans. Neural Netw., vol. 13, no. 3, pp.645–677, May 2002. 1157. Shi J., Malik J. Normalized Cuts and Image Segmentation. In IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, Vol. 22, pp. 888-905 1158. Dunn J.C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters. Journal of Cybernetics, 1973, Vol. 3, No. 3, pp. 32– 57 1159. Chen Y., Wang J.Z., Krovetz R. An unsupervised learning approach to content- based image retrieval. IEEE Proceedings of the International Symposium on Signal Processing and its Applications, July 2003, pp. 197–200. 1160. Rui Y., Huang T.S., Ortega M., Mehrotra S. Relevance feedback: a power tool for interactive content-based image retrieval, IEEE Trans. Circuits Video Technol. 8 (5) (1998) 644–655. 1161. Jing F., Li M., Zhang L., Zhang H.-J., Zhang B. Learning in regionbased image retrieval, Proceedings of the International Conference on Image and Video Retrieval (CIVR2003), 2003, pp. 206–215. 1162. Smith J.R., Li C.-S. Decoding image semantics using composite region templates, IEEEWorkshop on Content- Based Access of Image and Video Libraries (CBAIVL-98), June 1998, pp. 9–13. 1163. Zhuang Y., Liu X., Pan Y. Apply semantic template to support content-based image retrieval, Proceedings of the SPIE, Storage and Retrieval for Media Databases, vol. 3972, December 1999, pp. 442–449. 1164. Chang S.-F., Chen W., Sundaram H. Semantic visual templates: linking visual features to semantics, International Conference on Image Processing (ICIP), Workshop on Content Based Video Search and Retrieval, vol. 3, October 1998, pp. 531–534. 1165. Zhuang Y, Liu X., Pan Y. Apply semantic template to support content-based image retrieval, Proceedings of the SPIE, Storage and Retrieval for Media Databases, vol. 3972, December 1999, pp. 442–449. 1166. Kalinichenko L.A. Methods and Tools for Integration of Heterogeneous Databases (Rus). Moscow, Nauka, 1983, 424 p. 1167. Smith J.M., Bernstein P.A., Dayal U., Goodman N., Landers T., Lin K.W.T., Wong E. Multibase: Integrating heterogeneous distributed database systems. In Proceedings of the May 4-7, 1981, National Computer Conference (AFIPS ’81). ACM, New York, NY, USA, pp. 487-499. 1168. Hammer M., McLeod, D. 1979. On database management system architecture. Tech. Rep. MIT/LCS/TM-141, Massachusetts Institute of Technology, Cambridge, Mass. 1169. Heimbigner D., McLeod, D. (1985). A Federated architecture for information management. ACM Transactions on Information Systems, Volume 3, Issue 3. pp. 253–278 1170. Veijalainen J., Popescu-Zeletin R. 1988. Multidatabase systems in ISO/OSI environment. In Standards in Information Technology and Industrial Control, 101 Моделі і засоби систем баз даних і знань Malagardis, N., and-Williams, T., Eds. North-Holland. The Netherlands. DD. 83- 97. 1171. Alonso R., Barbara D. 1989. Negotiating data access in federated database systems. In Proceedings of the 5th International Conference on Data Engineering (Feb.), pp. 56-65. 1172. Heimbigner D., McLeod D. 1985. A federated architecture for information management. ACM Transactions on Information Systems. 3, 3 (July), 253-278. 1173. Du W., Elmagarmid A., Kim W. 1990. Effects of local autonomy on heterogeneous distributed database systems. MCC Tech. Rep. ACT-OODS- EI-059-90, Microelectronics and Computer Technology Corp., Austin Tex. 1174. Garcia-Mоlina H., Kogan B. 1988. Node autonomy in distributed systems. In Proceedings of the International Symposium on Databases in Parallel and Distributed Systems (Austin, Tex., Dec.), pp. 158-166. 1175. Lenzerini M. Data integration: a theoretical perspective. Proceedings of the 21-st ACM SIGCAT-SIGMOD-SIGART Sym po sium on Principles of Database Systems (PODS 2002). NewYork: ACM Press, 2002 ,pp. 233–246. . 1176. Jer-Wen Huang. 1994. MultiBase: a heterogeneous multidatabase management system. In Proceedings Eighteenth Annual International Computer Software and Applications Conference (COMPSAC 94), рр. 332–339. 1177. Bondiombouy C., Valduriez P. Query processing in multistore systems: an overview. International Journal of Cloud Computing 5.4 (2016): 309-346 1178. Litwin W. 1985. An overview of the multidatabase system MRDSM. In Proceedings of the ACM National Conference (Denver, Oct.), pp. 495-504. 1179. Rusinkiewicz M., Elmasri R., Czejdo B., Georakopoulous D., Karabatis G., Jamoussi A., Loa L., Ll Y. 1989.-OMNIBASE: Design and implementation of amultidatabase system. In Proceedings of the 1st Annual Symposium in Parallel and Distributed Processing (Dallas, Tex., May), pp. 162- 169. 1180. Jacobson G., Piatetsky-Shapiro G., Lafond C., Rajinikanth M., Hernandez J. 1988. CALIDA: A knowledge-based system for integrating multiple heterogeneous databases. In Proceedings of the 3rd International Conference on Data and Knowledge Bases (Jerusalem, Israel, June), pp. 3-18. 1181. Litwin W., Boudenant J., Esculier C., Ferrier A., Glorieux A., La Chimia J., Kabbaj K., Moulinoux C., Rolin P., Stangret C. 1982. SIRIUS Systems for Distributed Data Management. In Distributed Data Bases, H.-J. Schneider, Ed. North-Holland, The Netherlands, pp. 311-366. 1182. Dwyer P., Larson J. 1987. Some experiences with a distributed database testbed system. In Proc. IEEE 75, 5 (May), 633-647. 1183. Templeton M., Brill D., Chen A., Dao S., Lund E., McGregor R., Ward P. 1987. Mermaid: A front-end to distributed heterogeneous databases. In Proc. IEEE 75,5 (May), 695-708. 1184. Landers T., Rosenberg R. 1982. An overview of Multibase. In Distributed Databases, H.-J. Schneider, Ed., North- Holland, The Netherlands, pp. 153-184. 1185. Ellinghaus D., Hallmann M., Holtkamp B.,Kreplin K. 1988. A multidatabase system for transaction autonomy. In Proceedings of the International Conference on Extending Database Technology (Venice, Italy, Mar.). In Computer Science, Vol. 303, Springer- Verlag, New York, pp. 600-605. 1186. Veijalainen J., Popescu-Zeletin R. 1988. Multidatabase systems in ISO/OSI environment. In Standards in Information Technology and Industrial Control, Malagardis, N., and-Williams, T., Eds. North-Holland. The Netherlands. DD.-83- 97. 1187. Dayal U., Hwang H. 1984. View definition and generalization for database integration in a multidatabase system. IEEE Trans. Soft. Eng.SE-IO, 6 (Nov.), 628-644. 1188. Belcastro, V., et al. 1988. An overview of the distributed query system D&S. In Proceedings of the International Conference on Extending Data Base Technolozy (Venice, Italv. Mar.). In Computer Science.- -Vol. 303,’ Spriger-Verlag, NewYork, pp. 170-189. 102 Моделі і засоби систем баз даних і знань 1189. Breitbart Y., Silberschatz A. 1988. Multidatabase update issues. In Proceedings of the ACM SZGMOD Conference (June), 135-142. 1190. Barker K., Ozsu T. 1988. A survey of issues in distributed heterogeneous database systems. Tech. Rep. TR 88-9, Univ. of Alberta Edmonton, Canada. 1191. Litwin W., Zeroual A. 1988. Advances in multidatabase systems. In Research into Networks and Distributed Applications (Proceedings of the EUTECO‘88). Sneth. R.. Ed. Elsevier Science Publishers’ B.V., North-Holland, pp. 1137-1151. 1192. Ram S., Chastain C. 1989. Architecture of distributed data base systems.Journal of Systems and Software, Vol. 10, No. 2, pp. 77-95. 1193. Siegel M. 1987. A survey on heterogeneous database systems. Tech. Note 87-174.1, GTE Laboratories, Waltham, Mass. 1194. Batini C., Lenzerini M., Navathe S. 1986. A comparative analysis of methodologies for database schema integration. ACM Computing Surveys, Vol. 18, No. 4, pp. 323-364. 1195.Ford N. Polyglot Programming. - http:// memeagora .b logspo t . com/200 /12 / polyglot-programming.html, December 05, 2006 1196. Leberknight S. Polyglot Persistence. - http://www.sleberknight.com/blog/ sleberkn/entry/polyglot_persistence, October 15, 2008 1197. Harold Lim, Yuzhang Han, and Shivnath Babu. 2013. How to Fit when No One Size Fits. In CIDR. www.cidrdb.org. 1198. J. Duggan, A. J. Elmore, M. Stonebraker, M. Balzinska, B. Howe, J. Kepner, S. Madden, D. Maier, T. G. Mattson, and S. B. Zdoni. 2015. The BigDAWG Polystore System. SIGMOD Record 44, 2 (2015), 11–16. 1199. Michael Armbrust, Reynold S. Xin, Cheng Lian, Yin Huai, Davies Liu, Joseph K. Bradley, Xiangrui Meng, Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, and Matei Zaharia. 2015. Spark SQL: Relational Data Processing in Spark. In SIGMOD ‘15: Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, May 2015, рр. 1383–1394. 1200. Garulli L. NoSQL adoption: what’s the next step. - https://www.slideshare.net/lvca/no- sql-matters2012keynote/47-MultiModel_ storage_12_one_product 1201. Zhen Hua Liu, Jiaheng Lu, Dieter Gawlick, Heli Helskyaho, Gregory Pogossiant, Zhe Wu. Multi-Model Database Management Systems - a Look Forward. In: Heterogeneous Data Management, Polystores, and Analytics for Healthcare, 2018, pp.16-29 1202. Valter Uotila, Jiaheng Lu. A Formal Category Theoretical Framework for Multi- Model Data Transformations. Rezig E.K. et al. (eds) Heterogeneous Data Management, Polystores, and Analytics for Healthcare. DMAH 2021, Poly 2021. Lecture Notes in Computer Science, vol 12921. pp. 14-28 1203. Henrik Forssell, Håkon Robbestad Gylterud, David I. Spivak. Type theoretical databases. Journal of Logic and Computation, Vol. 30, No 1, January 2020, pp. 217–238 1204. Zaidi E., Heudecker N., Adrian M. Market Guide for NoSQL DBMSs. - https://www. gartner.com/en/documents/3105622 1205. Jiaheng Lu, Irena Holubová, and Bogdan Cautis. Multi-model Databases and Tightly Integrated Polystores: Current Practices, Comparisons, and Open Challenges. In CIKM ‘18: Proceedings of the 27th ACM International Conference on Information and Knowledge ManagementOctober 2018. рр. 2301–2302. 1206. Ewa Pluciennik and Kamil Zgorzalek. “The Multi-model Databases - A Review”. BDAS 2017: 141–152. Ewa Pluciennik- Psota, Kamil Zgorzalek 1207. Fábio Roberto Oliveira, Luis del Val Cura. “Performance Evaluation of NoSQL Multi- Model Data Stores in Polyglot Persistence Applications”. IDEAS ‘16: Proceedings of the 20th International Database Engineering & Applications Symposium, July 2016, pp. 230–235 1208. Zhang C., Lu J., Xu P., Chen Y. (2019) UniBench: A Benchmark for Multi-model Database Management Systems. In: Nambiar R., Poess M. (eds) Performance Evaluation and Benchmarking for the Era of Artificial Intelligence. TPCTC 2018. Lecture Notes in Computer Science, vol 11135. Springer, pp 7-23 103 Моделі і засоби систем баз даних і знань 1209. Ran Tan, Rada Chirkova, Vijay Gadepally, and Timothy G. Mattson. 2017. Enabling query processing across heterogeneous data models: A survey. 2017 IEEE International Conference on Big Data (Big Data). 3211– 3220 1210. Jiaheng Lu, Irena Holubová. Multi-model Databases: A New Journey to Handle the Variety of Data. ACM Computing Surveys, Vol. 52, No 3, 2020, Article No.: 55, pp 1–38 1211. Aven P., Burley D. Building on Multi- Model Databases. O’Reilly Media, Inc., 2017, 96 p. 1212. B. Kolev, C. Bondiombouy, P. Valduriez, R. Jimenez-Peris, ´ R. Pau, and J. Pereira, “The CloudMdsQL multistore system,” in Proc. ACM International Conference on Management of Data (SIGMOD’16), 2016, pp. 2113–2116. 1213. J. Wang, T. Baker, M. Balazinska, D. Halperin, B. Haynes, B. Howe, D. Hutchison, S. Jain, R. Maas, P. Mehta, D. Moritz, B. Myers, J. Ortiz, D. Suciu, A. Whitaker, S. Xu. The Myria big data management and analytics system and cloud service. The 8th Biennial Conference on Innovative Data Systems Research (CIDR ‘17), 2017 1214. M. Hausenblas and J. Nadeau, “Apache Drill: Interactive adhoc analysis at scale,” Big Data, vol. 1, no. 2, pp. 100–104, 2013. 1215. A. Simitsis, K. Wilkinson, M. Castellanos, and U. Dayal . Optimizing analytic data flows for multiple execution engines, In Proc. ACM International Conference on Management of Data (SIGMOD’12), 2012, pp. 829–840. 1216. I. Gog, M. Schwarzkopf, N. Crooks, M. P. Grosvenor, A. Clement, and S. Hand, “Musketeer: all for one, one for all in data processing systems,” in EuroSys ‘15: Proceedings of the Tenth European Conference on Computer Systems, April 2015 Article No.: 2, рр. 1–16 1217. D. Agrawal, L. Ba, L. Berti-Equille, S. Chawla, A. Elmagarmid, H. Hammady, Y. Idris, Z. Kaoudi, Z. Khayyat, S. Kruse et al., “Rheem: Enabling multi-platform task execution,” in Proc. ACM International Conference on Management of Data (SIGMOD’16), 2016, pp. 2069–2072. 1218. S. Dasgupta, K. Coakley, and A. Gupta, “Analytics- Про автора: Резніченко Валерий Анатолієвич, кандидат фізико-математичних наук, заступник завід- увача відділом. Кількість публікацій в українських видан- нях– 61. Кількість зарубіжнихих публікацій – 4. Ін- декс Хірша – 12. http://orcid.org/0000-0002 4451-8931. Місце роботи автора: Інститут програмних систем НАН України, 03187, м. Київ-187, проспект Академіка Глушкова, 40. Тел.: (044) 526 3559. E-mail: reznich@isofts.kiev.ua