Tasks and methods of Big Data analysis (a survey)

We review tasks and methods most relevant to Big Data analysis. Emphasis is made on the conceptual and pragmatic issues of the tasks and methods (avoiding unnecessary mathematical details). We suggest that all scope of jobs with Big Data fall into four conceptual modes (types): four modes of large-s...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2019
Автор: Balabanov, O.S.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2019
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/367
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-367
record_format ojs
resource_txt_mv ppisoftskievua/29/f173944f51256e0d17cef68ddb293a29.pdf
spelling pp_isofts_kiev_ua-article-3672024-04-28T11:05:26Z Tasks and methods of Big Data analysis (a survey) Задачи и методы анализа больших данных (обзор) Задачі та методи аналізу великих даних (огляд) Balabanov, O.S. Big Data; data analysis; generative model inference; statistical methods; clustering; regression; prediction; pattern discovery; temporal data; causal networks UDC 004.855:519.216 большие данные; анализ данных; вывод генеративной модели; статистические методы; кластеризация; регрессия; прогноз; открытие закономерностей; темпоральные данные; каузальные сети УДК 004.855:519.216 великі дані; аналіз даних; виведення генеративної моделі; статистичні методи; кластеризація; регресія; прогноз; виявлення закономірностей; темпоральні дані; каузальні мережі УДК 004.855:519.216 We review tasks and methods most relevant to Big Data analysis. Emphasis is made on the conceptual and pragmatic issues of the tasks and methods (avoiding unnecessary mathematical details). We suggest that all scope of jobs with Big Data fall into four conceptual modes (types): four modes of large-scale usage of Big Data: 1) intelligent information retrieval; 2) massive (large-scale) conveyed data processing (mining); 3) model inference from data; 4) knowledge extraction from data (regularities detection and structures discovery). The essence of various tasks (clustering, regression, generative model inference, structures discovery etc.) are elucidated. We compare key methods of clustering, regression, classification, deep learning, generative model inference and causal discovery. Cluster analysis may be divided into methods based on mean distance, methods based on local distance and methods based on a model. The targeted (predictive) methods fall into two categories: methods which infer a model; "tied to data" methods which compute prediction directly from data. Common tasks of temporal data analysis are briefly overviewed. Among diverse methods of generative model inference we make focus on causal network learning because models of this class are very expressive, flexible and are able to predict effects of interventions under varying conditions. Independence-based approach to causal network inference from data is characterized. We give a few comments on specificity of task of dynamical causal network inference from timeseries. Challenges of Big Data analysis raised by data multidimensionality, heterogeneity and huge volume are presented. Some statistical issues related to the challenges are summarized.Problems in programming 2019; 3: 58-85 Рассмотрены основные задачи и методы глубокого анализа больших данных. В изложении сделан акцент на «физическом» смысле задач и методов, без математических деталей. Спектр анализа и использования больших данных охватывает четыре концептуальных класса заданий: «интеллектуальный» поиск информации; массированную (конвейерную) переработку данных; экстракцию знаний из данных (открытие закономерностей) и индукцию модели объекта (среды). Освещено суть типичных классов задач большой аналитики: группирование случаев (кластеризация данных); вывод целе-опре­де­ленных моделей (классификация, регрессия); вывод генеративных моделей; открытие структур и закономерностей. Рассмотрены ключевые методы кластеризации, регрессии и классификации (включая глубокое обучение), а также вывод  генеративных моделей. Методы решения целе-определенных задач делятся на те, что выводят модель в явном виде (модель «отделяется» от данных) и та методы, «привязанные к данным». Охарактеризовано особенности анализа темпоральных данных (сегментация, выявление точек изменения и т. д.). Детальнее изложено индуктивный  вывод каузальных сетей методами, основанными на независимости. Указаны особенности  вывода динамических каузальных сетей. Отдельно подытожены общие особенности применения статистических методов в анализе больших данных.Problems in programming 2019; 3: 58-85 Розглянуто основні задачі та методи глибокого аналізу великих даних. У викладі зроблено акцент на «фізичному» сенсі задач і методів, без математичних деталей. Спектр аналізу й використання великих даних охоплює чотири концептуальні класи завдань: «інтелектуальний» пошук інформації; масовану (конвеєрну) переробку даних; індукцію моделі об'єкту (середовища) та екстракцію знань з даних (відкриття закономірностей). Висвітлено суть типових класів задач великої аналітики: групування випадків (кластеризація даних); виведення ціле-визначених моделей (класифікація, регресія); виведення генеративних моделей; відкриття структур і закономірностей. Розглянуто ключові методи кластеризації, регресії та класифікації (включаючи глибоке навчання), а також виведення генеративних моделей. Методи розв'язання ціле-визначених задач поділяються на ті, що виводять модель у явному вигляді (модель «відокремлюється» від даних) та методи, «прив'язані до даних». Охарактеризовано особливості задач аналізу темпоральних даних (сегментація, виявлення точок зміни і т. д.). Детальніше викладено індуктивне виведення каузальних мереж методами, основаними на незалежності. Вказано особливості виведення динамічних каузальних мереж. Окремо підсумовано загальні особливості застосування статистичних методів у аналізі великих даних.Problems in programming 2019; 3: 58-85 Інститут програмних систем НАН України 2019-08-21 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/367 10.15407/pp2019.03.058 PROBLEMS IN PROGRAMMING; No 3 (2019); 58-85 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 3 (2019); 58-85 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 3 (2019); 58-85 1727-4907 10.15407/pp2019.03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/367/369 Copyright (c) 2019 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-28T11:05:26Z
collection OJS
language Ukrainian
topic Big Data
data analysis
generative model inference
statistical methods
clustering
regression
prediction
pattern discovery
temporal data
causal networks
UDC 004.855:519.216
spellingShingle Big Data
data analysis
generative model inference
statistical methods
clustering
regression
prediction
pattern discovery
temporal data
causal networks
UDC 004.855:519.216
Balabanov, O.S.
Tasks and methods of Big Data analysis (a survey)
topic_facet Big Data
data analysis
generative model inference
statistical methods
clustering
regression
prediction
pattern discovery
temporal data
causal networks
UDC 004.855:519.216
большие данные
анализ данных
вывод генеративной модели
статистические методы
кластеризация
регрессия
прогноз
открытие закономерностей
темпоральные данные
каузальные сети
УДК 004.855:519.216
великі дані
аналіз даних
виведення генеративної моделі
статистичні методи
кластеризація
регресія
прогноз
виявлення закономірностей
темпоральні дані
каузальні мережі
УДК 004.855:519.216
format Article
author Balabanov, O.S.
author_facet Balabanov, O.S.
author_sort Balabanov, O.S.
title Tasks and methods of Big Data analysis (a survey)
title_short Tasks and methods of Big Data analysis (a survey)
title_full Tasks and methods of Big Data analysis (a survey)
title_fullStr Tasks and methods of Big Data analysis (a survey)
title_full_unstemmed Tasks and methods of Big Data analysis (a survey)
title_sort tasks and methods of big data analysis (a survey)
title_alt Задачи и методы анализа больших данных (обзор)
Задачі та методи аналізу великих даних (огляд)
description We review tasks and methods most relevant to Big Data analysis. Emphasis is made on the conceptual and pragmatic issues of the tasks and methods (avoiding unnecessary mathematical details). We suggest that all scope of jobs with Big Data fall into four conceptual modes (types): four modes of large-scale usage of Big Data: 1) intelligent information retrieval; 2) massive (large-scale) conveyed data processing (mining); 3) model inference from data; 4) knowledge extraction from data (regularities detection and structures discovery). The essence of various tasks (clustering, regression, generative model inference, structures discovery etc.) are elucidated. We compare key methods of clustering, regression, classification, deep learning, generative model inference and causal discovery. Cluster analysis may be divided into methods based on mean distance, methods based on local distance and methods based on a model. The targeted (predictive) methods fall into two categories: methods which infer a model; "tied to data" methods which compute prediction directly from data. Common tasks of temporal data analysis are briefly overviewed. Among diverse methods of generative model inference we make focus on causal network learning because models of this class are very expressive, flexible and are able to predict effects of interventions under varying conditions. Independence-based approach to causal network inference from data is characterized. We give a few comments on specificity of task of dynamical causal network inference from timeseries. Challenges of Big Data analysis raised by data multidimensionality, heterogeneity and huge volume are presented. Some statistical issues related to the challenges are summarized.Problems in programming 2019; 3: 58-85
publisher Інститут програмних систем НАН України
publishDate 2019
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/367
work_keys_str_mv AT balabanovos tasksandmethodsofbigdataanalysisasurvey
AT balabanovos zadačiimetodyanalizabolʹšihdannyhobzor
AT balabanovos zadačítametodianalízuvelikihdanihoglâd
first_indexed 2024-09-16T04:08:38Z
last_indexed 2024-09-16T04:08:38Z
_version_ 1818568282320404480
fulltext Моделі та засоби систем баз даних і знань © О.С. Балабанов, 2019 58 ISSN 1727-4907. Проблеми програмування. 2019. № 3 УДК 004.855:519.216 https://doi.org/10.15407/pp2019.03.058 О.С. Балабанов ЗАДАЧІ ТА МЕТОДИ АНАЛІЗУ ВЕЛИКИХ ДАНИХ (ОГЛЯД) Розглянуто основні задачі та методи глибокого аналізу великих даних. У викладі зроблено акцент на «фізичному» сенсі задач і методів, без математичних деталей. Спектр аналізу й використання великих даних охоплює чотири концептуальні класи завдань: «інтелектуальний» пошук інформації; масовану (конвеєрну) переробку даних; індукцію моделі об'єкту (середовища) та екстракцію знань з даних (відк- риття закономірностей). Висвітлено суть типових класів задач великої аналітики: групування випадків (кластеризація даних); виведення ціле-визначених моделей (класифікація, регресія); виведення генера- тивних моделей; відкриття структур і закономірностей. Розглянуто ключові методи кластеризації, ре- гресії та класифікації (включаючи глибоке навчання), а також виведення генеративних моделей. Мето- ди розв'язання ціле-визначених задач поділяються на ті, що виводять модель у явному вигляді (модель «відокремлюється» від даних) та методи, «прив'язані до даних». Охарактеризовано особливості задач аналізу темпоральних даних (сегментація, виявлення точок зміни і т. д.). Детальніше викладено індук- тивне виведення каузальних мереж методами, основаними на незалежності. Вказано особливості виве- дення динамічних каузальних мереж. Окремо підсумовано загальні особливості застосування статисти- чних методів у аналізі великих даних. Ключові слова: великі дані, аналіз даних, виведення генеративної моделі, статистичні методи, класте- ризація, регресія, прогноз, виявлення закономірностей, темпоральні дані, каузальні мережі. Вступ Стаття є другою частиною огляду аналітики великих даних. В першій части- ні [1] було розглянуто сфери застосувань великих даних, режими їх використання, основні напрямки, принципи, задачі гли- бокого аналізу великих даних та організа- цію циклу робіт з аналізу даних. У другій частині детальніше викладено задачі й ме- тоди глибокого аналізу даних. Великі дані (ВД) характеризуються як масовані (сьогодні – це порядку 2110 байтів), різноманітні («строкаті»), неодно- рідні, неструктуровані (чи погано структу- ровані), мінливі та «швидкі» (тобто такі, що швидко оновлюються чи поповнюють- ся) [2–9]. Про глибокий аналіз доречно говорити тільки коли даних багато і вони багатовимірні. Основними сферами засто- сування аналітики великих даних є бізнес та наукові дослідження. Застосування у державному секторі подібні до бізнесових або наукових. Застосування у бізнесі зосе- реджуються переважно на задачах предик- ції (прогнозування), розпізнавання, вияв- лення трендів (тенденцій) та аномалій, сумарізації даних тощо. Застосування у наукових дослідженнях в першу чергу спрямовані на інтегративну (синтетичну) переробку експериментальних даних, виявлення закономірностей та зв’язків, ге- нерацію та перевірку гіпотез, виведення моделей, які допомагають зрозуміти об’єкт дослідження. Образно кажучи, науковці шукають пояснень, узагальнень та знань, а бізнес цікавить, що відбувається, що буде і «що станеться, якщо ми зробимо так». Основний режим використання ВД – глибокий аналіз даних, коли величезний масив сирої інформації «перетравлюєть- ся» і перетворюється на концентровану й цінну інформацію кінцевого споживання. Як кажуть, з даних «висмоктується» (екс- трагується) їх цінний сенс. Впровадження великих даних неодмінно і безальтерна- тивно («автоматично») передбачає засто- сування великої аналітики. Оскільки сфе- ра великих даних та сфера великої аналі- тики взаємно доповнюють одна другу, доречно вести мову про формування єди- ного річища, до якого зіллються дослі- дження і розробки, що охоплюють цикл діяльності від збору даних до вироблення інформаційного продукту кінцевого спо- живання. Тобто формується «наука» (в широкому розумінні) «Великі дані плюс Велика Аналітика» [3, 7–20]. В роботі [1] виділено наступні типи (концептуальні режими) використання ВД: https://doi.org/10.15407/pp2019.03.0 Моделі та засоби систем баз даних і знань 59 1) «інтелектуальний» пошук потрі- бної інформації (фактів) або запису, файлу, що містить ту інформацію; 2) масована (конвеєрна) переробка даних («відпрацювання» даних за один-два сканування); 3) індукція моделі об'єкту (джерела даних); 4) екстракція знань з даних (від- криття закономірностей та структур). В процесі «інтелектуального» по- шуку також застосовується аналіз даних, але результат пошуку по рівню абстракції є той самий, у якому дані зберігаються. (По-суті, результат є компіляцією фрагме- нтів даних.) Гіпотетичний приклад запиту на «інтелектуальний» пошук інформації наведено в [1]. Режими використання да- них «3» та «4» єдині в тому, що вони здій- снюють узагальнення даних, тобто резуль- татом є концентрована («кристалізована») інформація. Далі розглядаються методи розв'язання саме задач глибокого аналізу даних. Вважається, що дані вже підготов- лені для аналізу. Сучасні методи аналізу даних та їх застосування викладено в [4, 10, 21–29]. Багато стандартних методів аналізу даних імплементовано у середо- вищах програмування R , Python, SAS, Matlab, Apache Mahout, Apache Spark і т. д. Спектр задач аналізу даних та відкриття знань Як аргументовано в [1], на виході інформаційної технології можна отримати тільки те, що містилося в масі даних перед переробкою (в «розчиненій», розпороше- ній формі), а також було задано як апріор- на інформація. Коли даних багато, внесок даних переважає. Успішність аналізу ВД визначається гармонійним взаємним допо- вненням даних, апріорної інформації та вдалою специфікацією завдання. Для роз- в'язання задач аналізу використовуються переважно статистичні методи. Протягом останніх кількох десятиліть карколомне зростання швидкодії комп'ютерів та обчи- слювальних систем стимулювало бурхли- вий розвиток статистичних методів оброб- ки даних [23–29]. На передній план вису- нулися обчислювально-інтенсивні та ком- бінаторні методи – непараметричні, ітера- тивні та апроксимаційні, а також методи, вільні від припущень і форм розподілень. Широко застосовується техніка бутстрепі- нгу, згладжування кернелом, генерація ви- бірки за Гіббсом, максимізація очікування і методи MCMC [25–28]. Великі дані спри- чинили наступний поштовх розвитку ста- тистичних методів. Загальна спрощена система задач аналізу ВД показана на рис. 1. (Деякі з за- дач, представлених на рис. 1, можуть ви- ступати етапом вирішення інших задач.) Типовий і лаконічний спосіб визначити акцент й мету завдання аналізу – вказати цільову змінну (характеристику, атрибут) y . В такому разі отримуємо ціле- визначену («націлену») задачу. Виведення ціле-визначених моделей – один з найпо- ширеніших класів задач аналізу даних. За- дачі, в яких не задано цільової змінної, ча- сто називають unsupervised learning [25, 26]. До таких задач відносять виведення генеративних моделей, кластеризацію і ба- гато іншого. Коли інтерес аналітика не ак- центовано на певній змінній, підходяща «загальна» задача – вивести генеративну модель для певного набору змінних X , тобто модель, яка відображає сумісне роз- поділення ймовірностей )(Xp . Опис суку- пності даних називаємо моделлю тоді, ко- ли він компактний, поданий у зручній (на- очній) формі й відображає головний вміст даних (відкидаючи випадкове і несуттєве). Подібні моделі )(Xp є генеративними мо- делями в слабкому сенсі. Іноді більш ком- пактний і аналітичний опис розподілення даних )(Xp можна отримати через гіпоте- тичні змінні Z , так що ))(()( ZpXp Z , де )( – певне стандартне перетворення. Подібну репрезентацію надають факторний аналіз, аналіз головних компонент тощо. Серед методів виведення ціле- визначених моделей доцільно розрізняти методи, призначені безпосередньо для прогнозування (оцінки) значення цільової змінної, і методи, призначені для побудови самої моделі як синтетичного змістовного результату. Крім того, аналітика може ці- кавити навіть не вся модель, а тільки Моделі та засоби систем баз даних і знань 60 головні фактори (причини), які об'єктивно визначають значення вказаної змінної. Тут пролягає нечітка межа між задачами виве- дення моделей та задачами відкриття знань в даних. Якщо разом з отриманим описом моделі )(Xp виявлено цікаві, несподівані й статистично значущі «риси» моделі, до- речно казати про відкриття знань. Навіть результати кластерного аналізу іноді мож- на кваліфікувати як відкриття знань, але за умови, що виявлені кластери є статистично значущими та чітко визначеними. В результаті неакцентованого аналі- зу (дослідження) даних можна отримати закономірності в таких формах: послідов- ності, що повторюються (motifs); часто по- вторювані набори елементів (асоціації); структури залежностей; імплікативні зв'яз- ки подій (можливо, нечіткі); періодичність коливань індикаторів у часі; інваріанти на сукупності значень характеристик (сталі співвідношення) тощо. Традиційно на вхід статистичних методів подається статистична вибірка X , тобто плаский масив, утворений зі записів- випадків (прецедентів) однакового форма- ту. Зазвичай постулюється, що ці дані є статистичною вибіркою за схемою I.I.D. Але реальні дані можуть походити з різних «моделей». Розділити компоненти суміші в загальній ситуації важко. Класичним під- ходом до розділення (групування) випад- ків (записів) є кластерний аналіз. Сучасні практичні задачі стикаються з масивами даних, які не є класичною вибіркою. В ба- гатьох ситуаціях між окремими записами даних є залежності у часі («післядія»). «Сирі» темпоральні дані з природного об'єкту не є I.I.D.-вибіркою. (Неможливо повернутися в минуле і повторити вимі- рювання.) Аналіз темпоральних даних охоплює зв'язки між різними записами да- них. Методи кластеризації Кластерний аналіз має давню істо- рію і продовжує розвиватися. Мета клас- теризації – розбити множину прикладів (точок, записів даних) на кілька кластерів (груп, підмножин) так, щоб точки одного й того самого кластеру були значно подіб- ніші (ближче) одна до одної, ніж точки, належні різним кластерам [23, 25, 26, 30]. (Зрозуміло, що розглядаються нетривіаль- ні ситуації, коли задача не розв'язується сортуванням даних за значеннями одної Рис. 1. Система задач великої аналітики Глибокий аналіз даних Явна (декларативна) прогнозна модель Виведення моделі для прогнозу Алгоритмічна «модель» прогнозу (по аргументу) рід «А» Обчислення «прогнозу» з даних (без моделі) рід «В» Методи, «прив'язані до даних» (кернел, найближ. сусід,..) Ціле- визначені задачі Класифікація, регресія,.. Впорядкування, дослідження і узагальнення даних Декомпозиція, виділення, розділення, сегментація Загальний опис даних, генеративні моделі об'єкту Виявлення основних рис, цікавих рис, закономірностей, аномалій Кластери, сегменти, згустки, паттерни Каузальні моделі Правила, формули, фактори, компоненти структури, зв'язки Спрощені моделі Моделі та засоби систем баз даних і знань 61 змінної чи за простим критерієм. Неодмін- но треба розглядати одночасно кілька (ба- гато) змінних, між якими існують залеж- ності невідомого характеру.) Накопичено багатий арсенал методів кластеризації. Се- ред розмаїття цих методів можна виділити три підходи, або принципи: 1) кластериза- ція, основана на сукупній близькості прик- ладів; 2) кластеризація за принципом лока- льної близькості і множинного сусідства (зв'язності); 3) кластеризація на основі ста- тистичної моделі розподілення даних [31]. Модель даних – це, зазвичай, су- міш компонент, де кожна компонента описана параметрично-заданим розподі- ленням щільності ймовірності. Як прави- ло, використовується нормальне розподі- лення. Критерієм вибору моделі є правдо- подібність моделі. Відомий метод класте- ризації, оснований на суміші моделей – AutoClass. Варіант систематизації методів кластеризації показано на рис. 2. Іншу (розгорнуту) класифікацію методів можна знайти в [30]. Традиційні методи кластеризації спираються на «середню» (або сукупну) відстань між точками. (Якщо точки розта- шовано у єдиному просторі, сукупна відс- тань обчислюється відносно центру клас- теру.) Відстань є оберненою мірою щодо близькості; аналогічно, розбіжність обер- нена до подібності. У випадку категорних змінних аналітик задає матрицю відстані (розбіжності) для пар точок. Мабуть най- більш популярним методом, базованим на середній відстані, є відомий K-means. Цей метод, отримавши «ззовні» кількість клас- терів, ітеративно повторює корекцію клас- терів, чергуючи два кроки: 1) кожна точка даних присвоюється (приписується) тому кластеру, центр якого розташований най- ближче до точки; 2) для кожного кластеру обчислюється новий центр, використову- ючи сукупність точок цього кластеру. Ро- бота завершується, коли припиняється пе- рерозподіл точок між кластерами. Досто- їнство методу K-means –економічність об- числень (не треба обчислювати відстані для пар точок даних). Проте цей метод не дає задовільного результату у складних ситуаціях. Можна узагальнити принцип роботи методу K-means і розширити сферу застосування, відмовившись від обчислен- ня метричних центрів кластерів, а замість центру використовувати один з членів кла- стеру (так, як це робиться у методі K- medoids). Тоді можна взагалі працювати без метричного простору прикладів і спи- ратися на попарно задану величину розбі- жності прикладів. Одні методи потребують, щоб кіль- кість кластерів була задана на вході. Інші, більш гнучкі методи мають розбити дані на стільки кластерів, скільки їх «об'єктив- но викристалізовується» згідно розташу- вання точок. Зрозуміло, що аналітику ціка- Кластеризація На основі апріорної моделі На розділенні за критерієм близькості/подібності Спосіб визначення критерію Заданий попарно Заданий метрично (відстань у просторі) Середня відстань «Сусідська» відстань Рис. 2. Принципи кластеризації Моделі та засоби систем баз даних і знань 62 ві такі кластери, які відображають об'єкти- вне групування (стратифікацію) прикладів, тобто відображають «контури» джерел да- них (об'єктів). Відтак, аналітик зацікавле- ний у методах, які автоматично й обґрун- товано визначають кількість кластерів в даних. Можна уникнути довільного визна- чення кількості кластерів, звернувшись до ієрархічної кластеризації. Тотальне засто- сування ієрархічного принципу («до кін- ця») породжує дендрограму даних, де на нижньому «поверсі» кожний кластер пред- ставлено однієї точкою, а кожний наступ- ний поверх утворений злиттям (об'єднан- ням) двох найближчих кластерів. Для вибору найкращого варіанту кластеризації потрібно визначити критерій якості. Універсального ефективного кри- терію не створено. Оцінка валідності ре- зультатів кластеризації залишається відк- ритим питанням. Хоча задача кластериза- ції інтуїтивно зрозуміла, в загальній пос- тановці ця задача неоднозначна і не має єдиної теорії. Без додаткових уточнень і обмежень задача кластеризації погано пос- тавлена. Наприклад, невизначеність задачі випливає з невизначеності міри близькості (відстані), коли різні змінні мають різні одиниці виміру або навіть відносяться до різних типів. На результати кластеризації критично впливає вибір (зміна) масштабів для змінних. Якщо маємо змінні різних типів, то взагалі немає єдиного простору змінних. Задавати величину відстані (роз- біжності) для всіх пар точок може бути практично неприйнятно (особливо для ве- ликих даних). Класичні алгоритми кластеризації стикаються з труднощами у випадках, ко- ли кластери не є опуклими і не розмежо- вуються лінійно (тим більше – коли одні кластери оточують інші). В таких ситуаці- ях потрібні методи, основані на локальній близькості і зв'язності. Особливо складна ситуація – коли кластери перетинаються (частково суміщені). Слабкість традицій- них методів в таких ситуаціях випливає з використання сферичної або еліптичної метрики. Один з підходів, що позбавлений цих обмежень – спектральна кластериза- ція. Суть цього підходу полягає в тому, що ті й тільки ті пари точок, які достатньо по- дібні (близькі) одна до одної, поєднуються ребром. Тоді задача ставиться як розбиття графу. Для розв’язання прикладних задач (головним чином для ситуацій з кластера- ми нестандартних форм) фахівці розроби- ли багато евристичних алгоритмів класте- ризації. Більшість тих методів спирається на відношення сусідства. Критерій об'єд- нання точок у кластер спирається на коле- ктивну локальну близькість та нерозрив- ність (гущину) кожного кластера. Достатню гнучкість у важких умо- вах (викривлених, не-опуклих кластерів) показав метод само-організуючих відо- бражень, або мап (self-organizing map) [26]. Ідея само-організуючих мап (СОМ) полягає в тому, що у багатовимірному просторі, утвореному даними, будується двовимірна «різноманітність», яка апрок- симує дані. Ця різноманітність формуєть- ся як грати (у відповідних координатах) з mk  точок-прототипів. Дані скануються послідовно, для кожної точки даних зна- ходять найближчий прототип і зсувають його, щоб наблизити до точки даних. Але зсув стримується, щоб зберігати просто- рову гладкість двовимірної різноманітно- сті і відношення сусідства прототипів. Для цього в СОМ підтримується певна кількість сусідів кожного прототипу. Су- сідство визначається умовою, що відстань (у координатах гратів) не перевищує за- даного порогу. Для того, щоб результати кластери- зації можна було сприймати як цікаві зна- хідки та знання, потрібно компактно опи- сати кластери і показати статистичну зна- чущість виділення саме таких кластерів. Кластеризацію можна розглядати як засіб розділення суміші даних на компоненти. Але зробити це буває важко або неможли- во. Функції щільності ймовірностей ком- понент можуть значною мірою перетина- тися. Тоді для ідентифікації компонентів (кластерів) потрібні методи, основані на моделі. Але ці методи спираються на апрі- орні відомості про характер компонент. Навіть після вірної ідентифікації компо- нент суміші однозначно розділити самі да- ні неможливо. Тобто кожний запис (прик- лад) можна віднести (приписати) до кіль- кох компонент (з різною ймовірністю). Моделі та засоби систем баз даних і знань 63 Кластеризація на основі суміші моделей нагадує виведення моделей з прихованими (латентними) змінними. Для кластеризації даних з пропусками застосовуються техні- ка максимізації очікування (EM). Коли об- сяг даних надто зростає, відомі методи стають практично неприйнятними. Пом'я- кшити проблему можна, наприклад, за ра- хунок фокусування ітеративного процесу обчислень, уникаючи сканування частини даних [32]. Виведення ціле-визначених моделей В задачах цього типу аналітик вка- зує одну цільову змінну y (відгук) серед змінних обраного масиву. В задачах регре- сії цільова змінна неперервна, а в задачах класифікації та розпізнавання – дискретна. Ціле-визначена задача виводить результат (модель) у формі )(Xy  . (Строго кажу- чи, оскільки маємо Xy , треба писати )(Zy  , де }{\ yXZ  .) Коли цільова змінна y дискретна, модель вигляду )(Zy  називають «дискримінативною» (на противагу «генеративній» моделі )(Xp ). В разі дискретної цільової змінної модель може мати форму )|( Xyp . Тоді зазвичай додається ще правило рішення )}({maxargˆ ypy  . Якщо метою є тільки вироблення прогнозу значення цільової змінної, то опис )( може бути алгоритмом чи про- цедурою (і не мати декларативної або ана- літичної форми). Результат у вигляді )(Zy  або )|( Zyp є предиктивною мо- деллю по формі, тобто у слабкому сенсі. Натомість предиктивними моделями у строгому сенсі є такі, які добре узагаль- нюють залежності і зберігають адекват- ність «на відстані» від точок оброблених даних, тобто достатньо точно екстрапо- люють залежності. Вимога до таких моде- лей – точні прогнози в усьому просторі (на всьому діапазоні) застосування. Оскільки йдеться про аналіз вели- ких даних, то є сенс систематизувати ме- тоди виведення ціле-визначених моделей згідно режиму використання даних. З цієї точки зору всі методи розділяємо на два роди: 1) рід «А» – «модельні» методи; 2) рід «Б» – «відкриті процедури» (методи, «прив'язані до даних»). Методи роду «А» надають завершений компактний загаль- ний опис (модель у явному вигляді) )(Zy  . Загальна модель виводиться з даних один раз і надалі зберігається та за- стосовується «окремо» від тих даних. Для отримання прогнозу за допомогою такої моделі потрібно задати на вхід опису )(ˆ Zy  тільки значення «аргументу» (значення предикторів) 0Z . Натомість для отримання прогнозу із застосуванням ме- тоду роду «Б» використовується процеду- ра вигляду ),(ˆ 0Zy yZ , і потрібно зада- вати не тільки значення «аргументу» 0Z , але й кожний раз використовувати всі дані yZ , на які спирається метод. Кожний раз дані обробляються заново. Методи роду «Б» не продукують моделі, а тільки обчис- люють окремі значення ŷ прямо з даних. Методи роду «А» поділяються на ті, що виводять явну компактну модель )(F Zy  у декларативній або аналітичній формі (родина «А1»), та на ті, що надають лише алгоритмічний засіб )(:ˆ Zy  для обчислення прогнозу, виходячи з значення «аргументу» (родина «А2»). Між методами родин «А1» і «А2» позиціонуються промі- жні варіанти, коли маємо кілька явних мо- делей відповідно для кількох секторів (се- гментів) простору значень «аргументу». В свою чергу, методи роду «Б» можуть ви- користовувати спільну процедуру «налаш- тування», яка виконується один раз, так що її результати (параметри) потім засто- совуються багатократно для обчислення прогнозу. Спільна процедура «налашту- вання» також може включати відбір необ- хідних (значущих) факторів (предикторів, ознак). Відбір значущих предикторів (ре- гресорів) виконується майже всіма мето- дами. Для багатьох прикладних задач (кла- сифікації, розпізнавання) перед власне по- будовою моделі формуються «ознаки», тобто нові змінні (підвищеного рівня порі- вняно з заданими на вході). Створено великий арсенал методів виведення ціле-визначених моделей (зок- рема, класифікації та регресії) [215-27]. Моделі та засоби систем баз даних і знань 64 Багато методів регресійного аналізу нама- гаються відтворити функцію )(F Xy  , не- зважаючи на те, що емпірична залежність не є однозначною функцією (внаслідок недоступності деяких факторів та завдяки домішку «гамору» в даних). Втім, іноді можна було би точно описати дані одноз- начною функцією )(F Xy  , але це означа- ло би відтворювати випадковий гамір. Та- ка модель не буде адекватною. Історично першим методом була лінійна регресія, яка виводить модель вигляду )|E( Xy XB  T 0b . Критерієм якості моделі (для налаштування коефіцієнтів B ) є мінімум суми квадратів відхилень (помилок). Зро- зуміло, що у більшості практичних задач лінійна модель не дасть задовільного ре- зультату. Було пропоноване багато варіа- нтів нелінійної регресії. Залучення все більш складних і гнучких форм залежнос- ті (наприклад, поліномів високого ступе- ня) дозволяє мінімізувати відхилення да- них від прогнозу моделі. Але висока гну- чкість (адаптивність) моделі веде до син- дрому гіпер-специфікації, тобто «натяж- ки» (overfitting), з яким треба боротися. Наприклад, нехай для відгуку y маємо лише один регресор x . В такому разі будь-які дані xy (коли немає двох записів з однаковими значеннями змінної x ) мо- жна абсолютно точно описати моделлю y )(sin bxac  . Для цього налаштову- ються три параметри cba ,, (завважте, зна- чення b може бути великим). Але ясно, що така модель (будучи «точною» з точки зору оброблених даних) буде катастрофі- чно неадекватною для нових даних, навіть з того самого джерела. (Цей приклад та- кож показує, що номінальна кількість па- раметрів далеко не завжди вірно характе- ризує складність моделі.) Найбільш популярними способами стримування гіпер-специфікації є крос- валідація, регуляризація та процедури на основі бутстрепінгу [26, 27]. З точки зору аналітики критичним питанням виведення ціле-визначених моделей є підбір значу- щих предикторів (коваріат). Мабуть най- більш робастна процедура підбору преди- кторів (серед традиційних) – це двох- етапна процедура: на першому етапі пре- диктори послідовно включаються в мо- дель, а на другому – виключаються. Проте повного розв'язання ця задача знаходить тільки в апараті каузальних мереж, оскі- льки предиктори часто є умовно-ін- формативними [1]. Найбільш популярни- ми критеріями якості моделі (для підбору складу предикторів) є AIC (або pC ) та BIC [27–29]. Інший підхід полягає у тому, щоб обмежувати величину коефіцієнтів регре- сії («стягувати» їх до нуля). Гребенева ре- гресія та «Лассо» [26, 27, 29] включають в постановку задачі оптимізації моделі штрафи на розмір коефіцієнтів. Але гре- бенева регресія має тенденцію зменшува- ти коефіцієнти, але не видаляти терми з моделі. Натомість постановка задачі «Ла- ссо» стимулює жорсткий відбір (відсів) підмножини предикторів. Тому «Лассо» дає простішу модель. Зазвичай немає підстав розрахову- вати на те, що «істинна» модель має якусь аналітичну форму. Взагалі, апріорне ви- значення класу моделі часто виглядає во- люнтаристським й непереконливим. Тому цілком закономірно виникла ідея іншого підходу до розв'язання ціле-визначених задач. Замість побудови єдиного матема- тичного опису )F(ˆ Xy  відтворюють ло- кальну залежність в межах ареалів (сегме- нтів, ділянок) простору значень предикто- рів. До таких методів (родина «А1-Loc»), належать сплайни регресії. Аби локальні функції регресії з'єднувалися без розривів і зламів, достатньо застосувати кубічні сплайни [26, 29]. Протягом останніх 20-30-ти років було розроблено багато адаптивних мето- дів відтворення ціле-визначених моделей, які вдаються до нових способів форму- вання моделі. Виникли методи, що струк- турують (сегментують) простір предикто- рів, тобто розбивають простір змінних на ареали (квазі-прямокутники, квазі-пара- лепіпеди) відповідно до локальної поведі- нки залежності. Популярним способом адаптивної сегментації простору стала побудова дерев (дерева регресії, методи MARS, boosting tree, bagging, випадкові дерева) [26, 29]. Ці методи ієрархічно та ітеративно обирають оптимальне розбиття Моделі та засоби систем баз даних і знань 65 підмножини даних на кожному кроці так, щоб сегменти простору охоплювали дані з близькими значеннями цільової змінної. Такі прості методи, як CART, C4.5, C5.0, утворюють розгалуження дерева, обравши чергову змінну та її певне значення. В кожному листі дерева змінна y визнача- ється просто (наприклад, це відповідна константа). Для задачі регресії таке рі- шення породжує проблему – відсутність гладкості. Ця проблема дерев долається більш витонченими методами, наприклад, MARS (багатовимірні адаптивні регресій- ні сплайни). Метод MARS формує модель з «однобічних» лінійних базових функцій, які мають вигляд )}(,0max{ tXb j  та )}(,0max{ jXtb  . Модель виводиться як сума обраних базових функцій з налашто- ваними параметрами t та b . Навіть такі прості базові функції дозволяють відтво- рювати нелінійні залежності. В разі недо- статньої точності в модель додаються до- бутки базових функцій. За такою процеду- рою можна отримати дуже складну мо- дель, тому на заключному етапі виведення виконується зворотній процес «підрізан- ня» (спрощення) дерева. Деякі терми мо- делі видаляються, але так, щоб відхилення моделі від даних зростало на мінімальну величину. Оптимальний «розмір» моделі визначається за допомогою узагальненої крос-валідації [26, 27, 29]. Вдосконален- ням методу CART є «ієрархічна суміш ек- спертів». Додаткова адаптивність досяга- ється за рахунок того, що розгалуження дерева утворюють згідно (лінійних) комбі- націй змінних (тому «нарізка» простору – не прямокутна). Хоча виведення дерева не породжує єдиної компактної моделі (у традиційному сенсі), але обґрунтована сегментація прос- тору змінних придатна для інтерпретації та візуалізації і надає певне знання. Якщо пріоритетом аналітика є точ- ність предикції чи класифікації, то засто- совують ансамблі моделей. Виводять набір «моделей-дерев» з квазі-вибірок, отрима- них за допомогою бутстрепінгу. Для роз- галужень в кожному дереві черговий пре- диктор обирають стохастично (щоб змен- шити кореляцію та ухил). Прогноз обчис- люється як середнє значення для всіх де- рев (в задачах регресії) або обирається бі- льшістю «голосів» (в задачах класифіка- ції). Це дозволяє знизити дисперсію про- гнозу. Але перехід від однієї моделі до ан- самблю означає втрату наочності та «зро- зумілості». Протягом останніх 15 років серед методів класифікації значної популярності набув напрямок support vector machine (SVM) [25, 29]. Ці методи є розвитком ідеї класифікатора з максимальними полями. Такі методи спрямовані на побудову поді- льної (дискримінативної, сепараторної) поверхні або лінії, такої, щоб вона вірно розділяла всі точки на класи і, крім того, щоб відстань від сепараторної поверхні (лінії) до найближчих точок була якнайбі- льшою. Обчислювальна перевага методів виведення класифікаторів за критерієм ма- ксимальних полів випливає з того, що в задачі оптимізації враховуються тільки то- чки, що лежать на полях (а не всі). Для мо- делі support vector classifier вимога корект- ної класифікації всіх точок (даних) посла- блюється (тому їх звуть класифікаторами з «м'якими» полями). Тобто достатньо вірно класифікувати не всі, а лише переважну більшість точок, але натомість треба дода- тково забезпечити робастність класифіка- ції шляхом збільшення полів та спрощення (згладжування) поверхні сепарації. Точ- ність класифікації моделями SVM підви- щується за рахунок побудови нелінійної сепараторної поверхні з використанням кернелу (ядра). Переглянемо методи, «прив'язані до даних», тобто методи роду «Б». В літе- ратурі їх іноді називають «базованими на пам'яті» (“memory-based”). Зрозуміло, що прогноз має спиратися на ближчі точки даних. Найпростіший спосіб використан- ня принципу локальності – метод най- ближчого сусіда: для оцінки відгуку ŷ в заданій точці 0X береться значення y з того запису, у якому значення X є най- ближчим до заданого ( 0XX  ). Завважи- мо, що хоча цей метод не передбачає об- числень, у разі використання великих об- сягів даних пошук ближчих сусідів може потребувати значних витрат. Уявімо, що Моделі та засоби систем баз даних і знань 66 користувача цікавить прогноз в точці 0X , для якої є відповідний ( i й) запис даних (тобто маємо 0XX i  ). З огляду на зага- мованість даних значення цільової змін- ної з i го запису даних далеко не завжди є кращим прогнозом. Вдосконалити метод найближчого сусіда (підвищити робаст- ність) можна за рахунок того, що прогноз обчислюється як середнє значення y на основі кількох ближчих точок даних (з вагами). Ще гнучкіший метод – непараме- трична регресія, – використовує згладжу- вання залежності навколо 0X за допомо- гою кернела. Явну модель не виводять (але на попередньому етапі виконується настройка параметрів, зокрема, «вікна» кернелу). Кожна чергова предикція пот- ребує значних обчислень на основ даних (модель існує віртуально). Локальна лінійна регресія поєднує традиційну регресію з принципом локаль- ного непараметричного згладжування. При цьому замість єдиної моделі настроюється функція для кожної цільової точки. Задача ставиться наступним чином [27]:    n i iii xyxxKx 1 2 00 ))(,()(ˆ argmin   , де ),( K – функція кернелу, а n – кількість записів даних. Хоча така постановка схо- жа на звичайну регресію, але модель (в строгому сенсі) не будується. Техніка лі- нійної регресії використовується тут для того, щоб уникнути зміщення (викрив- лення) прогнозів на краях діапазону да- них. (Таке зміщення є типовим синдро- мом звичайного непараметричного згла- джування.) Для того, щоб обчислення прогнозу не вимагало використання всієї вибірки даних yZ , можна використати функцію кернелу без «хвостів» або попе- редньо настроювати параметри «вікна» кернелу для окремих секторів простору. Але ефект такого вдосконалення може бути незначний, бо все одно треба перег- лядати всі дані, щоб відібрати частину да- них, яка буде оброблена. Техніку локальної лінійної регресії можна застосувати також в режимі виве- дення явної аналітичної моделі, але в ло- кальному варіанті (родина «А1-Loc»). То- ді можна не повторювати обробку всіх даних кожний раз, а натомість зберігати набір локальний (частинних) моделей. В кожному ареалі предикторів обирається «представницька» точка, і модель, виве- дена для цієї точки, застосовується для всього ареалу. Для втілення такого режи- му потрібно виконати розбивку простору предикторів на ареали (сегменти) і підт- римувати засіб вибору відповідної лока- льної моделі. Для розв'язання ціле-визначених задач, призначених, перш за все, для роз- пізнавання та класифікації, спільнота комп'ютерників давно розвиває техніку так званих нейронних мереж. Методи «навчання» нейронних мереж спочатку розробляли радше евристично, за аналогі- єю до функціонування мозкових структур, яким його уявляли комп'ютерники. Тому ці методи традиційно позиціонували як один з напрямків «штучного інтелекту». Логічно віднести цей розділ досліджень і розробок до напрямку «самонавчання ал- горитмів» [1]. Навчання нейронних мереж належить до методів родини «А2» (див. вище). Нейронні мережі продукують рад- ше вміння, а не знання. Нейронні мережі є багато-параметричними статистичними Формування ознак Формування ознак 2-го порядку Реконструкція функції Правило рішення (вибір) Рис. 3. Схема нейронної мережі для глибокого навчання Моделі та засоби систем баз даних і знань 67 моделями, які мають кілька рівнів, де за- стосовуються лінійні перетворення, нелі- нійні функції та порогові функції [25–27]. З вхідних змінних формують інформатив- ніші (синтетичні) «ознаки», з яких вже будується модель. Модель може включати багато рівнів. По-суті, техніка навчання нейронної мережі є варіантом виконання градієнтної оптимізації. Параметри конс- трукції «моделі» (кількість рівнів, блоків, ознак,..) іноді задаються, але можуть на- лаштовуватися за допомогою крос- валідації або підбиратися за допомогою експериментів. Схематично конструкція нейронної мережі показана на рис. 3 (але треба мати на увазі, що сусідні рівні поєднані перех- ресними зв'язками). Кожний наступний рівень конструкції підвищує рівень абст- ракції (узагальнення) інформації. Навчан- ня здійснюється як налаштування бага- тьох (до мільйонів) вагових коефіцієнтів моделі. Варіант нейронної мережі може бу- дуватися наступним чином. Кожна ознака формується за допомогою функції вигляду )...( ,11,0, mmiiii xxz   , де ,.., 21 xx – вхідні сигнали, )( – функція активації, наприклад, порогова або сигмої- дна (згладжена версія). Вихідний результат виробляється за допомогою функції вигляду ...)( 22,11,0,  zzgy kkkkk  , де )(kg – нелінійна функція, наприклад, подібна до )( , але з вільними параметра- ми, які налаштовуються. Для моделей кла- сифікації в ролі )(kg може використовува- тися функція softmax. Коли мережа має кілька виходів, додається ще правило рішення (обрання). Навчання полягає у підборі коефіцієнтів ji, та jk , з метою мінімізувати середньо- квадратичне відхилення прогнозу від фак- тичних значень iy . Впродовж останнього десятиріччя у руслі нейронних мереж виокремилися но- ва хвиля розробок під назвою «глибоке навчання» [25–27, 33]. Ці засоби відрізня- ються від попередніх поколінь нейронних мереж більшою кількості рівнів конструк- ції та ускладненням форм перетворень. На старті процесу глибокого навчання за- дано «каркас» моделі, який розрахований на певний клас прикладних задач. Розріз- няють кілька різновидів моделей глибоко- го навчання. «Конволюційні» мережі при- стосовані для обробки образів, відео і мовлення, а «рекурентні» мережі – для по- слідовних даних [33]. В «конволюційних» мережах чергуються шари (рівні) згортки та злиття [27]. Фактори, що правдоподібно забез- печують успішність глибокого навчання (у відповідних впровадженнях), названо в [1]. В задачах глибокого навчання кількість вхідних змінних (предикторів) велика, але вони «дрібні». Сусідні змінні взаємно тіс- но корельовані. Аналіз темпоральних даних Зібрання даних з темпоральною прив'язкою прикладів та характеристик інтенсивно накопичуються. Спектр засто- сувань методів обробки й аналізу темпора- льних та просторово-темпоральних типів даних надзвичайно широкий. Він охоплює такі різноманітні сфери, як біологія, меди- цина, астрофізика, економетрика, інтелек- туалізація роботів і багато іншого. В формі темпоральних даних фіксуються фінансові та біржові індекси, аудіо- та відеозаписи, транзакції через систему тощо. Розв'язання прикладних проблем може потребувати цілого комплексу методів і технологій. Методи аналізу темпоральних даних все більше диференціюються й спеціалізують- ся відповідно до прикладних задач. Тут доцільно розглянути тільки базові задачі й методи. Взагалі, в багатьох ситуаціях аналі- тик стикається з даними, об'єктивно вбу- дованими в певну просторово-часову стру- ктуру. Дані мають невід'ємні координати виміру. Спеціальним (одновимірним) ви- падком просторової структури є послідов- ність. Відмінність впорядкованості у часі від просторової послідовності можна по- яснити за допомогою понять інерції (піс- лядії) та спрямованості в одну сторону (у майбутнє). Завдяки часовому виміру ста- Моделі та засоби систем баз даних і знань 68 ють практично важливими такі поняття, як форма сигналу, швидкість зміни, періоди- чність, спектр і т. д. З'являються вагомі пі- дстави розділяти «корисний сигнал» та «гамір» у єдиному потоці даних. Статистична методологія вже дав- но озброєна процедурами роботи з дани- ми у формі часових рядів. (Відомі транс- формації дозволяються привести такі дані до схеми I.I.D.-вибірки.) Дискретизація (у часі) неперервних процесів відбувається вже на етапі вимірювання. Багато методів розв'язання типових задач аналізу, розро- блених для традиційних даних (зокрема, класифікація, кластеризація), були поши- рені на темпоральні дані за допомогою трансформацій та спрощення даних. На- приклад, виділяють фрагменти часового ряду і трактують їх як ознаки в традицій- них задачах. Традиційні підходи до аналі- зу сигналів та неперервних процесів ви- користовують різні варіанти згортки і фі- льтрації. В епоху великих даних поперед- ня обробка темпоральних даних залучає широкий набір простих й практичних процедур – «нарізка» послідовності на фрагменти, масштабування, агрегація (спрощення, зменшення точності і деталі- зації). «Нарізка» є типовим засобом сфо- рмувати вибірку випадків з єдиного пото- ку даних. Іноді вибір варіанта нарізки на фрагменти має вирішальний вплив на ре- зультати подальшого аналізу, причому невідомо, як треба «вірно» нарізати дані. Задачі аналізу часових рядів залучають спеціальну відповідну техніку, зокрема, авторегресію (AR), moving average (MA), приховані марковські ланцюги (HMM), DTW [25, 34] і т. д. Задача сегментації темпоральних даних та часових рядів широко розповсю- джена і має варіанти з дуже різними пос- тановками відповідно до прикладних ці- лей. Якщо йдеться про аналіз об'єктивного процесу (фізичного, економічного і т. д.), то мета може полягати в тому, щоб знайти фрагменти (попередньо невідомої довжи- ни), які характеризуються стаціонарністю або певною динамікою зміни форми сиг- налу у часі. В роботі [34] головною метою сегментації часових рядів названо апрок- симацію й зниження розмірності. Тому се- гменти мають бути типовими (а їх номенк- латура – мінімальною), щоб кожний тип сегменту описувався простою моделлю. Якщо маємо задачу розпізнавання аудіо мови, то такі показники, як швидкість, іне- рція, стаціонарність і тренд будуть несут- тєвими. Але спрямованість послідовності даних у часі не можна відкинути. Для роз- пізнавання аудіо мови потрібно розділити ряд даних на фрагменти, які відповідають словам. Тоді ряд даних трактується як ла- нцюжок варіантів стандартних паттернів (фрагменти є репрезентантами класів екві- валентності). Така задача сегментації да- них переплітається з класифікацією. Нато- мість якщо поставити мету розшифрувати аудіозапис невідомої мови, то спочатку, мабуть, треба застосувати кластеризацію та пошук motifs. Взагалі, можна розрізняти типи те- мпоральних даних згідно природи генера- торів даних. Типовими генераторами да- них є: 1) природні процеси, 2) ергатичні системи (або цілеспрямовані об'єкти), 3) бібліотеки «паттернів» та записів. Деякі генератори даних останнього типу поро- джують такі послідовності символів, що для них вибір початку і кінця послідовнос- ті є питанням домовленості. Такі дані мо- жна трактувати як одновимірний варіант просторових даних. Методи аналізу сим- вольних послідовностей і виявлення ано- малій в них оглянуто в [35]. Відомо кілька постановок задачі виявлення аномалій в послідовностях. Пе- рша: виявити аномальний фрагмент в дов- гій суцільній послідовності. Друга: серед багатьох послідовностей виявити таку, яка значно відрізняється від решти. Третя: знайти послідовність, що містить деякий фрагмент (паттерн), який повторюється в цій послідовності значно частіше від очі- куваного («нормального» чи середнього) рівня. В разі, коли розглядаються дані, ге- неровані природними процесами чи ерга- тичними системами, актуальною є задача прогнозу, тобто передбачення кількох найближчих майбутніх значень. Для цього застосовуються такі традиційні методи, як авторегресія, приховані марковські ланцю- ги тощо. Моделі та засоби систем баз даних і знань 69 Задача виявлення точок змін є хара- ктерною саме для аналізу темпоральних даних (перш за все аналізу даних з приро- дних процесів). Ця задача є різновидом за- дачі сегментації, сформульованим в інших поняттях. Точка зміни трактується як гру- бий, раптовий, різкий (швидкий), крутий перехід процесу від одної поведінки до іншої. Наприклад, зміну можна розуміти як перехід від одного стаціонарного режи- му до іншого («переключення»). Створено багато методів виділення точок зміни [36–39]. В економетричному аналізі так звані структурні зміни («злами») розумі- ються як моменти, коли різко змінюються коефіцієнти лінійної залежності цільового часового ряду від інших (паралельних) ча- сових рядів. Проблему виявлення точок зміни іноді формулюють як задачу вибору кращої статистичної моделі даних [36]. При цьому кожний фрагмент даних між двома точками зміни має бути достатньо однорідним, щоб добре описуватися прос- тою локальною моделлю. Мета цієї задачі – оптимізація «сукупної» моделі за трьома вимогами: максимізація точності відтво- рення даних, спрощення всіх локальних моделей для фрагментів даних і зменшен- ня кількості точок зміни. Виявлення точок зміни є однією з задач відкриття знань. На перший погляд може здатися, що результат у формі точок зміни відображає лише окремі (поодино- кі) події, тобто не має характеру регуляр- ності, повторюваності, закономірності і узагальнення, що зазвичай асоціюється з поняттям знань. Насправді ця начебто су- перечливість є оманливою, бо точка зміни – це демаркатор (кордон) між двома вияв- леними й локалізованими регулярними послідовностями (режимами). Тобто за «точкою» стоять дві регулярності (зако- номірності). Дещо спрощуючи, можна поділити базові методи аналізу темпоральних да- них на «феноменологічний» аналіз та «пі- знавальний» аналіз. «Феноменологічний» аналіз виявляє, розпізнає, порівнює, під- раховує, групує та типізує різні паттерни в даних. Такий аналіз оперує з великими зібраннями окремих послідовностей. Ви- явлені паттерни можуть бути використані як ознаки для задач класифікації, класте- ризації, розпізнавання та пошуку. Задача виявлення типових фрагментів (motifs) полягає в тому, щоб в довгій послідовнос- ті знайти короткі послідовності, які най- частіше повторюються. Якщо аналізують- ся дані у формі суцільного ряду спосте- режень за об'єктом (середовищем), до по- верхового аналізу можна віднести такі за- дачі, як виявлення періодичності, трендів, динамічних аномалій тощо [34, 40]. До «пізнавального» аналізу відносимо задачі та методи, які допомагають аналітику зро- зуміти механізм розвитку процесу, знайти «неявні» об'єктивні зв'язки і закони, що керують процесом. Для цього треба аналі- зувати процес разом з його оточенням, тобто системно аналізувати багатовимірні ряди даних. Підходящим апаратом для цього, зокрема, є динамічні каузальні мо- делі. Методи їх виведення з даних узагаль- нюють такі традиційні підходи, як авторе- гресія. Виявлення каузальної структури зв'язків дає змогу прогнозувати наслідки втручання в об'єкт (ефект керування). Як- що є підстави вважати, що кілька рядів да- них формуються на основі гармонічного сигналу з єдиного джерела, то перед тим, як приступити до виявлення зв'язків між рядами, бажано виділити ту спільну гар- моніку й «очистити дані». Припустимо, частота (або період) гіпотетичної гармоні- ки відома, але невідомий зсув фази. Тоді для кожного ряду можна ідентифікувати модель за допомогою лінійної регресії, включивши в набір предикторів дві фікти- вні змінні – )(sin xt  та )(cos xt  . Отрима- вши коефіцієнти регресії, можна перетво- рити дві такі гармоніки на одну (з відпові- дним зсувом фази). Із задачами й методами масованої переробки просторово-часових даних мо- жна ознайомитися в [41]. Розширюється практика використання даних з просторо- вою структурою. Аналіз тривимірних та двовимірних даних застосовується у біоло- гії (протеоміка), медичній діагностиці, ге- офізиці тощо. Для деяких задач більш зру- чно працювати з не-метричними структу- рами (графовими, топологічними). Моделі та засоби систем баз даних і знань 70 Виведення генеративних моделей До цього роду задач і методів від- носимо виведення (з даних) таких моде- лей, конструкцій і описів, які компактно описують сукупність даних, а іноді опи- сують механізм породження (генерації) цих даних. Для такої задачі аналітик ви- значає набір змінних, без акценту на жод- ній з них. Виведення генеративних моде- лей охоплює вельми різноманітний арсе- нал методів і форм моделей. Результати (моделі) бувають різної точності та різного ступеня спрощення. Механізм генерації даних можна розуміти як зручний алгори- тмічний опис процесу породження даних, еквівалентних (за статистичними характе- ристиками) фактичним даним, поданим на вхід методу. Натомість виведення генера- тивної моделі у сильному сенсі має більш амбітну мету – вивести таку модель, яка відображає структуру реального механізму генерації даних в об'єкті. До таких «струк- турно-адекватних» моделей належать кау- зальні мережі. До методів виведення генератив- них моделей (в їх широкому розумінні) можна віднести аналіз головних компо- нент (PCA), аналіз незалежних компонент (ICA), факторний аналіз, виявлення асоці- ацій і навіть (з деякими умовами) класте- ризацію. (До речі, задачу характеристики сумісного розподілення ймовірностей )(Xp іноді редукують до пошуку «піків» й інтервалів великих значень ймовірності )(Xp , а це нагадує кластеризацію.) В той час як PCA та класичний факторний ана- ліз обмежуються припущеннями лінійно- сті та нормальності [25, 26, 29], метод ICA працює з прихованими факторами, розпо- діленими довільно. Відомий також нелі- нійний варіант ICA [42]. Не обмежені припущенням лінійності методи принци- пових кривих та принципових поверхонь, які шукають апроксимацію для розподілу даних у просторі [26]. Принципова крива проходить через «середні» точки прилег- лих скупчень точок даних. Таких кривих можна знайти безліч, але задача розв'язу- ється завдяки вимогам гладкості кривої. Розв'язок шукається ітеративною проце- дурою, яка уточнює криву та перерозпо- діляє точки даних між «відповідальними» за них точками на кривій. Аналогічно, ме- та побудови принципової поверхні – знайти двовимірну апроксимацію для да- них. Побудова принципової поверхні ду- же подібна до само-організуючих мап (СОМ). Різниця в тому, що метод СОМ знаходить невелику кількість точок- прототипів, а метод принципових повер- хонь використовує окремий прототип для кожної точки даних [26]. Задача виявлення правил асоціації для дискретних даних була відповіддю на практичні потреби (виявлення типових кошиків покупок). Найвідоміший метод – алгоритм Apriori; він застосовує ідею пок- рокового збільшення довжини k асоціацій [15, 23, 26]. На старті список пропозицій складається з окремих змінних ( 1k ), а далі ітеративна процедура працює за на- ступною схемою: – зібрати пропозиції довжиною 1k , такі, що кожний фрагмент пропозиції входить у список знайдених (прийнятих) асоціацій. – відібрати ті пропозиції, які повто- рюються в даних частіше заданого порогу, і додати їх списку асоціацій. З метою розширити можливості аналізу даних та підвищити рівень експре- сивності результатів аналізу дослідники шукають варіанти інтеграції статистичних методів з логікою [43–45]. Один з нових варіантів поєднання ймовірнісних і логіч- них моделей з каузальною семантикою – реляційна логістична регресія [45]. Моделі цього виду, подібно до каузальних мереж, використовують орієнтовані зв'язки. На роль генеративних моделей в сильному сенсі претендують каузальні ме- режі [1, 46–49]. Каузальні мережі структу- рно (ізоморфно) описують процес генера- ції змінних моделі, відображаючи процес розгортання відповідних характеристик в об'єкті. Якщо цей опис дійсно адекватний, то каузальна мережа придатна для прогно- зування наслідків планованих дій (напри- клад, виконання рішень менеджера). Вод- ночас ці моделі є багатоцільовими, оскіль- ки дозволяють оперативно обирати цільо- ву змінну і адаптуватися до будь-якого формату запиту без потреби повторно ви- водити модель. Моделі та засоби систем баз даних і знань 71 Каузальна мережа (КМ) описується як пара ( ,G ), де G – граф, що специфі- кує структуру моделі,  – кількісні пара- метри, прив'язані до G . Граф структури G зазвичай є ациклонним орграфом. Якщо модель формується з одно-орієнтованих ребер, то параметри моделі специфікують- ся у формі )|( Xyp або )(F Xy  , де X – набір безпосередніх причин для y . Згідно форми параметризації моделі виділяються кілька різновидів КМ. Баєсові мережі по- будовані на основі ординарних орграфів та дискретних (категорних) змінних. (Залеж- ності в них описуються таблицями.) Кау- зальні Гаусові мережі використовують лі- нійні залежності та нормальні розподілен- ня змінних. Гібридні мережі використову- ють неперервні та дискретні змінні в рам- ках одної моделі. Такі мережі покликані практичними потребами аналізу біологіч- них та медико-біологічних даних (і взагалі, великих даних). В разі гібридних мереж необхідно обробляти суміш категорних та неперервних змінних [50, 51]. Каузальні мережі підтримують два відмінні типи задач прогнозування – «пасивну» предикцію та каузальний про- гноз («активну предикцію») [46, 52]. «Па- сивна» предикції – це задача, подібна до тої, яку розв'язують задачі регресії та кла- сифікації, вона формулюється як ,..),|( baCp . (Але, на відміну від моделей регресії та класифікації, змінні ,..,, BAC можна оперативно обирати, причому вони можуть займати будь-які позиції в моделі.) Каузальний прогноз виражається як ..),),(|( dbadoCp і дає оцінку ефекту після втручання на змінну A (тобто ефект при мусового присвоєння aA  ). Такий про- гноз обчислюється на основі локально змі- неної моделі [46, 48, 53]. Для опису таких процесів у часі ро- зроблено динамічні каузальні мере- жі.Особливість динамічних КМ полягає в тому, що замість кожної окремої змінної в моделі представлено серію однойменних змінних (рис. 4), які репрезентують послі- довні стани відповідного показника (ха- рактеристики). Функціонування динаміч- ної каузальної мережі (генерація даних) може продовжуватися необмежено довго, послідовно просуваючись у часі дискрет- ними інтервалами. Тобто черговий крок функціонування динамічної КМ (просу- вання у часі) виконується таким чином, що, наприклад, вектору змінних з індек- сом часу 2i присвоюється значення ве- ктору змінних з індексом часу 1i . Тобто всі вектора значень пересуваються на один інтервал «назад» (у минуле). Зна- чення вектору змінних з найбільшим ін- дексом (тобто для поточного часу) гене- рується згідно залежностей моделі, як у звичайних каузальних мережах. Динамічна каузальна мережа пред- ставляє регулярну структуру залежностей багатовимірного процесу у часі (рис. 4). Такі моделі описують генерацію багато- вимірних часових рядів. Динамічна кауза- льна мережа передбачає стаціонарність Рис. 4. Формування динамічної каузальної мережі X Y Z i-4 i-3 i-2 i-1 i Моделі та засоби систем баз даних і знань 72 процесу і використовує форму векторної авторегресійної моделі [54, 55]. Модель виглядає як фрагмент часового ряду з до- вжиною, достатньою для явного відобра- ження «найдовших» зв'язків. (Тобто в мо- делі мусить бути описано впливи з найбі- льшим лагом). На відміну від звичайної («статичної») каузальної мережі, в дина- мічний моделі структура виглядає як «клонована», оскільки зв'язки (ребра), як правило, повторюються на кожному кроці часового ряду. Виведення каузальних мереж з емпіричних даних Методи індуктивного виведення ка- узальних мереж націлені на виявлення кау- зальних зв'язків в ситуації, коли дані було зібрано як пасивні спостереження. (Більш того, зазвичай на вході не задається апріо- рних знань про структуру моделі.) Багато сучасних методів розраховані на існування прихованих (не присутніх в даних) спіль- них причин двох (чи більше) змінних. Да- леко не для всіх зв'язків можливо розпізна- ти автентичний напрямок впливу. Через вказані обставини модель ідентифікується тільки як клас еквівалентності моделей, де використовуються ребра (зв'язки) різних типів, в тому числі з невизначеною орієн- тацією (напрямком впливу). В типовій си- туації виведена модель використовує без- посередні зв'язки (ребра) чотирьох типів. Каузальне ребро (дуга) вигляду YX  ві- дображає каузальний вплив X на Y . Асо- ціативне ребро WU  позначає існування прихованої змінної (причини), що впливає рівночасно (паралельно) на U та W . Суб- каузальне ребро V  Z відображає два можливих варіанти: каузальний вплив або існування прихованої змінної (спільної причини). Неорієнтоване ребро Q —R означає, що каузальний характер цього зв'язку зовсім не визначений. Кінці орієн- тованого ребро YX  називають «хвіст» та «вістря» відповідно. Існуючі методи відтворення КМ з даних являються за своєю природою ста- тистичними методами. Тому із зростанням довжини вибірки даних має підвищуватися точність виведеної моделі (за умови корек- тності методу), але ускладнюються обчис- лення. Збільшення ширини (багатовимір- ності) даних по-своєму ускладнює аналіз, але водночас створює можливість підви- щити адекватність та точність моделі. Стисло оглянемо та охарактеризуй- мо методи й алгоритми відтворення КМ з даних. За принципом роботи методи поді- ляються на «оптимізаційні» та «базовані на обмеженнях» (constraint-based) [47, 48, 50, 56]. «Оптимізаційні» методи спираються на показник «якості» моделі, який харак- теризує точність апроксимації даних (або предикції значень змінних) із штрафом за складність (розмірність) моделі. Зазвичай показником точності є правдоподібність моделі. Найбільш відомим «оптимізацій- ним» алгоритмом є GES. (Він використо- вує критерій BIC.) Серед методів, «базова- них на обмеженнях», провідне місце посі- дають методи, що спираються на виявлен- ня фактів умовної незалежності змінних (коротко – основані на незалежності). Ме- тоди, основані на незалежності, більш ада- птовані до роботи з прихованими змінни- ми, часто виграють у швидкості та мають тенденцію задовольнятися статистиками меншого формату. Відомі також гібридні методи відтворення моделей. Якщо дані розсічені («розщеплені») на окремі вибірки із скороченою номенклатурою змінних, класичні методи відтворення моделі ста- ють не результативними. В таких ситуаці- ях можуть допомогти спеціальні співвід- ношення показників залежностей, які ха- рактерні для певних структур моделі. При- клади таких співвідношень можна знайти в [57]. Методи, основані на незалежності, виходять з припущення, що умовна неза- лежність (з відповідною умовою) буде чинна в даних тоді і тільки тоді, коли ця незалежність випливає зі структури гене- ративної моделі. В такому разі знайдена умовна незалежність для пари змінних YX , свідчить про відсутність ребра між X та Y . Схема роботи цих методів пока- зана на рис. 5. Найбільш витратний етап – ідентифікація безпосередніх зв'язків. Тех- нічно, на цьому етапі для кожної пари змінних шукається умова («сепаратор»), яка забезпечує умовну взаємну незалеж- Моделі та засоби систем баз даних і знань 73 ність змінних цієї пари. Кількість тестів умовної незалежності, що виконуються на цьому етапі, може сягати десятків чи со- тень тисяч. Вказані методи здатні ідентифіку- вати каузальне відношення з даних тільки за наявності достатніх свідчень. Зрозуміло, що сама змінна ефекту (наслідку) та її причина мусять бути присутні в даних. Остаточно каузальний зв'язок (ребро) іден- тифікується на підставі того, що знайдено квазі-інструментальну змінну, а також су- путню «автономну» змінну, яка допомагає розпізнати першу змінну як квазі- інструментальну [46, 47, 58]. Тому зрос- тання «широти» даних має сприяти вияв- ленню каузальних зв'язків. Якщо структу- ра мережі наближається до насиченої, то каузальні зв'язки не ідентифікуються. Еталонними інструментами цього напрямку стали алгоритми РС та FCI [47, 50, 59]. Протягом останніх років було за- пропоновано низку вдосконалень цих ал- горитмів та інструментів. Алгоритм FCI- Stable [60] наразі постає стандартом за- мість FCI. Цей алгоритм – більш робаст- ний, в ньому усунута чутливість до поряд- ку змінних. В алгоритмі FCI-Stable ребра видаляються з кістяка моделі тільки після виконання всіх тестів незалежності поточ- ного рангу. Алгоритм залучає техніку тес- тування для мішаних даних й також вико- ристовує розпаралелювання. Показано, що в стратегію роботи алгоритмів відтворення (таких, як РС) доцільно залучити принцип пошуку, оснований на максимумі ймовір- ності. Перший варіант алгоритму з цим принципом (не розрахований на латентні змінні) – PC-Max. Нова версія (FCI-MAX) залучає пошук за максимумом ймовірності для орієнтації ребер. У [51] окреслено чо- тири нові стратегії для відтворення кауза- льних моделей (з допуском латентних змінних), на основі мішаних даних: FCI- MAX, MGM-FCI-MAX, MGM-FCI та MGM-CFCI. Версія FCI-MAX для орієнта- ції ребер перевіряє цілий набір підходящих сепараторів. Техніка тестування незалеж- ності основана на лінійній та логістичній регресії. Найбільш універсальний підхід до тестування умовної незалежності спира- ється на техніку репродуктивного кернелу [25, 26, 61]. Оскільки ця техніка потребує дуже витратних обчислень, багато дослі- джень присвячено її вдосконаленню. Процес виведення моделі часто сти- кається з обчислювальними проблемами, бо кількість можливих структур моделі є факторіально (експоненційно) великою, і кількість можливих сепараторів – також. З метою стримування комбінаторної склад- ності алгоритмів виведення моделі були знайдені можливості фокусування пошуку сепараторів. Для цього було створено апа- рат локально-мінімальної сепарації та роз- роблено набір резолюцій індуктивного ви- ведення [49, 62, 63]. (Ці засоби мають ло- гічний характер і придатні для будь-яких форм параметризації моделі.) Тим самим, запропоновано систематичний підхід до пошуку сепараторів, базований на викори- станні імплікацій марковських властивос- Рис. 5. Схема виведення каузальних мереж з даних Дані Об'єкт Експертні знання (необов'язково) Встановлення безпосередніх зв'язків Виявлення напрямків впливів Обчислення параметрів Моделі та засоби систем баз даних і знань 74 тей каузальних мереж. Теоретичний ґрунт новацій – необхідні вимоги до членів ло- кально-мінімального d-сепаратора. Розро- блені засоби вбудовано в алгоритми серії Razor і дозволяють адаптивно оптимізува- ти і звужувати пошук складних мінімаль- них сепараторів, виходячи з знання вже знайдених «сусідніх» простих сепараторів та паттернів залежностей. Відсікаються цілі сектори простору пошуку сепараторів. Результати випробувань показали перевагу алгоритмів Razor над базовим аналогом PC за кількістю тестів (а відтак, за швидкоді- єю) і за адекватністю відтворення каузаль- них зв'язків [49, 63]. Для демонстрації можливостей від- творення каузальних мереж методами, ос- нованими на незалежності, наведемо прик- лад аналізу реальних даних соціального характеру (ці дані не є великими). Мета – ідентифікація факторів, які визначають вік матері при народженні першої дитини в США (за даними 70-х років 20-го сто- ліття). Спеціалісти зібрали вибірку даних з наступним набором змінних (можливих факторів): 1) професія батьків; 2) раса; 3) відсутність братів (сестер); 4) жила (чи ні) матір на фермі; 5) регіон США; 6) ная- вність двох дорослих у родині, де росла матір; 7) релігія; 8) паління сигарет; 9) був чи ні викидень; 10) освітній рівень матері (на час виходу заміж); 11) вік матері при народженні першої дитини. Ця задача ра- ніше була розв'язана за допомогою алго- ритму РС [47]. Тепер для цієї задачі за- стосовано розроблений автором алгоритм Razor-1.3. Подібно до постановки в [47], також було гіпотезовано лінійність зале- жностей. Але на відміну від вищезгаданої постановки не було задано жодних апріо- рних обмежень на структуру (і не вказу- валась роль змінних). Алгоритм Razor-1.3 виводить модель в більш загальному класі – класі не-рекурсивних каузальних мереж, де розрізняються каузальні, суб-каузальні, асоціативні та неорієнтовані ребра (зв'яз- ки) [47, 49, 58, 63]. Результат роботи (структура моделі) показано на рис. 6. «Кі- льця» позначають невизначений кінець ре- бра (він може виявитися «вістрям» або «хвостом»). Для візуальної наочності по- двійними лініями зображено ті ребра, які ідентифіковано як каузальні зв'язки (тобто такі, що відображають спрямований вплив одної змінної на іншу). Отже, виявлено п'ять каузальних зв'язків. Зокрема, на вік матері при народженні першої дитини впливають освітній рівень матері та регіон проживання (‘ 115 ’ та ‘ 1110 ’). Біль- шість виведених ребер є суб-каузальними та неорієнтованими, наприклад, ‘ 112  ’ та ‘ 102  ’ відповідно. Для отримання інформативніших результатів потрібно за- лучити до аналізу ширший комплект реле- вантних характеристик. Завдяки гіпотезі лінійності залеж- ностей тестування незалежності викону- ється просто (через частинні кореляції, які обчислюються з матриці парних коваріа- цій.) Але поза лінійністю (наприклад, коли змінні – номінального типу) кожний тест незалежності потребує нового сканування даних, що призводить до зростання трива- лості виведення моделі. Стисло охарактеризуємо методи ві- дтворення динамічних каузальних мереж. Ці методи ґрунтуються на припущенні, що задані на вході часові ряди даних відо- бражають стаціонарний векторний авторе- гресійний процес. Виведення каузальних моделей з багатовимірних часових рядів має тривалу передісторію. Подібні за хара- ктером моделі й методи розроблялися в руслі економетричних досліджень. Конце- пція каузальності для часових рядів була запропонована К. Грейнжером (Granger C.W.J.) [64, 65]. Сучасну постановку ця проблема отримала в термінах каузальних мереж [54, 56, 66]. Адаптація звичайних (статичних) методів відтворення каузаль- них мереж до ситуації динамічних даних ґрунтується на припущенні стаціонарності та на наступних домовленостях. Структу- ра зв'язків повторюється на кожному ін- тервалі вимірювання даних. Модель ви- глядає як фрагмент багатовимірного ряду, але компактно презентує увесь довгий ряд (в згорнутому вигляді). Особливістю цієї задачі є регулярна присутність авторегре- сійних зв'язків, а також заданий темпора- льний порядок в даних. Розмір (часова глибина) моделі має визначатися довжи- ною (глибиною) безпосереднього зв'язку з Моделі та засоби систем баз даних і знань 75 найбільшим часовим лагом (післядією). В динамічних каузальних мережах завжди присутні додаткові «неявні» залежності, які є наслідком впливів з минулого. На- приклад, на рис. 4 ілюструється ситуація, коли найбільший лаг зв'язку дорівнює двом (зв'язок ii XZ 2 ). Модель охоп- лює три послідовні стани (обведено пунк- тирною рамкою) і включає зв'язки, пока- зані суцільними дугами. Стоїть питання, як відображати впливи й залежності «з минулого». Вони не вкладаються в рамки моделі і тому показані на рис. 4 пунктир- ними дугами. Такі залежності розповсю- джуються далі через ребра моделі і про- являються як транзитні залежності. Якщо названі впливи не відображати в моделі, то, згідно буквальної інтерпретації струк- тури моделі, наприклад, змінні 2iX та 2iY мають бути взаємонезалежні (а це не так). Якщо ж замість зв'язків, показаних на рис. 4 пунктиром, ввести в моделі до- даткові дуги (ребра), які замінять впливи з минулого, то структура моделі стане не- регулярною (більш насиченою зліва), що суперечить стандартним припущенням. Але ці незручності мають синтаксичний характер. Можливі й більш суттєві про- блеми. Існування прихованого часового ряду може створити феномен «нескінчен- но-довгого» часового лагу [54]. Це робить неможливим тестування марковських вла- стивостей в ході виведення моделі. Регулярність структури та відомий темпоральний порядок змінних сприяють спрощенню пошуку сепараторів і орієнта- ції ребер в ході виведення динамічних кау- зальних мереж (порівняно з звичайними мережами). Але задача ускладнюється че- рез те, що зазвичай аналітик на знає дов- жини найбільшого лагу впливів. Алгоритми SVAR-FCI та SVAR- GFCI [54] є результатом адаптації методу FCI до даних у формі багатовимірних ча- сових рядів з прихованими змінними. Ці алгоритми припускають існування «швид- ких» зв'язків, тобто зв'язків між змінними в межах одного інтервалу вимірювання да- них, але без утворення циклонів. Циклони не утворюються, якщо впливи протягом одного інтервалу вимірювання не встига- ють оббігти цикл й повернутися до старто- вої змінної. Якщо дані часових рядів фік- сувалися з недостатньою частотою (тобто інтервал між вимірюваннями надто вели- кий), то відтворити адекватну каузальну структуру проблематично [66]. Відомою проблемою аналізу часових рядів даних є нестаціонарність. Тоді вимірювання і інте- рпретація залежностей стають суперечли- вими. В [67] пропонується метод виведен- ня динамічних каузальних мереж в умовах Рис. 6. Модель взаємодії гіпотетичних факторів, що впливають на вік матері при народженні першої дитини 1 6 4 3 11 9 5 8 7 10 2 Моделі та засоби систем баз даних і знань 76 однієї з форм нестаціонарності (за присут- ності тренду). В принципі, припущення про су- цільну регулярність системи зв'язків крізь всі інтервали часу не є обов'язковим. Мо- жна виводити модель навіть якщо зв'язки для сусідніх інтервалів відрізняються. Але структура зв'язків має бути періодичною, тобто повторюватися з зсувом на кожні k інтервалів. (Така ситуація нетипова.) Якщо величина періоду k невідома, виявити її важко. В такому разі статистики для тесту- вання обчислюються інакше (по-суті, тре- ба паралельно виводити кілька моделей). Особливості застосування методів аналізу до великих даних Достаток і ряснота доступних даних можуть спровокувати надмірний оптимізм і нехтування науковим підходом та наста- новами статистичного аналізу. Під вра- женням успіхів перших (поверхових) при- кладів аналізу даних з Інтернету програмі- сти припустили легковажність у підході до аналізу даних і у тлумаченні результатів [68]. Номінально величезний обсяг даних не завжди означає подолання проблем скі- нченних вибірок даних. Дані можуть бути деформовані внаслідок селекції (особливо якщо вони зібрані за допомогою пошуку в Інтернеті). Якими би «повними» не були (не здавалися) дані, не припустимо плута- ти кореляцію з каузальністю. Поява ВД впливає на вибір методів аналізу і стимулює їх розвиток [21, 22, 27, 28, 69]. З огляду на великий обсяг даних преференції надаються швидким методам (навіть якщо вони менш точні). Підсилю- ються стимули застосовувати розпаралле- лювання обчислень (особливо коли розпа- раллелювання узгоджується з схемою роз- міщення даних). ВД характерні також тим, що включають дані (змінні, атрибути) різ- них типів (дійсні, дискретні, ординальні, категорні), що ускладнює техніку обробки і побудови моделей. В методах, що спира- ються на оптимізацію квазі- правдоподібності моделі, обчислювальна складність стає неприйнятною. Тому про- понують відмовитися від обчислення пов- ного градієнту і послідовно просуватися вздовж окремих координат [12]. Коли йдеться про ВД, обчислювальну складність методів аналізу треба оцінювати дещо ін- акше. На відміну від традиційних застосу- вань, значним фактором складності стає кількість (кратність) сканувань даних. (Іноді це навіть важливіше за кількість аб- страктних обчислювальних операцій.) Уявімо, що дані є статистичною ви- біркою у формі плаского масиву. Зростан- ня тільки довжини даних (збільшення роз- міру вибірки) забезпечує один ефект – зро- стання надійності й точності результату статистичного аналізу, звуження довірчих інтервалів. Зрозуміло, що аналіз великих даних має значно амбітнішу мету – отри- мати повніші й змістовніші результати, глибше «зазирнути» в суть об'єкту. Для цього потрібні дані більшого формату. Зростання довжини («вишини») даних має супроводжуватися зростанням їх «шири- ни», тобто їх вимірності. (Дані мусять бути великими одночасно в обох «вимірах».) Отже, одна з важливих ознак великих да- них (для глибокого аналізу) – багатовимір- ність. Багатовимірні дані, з одного боку, надають нові можливості й шанси, а з ін- шого – породжують проблеми для аналізу [12, 70]. Наприклад, для збереження ефек- тивності методів найближчого сусіда не- обхідно, аби довжини даних зростала екс- поненційно швидше за вимірність даних [26, 27, 70]. Від зростання вимірності да- них також потерпають методи, що спира- ються на техніку кернелу. Небажані ефек- ти особливо загострюються, коли ширина даних перевищує довжину (це характерно для даних експресії генів і взагалі біоінфо- рматики). Коли багато змінних одночасно використовуються як ознаки, виникає син- дром накопичення гамору для задач кла- сифікації. Між «істинними» факторами та деякими не-релевантними змінними мо- жуть випадково виникати обманні асоціа- ції. Коли дані вертикально- секціонова- ні («розщеплені») і не вдається їх синтезу- вати (ототожнити випадки), то аналітику залишається послаблений варіант багато- вимірного аналізу. Замість аналізу на рівні випадків (прецедентів) доведеться перейти до аналізу на рівні нечітких «класів еквіва- лентності» прецедентів (які формуються Моделі та засоби систем баз даних і знань 77 на підставі подібності властивостей). Зро- зуміло, що зв'язки між такими класами ек- вівалентності напевно будуть нечіткими, «розмазаними» і малоінформативними. Із зростанням довжини вибірки стає критичним питання вибору критерію якос- ті моделі, бо збільшується розходження (відмінність) між вибором за критерієм BIC та критерієм AIC, а також результатом традиційного тестування гіпотез [27]. Штраф за складність моделі в BIC має до- датковий (порівняно з AIC) множник )log(n . Тому BIC обирає меншу (прості- шу) модель, ніж AIC. Великі дані відкривають перспекти- ви розробки нових методів. Покращуються умови для розв'язання «витончених» задач «не-прямими» методами, такими, як «на- вчання на чужому досвіді» [27, 28]. Ідею цього підходу можна пояснити наступним чином. Уявімо, що класичної I.I.D.-вибірки даних немає. Лише мала частка даних строго релевантна для задачі оцінки (про- гнозу) характеристики. Тоді «пряму» оцін- ку характеристики (отриману з релевант- них даних) беруть як орієнтовну, початко- ву. Потім вносять поправку згідно загаль- ної закономірності, попри те, що закономі- рність була отримана з інших вибірок да- них. Популярна нині стратегія масового тестування гіпотез за критерієм FDR також може розглядатися як втілення ідеї «на- вчання на чужому досвіді». Кількість випадків (довжину маси- ву) не завжди припустимо тлумачити як розмір статистичної вибірки. Часто зрос- тання масиву даних досягається шляхом об'єднання даних з різних джерел. Утворе- на таким чином «вибірка» даних буде не- однорідною і порушує стандартні припу- щення. З дещо послабленим варіантом не- однорідності даних аналітик стикається, якщо дані збиралися протягом тривалого часу, так що об'єкт змінювався (еволюціо- нував). Для ситуацій з можливою різнорі- дністю даних пропонується [21] ввести припущення інваріантності для підмножи- ни коваріат. Цьому припущенню задово- льняють каузальні коваріати. Різнорідність даних призводить до погіршення стабіль- ності та якості результатів аналізу. Водно- час різнорідність даних надає можливість вирішити корисну задачу виокремлення різних джерел даних (коли вони апріорі невідомі аналітику). Внаслідок різнорідно- сті даних стандартна крос-валідація стає поганим інструментом оцінки предиктив- ної адекватності моделі (і адекватності ка- узального виведення). В такій ситуації краще звернутися до використання синте- тичних даних та симуляції (але потрібні предметні знання). Взагалі, якщо для розробки тради- ційних статистичних методів можна було прийняти зручні припущення про вибірку даних, то тепер, маючі справу з великими даними, необхідно сприймати як факт реа- льні механізми збору даних і відповідно обирати чи розробляти методи аналізу. Треба створювати нові методи аналізу, які будуть повніше враховувати механізм збо- ру даних (і навіть «виправляли» і компен- сували викривлення даних, наскільки це можливо). Методи аналізу даних мають вибиратися (налаштовуватися) у відповід- ності з особливостями збору даних. На- приклад, якщо дані були піддані селекцій- ному зміщенню, то в залежності від обста- вин можливі такі рішення [53, 71]: 1) ком- пенсувати (виправити) селекційне зміщен- ня; 2) інтерпретувати результати аналізу інакше; 3) констатувати, що задачу немо- жливо розв'язати. Принципову можливість отримати коректний результат на основ «викривлених» даних можна проілюстру- вати на прикладі методу адекватної оцінки каузального ефекту на основі даних, що пройшли селекцію [71]. Налаштування ме- тодів аналізу на характер збору даних буде свідчити про інтеграцію комплексу дослі- джень «Великі дані плюс Велика Аналіти- ка» у єдину науку. Алгоритми й методи аналізу необ- хідно піддавати всебічному випробуванню у різних сценаріях, включно з «крайніми». Результати глибокого аналізу приймають- ся як основа для наукових узагальнень та практичних висновків тільки після кількіс- ної оцінки невизначеності, статистичних помилок, стабільності і реплікативності результатів. (Реплікативність означає, що альтернативні аналітичні дослідження об- раного об'єкту дають близькі результати [21, 69].) Моделі та засоби систем баз даних і знань 78 Підсумки Інтенсивний збір даних та накопи- чення великих даних у комп'ютерних схо- вищах стимулює зміни інформаційних те- хнологій. На передній план висувається індуктивно-емпірична методологія та тех- нології глибокого аналізу даних. Виник попит на методи, які швидко й результа- тивно перетворять величезний масив «си- рих» даних на цінну інформацію кінцево- го споживання. Необхідна передумова глибокого аналізу даних – їх багатовимір- ність та великий обсяг. Оскільки зібрані дані зазвичай «сирі» й погано структуро- вані, перед власне застосуванням аналіти- чних методів необхідно виконати підгото- вку даних. Увесь арсенал задач аналізу вели- ких даних можна розбити на такі групи: 1) впорядкування даних (зокрема, класте- ризацію); 2) виведення ціле-визначених (предиктивних) моделей; 3) дослідження та узагальнення даних (в тому числі відк- риття структур, зв'язків, паттернів і зако- номірностей). Спектр методів кластерного аналізу за принципом роботи можна розподілити на три підходи: кластеризація на основі сукупної близькості; кластеризація на ос- нові локальної близькості та множинному сусідстві; кластеризація на основі статис- тичної моделі даних. Оскільки універсаль- ного критерію якості кластеризації не за- пропоновано, виділення кластерів часто є евристичним і залежить від вибору аналі- тика. Для здатності виділяти кластери не- стандартних (не-опуклих) форм розробле- но багато евристичних алгоритмів, які спираються на відношення сусідства, на колективну локальну близькість точок. До ціле-визначених задач відно- ситься виведення предиктивних (дискри- мінативних) моделей (зокрема, регресії та класифікації), які описують цільову змінну через інші змінні (предиктори або ознаки). Використовуючи гнучкі й адаптивні фор- ми залежності, можна мінімізувати відхи- лення моделі від вхідних даних. Але узго- дженість моделі з вхідними даними далеко не завжди означає адекватність і здатність прогнозувати значення у впровадженнях. Втрата адекватності моделі відбувається через синдром гіпер-специфікації (over- fitting), до якого призводить зависока ада- птивність і складність обраного класу мо- делей. Типовими засобами захисту від гі- пер-специфікації є крос-валідація та регу- ляризація. Адекватність ціле-визначених моделей суттєво залежить від підбору зна- чущих предикторів. Популярна тенденція – побудова моделі за допомогою дерева (дерева регресії, методи MARS, випадкові дерева). Висока адаптивність цих методів досягається завдяки тому, що простір пре- дикторів раціонально розбивається на сег- менти (ареали) відповідно до локальної поведінки залежності. Задачі «глибокого навчання» ство- рюють високо-адаптивні моделі для розпі- знавання. Успішність «глибокого навчан- ня» пояснюється тим, що задача високо- спеціалізована, результат – лаконічний, а вхідні змінні – «пасивні» і взаємозамінні. Складність отриманих моделей виправдана тим, вхідні змінні «дрібні», а «сусідні» змінні тісно корельовані. Натомість задачі глибокого аналізу даних та відкриття знань (на відміну від «глибокого навчання») ха- рактеризуються більш невизначеною ситу- ацією на вході. Виявлені закономірності та «знання» є результатом «кристалізації» неявних (прихованих) відносин між різно- плановими змінними. Ці два напрями різ- няться також характером переробки даних: перший має характер тренування, «підгон- ки» й оптимізації; другий має пошуково- дослідницький характер. Модель з висо- кою предиктивною ефективністю не зав- жди корисна для розуміння (пояснення) об'єкту. Розв'язання багатьох прикладних задач аналізу ВД все частіше потребує враховувати часову прив'язку записів да- них та автокореляцію. Аналізуються зв'яз- ки не тільки в межах записів, але й поміж записами. Задачі аналізу темпоральних да- них вирізняються великим розмаїттям, по- требують спеціалізації й комплексування методів та їх ієрархічного застосування. Ці задачі включають сегментацію, виявлення точок змін, виявлення трендів, аномалій, періодичності, спектру і т. д. Традиційні ціле-визначені моделі прив'язані не тільки до цільової змінної, Моделі та засоби систем баз даних і знань 79 але й до фіксованого набору предикторів. Тому неясно, як застосовувати модель, коли відомі не всі предиктори. Це питання знаходить коректне розв'язання в апараті каузальних моделей. Каузальні моделі (мережі) поєднують у собі переваги гене- ративних, ціле-визначених та багатоці- льових моделей. Каузальні мережі здатні адекватно описати процес генерації даних в об'єкті. Каузальну мережу можна розг- лядати як інтегровану систему предикти- вних та дискримінативних моделей. Голо- вна перевага каузальних моделей над тра- диційними – вони підтримують прогнозу- вання наслідків втручання в об'єкт (ефект керування). Методи виведення каузальних ме- реж з даних за принципом роботи поділя- ються на «оптимізаційні» та основані на незалежності. Останні спираються на ви- явлення фактів умовної незалежності змінних. Ці методи більш адаптовані до роботи з латентними змінними, часто виграють у швидкості та потребують ста- тистик меншого формату. Найбільш уні- версальна техніка тестування умовної не- залежності – репродуктивний кернел (яд- ро); її недоліком є високі обчислювальні витрати. Зниження обчислювальних ви- трат в ході виведення каузальних мереж можна досягти, зокрема, обмежуючи ком- бінаторну складність виведення завдяки фокусуванню пошуку сепараторів. Для цього розроблено набір резолюцій, які до- зволяють розв’язувати питання щодо при- сутності ребер раніше, які обґрунтовані на графовому рівні (через поняття локально- мінімального d-сепаратора та необхідні вимоги до членів локально-мінімального сепаратора). Методи виведення каузальних ме- реж з емпіричних даних (які були зібрано як пасивні спостереження) мають обме- ження у можливостях вичерпно розпізна- вати каузальні зв'язки. Результатом виве- дення каузальної мережі з даних зазвичай є неповністю визначена модель, де характер (спрямування) багатьох зв'язків неодно- значний. Можливості методів відтворення каузальних мереж продемонстровано на прикладі. Виведено модель взаємодії гіпо- тетичних факторів, що впливають на вік матері при народженні першої дитини. Бі- льшість виведених зв'язків – суб-каузальні та неорієнтовані (тільки декілька каузаль- них). Для отримання більш інформативних результатів потрібні дані з розширеним набором релевантних характеристик. Застосування методів аналізу до ве- ликих даних має низку особливостей. Ва- жливим фактором обчислювальної склад- ності методів стає кількість (кратність) сканування даних. Поява великих даних впливає на вибір методів аналізу (включа- ючи статистичні), і стимулює їх розвиток. Не припустимо нехтувати науковим підхо- дом та застереженнями статистичного ана- лізу. Зокрема, не можна плутати кореляцію з каузальністю. Дані, зібрані за допомогою пошуку в Інтернеті, можуть бути дефор- мовані внаслідок селекції. Серед засобів оцінки коректності методів та адекватності результатів зростає роль симуляції з вико- ристанням синтетичних даних, а також ви- пробування у різних сценаріях. Щоб при- йняти результати аналізу даних як основу для узагальнень та висновків, необхідно оцінити їх невизначеність, стабільність, реплікативність та статистичні помилки. Єдина методологія для всього цик- лу життя великих даних дозволить вибира- ти і налаштовувати методи аналізу у від- повідності з особливостями збору даних. Технології збору даних, збереження, мене- джменту та пошуку будуть інтегруватися з методами глибокого аналізу даних, утво- рюючи нову науково-технологічну сферу «Великі дані плюс Велика Аналітика». Література 1. Балабанов О.С. Аналітика великих даних: принципи, напрямки і задачі. Проблеми програмування. 2019. № 2. С. 47–68. 2. Bühlmann P., Drineas P., Kane M., van der Laan M. (eds.) Handbook of Big Data. Taylor and Francis, 2016. 456 p. 3. Mayer-Schönberger V., Cukier K. Big Data: A revolution that will transform how we live, work, and think. Boston, MA: Houghton Mifflin Harcourt, 2013. 256 p. 4. Chen C.L.P. and Zhang C.-Y. Data-intensive applications, challenges, techniques and Моделі та засоби систем баз даних і знань 80 technologies: A survey on Big Data. Information Sciences. 2014. Vol. 275. P. 314–347. 5. Chen M., Mao S. and Liu Y. Big Data: A Survey. Mobile Networks and Applications. 2014. Vol. 19, Issue 2. P. 171–209. 6. Bhadani A. and Jothimani D. Big Data: Challenges, opportunities and realities / In.: M.K. Singh and D.G. Kumar (eds.). Effective Big Data management and opportunities for implementation. – IGI Global, Pennsylvania, USA, 2016. – [Електронний ресурс] Дос- туп: https://arxiv.org/pdf/1705.04928. 7. Oussous A., Benjelloun F.-Z., Lahcen A.A. and Belfkih S. Big Data technologies: A survey. Journal of King Saud University. Computer and Information Sciences. 2018. Vol. 30, Issue 4. P. 431–448. 8. Cao L. Data science: a comprehensive overview. ACM Computing Surveys. 2017. Vol. 50, N 3, Article 43, 42 p. 9. Gandomi A. and Haider M. Beyond the hype: Big data concepts, methods, and analytics. Intern. Jour. of Information Management. 2015. Vol. 35, N 2. Р. 137–144. 10. Tsai C.-W., Lai C.-F., Chao H.-C. and Vasilakos A.V. Big data analytics: a survey. Journal of Big Data. 2015. Vol. 2, N 1. P. 1–32. 11. Watson H.J. Tutorial: Big Data analytics: Concepts, technologies, and applications. Comm. of the Association for Information Systems. 2014. Vol. 34, Article 65. P. 1247–1268. 12. Fan J., Han F. and Liu H. Challenges of Big Data analysis. Nat. Scient. Rev. 2014., Vol. 1, N 2. P. 293–314. 13. Franke B., Plante J.-F., Roscher R., Lee E.A., Smyth C., Hatefi A., Chen F., Gil E., Schwing A.G., Selvitella A., Hoffman M.M., Grosse R., Hendricks D. and Reid N. Statistical inference, learning and models in Big Data. Intern. Statistical Review. 2016. Vol. 84, N. 3. P. 371–389. 14. Zafarani R., Abbasi M.A. and Liu H. Social media mining. An introduction. Cambridge University Press, 2019. 380 p. 15. Андон Ф.И., Балабанов А.С. Выявление знаний и изыскания в базах данных: под- ходы, модели, методы и системы (обзор). Проблемы программирования. 2000. № 1– 2, С. 513–526. 16. Балабанов А.С. Выделение знаний из баз данных – передовые компьютерные техно- логии интеллектуального анализа данных. Математичні машини і системи. 2001. № 1–2. С. 40–54. 17. Azzalini A. and Scarpa B. Data analysis and Data Mining: An introduction. – N.Y.: Oxford University Press, 2012. 288 p. 18. Swanson N.R. and Xiong W. Big Data analytics in economics: What have we learned so far, and where should we go from here? Canadian J. of Economics. 2018, Vol. 51, Issue 3. P. 695–746. 19. Graham E. and Timmermann A. Forecasting in Economics and Finance. Annual Review of Economics. (2016). Vol. 8. P. 81–110. 20. Weihs C. and Ickstadt K. Data Science: the impact of statistics. Intern. J. of Data Science and Analytics. 2018. Vol. 6. P. 189–194. 21. The role of statistics in the era of big data. Special issue of the journal: Statistics and Probability Letters. May 2018. Vol. 136. 22. Secchi P. On the role of statistics in the era of big data: A call for a debate. Statistics and Probability Letters. 2018. Vol. 136. P. 10–14. 23. Witten I.H., Eibe F., Hall M.A. (3rd ed.).Data mining: practical machine learning tools and techniques. Morgan Kaufmann, 2011. 629 p. 24. Maimon O., Rokach L. (Eds.) Data Mining and Knowledge Discovery Handbook. 2nd ed., Springer-Verlag New-York Inc., 2010. 1285 p. 25. Murphy K.P. Machine learning: a probabilistic perspective. MIT Press, Cambridge, Massachusetts, 2012. 1055 p. 26. Hastie T., Tibshirani R. and Friedman J. The elements of statistical learning. (2nd ed.). Springer. 2009. 745 p. 27. Efron B. and Hastie T. Computer age statistical inference. Cambridge University Press, 2016. 475 p. 28. Efron B. Large-scale inference. Stanford University Press, 2010. 263 p. 29. James G., Witten D., Hastie T. and Tibshirani R. An introduction to statistical learning with applications in R. Springer, N.Y., 2013. 426 p. 30. Berkhin P. A survey of clustering data mining techniques. In: Kogan J., Nicholas C., Teboulle M. (eds.). Grouping multidimen- sional data. Springer-Verlag: Berlin-Heidel- berg, 2006. P. 25–71. 31. Bouveyron C., Brunet-Saumard C. Model- based clustering of high-dimensional data: A review. Computational Statistics and Data Analysis. 2014. Vol. 71. P. 52–78. 32. Kurban H., Jenne M. and Dalkilic M.M. Using data to build a better EM: EM* for big data. Intern. J. of Data Science and Analytics. 2017. Vol. 4, Issue 2. P. 83–97. 33. LeCun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015. Vol. 521, P.436–444. https://arxiv.org/pdf/1705.04928 Моделі та засоби систем баз даних і знань 81 34. Esling P. and Agón C. Time-series data mining. ACM Computing Surveys. 2012. Vol. 45, Issue 1. P. 12–34. 35. Chandola V., Banerjee A. and Kumar V. Anomaly detection for discrete sequences: a survey. IEEE Trans. on Knowledge and Data Eng. (TKDE). 2012. Vol. 24, N 5. P. 823–839. 36. Truong C., Oudre L. and Vayatis N. Selective review of offline change point detection methods. [Electronic resource] URL: https://arxiv.org/abs/1801.00718. 37. Aminikhanghahi S. and Cook D.J. A survey of methods for time series change point detection. Knowledge and Information Systems. 2017. Vol. 51, Issue 2. P. 339–367. 38. Frick K., Munk A. and Sieling H. Multiscale change point inference. J. Roy. Statist. Soc., ser. B. 2014. Vol. 76, Pt. 3. P. 495–580. 39. Wang T. and Samworth R.J. High dimensional change point estimation via sparse projection. J. Roy. Statist. Soc., ser. B. 2018. Vol. 80, Pt. 1. P. 57–83. 40. Liao T.W. Clustering of time series data – a survey. Pattern Recognition. 2005. Vol. 38. P. 1857–1874. 41. Atluri G., Karpatne A. and Kumar V. Spatio- temporal Data Mining: a survey of problems and methods. ACM Computing Surveys. 2018. Vol. 51, Issue 4, Article N 83. 42. Lee T.-W., Girolami M., Bell A.J., Sejnowski T.J. A unifying information-theoretic framework for Independent Component Ana- lysis. Intern. J. Computers and Mathematics with Applications. 2000. Vol. 39. P. 1–21. 43. Neville J. and Jensen D. Relational Dependency Networks. Jour. of Machine Learning Res. 2007. Vol. 8. P. 653–692. 44. De Raedt L., Kersting K., Natarajan S. and Poole D. Statistical relational artificial intelligence: Logic, probability, and computation. Synthesis Lectures on Artificial Intelligence and Machine Learning. 2016. Vol. 10, N 2. P.1–89. 45. Kazemi S.M., Buchman D., Kersting K., Natarajan S. and Poole D. Relational logistic regression: The directed analog of Markov logic networks. Workshops at the Twenty- Eighth AAAI Conf. on Artificial Intelligence. 2014. P. 41–43. 46. Pearl J. Causality: models, reasoning, and inference. Cambridge: Cambridge Univ. Press, 2000. 526 p. 47. Spirtes P., Glymour C. and Scheines R. Causation, prediction and search. New York: MIT Press, 2001. 543 p. 48. Peters J., Janzing D. and Schölkopf B. Elements of Causal Inference. Foundations and Learning Algorithms. MIT Press, Cambridge, MA, USA, 2017. 265 p. 49. Балабанов О.С. Відкриття знань в даних та каузальні моделі в аналітичних інформа- ційних технологіях. Проблеми програму- вання. 2017. № 3. С. 96–112. 50. Raghu V.K., Ramsey J.D., Morris A., Manatakis D.V., Sprites P., Chrysanthis P.K., Glymour C., Benos P.V. Comparison of strategies for scalable causal discovery of latent variable models from mixed data. Intern. Jour. of Data Science and Analytics. 2018. Vol. 6, Issue 1. P. 33–45. 51. Tsagris M., Borboudakis G., Lagani V., Tsamardinos I. Constraint-based causal discovery with mixed data. Intern. Jour. of Data Science and Analytics. 2018. Vol. 6, Issue 1. P. 19–30. 52. Pearl J. The seven tools of causal inference, with reflections on machine learning. Communications of the ACM. 2019. Vol. 62, Issue 3. P. 54–60. 53. Pearl J. and Bareinboim E. External validity: From do-calculus to transportability across populations. Statistical Science. 2014. Vol. 29, N 4. P. 579–595. 54. Malinsky D. and Spirtes P. Causal structure learning from multivariate time series in settings with unmeasured confounding. Proc. of 2018 ACM SIGKDD Workshop on Causal Discovery, August 2018, London, UK. PMLR, Vol. 92. P. 23–47. 55. Entner D. and Hoyer P.O. On causal discovery from time series data using FCI. Proc. of the 5th European Workshop on Probabilistic graphical models. 2010, Helsinki, Finland. P. 121–128. 56. Runge J. Causal network reconstruction from timeseries: From theoretical assumptions to practical estimation. Chaos. 2018. Vol. 28, paper 075310. 20 p. 57. Балабанов А.С. Верхняя граница для сум- мы корреляций трех индикаторов в отсутс- твии общего фактора. Кибернетика и сис- темный анализ. 2019. № 2. С. 10–21. 58. Балабанов О.С. Від коваріацій до каузаль- ності. Відкриття структур залежностей в даних. Системні дослідження та інфор- маційні технології. 2011. № 4. С. 104–118. 59. Colombo D., Maathuis M.H., Kalisch M. and Richardson T.S. Learning high-dimensional directed acyclic graphs with latent and selection variables. Annals of Statistics. 2012. Vol. 40, Issue 1. P. 294–321. Моделі та засоби систем баз даних і знань 82 60. Colombo D., Maathuis M.H. Order- independent constraint-based causal structure learning. Jour. of Machine Learning Research. 2014. Vol.15. P. 3921−3962. 61. Kernel-based conditional independence test and application in causal discovery / K.Zhang, J. Peters, D. Janzing, B. Schölkopf. / Proc. of the 27 th Conf. on Uncertainty in Artificial Intelligence, (UAI-2011). Corvallis, Oregon: AUAI Press, 2011. P. 804–813. 62. Балабанов А.С. Минимальные сепараторы в структурах зависимостей. Свойства и идентификация. Кибернетика и систем- ный анализ. 2008. № 6. P. 17–32. 63. Балабанов О.С. Відтворення каузальних мереж на основі аналізу марковських влас- тивостей. Математичні машини та сис- теми. 2016. № 1. С. 16–26. 64. Granger C.W.J. Investigating causal relations by econometric models and cross-spectral methods. Econometrica. 1969. Vol. 37. P. 424–459. 65. Swanson N.R. and Granger C.W.J. Impulse response functions based on a causal approach to residual orthogonalization in vector autoregressions. J. of the American Statistical Association. 1997. Vol. 92, N 437, P. 357–367. 66. Gong M., Zhang K., Schölkopf B., Tao D. and Geiger P. Discovering temporal causal relations from subsampled data. Proc. of the 32nd Intern. Conf. on Machine Learning, 2015. P. 1898–1906. 67. Malinsky D. and Spirtes P. Learning the structure of a nonstationary vector autoregression. The 22nd Intern. Conf. on Artificial Intelligence and Statistics. Proc. of Machine Learning Research, PMLR, 2019, Vol. 89. P. 2986–2994. 68. Harford T. Big data: A big mistake? Significance. 2014. Vol. 11, N 5. P. 14–19. 69. Bühlmann P. and van de Geer S. Statistics for high-dimensional data: Methods, theory and applications. Springer, 2011. 556 p. 70. Donoho D.L. High-dimensional data analysis: the curses and blessings of dimensionality – In: American Mathematical Society Conf. “Math Challenges of the 21st Century”, 2000, Los Angeles. P. 1–32. 71. Bareinboim E., Tian J., Pearl J. Recovering from selection bias in causal and statistical inference. Proc. of the 28th AAAI Conf. on Artificial Intelligence. 2014. P. 2419–2416. (July 27–31, 2014, Québec Convention Center, Québec City, Québec, Canada). References 1. Balabanov O.S. Big Data Analytics: principles, trends and tasks (a survey). Problems in programming. 2019. N 2. P. 47–68. (ISSN 1727–4907) [In Ukrainian]. 2. Bühlmann P., Drineas P., Kane M., van der Laan M. (eds.) Handbook of Big Data. Taylor and Francis, 2016. 456 p. 3. Mayer-Schönberger V., Cukier K. Big Data: A revolution that will transform how we live, work, and think. Boston, MA: Houghton Mifflin Harcourt, 2013. 256 p. 4. Chen C.L.P. and Zhang C.-Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences. 2014. Vol. 275. P. 314–347. 5. Chen M., Mao S. and Liu Y. Big Data: A Survey. Mobile Networks and Applications. 2014. Vol. 19, Issue 2. P. 171–209. 6. Bhadani A. and Jothimani D. Big Data: Challenges, opportunities and realities / In.: M.K. Singh and D.G. Kumar (eds.). Effective Big Data management and opportunities for implementation. – IGI Global, Pennsylvania, USA, 2016. – [Електронний ресурс] Дос- туп: https://arxiv.org/pdf/1705.04928. 7. Oussous A., Benjelloun F.-Z., Lahcen A.A. and Belfkih S. Big Data technologies: A survey. Journal of King Saud University. Computer and Information Sciences. 2018. Vol. 30, Issue 4. P. 431–448. 8. Cao L. Data science: a comprehensive overview. ACM Computing Surveys. 2017. Vol. 50, N 3, Article 43, 42 p. 9. Gandomi A. and Haider M. Beyond the hype: Big data concepts, methods, and analytics. Intern. Jour. of Information Management. 2015. Vol. 35, N 2. Р. 137–144. 10. Tsai C.-W., Lai C.-F., Chao H.-C. and Vasila- kos A.V. Big data analytics: a survey. Journal of Big Data. 2015. Vol. 2, N 1. P. 1–32. 11. Watson H.J. Tutorial: Big Data analytics: Concepts, technologies, and applications. Comm. of the Association for Information Systems. 2014. Vol. 34, Article 65. P. 1247–1268. 12. Fan J., Han F. and Liu H. Challenges of Big Data analysis. Nat. Scient. Rev. 2014., Vol. 1, N 2. P. 293–314. 13. Franke B., Plante J.-F., Roscher R., Lee E.A., Smyth C., Hatefi A., Chen F., Gil E., Schwing A.G., Selvitella A., Hoffman M.M., Grosse R., Hendricks D. and Reid N. Statistical inference, learning and models in Big Data. https://arxiv.org/pdf/1705.04928 Моделі та засоби систем баз даних і знань 83 Intern. Statistical Review. 2016. Vol. 84, N. 3. P. 371–389. 14. Zafarani R., Abbasi M.A. and Liu H. Social media mining. An introduction. Cambridge University Press, 2019. 380 p. 15. Andon P.I. and Balabanov O.S. Vyjavlenie znanij i izyskanija v bazah dannyh. Podhody, modeli, metody i sistemy. Problems in programming. 2000. N 1–2. P. 513–526. (Kyjv, UA). [In Russian]. 16. Balabanov O.S. Knowledge extraction from databases – advanced computer technologies for intellectual data analysis. Mathematical Machines and Systems. 2001. N 1–2. P. 40–54. [In Russian]. 17. Azzalini A. and Scarpa B. Data analysis and Data Mining: An introduction. – N.Y.: Oxford University Press, 2012. 288 p. 18. Swanson N.R. and Xiong W. Big Data analytics in economics: What have we learned so far, and where should we go from here? Canadian J. of Economics. 2018, Vol. 51, Issue 3. P. 695–746. 19. Graham E. and Timmermann A. Forecasting in Economics and Finance. Annual Review of Economics. (2016). Vol. 8. P. 81–110. 20. Weihs C. and Ickstadt K. Data Science: the impact of statistics. Intern. J. of Data Science and Analytics. 2018. Vol. 6. P. 189–194. 21. The role of statistics in the era of big data. Special issue of the journal: Statistics and Probability Letters. May 2018. Vol. 136. 22. Secchi P. On the role of statistics in the era of big data: A call for a debate. Statistics and Probability Letters. 2018. Vol. 136. P. 10–14. 23. Witten I.H., Eibe F., Hall M.A. (3rd ed.).Data mining: practical machine learning tools and techniques. Morgan Kaufmann, 2011. 629 p. 24. Maimon O., Rokach L. (Eds.) Data Mining and Knowledge Discovery Handbook. 2nd ed., Springer-Verlag New-York Inc., 2010. 1285 p. 25. Murphy K.P. Machine learning: a probabilistic perspective. MIT Press, Cambridge, Massachusetts, 2012. 1055 p. 26. Hastie T., Tibshirani R. and Friedman J. The elements of statistical learning. (2nd ed.). Springer. 2009. 745 p. 27. Efron B. and Hastie T. Computer age statistical inference. Cambridge University Press, 2016. 475 p. 28. Efron B. Large-scale inference. Stanford University Press, 2010. 263 p. 29. James G., Witten D., Hastie T. and Tibshirani R. An introduction to statistical learning with applications in R. Springer, N.Y., 2013. 426 p. 30. Berkhin P. A survey of clustering data mining techniques. In: Kogan J., Nicholas C., Teboulle M. (eds.). Grouping multidimen- sional data. Springer-Verlag: Berlin-Heidel- berg, 2006. P. 25–71. 31. Bouveyron C., Brunet-Saumard C. Model- based clustering of high-dimensional data: A review. Computational Statistics and Data Analysis. 2014. Vol. 71. P. 52–78. 32. Kurban H., Jenne M. and Dalkilic M.M. Using data to build a better EM: EM* for big data. Intern. J. of Data Science and Analytics. 2017. Vol. 4, Issue 2. P. 83–97. 33. LeCun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015. Vol. 521, P.436–444. 34. Esling P. and Agón C. Time-series data mining. ACM Computing Surveys. 2012. Vol. 45, Issue 1. P. 12–34. 35. Chandola V., Banerjee A. and Kumar V. Anomaly detection for discrete sequences: a survey. IEEE Trans. on Knowledge and Data Eng. (TKDE). 2012. Vol. 24, N 5. P. 823–839. 36. Truong C., Oudre L. and Vayatis N. Selective review of offline change point detection methods. [Electronic resource] URL: https://arxiv.org/abs/1801.00718. 37. Aminikhanghahi S. and Cook D.J. A survey of methods for time series change point detection. Knowledge and Information Systems. 2017. Vol. 51, Issue 2. P. 339–367. 38. Frick K., Munk A. and Sieling H. Multiscale change point inference. J. Roy. Statist. Soc., ser. B. 2014. Vol. 76, Pt. 3. P. 495–580. 39. Wang T. and Samworth R.J. High dimensional change point estimation via sparse projection. J. Roy. Statist. Soc., ser. B. 2018. Vol. 80, Pt. 1. P. 57–83. 40. Liao T.W. Clustering of time series data – a survey. Pattern Recognition. 2005. Vol. 38. P. 1857–1874. 41. Atluri G., Karpatne A. and Kumar V. Spatio- temporal Data Mining: a survey of problems and methods. ACM Computing Surveys. 2018. Vol. 51, Issue 4, Article N 83. 42. Lee T.-W., Girolami M., Bell A.J., Sejnowski T.J. A unifying information-theoretic framework for Independent Component Ana- lysis. Intern. J. Computers and Mathematics with Applications. 2000. Vol. 39. P. 1–21. 43. Neville J. and Jensen D. Relational Dependency Networks. Jour. of Machine Learning Res. 2007. Vol. 8. P. 653–692. 44. De Raedt L., Kersting K., Natarajan S. and Poole D. Statistical relational artificial intelligence: Logic, probability, and computation. Synthesis Lectures on Artificial Моделі та засоби систем баз даних і знань 84 Intelligence and Machine Learning. 2016. Vol. 10, N 2. P.1–89. 45. Kazemi S.M., Buchman D., Kersting K., Natarajan S. and Poole D. Relational logistic regression: The directed analog of Markov logic networks. Workshops at the Twenty- Eighth AAAI Conf. on Artificial Intelligence. 2014. P. 41–43. 46. Pearl J. Causality: models, reasoning, and inference. Cambridge: Cambridge Univ. Press, 2000. 526 p. 47. Spirtes P., Glymour C. and Scheines R. Causation, prediction and search. New York: MIT Press, 2001. 543 p. 48. Peters J., Janzing D. and Schölkopf B. Elements of Causal Inference. Foundations and Learning Algorithms. MIT Press, Cambridge, MA, USA, 2017. 265 p. 49. Balabanov O.S. Knowledge discovery in data and causal models in analytical in- formatics. Problems in programming. 2017. N 3. P. 96–112. (ISSN 1727–4907). [in Ukrainian].) 50. Raghu V.K., Ramsey J.D., Morris A., Manatakis D.V., Sprites P., Chrysanthis P.K., Glymour C., Benos P.V. Comparison of strategies for scalable causal discovery of latent variable models from mixed data. Intern. Jour. of Data Science and Analytics. 2018. Vol. 6, Issue 1. P. 33–45. 51. Tsagris M., Borboudakis G., Lagani V., Tsamardinos I. Constraint-based causal discovery with mixed data. Intern. Jour. of Data Science and Analytics. 2018. Vol. 6, Issue 1. P. 19–30. 52. Pearl J. The seven tools of causal inference, with reflections on machine learning. Communications of the ACM. 2019. Vol. 62, Issue 3. P. 54–60. 53. Pearl J. and Bareinboim E. External validity: From do-calculus to transportability across populations. Statistical Science. 2014. Vol. 29, N 4. P. 579–595. 54. Malinsky D. and Spirtes P. Causal structure learning from multivariate time series in settings with unmeasured confounding. Proc. of 2018 ACM SIGKDD Workshop on Causal Discovery, August 2018, London, UK. PMLR, Vol. 92. P. 23–47. 55. Entner D. and Hoyer P.O. On causal discovery from time series data using FCI. Proc. of the 5th European Workshop on Probabilistic graphical models. 2010, Helsinki, Finland. P. 121–128. 56. Runge J. Causal network reconstruction from timeseries: From theoretical assumptions to practical estimation. Chaos. 2018. Vol. 28, paper 075310. 20 p. 57. Balabanov O.S. Upper bound on the sum of correlations of three indicators under the absence of a common factor. Cybernetics and Systems Analysis. 2019. Vol. 55, N 2. P. 174–185. 58. Balabanov O.S. From covariation to causation: Discovery of dependency structures in data. System research and information technologies. 2011. N 4, P. 104–118. [In Ukrainian] 59. Colombo D., Maathuis M.H., Kalisch M. and Richardson T.S. Learning high-dimensional directed acyclic graphs with latent and selection variables. Annals of Statistics. 2012. Vol. 40, Issue 1. P. 294–321. 60. Colombo D., Maathuis M.H. Order- independent constraint-based causal structure learning. Jour. of Machine Learning Research. 2014. Vol.15. P. 3921−3962. 61. Kernel-based conditional independence test and application in causal discovery / K.Zhang, J. Peters, D. Janzing, B. Schölkopf. / Proc. of the 27 th Conf. on Uncertainty in Artificial Intelligence, (UAI-2011). Corvallis, Oregon: AUAI Press, 2011. P. 804–813. 62. Balabanov A.S. Minimal separators in dependency structures: Properties and identification. Cybernetics and Systems Analysis. 2008. Vol. 44, N 6. P. 803–815. 63. Balabanov O.S. Vidtvorennya kauzalnych merezh na osnovi analizu markovskich vlastyvostej [Reconstruction of causal networks via analysis of Markov properties]. Mathematical Machines and Systems. 2016. N 1. P. 16–26. [In Ukrainian] 64. Granger C.W.J. Investigating causal relations by econometric models and cross-spectral methods. Econometrica. 1969. Vol. 37. P. 424–459. 65. Swanson N.R. and Granger C.W.J. Impulse response functions based on a causal approach to residual orthogonalization in vector autoregressions. J. of the American Statistical Association. 1997. Vol. 92, N 437, P. 357–367. 66. Gong M., Zhang K., Schölkopf B., Tao D. and Geiger P. Discovering temporal causal relations from subsampled data. Proc. of the 32nd Intern. Conf. on Machine Learning, 2015. P. 1898–1906. 67. Malinsky D. and Spirtes P. Learning the structure of a nonstationary vector autoregression. The 22nd Intern. Conf. on Artificial Intelligence and Statistics. Proc. of Моделі та засоби систем баз даних і знань 85 Machine Learning Research, PMLR, 2019, Vol. 89. P. 2986–2994. 68. Harford T. Big data: A big mistake? Significance. 2014. Vol. 11, N 5. P. 14–19. 69. Bühlmann P. and van de Geer S. Statistics for high-dimensional data: Methods, theory and applications. Springer, 2011. 556 p. 70. Donoho D.L. High-dimensional data analysis: the curses and blessings of dimensionality – In: American Mathematical Society Conf. “Math Challenges of the 21st Century”, 2000, Los Angeles. P. 1–32. 71. Bareinboim E., Tian J., Pearl J. Recovering from selection bias in causal and statistical inference. Proc. of the 28th AAAI Conf. on Artificial Intelligence. 2014. P. 2419–2416. (July 27–31, 2014, Québec Convention Center, Québec City, Québec, Canada). Одержано 17.07.2019 Про автора: Балабанов Олександр Степанович, доктор фізико-математичних наук, провідний науковий співробітник. Кількість наукових публікацій в українських виданнях – 60. Кількість наукових публікацій в зарубіжних виданнях – 12. Індекс Хірша – 6. http://orcid.org/0000-0001-9141-9074. Місце роботи автора: Інститут програмних систем НАН України, 03187, м. Київ-187, проспект Академіка Глушкова, 40. Тел.: (044) 526 3420. Е-mail: bas@isofts.kiev.ua 11