Big Data Analytics: principles, trends and tasks (a survey)

We review directions (avenues) of Big Data analysis and their practical meaning as well as problems and tasks in this field. Big Data Analytics appears a dominant trend in development of modern information technologies for management and planning in business. A few examples of real applications of B...

Full description

Saved in:

Bibliographic Details
Date:	2019
Main Author:	Balabanov, O.S.
Format:	Article
Language:	Ukrainian
Published:	PROBLEMS IN PROGRAMMING 2019
Subjects:	Big Data data analysis model inference knowledge discovery statistical methods predictive and generative models causal networks prediction UDC 004.855:519.216
Online Access:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/360
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Problems in programming
Download file:

Institution

Problems in programming

_version_	1859478215081328640
author	Balabanov, O.S.
author_facet	Balabanov, O.S.
author_sort	Balabanov, O.S.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2024-04-28T11:02:47Z
description	We review directions (avenues) of Big Data analysis and their practical meaning as well as problems and tasks in this field. Big Data Analytics appears a dominant trend in development of modern information technologies for management and planning in business. A few examples of real applications of Big Data are briefly outlined. Analysis of Big Data is aimed to extract useful sense from raw data collection. Big Data and Big Analytics have evolved as computer society’s response to the challenges raised by rapid grows in data volumes, variety, heterogeneity, velocity and veracity. Big Data Analytics may be seen as today’s phase of researches and developments known under names ‘Data Mining’, ‘Knowledge Discovery in Data’, ‘intelligent data analysis’ etc. We suggest that there exist three modes of large-scale usage of Big Data: 1) ‘intelligent information retrieval; 2) massive “intermediate” data processing (concentration, mining), which may be performed during one or two scanning; 3) model inference from data; 4) knowledge discovery in data. Stages in data analysis cycle are outlined. Because of Big Data are raw, distributed, unstructured, heterogeneous and disaggregated (vertically splitted), this data should be prepared for deep analysis. Data preparation may comprise such jobs as data retrieval, access, filtering, cleaning, aggregation, integration, dimensionality reduction, reformatting etc. There are several classes of typical data analysis problems (tasks), including: cases grouping (clustering), predictive model inference (regression, classification, recognition etc.), generative model inference, extracting structures and regularities from data. Distinction between model inference and knowledge discovery is elucidated. We give some suggestion why ‘deep learning’ (one of the most attractive topic by now) is so successive and popular. One of drawbacks of traditional models is they disability to make prediction under incomplete list of predictors (when some predictors are missed) or under augmented list of predictors. One may overcome this drawback using causal model. Causal networks are illuminated in the survey as attractive in that they appear to be expressive generative models and (simultaneously) predictive models in strict sense. This means they pretend to explain how the object at hand is acting (provided they are adequate). Being adequate, causal network facilitates predicting causal effect of local intervention on the object.Methods used in Big Data Analytics will be reviewed in the next paper.
first_indexed	2025-07-17T09:45:14Z
format	Article
fulltext	Експертні та інтелектуальні інформаційні системи © О.С. Балабанов, 2019 ISSN 1727-4907. Проблеми програмування. 2019. № 2 47 УДК 004.855:519.216 https://doi.org/10.15407/pp2019.02.047 О.С. Балабанов АНАЛІТИКА ВЕЛИКИХ ДАНИХ: ПРИНЦИПИ, НАПРЯМКИ І ЗАДАЧІ (ОГЛЯД) Висвітлено основні напрямки, задачі та типи результатів глибокого аналізу великих (комп'ютеризова- них) даних. Показано практичне значення великих даних та великої аналітики як фундаменту створен- ня нових комп'ютерних технологій планування і керування у бізнесі. Виділено специфічні для великих даних режими використання даних (або роди завдань аналізу): «інтелектуальний» пошук потрібної ін- формації; масована переробка («відпрацювання») даних; індукція моделі об'єкту (середовища); екстра- кція знань з даних (відкриття структур і закономірностей). Окреслено етапи і організацію циклу робіт з аналізу даних. До типових класів задач великої аналітики належать: групування випадків (кластериза- ція); виведення ціле-визначених моделей (класифікація, регресія, розпізнавання); виведення генератив- них моделей; відкриття структур і закономірностей. Охарактеризовано особливості «глибокого навчан- ня» та фактори його популярності. Виділено каузальні мережі як клас моделей, які поєднують у собі переваги генеративних, ціле-визначених та багатоцільових моделей і відрізняються тим, що придатні для прогнозу ефектів керування (втручання). Вказано шість «опор», на яких будується методологічне ядро великої аналітики. Ключові слова: великі дані, аналіз даних, виведення моделі, відкриття знань, статистичні методи, пре- диктивні та генеративні моделі, каузальна мережа, прогноз. Великі дані. Роль і значення Великі дані (Big Data) стали поміт- ним феноменом розвитку інформаційних технологій пост-індустріального суспільс- тва і впливають на різні аспекти життєдія- льності, від політики до наукових дослі- джень [1–12]. Останні 10–15 років позна- чені безпрецедентним зростанням елект- ронних (комп'ютеризованих) зібрань даних з різноманітних сфер діяльності. Це явище характеризують як повінь даних. Є багато варіантів визначення великих даних; не повторюючи їх, нагадаємо головні особли- вості, що спонукали ввести поняття вели- ких даних. Великі дані (ВД), по-перше, ві- дрізняються такими величезними обсяга- ми, що їх зберігання, супроводження, управління і доступ до них наштовхується на обмеження існуючих технічних й про- грамних засобів [13]. Проблеми й переш- коди подекуди мають не тільки технічний, а й принциповий характер. Тож, робота з великими даними потребує нових нетра- диційних рішень. Обсяги накопичених сьогодні електронних даних вимірюються зетабайтами (тобто величинами порядку 2110 байт) [4–10]. Деякі дані генеруються (породжуються) з такою швидкістю, що маємо тільки дві альтернативи – або втра- чати ці дані, або записувати їх негайно й такими, якими вони виміряні (сприйняті). Тому великі дані часто характеризуються як «швидкі», «сирі», неструктуровані й не- точні. Можна сказати, що ВД виникли внаслідок впровадження автоматичних за- собів та механізмів, які швидко й майже безупинно вимірюють та реєструють циф- рові (електронні) дані з відповідного сере- довища (обладнання). Результати вимірів автоматично записуються «за годиться», хоча переважна маса даних залишиться не спожитою і згодом буде стерта. Назвемо типові середовища й джерела, звідки похо- дять великі дані. На сьогодні відомі насту- пні джерела ВД: сенсорні мережі, прилади промислових об'єктів та технологічних лі- ній виробництва, торгові центри (суперма- ркети), інфраструктурні системи (енерге- тичні, транспортні тощо), соціальні мережі в Інтернеті, YouTube з «океаном» відео- файлів, системи on-line продаж, мобільний зв'язок, біржі та інші фінансові центри, на- вколоземні супутники спостережень, різ- номанітні датчики та прилади контролю навколишнього середовища та екологічних служб, прилади відео-спостереження, фай- ли зображень з автоматизованих телеско- пів, устаткування експериментальних дос- ліджень з фізики частинок, прилади біоме- дичних обстежень (зокрема, МРТ-зобра- https://doi.org/10.15407/pp2019.02.047 Експертні та інтелектуальні інформаційні системи 48 ження), дані біохімічних вимірів (генетика, протеоміка) і т. д. Побіч того, великі дані породжуються в результаті переведення у цифрову форму даних державних, адмініс- тративних та суспільних реєстрів, медич- них карток, статистичної звітності й т. д. Актуальність аналітики великих да- них визначається прискоренням збору і накопиченням великих масивів емпірич- них даних з різноманітних сфер діяльності суспільства, а також готовністю наукових, програмних й комп'ютерних ресурсів для створення аналітичних продуктів. У роз- винутих країнах світу в цих дослідженнях й розробках задіяні величезні ресурси й численні наукові та інженерні кадри [5–11]. Комплекс досліджень та розробок під назвою «великі дані плюс велика аналітика» не є абсолютно новим явищем. Його можна сприймати як продовження (або новий етап) того алгомеративного й інтегративного напрямку розвитку мето- дів, засобів й технологій, який називали Data Mining, Knowledge Discovery in Data, інтелектуальний аналіз даних, виділення знань з даних і т. п. Багато положень, ме- тодів та напрацювань, отриманих «під да- хом» названих понять, залишаються адек- ватними й корисними для ВД [14–18]. Водночас існує низка особливостей, що характеризують новизну ВД й великої ана- літики. Якщо два десятиліття тому доступ та підготовку даних розглядали як допо- міжний етап, то тепер пошук, доставка й попередня обробка великих даних стають все більш проблемним етапом усього цик- лу використання даних. Пріоритет зусиль зміщується на інструменти й технології пошуку, доступу до потрібних «сирих» да- них та підготовки релевантних даних (ма- ніпуляції з ВД). Діапазон впроваджень великої ана- літики охоплює бізнес, державне управ- ління та наукові дослідження. Підтверджу- ється теза про зсув у методології до- сліджень. Підвищується роль індуктивно- емпіричного підходу. Можна казати, що формується парадигма прискореного пізнання на основі узагальнення емпі- ричних даних [6, 14, 15, 19–22]. Доступ- ність всебічних релевантних даних дозво- ляє автоматизувати процес наукового від- криття, і деякі автори проголосили настан- ня четвертої ери в історії науки [21]. Тра- диційне публічне наукове обговорення за- лишається необхідним, але його акцент зміщується з етапу висунення гіпотез і процесу вироблення положень і рішень на етап оцінки й інтерпретації результатів (теорії) та їх інтеграції в систему наукових знань. Витрати на збір і зберігання даних величезного обсягу виправдані тільки як- що ті дані будуть результативно викорис- тані і забезпечать достатнє відшкодування (зиск). Деякі потреби можна задовольнити окремими записами, вилученими з великих даних. Мається на увазі, що кінцевим ре- зультатом стають відповідні файли, фраг- менти чи записи, відібрані з масиву даних в тій формі, в якій вони зберігаються. На- приклад, для розслідування злочину потрі- бні окремі записи в журналах або кадри відео-спостереження. Проте іноді знайти у ВД потрібну інформацію стандартними засобами (зокрема, через SQL-запити) важко. Справа не тільки у обсягах вмісти- лища даних і проблемах доступу до них. Часто неможливо точно описати, що саме аналітик (користувач) хоче знайти, важко сформулювати запит. Але головний на- прямок використання ВД – іншого харак- теру. Основний шлях результативного ви- користання ВД здійснюється через глибо- кий аналіз даних, коли величезний масив сирої інформації перетворюється («перет- равлюється»), і на виході видається компа- ктна, концентрована й цінна інформація кінцевого споживання. З даних вилучаєть- ся (екстрагується) їх цінний сенс. Отже, великі дані «автоматично» передбачають велику аналітику (ВеАн). Часто організація (фірма, орган управління) має у своєму розпорядженні великі зібрання даних, але ці дані дуже ви- бірково та обмежено залучаються до про- цесу досліджень, підготовки планів чи прогнозування наслідків пропонованих управлінських рішень. Вибір і обґрунту- вання рішень традиційно робилися на ос- нові експертних суджень і оцінок, адеква- тність й актуальність яких важко контро- лювати. (Крім того, часто експертні мірку- вання та суб'єктивні уявлення покладають Експертні та інтелектуальні інформаційні системи 49 в основу побудови математичних моде- лей). Зазвичай адекватна модель є невідо- ма, а знання про об'єкт існують як сукуп- ність розрізнених відомостей та уявлень вузьких спеціалістів. Таку «скирту інфор- мації» важко узгодити та звести у робочу модель. Доступність ВД дозволяє отримати широкий спектр інформації про об'єкт та середовище. З'являється можливість побу- дувати замкнений комп'ютеризований цикл планування і керування. Вихід ВД на ринок IT-продуктів дозволяє кардинально оновити технологію й практику підготовки й обґрунтування важливих рішень. Нова технологія рішень будується як комп'юте- рна, з визначальною роллю даних (data- driven), що дозволяє позбутися консерва- тизму й суб'єктивізму у керуванні. Рішен- ня для керівництва фірми виробляються як прямий результат аналізу й переробки комплексу різноманітних релевантних да- них (наприклад, про процеси продаж, по- ведінку споживачів, про діяльність підроз- ділів фірми тощо). Підготовка планів, прогнозування наслідків рішень і дій, а також інші аналі- тичні дослідження мають безпосередньо ґрунтуватися на аналізі масивів емпірич- них даних. Актуальна задача – ідентифі- кація потрібної адекватної моделі «об'єк- тивними» методами на основі зібраних даних спостережень. Шукана модель при- речена бути емпіричною (за витоками) та феноменологічною (за змістом і формою подання). Комп'ютеризація цілого циклу ме- неджменту має вирішальне значення для маркетингу популярних й стрімко обнов- люваних продуктів (гаджетів, засобів по- бутового комфорту тощо). Сотні тисяч компаній скористалися ресурсами, серві- сами та аналітичними засобами Amazon Web Services, побудованими на хмарних технологіях зберігання даних та обчис- лень. Перелічимо деякі приклади застосу- вань ВД, згадані в статтях [5–10, 12, 23–26]. В корпорації Шеврон проана- лізували терабайти сейсмічних даних мек- сиканської затоки, поліпшили свої комп'ю- терні моделі, і в результаті підвищили ус- пішність буріння від 1 з 5-ти спроб до 1 з 3-х. (Одне буріння вартує 100 мільйонів доларів). Деякі страхові компанії тепер не тільки відстежують добробут й майно клі- єнтів, а й також збирають дані сенсорів, вмонтованих у автомобілі, й аналізують кілометраж, маршрути, час поїздок тощо. Транспортна компанія U.S. Xpress підтри- мує моніторинг сенсорних даних про стан та місцезнаходження своїх авто й вантажі- вок, а також дані з мобільників та гаджетів водіїв та операторів. Дані накопичуються у хмарі й аналізуються. За результатами аналізу оптимізується керування усім ав- топарком. Вантажівки вчасно спрямову- ються до ближчих заправок пального з нижчою ціною. Для техобслуговування авто-засоби спрямовуються до оптимально підібраних депо. Враховуються затори на дорогах, потреба розігріву мотору взимку і т. д. Кілька інших фірм й агентств аналі- зують великі дані для оптимізації логісти- ки та постачання енергії. Служби й агентства з охорони здоров'я інтегрують дані з різних джерел. Медичні зводи доповнюються й уточню- ються даними індивідуального рівня з соціальних мереж, даними викликів медс- лужб по мобільним телефонам тощо. Інте- грація клінічних даних з даними поведін- ки та суспільними показниками допомагає знизити вартість та підвищити якість лікування. Для оцінки заходів з охорони здоров'я у провінції Квебек дослідники зіставили медичні записи з даними продаж продуктів харчування в тому ж регіоні (спираючись на поштовий код). Покупки з використанням карток лояль- ності дозволили прив'язати споживачів до місць проживання. Зіставлення адміні- стративних даних з індивідуальними да- ними (релевантними до стану здоров'я) дозволило уточнити статистику захворю- вань діабетом. Аналіз соціальних мереж та пошукових слів в Інтернеті дозволив значно підвищити оперативність моніто- рингу розповсюдження легеневих інфек- цій. Відомий факт, що аналіз «твітів» допоміг простежити розповсюдження холери. Провайдери мобільного сервісу аналізують демографічні дані споживачів, Експертні та інтелектуальні інформаційні системи 50 статус їх житла, деталі користування сер- вісами, що дозволяє надавати оптимальні персоналізовані пропозиції телекомуніка- ційного сервісу. Також провайдери розро- бляють систему оперативного виявлення обману (використовують предиктивну аналітику). Менеджери центрів роздрібної торгівлі тепер аналізують не тільки коши- ки покупок, але й потоки покупців з роз- бивкою на соціальні групи. Компанії роз- дрібної торгівлі on-line (зокрема, Amazon) для персоналізованих рекомендацій аналі- зують пошукові слова користувача, його «кліки» протягом сеансу, покупки у ми- нулому тощо. Великий список посилань на застосування великих даних можна знайти в [1, 5]. Процес організації великої аналітики (обрис) Цінність великих «сирих» даних ви- значається нашою здатністю вилучати з них «сенс», корисний за змістом і зручний за формою. Практика вимагає виділяти цінний екстракт швидко, використовуючи «свіжі» дані. Коли сукупність доступних даних охоплює екстремальне широкий спектр інформації, фірма (організація) мо- же виконувати багато оперативних функ- цій автоматизовано, майже повністю на основі ВД. Отже, треба будувати замкне- ний комп'ютеризований цикл технологій – від збору даних до кінцевого застосування результатів (рішень, керування). «Непро- зорі» й не-комп'ютерні процедури вино- сяться за межі «оперативного» циклу ке- рування. (За штабами фірми залишаються функції нагляду (супервізія) та вищий рі- вень керування.) Виконання аналітичного завдання завершується видачею моделі або результату в формі, придатній для кінцево- го застосування. (Вживають термін «actionable outputs».) Такий результат мо- же використовуватися протягом певного періоду, коли виконується «короткий» цикл аналітики (для керування використо- вують «свіжі» дані звуженої номенклату- ри). Схема циклів життя ВД та ВеАн (ве- ликий цикл, цикл аналізу, цикл викорис- тання) зображена на рис. 1. Оскільки ВеАн використовує пере- важно статистичні методи, дані мають складатися з списку випадків (прикладів), що характеризують однотипні об'єкти або той самий об'єкт у варіабельних умовах. Випадки можуть трактуватися як екземп- ляри популяції, прецеденти, транзакції, цикли та періоди функціонування. (Існу- ють дані, де поняття випадків та прикладів не збігаються [16]). Більшість традиційних методів аналізу потребують, щоб дані всіх випадків складалися з єдиного набору ат- Рис. 1. Цикли великої аналітики і використання даних Модель Керування Рішення Вимірювання/ фіксація/реєстрація Збір/накопичення Дані Препарація Експертні та інтелектуальні інформаційні системи 51 рибутів і збиралися за єдиною схемою ви- мірювання. Більшість класичних методів й процедур аналізу даних розраховані на зручно форматовані дані (зазвичай – у формі таблиці), що вміщуються в пам'яті комп'ютера. Натомість ВД наповнені пе- реважно «сирими», різнорідними, неузго- дженими, невпорядкованими та неструк- турованими даними. Інформація щодо пе- вного випадку може знаходитися у різних файлах і сховищах. Іноді доводиться роз- глядати як «випадок» не тільки вектор чи- сел, а й цілий образ, текст, структуру і т. д. В деяких даних неясно, як розрізнити і виділити окремі випадки. Дані, що зберігаються у сховищах, можна поділити на: 1) структуровані; 2) «гнучко-структуровані» або слабко- структуровані; 3) неструктуровані. До структурованих відносять дані, організо- вані за жорсткою схемою. Кожна одиниця (запис) даних складається з уніфікованого набору позицій, і кожну позицію займає елемент (атрибут) відповідного відомого змісту. (Часто це елементи одного типу, наприклад, дійсні числа.) Така структури- зація гарантує прості й «прозорі» проце- дури імпорту даних в усіх платформах. Гнучко-структурованими можна назвати дані, де не зафіксовано набору позицій для елементів. До цього виду належать дані широкого спектру, включаючи дові- льні послідовності символів, графові структури, мовні тексти й гіпертексти. До гнучко-структурованих треба віднести та- кож дані, які побудовані за рекурсивними схемами (з невизначеними розмірами). Текст має свою структуру, визначену син- таксисом, граматикою та іншими обме- женнями, але така структуризація не за- безпечує однозначної інтерпретації еле- ментів (слів) і не підтримується стандарт- ними процедурами обробки. Неструкту- ровані дані не мають чітко визначеної структури. Для використання неструкту- рованих даних потрібні нестандартні про- цедури конверсії, спеціальна розмітка, додаткові дескриптори і т. п. Схожі про- блеми виникають, коли дані структурова- ні, але структура фіксації даних нерегуля- рна і невідповідна (або невідома аналіти- ку). Маємо проблеми, коли не тільки фі- зична, але й логічна структура даних не збігається із змістовною («семантичною») структурою. Такі дані виникають, напри- клад, коли записується потік сигналів або коли об'ємне зображення описується про- стою послідовністю точок (пікселів). Мо- жна виділити також дані з частково- невідомою структурою. Деякі дані можна інтерпретувати та «зрозуміти» тільки з допомогою «автора» даних. Неструктуро- ваність та різнорідність даних створює певні проблеми для обробки [6–10, 16, 27, 28]. Потрібні попередні етапи компіляції та інтеграції даних. Доволі частою є ситуація, коли окремі прилади (засоби) автономно збира- ють дані про ті самі індивіди популяції чи про ті самі (або еквівалентні) транзакції, цикли функціонування об'єкту, а зібрані дані накопичуються в окремих файлах. Для того, щоб могли працювати типові ме- тоди аналізу даних, потрібно співвіднести (ідентифікувати) відповідні записи в різ- них файлах і сформувати «випадки». Але це не вдається зробити, якщо в файлах не- має інформації, яка допомогла би однозна- чно розпізнати і ототожнити прецеденти (випадки). З точки зору багатовимірного аналізу, маємо ситуацію вертикально- секціонованих, («розщеплених») даних. Отже, з метою отримання з ВД корисного «сенсу» перед власне результативним ана- лізом необхідно виконати відбір та підго- товку даних [7]. Процес великої аналітики включає два етапи: 1) доставка та компіляція даних (пошук, добір, фільтрація, агрегація, ком- плектування, інтеграція, зменшення розмі- рності, синхронізація, переформатування); 2) власне глибокий аналіз підгото- влених даних. Ланцюг проходження завдання ВеАн показано на рис. 2. Етап глибокого аналізу даних у свою чергу може склада- тися з ланцюга завдань. Попередня оброб- ка може залучати методи, які традиційно розглядалися як методи власне аналізу да- них (аналіз головних компонент, random projection і т. д.). Експертні та інтелектуальні інформаційні системи 52 Одна з тенденцій ВеАн – перене- сення аналітичних засобів в програмне за- безпечення баз даних, аби виконувати зна- чну частину роботи в місцях зберігання, без передачі даних на сервер аналітика. Зокрема, фірма SAS у співпраці з Oracle та Teradata інтегрує свою аналітики в про- грамне забезпечення баз даних. Виконання аналітики прямо на платформі баз даних дає можливість розосередити, розподілити виконання задачі й використати парале- лізм. (Такий режим може бути вимушеним у зв'язку з захистом даних.) Але такий ре- жим далеко не завжди прийнятний з огля- ду на розмаїття методів аналізу, інструме- нтарію й мов програмування. До того ж, масовану ітеративну переробку (з багато- разовим скануванням активної порції да- них) зазвичай ефективніше виконувати, маючи ректифікований файл в локальній пам'яті комп'ютера аналітика. В деяких платформах та інструментах застосовуєть- ся режим in-Memory Analytics, коли «гаря- чі» дані утримуються в пам'яті RAM (не переміщуються на диск). Існує інструментарій, який інтегрує бази даних підрозділів (департаментів) у єдину систему даних фірми (організації) [16, 17, 26]. Одна з передових сучасних програмних платформ аналізу ВД (яка під- тримує увесь цикл аналізу) – Apache Hadoop and MapReduce. Багатий комплект методів і програм аналізу даних для вказа- ної платформи надається відкритим сере- довищем Apache Mahout та Apache Spark [7–10, 26, 29]. Популярне відкрите середо- вище з мовою R (наступниця мови S ) ін- тенсивно поповнюється програмами роз- в'язання різноманітних задач. В [30] наво- диться низка пакетів програм та застосу- вань аналітики у біомедичній галузі. В ро- боті [5] надано перелік фірм-постачаль- ників платформ для ВД. Перспективні режими та інтелектуалізація аналізу даних Великі дані надають ресурси і ство- рюють передумови для виходу за межі можливостей стандартних методів пошуку інформації (SQL-запити, ключові слова). На черзі розробка технологій «інтелектуа- льного» пошуку інформації (ІнтлПІ). Ре- зультат виконання ІнтлПІ може виглядати традиційно, тобто як запис, фрагмент чи цілий файл даних в тій формі, як він збері- гається в базі (звісно, видається компози- ція знайдених фрагментів даних). Але сут- тєва відмінність полягає в тому, що корис- тувач може скористатися інтелектуальним пошуком, коли не знає, як сформулювати запит (хоча він знає, що йому потрібне). Йдеться про ситуацію, коли інформаційну потребу не вдається конкретизувати через атрибути та характеристики реальних баз даних. Користувачу недостатньо навіть мета-даних, дескрипторів даних та онтоло- гій для того, щоб специфікувати завдання. Релевантні атрибути та характеристики даних будуть ідентифіковані в процесі ви- конання ІнтлПІ, тільки після аналізу вели- кого зрізу даних і виявлення певних від- ношень між багатьма фрагментами даних. Чи є запис даних релевантним залежить не тільки від вмісту цього запису, а й від вмі- сту інших записів і файлів. Наведемо фік- Ad Hoc / Інженерні методи Попередня обробка Dimensionality reduction PCA Random projection Збір потрібного набору (пакету) даних Формування потрібного файлу(ів) даних (Власне) аналіз даних 2 1 Рис. 2. Схема процесу великої аналітики Експертні та інтелектуальні інформаційні системи 53 тивний приклад гіпотетичного завдання для ІнтлПІ. «Виявити в якійсь з розвинутих кра- їн сукупність трьох наступних явищ. 1) Невмотивоване різке згортання вироб- ництва сучасного виду озброєння або злам тренду фінансування таких озброєнь (останніми роками). 2) Незадовго перед тим в тій самій країні – суттєві кадрові пе- рестановки в центральному департаменті озброєнь. 3) Одночасно – раптове припи- нення потоку публікацій з одного з перс- пективних напрямків науково-технічних досліджень.» Замість «озброєння» в такому «за- питі» могло би фігурувати інше високоте- хнологічне обладнання. Виконати подіб- ний «запит» автоматично, без участі ана- літика, мабуть, неможливо. Спроба звести таке завдання до послідовності SQL- запитів (навіть якби всі дані зберігалися у реляційних базах) була би безперспек- тивною. Намагання відразу формалізувати подібний «запит» напевно призведе до квазі-логічної конструкції з кількома невідомими («вільними» змінними) і не- чіткими поняттями. Щоби розпочати ви- конання запиту, необхідна діалогова вза- ємодія аналітика з системою. Аналітик має замінити природно-мовний запит пакетом стандартних завдань (де зали- шаться «вільні» змінні). Як попередню і автономну гілку пошуку можна запустити перегляд преси з метою знайти «відголос- ки», «сигнали» шуканого явища. («Сигна- ли» можуть утворюватися як набори та- ких слів, як «бюджет», «відставка», «полі- гон», «випробування», «перерозподіл ри- нку» і т. д.). Інтелектуальний пошук інформації відрізняється від «інтенсивного» чи «роз- ширеного» режимів традиційного пошуку. В ході «інтенсивного» пошуку аналіз ви- конується автономно («замкнено») в ме- жах кожного запису чи файлу. (Приклади – пошук особи за фотороботом у великій ба- зі зображень; пошук через Google.) «Роз- ширення» режиму пошуку досягається на- дбудовою засобів, які враховують розподі- лену та агломеративну структуру збере- ження даних та підтримують прості проце- дури поповнення даних (наприклад, NoSQL, HDFS та інші) [1, 5, 8, 10, 29]). Взагалі, можна виділити наступні роди завдань з повномасштабним викорис- танням ВД: 1) розширені режими традиційного пошуку інформації; 2) «інтелектуальний» пошук потрі- бної інформації (скомпонованих фактів, записів, фрагментів файлів); 3) масована проміжна переробка даних (чи краще сказати – «відпрацюван- ня») однотипною процедурою за один-два проходи через масу даних (mining, concentration, – аналогія із збагаченням руди); 4) індукція моделі об'єкту (джере- ла), звідки взято дані; 5) екстракція знань з даних (відк- риття структур і закономірностей). «Відпрацювання» даних може бути призначене для підготовки даних перед наступним етапом екстракції знань. Прик- ладом власне «проміжної» переробки є об- числення достатніх статистик. Альтерна- тивно, якщо на вході задати достатньо ін- формативні апріорні знання, то в режимі «відпрацювання» можна виробляти кінце- вий результат («проміжна» переробка обе- ртається на кінцеву). Далі в огляді в осно- вному розглядаються завдання типу індук- ції моделей та екстракції знань. Для проведення повномасштабних емпірико-індуктивних досліджень, які ві- дштовхувалися б від «сирих» даних і до- водили результати до рівня «кристалізова- них» знань, необхідно побудувати багато- рівневу високоорганізовану інтегровану технологію, з адекватними мовами спілку- вання між рівнями. Така технологія демон- струватиме властивості, які вважаються інтелектуальними [20], і зможе підміняти (а в чомусь й перевершувати) людину- аналітика. Повномасштабний процес виділен- ня знань з даних дозволяє в одному вели- кому (можливо – ітеративному) циклі ана- лізу здійснити те, що раніше (за посеред- ництва аналітика) виконувалося набором завдань розвідкового (експлоративного) та конфірмативного аналізу даних. Експертні та інтелектуальні інформаційні системи 54 Основні напрямки і задачі великої аналітики Останніми роками на ринок засобів підтримки бізнесу виходять IT-продукти та інструментарій, що кардинально оновлю- ють технологію менеджменту та вироб- лення рішень, ґрунтуючи їх на аналізі ВД. Зрозуміло, найбільше враження справля- ють такі інструменти й технології, де вихі- дним результатом аналізу даних є практи- чний висновок, кінцева рекомендація чи навіть варіант бізнес-рішення. Образно кажучи, найбільш привабливою є перероб- ка даних за схемою «стимули–рефлекс» (подібно до того, як регулюється поведінка тварини або елементарні акти поведінки людини). Тобто на виході технології отри- муємо вказівку до дії («actionable output»). Така схема (суцільна «чорна скриня») пра- цює для спеціальних задач, наприклад, розпізнавання (де ціль вказана, а ролі змінних в принципі відомі). Але стосовно проблем управління такий рівень «самос- тійності» та «самодостатності» інформа- ційної технологій може бути практично ефективним лише для дуже елементарного рівня «миттєвого» управління або за ідеа- лізованих умов (наприклад, за надзвичайно високої спеціалізації діяльності фірми у дуже стабільних умовах ринку). Для біль- шості практичних ситуацій така схема ро- боти нереалістична. Було б контрпродук- тивно намагатися занурити у «чорну скри- ню» увесь процес вироблення рішень ор- ганізації, цикл керування складним об'єк- том або ціле дослідження. Більш реалісти- чне й корисне завдання для комп'ютера – знайти в даних цікаву (для користувача) інформацію, виділити закономірності, ві- дкрити знання, побудувати «портрет» об'єкту у середовищі, вивести модель, яка відтворює систему зв'язків та впливів (по- казує, «як все розгортається»). А вже на основі отриманих «знахідок» (знань) ана- літик і користувач зможуть виробляти вка- зівки до дії. Задача глибокого аналізу даних ви- значається метою аналітика (користувача) і типом потрібного результату. Це має вка- зати аналітик (програміст) [14, 15, 20, 22, 27]. Іноді строго сформулювати завдання і дати постановку задачі важко. (Навіть для таких конкретних задач, як розпізнавання об'єктів чи образів, часто не формулюють строгої постановки.) Тому в багатьох ви- падках доречно вести мову не про поста- новку задачі, а про проблемну ситуацію. Коли аналітик остаточно не визначився з постановкою, можна виконувати розвідко- ві або стандартні завдання (з «підручного меню»). Традиційно дані є багатовимірною статистичною вибіркою і подаються у фо- рмі плаского масиву. Масив даних має «ширину» та довжину («вишину»). В ши- рину розташовано набір змінних (атрибу- тів) X . Мабуть, найбільш «загальне» за- вдання – стисло описати дані в форматі X . Зрозуміло, що аналітика цікавить не бук- вальний опис даних X , а опис системи змінних, очищений від гамору і випадко- вих домішків. Отже, типове завдання (з «підручного меню») – вивести модель да- них у формі сумісного розподілення ймо- вірностей )(Xp . (Цю задачу часто назива- ють unsupervised learning [31].) Результат такого типу вважається «генеративною моделлю» даних в слабкому сенсі (про ге- неративну модель в сильному сенсі буде далі). Декларувати таке завдання просто, але коли маємо змінні дійсного типу, і тих змінних багато, і не задано параметричної форми для )(Xp , тоді незрозуміло, як опи- сувати )(Xp . Крім того, сама по собі мо- дель в формі )(Xp , як правило, не цікава. Така модель буде цінною й цікавою, тільки якщо розподілення )(Xp демонструє яск- раві особливості (часткове виродження, специфічну форму, нестандартні ознаки, неочікувані паттерни), і ці особливості можна компактно описати і змістовно (предметно) інтерпретувати. Коли немає чіткої мети, краще не намагатися знайти повний опис )(Xp , а дати спрощений опис, характеристику )(Xp «в загальних рисах». Наприклад, обчислити моменти, парні коваріації і т. п. (подібні характерис- тики можна обчислити за одне сканування даних). Така задача – сумарізації даних. Для темпоральних даних корисна інфор- мація – основна частота коливань. Задачі сумарізації даних перетинаються із зада- чами зниження вимірності даних. Іноді ко- Експертні та інтелектуальні інформаційні системи 55 рисно замість прямого опису даних знайти «прообраз» цих даних, виражений через гіпотетичні змінні Z . (Опис даних )(Xp можна відтворити майже без втрат через стандартне перетворення «прообразу» )(Zp .) Репрезентація через «прообраз» за- цікавить аналітика, якщо гіпотетичні змін- ні Z взаємонезалежні або їх кількість по- мітно менша за кількість оригінальних змінних X . Компактну репрезентацію да- них може надати класична задача аналізу головних компонент (principal component analysis – PCA) [31]. Нелінійний аналог PCA – виділення принципових кривих, принципових поверхонь тощо. Ще один варіант спрощеного не акцентованого ана- лізу – шукати тільки інтервали максималь- них значень ймовірності )(Xp . Спеціаль- ним випадком такої задачі можна вважати пошук правил асоціації (у разі дискретних змінних) або узагальнених асоціацій. (Втім, така задача постала як суто прикла- дна (market basket analysis), без загальної постановки. Виведення правил асоціації можна розглядати як задачу виявлення паттернів.) Масив даних X не завжди є статис- тичною вибіркою за схемою i.i.d. Наявні дані можуть походити з різних популяцій (з різних «моделей»). Тоді важливіше ви- ділити компоненти суміші, а не виводити єдину генеративну модель для суміші. Іно- ді виділити компоненти можна за допомо- гою кластеризації (теж завдання з підруч- ного меню). В загальному випадку розді- лити суміш проблематично (функції щіль- ності ймовірностей компонент можуть значною мірою перетинатися.) Шанси знайти цікаві, корисні, а го- ловне – практично потрібні результати (моделі, регулярності, паттерни) значно зростають, якщо завдання вдало специфі- коване і на вході задано адекватну апріор- ну інформацію. Традиційні методи аналізу даних були розраховані на вибірки даних малого та середнього розміру. В таких си- туаціях отримати корисний результат мо- жна тільки за умови, що «в загальних ри- сах» модель задана апріорі. Взагалі, для того, щоб отримати на виході переробки даних змістовний та обґрунтований ре- зультат, необхідно подати на вхід сукуп- ність знань та емпіричних даних, таку, що вони «в сумі» утворюють достатньо багату інформацію про об'єкт. Різні співвідно- шення вказаних двох складових вхідної інформації породжують різні проблемні (когнітивні) ситуації, а відтак – і різні роди задач аналізу даних. Для спрощення задачі традиційно задавали обмеження на вході. Що менше на вході апріорних знань й об- межень, то більшим має бути вміст й обсяг даних. Додаткова інформативність резуль- тату відносно вхідної апріорної інформації («додана вартість» на виході) завжди мен- ше, ніж інформація, що міститься в про- сканованих та оброблених даних. Часто ця засвоєна інформація становить лише мізе- рну частку інформації, яка пройшла через процесор, внаслідок того, що дані значною мірою не релевантні для задачі (щодо ме- ти), а також через те, що цінний вміст да- них занадто захаращений гамором невідо- мого характеру. Зростання обсягів даних дозволяє розширити можливості виведен- ня моделей з даних, вивести більш точну й адекватну модель, а також обійтися без жорстких обмежень та важких чи ризико- ваних припущень на вході. Мабуть, найпростіший і найпоши- реніший спосіб визначити мету й акцент завдання – вказати цільову змінну (харак- теристику, атрибут) y . Зазвичай змінна y присутня в даних, але іноді її приписує аналітик перед виконанням завдання (ро- бить «розмітку»). В задачах класифікації та розпізнавання цільова змінна y дискре- тна, а в задачах типу регресії – неперервна. Такі задачі (їх іноді називають supervised learning) можна назвати цілеспрямованими або ціле-визначеними («націленими»). Ці- ле-визначена задача виводить результат (модель) у формі )\|( Xyp або )(Xy  . (Строго кажучи, оскільки маємо Xy , то треба писати )(Zy  , де }{\ yXZ  .) Опис )( не обов'язково (не зав- жди) є аналітичною чи явно вираженою функцією. Це може бути алгоритм, проце- дура чи просто «чорна скриня». Коли ці- льова змінна y дискретна, модель вигляду )(Xy  називають «дискримінативною», на противагу «генеративній» моделі )(Xp . Експертні та інтелектуальні інформаційні системи 56 Результат у формі )\|( Xyp або )(Xy  також часто називають «предиктивна» (predictive, «передбачувальна») модель. Відповідно, (суто формально) кажуть про предиктивну аналітику. Втім, така модель не обов'язково призначена для «передба- чень» майбутніх подій. Зазвичай «предик- ція» спрямована радше назад у часі (на- приклад, при класифікації чи розпізнаван- ні). Тоді краще сказати не предикція, а від- творення значення змінної y . В науковій літературі предиктивними моделями (та методами) називають такі, які мають здат- ність до узагальнення, тобто претендують на збереження адекватності поза обробле- ними даними (на відстані від врахованих прикладів). Іншими словами, до «дійсно предиктивних» моделей ставиться вимога, щоб вони забезпечували адекватну екстра- поляцію у просторі прикладів (попри те, що ці моделі виведені із скінченої вибірки даних, яка має вибірковий ухил). В спіль- ноті прагматиків побутує ще більш звуже- не й вимогливе розуміння предиктивних моделей та «предиктивної аналітики». А саме, характеристика «предиктивна» вжи- вається до методів побудови моделей, на- ближених до практики бізнесу [24, 32]. В цій спільноті предиктивна аналітика розу- міється як така, що забезпечує умовне про- гнозування наслідків управління об'єкта- ми, передбачення подій та майбутньої по- ведінки реальних складних динамічних систем, що розвиваються. До речі, виве- дення результатів типу «actionable outputs» подекуди називають «прескриптивна» ана- літика. А до дескриптивної аналітики від- носиться сумарізація даних. Результат у формі )(Xy  перед- бачає включення в опис тільки необхідних (значущих) факторів (предикторів, ознак, аргументів, коваріат, регресорів). Отже, ко- ли ставиться ціле-визначена задача, майже завжди мається на увазі, що треба виконати відбір значущих змінних серед заданого набору. Відтак, предиктивні (дискриміна- тивні) моделі схильні до меншої розмірнос- ті, ніж «генеративні». Більш того, розв'я- зання багатьох прикладних задач (класифі- кації, розпізнавання) передбачає формуван- ня ознак, тобто із заданих на вході змінних шляхом комбінації й інтеграції формують нові змінні (підвищеного рівня), які входять в кінцеву «модель» )(Xy  . Останніми роками спостерігається справжній бум досліджень і розробок ме- тодів так званого «глибокого навчання». В цих задачах задається не тільки цільова змінна y , але й схема моделі (див. далі). Глибокому навчанню можна протиставити глибокий аналіз даних та відкриття знань. До глибокого аналізу даних відносимо групи задач, які мають на меті:  відтворити «портрет» об'єкту у середовищі, тобто вивести модель, яка «прозоро» інтерпретується і пояснює фун- кціонування об'єкту;  відкрити структуру в даних, на- приклад, ідентифікувати систему зв'язків та впливів між характеристиками об'єкту у середовищі;  знайти закономірності поведін- ки системи (об'єкту) – регулярність, періо- дичність, інваріанти; знайти аномалії. Коли завдання спрямоване на відк- риття знань, аналітик зазвичай не вказує цільову змінну. Але навіть якщо аналітик задав цільову змінну y , його метою не обов'язково є побудова предиктивної (дискримінативної) моделі )(Xy  чи прогнозування значень змінної y для пе- вних випадків (умов). Метою може бути ідентифікація факторів (причин), які об'єктивно визначають значення y . Задачі відкриття знань та виведення моделей з емпіричних даних (з мінімальними при- пущеннями на вході щодо майбутнього результату) можна назвати індуктивною переробкою даних. Уявлення про індук- цію статистичної моделі як відтворення адекватного опису процесу генерації да- них започаткував ще Р. Фішер. Адекват- ний опис процесу генерації даних – це «портрет» джерела даних (а відтак – і об'єкту). Він допомагає зрозуміти, що са- ме й чому відбувається. Відмінність між виведенням моделі об'єкту та відкриттям знань в даних можна характеризувати наступним чином. По- перше, задача відкриття знань ставиться з суттєво меншою вагою апріорних знань на вході (принаймні щодо предмету відкрит- Експертні та інтелектуальні інформаційні системи 57 тя). По-друге, модель, як правило, претен- дує на опис всіх оброблених даних (із за- стереженням, що коли йдеться про преди- ктивну модель, вона включає не всі пред- ставлені, а тільки релевантні змінні.) На- томість «знання» (результат процесу екст- ракції знань) є паттернами, які не завжди підтримуються всіма даними, але повто- рюються достатньо регулярно. (З точки зору статистики, це такі паттерни, що час- тота їх підтвердження в даних суттєво пе- ревищує рівень, який можна було би пояс- нити випадковістю.) Закономірність може стосуватися лише окремого зрізу (чи сег- менту) даних, проте виконується система- тично. Третя відмінність «знань» – вони мають пізнавальну імпресивність. Знання й паттерни відображають яскраві особливос- ті, які легко інтерпретуються і є цікавими в пізнавальному сенсі. Натомість модель у формі )(Xy  може не показувати нічого цікавого, але вона продуктивно «працює». В результаті глибокого аналізу да- них можуть бути знайдені імплікативні правила вигляду: (вектор характеристик A ) => (окрема_характеристика_ B ). Такий результат теж вкладається у форму )(Ab  , хоча може залучати не аналітич- ні, а логічні вирази. Такий результат вва- жається знахідкою й знанням тільки в тому разі, якщо правило дає значення b з висо- кою точністю (детерміновано), і до того ж змінні b та A були автоматично знайдені, а не задані на вході. Аналогічну ситуацію маємо щодо кластеризації: про відкриття знань доречно говорити тільки якщо знай- дені кластери є статистично значущі. Базо- вий принцип виділення регулярностей – знайдення часто повторюваних сполучень, паттернів, схем, або навпаки, занадто рід- ких сполучень («дірок» у розподіленні). Критерієм регулярної повторюваності (або регулярної відсутності) є значне відхилен- ня від статистично очікуваних значень (або від очікувань аналітика). Аби отрима- ні результати можна було прийняти як адекватні знання (закономірності) про об'єкт, необхідно запобігти сценарію, коли ті результати (неявно) закладено в проце- дурах виведення, або коли вони є артефак- тами збору чи попередньої обробки даних. На рис. 3 запропоновано один з ва- ріантів систематизації великої аналітики за родами задач та типами результатів. Рис. 3. Типи задач та результатів великої аналітики Навчання ~ підгонка моделі Ідентифікація моделі Схема моделі задана Предиктивні (дискримінативні) моделі Так Ні Задано предиктори? (можна – з надлишком) а змінна? Задана цільова змінна? Так Ні Генеративні моделі Описати дані Спрощені загальні описи Розділити дані (групування прикладів) Впорядкувати Описати Відкрити структури і закономірності Глибокий аналіз даних ~ «відкриття знань» (пошукове дослідження) Виявлення зв'язків Виявлення структур Виявлення залежностей Виявлення закономірностей Експертні та інтелектуальні інформаційні системи 58 Типові задачі аналізу даних Вибірково окреслимо підходи до аналізу слабко-структурованих даних. Методи аналізу текстів екстрагують пот- рібну інформацію з новин, оглядів, елект- ронних листів, «твітів», документів, ста- тей. Текст – це не емпіричні дані; текст не задовольняє припущень, прийнятих в тра- диційних методах аналізу даних. (Втім, великі зібрання документів можуть розг- лядатися як вибірка екземплярів популяції й аналізуватися статистично.) Залишимо поза увагою комп'ютерну лінгвістику та технології, спеціалізовані на мовах. Прос- ті методи кількісного аналізу тексту вило- влюють лише «поверхову» інформацію. Внутрішня структурованість тексту не- зручна для традиційних методів аналізу. Відомо дві групи простих методів аналізу текстів: 1) екстракція інформації; 2) сума- різація текстів [7]. Методи першої групи розпізнають у тексті об'єкти (сутності) та виділяють відношення між ними. Методи сумарізації текстів застосовують дві тех- ніки. «Екстрактивна сумарізація» робить компіляцію вирізок (фрагментів) заданого тесту, враховуючи місце та частоту вхо- дження слів. «Абстрактивна сумарізація» намагається виявити семантику тексту і може видати результат в інших термінах і конструкціях. Щоб автоматично з'ясувати зміст і сенс тексту, залучаються методи обробки природної мови. Розробляються також методи генерування природо- мовних відповідей на запитання, а також методи розпізнавання опіній та настроїв, які приховані «між рядками» тесту. Мето- ди аналізу даних з Web-середовища мож- на знайти у [33]. Введення в аналіз даних соціальних медіа дається в [34]. В роботі [35] описано, зокрема, аналіз даних в ін- формаційних мережах, збагачених текс- том. Огляд аналізу даних з Інтернету ре- чей можна знайти в [35, 36]. В аналітичних задачах та у побудові моделей широко вживаються поняття зв'я- зку і відношення. Але в різних контекстах зв'язок має дуже відмінний сенс. Перелі- чимо відомі тлумачення поняття зв'язку, які зустрічаються в літературі з комп'юте- рних наук та інформаційних технологій. Отже, типи зв'язку: логічна залежність (зчеплення окремих значень); статистична залежність (зчеплення частот значень); су- міжність; близькість; посилання («лінки», адресація); (безпосереднє) слідування у часі; відношення «об'єкт – атрибут (озна- ки)»; «ціле – частина (деталь)»; відношен- ня приналежності (до класу). Залежність має семантичні градації: асоціація, вплив, каузальний зв'язок. Можна запропонувати наступний перелік типових задач ВеАн: 1) групування випадків (записів, об'єктів); кластеризація; 2) виведення ціле-визначених мо- делей (для класифікації, регресії, розпізна- вання); 3) виявлення регулярних паттернів (систематичних повторювань): – структурних, зокрема, послідов- них (motifs), 3-вимірних, графових,.. – наборів (правил асоціацій, item sets, market baskets), .. ; 4) виявлення типових (для попу- ляції) дискретних послідовностей у часі (лінки, ланцюги дій тощо); 5) виявлення трендів, періодично- сті та аномалій (в даних із темпоральною прив'язкою); 6) відтворення структур залежнос- тей; 7) відтворення каузальних моде- лей. Впорядковані у часі дані (ряди да- них) не є статистичною i.i.d.-вибіркою у буквальному розумінні (хоча за певної трансформації теж можуть розглядатися як стандартна вибірка). Темпоральні дані (в першу чергу для неперервних процесів) надають простір для специфічних задач аналізу, наприклад, виявлення періодич- ності, трендів, динамічних аномалій [37]. Знайдені тренди та періодичність у даних допомагають виконувати «феноменологі- чний» безумовний (інерційний) прогноз. Інші регулярні паттерни також допомага- ють прогнозувати у відповідних ситуаці- ях. Натомість знання каузальної моделі дає аналітичний інструмент для прогнозу- вання наслідків втручання в об'єкт (керу- вання). Моделі розпізнавання або класи- Експертні та інтелектуальні інформаційні системи 59 фікації (в першу чергу ті, що побудовані як нейронні мережі) радше надають не знання, а вміння. До виявлення знань можна зарахувати хіба що підбір підмно- жини значущих предикторів. Але біль- шість традиційних методів розв'язують цю задачу у дуже спрощеному й спеціа- льному варіанті. Вузька спеціалізація традиційних ціле-визначених моделей випливає не тільки з фіксації цільової змінної, але й з прив'язки до формату кандидатів у преди- ктори (фактори). Нехай для заданих y та X була виведена модель )(ˆ Zy  , де XZ  . Можлива ситуація, коли потрібно оцінити (спрогнозувати) значення y за умови, що відомі значення тільки деяких факторів, тобто змінних Q , причому ZQ  . Як застосувати модель в цій ситуа- ції? Якщо )( – формула, що підставити в формулу на місце невідомих факторів? Якщо )( – процедура, що подати на її відповідні входи? Простої задовільної ві- дповіді на ці питання немає. Треба врахо- вувати кореляцію між факторами, а також їх взаємодію всередині моделі. Поставле- не питання знаходить коректну відповідь в апараті каузальних мереж, який дозво- ляє адаптувати модель до будь-якого фо- рмату запиту. (Звісно, вказана проблема неактуальна для тих задач розпізнавання, де вхідні дані характеризуються великою надлишковістю та дублюванням. Напри- клад, втрата якихось точок (пікселів) зо- браження компенсується на етапі вироб- лення ознак за рахунок сусідніх точок.) Каузальні моделі Для забезпечення адаптивності мо- делі до формату запиту потрібно знати адекватну картину зв'язків між всіма задія- ними змінними. (Це потрібно також для ідентифікації справжніх причини для зада- ного ефекту.) Для задач планування та управління потрібна модель, яка допомагає зрозуміти зв'язки та взаємозалежності між окремими субпроцесами у реальному се- редовищі об'єкту. Бажано, аби виведена модель була придатна для прогнозу нас- лідків виконання рішень менеджера (керу- вання). Вказаним вимогам відповідають каузальні моделі і, зокрема, каузальні ме- режі [38–41]. Факторний аналіз та аналіз незалежних компонент (ICA) знаходять структуру як сукупність незалежних при- хованих змінних, які спільно (адитивно) формують значення наявних змінних. На- томість каузальні мережі описують струк- туру безпосередніх впливів між наявними змінними (зазвичай – в умовах неповної спостережуваності). В процесі виведення каузальної моделі з'ясовується (розпізна- ється) каузальний характер статистичних зв'язків (кореляцій, асоціацій, залежнос- тей) [39, 42–44]. Стислу характеристику властивостей каузальних мереж можна знайти в [19, 38, 44, 45]. Одним з варіантів КМ є кореляційна мережа для фінансової аналітики [46]. Каузальна мережа (КМ) – це модель залежностей між змінними, яка адекватно відображає структуру спрямованих впли- вів. КМ описується як пара ( ,G ), де G – граф, що специфікує структуру моделі, – параметри, прив'язані до G , які опи- сують кількісний аспект моделі. В практи- чних задачах використовують структури без орієнтованих циклів (тобто орграф G – ациклонний). Обмежимося класом моде- лей з одно-орієнтованими ребрами, тобто на основі ординарних ациклонних оргра- фів (оАОГ). Множина параметрів оАОГ- моделі складається із сукупності локаль- них параметрів, заданих для кожної змін- ної. Зокрема, в мережі, що показана на рис. 4, для змінної Y опис може виглядати як Yvzxy  ),,f( . Функція )f( може мати будь-яку форму, але зручніше мати справу з лінійною залежністю (що автома- тично означає адитивність моделі й інди- відуальну прив'язку коефіцієнтів до ребер моделі). Рис. 4. Приклад каузальної мережі Y U W T Q S X V H Z L R Експертні та інтелектуальні інформаційні системи 60 Каузальні мережі поєднують у собі переваги моделей кількох типів. За умови адекватності, КМ є генеративними моде- лями в сильному сенсі, – вони адекватно описують процес генерації змінних, ізомо- рфно («дзеркально») відображаючи проце- си в об'єкті. КМ також є предиктивними і дискримінативними моделями, тому що застосовують описи у формі )\|( Xyp або )F(Xy  . Більш того, кожна КМ є багато- цільовою моделлю, оскільки вміщує в собі сукупність ціле-визначених моделей (по- тенційно – для всіх форматів запиту). КМ можна назвати системою регресій- них/класифікаційних моделей, інтегрова- них «без швів» за допомогою відношень умовної незалежності. Каузальні моделі допомагають ви- світлити принципову відмінність впливу та асоціації, уточнюють роль та інформа- тивність змінних. Розрізняються два ре- жими використання моделі – «пасивна» предикція та каузальний прогноз («актив- на предикція»). «Пасивна» предикції ро- зуміється як обчислення значення цільо- вої змінної C , виходячи з значень асоці- йованих (пов'язаних) з нею змінних ,.., BA . Така задача формулюється як ,..),\|( baCp . Це звичний режим застосування тради- ційних моделей, зокрема, класифікації. Для пасивної предикції безумовно інфор- мативними виступають всі суміжні змінні, безвідносно до характеру зв'язків (і при- чини, і наслідки). Наприклад, для моделі, що показана на рис. 4, для предикції (оці- нки) значення Y інформативними є WUVZX ,,,, . Але корисний внесок в па- сивний прогноз Y можуть зробити й не- суміжні змінні, за умови присутності (від- сутності) інших змінних у переліку зада- них. Умовно- інформативними для Y є всі змінні, поєднані з Y якимось шляхом. Зо- крема, якщо не задано значення змінних ZX , , то інформативними стають L та S . Що стосується змінної Q , то вона стає ін- формативною, якщо задано значення змінної W . (Звісно, внесок «далеких» змінних – незначний). Для пасивного про- гнозу корисні не тільки справжні причи- ни, а й тісно пов'язані з ними індикатори. Для класифікації часто використовуються змінні, які радше є наслідками («дітьми») або «братами» цільової змінної. Каузальний прогноз відповідає на питання, яким буде значення заданої змін- ної, якщо маніпулювати (керувати) певни- ми іншими змінними (точніше, їх прототи- пами в об'єкті). Для моделі, показаної на рис. 4, керування змінними TWQ ,, не дасть ефекту для Y за жодних умов. Каузальний прогноз значення Y після втручання на змінну X потребує «усунення» внеску конфаудера L . Це здійснюється як корек- ція моделі (видалення зв'язку XR  ). Вза- галі, каузальний прогноз для C за втру- чання на змінну A формулюється як ,..)),(\|( badoCp [38–41, 43]. Отже, каузальні мережі є предиктивними моделями у силь- ному сенсі. Завважимо, що КМ утворюється зі змінних, заданих на вході, тож і прогноз виражається через них. Але на основі ре- зультатів, отриманих з моделі, можна об- числювати «кінцевий» (з точки зору замо- вника) ефект, для чого залучаються додат- кові («зовнішні») функції і фактори, що залишилася поза вхідними даними. (Мето- ди відтворення каузальних мереж з даних згодом будуть розглянуті детальніше.) Самонавчання алгоритмів та глибоке навчання У спеціальній літературі часто вжи- вається термін Machine Learning, який за- звичай перекладають буквально – машин- не навчання. Під гаслом Machine Learning велися розробки алгоритмів, процедур, ме- тодів і програмних засобів розв'язання практичних задач протягом майже пів сто- ліття [47]. Ці розробки зосереджувалися на ціле-визначених задачах (оцінка успішнос- ті навчання потребує задану ціль). Напря- мок Machine Learning (ML) окреслився пі- сля того, як дослідники й інженери зрозу- міли, що для багатьох прикладних задач (зокрема, класифікації) важко придумати (вибрати) ефективний алгоритм розв'язан- ня. З'ясувалося, що замість того, щоб «вручну» специфікувати потрібний алго- ритм розв'язання, краще вирішити задачу вищого рівня – задачу адаптивного конс- труювання потрібного алгоритму самим Експертні та інтелектуальні інформаційні системи 61 комп'ютером. Тобто запускається автома- тичний процес конструювання «цільового» алгоритму як послідовність вибору опцій та параметрів в ході пробних застосувань алгоритму розв'язання кінцевої задачі на «прикладах». Приклади задаються вхідни- ми даними. Підбір опцій диктується успі- шністю розв'язання прикладної задачі, а весь цей процес називається навчанням. Отже, предметом того, що позначають те- рміном Machine Learning, є способи і ме- тоди автоматичного формування («на- вчання») алгоритмів і засобів розв'язання прикладних задач на основі досвіду їх роз- в'язання на прикладах. Коротко це можна назвати «самонавчання алгоритмів» (сНАлг). Словосполучення Machine Learning широко розповсюдилося в літературі. Що- до вживання «машинне навчання» як тер- міну можна зауважити наступне. По- перше, воно може дезорієнтувати, бо таке словосполучення стосується також засто- сування комп'ютерів у навчальному проце- сі. По-друге, вживання слова «машина» тут не є влучним. Результатом виконання сНАлг за- звичай є алгоритм обчислення y на основі X (хоча іноді може бути видана модель у певній декларативній формі). Напрямок сНАлг сприймався як такий, що входив до комп'ютерних наук (методів програ- мування і обчислень) і часто позиціону- вався «під дахом» напрямку «штучний інтелект». (До речі, в розвитку самого штучного інтелекту пріоритет змістився від «вилучення» знань (тобто отримання їх від експерта) до виведення знань з да- них.) В руслі робіт з сНАлг було винайде- но багато способів, тактик, правил, мето- дик й методів, переважно інженерно- евристичних [16, 17, 47–49]. Зокрема, роз- винуто інструментарій нейронних мереж. Часто розробники обходилися без матема- тичної постановки задачі, і тільки останнім часом почали запозичувати зі статистики принципи та підходи для обґрунтування, оцінки статистичної значущості та оцінки надійності. В руслі напрямку нейромереж сфо- рмувалася гілка методів так званого «гли- бокого навчання». Методи глибокого на- вчання застосовуються переважно для візуального та звукового розпізнавання [50]. В цьому підході опріч цільової змін- ної y (якою зазвичай є клас об'єкту або «сигнальна» характеристика розпізнаван- ня), за замовчуванням задається й інші апріорна інформація. Вхідні характерис- тики є кандидатами у предиктори (ознаки) або радше їх компонентами (елементами). Задано також форми перетворення (пара- метричні родини моделей) або арсенал «цеглин» (будівельних блоків), з яких можна конструювати «модель» )(Xy  . Часто задано параметри конструкції «мо- делі» (кількість рівнів, блоків). Список кандидатів у предиктори (фактори) може бути надлишковим, але зазвичай всі кан- дидати однакові зі рівнем деталізації і мають однаковий «статус» (це зрозуміло за «фізичним» змістом). Висока спеціалі- зація «моделі» дозволяє добре специфіку- вати завдання. По-суті, для глибокого на- вчання задано «каркас» моделі. «Глиби- на» в цьому підході означає ієрархічність, багаторівневість конструкції, а також складність використаних функцій (фор- мул). Характер даних диктує необхідність спочатку сформувати з вхідних змінних більш інформативні масштабні ознаки, на основі яких вже побудувати модель. Гли- боке навчання продемонструвало, що на відповідному класі задач можна натрену- вати багаторівневі конструкції, які адек- ватні при застосуванні до нових прикладів (об'єктів). Успішність глибокого навчання пояснюється характером проблемної си- туації, а саме, наступними обставинами. Вхідні змінні – це дуже «дрібні ознаки» (маленькі частинки «картини», наприклад, пікселі зображень). Велика кількість змінних, причому «сусідні» змінні тісно корельовані і майже ідентичні. Модель високоспеціалізована, з лаконічним ре- зультатом на виході (одне з кількох зна- чень). На вході задано «каркас» моделі. У глибокому навчанні «узагаль- нення» має сенс об'єднання деталей у ціле, а у глибокому аналізі – радше пере- хід від одиничного до загального. У гли- бокому навчанні глибина розуміється як багаторівневість і складність кон- струкції. Натомість у глибокому аналізі Експертні та інтелектуальні інформаційні системи 62 даних глибина розуміється як сходження від «сирих» випадкових даних до «знань» (до очищеної зрозумілої «картини»), при- чому ті «знання» випливають з відносин між змінними, характер і роль яких неві- домі (змінні можуть бути дуже різнорід- ними). Ці два напрями різняться також характером переробки даних: перший – це тренування, «підгонка» й оптимізація; другий має пошуково-дослідницький ха- рактер [16]. Огляд основних методів аналізу та особливостей їх застосування до великих даних буде презентовано у наступній статті. Велика аналітика. Проміжні підсумки Великі дані є одним зі знакових трендів новітніх інформаційних технологій у розвинутих країнах. Великі дані поро- джуються швидкісними автоматичними засобами реєстрації інформації, вбудова- ними в реальні об'єкти. Витрати на збір та зберігання великих даних виправдовують- ся їх результативним використанням, в пе- ршу чергу – через глибокий аналіз даних, коли величезний масив сирих даних перет- ворюється («перетравлюється») на компа- ктну, концентровану й цінну інформацію кінцевого споживання. Аналіз може бути глибоким тільки коли є багата і рясна «си- ровина». Взагалі, великі дані можуть бути використані у наступних режимах: «інте- лектуальний» пошук інформації; масована переробка даних («відпрацювання», concentration, mining) за один-два проходи; виведення моделі об'єкту (джерела) з да- них; екстракція знань з даних (відкриття закономірностей). Деякі фірми вже впроваджують за- мкнені комп'ютеризовані технології, що охоплюються увесь цикл оперативного керування – від збору даних до кінцевого застосування (рішень). Великі дані є ро- дючою сировиною для глибокого аналізу (принаймні для аналізу зв'язків) тільки коли вони багатовимірні. Великі дані в принципі можуть забезпечити інформа- цію, достатню для планування і знайдення оптимальних рішень. Проте потенційна «повнота» даних часто залишається «вір- туальною». Великі дані часто є неструк- турованими, «гнучко-структурованими» або слабко-структурованими. Крім того, великі дані часто є вертикально- секціонованими («розщепленими»). Перед власне результативним аналізом необхід- но виконати підготовку даних. Цей етап може включати такі процедури, як пошук, добір, доставка, фільтрація, агрегація, ін- теграція, синхронізація, пере-форматуван- ня. Водночас іноді потрібно зменшувати вимірність даних (без втрати їх змістов- ності). Можна очікувати, що у майбутньо- му технології збору даних прогресують, пристрої стануть «тямущими», а інфра- структура розростеться у масштабах. Це забезпечить постачання багатовимірних інтегрованих даних, готових для негайного аналізу. Проте проникнення таких засобів у життя суспільства буде входити у супе- речність з правом на приватність й конфі- денційність. Велика аналітика увібрала багатий арсенал кількох дисциплін та набутки різ- них напрямків розробок. Вона спирається на фундамент статистичної методології (включаючи розвідковий та конфірматив- ний аналіз даних), методи оптимізації та пошуку, методи репрезентації знань та ві- зуалізації багатовимірних даних. Адапту- ється досвід таких напрямків, як відкриття знань в даних (Data Mining, Knowledge Discovery in Data) і методи самонавчання алгоритмів (Machine Learning). Кілька на- прямків досліджень і розробок стали опо- рами і складовими великої аналітики (рис. 5). Їх об'єднання і взаємне збагачен- ня утворює методологічне ядро великої аналітики. Типові класи задач аналітики вклю- чають: розділення даних (групування ви- падків); поверховий («загальний») не ак- центований опис даних; виведення ціле- визначених моделей; відкриття структур та закономірностей. Ціле-визначені задачі охоплюють виведення предиктивних (дис- кримінативних) моделей, які описують ці- льову змінну через інші змінні. Експертні та інтелектуальні інформаційні системи 63 Відмінність моделі об'єкту (резуль- тату виведення) і «знання» (результату ві- дкриття) характеризується в трьох аспек- тах. 1) На вході задачі відкриття знань за- дається менше апріорної не емпіричної ін- формації. 2) Модель, як правило, претен- дує на опис всіх оброблених даних, в той час як «знання» може стосуватися лише окремого зрізу (чи сегменту) даних (проте підтверджується систематично). 3) «Знан- ня» змістовно інтерпретуються, цікаве, не- очікуване або надає «інсайт», водночас як модель виконує передбачену функцію або описує дані. Критичним питанням для адекват- ності ціле-визначених моделей є підбір значущих предикторів. Модель з високою предиктивною ефективністю не завжди дає розуміння (пояснення) предмету. По- пулярним різновидом ціле-визначених за- дач є так зване «глибоке навчання», приз- начене для розпізнавання образів та мови. Успішність «глибокого навчання» пояс- нюється спеціальним характером задачі розпізнавання та вхідних даних. Глибоко- му навчанню можна протиставити глибо- кий аналіз даних та відкриття знань. У «глибокому навчанні» глибина розумієть- ся як багаторівневість і складність конс- трукції, а у глибокому аналізі даних – як сходження від «сирих» випадкових даних до «знань», причому ті «знання» не є ар- тефактами алгоритмів виводу чи збору даних, а є результатом «кристалізації» зв'язків, розчинених в масі даних. Форми виявлених закономірностей включають: послідовнісні повторювання (motifs), пе- ріодичність коливань індикаторів у часі, інваріанти на основі комбінації характе- ристик, часто повторювані набори (асоці- ації), структури залежностей тощо. Каузальні мережі є генеративними моделями в сильному сенсі, бо вони здатні адекватно описати процес генерації змін- них, «дзеркально» відображаючи процеси в об'єкті. Каузальні моделі пристосовані для застосування в режимі варіювання на- бору заданих значень предикторів (умов). Головна перевага каузальних моделей над традиційними – вони підтримують прогно- зування наслідків втручання в об'єкт (ке- рування). Великі дані надають нові можливо- сті для статистичних методів аналізу і вод- Рис. 5. Фундамент та арсенал великої аналітики Статистичне моделювання, тестування, оцінка Методи репрезентації знань та візуалізації Статистична індукція Методи оптимізації, пошуку, обчислень, .. Самонавчання алгоритмів (сНАлг = ML) Відкриття знань в даних (оригінальні методи) Велика Аналітика Експертні та інтелектуальні інформаційні системи 64 ночас висувають вимоги до них [16, 23, 24, 28, 30, 31, 32, 51–60]. Результати аналізу великих даних потребують оцінки й вери- фікації за статистичними принципами. Розповсюдження великих даних стимулює подальший розвиток методів аналізу (зок- рема, статистичних) та прогрес комп'ютер- них технологій. Література 1. Big data analytics: a survey. Tsai C.-W., Lai C.-F., Chao H.-C. and Vasilakos A.V. Journal of Big Data. 2015. Vol. 2, N. 1. P. 1–32. 2. Science in the petabyte era. Nature (journal). 2008. Vol. 455, Issue 7209. Springer Nature Ltd. 3. Frankel F., Reid R. Big data: Distilling meaning from data. Nature. Vol. 455, September 2008. p. 30. 4. Doctorow C. Big data: Welcome to the petacentre. Ibid. P. 16–21. 5. Chen C.L.P. and Zhang C.-Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences. 2014. Vol. 275. P. 314–347. 6. Cukier K. Data, data everywhere: A special report on managing information. The Economist. 2010, February 25. 7. Gandomi A. and Haider M. Beyond the hype: Big data concepts, methods, and analytics. Intern. Jour. of Information Management. 2015, Vol. 35, N. 2. Р. 137–144. 8. Watson H.J. Tutorial: Big Data analytics: Concepts, technologies, and applications. Comm. of the Association for Information Systems. 2014. Vol. 34, Article 65. P. 1247–1268. 9. Sivarajah U., Kamal M.M., Irani Z. and Weerakkody V. Critical analysis of Big Data challenges and analytical methods. Journal of Business Research. 2017. Vol. 70. P. 263–286. 10. Bhadani A. and Jothimani D. Big Data: Challenges, opportunities and realities / In.: M.K. Singh and D.G. Kumar (eds.). Effective Big Data management and opportunities for implementation. IGI Global, USA, 2016. 11. Intern. Journal of Data Science and Analytics. Special issue on Data Science in Europe. 2018. Vol. 6, Issue 3. P. 163–269. 12. Intern. J. of Data Science and Analytics. Spec. issue on environmental and geospatial data analytics. 2018. Vol. 5, Issue 2–3. P. 81–211. 13. Jacobs A. The pathologies of big data. Comm. of the ACM. 2009, Vol. 52, Issue 8, P. 36–44. 14. Андон Ф.И., Балабанов А.С. Выявление знаний и изыскания в базах данных: подходы, модели, методы и системы (об- зор). Проблемы программирования. 2000, № 1–2. С. 513–526. 15. Балабанов А.С. Выделение знаний из баз данных – передовые компьютерные техно- логии интеллектуального анализа данных. Математичні машини і системи. 2001, № 1–2. С. 40–54. 16. Data mining: practical machine learning tools and techniques / I.H. Witten, F. Eibe, M.A. Hall. (3rd ed.). Morgan Kaufmann, San Francisco, CA. 2011. 629 p. 17. Data Mining. A Knowledge Discovery Approach. K.J. Cios, W. Pedrycz, R.W. Swiniarski and L.A. Kurgan. Springer, 2007, 606 p. 18. Azzalini A. and Scarpa B. Data analysis and Data Mining: An introduction. Oxford University Press, N.Y., 2012. 288 p. 19. Андон Ф.И., Балабанов А.С. Структурные статистические модели: инструмент позна- ния и моделирования. Системні дослі- дження та інформаційні технології. 2007, № 1. С. 79–98. 20. Балабанов О.С. Комп'ютерний інтелект: фантастичні перспективи і щоденний пос- туп. 1997, revised 2007. [Електронний ре- сурс.] Доступ: https://www.researchgate.net/ publication/332269445_KOMP'UTERNIJ_ INTELEKT_FANTASTICNI_PERSPEKTIVI _ I_SODENNIJ_POSTUP 21. Hey T, Tansley S. and Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research, Redmont, WA. October 2009. 252 p. 22. Siebes A. Data science as a language: challenges for computer science — a position paper. Intern. J. of Data Science and Analytics. 2018. Vol. 6. P. 177–187. 23. Fan J., Han F. and Liu H. Challenges of Big Data analysis. Nat. Scient. Rev. 2014. Vol. 1, N. 2. P. 293–314. 24. Statistical inference, learning and models in Big Data / B. Franke, J.-F. Plante, R. Roscher, E.A. Lee, C. Smyth, A. Hatefi, F. Chen, E. Gil, A.G. Schwing, A. Selvitella, M.M. Hoffman, R. Grosse, D. Hendricks and N. Reid. Intern. Statistical Review. 2016. Vol. 84, N 3. P. 371–389. https://www.researchgate.net/%20publication/332269445_KOMP'UTERNIJ_%20INTELEKT_FANTASTICNI_PERSPEKTIVI_%20I_SODENNIJ_POSTUP https://www.researchgate.net/%20publication/332269445_KOMP'UTERNIJ_%20INTELEKT_FANTASTICNI_PERSPEKTIVI_%20I_SODENNIJ_POSTUP https://www.researchgate.net/%20publication/332269445_KOMP'UTERNIJ_%20INTELEKT_FANTASTICNI_PERSPEKTIVI_%20I_SODENNIJ_POSTUP https://www.researchgate.net/%20publication/332269445_KOMP'UTERNIJ_%20INTELEKT_FANTASTICNI_PERSPEKTIVI_%20I_SODENNIJ_POSTUP Експертні та інтелектуальні інформаційні системи 65 25. Swanson N.R. and Xiong W. Big Data analytics in economics: What have we learned so far, and where should we go from here? Canadian Journal of Economics. 2018. Vol. 51, Issue 3. P. 695–746. 26. The anatomy of big data computing / R. Kune, P. K. Konugurthi, A. Agarwal, R.R. Chillarige and R. Buyya. Software: Practice and Experience. 2016, Vol. 46. P. 79–105. 27. Smirnova E., Ivanescu A., Bai J., Crainiceanu C.M. A practical guide to big data. Statistics and Probability Letters. 2018. Vol. 136. P. 25–29. 28. Shi J.Q. How do statisticians analyse big data — our story. Statistics and Probability Letters. 2018. Vol. 136. P. 130–133. 29. Jiang H., Chen Y., Qiao Z., Weng T. H. and Li K.C. Scaling up MapReduce-based big data processing on multi-GPU systems. Cluster Computing. 2015. Vol. 18, N. 1. P. 369–383. 30. Haughton D. Software packages for data mining. Wiley StatsRef: Statistics Reference Online. 2016. P. 1–5. 31. James G., Witten D., Hastie T. and Tibshirani R. An introduction to statistical learning with applications in R. Springer, N.Y., 2013. 426 p. 32. Graham E. and Timmermann A. Forecasting in Economics and Finance. Annual Review of Economics. 2016. Vol. 8. P. 81–110. 33. Liu B. Web data mining: Exploring hyperlinks, contents, and usage data. Springer-Verlag: Berlin-Heidelberg, 2011. 622 p. 34. Zafarani R., Abbasi M.A. and Liu H. Social media mining. An introduction. Cambridge University Press. 2019. 380 p. 35. Big Data Analysis: New Algorithms for a New Society. N. Japkowicz and J. Stefa- nowski (eds.), Springer, Switzerland. 2016. 329 p. 36. Data mining for the Internet of things: Literature review and challenges. F. Chen, P. Deng, J. Wan, D. Zhang. Intern. Journal of Distributed Sensor Networks. Vol. 2015. 14 p. 37. Esling P. and Agón C. Time-series data mining. ACM Computing Surveys. 2012. Vol. 45, Issue 1. P. 12–34. 38. Pearl J. Causality: models, reasoning, and inference. Cambridge: Cambridge Univ. Press. 2000. 526 p. 39. Spirtes P., Glymour C. and Scheines R. Causation, prediction and search. New York: MIT Press, 2001. 543 p. 40. Балабанов О.С. Відкриття знань в даних та каузальні моделі в аналітичних інформа- ційних технологіях. Проблеми програму- вання. 2017, № 3. С. 96−112. 41. Peters J., Janzing D. and Schölkopf B. Elements of Causal Inference. Foundations and Learning Algorithms. MIT Press, Cambridge, MA, USA, 2017. 265 p. 42. Shiffrin R.M. Drawing causal inference from Big Data. Proc. Nat. Acad. Scien. USA. 2016. Vol. 113, N. 27. P. 7308–7309. 43. Pearl J. and Bareinboim E. External validity: From do-calculus to transportability across populations. Statistical Science. 2014. Vol. 29, N 4. P. 579–595. 44. Балабанов О.С. Від коваріацій до каузаль- ності. Відкриття структур залежностей в даних. Системні дослідження та інформаційні технології. 2011, № 4. С. 104–118. 45. Балабанов О.С. Відтворення каузальних мереж на основі аналізу марковських влас- тивостей. Математичні машини та сис- теми. 2016, № 1. С.16–26. 46. Giudici P. Financial data science. Statistics and Probability Letters. 2018. Vol. 136. P. 160–164. 47. Machine learning. Special issue on applications of machine learning and the knowledge discovery process. R. Kohavi, F. Provost. (Eds.) Machine Learning. 1998. Vol. 30, N.2/3. P. 127–274. 48. 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, August 13–17, 2016. San Francisco, California. 49. 24th SIGKDD Conference on Knowledge Discovery and Data Mining, August 19–23, 2018. London, UK. 50. LeCun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015. Vol. 521. P. 436–444. 51. Donoho D.L. 50 Years of Data Science. Journal of Computational and Graphical Statistics. 2017. Vol. 26, Issue 4. P. 745–766. 52. Bühlmann P. and van de Geer S. Statistics for high-dimensional data: Methods, theory and applications. Springer, 2011. 556 p. 53. Bühlmann P. and van de Geer S. Statistics for big data: A perspective. Statistics and Probability Letters. 2018. Vol. 136. P. 37–41. 54. Secchi P. On the role of statistics in the era of big data: A call for a debate. Ibid. P. 10–14. 55. Quarteroni A. The role of statistics in the era of big data: A computational scientist’ perspective. Ibid. P. 63–67. 56. Cox D.R., Kartsonaki C., Keogh R.H. Big data: Some statistical issues. Ibid. P. 111–115. 57. James G. M. Statistics within business in the era of big data. Ibid. P. 155–159. Експертні та інтелектуальні інформаційні системи 66 58. Weihs C. and Ickstadt K. Data Science: the impact of statistics. Intern. Journal of Data Science and Analytics. 2018. Vol. 6. P. 189–194. 59. Efron B. and Hastie T. Computer age statistical inference. Cambridge University Press, N.Y., 2016. 475 p. 60. Carmichael I. and Marron J.S. Data science vs. statistics: two cultures? Japanese Journal of Statistics and Data Science. 2018. Vol. 1, Issue 1. P. 117–138. References 1. Big data analytics: a survey. Tsai C.-W., Lai C.-F., Chao H.-C. and Vasilakos A.V. Journal of Big Data. 2015. Vol. 2, N. 1. P. 1–32. 2. Science in the petabyte era. Nature (journal). 2008. Vol. 455, Issue 7209. Springer Nature Ltd. 3. Frankel F., Reid R. Big data: Distilling meaning from data. Nature. Vol. 455, September 2008. p. 30. 4. Doctorow C. Big data: Welcome to the petacentre. Ibid. P. 16–21. 5. Chen C.L.P. and Zhang C.-Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data. Information Sciences. 2014. Vol. 275. P. 314–347. 6. Cukier K. Data, data everywhere: A special report on managing information. The Economist. 2010, February 25. 7. Gandomi A. and Haider M. Beyond the hype: Big data concepts, methods, and analytics. Intern. Jour. of Information Management. 2015, Vol. 35, N. 2. Р. 137–144. 8. Watson H.J. Tutorial: Big Data analytics: Concepts, technologies, and applications. Comm. of the Association for Information Systems. 2014. Vol. 34, Article 65. P. 1247–1268. 9. Sivarajah U., Kamal M.M., Irani Z. and Weerakkody V. Critical analysis of Big Data challenges and analytical methods. Journal of Business Research. 2017. Vol. 70. P. 263–286. 10. Bhadani A. and Jothimani D. Big Data: Challenges, opportunities and realities / In.: M.K. Singh and D.G. Kumar (eds.). Effective Big Data management and opportunities for implementation. IGI Global, USA, 2016. 11. Intern. Journal of Data Science and Analytics. Special issue on Data Science in Europe. 2018. Vol. 6, Issue 3. P. 163–269. 12. Intern. J. of Data Science and Analytics. Spec. issue on environmental and geospatial data analytics. 2018. Vol. 5, Issue 2–3. P. 81–211. 13. Jacobs A. The pathologies of big data. Comm. of the ACM. 2009, Vol. 52, Issue 8, P. 36–44. 14. Andon P.I. and Balabanov O.S. (2000). Vyjavlenie znanij i izyskanija v bazah dannyh. Podhody, modeli, metody i sistemy. [Knowledge discovery and exploration in databases. Approaches, models, methods and systems]. Problems in programming. N 1–2, P. 513–526. [In Russian] 15. Balabanov O.S. (2001). Knowledge extraction from databases – advanced computer technologies for intellectual data analysis. Mathematical Machines and Systems. N 1–2. P. 40–54. [In Ukrainian] 16. Data mining: practical machine learning tools and techniques / I.H. Witten, F. Eibe, M.A. Hall. (3rd ed.). Morgan Kaufmann, San Francisco, CA. 2011. 629 p. 17. Data Mining. A Knowledge Discovery Approach. K.J. Cios, W. Pedrycz, R.W. Swiniarski and L.A. Kurgan. Springer, 2007, 606 p. 18. Azzalini A. and Scarpa B. Data analysis and Data Mining: An introduction. Oxford University Press, N.Y., 2012. 288 p. 19. Andon P.I. and Balabanov O.S. (2007). Structured statistical models: a tool for cognition and modelling. System Research and Information Technologies. N 1. P. 79–98. [In Russian] 20. Balabanov O.S. (1997). Computer’s intelligence: fantastic perspectives and regular progression. Revised 2007. [In Ukrainian] [Electronic resource:] Access: https://www.researchgate.net/publication/332 269445_KOMP'UTERNIJ_INTELEKT_FAN TASTICNI_PERSPEKTIVI_I_SODENNIJ_P OSTUP 21. Hey T, Tansley S. and Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research, Redmont, WA. October 2009. 252 p. 22. Siebes A. Data science as a language: challenges for computer science — a position paper. Intern. J. of Data Science and Analytics. 2018. Vol. 6. P. 177–187. 23. Fan J., Han F. and Liu H. Challenges of Big Data analysis. Nat. Scient. Rev. 2014. Vol. 1, N. 2. P. 293–314. https://www.researchgate.net/publication/332269445_KOMP'UTERNIJ_INTELEKT_FANTASTICNI_PERSPEKTIVI_I_SODENNIJ_POSTUP https://www.researchgate.net/publication/332269445_KOMP'UTERNIJ_INTELEKT_FANTASTICNI_PERSPEKTIVI_I_SODENNIJ_POSTUP https://www.researchgate.net/publication/332269445_KOMP'UTERNIJ_INTELEKT_FANTASTICNI_PERSPEKTIVI_I_SODENNIJ_POSTUP https://www.researchgate.net/publication/332269445_KOMP'UTERNIJ_INTELEKT_FANTASTICNI_PERSPEKTIVI_I_SODENNIJ_POSTUP Експертні та інтелектуальні інформаційні системи 67 24. Statistical inference, learning and models in Big Data / B. Franke, J.-F. Plante, R. Roscher, E.A. Lee, C. Smyth, A. Hatefi, F. Chen, E. Gil, A.G. Schwing, A. Selvitella, M.M. Hoffman, R. Grosse, D. Hendricks and N. Reid. Intern. Statistical Review. 2016. Vol. 84, N 3. P. 371–389. 25. Swanson N.R. and Xiong W. Big Data analytics in economics: What have we learned so far, and where should we go from here? Canadian Journal of Economics. 2018. Vol. 51, Issue 3. P. 695–746. 26. The anatomy of big data computing / R. Kune, P. K. Konugurthi, A. Agarwal, R.R. Chillarige and R. Buyya. Software: Practice and Experience. 2016, Vol. 46. P. 79–105. 27. Smirnova E., Ivanescu A., Bai J., Crainiceanu C.M. A practical guide to big data. Statistics and Probability Letters. 2018. Vol. 136. P. 25–29. 28. Shi J.Q. How do statisticians analyse big data — our story. Statistics and Probability Letters. 2018. Vol. 136. P. 130–133. 29. Jiang H., Chen Y., Qiao Z., Weng T. H. and Li K.C. Scaling up MapReduce-based big data processing on multi-GPU systems. Cluster Computing. 2015. Vol. 18, N. 1. P. 369–383. 30. Haughton D. Software packages for data mining. Wiley StatsRef: Statistics Reference Online. 2016. P. 1–5. 31. James G., Witten D., Hastie T. and Tibshirani R. An introduction to statistical learning with applications in R. Springer, N.Y., 2013. 426 p. 32. Graham E. and Timmermann A. Forecasting in Economics and Finance. Annual Review of Economics. 2016. Vol. 8. P. 81–110. 33. Liu B. Web data mining: Exploring hyperlinks, contents, and usage data. Springer-Verlag: Berlin-Heidelberg, 2011. 622 p. 34. Zafarani R., Abbasi M.A. and Liu H. Social media mining. An introduction. Cambridge University Press. 2019. 380 p. 35. Big Data Analysis: New Algorithms for a New Society. N. Japkowicz and J. Stefa- nowski (eds.), Springer, Switzerland. 2016. 329 p. 36. Data mining for the Internet of things: Literature review and challenges. F. Chen, P. Deng, J. Wan, D. Zhang. Intern. Journal of Distributed Sensor Networks. Vol. 2015. 14 p. 37. Esling P. and Agón C. Time-series data mining. ACM Computing Surveys. 2012. Vol. 45, Issue 1. P. 12–34. 38. Pearl J. Causality: models, reasoning, and inference. Cambridge: Cambridge Univ. Press. 2000. 526 p. 39. Spirtes P., Glymour C. and Scheines R. Causation, prediction and search. New York: MIT Press, 2001. 543 p. 40. Balabanov O.S. (2017). Knowledge discovery in data and causal models in analytical informatics. Problems in Programming. N. 3. P. 96−112. [in Ukrainian] 41. Peters J., Janzing D. and Schölkopf B. Elements of Causal Inference. Foundations and Learning Algorithms. MIT Press, Cambridge, MA, USA, 2017. 265 p. 42. Shiffrin R.M. Drawing causal inference from Big Data. Proc. Nat. Acad. Scien. USA. 2016. Vol. 113, N. 27. P. 7308–7309. 43. Pearl J. and Bareinboim E. External validity: From do-calculus to transportability across populations. Statistical Science. 2014. Vol. 29, N 4. P. 579–595. 44. Balabanov O.S. (2011). From covariation to causation. Discovery of structures of dependency in data. System Research and Information Technologies. N. 4. P. 104–118. [In Ukrainian] 45. Balabanov O.S. (2016). Reconstruction of causal networks via analysis of Markov properties. Mathematical Machines and Systems. N. 1. P. 16–26. [In Ukrainian] 46. Giudici P. Financial data science. Statistics and Probability Letters. 2018. Vol. 136. P. 160–164. 47. Machine learning. Special issue on applications of machine learning and the knowledge discovery process. R. Kohavi, F. Provost. (Eds.) Machine Learning. 1998. Vol. 30, N.2/3. P. 127–274. 48. 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, August 13–17, 2016. San Francisco, California. 49. 24th SIGKDD Conference on Knowledge Discovery and Data Mining, August 19–23, 2018. London, UK. 50. LeCun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015. Vol. 521. P. 436–444. 51. Donoho D.L. 50 Years of Data Science. Journal of Computational and Graphical Statistics. 2017. Vol. 26, Issue 4. P. 745–766. 52. Bühlmann P. and van de Geer S. Statistics for high-dimensional data: Methods, theory and applications. Springer, 2011. 556 p. 53. Bühlmann P. and van de Geer S. Statistics for big data: A perspective. Statistics and Probability Letters. 2018. Vol. 136. P. 37–41. Експертні та інтелектуальні інформаційні системи 68 54. Secchi P. On the role of statistics in the era of big data: A call for a debate. Ibid. P. 10–14. 55. Quarteroni A. The role of statistics in the era of big data: A computational scientist’ perspective. Ibid. P. 63–67. 56. Cox D.R., Kartsonaki C., Keogh R.H. Big data: Some statistical issues. Ibid. P. 111–115. 57. James G. M. Statistics within business in the era of big data. Ibid. P. 155–159. 58. Weihs C. and Ickstadt K. Data Science: the impact of statistics. Intern. Journal of Data Science and Analytics. 2018. Vol. 6. P. 189–194. 59. Efron B. and Hastie T. Computer age statistical inference. Cambridge University Press, N.Y., 2016. 475 p. 60. Carmichael I. and Marron J.S. Data science vs. statistics: two cultures? Japanese Journal of Statistics and Data Science. 2018. Vol. 1, Issue 1. P. 117–138. Одержано 28.03.2019 Про автора: Балабанов Олександр Степанович, доктор фізико-математичних наук, провідний науковий співробітник. Кількість наукових публікацій в українських виданнях – 60. Кількість наукових публікацій в зарубіжних виданнях – 12. Індекс Хірша – 6. http://orcid.org/0000-0001-9141-9074. Місце роботи автора: Інститут програмних систем НАН України, 03187, м. Київ-187, проспект Академіка Глушкова, 40. Тел.: (044) 5263420. Е-mail: bas@isofts.kiev.ua
id	pp_isofts_kiev_ua-article-360
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T09:45:14Z
publishDate	2019
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/3e/9189e4a9c732b2baba539cfe048d5a3e.pdf
spelling	pp_isofts_kiev_ua-article-3602024-04-28T11:02:47Z Big Data Analytics: principles, trends and tasks (a survey) Аналитика больших данных: принципы, направления и задачи (обзор) Аналітика великих даних: принципи, напрямки і задачі (огляд) Balabanov, O.S. Big Data; data analysis; model inference; knowledge discovery; statistical methods; predictive and generative models; causal networks; prediction UDC 004.855:519.216 большие данные; анализ данных; вывод модели; открытие знаний; статистические методы; предиктивные и генеративные модели; каузальные сети; прогноз УДК 004.855:519.216 великі дані; аналіз даних; виведення моделі; відкриття знань; статистичні методи; предиктивні та генеративні моделі; каузальна мережа, прогноз УДК 004.855:519.216 We review directions (avenues) of Big Data analysis and their practical meaning as well as problems and tasks in this field. Big Data Analytics appears a dominant trend in development of modern information technologies for management and planning in business. A few examples of real applications of Big Data are briefly outlined. Analysis of Big Data is aimed to extract useful sense from raw data collection. Big Data and Big Analytics have evolved as computer society’s response to the challenges raised by rapid grows in data volumes, variety, heterogeneity, velocity and veracity. Big Data Analytics may be seen as today’s phase of researches and developments known under names ‘Data Mining’, ‘Knowledge Discovery in Data’, ‘intelligent data analysis’ etc. We suggest that there exist three modes of large-scale usage of Big Data: 1) ‘intelligent information retrieval; 2) massive “intermediate” data processing (concentration, mining), which may be performed during one or two scanning; 3) model inference from data; 4) knowledge discovery in data. Stages in data analysis cycle are outlined. Because of Big Data are raw, distributed, unstructured, heterogeneous and disaggregated (vertically splitted), this data should be prepared for deep analysis. Data preparation may comprise such jobs as data retrieval, access, filtering, cleaning, aggregation, integration, dimensionality reduction, reformatting etc. There are several classes of typical data analysis problems (tasks), including: cases grouping (clustering), predictive model inference (regression, classification, recognition etc.), generative model inference, extracting structures and regularities from data. Distinction between model inference and knowledge discovery is elucidated. We give some suggestion why ‘deep learning’ (one of the most attractive topic by now) is so successive and popular. One of drawbacks of traditional models is they disability to make prediction under incomplete list of predictors (when some predictors are missed) or under augmented list of predictors. One may overcome this drawback using causal model. Causal networks are illuminated in the survey as attractive in that they appear to be expressive generative models and (simultaneously) predictive models in strict sense. This means they pretend to explain how the object at hand is acting (provided they are adequate). Being adequate, causal network facilitates predicting causal effect of local intervention on the object.Methods used in Big Data Analytics will be reviewed in the next paper. Освещены основные направления, задачи и типы результатов анализа больших (компьютеризованных) данных. Показано практическое значение больших данных и большой аналитики как фундамента создания новых компьютерных технологий планирования и управления в бизнесе. Выделены специфичные для больших данных режимы использования данных (или роды заданий анализа): «интеллектуальный» поиск нужной информации; массированная переработка («отработка») данных; индукция модели объекта (среды); экстракция знаний из данных (открытие структур и закономерностей). Очерчено этапы и организацию цикла работ по анализу данных. К типовым классам задач большой аналитики относятся: группирование случаев (кластеризация); вывод целе-определенных моделей (классификация, регрессия, распознавание); вывод генеративных моделей; выявление структур і закономерностей. Охарактеризовано особенности «глубокого обучения» и факторы его популярности. Выделены каузальные сети как класс моделей, которые объединяют в себе преимущества генеративных, целе-определенных и многоцелевых моделей и отличаются тем, что пригодны для прогноза эффектов управления (вмешательства). Указано шесть «опор», на которых стоит методологическое ядро большой аналитики. Висвітлено основні напрямки, задачі та типи результатів глибокого аналізу великих (комп'ютеризованих) даних. Показано практичне значення великих даних та великої аналітики як фундаменту створення нових комп'ютерних технологій планування і керування у бізнесі. Виділено специфічні для великих даних режими використання даних (або роди завдань аналізу): «інтелектуальний» пошук потрібної інформації; масована переробка («відпрацювання») даних; індукція моделі об'єкту (середовища); екстракція знань з даних (відкриття структур і закономірностей). Окреслено етапи і організацію циклу робіт з аналізу даних. До типових класів задач великої аналітики належать: групування випадків (кластеризація); виведення цілевизначених моделей (класифікація, регресія, розпізнавання); виведення генеративних моделей; відкриття структур і закономірностей. Охарактеризовано особливості «глибокого навчання» та фактори його популярності. Виділено каузальні мережі як клас моделей, які поєднують у собі переваги генеративних, цілевизначених та багатоцільових моделей і відрізняються тим, що придатнідля прогнозу ефектів керування (втручання). Вказано шість «опор», на яких будується методологічне ядро великої аналітики. PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2019-06-16 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/360 10.15407/pp2019.02.047 PROBLEMS IN PROGRAMMING; No 2 (2019); 47-68 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2019); 47-68 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2019); 47-68 1727-4907 10.15407/pp2019.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/360/362 Copyright (c) 2019 PROBLEMS IN PROGRAMMING
spellingShingle	Big Data data analysis model inference knowledge discovery statistical methods predictive and generative models causal networks prediction UDC 004.855:519.216 Balabanov, O.S. Big Data Analytics: principles, trends and tasks (a survey)
title	Big Data Analytics: principles, trends and tasks (a survey)
title_alt	Аналитика больших данных: принципы, направления и задачи (обзор) Аналітика великих даних: принципи, напрямки і задачі (огляд)
title_full	Big Data Analytics: principles, trends and tasks (a survey)
title_fullStr	Big Data Analytics: principles, trends and tasks (a survey)
title_full_unstemmed	Big Data Analytics: principles, trends and tasks (a survey)
title_short	Big Data Analytics: principles, trends and tasks (a survey)
title_sort	big data analytics: principles, trends and tasks (a survey)
topic	Big Data data analysis model inference knowledge discovery statistical methods predictive and generative models causal networks prediction UDC 004.855:519.216
topic_facet	Big Data data analysis model inference knowledge discovery statistical methods predictive and generative models causal networks prediction UDC 004.855:519.216 большие данные анализ данных вывод модели открытие знаний статистические методы предиктивные и генеративные модели каузальные сети прогноз УДК 004.855:519.216 великі дані; аналіз даних; виведення моделі; відкриття знань; статистичні методи; предиктивні та генеративні моделі; каузальна мережа прогноз УДК 004.855:519.216
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/360
work_keys_str_mv	AT balabanovos bigdataanalyticsprinciplestrendsandtasksasurvey AT balabanovos analitikabolʹšihdannyhprincipynapravleniâizadačiobzor AT balabanovos analítikavelikihdanihprincipinaprâmkiízadačíoglâd

Big Data Analytics: principles, trends and tasks (a survey)

Institution

Similar Items