What is Big Data

The article attempts to uncover the essence of the concept of Big Data based on the analysis of materials from various sources. Defining characteristics of Big Data are given, their classification is given, a brief description of the origin and development is presented, the basic principles of opera...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2019
Автор: Reznichenko, V.A.
Формат: Стаття
Мова:rus
Опубліковано: Інститут програмних систем НАН України 2019
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/368
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-368
record_format ojs
resource_txt_mv ppisoftskievua/a1/462088d89d628decd354d4b49d2a96a1.pdf
spelling pp_isofts_kiev_ua-article-3682024-04-28T11:05:26Z What is Big Data Что такое Big Data Що таке Big Data Reznichenko, V.A. Big Data; Big Data technology; database; life cycle UDC 004.62 большие данные; технология больших данных; база данных; жизненный цикл УДК 004.62 великі дані; технологія великих даних; база даних; життєвий цикл УДК 004.62 The article attempts to uncover the essence of the concept of Big Data based on the analysis of materials from various sources. Defining characteristics of Big Data are given, their classification is given, a brief description of the origin and development is presented, the basic principles of operation are presented, methods and technologies for analysis and visualization are outlined, the life cycle of data management using Big Data technology is described.Problems in programming 2019; 3: 86-100  В статье делается попытка раскрытия сути понятия Big Data  на основе анализа материалов из различных источников. Даются определяющие характеристики Big Data, приводится их классификация, кратко описывается история возникновения и развития, представлены основополагающие принципы работы, кратко излагаются методы и технологии анализа и визуализации, описывается жизненный цикл управления данными с использованием  технологии Big Data.Problems in programming 2019; 3: 86-100 У статті робиться спроба розкриття суті поняття Big Data на основі аналізу матеріалів з різних джерел. Даються визначальні характеристики Big Data, наводиться їх класифікація, коротко описується історія виникнення та розвитку, представлені основоположні принципи роботи, коротко викладаються методи і технології аналізу та візуалізації, описується життєвий цикл управління даними з використанням технології Big Data. Problems in programming 2019; 3: 86-100 Інститут програмних систем НАН України 2019-08-21 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/368 10.15407/pp2019.03.086 PROBLEMS IN PROGRAMMING; No 3 (2019); 86-100 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 3 (2019); 86-100 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 3 (2019); 86-100 1727-4907 10.15407/pp2019.03 rus https://pp.isofts.kiev.ua/index.php/ojs1/article/view/368/378 Copyright (c) 2019 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2024-04-28T11:05:26Z
collection OJS
language rus
topic Big Data
Big Data technology
database
life cycle
UDC 004.62
spellingShingle Big Data
Big Data technology
database
life cycle
UDC 004.62
Reznichenko, V.A.
What is Big Data
topic_facet Big Data
Big Data technology
database
life cycle
UDC 004.62
большие данные
технология больших данных
база данных
жизненный цикл
УДК 004.62
великі дані
технологія великих даних
база даних
життєвий цикл
УДК 004.62
format Article
author Reznichenko, V.A.
author_facet Reznichenko, V.A.
author_sort Reznichenko, V.A.
title What is Big Data
title_short What is Big Data
title_full What is Big Data
title_fullStr What is Big Data
title_full_unstemmed What is Big Data
title_sort what is big data
title_alt Что такое Big Data
Що таке Big Data
description The article attempts to uncover the essence of the concept of Big Data based on the analysis of materials from various sources. Defining characteristics of Big Data are given, their classification is given, a brief description of the origin and development is presented, the basic principles of operation are presented, methods and technologies for analysis and visualization are outlined, the life cycle of data management using Big Data technology is described.Problems in programming 2019; 3: 86-100 
publisher Інститут програмних систем НАН України
publishDate 2019
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/368
work_keys_str_mv AT reznichenkova whatisbigdata
AT reznichenkova čtotakoebigdata
AT reznichenkova ŝotakebigdata
first_indexed 2024-09-16T04:08:38Z
last_indexed 2024-09-16T04:08:38Z
_version_ 1818568466092785664
fulltext Моделі та засоби систем баз даних і знань © В.А. Резниченко, 2019 86 ISSN 1727-4907. Проблеми програмування. 2019. № 3 УДК 004.62 https://doi.org/10.15407/pp2019.03.086 В.А. Резниченко ЧТО ТАКОЕ BIG DATA В статье делается попытка раскрытия сути понятия Big Data на основе анализа материалов из различ- ных источников. Даются определяющие характеристики Big Data, приводится их классификация, крат- ко описывается история возникновения и развития, представлены основополагающие принципы рабо- ты, кратко излагаются методы и технологии анализа и визуализации, описывается жизненный цикл управления данными с использованием технологии Big Data. Ключевые слова: большие данные, технология больших данных, база данных, жизненный цикл. Введение “Так что же такое Big Data? Это неожиданно обрушившаяся на человече- ство лавина данных, это принципиально новая информационная технология, это также можно считать техническая и техно- логическая революции в информатике. Показательно, что из более чем 153 мил- лиона страниц в Web, содержащих слово- сочетание Big Data, 122 миллиона содер- жит еще и слово definition – более двух третей пишущих о Big Data пытается дать свое определение. Такая массовая заинте- ресованность свидетельствует в пользу того, что, скорее всего, в Big Data есть что- то качественно иное, чем то, к чему под- талкивает нас обыденное восприятие этого словосочетания. В этой статье делается попытка раскрытия сути понятия Big Data на основе анализа материалов из различ- ных источников. 1. Материальные и информационные технологии Приведем рассуждения относитель- но материальных и информационных тех- нологий, почерпнутые из [1]. К информа- ционной технологии надо относиться как к материальной технологии. Практически все известные материальные технологии сводятся к процессу переработки, обработ- ки или сборки специфического для них исходного сырья или каких-то иных ком- понентов с целью получения качественно новых продуктов. Логически информационные техно- логии мало чем отличаются от материаль- ных технологий, на входе сырые данные, на выходе – структурированные, в форме, более удобной для восприятия человеком, данные, извлеченная из них информация, которая силой интеллекта (естественного или искусственного) превращается в по- лезное знание. Данные – это выраженные в разной форме сырые факты, которые са- ми по себе не несут полезного смысла до тех пор, пока не поставлены в контекст, должным образом не организованы и не упорядочены в процессе обработки. Ин- формация появляется в результате анализа обработанных данных человеком (компь- ютером), этот анализ придает данным смысл и обеспечивает им потребительские качества. На информационные технологии должны распространяться общие законо- мерности, согласно которых развиваются все остальные технологии, а это прежде всего увеличение количества перерабаты- ваемого сырья способствует повышению качества переработки. 2. Проблемы больших данных Мировой объем оцифрованной ин- формации растет по экспоненте. Начиная с 1980-х годов цифровая информация удваи- вается каждые 40 месяцев. Поданным компании IBS, к 2003 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гига- байтов), а теперь это количество порожда- ется каждые два дня. К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = = 1024 эксабайта), к 2011 году – до 1,76 зеттабайта, к 2013 году – до 4,4 зетта- байта. В мае 2015 года глобальное количе- ство данных превысило 6,5 зеттабайта. К 2020 году, по прогнозам, человечество Моделі та засоби систем баз даних і знань 87 сформирует 40–44 зеттабайтов информа- ции, а к 2025 г. – 163 зеттабайт. В настоя- щее время площадь всех крупных датацен- тров в мире равна площади 6000 футболь- ных полей Как справиться с такими объе- мами? Приведем следующую цитату из [1]: «Данных становится все больше и больше, но при всем этом упускается из виду то обстоятельство, что проблема от- нюдь не внешняя, она вызвана не столько обрушившимися в невероятном количе- стве данными, сколько неспособностью старыми методами справиться с новыми объемами. Наблюдается дисбаланс – спо- собность порождать данные оказалась сильнее, чем способность их перерабаты- вать.» Под именем Big Data скрывается намечающийся качественный переход в компьютерных технологиях, способный повлечь за собой серьезные изменения. Не случайно этот переход называют новой технической революцией. 3. Определяющие характеристики Big Data Для Big Data были сформулирова- ны определяющие характеристики. Впер- вые в 2001 г. признаки «Три V» выделил ведущий аналитик Gartner Дуг Лани [2], а именно, объем, скорость, разнообразие. Volume (объем). Считается, что Big Data начинаются с объемов в петабайты (1015 байт). Чтобы представить, что это за объем, приведем пример. В Национальной библиотеке Украины им. В.И. Вернадского функционирует портал Научной периоди- ки Украины. Редакции более 2700 научных периодических изданий Украины предо- ставляют все свои статьи на протяжении 10 лет. За это время объем портала соста- вил около 1 миллиона статей. Если пред- положить, что размер статьи в среднем составляет 1 МБ, то объем ресурсов этого портала составляет 1 ТБ. Это на три по- рядка ниже минимального объема для Big Data, то есть через десять тысяч лет успешного функционирования этого пор- тала он накопит объемы, характерные для Big Data. Big Data появляются тогда, когда сотни миллионов людей объединяются в сообщества и выкладывают свои инфор- мационные ресурсы, либо объединенные центры научных исследований предостав- ляют данные результатов своих исследо- ваний, например в 2017 году дата-центр CERN превысил размер 200 петабайт и ежегодно этот объем увеличивается на 15 петабайт. Если поместить в DVD все по- рожденные в мире за день данные и поло- жить эти диски друг на друга, то получит- ся стопка, дважды превышающая расстоя- ние до Луны. Velocity (скорость). Является од- ной из наиболее важных характеристик Big Data с точки зрения их практического использования. Под скоростью подразу- мевается как скорость прироста (поступ- ления, накопления) данных, так и скорость их обработки с целью получения конеч- ных результатов. Кроме того, в эту катего- рию включаются характеристики интен- сивности и объемов информационных по- токов. Для этого технология обработки таких данных должна допускать возмож- ность их анализа уже в момент их порож- дения (иногда называемой «оперативной аналитикой » - in- memory analytics), то есть до того, как они попадут в хранилище данных. Несколько цифр, характеризую- щих эту категорию, которые взяты из [3] и некоторых других источников. YouTube: Имеет более 1 милли- арда зарегистрированных пользователей и ежемесячно сайт посещают 1,9 мил- лиарда пользователей. Ежеминутно закачивается новых фильмов на 100 часов и скачивается фильмов на 700 тысяч часов. Для просмотра фильмов, вы- груженных в YouTube в течении дня, потребуется 15 лет. Facebook: Имеет 1,4 миллиарда пользователей. Ежедневно на сайт выгру- жается 100 терабайт данных и ежеминутно ставятся более 34 тысячи лайков. Каждую минуту загружается 200 000 фотографий. Каждый месяц выкладывается в открытый доступ 30 млрд новых источников информации. Моделі та засоби систем баз даних і знань 88 Twitter: Сайт имеет более 645 мил- лиона пользователей. Каждый день генерируется 175 миллион твитов. Google: Каждую минуту отраба- тывается 2,4 миллиона поисковых за- просов (40 000 запросов в секунду). Каждый день обрабатывается 25 петабайт данных. Каждую минуту в мире посылается 204 миллиона е-писем. По словам специалистов, к катего- рии Big Data относится большинство пото- ков данных свыше 100 Гб в день. Variety (разноообразие). Возмож- ность воспринимать, хранить и обрабаты- вать различные данные. Говоря о многооб- разии, подразумевается следующее. Различные источники получения данных. Приведем примеры источников возникновения больших данных: • непрерывно поступающие дан- ные с измерительных устройств, • события от радиочастотных идентификаторов, • потоки сообщений из социаль- ных сетей, • метеорологические данные, • данные дистанционного зонди- рования Земли, • потоки данных о местонахож- дении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Различные способы представления данных, например, сигналы, поступающие от датчиков, отличаются от текстов научных статей. Различные форматы хранения (по- ступления) данных. Это могут быть тексты, аудио- и видео данные, изобра- жения. Более того, одни и те же данные могут быть представлены в различных форматах. Произносимая человеком речь может быть представлена в аудио-формате и в виде текстового файла. Семантическое разнообразие. Се- мантика одних и тех же данных может быть представлена по-разному, например, возраст человека может быть указан количественно или в виде таких терминов, как ребенок, юноша, взрослый человек. Различная степень структуриро- ванности данных. Традиционные базы данных позволяют хранить структуриро- ванные данные, но фактически в на- стоящее время порождаемые данные на 80 % являются слабо структурированными или даже неструктурированными. Технология Big Data позволяет объ- единять и обрабатывать данные, обладаю- щие приведенному выше многообразию. Зикопоулоус [4] предложил доба- вить еще 2 признака – достоверность и ценность (значимость), таким образом по- лучив «5V»: Veracity (достоверность). Свой- ство, которое характеризует надежность данных. Технология создания и исполь- зования традиционных БД предполагает, что в БД поступают тщательно отобран- ные и проверенные данные. В Big Data дело обстоит иначе. Исходные данные могут быть «сырыми» (неполными, не- точными, нечеткими, расплывчатыми, искаженными), то есть поступают без ка- кой-либо предварительной обработки, они могут быть субъективными, случайными и содержать много «шума». Еще один критерий этой характеристики – степень доверия к поступающим данным. Хотя Big Data предоставляют прекрасные воз- можности для анализа и принятия реше- ний, однако их ценность во многом зави- сит от качества исходных данных. Техно- логия Big Data учитывает эту характери- стику и позволяет надежно работать с та- кими данными. Value (ценность). Когда мы гово- рим о ценности данных, то подразумеваем их значимость с точки зрения прикладных задач. По расчетам IBS, только 1,5 % накопленных массивов данных имеет ин- формационную значимость. Большое ко- личество данных – это хорошо, но если они не представляют никакого интереса, то они бесполезны. Со временем стали предлагать до- полнительные определяющие характери- стики Big Data [5–9], которые получили название «7V» и “10V”. Приведем этот дополнительный список. Моделі та засоби систем баз даних і знань 89 Variability (изменчивость). Под изменчивостью в Big Data подразумевает- ся ситуация, когда постоянно изменяется смысл данных. Например, это имеет место, когда сбор и обработка данных происхо- дит в процессе анализа ествественноязы- ковых тестов и особенно при переводе с одного языка на другой. Volatility (волатильность, акту- альность). Характеристика, которая опре- деляет, какой период времени устаревания данных, когда они становятся нерелевант- ными или бесполезными. Как долго их надо хранить? До эры Big Data данные могли храниться неопределенно долго, использование для этих целей несколько десятков терабайт не было обременитель- ным. Более того, их можно было хранить в действующей базе данных, не вызывая при этом проблем с производительностью. Однако при наличии Big Data, учитывая характеристики объема и скорости, следу- ет тщательно следить за волатильностью данных. Необходимо установить правила управления хранением данных с тем, что- бы обеспечить эффективное их использо- вание. Vulnerability (уязвимость). Боль- шие данные порождают новые проблемы их безопасности. Взлом больших данных приводит к большому взлому. Примером может служить взлом базы данных соци- альной сети LinkedIn, в результате которо- го было выкрадено167 млн учетных запи- сей и 360 миллионов сведений о e-mail. Validity (пригодность, обоснован- ность). Эта характеристика тесно связана с достоверностью и характеризует, в какой мере располагаемые данные являются точ- ными и правильными с точки зрения их предполагаемого использования. По оцен- ке Forbes [10] ученые следующим образом тратят свое время для работы с данными:  сбор данных 19 %,  очистка и систематизация дан- ных – 60 %,  подбор тестовых данных – 3 %,  анализ данных для построения модели – 9 %,  уточнение алгоритмов 4 %,  другие виды работ с данными 5 %. Таким образом, ученый тратит 80 % своего времени на подбор и подготовку данных прежде, чем приступить к их ана- лизу. Преимуществом использования боль- ших данных для проведения аналитиче- ских исследований можно в полной мере воспользоваться только тогда, когда дан- ные тщательно отобраны, являются реле- вантными и достоверными. Visualization (визуализация). По- сле получения и обработки данных их надо представить таким образом, чтобы они были читабельными и доступными. Имен- но это и подразумевает визуализация Как было уже отмечено, в вебе име- ет множество определений Big Data. В частности, по адресу [11] дается 43 опре- деления Big Data. Обобщая эти материалы, дадим следующие определение. Big Data (большие данные) – это огромные объемы неоднородной, неструк- турированной или слабо структурирован- ной, существенно распределенной и ин- тенсивно растущей, изменяющейся и ис- пользуемой цифровой информации, кото- рую невозможно обработать традицион- ными средствами. А также методы, техно- логии и средства их сбора, хранения и об- работки и анализа с целью получения вос- принимаемых человеком результатов. 4. КлассификацияBig Data Редактор журнала Web 2.0 Journal Дайон Хинчклифф (Dion Hinchcliffe) дал классификацию Big Data [12], позволяю- щую соотнести технологию с результатом, который ждут от обработки Big Data. Хинчклиф делит подходы к Big Data на три группы: Fast Data (быстрые данные), их объем измеряется терабайтами- петабайтными; Big Analytics (большая аналитика) – петабайтные-экзабайтные данные и Deep Insight (глубокое проникно- вение) – экзабайты-зеттабайты. Группы различаются между собой не только опе- рируемыми объемами данных, но и каче- ством решения задач по их обработке. Обработка для Fast Data не пред- полагает получения новых знаний, ее ре- Моделі та засоби систем баз даних і знань 90 зультаты соотносятся с априорными зна- ниями и позволяют судить о том, как про- текают те или иные процессы, она позво- ляет лучше и детальнее увидеть происхо- дящее, подтвердить или отвергнуть какие- то гипотезы. Только небольшая часть из существующих сейчас технологий подхо- дит для решения задач Fast Data, в этот список попадают некоторые технологии работы с хранилищами. Скорость работы этих технологий должна возрастать син- хронно с ростом объемов данных. Задачи, решаемые средствами Big Analytics, заметно отличаются, причем не только количественно, но и качественно, а соответствующие технологии должны по- могать в получении новых знаний — они служат для преобразования зафиксирован- ной в данных информации в новое знание. Однако на этом среднем уровне не пред- полагается наличие искусственного интел- лекта при выборе решений или каких-либо автономных действий аналитической си- стемы — она строится по принципу «обу- чения с учителем». Иначе говоря, весь ее аналитический потенциал закладывается в нее в процессе обучения. Высший уровень, Deep Insight, предполагает обучение без учителя (unsupervised learning) и использование современных методов аналитики, а также различные способы визуализации. На этом уровне возможно обнаружение зна- ний и закономерностей, априорно неиз- вестных. Далее на рис. 1 показана схема Дайон Хинчклиффа взаимодействия трех составляющих Big Data. Рис. 1 5. Некоторые вехи в истории развития Big Data Широкое использование термина «большие данные» связывают с Клиффор- дом Линчем (Clifford Lynch), редактором журнала Nature, подготовившим к 3 сен- тября 2008 года специальный выпуск но- мера старейшего британского научного журнала, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возмож- ности работы с большими объёмами дан- ных?», в котором были собраны материа- лы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в пара- дигме вероятного скачка «от количества к качеству»; термин был предложен по ана- логии с расхожими в деловой англоязыч- ной среде метафорами «большая нефть», «большая руда», отражающими не столь- ко количество чего-то, сколько переход количества в качество. Этот специальный номер подытоживает предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в част- ности. Этот термин был сначала введен в академической среде и прежде всего об- суждалась проблема роста и многообразия научных данных, но начиная с 2009 года термин широко распространился в деловой среде. В 2010 году появляются первые продукты и технологии, относящиеся ис- ключительно и непосредственно к пробле- ме обработки больших данных. К 2011 году большинство крупней- ших поставщиков информационных тех- нологий в своих деловых стратегиях начи- нают использовать понятие «большие дан- ные», это, в частности, относится к IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информацион- ных технологий посвящают концепции специальные исследования. Большой шум вокруг темы больших данных возник после того, как в июне 2011 года консалтинговая компания McKinsey выпустила доклад «Большие данные: сле- дующий рубеж в инновациях, конкурен- ции и производительности», в котором Моделі та засоби систем баз даних і знань 91 оценила потенциальный рынок больших данных в миллиарды долларов. В этом же году аналитическая ком- пания Gartner отметила большие данные как тренд номер два в информационно- технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). В это же время прогнозировалось, что техно- логия больших данных окажет наибольшее влияние на информационные технологии, в производстве, здравоохранении, торгов- ле, государственном управлении. В 2012 году администрация прези- дента США выделила 200 миллионов дол- ларов для того, чтобы различные амери- канские ведомства организовывали кон- курсы по внедрению технологий больших данных в жизнь. Если в 2009 году амери- канские венчурные фонды вложили в от- расль всего 1,1 миллиарда долларов, то в 2012 – уже 4,5 миллиарда долларов. С 2013 года большие данные как академический предмет начинают изучать в появившихся вузовских программах по науке о данных и вычислительным наукам и инженерии. В 2015 году Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выхо- дивший в 2011–2014 годы отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шу- михи к практическому применению. 6. Принципы работы с Big Data Исходя из определения Big Data, можно сформулировать следующие основ- ные принципы работы с такими данными [13]: распределенность. Хранить инфор- мацию в одном месте бессмысленно и практически невозможно. Поэтому техно- логия работы с Big Data должна ис- пользовать распределенное хранение, управление, обработку и анализ данных, хранящихся в разнообразных хранилищах данных во всем мире; горизонтальная масштабируе- мость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза уве- личили кластер и всё продолжило работать с такой же производительностью; отказоустойчивость. Принцип го- ризонтальной масштабируемости под- разумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин. Это означает, что часть этих машин будет га- рантированно выходить из строя. Методы работы с большими данными должны учи- тывать возможность таких сбоев и пере- живать их без каких-либо значимых последствий; локальность данных. В больших распределённых системах данные распре- делены по большому количеству машин. Если данные физически находятся на од- ном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по воз- можности обрабатываем данные на той же машине, на которой они хранятся; интерпретация данных в процессе их обработки (schema-on-read). Данные поступают в хранилище такими, как есть, без какого-либо их предварительного опи- сания, без указания их структуры и семантики. И только в процессе их вы- борки для обработки происходит их «осмысливание». Все современные средства работы с большими данными так или иначе следуют этим пятерым принципам. 7. Методы и технологии анализа и визуализации, применимые к Big Data К настоящему времени создано и адаптировано множество методов и техно- логий для сбора, агрегирования, манипу- лирования, анализа и визуализации боль- ших данных. Эти методы и технологии заимствованы из различных областей, включая статистику, информатику, при- кладную математику и экономику. Это означает, что для извлечения выгоды из Моделі та засоби систем баз даних і знань 92 больших данных, следует использовать гибкий междисциплинарный подход. Не- которые методы и технологии были разра- ботаны для оперирования значительно меньшими объемами и разнообразием данных, но были успешно адаптированы для Big Data. Другие были разработаны в последнее время, в частности, для сбора и анализа больших данных. Далее приводит- ся перечень и краткое описание методов и технологий анализа и визуализации, при- менимые к Big Data , которые взяты из отчета McKinsey [14]. 7.1. Методы анализа Big Data Методы класса Data Mining:  обучение ассоциативным пра- вилам (association rule learning) – это ме- тод, базирующийся на правилах, исполь- зуется для обучения машин способам об- наружения зависимостей между данными в больших базах данных;  классификация – методы кате- горизации новых данных на основе прин- ципов, ранее применённых к уже нали- чествующим данным;  кластерный анализ – статис- тический метод классификации объектов, который приводит к разделению разно- образных групп на более мелкие группы подобных (сходных) объектов, для кото- рых критерий подобия заранее не известен;  регрессионный анализ. Краудсорсинг (crowdsourcing) – метод сбора, категоризация и обогащение данных силами широкого круга лиц, при- влечённых на основании публичной офер- ты, без вступления в трудовые отношения, обычно посредством использования сете- вых медиа. Смешение и интеграция данных (data fusion and integration) – набор мето- дов, позволяющих интегрировать и анали- зировать разнородные данные из разнооб- разных источников для глубинного анали- за более точно и эффективно, чем из един- ственного источника данных. В качестве примеров методов этого класса является цифровая обработка сигналов и обработка естественного языка. Обучение ассоциативным прави- лам (аssociation rule learning). Совокуп- ность методов для анализа необходимых взаимосвязей, то есть «ассоциативных правил»,” среди переменных в больших базах данных. Машинное обучение (machine learning). Класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обу- чение в процессе применения решений множества сходных задач. Включает обу- чение с учителем (supervised learning) и без учителя (unsupervised learning), а также Ensemble learning – использование моде- лей, построенных на базе статистического анализа или машинного обучения для по- лучения комплексных прогнозов на основе базовых моделей (constituent models). Обработка естественного языка (Natural language processing – NLP). Об- щее направление искусственного интел- лекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Примени- тельно к искусственному интеллекту ана- лиз означает понимание языка, а синтез – генерацию грамотного текста. Многие NLP-методы являются методами машин- ного обучения. Искусственные нейронные сети (artificial neural networks). Математическая модель, построенная по принципу органи- зации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. Сетевой анализ (network analysis). Набор методов, используемых для описа- ния и анализа отношений между дискрет- ными узлами в графе или сети. В анализе социальной сети анализируются связи между людьми в сообществе или органи- зации, например, как перемещается ин- формация или кто имеет наибольшее вли- яние на кого. Распознавание образов (pattern recognition). Набор методов машинного обучения, развивающих основы и методы классификации и идентификации предме- тов, явлений, процессов, сигналов, ситуа- ций и т. п. объектов, которые характери- Моделі та засоби систем баз даних і знань 93 зуются конечным набором некоторых свойств и признаков. Прогнозная аналитика (predictive analytics). Класс методов анализа данных, концентрирующийся на прогнозировании будущего поведения объектов и субъектов с целью принятия оптимальных решений. Анализ тональности текста (sentiment analysis). Класс методов кон- тент-анализа в компьютерной лингвистике, предназначенный для автоматизированно- го выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте. Имитационное моделирование. (simulation modeling) – метод исследова- ния, при котором изучаемая система заме- няется моделью, с достаточной точностью описывающей реальную систему (постро- енная модель описывает процессы так, как они проходили бы в действительности), с которой проводятся эксперименты, с це- лью получения информации об этой си- стеме. Пространственный анализ (Spatial analysis) – набор методов, которые анали- зируют топологические, геометрические или географические свойства, представ- ленные в наборе данных. Часто данные для пространственного анализа поступают из географических информационных систем (ГИС). Статистический анализ, примеры: A/B-тестирование (контрольная группа элементов сравнивается с набором тесто- вых групп, в которых один или несколько показателей были изменены, для того, что- бы выяснить, какие из изменений улучша- ют целевой показатель) и анализ времен- ных рядов. Анализ временных рядов (time series analysis) – совокупность математико- статистических методов анализа, предна- значенных для выявления структуры вре- менных рядов и для их прогнозирования. Сюда относятся, в частности, методы ре- грессионного анализа. Выявление структу- ры временного ряда необходимо для того, чтобы построить математическую модель того явления, которое является источни- ком анализируемого временного ряда. 7.2. Технологии и средства работы с Big Data Существует множество технологий для агрегации, манипулирования, управле- ния и анализа больших данных. Далее приводится список наиболее известных и используемых технологий и средств. Они приводятся в алфавитном порядке. Big Table. Запатентованная распре- деленная система баз данных, построенная на основе Google File System. Business intelligence (BI) (бизнес- аналитика). Совокупность методологий, процессов, архитектур и технологий, кото- рые преобразуют большие объемы «сы- рых» данных в осмысленную и полезную информацию, пригодную для бизнес- анализа и для поддержки принятия опти- мальных тактических и стратегических решений. Cassandra. Свободно распростра- няемая система управления базами дан- ных, предназначенная для манипулирова- ния данными огромного объема в распре- деленных системах. Cloud computing (облачные вычис- ления). Вычислительная парадигма, в ко- торой высокомасштабируемые вычисли- тельные ресурсы, обычно сконфигуриро- ванные в виде распределенных систем, предоставляются в сетях качестве серви- сов. Data Warehouse (хранилище дан- ных). Предметно-ориентированная инфор- мационная база данных, специально разра- ботанная и предназначенная для подготов- ки отчётов и анализа данных с целью под- держки принятия решений в организации и является одной из основных компонент бизнес-анализа. Выступает центральным репозиторием данных, поступающих из различных источников. Хранит текущие и исторические данные. Строится на базе систем управления базами данных и си- стем поддержки принятия решений. Distributed system (распределенная система). Множество компьютеров, взаи- Моделі та засоби систем баз даних і знань 94 модействующих по сети и объединенных для решения общей вычислительной зада- чи. Dynamo. Запатентованная распре- деленная система хранения данных, разра- ботанная в Amazon. Extract, transform, and load (ETL) (извлечь, преобразовать, загрузить). ПОР, используемое для извлечения данных из внешних источников, преобразования их для удовлетворения операционных по- требностей, и загрузка их в базу данных или хранилище данных. Google File System. Запатентован- ная распределенная файловая система. На ее основе построен Hadoop. Hadoop. Проект фонда Apache Software Foundation, свободно распростра- няемый набор утилит, библиотек ифрейм- ворк для разработки и выполнения распре- делённых программ, работающих на кла- стерах из сотен и тысяч узлов. Использует- ся для реализации поисковых и кон- текстных механизмов многих высоко- нагруженных веб-сайтов, в том числе, для Yahoo! и Facebook. Базируется на MapReduce и Google File System. HBase. Свободно распространяемая распределенная нереляционная база дан- ных, созданныя на основе Big Table Google. MapReduce. Модель распределён- ных вычислений, представленная компа- нией Google, используемая для параллель- ных вычислений над очень большими, вплоть до нескольких петабайт, наборами данных в компьютерных кластерах. Эта моделоь реализована в Hadoop. Mashup. Веб-приложение, объеди- няющее данные из нескольких источников в один интегрированный, например, при объединении картографических данных Google Maps с данными о недвижимости с Craigslist получается новый уникальный веб-сервис, изначально не предлагаемый ни одним из источников данных. R. Свободно распространяемый язык программирования среда программи- рования для статистических и графических вычислений. Stream processing. Технология, предназначенная для обработки больших потоков данных в реальном масштабе вре- мени. 7.3. Визуализация Big Data Наглядное представление результа- тов анализа больших данных таким обра- зом, чтобы ее можно было легко воспри- нимать, является ключевой проблемой анализа данных, имеет принципиальное значение для их интерпретации. Восприя- тие человека ограничено, и ученые про- должают вести исследования в области совершенствования современных методов представления данных в виде изображе- ний, диаграмм или анимаций. В качестве иллюстрации приводим несколько про- грессивных методов визуализации, отно- сительно недавно получивших распро- странение. Облако тегов (Tag cloud) рис. 2. Каждому элементу в облаке тегов присва- ивается определенный весовой коэффици- ент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки полу- чить представление о ключевых моментах сколько угодно большого текста или набо- ра текстов. Рис. 2 Clustergram (кластерграмма) рис. 3. Метод визуализации, использующийся при кластерном анализе. Показывает, как отдельные элементы множества данных Моделі та засоби систем баз даних і знань 95 соотносятся с кластерами по мере изме- нения их количества. Выбор оптимально- го количества кластеров – важная состав- ляющая кластерного анализа. Этот способ визуализации позволяет аналитику лучше понять, как результаты кластеризации изменяются по мере изменения количе- ства кластеров. Рис. 3 History flow (исторический поток) рис. 4. Помогает следить за эволюцией документа, над созданием которого рабо- тает одновременно большое количество авторов. В History flow (исторический поток). Помогает следить за эволюцией документа, над созданием которого рабо- тает одновременно большое количество авторов. В частности, это типичная ситу- ация для сервисов wiki. По горизонталь- ной оси откладывается время, по верти- кальной – вклад каждого из соавторов, т. е. объем введенного текста. Каждому уникальному автору присваивается опре- деленный цвет на диаграмме. Приведен- ная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо вид- но, как возрастала активность авторов с течением времени. Spatial information flow (простран- ственный поток) рис. 5. Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсив- ность обмена IP-трафиком между Нью- Йорком и другими городами мира. Чем ярче линия – тем больше данных переда- ется за единицу времени. Таким образом, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контек- сте информационного обмена. Рис. 4 Рис. 5 8. Жизненный цикл управления данными с использованием технологии Big Data Опишем в общих чертах жизненный цикл управления данных, который исполь- зует технологию Big Data. Идея этого цик- ла взята из работы [15] Предлагаемый жизненный цикл данных состоит из сле- дующих этапов: сбор, фильтрация и клас- сификация, анализ данных, хранение, об- мен и публикация, а также поиск и обна- ружение данных. Далее кратко описывает- ся каждый этап согласно показанному на рис. 6. жизненному циклу. Моделі та засоби систем баз даних і знань 96 Рис. 6 8.1. Поступление данных. Поступ- ление (сбор) данных – это первый этап жизненного цикла данных. Большое коли- чество данных поступает из различных источников. Такими источниками могут быть: файлы журналов, которые ведутся на серверах, датчики различного вида, мо- бильные устройства, данные, поступаю- щие со спутников, результаты научных исследований, данные вычислительных экспериментов, результаты выполнения поисковых запросов, данные, порождае- мые в социальных сетях, и многие другие. При сборе данных используются разнооб- разные методы получения исходных сы- рых данных из различных источников. Рассмотрим несколько методов сбора дан- ных и используемые ими технологии.  Файлы журналов (log-файлы). Этот метод используется для автомати- ческой регистрации данных, связанных с различными событиями, происходящими в автоматизированных системах. Log-файлы используются практически во всех ком- пьютерных системах, например, веб-серве- ра фиксирует все транзакции, выпол- няемые сервером. При наличии очень больших файлов журнала их информация запоминается в базах данных, а не в виде тестовых файлов.  Сенсорные данные (Sensor data.). Часто датчики используются для съема физических характеристик, которые затем преобразуются в воспринимаемые цифровые сигналы для их сохранения и обработки. К сенсорным данным можно отнести, например, данные, которые по- ступают в виде звуковых, вибрационных, голосовых волн, результатов физических, химических, биологических, метеорологи- ческих или других видов исследований, результатов съема характеристик (по- казателей) производственных процессов.  Мобильные устройства. С по- мощью различные технологий, которые встраиваются в мобильные устройства, можно получать и передавать информацию географическом местоположении, воспри- нимать аудио- и видеоинформацию, делать фотографии, с помощью сенсорных экра- нов и гравитационных датчиков получать Моделі та засоби систем баз даних і знань 97 информацию о состоянии здоровья человека. В результате сбора таких данных образуется так называемое озеро данных (Data lake). Это централизованное храни- лище больших данных в сыром, необрабо- танном виде. В нем хранят данные из раз- ных источников, разных форматов, струк- турированные, слабо структурированные, неструктурированные и бинарные данные (изображения, аудио видео-данные)). Они хранятся как правило, в несистематизиро- ванном виде такими, как есть, без какой либо предварительной обработки. Это об- ходится значительно дешевле традицион- ных хранилищ, в которые помещаются только структурированные данные. Data lake позволяют анализировать большие данные в исходном виде. 8.2. Фильтрация данных. В ис- ходных данных может быть много шума. Так, например, при некачественной аудио- записи фоновый шум может быть настоль- ко сильным, что не позволяет выделить полезную аудио-информацию с использо- вание современных средств распознава- ния, или камера видео-наблюдения произ- вела съемку в темное время и изображе- ние абсолютно черным. Фильтрация поз- воляет ибавиться от такой информации. 8.3. Классификация данных. Лю- бые поступающие данные всегда обладают какой-то минимальной информацией. Например, известно, где именно установ- лена видео-камера, куда она направлена и к какому времени суток привязаны те или иные кадры, или что собой представляют поступающие научные данные, результа- тами какого эксперимента они являются, при каких условиях эксперимент прово- дился, и так далее. Таким образом, любые поступающие данные обладают так назы- ваемыми метаданными, которые можно использовать для проведения первона- чальной классификации, которая является первоначальным шагом выявления семан- тики данных. Эта семантика служит хоро- шей основой для проведения последующе- го анализа данных. Методы классификации – это сово- купность приемов разделения множества объектов на подмножества. В науке из- вестны три метода классификации объек- тов: иерархический, фасетный, дескрип- торный. Эти методы различаются разной стратегией применения классификацион- ных признаков. Иерархический метод. Это метод, при котором заданное множество последо- вательно делится на подчиненные под- множества, постепенно конкретизируя объект классификации. При этом основа- нием деления служит некоторый выбран- ный признак. Совокупность получившихся группировок при этом образует иерархи- ческую древовидную структуру. Фасетный метод. Подразумевает параллельное разделение множества объ- ектов на независимые классификационные группы. При этом не предполагается жёст- кой классификационной структуры и зара- нее построенных конечных групп. Клас- сификационные группировки образуются путём комбинации значений, взятых из соответствующих фасетов. Дескрипторный метод. Суть этого метода заключается в следующем: отбира- ется совокупность ключевых слов или сло- восочетаний, описывающих определенную предметную область или совокупность однородных объектов, они подвергаются нормализации, на основании этого созда- ется словарь дескрипторов, который слу- жит основой для проведения классифика- ции. 8.4. Анализ данных. Анализ дан- ных позволяет воспринять и обработать огромные объемы Big Data. Анализ дан- ных является сложной задачей и во многом зависит от тех задач, которые надо решать с использованием этих данных, выдвигае- мых требований к точности и скорости решения, наличия технических средств и, наконец, состояний исходных данных. Анализ данных включает решения следу- ющих двух основных задач:  на первом этапе должна быть решена задача раскрытия синтаксиса дан- ных, то есть выявление структуры данных, например, какие объекты предоставля- емые данные представляют, какими свойствами они обладают, что собой Моделі та засоби систем баз даних і знань 98 представляют значения этих свойств, каким образом взаимосвязаны объекты, какова природа и каковы характеристики этих связей;  второй этап связан с раскрытием семантики данных. Это так называемый этап интеллектуального анализа данных (data mining). В разделе «Методы анализа Big Data» приводится краткое описание используемых методов. Для гибкой организации анализа данных в работе [16] были предложены следующие три принципа: во-первых, для достижения поставленных целей следует использовать не единственный, а множество релеван- тных методов анализа. Во-вторых, для хранения данных следует использовать различные методы и устройства хранения, которые могут быть распределены по компьютерам сети. В-третьих, следует предоставлять высокоэффективные методы и средства доступа и обработки данных. Анализ данных производится с уче- том следующих факторов: гетерогенность, точность и сложность данных, возмож- ность их масштабирования. 8.5. Хранение, совместное исполь- зование, публикация. После сбора, очистки и анализа полученные данные запоминаются в соответствующих храни- лищах, к ним предоставляется доступ и/или они публикуются для ознакомления с ними широкого круга заинтересованных лиц. Большие по объему и интенсивно ис- пользующиеся наборы данных. Big Data должны храниться и управляться с боль- шой степенью надежности, доступности и простоте использования. Инфраструктура хранения должна обладать достаточной степенью гибкости. Система хранения должна быть распределенной. Такая рас- пределенная система хранения должно обеспечить поддержку целостности, обес- печение доступности, устойчивости к от- казам различного вида. 8.6. Безопасность. Безопасность данных – это защита данных от несанкци- онированного (случайного или намеренно- го) доступа, изменения или разрушения. Сфера применения Big Data в совре- менном мире практически не имеет гра- ниц. Раскрытие, изменение или разруше- ние данных в Big Data может иметь ката- строфические последствия. При этом сле- дует отметить, что все среды для работы с большими данными подвержены рискам В связи с этим необходимо обеспечивать надежную защиту Big Data при их хране- нии, передаче и обработке за счет внедре- ния и использования процедур и техноло- гических решений в области защиты ин- формации. 8.7. Поиск, повторное использова- ние, обнаружение. Поиск данных обеспе- чивает (гарантирует) качество данных, увеличение их значимости и сохранности посредством механизма повторного ис- пользования и сохранения с целью выяв- ления новой более осмысленной информа- ции. Сфера этой деятельности включает поиск, обнаружение, управление, аутенти- фикацию, архивирование, сохранение и представление данных .После публикации данных другие исследователи должны иметь возможность аутентифицировать и регенерировать их в соответствии со свои- ми интересами для проведения своих ис- следований. Возможность повторного ис- пользования опубликованных данных так- же должна быть гарантирована в научных сообществах. При многократном исполь- зовании определение семантики опубли- кованных данных является обычной ситу- ацией. Обычно эта процедура выполняется вручную. В Европейском Союзе активно поддерживается концепция открытой науки, например, инициированием Евро- пейского облака открытой науки для обес- печения открытого доступа к результатам научных исследований из финансируемых государством проектов. Литература 1. Chernyuk L. Big Data – new theory and prac- tice. Otkrytye sistemy. SUBD 2011 № 10. URL: https://www.osp.ru/os/2011/10/ 13010990/ Моделі та засоби систем баз даних і знань 99 2. Laney Doug (2001) 3D Data Management: Controlling Data Volume, Velocity, and Vari- ety. Technical Report 949, METAGroup (now Gartner). [Electronic resourse]: https://blogs.gartner.com/doug- laney/files/2012/01/ad949-3D-Data- Management-Controlling-Data-Volume- Velocity-and-Variety.pdf 3. Nawsher Khan, Ibrar Yaqoob, Ibrahim Abaker Targio Hashem, Zakira Inayat, Waleed KamaleldinMahmoud Ali, Muham- mad Alam, Muhammad Shiraz, and Abdullah Gani1. Big Data: Survey, Technologies, Op- portunities, and Challenges // Hindawi Pub- lishing Corporation The Scientific World Journal Volume 2014, Article ID 712826, 18 pages, URL: http://dx.doi.org/10.1155/2014/ 712826 4. Zikopoulos P., Parasuraman K., Deutsch T., Giles J., Corrigan D. (2013) Harness the pow- er of big data The IBM big data platform. McGraw Hill Professional, New York, NY. - [Электронный ресурс]: ftp://public.dhe.ibm. com/software/pdf/at/SWP10/Harness_the_Po wer_of_Big_Data.pdf 5. The Four V´s of Big Data (англ.). IBM (2011). Проверено 19 февраля 2017. http://www.ibmbigdatahub.com/sites/default/f iles/infographic_file/4-Vs-of-big-data.jpg 6. Neil Biehn. The Missing V’s in Big Data: Viability and Value (англ.). Wired (1 May 2013). Проверено 19 февраля 2017. https://www.wired.com/insights/2013/05/the- missing-vs-in-big-data-viability-and-value/ 7. Eileen McNulty. Understanding Big Data: The Seven V’s (англ.). Dataconomy (22 May 2014). Проверено 19 февраля 2017. http://dataconomy.com/2014/05/seven-vs-big- data/ 8. Tom McNeill. The Eight V’s of Supercompu- ting and Big Data. https://www.nimbix.net/ eight-vs-supercomputing-big-data/ 9. George Firican. The 10 Vs of Big Data - https://tdwi.org/articles/2017/02/08/10-vs-of- big-data.aspx 10. Gil Press. Cleaning Big Data: Most Time- Consuming, Least Enjoyable Data Science Task, Survey Says. http://www.forbes.com/ sites/gilpress/2016/03/23/data-preparation- most-time-consuming-least-enjoyable-data- science-task-survey-says/ 11. Jennifer Dutcher. What Is Big Data? https://datascience.berkeley.edu/what-is-big- data/ 12. Dion Hinchcliffe. Big Data, The Moving Parts: Fast Data, Big Analytics, and Deep In- sight. - https://www.flickr.com/photos/dionh/7550578 346/in/photostream/ 13. Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce. https://habr.com/company/ dca/blog/267361/ 14. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. https://bigdatawg.nist.gov/pdf/ MGI_big_data_full_report.pdf 15. Nawsher Khan, Ibrar Yaqoob, Ibrahim Abaker Targio Hashem, Zakira Inayat, Waleed KamaleldinMahmoud Ali, Muham- mad Alam, Muhammad Shiraz, and Abdullah Gani. Big Data: Survey, Technologies, Op- portunities, and Challenges. Hindawi Publish- ing Corporation The Scientific World Journal, Volume 2014, Article ID 712826, 18 pages. URL: http://dx.doi.org/10.1155/2014/712826 16. E. Begoli and J. Horey, “Design principles for effective knowledge discovery frombig data,” in Proceedings of the 10thWorking IEEE/IFIP Conference on Software Architecture (ECSA ’12). P. 215–218, August 2012. Referenses 1. Chernyuk L. Big Data – new theory and prac- tice. Otkrytye sistemy. SUBD 2011 № 10. URL: https://www.osp.ru/os/2011/10/ 13010990/ 2. Laney Doug (2001) 3D Data Management: Controlling Data Volume, Velocity, and Vari- ety. Technical Report 949, METAGroup (now Gartner). [Electronic resourse]: https://blogs.gartner.com/doug- laney/files/2012/01/ad949-3D-Data- Management-Controlling-Data-Volume- Velocity-and-Variety.pdf 3. Nawsher Khan, Ibrar Yaqoob, Ibrahim Abaker Targio Hashem, Zakira Inayat, Waleed KamaleldinMahmoud Ali, Muham- mad Alam, Muhammad Shiraz, and Abdullah Gani1. Big Data: Survey, Technologies, Op- portunities, and Challenges // Hindawi Pub- lishing Corporation The Scientific World Journal Volume 2014, Article ID 712826, 18 pages, URL: http://dx.doi.org/10.1155/2014/ 712826 4. Zikopoulos P., Parasuraman K., Deutsch T., Giles J., Corrigan D. (2013) Harness the pow- er of big data The IBM big data platform. Моделі та засоби систем баз даних і знань 100 McGraw Hill Professional, New York, NY. - [Электронный ресурс]: ftp://public.dhe.ibm. com/software/pdf/at/SWP10/Harness_the_Po wer_of_Big_Data.pdf 5. The Four V´s of Big Data (англ.). IBM (2011). Проверено 19 февраля 2017. http://www.ibmbigdatahub.com/sites/default/f iles/infographic_file/4-Vs-of-big-data.jpg 6. Neil Biehn. The Missing V’s in Big Data: Viability and Value (англ.). Wired (1 May 2013). Проверено 19 февраля 2017. https://www.wired.com/insights/2013/05/the- missing-vs-in-big-data-viability-and-value/ 7. Eileen McNulty. Understanding Big Data: The Seven V’s (англ.). Dataconomy (22 May 2014). Проверено 19 февраля 2017. http://dataconomy.com/2014/05/seven-vs-big- data/ 8. Tom McNeill. The Eight V’s of Supercompu- ting and Big Data. https://www.nimbix.net/ eight-vs-supercomputing-big-data/ 9. George Firican. The 10 Vs of Big Data - https://tdwi.org/articles/2017/02/08/10-vs-of- big-data.aspx 10. Gil Press. Cleaning Big Data: Most Time- Consuming, Least Enjoyable Data Science Task, Survey Says. http://www.forbes.com/ sites/gilpress/2016/03/23/data-preparation- most-time-consuming-least-enjoyable-data- science-task-survey-says/ 11. Jennifer Dutcher. What Is Big Data? https://datascience.berkeley.edu/what-is-big- data/ 12. Dion Hinchcliffe. Big Data, The Moving Parts: Fast Data, Big Analytics, and Deep In- sight. - https://www.flickr.com/photos/dionh/7550578 346/in/photostream/ 13. Big Data from А to Z. Part 1: Principles of working with Big Data, paradigm MapRe- duce. https://habr.com/company/dca/blog/ 267361/ 14. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers. Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. https://bigdatawg.nist.gov/pdf/ MGI_big_data_full_report.pdf 15. Nawsher Khan, Ibrar Yaqoob, Ibrahim Abaker Targio Hashem, Zakira Inayat, Waleed KamaleldinMahmoud Ali, Muham- mad Alam, Muhammad Shiraz, and Abdullah Gani. Big Data: Survey, Technologies, Op- portunities, and Challenges. Hindawi Publish- ing Corporation The Scientific World Journal, Volume 2014, Article ID 712826, 18 pages. URL: http://dx.doi.org/10.1155/2014/712826 16. E. Begoli and J. Horey, “Design principles for effective knowledge discovery frombig data,” in Proceedings of the 10thWorking IEEE/IFIP Conference on Software Architecture (ECSA ’12). P. 215–218, August 2012. Получено 05.07.2019 Об авторе: Резниченко Валерий Анатольевич, кандидат физико-математических наук, старший научный сотрудник Института программных систем НАН Украины. Количество научных публикаций в украинских изданиях – 61. Количество научных публикаций в зарубежных изданиях – 4. http://orcid.org/0000-0002-4451-8931 Место работы автора: Институт программных систем НАН Украины. 03187, Киев, проспект Академика Глушкова, 40. Тел.: +38 (044) 526 5139. E-mail: vreznichenko_47@mail.ru