Большие Данные. Аналитические базы данных и хранилища: Teradata

Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Teradata....

Full description

Saved in:
Bibliographic Details
Date:2018
Main Author: Урсатьев, А.А.
Format: Article
Language:Russian
Published: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2018
Series:Управляющие системы и машины
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/144133
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Большие Данные. Аналитические базы данных и хранилища: Teradata / А.А. Урсатьев // Управляющие системы и машины. — 2018. — № 2. — С. 51-67. — Бібліогр.: 69 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-144133
record_format dspace
spelling nasplib_isofts_kiev_ua-123456789-1441332025-02-23T18:14:22Z Большие Данные. Аналитические базы данных и хранилища: Teradata Великі Дані. Аналітичні бази даних і сховища: Teradata Big Data. Analytical databases and data warehouse: Teradata Урсатьев, А.А. Методы и средства обработки данных и знаний Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Teradata. Мета. Розглянути та оцінити ефективність застосування інфраструктурних рішень нових розробок в дослідженнях Великих Даних для виявлення нових знань, неявних зв’язків і поглибленого розуміння, проникнення в сутність явищ і процесів. Методи. Інформаційно-аналітичні методи і технології обробки даних, методи оцінки та прогнозування даних, з урахуванням розвитку найважливіших галузей інформатики та інформаційних технологій. Результати. Teradata — це реляційна система паралельної обробки з використанням архітектури без загального доступу. В її основі технологія, що складається з обладнання, програмного забезпечення (ПЗ), бази даних та консалтингу. Система переміщує дані в сховище, де їх можна викликати та проаналізувати. Створюючи своє рішення — Database Appliance — між спеціалізованими апаратними засобами і ПЗ, Teradata успішна в ніші Data Warehouse протягом тривалого часу, досягнувши продуктивності в дуже великих базах даних в задачах аналітики при прийнятті стратегічних рішень. Але Teradata Database Appliance — це прилад з наслідками: немає можливості налаштування обладнання на проблемний простір. Немає жодних варіантів використання оптимізації хмарного або еластичного стилю. Так само відзначається, що Teredata має дуже незрілий рівень абстракції даних. Незначні зміни в програмуванні можливі в порівнянні з іншими мовами РСУБД. Purpose. The purpose is to consider and evaluate the application effectiveness of the infrastructure solutions for new developments in the Big Data study, to identify new knowledge, the implicit connections and in-depth understanding, insight into phenomena and processes. Methods. The informational and analytical methods and technologies for data processing, the methods for data assessment and forecasting, taking into account the development of the most important areas of the informatics and information technology. Results. Teradata is a relational system of the parallel processing, in which the architecture is used without general access. It is based on technology, consisting of equipment, software, databases and consulting. The system moves data to the storage area where they can be called up and analyzed. 2018 Article Большие Данные. Аналитические базы данных и хранилища: Teradata / А.А. Урсатьев // Управляющие системы и машины. — 2018. — № 2. — С. 51-67. — Бібліогр.: 69 назв. — рос. 0130-5395 DOI: https://doi.org/10.15407/usim.2018.02.051 https://nasplib.isofts.kiev.ua/handle/123456789/144133 004.65:004.7:004.75:004.738.5 ru Управляющие системы и машины application/pdf Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Методы и средства обработки данных и знаний
Методы и средства обработки данных и знаний
spellingShingle Методы и средства обработки данных и знаний
Методы и средства обработки данных и знаний
Урсатьев, А.А.
Большие Данные. Аналитические базы данных и хранилища: Teradata
Управляющие системы и машины
description Статья представляет собой продолжение исследований Больших Данных и инструментария, трансформируемого в новое поколение технологий и архитектур платформ баз данных и хранилищ для интеллектуального вывода. Рассмотрен ряд прогрессивных разработок известных в мире ИТ-компаний, в частности БД Teradata.
format Article
author Урсатьев, А.А.
author_facet Урсатьев, А.А.
author_sort Урсатьев, А.А.
title Большие Данные. Аналитические базы данных и хранилища: Teradata
title_short Большие Данные. Аналитические базы данных и хранилища: Teradata
title_full Большие Данные. Аналитические базы данных и хранилища: Teradata
title_fullStr Большие Данные. Аналитические базы данных и хранилища: Teradata
title_full_unstemmed Большие Данные. Аналитические базы данных и хранилища: Teradata
title_sort большие данные. аналитические базы данных и хранилища: teradata
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
publishDate 2018
topic_facet Методы и средства обработки данных и знаний
url https://nasplib.isofts.kiev.ua/handle/123456789/144133
citation_txt Большие Данные. Аналитические базы данных и хранилища: Teradata / А.А. Урсатьев // Управляющие системы и машины. — 2018. — № 2. — С. 51-67. — Бібліогр.: 69 назв. — рос.
series Управляющие системы и машины
work_keys_str_mv AT ursatʹevaa bolʹšiedannyeanalitičeskiebazydannyhihraniliŝateradata
AT ursatʹevaa velikídaníanalítičníbazidanihíshoviŝateradata
AT ursatʹevaa bigdataanalyticaldatabasesanddatawarehouseteradata
first_indexed 2025-11-24T06:29:25Z
last_indexed 2025-11-24T06:29:25Z
_version_ 1849652166478790656
fulltext ISSN 0130-5395, УСиМ, 2018, № 2 51 Методы и средства обработки данных и знаний DOI https://doi.org/10.15407/usim.2018.02.051 УДК 004.65:004.7:004.75:004.738.5 А.А. УРСАТЬЕВ, канд. техн. наук, Международный научно-учебный центр информационных технологий и систем НАН Украины и МОН Украины, просп. Глушкова, 40, Киев 03187, Украина, aleksei@irtc.org.ua БОЛЬШИЕ ДАННЫЕ. АНАЛИТИЧЕСКИЕ БАЗЫ ДАННЫХ И ХРАНИЛИЩА: TERADATA Статья представляет собой продолжение исследований Больших Данных и инстрóментария, трансформирóемоãо в новое поêоление технолоãий и архитеêтóр платформ баз данных и хранилищ для интеллеêтóальноãо вывода. Рас- смотрен ряд проãрессивных разработоê известных в мире ИТ-êомпаний, в частности БД Teradata. Êлючевые слова: архитеêтóра MPP, лоãичесêие хранилища данных LDW, платформа Warehouse Appliance, SN (Shared Nothing)-архитеêтóра, Teradata Aster Discovery — платформа обнарóжения, Teradata IntelliCloud™ — данные и аналитиêа по модели SaaS, Teradata QueryGrid™ — высоêопроизводительный связóющий элемент междó система- ми в ãетероãенных аналитичесêих средах, óнифицированная архитеêтóра данных Teradata™ (UDA). Teradata (NYSE:TDC). Общая характеристика Прообразом системы, ныне широêо извест- ной, стала параллельная аналитичесêая база данных, созданная специально для поддержêи принятия решений в банêовсêой сфере. Таêая архитеêтóра Massively Parallel Processing (MPP) впервые была представлена êомпанией Tera- data в êонце 70-х ãодов XX ст. на несêольêих миêропроцессорах. Название Teradata симво- лизировало желаемóю возможность óправле- ния терабайтами данных. Сеãодня предложе- ния Teradata — ведóщей êомпании аналитиче- сêих решений — содержат СÓБД, масштаби- рóемые высоêопроизводительные эêосистемы для бизнес-аналитиêи, охватывающие ãиб- ридные облачные решения, хранилища дан- ных и решения облачных хранилищ êаê на собственном óправляемом облаêе, таê и на инфрастрóêтóре общественноãо облачноãо провайдера. Сфера ее интересов — финансо- вые óслóãи, производство, связь, розничная торãовля, здравоохранение, СМИ, индóстрия развлечений и др. [52]. Êаê следóет из [53], несмотря на неóтеши- тельные проãнозы о неопределенном бóдóщем параллельных машин баз данных, параллель- ные системы БД начинают вытеснять тради- ционные êомпьютеры основноãо êласса, таê êаê они позволяют работать со значительно более êрóпными БД в режиме, поддерживаю- щем транзаêции. Êонцепция Teradata — вы- соêопараллельные, основанные на языêе SQL системы без совместноãо использования ре- сóрсов на базе обычных, массово производи- мых процессоров, дисêов и памяти. При таêой архитеêтóре (SN, Shared Nothing 1) êаждая па- мять и дисê(и) находятся в распоряжении êа- êоãо-либо процессора, работающеãо êаê сер- вер хранящихся в них данных. Реализован ди- 1 Shared Nothing — распределенная вычислительная ар- хитеêтóра, в êоторой êаждый óзел — независимый и самодостаточный, для возниêновения êонфлиêта нет ни одной точêи соприêосновения. А.А. Óрсатьев 52 ISSN 0130-5395, Control systems and computers, 2018, № 2 зайн, отличный от ãлавенствóющей на тот момент архитеêтóры мэйнфреймов, — объе- динение в высоêосêоростнóю сеть вычисли- тельных модóлей, работающих параллельно и независимо дрóã от дрóãа. По сети архитеêтó- ры SN передаются тольêо запросы и ответы. Непосредственные обращения ê памяти и дисêам обрабатываются лоêальным процес- сором, и тольêо отфильтрованные данные пе- редаются запрашивающей проãрамме. Это позволяет реализовать более расширяемóю архитеêтóрó пóтем минимизации трафиêа в соединительной сети. Teradata использóет из- быточнóю древовиднóю соединительнóю Y- сеть. Таêое решение демонстрирóет почти ли- нейные óсêорение и расширяемость 2 при слож- ных наãрóзêах и при транзаêционной обра- ботêе запросов, а таêже значительное превос- ходство по сêорости над традиционными сер- верами основноãо êласса при обработêе больших (терабайтных) баз данных. Заãрóзêа, архивирование и обработêа данных выполня- ются таêже параллельно [52, 53]. Сóществóющие реляционные подходы Tera- data обеспечивают полное соблюдение ACID (Atomicity, Consistency, Isolation, Durability — ато- марность, соãласованность, изолированность, надежность). Помимо óстойчивости в разде- лении данных по сети вследствие SN-архи- теêтóры, в Teradata сóществóет ряд жóрналов, таêих êаê Recovery 3 Journals (Transient Journal, Down-AMP Recovery Journal), êоторые, не жертвóя полноценными ACID транзаêциями в пользó eventual consistency (соãласованность в итоãе), препятствóют нарóшению требований ACID. Таê, атомарность поддерживается тран- заêционными механизмами и жóрналом Tran- sient Journal, êоторый обеспечивает возмож- 2 Идеальная параллельная система обладает двóмя ãлавными свойствами: линейное óсêорение – вдвое большее аппаратное обеспечение выполнит тó же задачó в два раза быстрее; линейная расширяемость — вдвое большее аппаратное обеспечение выполнит вдвое большóю задачó за то же время. 3 Teradata Wiki — http://www.teradatawiki.net/2013/09/ Teradata-Journals.html ность отêата транзаêций. В последнем слóчае состояние восстанавливается [54]. Высêазывание «SQL не масштабирóется» 4 ниêоãда не было истинным или релевантным. Не сóществóет технолоãии любоãо типа, êото- рая масштабирóется при ее использовании не- êорреêтно. Понимаемая трóдность масштаби- рования реляционных БД (РБД) обóсловлена ее стрóêтóрированным хранением, низêой из- быточностью данных и, ãлавное, соблюдением ACID и связанными механизмами блоêировêи. Плата за использование РБД в êачестве плат- формы с праêтичесêи неоãраниченной масшта- бирóемостью — их сложность. Ãоризонтальное масштабирование в РСÓБД затрóднено. Среди сóществóющих методов принято выделять реп- лиêацию, партиционирование 5 (сеêциониро- вание) и шардинã 6 (Sharding) — одна из форм разделения. Большинство СÓБД имеют шар- динã, использóя несêольêо машин для ãори- зонтальноãо масштабирования. Технолоãия Teradata с 80-х ãодов XX ст. реализовала мето- ды «физичесêоãо очертания» (sharding methods to support large-scale DBs) для поддержêи широ- êомасштабных БД (размер «терабайта») в то время, êоãда несêольêо сотен меãабайт были большими êоммерчесêими данными. Все же Teradata специально разработана для хранилища данных, и наибольший эффеêт параллелизма архитеêтóры SN проявляется при аãреãированных запросах, хараêтерных для анлитичесêой обработêи. Она отлично подходит для сбора множества данных и 4 Karwin Bill. Why are relational/SQL systems difficult to scale? – Mar 22. 2017 – https://www.quora.com/Why- are-relational-SQL-systems-difficult-to-scale 5 Партиционирование (сеêционирование) – это раз- деление набора данных на отдельные части. 6 Шардинã – разделение данных на óровне ресóрсов. Полóченные в резóльтате разделения объеêты раз- носятся по разным серверам БД. В реляционных БД инстрóментарий, использóемый администратором БД для осóществления шардирования, достóпен тольêо в специальных версиях. Таêое оãраничение в РБД волне лоãично, предоставляется выбор: что важнее – поддержêа транзаêций в неразделенной среде или поддержêа óстойчивости ê разделению по сети с соãласованностью в êонечном счете. Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 53 предназначена для приложений хранения, способных обрабатывать большие объемы данных, и обслóживания несêольêих одновре- менных пользователей. Система перемещает данные в хранилище данных, из êотороãо их можно вызвать и проанализировать. В таêом слóчае это хороший инстрóмент. Для реше- ний, не связанных с аãреãацией данных, сис- тема менее эффеêтивна. Teradata — высоêо параллельная, произво- дительная система, масштабирóемая до пета- байт данных, с распределением наборов запи- сей (êортежей) 7 на основе хэширования на подмножестве óзлов (AMP) с использованием собственноãо хэш-алãоритма обработêи полей (атрибóтов). Êортежи размещаются в зависи- мости от значения хэш-фóнêции, применен- ной ê атрибóтó êаждоãо êортежа. Фóнêция определяет êонêретный дисê, на êотором бóдет размещен êортеж [53, 54]. Разделение с хэшированием идеально под- ходит для приêладных проãрамм, êоторым требóется тольêо последовательный и ассо- циативный достóп ê данным. Хэширование использóется для расщепления вывода реляци- онных операторов в промежóточные отноше- ния. Êаждый оператор полностью выполняет- ся во всех óчаствóющих óзлах, прежде чем на- чинается выполнение следóющеãо оператора — альтернативы êонвейерноãо параллельноãо вы- полнения при обработêе запроса [53]. Лоãичесêая архитеêтóра РСÓБД Teradata представлена схемой óзла (рис. 5), ãде: AMP — Access Module Processor, обеспечивающий из- влечение данных с ассоциированноãо с ним дисêа (дисêов); PE — Parsing Engine, ответст- венный за êонтроль сессии и обработêó за- просов пользователя; интерфейсные процес- соры поддерживают связь с ãлавным серве- ром, осóществляют синтаêсичесêий разбор и оптимизацию запросов, а таêже êоординацию 7 Реляционная база данных состоит из отношений (relation) или файлов, êоторые в свою очередь со- держат êортежи (tuples) или записи. Все êортежи в отношении содержат один и тот же набор атрибóтов (поля в терминолоãии языêа COBOL) [53]. AMP во время выполнения запросов. BYNET — среда обмена сообщениями междó êомпонен- тами системы. PE и AMP объединяются тер- мином виртóальный процессор VPROC [54]. Для балансировêи наãрóзêи междó модóля- ми AMP и дрóãими административными зада- чами использóются средства Teradata Manager, DBSConsole и Teradata Administrator. В частно- сти они позволяют задавать «фильтры» и при- оритеты для выполняемых на AMP, либо сер- вере в целом, пользовательсêих процессов. Все данные обрабатываются при выполне- нии пользовательсêих запросов параллельно и независимо дрóã от дрóãа. Для маêсимальной эффеêтивности обработêи запросов данные должны быть распределены междó AMP рав- номерно. BYNET отвечает за êоммóниêацию междó êомпонентами системы и за высоêосêо- ростнóю передачó данных междó AMP. В плат- формах Warehouse Appliance этот высоêопроиз- водительный êомпонент реализован поверх Ethernet, а в Active Enterprise Data Warehouse — это отдельный аппаратный модóль, таê êаê при таêих объемах Ethernet óже не эффеêтивен. В СÓБД Teradata нет хинтов 8 оптимизато- ра, еãо работа основана на статистичесêой информации о данных. Зная это обстоятель- ство и по êаêим êритериям пользователь их запрашивает, оптимизатор выбирает способы извлечения данных. Оптимизатор запросов принимает решение, основываясь на достóп- ной объеêтивной информации (êоличество óзлов и AMP в системе, êоличество и типы процессоров, памяти в данный момент, типы дисêов и демоãрафию данных). Демоãрафиче- сêая информация — статистиêа — вêлючает в себя êоличество строê в таблице и средний размер строêи, строê с одним и тем же значе- нием êолонêи и пр. Знание этих параметров таêже позволяет оптимизаторó правильно рас- считывать размеры временной памяти (spool), выделяемой запросó для проведения преобра- 8 Подсêазêа в языêе SQL (анãл. hint) – средство, по- зволяющее явным образом влиять на план запроса. А.А. Óрсатьев 54 ISSN 0130-5395, Control systems and computers, 2018, № 2 зований данных [55]. Оптимизатор 9 обеспе- чивают надежные резóльтаты независимо от сложности SQL- запросов. Общие базы данных MPP не поддерживают индеêсы. Лóчше всеãо они подходят для хране- ния данных и аналитичесêих рабочих наãрóзоê, а традиционные индеêсы B-Tree 10 редêо бывают полезны в этих ситóациях. Архитеêтóра MPP, равномерное распределение данных по óзлам системы делают их обработêó эффеêтивной и в отсóтствие индеêсов — дополнительных эле- ментов обеспечения производительности. Эта возможность позволяет Teradata леãêо справ- ляться с ad-hoc запросами, не предóсмотренны- ми разработчиêами физичесêой модели, но для смешанной наãрóзêи, êоãда в системе одновре- менно выполняются и таêтичесêие (OLTP- подобные), и стратеãичесêие (OLAP, DSS, Data Mining) [18] запросы, этоãо явно недостаточно. Создание индеêсов для повышения производи- тельности таêтичесêих запросов, êоторые име- ют достаточно высоêие требования ê времени отêлиêа и пропóсêной способности, êритерии их выбора и техниê физичесêоãо моделирова- ния, механизмы работы СÓБД Teradata с дан- ными с óчетом ее параллельной архитеêтóры приведены в [54, 56, 57]. 9 How is Teradata different from Oracle, given that both are RDBMS databases? — https://www.quora.com/How- is-Teradata-different-from-Oracle-given-that-both-are- RDBMS-databases 10 Обзор типов индеêсов Oracle, MySQL, PostgreSQL, MS SQL – 27 авã 2010 – https://habrahabr.ru/post/ 102785/ Вместе с тем, в êомментариях [54] высêазы- вается мнение, что вряд ли СÓБД Teradata мо- жет быть одинаêово хорошо приемлема для аб- солютно всех задач. При оперативной обработ- êе транзаêций, СÓБД с MPP-архитеêтóрой бó- дет сложно êонêóрировать с транзаêционными системами, несмотря на все предпринимаемые разработчиêами меры повышения производи- тельности. Teradata — это в первóю очередь бы- страя обработêа и анализ больших объемов, от сотен терабайт до петабайт, данных. Êастомная аналитиêа, отчеты, аналитичесêие CRM, Data Mining — лишь небольшой списоê задач, хорошо решаемых с помощью СÓБД Teradata [52, 54]. Teradata предоставляет оптимизированное использование твердотельных наêопителей (SSD) и жестêих дисêов (HDD) в среде храни- лищ объемом на петабайт данных. Оптимиза- цию обеспечивает Teradata Virtual Storage™ (TVS) — интеллеêтóальное проãраммное обес- печение óправления ãибридной средой хране- ния, автоматичесêи перемещающее наиболее часто использóемые данные на быстрые SSD. В основе эффеêтивности ãибридных систем хра- нения то, что разные данные использóются по- требителями с неодинаêовой частотой: данные, лежащие мертвым ãрóзом, считают холодными, а наиболее востребованные — ãорячими. Óп- равление по «температóре данных» происходит по приоритетó выделения системных ресóрсов на основе бизнес-правил с использованием возможностей óстройств хранения [58]. Версия Teradata Database 13.0 лидирóет на рынêе с автоматичесêой виртóальной памятью, óвеличенной на 30 процентов производитель- ностью и рядом óсовершенствований, поддер- живающих аêтивное хранилище данных [18, 52]. Teradata Database версии 14 (2012 ã.) хранит данные êаê в виде строê, таê и в виде столб- цов (ãоризонтальное и вертиêальное парти- ционирование 11). Возможно ãибридное хра- 11 Ãоризонтальное партиционирование — разделение данных по строêам, êоãда разные части записей хранятся в отдельных сеêциях. Вертиêальное пар- тиционирование – разделение данных по столбцам. Рис. 5 Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 55 нение данных в DB Teradata: Teradata Colum- nar, при êотором таблицы одновременно мо- ãóт использовать два метода партиционирова- ния. Особенность таêоãо подхода в том, что партиции по строêам и партиции по êолон- êам можно использовать одновременно в од- ной и той же таблице, т.е. — партиции внóтри партиций. Выбираются нóжные партиции по êолонêам, затем тольêо внóтри них читаются нóжные партиции по строêам. В помощь физичесêомó проеêтированию БД, имеется специальный инстрóмент — Co- lumnar Analysis Tool. Он анализирóет исполь- зование той или иной таблицы SQL-запро- сами и выдает реêомендации по применимо- сти формата хранения по êолонêам. Приме- няется эффеêтивное автоматичесêое сжатие с использованием механизма автоматичесêой êомпрессии [52]. Новые технологии обработки Рост Больших Данных, вызванных, в частно- сти, новыми медиа-источниêами, таêими êаê социальные медиа, побóдили Teradata ê при- обретению в 2011 ã. Aster Data Systems, лиди- рóющóю в области óправления и анализа раз- личными нестрóêтóрированными и частично стрóêтóрированными данными. Большие данные привели ê томó, что мноãие традици- онные êомпании хранилищ данных обновили свои продóêты и технолоãии. Teradata Aster Discovery — платформа обна- рóжения. Аналитичесêие возможности этих двóх систем с Aster’s запатентованными техноло- ãиями — Aster SNAP Framework™ и SQL-Map- Reduce® — по сóти, были объединены в двóх- óровневой платформе Teradata Aster Discovery [59]. Эта платформа, содержащая БД Teradata Aster и портфолио Discovery, значительно повы- шает способность выполнять процесс выявле- ния «нóжных» данных (сбор данных – их подãо- товêа – анализ – визóализация), обóславливаю- щих важнейшие неинтóитивные бизнес-идеи из всех достóпных типов данных. Портфолио Discovery [59—61] представляет собой набор ãотовых ê использованию анали- тичесêих фóнêций SQL, SQL-MapReduce® и Graph для исследования Больших Данных. Со- держит модóли сбора и подãотовêи данных, модóль средств аналитиêи и визóализации (рис. 6). Модóль сбора данных обеспечивает достóп ê мóльтистрóêтóрированным данным, хранящимся в Apache™ Hadoop™, Teradata Data Warehouse и дрóãих реляционных СÓБД (RDBMS). Модóль подãотовêи данных содер- жит адаптеры и преобразователи, позволяю- щие анализировать и интерпретировать содер- жимое блоãов, XML-доêóметов, элеêтронных писем и жóрналов óстройств. Примерный на- бор фóнêций предоставляет таêие возможно- сти: фильтры для óдаления выбросов значений данных; Apache Log Parser для поддержêи поль- зовательсêих форматов жóрналов с определен- ным пользователем веб-серверов Apache; XML и JSON 12 Parsers для анализа и подãотовêи XML-жóрналов, создаваемых таêими приложе- ниями êаê веб-жóрналы и êассовые жóрналы в розничных маãазинах и торãовых точêах, и др. Фóнêции преобразования данных предóсмат- ривают сессионизацию (sessionization) и распа- êовêó форматов для преобразования сложных, нестрóêтóрированных данных в значимые форматы для аналитиêи [61]. Модóль средств аналитиêи в дополнение ê óпомянóтым пользовательсêим аналитичесêим фóнêциям обеспечиивает широêий набор ãо- товых ê использованию фóнêций для времен- ных рядов, статистичесêих методов, аналитиêи теêста, Graph и SQL-анализа, таêих êаê Page- Rank, nPath™, Confusion Matrix (матрица оши- боê), Attensity™ ASAS и др. [59]. Аналитичесêая фóнêция SQL-MapReduce ре- ализована пóтем слияния двóх технолоãий об- работêи: отêрытоãо и производительноãо SQL и хорошо масштабирóемоãо на множество óз- лов êластера Hadoop MapReduce. Напомним, Hadoop — де-фаêто стандарт технолоãий для работы с Большими Данными, MapReduce — 12 Teradata Database может обрабатывать и хранить записи JSON êаê доêóмент JSON или хранить JSON- записи в реляционной форме. А.А. Óрсатьев 56 ISSN 0130-5395, Control systems and computers, 2018, № 2 модель проãраммирования, объединяющая формирование наборов из больших данных на óзлах êластера с их обработêой, слóжит для орãанизации параллельных распределен- ных вычислений [40, 62]. Преимóщества та- êоãо êонверãентноãо подхода неоспоримы, если нóжна масштабирóемость по требова- нию. Обработêа реляционных данных на принципах MapReduce обладает большей ãибêостью в сравнении с реляционной СÓБД с массовым параллелизмом на основе SQL- запросов. SQL-MapReduce® — это инфрастрóêтóра (frameworks), позволяющая разработчиêам пи- сать мощные и выразительные фóнêции SQL- MapReduce в языêах Java, C#, Python, C++, R и встраивать их в платформó Discovery для высо- êопроизводительной аналитиêи. Фóнêции MapReduce плавно интеãрирóются в SQL-за- просы. Аналитиêи моãóт вызывать фóнêции SQL-MapReduce с использованием стандарт- ноãо SQL или R посредством базы данных AsterDB — первый óровень платформы анали- тичесêоãо вывода. Это позволяет встроенным приложениям полностью интеãрироваться в механизм DB Aster Teradata, êоторая зареêо- мендовала себя êаê платформа для обеспече- ния сверхбыстроãо ãлóбоêоãо анализа масси- вов данных [59—61]. SQL-GR™ — эта проãраммная êонстрóêция обработчиêа обеспечивает масштабирóемость, итеративнóю обработêó данных и содержит предварительно разработанные фóнêции ãра- фа, вызываемые через SQL. Интерфейс R для Aster Analytics. R — мóльти- парадиãмальный языê 13 с отêрытым исходным êодом для статистичесêоãо и интеллеêтóально- ãо анализа данных и работы с ãрафиêой [46], содержит встроенные статистичесêие и ãрафи- чесêие инстрóменты, вêлючая êлассифиêа- цию, êластеризацию и пр. Возможности базо- воãо языêа леãêо расширяются множеством паêетов, блаãодаря êоторым он обеспечивает мноãомернóю расширеннóю аналитиêó. Одна- êо бóдóчи мощным, ãибêим и расширяемым, языê R несет в себе различные оãраничения памяти, данных и обработêи. Поэтомó Teradata предоставляет интерфейс R для Aster Analytics — решение, êоторое обеспечивает масштабирóе- мое R для бизнес-аналитиêи. Интеãрация про- ãраммноãо решения ядра вычислителя (engine) с отêрытым исходным êодом R ãарантирóет единóю мощнóю аналитичесêóю средó для со- общества аналитиêов, вêлючая проãраммистов R, бизнес-аналитиêа и наóчноãо сотрóдниêа. Паêеты Aster R предоставляют интерфейс для фóнêций Aster Analytics, êоторые можно êом- бинировать с паêетами R [61]. База данных Teradata Aster с архитеêтóрой MPP (см. рис. 6) поддерживает полиморфнóю модель хранения реляционных данных (row/ column data store) с полностью нестрóêтóриро- ванным хранилищем, размещенным на фай- ловой системе AFS (aster file system). Данные моãóт перемещаться бесшовно из реляцион- ноãо в нестрóêтóрированное хранилище на AFS и обратно. DB Aster вêлючает в себя три аналитичесêих механизма (SQL, MapReduce и Graph), предназначенные для обеспечения оптимальной обработêи аналитичесêих задач в больших объемах данных. Аналитиêа вы- полняется непосредственно в БД (in database analytics), чтобы исêлючить перемещение дан- ных и использовать распределеннóю парал- лельнóю обработêó. DB Aster может быть леãêо расширена для поддержêи дрóãих аналитиче- 13 Основа системы R — интерпретирóемый языê, под- держивающий стрóêтóрный, модóльный и объеêт- но-ориентированный стили проãраммирования. Рис. 6 Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 57 сêих механизмов на основе языêов R или Python, например Snap Framework™ для расши- ренной аналитиêи. Помимо этоãо, аналитиêи, предпочитающие R, моãóт создавать R-сêрипты для реализации мноãоêритериальной расши- ренной аналитиêи, сочетая ãибêость языêа R с Aster's расширенными возможностями анали- тиêи [61]. В Teradata Aster использóется SQL-MapRe- duce® [59] для выяснения вопросов, ранее не- возможноãо. Это ãотовые ê использованию ана- литичесêие фóнêции: цифровая оптимизация марêетинãа, анализ социальной сети, обнарó- жение мошенничества и др. Таê, например, êрóпная êомпания онлайн-иãр соêратила время циêла «аналитиêи мошенничества» с одной не- дели до 15 мин. пóтем снижения времени ответа на запрос в 60 раз. Онлайн и социальные медиа- êомпании, использóя фóнêцию SQL-MapReduce nPath, анализирóют пóть пользователя по исто- рии еãо запросов для óлóчшения резóльтатов поисêа; в целях понимания взаимосвязей и óсовершенствования сетей сообществ и их пользователей, применяют тó же фóнêцию для анализа ãрафа (Graf Analysis); социальная сеть разрывает пользовательсêóю сессию при пре- вышении времени аêтивности в сети, óлóчшая тем самым производительность, и др. Teradata Aster Snap Framework™ [61] для расширенной аналитиêи (рис. 7) — Aster Ana- lytics. Полная обработêа сетевой аналитиêи (Seamless Network Analytics Processing, SNAP) позволяет, использóя óнифицированный SQL- интерфейс, вызывать одним SQL-запросом расширеннóю аналитиêó несêольêих видов (ãраф, пóть / шаблон, теêст, SQL и статисти- чесêий проãнозный анализ). Интеãрирован- ный оптимизатор обрабатывает этот «мóльти- жанровый» 14 (multi-genre) запрос средствами расширенной аналитиêи. Для этоãо анализи- рóют запрос и разбивают еãо на несêольêо под- запросов, êоторые бóдóт выполняться в виде 14 Аналитиêи Gartner óпотребляют иное выражение – мóльтисистемные (multisystem) запросы, – хараêте- ризóя Teradata в Отчете за 2017 ã. [65]. êонêретной рабочей наãрóзêи — специализи- рованными проãраммными обработчиêами Graph и MapReduce. Интеãрированный испол- нитель орãанизóет выполнение запросов на óзлах êластера и осóществляет êонтроль и óправление над всеми обработчиêами. Êон- неêторы обеспечивают достóп ê источниêам данных в социальных сетях, позволяют поль- зователям извлеêать мóльтистрóêтóрирован- ные данные из Hadoop, Teradata, Spark, Splunk и любоãо дрóãоãо источниêа данных. Подãо- товêа данных и связанные с этим фóнêции аналоãичны Teradata Aster Analytics. SNAP Framework™ — это эêсêлюзивный про- дóêт Teradata, основанный на стандартах, рас- ширяемый и интеãрирóемый с сóществóющи- ми ИТ-инфрастрóêтóрами. Платформа Teradata Aster Discovery (см. рис. 6) спроеêтирована для новых типов данных, объ- единяемых термином BigData. Это ãарантирóет использование всех достóпных данных от раз- личных источниêов (веб-жóрналы, сенсорные сети, социальные медиа, подробные данные, полóченные от телеêоммóниêационных сетей и Internet of Things, астрономичесêие и воен- ные наблюдения, биолоãичесêие системы, медицинсêие записи, фото- и видеоархивы), с возможностью размещения их безãраничных объемов для предоставления необходимых сведений. Синерãетичесêие мóльти-жанровые средства аналитиêи использóют множественные меха- низмы (SQL, MapReduce, статистичесêие, ана- лиз теêста и Graph-анализ) для выявления но- вых идей. Расширенная библиотеêа предва- рительно построенных SQL, SQL-MapReduce, фóнêций Graph позволяют начать сбор, подãо- товêó, анализ и визóализацию данных одним Рис. 7 А.А. Óрсатьев 58 ISSN 0130-5395, Control systems and computers, 2018, № 2 действием. Обладая мощными аналитичесêими приложениями в сочетании с минимальными затратами времени на достижение резóльтата и óсилиям, затрачиваемым на это, Teradata пре- доставляет знания для современных êомпаний. В завершение запóщена Teradata Cloud, пре- доставляющая сложнóю аналитиêó êаê óслóãó с быстрой подãотовêой и масштабирóемостью в модели подписêи. Помимо этоãо, БД Teradata и Teradata Aster Discovery Platform достóпны êаê слóжбы для хранилищ данных и аналитиêи об- нарóжения данных. Единая архитеêтóра данных UDA Teradata™ для всех типов данных с воз- можностью облачной доставêи. Teradata несомненно óдалось создать плат- формó исследования мóльти-стрóêтóрирован- ных данных для поддержания сложной и на- сыщенной данными аналитичесêой наãрóзêи. Êлючом ê достижению óспеха с êоллеêциями больших данных послóжила возможность объ- единения несêольêих типов данных и приме- нение ряда аналитичесêих методов ê реше- нию единой проблемы — выявлению данных, обóславлиющих важнейшие неинтóитивные биз- нес-идеи. Причем, всеãо этоãо можно достичь в одном решении пóтем единоãо запроса, объ- единяющеãо все шаãи расширенных средств анализа, предназначенноãо для всех типов пользователей, êотрый óстраняет необходи- мость поддерживать разрозненные инстрó- менты, нанимать дороãостоящих óзêопрофиль- ных специалистов с навыêами работы с сило- сом метаданных в «бóнêерах данных» — Data Silos (Elevator). Термин силос данных [63] ис- пользóется êаê иллюстрация фаêта отдельноãо сóществования и хранения фиêсированных 15 данных. Например, ãеномные данные часто изоли- рованы в силосах, что делает их недостóпны- ми для дрóãих исследователей. Силосы данных 15 Фиêсированные данные (исправленные, постоян- ные, справочные или архивные) – это данные, êо- торые не моãóт быть изменены. Примеры фиêсиро- ванных данных содержат резóльтаты завершенных исследований, медицинсêих записей и историчес- êих данных [63]. — это резóльтат технолоãии, препятствóющей сотрóдничествó. Они подверãаются êритиêе не стольêо из-за препятствий производитель- ности, но и потомó, что силос отрицательно влияет на целостность данных — для одних и тех же данных моãóт сóществовать два или бо- лее внóтренних хранилищ в êрóпных орãани- зациях. В этом слóчае их содержимое, вероят- но, бóдет отличаться, создавая пóтаницó в от- ношении тоãо, êаêой репозитарий представляет собой оêончательнóю версию. Teradata продолжает демонстрировать спо- собность отслеживать рыночные тенденции, óдовлетворяя требованиям êлиентов. Напри- мер, в 2013 ã. реализóет инновационнóю тех- нолоãию баз данных Intelligent Memory Teradata (IMDBMS от Teradata) — расширенное про- странство памяти за пределами êеша, что зна- чительно óвеличивает производительность запросов и обеспечивает эффеêтивнóю техно- лоãию хранения разнообразных данных в па- мяти. По сóти, речь идет о использовании технолоãии IMC [49, 50] и возможности вы- полнять ãибриднóю транзаêционнóю / анали- тичесêóю обработêó данных в оперативной па- мяти HTAP. Направленность разработоê Tera- data отражает тенденции последнеãо десяти- летия развития хранилищ данных и соответ- ствóет требованиям ê ним и ê средам óправле- ния данными для аналитиêи (Data Warehouse and Data Management Solutions for Analytics — DW and DMSA), изложенным Gartner в [23, 24, 26, 27, 30, 42]. Предложения Teradata предó- сматривают традиционные 16 и лоãичесêие (LDW) решения, êоторые Teradata называет Unified Data Architecture (UDA) [64]. Óнифицированная архитеêтóра данных Tera- data™ (UDA) — это достóпное и лóчшее в своем êлассе аналитичесêое решение. Интеãрирóя хранилище данных Teradata, платформó для обнарóжения Aster и Hadoop с отêрытым ис- ходным êодом в единнóю прозрачнóю стрóêтóрó 16 Традиционные хранилища владеют историчесêими данными, постóпающими из различных стрóêтóри- рованных источниêов. Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 59 (см. рис. 6), Teradata Unified Data Architecture™ óстраняет разрыв междó бизнес-языêом SQL и растóщей попóлярностью MapReduce. По- сêольêó в таêом решении идея эêосистемноãо подхода, исользóющеãо Hadoop нарядó с реля- ционными и дрóãими средами для охвата раз- ноãо типа данных, задача сводится ê связыва- нию óзловых точеê, хранящихся в разных средах (рис. 8). Резóльтат — нифицирован- ная, высоêопроизводительная аналитичесêая среда с привлечением премóществ специализи- рованных процессоров обработêи, — среда, обеспечивающая бесшовный межплатфор- менный достóп ê данным разноãо рода и ана- литичесêим механизмам обработêи (рис. 9). В óнифицированной архитеêтóре данных Teradata (UDA) сóществóет три основные плат- формы: хранилище данных (Teradata Integrated Data Warehouse), платформа обнарóжения (Tera- data Aster Discovery) и платформа данных (Data Platform). Большие стрелêи (см. рис. 8) обозна- чают пóть данных, проходящих междó этими системами. Например, если нóжно интеãриро- ванное аппаратное и проãраммное решение (Da- tabase Appliance), оптимизированное специально для больших данных, Data Platform превращает- ся в Teradata® Appliance для Hadoop, оставаясь в сóществóющей инфрастрóêтóре. В êачестве ре- шения для сбора данных, требóющих масшта- бирования, Teradata запóсêает проãраммное обеспечение Hadoop. Имеется возможность выбирать, êаêой дистрибóтив Hadoop (Horton- works, Cloudera или MapR) наилóчшим образом соответствóет потребностям, обеспечивая при этом интеãрационные возможности и преимó- щества обслóживания и поддержêи Teradata. VIRTUAL QUERY — QueryGrid является цен- тральным звеном óнифицированной, высоêо- производительной аналитичесêой среды (см. рис. 9). Эêосистема QueryGrid обеспечивает беспрепятственный, высоêопроизводительный достóп ê данным, обработêó и перемещение по системам в ãетероãенных аналитичесêих средах [65]. Êонцепт лоãичесêих хранилищ данных (LDW) — единое представление данных, без их перемещения, — содержит, êаê êомпонент LDW-стрóêтóры, виртóализацию данных,17 т.е. абстраãирование данных от êонêретной фор- мы их хранения. LDW должны поддерживать êонцепцию рендеринãа памяти или óêазан- ных типов ресóрсов данных, êоторые непо- средственно считывают исходные системы [27]. В резóльтате обеспечивается достóп êо всем видам информационных ресóрсов, что является значительным шаãом в интеãрации информации. Лоãичесêое хранилище данных предоставляет платформó информационных óслóã для приложений. 17 Teradata QueryGrid™ — действительно фор- ма виртóализации данных, однаêо она не страдает от обычных оãраничений виртóали- зации, таêих êаê низêая производительность, переãрóженные сети и проблемы безопасно- 17 Виртóализация данных — процесс предоставления данных посредством интерфейса, сêрывающеãо все техничесêие аспеêты хранения данных (способ хране- ния, местоположение, стрóêтóра, языê достóпа). Ло- ãичесêи местом для виртóализации данных слóжит дополнительный промежóточный óровень, изоли- рóющий физичесêое хранение данных от приложе- ний. Рис. 8 А.А. Óрсатьев 60 ISSN 0130-5395, Control systems and computers, 2018, № 2 сти. Историчесêи, средства виртóализации дан- ных не имеют возможности перемещать дан- ные междó системами параллельно. Таêие ин- стрóменты отправляют запрос в óдаленнóю базó данных, и они возвращаются последова- тельно через Ethernet. QueryGrid построена для одновременноãо подêлючения ê системам обмена данными через множество сетевых подêлючений одновременно. Параллельная обработêа обеими системами делает обмен быстрым — со сêоростью до 10TB / second при использовании межсоединений BYNET V5 на InfiniBand. Êластер Hadoop бóдет иметь различное êоли- чество серверов в сравнении с MPP-систе- мами Teradata или Aster. Эти системы запóс- êают параллельный обмен данными пóтем сопоставления единиц параллелизма междó двóмя системами, т.е. все параллельные рабо- чие ãрóппы Teradata, называемые AMP, под- êлючаются ê рабочемó óзлó Hadoop для маê- симальной пропóсêной способности. В любое время, êоãда êонфиãóрация изменяется, рабо- чие изменения совпадают [65]. Teradata QueryGrid™ [66] обеспечивает об- работêó запросов через источниêи данных, таêие êаê БД Teradata и система Hadoop, на êо- торой óстановлена Teradata Distribution Presto18 . Êоннеêторы преобразóют языê запросов и данных, чтобы их можно было обменять меж- дó различными типами систем, êонтролирóют выполнение запросов в целевых системах и возвращают резóльтаты в инициирóющие сис- темы.18 Êоннеêторы работают на одном или несêольêих óзлах в системе и относятся ê типó системы, например, Teradata или Presto-сêон- 18 Presto — распределенный механизм запросов с ис- пользованием стандартноãо ANSI SQL с отêрытым ис- ходным êодом, предназначенный для запóсêа инте- раêтивных аналитичесêих запросов ê различным источниêам данных размеров от ãиãабайт до пета- байт. Еãо архитеêтóра основана на сêорости, что позволяет Presto поддерживать большое êоличество параллельных интераêтивных запросов в среде боль- ших наборов данных; позволяет полóчать достóп ê данным в Hadoop, Amazon S3, Apache Cassandra™, реляционных БД, и хорошо сочетается с единой ар- хитеêтóрой Teradata Unified Data Architecture™. Рис. 9 Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 61 фиãóрированный Hadoop. Реляционные табли- цы в Teradata [65] моãóт просто êомбиниро- ваться с таблицами или плосêими файлами, найденными по требованию в Hadoop. Для этоãо не требóется извлеêать данные из одной системы и заãрóжать их на дрóãóю, и не нóжно заботиться о том, ãде они находятся. Teradata QueryGrid™ обеспечивает высоêóю производительность, соêращая время обра- ботêи с часов до минóт, вследствие автомати- зированноãо и оптимизированноãо распреде- ления работ посредством обработêи «push down» на разных платформах, прозрачной ав- томатизации аналитичесêой обработêи, ми- нимальноãо и двóнаправленноãо перемеще- ния данных междó системами, сведения ê ми- нимомó их дóблирования, óменьшения на- ãрóзêи на сеть. Êоннеêторы, обеспечивающие соединения, работают междó Teradata Database и Hadoop, а таêже Aster Databases и Hadoop. Teradata Query- Grid таêже связывает хранилище данных Tera- data с базами данных Oracle. В ближайшем бó- дóщем он бóдет распространяться на все êомби- нации серверов UDA, таêих êаê Teradata, Aster, Aster на Aster, Teradata на Teradata и др. [65]. Новым в вертиêали Acquisition (полóчение или сбор данных, см. рис. 9) является таêже модóль переноса и распределения чрезвычай- но быстрых потоêов данных в аналитичесêие эêосистемы — INGEST & Listener 19. Модóль позволяет полóчать в реальном времени (in real-time) потоêи данных большоãо объема (Big Data Streaming) и сохранять данные из этих потоêов в Teradata Aster или Hadoop для обработêи. Появление Internet of Things (IoT) и посто- янный рост потоêовых данных создают новые проблемы при развертывании простых, на- дежных и масштабирóемых систем сбора дан- ных в режиме real-time. Особенно тех, êоторые нóждаются в самообслóживании для быстрой настройêи новых данных, осóществляемой 19 Teradata Listener™ — https://www.teradata.com/prod- ucts-and-services/listener посредством интеллеêтóальноãо проãраммно- ãо обеспечения Teradata Listener, осóществ- ляющеãо в режиме real-time захват и настрой- êó большоãо объема непрерывных потоêов данных. Платформа потоêовых данных предназна- чена для сбора и óправления большими объе- мами потоêов в (in real-time) из любоãо источ- ниêа, таêоãо êаê веб-сайты, социальные êа- налы и пр. Позволяет обслóживать до 100 по- тоêов, надежно передает данные без потерь и работает êаê проãраммное решение тольêо в центре обработêи данных или в облаêе. В це- лом модóль INGEST & Listener решает потреб- ности потоêовой передачи BigDate, óнифици- рóя большой процесс приема данных, непре- рывно захватывая несêольêо потоêов данных большоãо объема из разных источниêов и со- храняя их в одном или несêольêих хранили- щах данных. Оценêа Gartner. Teradata позиционирóется êаê лидер в течение 15 лет подряд в Magic Qua- drant Gartner (см. рис. 2) 2014 ã. для систем óп- равления хранилищами данных. В отчете Gartner следóют три аналитичесêие оценêи Teradata за 2014 ã. [42]. Первая — лидерство в области ана- литиêи, вторая — признание архитеêтóры Tera- Рис. 10 А.А. Óрсатьев 62 ISSN 0130-5395, Control systems and computers, 2018, № 2 data® Unified Data Architecture™, и третья — ли- дерство в области использования Hadoop для больших объемов данных. Начиная с 2015 ã., хранилища данных расширились для обраще- ния ê несêольêим типам данных, механизмам обработêи и репозитариям. Плотная ãрóппа ли- деров (см. рис. 2) имеет более значительное рас- слоение и представлена в виде литеры «Y» [23] в Magic Quadrant для хранилищ данных и сред óправления данными для аналитиêи. Вершинó правой ветви завершает Teradata (рис. 10). Gartner, хараêтеризóя рыноê, отмечает, что орãанизации теперь нóждаются в решениях, способных óправлять и обрабатывать, в соче- тании с данными из традиционных внóтрен- них источниêов, внешние данные различных типов в разных форматах. Последние, напри- мер, моãóт вêлючать в себя даже данные взаи- модействия и наблюдения от интернет-дат- чиêов Things (IoT), а таêже нереляционные дан- ные, таêие êаê теêст, изображения, звóê и ви- део. Это создает новые требования на рынêе хранилищ данных — при более широêих ре- шениях óправления данными для аналитиêи DMSA с фóнêциями и фóнêциональностью, представляющими собой значительное óвели- чение сóществóющих стратеãий хранилищ дан- ных [23, 30]. При использовании разнородных информационных ресóрсов Gartner [23] выде- ляет четыре êласса хранилищ: традиционные, операционные (ODS) 20, лоãичесêие (LDW) и êонтеêстно независимые хранилища21. В дальнейшем эта тенденция продолжает расти: óвеличивается спрос на решения, охва- тывающие различные типы данных и предло- жения вариантов стратеãии хранилища. Ры- ноê хранилищ данных продолжает развивать- ся и вêлючает в себя более широêие решения для óправления данными для аналитиêи под 20 ODS — операционные хранилища (оперативные сêла- ды данных) óправляют стрóêтóрированными дан- ными, заãрóжаемыми в системó непрерывно для вычисления аналитичесêих фóнêций приложений, встроенных в эти хранилища. Поддерживают от- четность и автоматизированные запросы для обеспе- чения теêóщеãо фóнêционирования предприятия. êоординированным подходом, потребóющим различных типов интеãрированных решений и óровня совместимых сервисов для óправле- ния и доставêи данных. Менеджеры храни- лищ данных, архитеêторы решений для ана- литиêи и дрóãие, óстанавливающие стратеãии модернизации ИТ, должны óчитывать это из- менение направления и ãотовиться ê ãибрид- ным технолоãичесêим платформам, расши- ряющим хранилище данных за пределами лю- бой теêóщей праêтиêи [23, 24]. 21 В отчете Gartner 2017 ã. [67] Magic Quadrant для решений óправления данными для анали- тиêи, отмечается, что Teradata построила плат- формó DMSA, óчитывающóю все варианты использования хранилищ данных: традици- онное, операционное, лоãичесêое и êонтеêст- но независимое. Teradata даны наивысшие оценêи продóêта во всех четырех êатеãориях. Эти оценêи отражают лоãичесêий подход ê хранилищó, представленномó óнифицирован- ной архитеêтóрой данных Teradata®, вêлючая Teradata Aster Analytics и Hadoop, и подчерêи- вают статóс LDW êаê оêончательноãо реше- ния для баз данных для аналитиêи — во всех возможных слóчаях использования [68]. В определениях Gartner óêазано, что DMSA должна óправлять хранением и достóпом, процессами обработêи и доставêи данных, предназначенных для одноãо или несêольêих из четырех основных слóчаев использования. DMSA не является êонêретным êлассом или типом СÓБД, она может состоять из множе- ства различных технолоãий óправления дан- ными или их сочетания. Однаêо любое пред- ложение или êомбинация предложений долж- ны в своей основе предоставлять достóп ê 21 Êонтеêстно независимые хранилища моãóт изме- нять схемы чтения данных, что позволяет полóчать новые информационные срезы, извлеêая дополни- тельные сведения. Это достиãается пóтем использо- вания средств поисêа, механизмов ãрафов и дрóãих расширенных возможностей для извлечения новых информационных моделей. Обычно таêие системы использóются продвинóтыми пользователями (ис- следователями данных), решающими нестандарт- ные аналитичесêие задачи. Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 63 данным под óправлением средств отêрытоãо достóпа через API; например, через Open Database Connectivity (ODBC), Java Database Connectivity (JDBC), Object Linking and Embed- ding Database (OLEDB) и др. Сóществóет мно- жество различных моделей доставêи, таêих êаê автономное проãраммное обеспечение СÓБД, сертифицированные êонфиãóрации, платформа баз данных в êачестве óслóã (dbPaaS) и хранилищ данных [67, 68]. В Teradata эти решения содержат специаль- ные стратеãии оптимизации, предназначен- ные для поддержêи аналитичесêой обработêи, óчитывая (но не оãраничиваясь), реляцион- нóю и нереляционнóю обработêó (например, обработêó ãрафа) и машинное обóчение или языêи проãраммирования, таêие êаê Python или R. Данные не обязательно хранятся в ре- ляционной стрóêтóре, можно использовать несêольêо моделей (реляционные, доêóмент, êлюч-значение, теêст, ãраф, ãеопространст- венные и др.) [24, 42, 52, 68]. Предложения Teradata [67] вêлючают в себя решение СÓБД, óстройства хранилищ данных и решения облачных хранилищ данных (все MPP) êаê на частном óправляемом облаêе, таê и на инфрастрóêтóре общественноãо облачно- ãо провайдера, таêоãо êаê Amazon Web Services (AWS) и Microsoft Azure. Поддержêа LDW по- ставляется с единой архитеêтóрой данных (UDA). Teradata QueryGrid (часть UDA) обеспе- чивает поддержêó мóльтисистемных (multisys- tem) запросов через Teradata, а таêже open- source Presto. Teradata таêже предлаãает под- держêó Aster Analytics и Hadoop через все три основные дистрибóтивы, а таêже аналитиче- сêие êонсалтинãовые óслóãи. Новая норма в óправлении данными спо- собствóет объединению облачных и лоêаль- ных сетей в ãибридных êонфиãóрациях. Tera- data IntelliCloud™ — это новое поêоление за- щищенных облачных решений, предостав- ляющее данные и аналитичесêое проãрамм- ное обеспечение êаê óслóãó по модели SaaS. Óслóãи IntelliCloud (БД Teradata, Aster® Ana- lytics или поддерживаемоãо проãраммноãо обеспечения Hadoop® от Cloudera или Horton- works) достóпны с новыми вариантами развер- тывания, охватывающие Teradata IntelliFlex™ — флаãмансêóю êорпоративнóю платформó хра- нилищ данных предприятия, и IntelliBase в ЦОД Teradata и на инфрастрóêтóре облаêа AWS и Microsoft Azure. Полнóю настройêó ин- фрастрóêтóры и óправление проãраммным обеспечением в обоих слóчаях осóществляет Teradata [52, 68]. База данных Teradata бóдет достóпна на Mi- crosoft Azure Marketplace, предоставляя êлиентам возможность выбора полной базы данных Teradata по требованию и по принципó «оплата по мере необходимости». БД Teradata на Azure предложит полные фóнêции и MPP-обработêó, масштабирóемóю до 32 óзлов. В ее реализации бóдет использована платформа IntelliFlex сле- дóющеãо поêоления Teradata, предлаãающая независимое масштабирование вычислитель- ной мощности и емêости памяти, расширенные вычисления в памяти и соêращение времени простоя при масштабировании системы. В отчете Gartner 2017 ã. подчерêнóты облач- ные решения и возможности аналитичесêой обработêи, отходя от намерения сосредото- читься на реляционных БД с использованием SQL. Облаêо стало стандартом де-фаêто. Те, Рис. 11 А.А. Óрсатьев 64 ISSN 0130-5395, Control systems and computers, 2018, № 2 êто не принимает еãо, обречены на óстаревание. Следóет обратить внимание на прыжоê, êото- рый совершил AWS в êвадрант «Лидеры» с по- зиции «Претенденты» (см. рис. 2, 10; рис. 11). Тенденция облаêа не тольêо в сеêторе DMSA, она распространяется на всю ИТ-отрасль. Борьба междó хранилищем данных и новыми моделями лоãичесêих хранилищ — это разно- ãласие междó традиционным êоммерчесêим проãраммным обеспечением и новой эêоси- стемой с отêрытым исходным êодом. Все поля маãичесêоãо êвадранта переживают револю- цию, посêольêó возниêают бесчисленные стар- тапы. То же тносится ê анализó и обработêе данных, посêольêó этот элемент таêже пере- мещается в облаêо [68]. Êомпания Teradata — ведóщая в области аналитичесêих решений — объявила о начале работы первой в мире, всюдó достóпной Tera- data Everywhere™, предоставляющей самóю мощнóю аналитичесêóю базó данных с широ- êим спеêтром параллельных вычислений (MPP) для лоêальных сред, множества пóбличных облаêов, óправляемоãо частноãо облаêа. По мере тоãо, êаê êомпании продвиãаются ê ãиб- ридным облачным архитеêтóрам, Teradata ли- дирóет в отрасли, предлаãая êлиентам выбор и обеспечение совместимости баз данных в ре- жимах развертывания. Teradata Everywhere обе- спечивает ãибêость для реализации ãибридной архитеêтóры с общей базой данных, позво- ляющей перемещать рабочие наãрóзêи междó средами по мере развития потребностей биз- неса, поддерживая изменяющóюся стратеãию развертывания êомпании и эêономичесêие потребности [9]. Teradata достиãает наивысшей позиции в Magic Quadrant блаãодаря стремлению ê совер- шенствó в современных аналитичесêих техноло- ãиях, своей прозорливости, ãибêости в про- ãраммно-техничесêих решениях и полноте ви- дения рыночной ситóации для DMSA [52, 68, 69]. Заключение Подãотовêе этоãо раздела обзора предшество- вал мноãочасовый период просмотра материа- лов сайта Quora 22 и сверêи собственноãо ви- дения предмета изложения с мнением разра- ботчиêов и боãатым опытом пользователей Teradata. Это реляционная система параллель- ной обработêи, в êоторой использóется архи- теêтóра без общеãо достóпа. В ее основе — технолоãия, состоящая из оборóдования, про- ãраммноãо обеспечения, базы данных и êон- салтинãа. Система перемещает данные в хра- нилище, ãде их можно вызвать и проанализи- ровать. 22 Создавав свое решение (Database Appliance) междó специализированными аппаратными средствами и проãраммным обеспечением, Teradata óспешна в нише Data Warehouse на протяжении длительноãо времени, достиãнóв производительности в очень больших базах данных в задачах аналитиêи при принятии стратеãичесêих решений. Но Teradata Database Appliance — прибор, а это значит, что пользо- ватель либо делает это «методом teradata», ли- бо нет. Невозможны настройêи оборóдования на проблемное пространство. Êоãда требóется масштабировать аппаратное обеспечение, следóет использовать весь прибор. Нет ниêа- êих вариантов использования оптимизации облачноãо или эластичноãо стиля. Таêже от- мечено, что Teredata имеет незрелый óровень абстраêции данных. Незначительные измене- ния в проãраммировании возможны в сравне- нии с дрóãими языêами РСÓБД. Teredata своевременно отреаãировала на на- сóщнóю необходимость анализа BigDate и в пер- вóю очердь данных новых форматов медиаис- точниêов, IoT и др. Первым решением был Hadoop for the Enterprise — ãибêий набор аппа- ратных средств, проãраммноãо обеспечения и сервисов для интеãрации Hadoop в средó Tera- data. Затем — платформа для обнарóжения дан- 22 Quora — социальный сервис обмена знаниями, свое- образный онлайн-рыноê вопросов и ответов, осно- ванный в июне 2009 ã. Фишêой сервиса и отличием от форóмов являются профессиональные ответы на во- просы. Quora имеет специальный штат сотрóдниêов, êоторые и занимаются поисêом ответов на заданнóю тематиêó. Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 65 ных Teradata Aster Discovery. Разработаны и ис- пользованы аналитичесêие фóнêции SQL, SQL- MapReduce®, Graph, фóнêции временных рядов, статистичесêих методов, аналитиêи теêста и мноãое дрóãое для исследования BigDate, обес- печивается достóп ê мóльтистрóêтóрированным данным в Apache™ Hadoop™, Teradata Data Wa- rehouse и дрóãих реляционных СÓБД (RDBMS). Высоêопроизводительный достóп ê дан- ным, обработêó и виртóальнóю доставêó ê системам в ãетероãенных аналитичесêих сре- дах обеспечивает эêосистема Teradata Query- Grid™ — своеобразная матрица, использóю- щая параллельное перемещение данных меж- дó системами обмена. Идея эêосистемноãо подхода, применяющеãо Hadoop нарядó с ре- ляционными и дрóãими средами для охвата разноãо типа данных, сводится ê задаче свя- зывания óзловых информационных точеê в разных средах. Принятая óнифицированная архитеêтóра данных Teradata™ (UDA) не про- тиворечит единномó представлению данных без их перемещения, — êонцептó лоãичесêих хранилищ данных. REFERENCES 52. Teradata, https://www.teradata.com/ 53. Dewitt David, Gray Jim. Параллельные системы баз данных: бóдóщее высоêо эффеêтивных систем баз данных, 02 Apr. 1995, https://www.osp.ru/news/articles/1995/0402/13031420#part_2_1 54. Блоã êомпании Teradata: Teradata, СÓБД, параллельная от рождения, 3 деê. 2012, http://habrahabr.ru/company/teradata/blog/160821/ 55. Блоã êомпании Teradata: Статистиêа в СÓБД Teradata, 1 февр. 2013, http://habrahabr.ru/company/teradata/blog/167801/ 56. Физичесêий дизайн стрóêтóр хранения в СÓБД Teradata, 16 янв. 2014, http://habrahabr.ru/company/teradata/blog/170321/ 57. Блоã êомпании Teradata: Дополнительные техниêи физичесêоãо моделирования в Teradata, 17 янв 2014, http://habrahabr.ru/company/teradata/blog/209216/ 58. Блоã êомпании Teradata: Сêорость или объем? Автоматизация óправления системами хранения с разнород- ными хараêтеристиêами, 11 янв. 2013, http://habrahabr.ru/company/teradata/blog/165463/ 59. MapReduce and Teradata Aster SQL-MapReduce®, https://www.teradata.com/products-and-services/Teradata- Aster/teradata-aster-sql-mapreduce 60. Teradata Aster Discovery Portfolio, http://assets.teradata.com/resourceCenter/downloads/Brochures/Teradata_- Aster_Discovery_Portfolio_EB7509.pdf 61. Teradata Aster Analytics, http://assets.teradata.com/resourceCenter/ downloads/Brochures/Teradata_Aster_ Dis- covery_Platform_EB7573.pdf?processed=1 62. Dean J. MapReduce: Simplified Data Processing on Large Clusters, http://research. google.com/archive/mapreduce.html 63. What is data silo? / Definition…, http://searchcloudapplications.techtarget.com/definition/data-silo 64. Teradata Unified Data Architecture™, https://www.teradata.com/Solutions-and-Industries/unified-data-architecture или https://www.teradata.com/Resources/White-Papers/Teradata-Unified-Data-Architecture-Integrate 65. Take a Giant Step with Teradata QueryGrid, http://blogs.teradata.com/data-points/take-a-giant-step-with-teradata- querygrid/ 66. Teradata QueryGrid User Guide, Teradata Documentation, https://www.info.teradata.com/download.cfm? ItemID=1007085 67. Magic Quadrant for Data Management Solutions for Analytics / R. Edjlali, Adam M. Ronthal, R. Greenwald et al, 28 Febr. 2017, https://www.gartner.com/doc/reprints?id=1-3TZLPYX&ct=170221&st=sb 68. Teradata Achieves Highest Position for Completeness of Vision in Data Management Solutions for Analytics Magic Quadrant, 28 Febr. 2017, http://www.teradata.ru/News-Releases/2017/Teradata-Achieves-Highest-Position-for- Comple 69. Teradata Announces the World’s Most Powerful Analytic Database, Available Everywhere, 12 сент. 2016, http://www.teradata.ru/News-Releases/2016/Teradata-Announces-the-World%E2%80%99s-Most-Powerful Постóпила 16.01.2018 А.А. Óрсатьев 66 ISSN 0130-5395, Control systems and computers, 2018, № 2 A.A. Oursatyev, PhD in Techn. Sciences, Leading Research Associate, International Research and Training Centre of Information Technologies and Systems of the NAS and MES of Ukraine, Glushkov ave., 40, Kyiv, 03187, Ukraine, aleksei@irtc.org.ua BIG DATA. ANALYTICAL DATABASES AND DATA WAREHOUSE: TERADATA Introduction. The article is a continuation of the Big Data and tools study, which is being transformed into technology of the new generation and architecture of the BD platforms and storage for the intelligent output. In this part the review of DB Teradata is presented. The main attention is paid to the issues of changing the infrastructure, the tool environment and the platform for identifying the necessary information and new knowledge from the Big Data, the initial information about the product is given in the product general description. Purpose. The purpose is to consider and evaluate the application effectiveness of the infrastructure solutions for new developments in the Big Data study, to identify new knowledge, the implicit connections and in-depth understanding, insight into phenomena and processes. Methods. The informational and analytical methods and technologies for data processing, the methods for data as- sessment and forecasting, taking into account the development of the most important areas of the informatics and infor- mation technology. Results. Teradata is a relational system of the parallel processing, in which the architecture is used without general access. It is based on technology, consisting of equipment, software, databases and consulting. The system moves data to the storage area where they can be called up and analyzed. Having created a solution (Database Appliance) between specialized hardware and software, Teradata is successful in the Data Warehouse for a long time, achieving performance in very large databases in the analytical tasks in making strategic de- cisions. But the Teradata Database Appliance is an instrument with the consequences as follow: there is no possibility of set- ting up the equipment for the problem space. When you need to scale hardware in one direction or another, you should use the entire device. There are no options for using cloud or elastic style optimization. It is also noted that Teredata has an im- mature level of data abstraction. Small changes in programming can be made in comparison with other languages RDBMS. Teredata responded in a timely manner to the urgent need for BigDate analysis and first of all these new formats of media sources. The first solution was Hadoop for the Enterprise, a flexible set of hardware, software and services for inte- grating Hadoop into the Teradata environment. Then it was a platform for detecting data Teradata Aster Discovery. The analytical functions SQL, SQL-MapReduce®, Graph, time series functions, statistical methods, text analytics and much more for BigDate study are developed and used, the access to multi-structured data is provided in Apache ™ Hadoop ™, Teradata Data Warehouse and other relational database management system (RDBMS). Teradata QueryGrid ™ ecosystem provides high-performance data access, processing and virtual delivery to systems in heterogeneous analytical environment. This is a kind of matrix that uses parallel data transfer between the exchange objects. The idea of an ecosystem approach that uses Hadoop along with the relational and other environments to cover different types of data is reduced to the task of linking nodal information points stored in the different environments. The accepted unified data architecture Teradata ™ (UDA) does not contradict the unified representation of data, without their movement, — the concept of the logical data stores. Conclusion. According to Gartner’s analysts in 2014 Teradata received three awards: leadership in the field of ana- lytics, recognition of the Teradata® Unified Data Architecture ™ architecture, and leadership in the use of Hadoop for the large amounts of data. Since 2015, data warehouses have expanded due to the several types of data access, processing mechanisms and repositories. In this regard, in the Gartner report 2017, it is noted that Teradata has built a data manage- ment platform that takes into account all the uses of data warehouses: the traditional, operational, logical and context- independent. This reflects the approach to the storage represented by the unified Teradata® UDA ™ data architecture. Teradata offers also provide solutions for cloud data warehouses both on a private managed cloud and on the infrastruc- ture of a public cloud provider. This facilitates the integration of cloud and local networks in hybrid configurations. Teradata IntelliCloud ™ is the next generation of secure cloud solutions that provides data and analytics software as a SaaS service. Also, Teradata provides the solutions for cloud data warehouses both on a private managed cloud and on the infrastruc- ture of a public cloud provider. This facilitates the integration of cloud and local networks in hybrid configurations. Teradata IntelliCloud ™ is the next generation of secure cloud solutions that provides data and analytics software as a SaaS model. Keywords: MPP, Logical Data Warehouse LDW, Warehouse Appliance, SN (Shared Nothing), Teradata Aster Discovery, Teradata IntelliCloud™, SaaS, Teradata QueryGrid™, Unified Data Architecture Teradata™ (UDA). Большие Данные. Аналитичесêие базы данных и хранилища: Teradata ISSN 0130-5395, УСиМ, 2018, № 2 67 О.А. Óрсатьєв, êанд. техн. наóê, Міжнародний наóêово-навчальний центр інформаційних технолоãій та систем НАН Óêраїни та МОН Óêраїни, просп. Ãлóшêова, 40, Êиїв 03187, Óêраїна, aleksei@irtc.org.ua ВЕЛИÊІ ДАНІ. АНАЛІТИЧНІ БАЗИ ДАНИХ І СХОВИЩА: TERADATA Встóп. Стаття є продовженням досліджень Велиêих Даних та інстрóментарію, що трансформóється в нове поêо- ління технолоãій і архітеêтóри платформ БД та сховищ для інтелеêтóальноãо виводó. Ó даній частині оãлядó по- дано DB Teradata. Основнó óваãó приділено питанням зміни інфрастрóêтóри, інстрóментальноãо середовища і платформи для виявлення необхідної інформації та нових знань з Велиêих Даних, а початêові відомості про про- дóêт наведено в заãальній хараêтеристиці виробó. Мета. Розãлянóти та оцінити ефеêтивність застосóвання інфрастрóêтóрних рішень нових розробоê в дослі- дженнях Велиêих Даних для виявлення нових знань, неявних зв'язêів і поãлибленоãо розóміння, прониêнення в сóтність явищ і процесів. Методи. Інформаційно-аналітичні методи і технолоãії обробêи даних, методи оцінêи та проãнозóвання да- них, з óрахóванням розвитêó найважливіших ãалóзей інформатиêи та інформаційних технолоãій. Резóльтати. Teradata — це реляційна система паралельної обробêи з виêористанням архітеêтóри без заãаль- ноãо достóпó. В її основі технолоãія, що сêладається з обладнання, проãрамноãо забезпечення (ПЗ), бази даних та êонсалтинãó. Система переміщóє дані в сховище, де їх можна виêлиêати та проаналізóвати. Створюючи своє рішення — Database Appliance — між спеціалізованими апаратними засобами і ПЗ, Teradata óспішна в ніші Data Warehouse протяãом тривалоãо часó, досяãнóвши продóêтивності в дóже велиêих базах даних в задачах аналітиêи при прийнятті стратеãічних рішень. Але Teradata Database Appliance — це прилад з наслідêами: немає можливості налаштóвання обладнання на проблемний простір. Немає жодних варіантів виêористання оптимізації хмарноãо або еластичноãо стилю. Таê само відзначається, що Teredata має дóже незрілий рівень абстраêції даних. Незначні зміни в проãрамóванні можливі в порівнянні з іншими мовами РСÓБД. Teredata своєчасно відреаãóвала на наãальнó необхідність аналізó BigDate і в першó черãó даних нових фор- матів медіаджерел. Першим рішенням бóв Hadoop for the Enterprise — ãнóчêий набір апаратних засобів, проãрам- ноãо забезпечення і сервісів для інтеãрації Hadoop в середó Teradata. Потім — платформа для виявлення даних Teradata Aster Discovery. Розроблено та виêористано аналітичні фóнêції SQL, SQL-MapReduce®, Graph, фóнêції часових рядів, статистичних методів, аналітиêи теêстó, забезпечено достóп до мóльтистрóêтóрованих даних в Apache™ Hadoop™, Teradata Data Warehouse та інших реляційних СÓБД. Висоêопродóêтивний достóп до даних, обробêó і віртóальнó доставêó до систем в ãетероãенних аналітичних середовищах забезпечóє еêосистема Teradata QueryGrid™ — своєрідна матриця, яêа виêористовóє паралельне переміщення між системам обмінó. Ідея еêосистемноãо підходó, яêий застосовóє Hadoop поряд з реляційними і іншими середовищами для охоплення різноãо типó даних, зводиться до задачі зв'язóвання вóзлових інформацій- них точоê, що зберіãаються ó середовищах. Прийнята óніфіêована архітеêтóра даних Teradata™ (UDA) не сóпере- чить єдиномó поданню даних, без їх переміщення, — êонцептó LDW. Висновêи. На дóмêó аналітиêів Gartner, за 2014 р. Teradata отримала три оцінêи: лідерство в ãалóзі аналітиêи, визнання архітеêтóри Teradata® Unified Data Architecture™, та лідерство ó виêористанні Hadoop для велиêих обся- ãів даних. З 2015 р. сховища даних розширилися внаслідоê звернення до деêільêох типів даних, механізмам об- робêи та репозиторіям. Ó цьомó зв'язêó ó звіті Gartner 2017 р. відзначається, що Teradata побóдóвала платформó óправління даними, що враховóє всі варіанти застосóвання сховищ даних: традиційнó, операційнó, лоãічнó та êонтеêстно-незалежнó. Це відображає підхід до сховища з óніфіêованою архітеêтóрою даних Teradata® UDA™. Пропозиції Teradata таêож містять рішення хмарних сховищ даних яê на приватній êерованій хмарі, таê і на інфрастрóêтóрі ãромадсьêоãо хмарноãо провайдера. Це сприяє об'єднанню хмарних і лоêальних мереж в ãібрид- них êонфіãóраціях. Teradata IntelliCloud™ — це нове поêоління захищених хмарних рішень, що надає дані і аналі- тичне проãрамне забезпечення яê послóãó за моделлю SaaS. Êлючовi слова: архiтеêтóра MPP, лоãiчнi сховища даних LDW, платформа Warehouse Appliance, SN (Shared Nothing)- архiтеêтóра, Teradata Aster Discovery — платформа виявлення, Teradata IntelliCloud™ — данi та аналiтиêа за модел- лю SaaS, Teradata QueryGrid™, óнiфiêована архiтеêтóра даних Teradata™ (UDA).