Некоторые программные среды аналитики больших данных и машинного обучения

Рассмотрено машинное обучение и распределенная обработка данных на Apache Mahout. Сопоставлены две его реализации – на основе использования парадигмы MapReduce и программной конструкции (framework) Spark с математической средой Mahout Samsara, которая создает семантически дружественные условия для л...

Full description

Saved in:
Bibliographic Details
Published in:Управляющие системы и машины
Date:2016
Main Author: Урсатьев, А.А.
Format: Article
Language:Russian
Published: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2016
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/113401
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Некоторые программные среды аналитики больших данных и машинного обучения / А.А. Урсатьев // Управляющие системы и машины. — 2016. — № 5. — С. 62-75. — Бібліогр.: 82 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862590803513180160
author Урсатьев, А.А.
author_facet Урсатьев, А.А.
citation_txt Некоторые программные среды аналитики больших данных и машинного обучения / А.А. Урсатьев // Управляющие системы и машины. — 2016. — № 5. — С. 62-75. — Бібліогр.: 82 назв. — рос.
collection DSpace DC
container_title Управляющие системы и машины
description Рассмотрено машинное обучение и распределенная обработка данных на Apache Mahout. Сопоставлены две его реализации – на основе использования парадигмы MapReduce и программной конструкции (framework) Spark с математической средой Mahout Samsara, которая создает семантически дружественные условия для линейной алгебры, построена по образу базового пакета в R, содержит алгебраический DSL Scala и оптимизатор выражений. Библиотека ML Mllib поддерживает универсальную масштабируемую линейную алгебру и включает в себя многие современные алгоритмы. Розглянуто машинне навчання і розподілена обробка даних з Apache Mahout. Зіставлені дві його реалізації – з використанням парадигми MapReduce та програмної конструкції Spark з математичним середовищем Mahout Samsara, яке створює семантично дружні умови для лінійної алгебри, побудоване за образом базового пакета в R, містить алгебраїчний DSL Scala та оптимізатор виразів. Бібліотека ML Mllib підтримує універсальну масштабовану лінійну алгебру і включає в себе чимало сучасних алгоритмів. The machine Learning (Machine Learning, ML) and distributed processing of the large data collections on Apache Mahout with the automatic search ability for relevant laws are considered. Its realization through the use of MapReduce paradigm and framework Spark is compared. The representation of data and mechanisms to restore their failures, the method of calculation and the ability to cache data in memory are considered. The latter is a key tool for fast interactive use. Spark is implemented on Scala. It combines the best features of functional and object-oriented programming languages, and uses it as an application of the environment development. It provides the application programming interface for the Java language, Scala, Python and R, invites more than 80 high-level operators that makes it easily accessible for the construction of a parallel applications. Interactive mathematical environment Mahout Samsara ML includes an extended version of Scala. Mahout Samsara or the Scala & Spark Bindings are necessary for creation the semantically friendly conditions for еру linear algebra, and is built in the image of the base package in R. The linear algebra works with scalars, vectors, matrices and distribution lines of the matrices (distributed row matrix, DRMs). DRM is a new abstraction, introduced in Apache Mahout for the representation and processing matrices convenience. One of the main elements of Mahout Samsara is algebraic DSL Scala and expressions optimizer. ML Mllib, supports the scalable universal linear algebra and includes many modern algorithms.
first_indexed 2025-11-27T05:41:20Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-113401
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 0130-5395
language Russian
last_indexed 2025-11-27T05:41:20Z
publishDate 2016
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Урсатьев, А.А.
2017-02-07T20:45:08Z
2017-02-07T20:45:08Z
2016
Некоторые программные среды аналитики больших данных и машинного обучения / А.А. Урсатьев // Управляющие системы и машины. — 2016. — № 5. — С. 62-75. — Бібліогр.: 82 назв. — рос.
0130-5395
https://nasplib.isofts.kiev.ua/handle/123456789/113401
004.7:004.75:004.9:004.738.5
Рассмотрено машинное обучение и распределенная обработка данных на Apache Mahout. Сопоставлены две его реализации – на основе использования парадигмы MapReduce и программной конструкции (framework) Spark с математической средой Mahout Samsara, которая создает семантически дружественные условия для линейной алгебры, построена по образу базового пакета в R, содержит алгебраический DSL Scala и оптимизатор выражений. Библиотека ML Mllib поддерживает универсальную масштабируемую линейную алгебру и включает в себя многие современные алгоритмы.
Розглянуто машинне навчання і розподілена обробка даних з Apache Mahout. Зіставлені дві його реалізації – з використанням парадигми MapReduce та програмної конструкції Spark з математичним середовищем Mahout Samsara, яке створює семантично дружні умови для лінійної алгебри, побудоване за образом базового пакета в R, містить алгебраїчний DSL Scala та оптимізатор виразів. Бібліотека ML Mllib підтримує універсальну масштабовану лінійну алгебру і включає в себе чимало сучасних алгоритмів.
The machine Learning (Machine Learning, ML) and distributed processing of the large data collections on Apache Mahout with the automatic search ability for relevant laws are considered. Its realization through the use of MapReduce paradigm and framework Spark is compared. The representation of data and mechanisms to restore their failures, the method of calculation and the ability to cache data in memory are considered. The latter is a key tool for fast interactive use. Spark is implemented on Scala. It combines the best features of functional and object-oriented programming languages, and uses it as an application of the environment development. It provides the application programming interface for the Java language, Scala, Python and R, invites more than 80 high-level operators that makes it easily accessible for the construction of a parallel applications. Interactive mathematical environment Mahout Samsara ML includes an extended version of Scala. Mahout Samsara or the Scala & Spark Bindings are necessary for creation the semantically friendly conditions for еру linear algebra, and is built in the image of the base package in R. The linear algebra works with scalars, vectors, matrices and distribution lines of the matrices (distributed row matrix, DRMs). DRM is a new abstraction, introduced in Apache Mahout for the representation and processing matrices convenience. One of the main elements of Mahout Samsara is algebraic DSL Scala and expressions optimizer. ML Mllib, supports the scalable universal linear algebra and includes many modern algorithms.
Автор выражает благодарность за помощь в подготовке фрагментов материала настоящей работы В. Духновскому
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Управляющие системы и машины
Методы и средства обработки данных и знаний
Некоторые программные среды аналитики больших данных и машинного обучения
Деякі програмні середовища аналітики великих даних і машинного навчання
Some Frameworks for Big Data Analytics and Machine Learning
Article
published earlier
spellingShingle Некоторые программные среды аналитики больших данных и машинного обучения
Урсатьев, А.А.
Методы и средства обработки данных и знаний
title Некоторые программные среды аналитики больших данных и машинного обучения
title_alt Деякі програмні середовища аналітики великих даних і машинного навчання
Some Frameworks for Big Data Analytics and Machine Learning
title_full Некоторые программные среды аналитики больших данных и машинного обучения
title_fullStr Некоторые программные среды аналитики больших данных и машинного обучения
title_full_unstemmed Некоторые программные среды аналитики больших данных и машинного обучения
title_short Некоторые программные среды аналитики больших данных и машинного обучения
title_sort некоторые программные среды аналитики больших данных и машинного обучения
topic Методы и средства обработки данных и знаний
topic_facet Методы и средства обработки данных и знаний
url https://nasplib.isofts.kiev.ua/handle/123456789/113401
work_keys_str_mv AT ursatʹevaa nekotoryeprogrammnyesredyanalitikibolʹšihdannyhimašinnogoobučeniâ
AT ursatʹevaa deâkíprogramníseredoviŝaanalítikivelikihdanihímašinnogonavčannâ
AT ursatʹevaa someframeworksforbigdataanalyticsandmachinelearning