Алгоритми очищення статистичної вибірки від аномалій для задач data science

The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2023
Hauptverfasser: Pysarchuk, Oleksii, Baran, Danylo, Mironov, Yurii, Pysarchuk, Illya
Format: Artikel
Sprache:Englisch
Veröffentlicht: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2023
Schlagworte:
Online Zugang:http://journal.iasa.kpi.ua/article/view/260175
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:System research and information technologies

Institution

System research and information technologies
_version_ 1856543553654620160
author Pysarchuk, Oleksii
Baran, Danylo
Mironov, Yurii
Pysarchuk, Illya
author_facet Pysarchuk, Oleksii
Baran, Danylo
Mironov, Yurii
Pysarchuk, Illya
author_sort Pysarchuk, Oleksii
baseUrl_str
collection OJS
datestamp_date 2023-05-24T21:28:17Z
description The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative simplicity and a small number of configurable parameters. Parameters are determined by machine learning with respect to the properties of input data. These algorithms are flexible and have no strict dependency on the nature and origin of data. The efficiency of the proposed approaches is verified with a modeling experiment conducted using algorithms implemented in Python. The results are illustrated with plots built using raw and processed datasets. The algorithms application is analyzed, and results are compared.
first_indexed 2025-07-17T10:27:54Z
format Article
id journaliasakpiua-article-260175
institution System research and information technologies
language English
last_indexed 2025-07-17T10:27:54Z
publishDate 2023
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
spelling journaliasakpiua-article-2601752023-05-24T21:28:17Z Algorithms of statistical anomalies clearing for data science applications АЛГОРИТМЫ ОЧИЩЕНИЯ СТАТИСТИЧЕСКОЙ ВЫБОРКИ ОТ АНОМАЛИЙ ДЛЯ ЗАДАЧ DATA SCIENCE Алгоритми очищення статистичної вибірки від аномалій для задач data science Pysarchuk, Oleksii Baran, Danylo Mironov, Yurii Pysarchuk, Illya очищення від аномалій виявлення аномалій видалення шуму статистичні методи аналіз даних великі дані очищення даних anomaly removal anomaly detection noise removal statistical techniques data analysis big data data cleaning The paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative simplicity and a small number of configurable parameters. Parameters are determined by machine learning with respect to the properties of input data. These algorithms are flexible and have no strict dependency on the nature and origin of data. The efficiency of the proposed approaches is verified with a modeling experiment conducted using algorithms implemented in Python. The results are illustrated with plots built using raw and processed datasets. The algorithms application is analyzed, and results are compared. Розглянуто природу даних, що використовуються в задачах сучасних прикладних областей. Запропоновано декілька алгоритмів очищення статистичної вибірки від аномалій в конвеєрі задач Data Science. Відзнакою та перевагою запропонованих алгоритмів є їх відносна простота та обмежена кількість параметрів налаштувань, що визначаються за технологіями навчання відповідно до властивостей вхідних статистичних даних. Запропоновані алгоритми є достатньо гнучкими у використанні і не залежать від природи та походження даних. Результати модельного експерименту запропонованих підходів у вигляді скриптів мовою Python та базових бібліотек довели їх ефективність. Результати проілюстровано графіками, побудованими з використанням початкових даних та даних, що змінені за допомогою запропонованих алгоритмів. Застосування алгоритмів проаналізовано та порівняно результати виконання алгоритмів. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2023-03-30 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/260175 10.20535/SRIT.2308-8893.2023.1.06 System research and information technologies; No. 1 (2023); 78-84 Системные исследования и информационные технологии; № 1 (2023); 78-84 Системні дослідження та інформаційні технології; № 1 (2023); 78-84 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/260175/274360
spellingShingle очищення від аномалій
виявлення аномалій
видалення шуму
статистичні методи
аналіз даних
великі дані
очищення даних
Pysarchuk, Oleksii
Baran, Danylo
Mironov, Yurii
Pysarchuk, Illya
Алгоритми очищення статистичної вибірки від аномалій для задач data science
title Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_alt Algorithms of statistical anomalies clearing for data science applications
АЛГОРИТМЫ ОЧИЩЕНИЯ СТАТИСТИЧЕСКОЙ ВЫБОРКИ ОТ АНОМАЛИЙ ДЛЯ ЗАДАЧ DATA SCIENCE
title_full Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_fullStr Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_full_unstemmed Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_short Алгоритми очищення статистичної вибірки від аномалій для задач data science
title_sort алгоритми очищення статистичної вибірки від аномалій для задач data science
topic очищення від аномалій
виявлення аномалій
видалення шуму
статистичні методи
аналіз даних
великі дані
очищення даних
topic_facet очищення від аномалій
виявлення аномалій
видалення шуму
статистичні методи
аналіз даних
великі дані
очищення даних
anomaly removal
anomaly detection
noise removal
statistical techniques
data analysis
big data
data cleaning
url http://journal.iasa.kpi.ua/article/view/260175
work_keys_str_mv AT pysarchukoleksii algorithmsofstatisticalanomaliesclearingfordatascienceapplications
AT barandanylo algorithmsofstatisticalanomaliesclearingfordatascienceapplications
AT mironovyurii algorithmsofstatisticalanomaliesclearingfordatascienceapplications
AT pysarchukillya algorithmsofstatisticalanomaliesclearingfordatascienceapplications
AT pysarchukoleksii algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience
AT barandanylo algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience
AT mironovyurii algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience
AT pysarchukillya algoritmyočiŝeniâstatističeskojvyborkiotanomalijdlâzadačdatascience
AT pysarchukoleksii algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience
AT barandanylo algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience
AT mironovyurii algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience
AT pysarchukillya algoritmiočiŝennâstatističnoívibírkivídanomalíjdlâzadačdatascience