Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування

Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the...

Full description

Saved in:
Bibliographic Details
Date:2025
Main Author: Popov, Andrii
Format: Article
Language:English
Published: The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2025
Subjects:
Online Access:http://journal.iasa.kpi.ua/article/view/301918
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:System research and information technologies

Institution

System research and information technologies
_version_ 1856543591867875328
author Popov, Andrii
author_facet Popov, Andrii
author_sort Popov, Andrii
baseUrl_str
collection OJS
datestamp_date 2025-05-20T17:56:07Z
description Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the multiple imputation method in Python and R languages. Selected classifiers are Logistic Regression, Random Forest, Support Vector Machine, and Light Gradient Boosting Machine. The performance quality of forecasting models is estimated using accuracy, precision, and recall metrics. Two datasets were used as binary classification problems with different target metrics. The highest performance was achieved when the R implementation of the multiple imputation method was combined with RF and LGBM classifiers.
first_indexed 2025-07-17T10:28:28Z
format Article
id journaliasakpiua-article-301918
institution System research and information technologies
language English
last_indexed 2025-09-17T09:26:01Z
publishDate 2025
publisher The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format ojs
spelling journaliasakpiua-article-3019182025-05-20T17:56:07Z Efficiency comparison of missing data imputation methods in predictive model creation Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування Popov, Andrii missing data imputation methods forecasting models machine learning пропущені дані методи заповнення прогнозні моделі машинне навчання Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the multiple imputation method in Python and R languages. Selected classifiers are Logistic Regression, Random Forest, Support Vector Machine, and Light Gradient Boosting Machine. The performance quality of forecasting models is estimated using accuracy, precision, and recall metrics. Two datasets were used as binary classification problems with different target metrics. The highest performance was achieved when the R implementation of the multiple imputation method was combined with RF and LGBM classifiers. Наявність пропущених даних є поширеною проблемою в аналізі даних та машинному навчанні. У роботі проаналізовано залежності якості прогнозування моделей машинного навчання від використаних методів оброблення пропущених даних на етапі підготовки даних до навчання моделей. Досліджуваними методами є аналіз повних спостережень, заповнення середнім та дві реалізації методу множинного заповнення — мовами Python та R. Обраними класифікаторами є логістична регресія, метод випадкового лісу, метод опорних векторів та Light Gradient Boosting Machine (LGBM). Якість прогнозних моделей оцінюється за метриками accuracy, precision та recall. Розглянуто два набори даних із задачами класифікації, що мають різні цільові метрики. Найкращі результати досягнуто з використанням алгоритму множинного заповнення у реалізації мовою R у поєднанні з класифікаторами випадкового лісу та LGBM. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2025-03-28 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/301918 10.20535/SRIT.2308-8893.2025.1.03 System research and information technologies; No. 1 (2025); 32-43 Системные исследования и информационные технологии; № 1 (2025); 32-43 Системні дослідження та інформаційні технології; № 1 (2025); 32-43 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/301918/318901
spellingShingle пропущені дані
методи заповнення
прогнозні моделі
машинне навчання
Popov, Andrii
Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title_alt Efficiency comparison of missing data imputation methods in predictive model creation
title_full Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title_fullStr Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title_full_unstemmed Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title_short Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
title_sort порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
topic пропущені дані
методи заповнення
прогнозні моделі
машинне навчання
topic_facet missing data
imputation methods
forecasting models
machine learning
пропущені дані
методи заповнення
прогнозні моделі
машинне навчання
url http://journal.iasa.kpi.ua/article/view/301918
work_keys_str_mv AT popovandrii efficiencycomparisonofmissingdataimputationmethodsinpredictivemodelcreation
AT popovandrii porívnânnâefektivnostímetodívzapovnennâpropuŝenihdanihpídčasrozroblennâmodelejprognozuvannâ