Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування
Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the...
Saved in:
| Date: | 2025 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | English |
| Published: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2025
|
| Subjects: | |
| Online Access: | http://journal.iasa.kpi.ua/article/view/301918 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | System research and information technologies |
Institution
System research and information technologies| _version_ | 1856543591867875328 |
|---|---|
| author | Popov, Andrii |
| author_facet | Popov, Andrii |
| author_sort | Popov, Andrii |
| baseUrl_str | |
| collection | OJS |
| datestamp_date | 2025-05-20T17:56:07Z |
| description | Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the multiple imputation method in Python and R languages. Selected classifiers are Logistic Regression, Random Forest, Support Vector Machine, and Light Gradient Boosting Machine. The performance quality of forecasting models is estimated using accuracy, precision, and recall metrics. Two datasets were used as binary classification problems with different target metrics. The highest performance was achieved when the R implementation of the multiple imputation method was combined with RF and LGBM classifiers. |
| first_indexed | 2025-07-17T10:28:28Z |
| format | Article |
| id | journaliasakpiua-article-301918 |
| institution | System research and information technologies |
| language | English |
| last_indexed | 2025-09-17T09:26:01Z |
| publishDate | 2025 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| spelling | journaliasakpiua-article-3019182025-05-20T17:56:07Z Efficiency comparison of missing data imputation methods in predictive model creation Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування Popov, Andrii missing data imputation methods forecasting models machine learning пропущені дані методи заповнення прогнозні моделі машинне навчання Missing data is a common issue in data analysis and machine learning. This article analyzes the impact of missing data imputation methods during the data preprocessing stage on the quality of forecasting models. Selected methods are listwise deletion, mean imputation, and two implementations of the multiple imputation method in Python and R languages. Selected classifiers are Logistic Regression, Random Forest, Support Vector Machine, and Light Gradient Boosting Machine. The performance quality of forecasting models is estimated using accuracy, precision, and recall metrics. Two datasets were used as binary classification problems with different target metrics. The highest performance was achieved when the R implementation of the multiple imputation method was combined with RF and LGBM classifiers. Наявність пропущених даних є поширеною проблемою в аналізі даних та машинному навчанні. У роботі проаналізовано залежності якості прогнозування моделей машинного навчання від використаних методів оброблення пропущених даних на етапі підготовки даних до навчання моделей. Досліджуваними методами є аналіз повних спостережень, заповнення середнім та дві реалізації методу множинного заповнення — мовами Python та R. Обраними класифікаторами є логістична регресія, метод випадкового лісу, метод опорних векторів та Light Gradient Boosting Machine (LGBM). Якість прогнозних моделей оцінюється за метриками accuracy, precision та recall. Розглянуто два набори даних із задачами класифікації, що мають різні цільові метрики. Найкращі результати досягнуто з використанням алгоритму множинного заповнення у реалізації мовою R у поєднанні з класифікаторами випадкового лісу та LGBM. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2025-03-28 Article Article application/pdf http://journal.iasa.kpi.ua/article/view/301918 10.20535/SRIT.2308-8893.2025.1.03 System research and information technologies; No. 1 (2025); 32-43 Системные исследования и информационные технологии; № 1 (2025); 32-43 Системні дослідження та інформаційні технології; № 1 (2025); 32-43 2308-8893 1681-6048 en http://journal.iasa.kpi.ua/article/view/301918/318901 |
| spellingShingle | пропущені дані методи заповнення прогнозні моделі машинне навчання Popov, Andrii Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title | Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title_alt | Efficiency comparison of missing data imputation methods in predictive model creation |
| title_full | Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title_fullStr | Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title_full_unstemmed | Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title_short | Порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| title_sort | порівняння ефективності методів заповнення пропущених даних під час розроблення моделей прогнозування |
| topic | пропущені дані методи заповнення прогнозні моделі машинне навчання |
| topic_facet | missing data imputation methods forecasting models machine learning пропущені дані методи заповнення прогнозні моделі машинне навчання |
| url | http://journal.iasa.kpi.ua/article/view/301918 |
| work_keys_str_mv | AT popovandrii efficiencycomparisonofmissingdataimputationmethodsinpredictivemodelcreation AT popovandrii porívnânnâefektivnostímetodívzapovnennâpropuŝenihdanihpídčasrozroblennâmodelejprognozuvannâ |