The majority classes’ reducing method of imbalanced datasets

To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has bee...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2018
Автори: Kavrin, D. A., Subbotin, S. A.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут проблем реєстрації інформації НАН України 2018
Теми:
Онлайн доступ:http://drsp.ipri.kiev.ua/article/view/142902
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Data Recording, Storage & Processing

Репозитарії

Data Recording, Storage & Processing
id drspiprikievua-article-142902
record_format ojs
institution Data Recording, Storage & Processing
baseUrl_str
datestamp_date 2019-12-27T08:19:56Z
collection OJS
language Russian
topic example
classification
majority class
minority class
quality metric
sample
sampling
spellingShingle example
classification
majority class
minority class
quality metric
sample
sampling
Kavrin, D. A.
Subbotin, S. A.
The majority classes’ reducing method of imbalanced datasets
topic_facet example
classification
majority class
minority class
quality metric
sample
sampling
выборка
классификация
метрика
мажоритарный класс
миноритарный класс
сэмплинг
экземпляр
вибірка
екземпляр
класифікація
метрика якості
мажоритарний клас
міноритарний клас
семплінг
format Article
author Kavrin, D. A.
Subbotin, S. A.
author_facet Kavrin, D. A.
Subbotin, S. A.
author_sort Kavrin, D. A.
title The majority classes’ reducing method of imbalanced datasets
title_short The majority classes’ reducing method of imbalanced datasets
title_full The majority classes’ reducing method of imbalanced datasets
title_fullStr The majority classes’ reducing method of imbalanced datasets
title_full_unstemmed The majority classes’ reducing method of imbalanced datasets
title_sort majority classes’ reducing method of imbalanced datasets
title_alt Метод редукции мажоритарного класса в несбалансированных выборках
Метод редукції мажоритарного класу в незбалансованих вибірках
description To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. The method consists of two phases. The first phase is reducing the size of the original imbalanced large-sized dataset while maintaining important topological properties by reducing the majority class. The second phase is restoring the quantitative balance of the classes by generating synthetic examples of a smaller class. Thus, in the conditions of the class imbalance, the method has allowed restoring the balance and reducing the training sample while maintaining important topological properties of the original imbalanced large-sized dataset, creating high accuracy model within acceptable operating time. The software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software. The method and software for sample selection have been developed. They allow automating the process of training sample selection in conditions of class imbalance for the synthesis of diagnostic and recognition models by precedents. Prospects for the further research lay in developing the implementation of the proposed method for multiprocessor systems operating in parallel modes, as well as its experimental study on the larger datasets of practical problems of different nature and dimension.
publisher Інститут проблем реєстрації інформації НАН України
publishDate 2018
url http://drsp.ipri.kiev.ua/article/view/142902
work_keys_str_mv AT kavrinda themajorityclassesreducingmethodofimbalanceddatasets
AT subbotinsa themajorityclassesreducingmethodofimbalanceddatasets
AT kavrinda metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah
AT subbotinsa metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah
AT kavrinda metodredukcíímažoritarnogoklasuvnezbalansovanihvibírkah
AT subbotinsa metodredukcíímažoritarnogoklasuvnezbalansovanihvibírkah
AT kavrinda majorityclassesreducingmethodofimbalanceddatasets
AT subbotinsa majorityclassesreducingmethodofimbalanceddatasets
first_indexed 2025-07-17T10:56:58Z
last_indexed 2025-07-17T10:56:58Z
_version_ 1850411220476100608
spelling drspiprikievua-article-1429022019-12-27T08:19:56Z The majority classes’ reducing method of imbalanced datasets Метод редукции мажоритарного класса в несбалансированных выборках Метод редукції мажоритарного класу в незбалансованих вибірках Kavrin, D. A. Subbotin, S. A. example classification majority class minority class quality metric sample sampling выборка классификация метрика мажоритарный класс миноритарный класс сэмплинг экземпляр вибірка екземпляр класифікація метрика якості мажоритарний клас міноритарний клас семплінг To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. The method consists of two phases. The first phase is reducing the size of the original imbalanced large-sized dataset while maintaining important topological properties by reducing the majority class. The second phase is restoring the quantitative balance of the classes by generating synthetic examples of a smaller class. Thus, in the conditions of the class imbalance, the method has allowed restoring the balance and reducing the training sample while maintaining important topological properties of the original imbalanced large-sized dataset, creating high accuracy model within acceptable operating time. The software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software. The method and software for sample selection have been developed. They allow automating the process of training sample selection in conditions of class imbalance for the synthesis of diagnostic and recognition models by precedents. Prospects for the further research lay in developing the implementation of the proposed method for multiprocessor systems operating in parallel modes, as well as its experimental study on the larger datasets of practical problems of different nature and dimension. Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения. Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує. Інститут проблем реєстрації інформації НАН України 2018-04-03 Article Article Рецензована Стаття application/pdf http://drsp.ipri.kiev.ua/article/view/142902 10.35681/1560-9189.2018.20.1.142902 Data Recording, Storage & Processing; Vol. 20 No. 1 (2018); 51–59 Регистрация, хранение и обработка данных; Том 20 № 1 (2018); 51–59 Реєстрація, зберігання і обробка даних; Том 20 № 1 (2018); 51–59 1560-9189 ru http://drsp.ipri.kiev.ua/article/view/142902/140351 Авторське право (c) 2021 Реєстрація, зберігання і обробка даних