The majority classes’ reducing method of imbalanced datasets
To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has bee...
Gespeichert in:
| Datum: | 2018 |
|---|---|
| Hauptverfasser: | , |
| Format: | Artikel |
| Sprache: | Russian |
| Veröffentlicht: |
Інститут проблем реєстрації інформації НАН України
2018
|
| Schlagworte: | |
| Online Zugang: | http://drsp.ipri.kiev.ua/article/view/142902 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | Data Recording, Storage & Processing |
Institution
Data Recording, Storage & Processing| id |
drspiprikievua-article-142902 |
|---|---|
| record_format |
ojs |
| institution |
Data Recording, Storage & Processing |
| baseUrl_str |
|
| datestamp_date |
2019-12-27T08:19:56Z |
| collection |
OJS |
| language |
Russian |
| topic |
example classification majority class minority class quality metric sample sampling |
| spellingShingle |
example classification majority class minority class quality metric sample sampling Kavrin, D. A. Subbotin, S. A. The majority classes’ reducing method of imbalanced datasets |
| topic_facet |
example classification majority class minority class quality metric sample sampling выборка классификация метрика мажоритарный класс миноритарный класс сэмплинг экземпляр вибірка екземпляр класифікація метрика якості мажоритарний клас міноритарний клас семплінг |
| format |
Article |
| author |
Kavrin, D. A. Subbotin, S. A. |
| author_facet |
Kavrin, D. A. Subbotin, S. A. |
| author_sort |
Kavrin, D. A. |
| title |
The majority classes’ reducing method of imbalanced datasets |
| title_short |
The majority classes’ reducing method of imbalanced datasets |
| title_full |
The majority classes’ reducing method of imbalanced datasets |
| title_fullStr |
The majority classes’ reducing method of imbalanced datasets |
| title_full_unstemmed |
The majority classes’ reducing method of imbalanced datasets |
| title_sort |
majority classes’ reducing method of imbalanced datasets |
| title_alt |
Метод редукции мажоритарного класса в несбалансированных выборках Метод редукції мажоритарного класу в незбалансованих вибірках |
| description |
To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. The method consists of two phases. The first phase is reducing the size of the original imbalanced large-sized dataset while maintaining important topological properties by reducing the majority class. The second phase is restoring the quantitative balance of the classes by generating synthetic examples of a smaller class. Thus, in the conditions of the class imbalance, the method has allowed restoring the balance and reducing the training sample while maintaining important topological properties of the original imbalanced large-sized dataset, creating high accuracy model within acceptable operating time. The software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software. The method and software for sample selection have been developed. They allow automating the process of training sample selection in conditions of class imbalance for the synthesis of diagnostic and recognition models by precedents. Prospects for the further research lay in developing the implementation of the proposed method for multiprocessor systems operating in parallel modes, as well as its experimental study on the larger datasets of practical problems of different nature and dimension. |
| publisher |
Інститут проблем реєстрації інформації НАН України |
| publishDate |
2018 |
| url |
http://drsp.ipri.kiev.ua/article/view/142902 |
| work_keys_str_mv |
AT kavrinda themajorityclassesreducingmethodofimbalanceddatasets AT subbotinsa themajorityclassesreducingmethodofimbalanceddatasets AT kavrinda metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah AT subbotinsa metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah AT kavrinda metodredukcíímažoritarnogoklasuvnezbalansovanihvibírkah AT subbotinsa metodredukcíímažoritarnogoklasuvnezbalansovanihvibírkah AT kavrinda majorityclassesreducingmethodofimbalanceddatasets AT subbotinsa majorityclassesreducingmethodofimbalanceddatasets |
| first_indexed |
2025-07-17T10:56:58Z |
| last_indexed |
2025-07-17T10:56:58Z |
| _version_ |
1850411220476100608 |
| spelling |
drspiprikievua-article-1429022019-12-27T08:19:56Z The majority classes’ reducing method of imbalanced datasets Метод редукции мажоритарного класса в несбалансированных выборках Метод редукції мажоритарного класу в незбалансованих вибірках Kavrin, D. A. Subbotin, S. A. example classification majority class minority class quality metric sample sampling выборка классификация метрика мажоритарный класс миноритарный класс сэмплинг экземпляр вибірка екземпляр класифікація метрика якості мажоритарний клас міноритарний клас семплінг To speed up the process of diagnostic and recognition model constructing, it is necessary to extract a subsample of a smaller volume from the original sample, which will preserve the basic properties of the dataset. The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. The method consists of two phases. The first phase is reducing the size of the original imbalanced large-sized dataset while maintaining important topological properties by reducing the majority class. The second phase is restoring the quantitative balance of the classes by generating synthetic examples of a smaller class. Thus, in the conditions of the class imbalance, the method has allowed restoring the balance and reducing the training sample while maintaining important topological properties of the original imbalanced large-sized dataset, creating high accuracy model within acceptable operating time. The software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software. The method and software for sample selection have been developed. They allow automating the process of training sample selection in conditions of class imbalance for the synthesis of diagnostic and recognition models by precedents. Prospects for the further research lay in developing the implementation of the proposed method for multiprocessor systems operating in parallel modes, as well as its experimental study on the larger datasets of practical problems of different nature and dimension. Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения. Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує. Інститут проблем реєстрації інформації НАН України 2018-04-03 Article Article Рецензована Стаття application/pdf http://drsp.ipri.kiev.ua/article/view/142902 10.35681/1560-9189.2018.20.1.142902 Data Recording, Storage & Processing; Vol. 20 No. 1 (2018); 51–59 Регистрация, хранение и обработка данных; Том 20 № 1 (2018); 51–59 Реєстрація, зберігання і обробка даних; Том 20 № 1 (2018); 51–59 1560-9189 ru http://drsp.ipri.kiev.ua/article/view/142902/140351 Авторське право (c) 2021 Реєстрація, зберігання і обробка даних |