Метод редукции мажоритарного класса в несбалансированных выборках

Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет знач...

Full description

Saved in:
Bibliographic Details
Published in:Реєстрація, зберігання і обробка даних
Date:2018
Main Authors: Каврин, Д.А., Субботин, С.А.
Format: Article
Language:Russian
Published: Інститут проблем реєстрації інформації НАН України 2018
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/168688
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Метод редукции мажоритарного класса в несбалансированных выборках / Д.А. Каврин, С.А. Субботин // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 1. — С. 51–59. — Бібліогр.: 14 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862709622161276928
author Каврин, Д.А.
Субботин, С.А.
author_facet Каврин, Д.А.
Субботин, С.А.
citation_txt Метод редукции мажоритарного класса в несбалансированных выборках / Д.А. Каврин, С.А. Субботин // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 1. — С. 51–59. — Бібліогр.: 14 назв. — рос.
collection DSpace DC
container_title Реєстрація, зберігання і обробка даних
description Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения. Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує. The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. he software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software.
first_indexed 2025-12-07T17:18:44Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-168688
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1560-9189
language Russian
last_indexed 2025-12-07T17:18:44Z
publishDate 2018
publisher Інститут проблем реєстрації інформації НАН України
record_format dspace
spelling Каврин, Д.А.
Субботин, С.А.
2020-05-07T18:31:39Z
2020-05-07T18:31:39Z
2018
Метод редукции мажоритарного класса в несбалансированных выборках / Д.А. Каврин, С.А. Субботин // Реєстрація, зберігання і обробка даних. — 2018. — Т. 20, № 1. — С. 51–59. — Бібліогр.: 14 назв. — рос.
1560-9189
DOI: https://doi.org/10.35681/1560-9189.2018.20.1.142902
https://nasplib.isofts.kiev.ua/handle/123456789/168688
004.93
Рассмотрены проблемы формирования обучающих выборок для построения диагностических и распознающих моделей по прецедентам в условиях несбалансированности классов. Предложен метод автоматизации формирования обучающих выборок из исходных несбалансированных выборок большого размера. Метод позволяет значительно сократить размер исходной выборки с сохранением важных топологических свойств путем редукции мажоритарного класса и восстановить количественный баланс классов. Разработано программное обеспечение, реализующее предложенный метод, которое было использовано при проведении вычислительных экспериментов на синтетических и реальных данных. Проведенные эксперименты подтвердили работоспособность и эффективность предложенного метода и реализующего его программного обеспечения.
Розглянуто проблему формування навчальних вибірок для побудови діагностичних і розпізнавальних моделей за прецедентами в умовах незбалансованості класів. Запропоновано метод автоматизації формування навчальних вибірок з вихідних незбалансованих вибірок великого розміру. Метод дозволяє значно скоротити розмір вихідної вибірки зі збереженням важливих топологічних властивостей шляхом редукції мажоритарного класу та відновити кількісний баланс класів. Розроблено програмне забезпечення, що реалізує запропонований метод, яке було використано при виконанні обчислювальних експериментів на синтетичних і реальних даних. Проведені експерименти підтвердили працездатність та ефективність запропонованого методу та програмного забезпечення, що його реалізує.
The problem of the sample selection from the imbalanced large-sized datasets has been addressed for constructing of the diagnostic and pattern recognition models. The goal of the work is the creation of the sampling’s automatization method from the imbalanced large-sized dataset, based on the principles of undersampling. The method of automatization of sample selection from the original imbalanced large-sized dataset has been proposed. he software implementing proposed method has been developed and used in the computational experiments on synthetic and real imbalanced datasets. The conducted experiments confirmed the efficiency and working capacity of the proposed method and its implemented software.
ru
Інститут проблем реєстрації інформації НАН України
Реєстрація, зберігання і обробка даних
Технічні засоби отримання і обробки даних
Метод редукции мажоритарного класса в несбалансированных выборках
Метод редукції мажоритарного класу в незбалансованих вибірка
The majority classes’ reducing method of imbalanced datasets
Article
published earlier
spellingShingle Метод редукции мажоритарного класса в несбалансированных выборках
Каврин, Д.А.
Субботин, С.А.
Технічні засоби отримання і обробки даних
title Метод редукции мажоритарного класса в несбалансированных выборках
title_alt Метод редукції мажоритарного класу в незбалансованих вибірка
The majority classes’ reducing method of imbalanced datasets
title_full Метод редукции мажоритарного класса в несбалансированных выборках
title_fullStr Метод редукции мажоритарного класса в несбалансированных выборках
title_full_unstemmed Метод редукции мажоритарного класса в несбалансированных выборках
title_short Метод редукции мажоритарного класса в несбалансированных выборках
title_sort метод редукции мажоритарного класса в несбалансированных выборках
topic Технічні засоби отримання і обробки даних
topic_facet Технічні засоби отримання і обробки даних
url https://nasplib.isofts.kiev.ua/handle/123456789/168688
work_keys_str_mv AT kavrinda metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah
AT subbotinsa metodredukciimažoritarnogoklassavnesbalansirovannyhvyborkah
AT kavrinda metodredukcíímažoritarnogoklasuvnezbalansovanihvibírka
AT subbotinsa metodredukcíímažoritarnogoklasuvnezbalansovanihvibírka
AT kavrinda themajorityclassesreducingmethodofimbalanceddatasets
AT subbotinsa themajorityclassesreducingmethodofimbalanceddatasets