Построение классификаторов на несбалансированных выборках на примере кредитного скоринга
В статье рассмотрена проблема построения эффективных бинарных классификаторов в условиях, когда классы сильно несбалансированы. Показана их связь с издержками классификации, рассмотрены стратегии борьбы с несбалансированностью и проведены эксперименты на кредитных историях российских банков. У стат...
Saved in:
| Published in: | Штучний інтелект |
|---|---|
| Date: | 2010 |
| Main Authors: | , , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем штучного інтелекту МОН України та НАН України
2010
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/56571 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга / Н.Б. Паклин, С.В. Уланов, С.В. Царьков // Штучний інтелект. — 2010. — № 3. — С. 528-534. — Бібліогр.: 7 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860086632456126464 |
|---|---|
| author | Паклин, Н.Б. Уланов, С.В. Царьков, С.В. |
| author_facet | Паклин, Н.Б. Уланов, С.В. Царьков, С.В. |
| citation_txt | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга / Н.Б. Паклин, С.В. Уланов, С.В. Царьков // Штучний інтелект. — 2010. — № 3. — С. 528-534. — Бібліогр.: 7 назв. — рос. |
| collection | DSpace DC |
| container_title | Штучний інтелект |
| description | В статье рассмотрена проблема построения эффективных бинарных классификаторов в условиях, когда классы сильно несбалансированы. Показана их связь с издержками классификации, рассмотрены стратегии борьбы с несбалансированностью и проведены эксперименты на кредитных историях российских банков.
У статті розглянута проблема побудови ефективних бінарних класифікаторів в умовах, коли класи сильно незбалансовані. Показаний їх зв’язок з витратами класифікації, розглянуті стратегії боротьби з незбалансованістю та проведені експерименти на кредитних історіях російських банків.
The article discusses the problem of constructing efficient binary classifiers on imbalanced datasets. Costs of classification and strategies to win the imbalance are considered. Experiments on the credit histories of Russian banks are made.
|
| first_indexed | 2025-12-07T17:20:15Z |
| format | Article |
| fulltext |
«Искусственный интеллект» 3’2010 528
5П
УДК 62-50:15
Н.Б. Паклин1, С.В. Уланов2, С.В. Царьков1
1Рязанский филиал МЭСИ, г. Рязань, Россия
2Сарапульский политехнический институт, г. Сарапул, Россия
pnb@inbox.ru
Построение классификаторов
на несбалансированных выборках
на примере кредитного скоринга
В статье рассмотрена проблема построения эффективных бинарных классификаторов в условиях, когда
классы сильно несбалансированы. Показана их связь с издержками классификации, рассмотрены стратегии
борьбы с несбалансированностью и проведены эксперименты на кредитных историях российских банков.
Введение
При решении многих практических задач методами машинного обучения ис-
следователи сталкиваются с тем, что в обучающей выборке присутствует несбаланси-
рованность классов, то есть классы представлены неравномерно (imbalanced dataset).
В частности, эта проблема актуальна при построении бинарного классификатора при
решении задачи кредитного скоринга, так как доля «плохих» заемщиков крайне редко
превышает 15%, а в большинстве случаев находится на уровне 3-6%. Например, при
построении дерева классифицирующих правил [1] на такой обучающей выборке может
оказаться, что результирующая модель содержит крайне мало правил или вовсе «пус-
тое» дерево.
Несбалансированность классов оборачивается и другими трудностями. Классифи-
каторы, построенные на основе выборки, в которой репрезентативность классов несба-
лансирована, имеют в процессе практического использования склонность с большей
вероятностью относить новые наблюдения к классам, представленным большим числом
обучающих примеров. Поставленная проблема усложняется существенным различием
издержек ошибок классификации.
В случае если неблагонадежный клиент был распознан классификатором как «хо-
роший», то имеет место ошибка первого рода. Также возникают ситуации, когда благо-
надежный клиент распознан в качестве «плохого», такая ситуация называется ошибкой
второго рода. Издержки классификации в каждом случае существенно отличаются.
Совершенно очевидно, что убыток от выдачи кредита неблагонадежному клиенту во
много раз превышает упущенную прибыль при отказе «хорошему». То есть самым ин-
тересным оказывается наименее представленный класс.
Кредитный скоринг – это не единственная предметная область, где актуальна
указанная проблема несбалансированности [2]. При обнаружении мошенничеств ме-
дицинской диагностики также наблюдается несбалансированность классов с сущест-
венным различием издержек ошибочной классификации.
Цель данной работы заключалась в анализе существующих подходов к реше-
нию проблемы создания классификаторов на несбалансированных выборках и их
апробация на задаче кредитного скоринга, что сегодня очень востребовано в банков-
ских информационно-аналитических системах.
Построение классификаторов на несбалансированных выборках…
«Штучний інтелект» 3’2010 529
5П
Постановка задачи
Введем следующие два понятия. Класс, представленный в обучающих данных
меньшим числом примеров, назовем миноритарным (от англ. minority – меньшинство),
а представленный большим числом примеров – мажоритарным (от англ. majority – боль-
шинство).
Как известно, эффективность бинарного классификатора описывается матрицей
классификации. При этом обычно миноритарный класс принимается за положитель-
ный (1), а мажоритарный – за отрицательный (0). Тогда матрица будет иметь вид, пока-
занный на рис. 1.
Предсказанный класс
Класс «+» Класс «–»
Класс «+» Истинноположительный (11) Ложноотрицательный (10) Фактический
класс
Класс «–» Ложноположительный (01) Истинноотрицательный (00)
Рисунок 1 – Матрица классификации (случай с двумя классами)
Этой матрице будет соответствовать матрица издержек, которая показывает из-
держки, связанные со всеми четырьмя возможными исходами C11, C10, C01 и C00. Из-
держки в случае правильной классификации одинаковы, поэтому величины C11 и C00
полагаются равными 0. Также в силу того, что миноритарный класс представляет боль-
ший интерес, C01 < C10.
Формальная постановка задачи классификации с учетом издержек следующая.
Пусть имеем задачу построения бинарного классификатора на множестве обучаю-
щих примеров (Xi, y), i = 1,…, n, Xi – вектор признаков, y – метка класса из множества
Y = {1,2,…,J}. Кроме этого, предположим, что обучающая выборка была получена из
множества, распределенного по некоторому вероятностному закону P(X, y). Тогда
целью алгоритма обучения будет построение классификатора h, который делает воз-
можным правильное распознавание произвольных примеров, распределенных по
тому же закону с достаточно высокой вероятностью. Аналогично, если неправильное
распознавание ведет к издержкам (или потерям), то целью обучения будет миними-
зация полных ожидаемых издержек Ct:
∑=
),(
)),((),(
y
t yhCyPC
X
XX ,
где )),(( yhC X – функция издержек, выражающая удельные потери на пример (X, y).
Таким образом, полные издержки Ct представляют собой сумму издержек для всех
классифицируемых наблюдений.
Заметим, что в обычной задаче классификации функция издержек )),(( yhC X рав-
на 1 при ( ) yh ≠X и 0 – в противном случае. Классификаторы такого типа известны как
минимизаторы ожидаемых издержек. На практике издержки ошибочной классификации
неодинаковы для различных классов, функция издержек должна быть задана.
Пусть для классификатора h известна вероятность Ph(i, j) того, что случайно
выбранный пример относится к классу j, но распознается как i. Тогда ожидаемые из-
держки классификатора h будут равны:
( ) ( ) ( )∑∑
= =
=
m
i
m
j
h j,iCj,iPhL
1 1
. (1)
Следует отметить, что ( ) ( ) ( )jPjiPjiPh |, = , где P(j) – вероятность того, что от-
дельный пример относится к классу j, а ( )jiPh | – условная вероятность ошибочного
отнесения примеров класса j к классу i.
Паклин Н.Б., Уланов С.В., Царьков С.В.
«Искусственный интеллект» 3’2010 530
5П
Таким образом, целью задачи классификации с учетом издержек является нахожде-
ние классификатора, который минимизирует полные издержки на основе уравнения (1).
В кредитном скоринге часто в качестве выходной переменной большой интерес
представляет скоринговый балл, R = R(X), – непрерывное значение, лежащее в проме-
жутке [0, 1]. Значение R в данном случае можно рассматривать как некоторую оценоч-
ную вероятность того, что клиент с вектором признаков X принадлежит к классу 1.
Результат классификации в таком случае можно изменять путем повышения или пони-
жения порога отсечения t. Если ошибка классификации клиента из класса 1 к классу 0
в r раз важнее (например, если издержки высоки), то, согласно правилу Байеса, мини-
мальные издержки достигаются при 1)1( −+= rt . К сожалению, этот способ применим
лишь для классификаторов, которые на выходе дают возможность варьировать пара-
метром t. Например, логистическая регрессия или простой байесовский классификатор.
А такие эффективные нелинейные методы, как нейронные сети и машины опорных век-
торов, не обладают этой возможностью.
В связи с этим были разработаны альтернативные подходы для решения про-
блемы построения эффективных бинарных классификаторов, основанные на изменении
пропорций классов целевой переменной в выборке (специальные типы сэмплинга).
Изменение репрезентативности классов
Данный подход использует сэмплинг для изменения распределения классов и
называется восстановлением равновесия (rebalancing) с целью получения более сба-
лансированного обучающего множества [3], [4]. К основным методам сэмплинга от-
носят выборку с дублированием миноритарного класса (oversampling) и выборку с
удалением примеров мажоритарного класса (undersampling). В первой ситуации
случайным образом выбирается n записей миноритарного класса и их полностью ко-
пируют, во второй – удаляют k записей мажоритарного класса.
Возникает вопрос: на сколько конкретно нужно увеличивать число примеров ми-
норитарного (редкого) класса или удалять из мажоритарного класса? Ответ на этот во-
прос дает следующее утверждение, связывающее правило Байеса для определения
оптимального порога и число примеров обоих классов [5]: при использовании в клас-
сификаторе порога отсечения 0,5 и при условии, что C00 = C11 = 0, число примеров ми-
норитарного класса нужно увеличить в 0110 / CC раз.
Данное утверждение позволяет понять, как нужно изменить соотношение при-
меров в обучающем множестве, чтобы это было равносильно изменению порога от-
сечения для принятия решения о принадлежности к классу. Можно пойти другим
путем – уменьшить число записей мажоритарного класса в C10 / C01 раз.
Поясним утверждение на примере. Пусть имеется обучающее множество с кре-
дитными историями заемщиков, в котором 900 записей о хороших заемщиках и 100 – о
плохих (редкий класс). Пусть известно, что отношение издержек равно 5:1. Тогда по
правилу Байеса оптимальным порогом в логиcтической регрессии будет величина t > 1 /
(1+5) = 0,167 при условии, что мы не производим изменение баланса классов и за поло-
жительный исход принимаем плохого клиента. Если мы оставляем порог, равный 0,5, то
согласно процедуре oversampling необходимо продублировать еще 400 записей, относя-
щихся к плохим клиентам (общий объем выборки составит 1000 + 400 = 1400 примеров),
а согласно процедуре undersampling – уменьшить число хороших до 900 / 5 = 180 клиен-
там (общий объем выборки составит 180 + 100 = 280 примеров).
Помимо основных методов сэмплинга существуют и специальные. Так, главная
идея одностороннего сэмплинга (one-side sampling) заключается в нахождении и по-
следующем удалении из набора данных таких записей мажоритарного класса, кото-
рые зашумляют выборку. Для этого проделывают следующие шаги [6].
Построение классификаторов на несбалансированных выборках…
«Штучний інтелект» 3’2010 531
5П
1. Пусть S – исходный набор данных.
2. Инициализировать поднабор G, содержащий все записи миноритарного класса
из S и одну случайно выбранную записи мажоритарного.
3. Классифицировать исходный набор данных по правилу одного ближайшего
соседа, используя примеры из G.
4. Переместить ошибочно классифицированные примеры в поднабор.
5. Удалить каждый попавший в G мажоритарный пример i, для которого най-
дется такая запись k, что будет справедливо следующее условие:
<
<
),,( ),(
);,( ),(
ijkj
jiki
dd
dd
XXXX
XXXX
где d(Xi,Xj) – это расстояние между векторами признаков записей Xi и Xj, j – пример
из миноритарного класса.
В основе другой процедуры – специальной выборки с дублированием миноритар-
ного класса (focused oversampling) – лежит алгоритм SMOTE [7]. Он основан на идее
генерации некоторого количества искусственных примеров, которые были бы «похо-
жи» на имеющиеся в миноритарном классе, но при этом не являлись дубликатами. Для
создания нового примера находят вектор d = Xb – Xa, где Xa, Xb – векторы признаков
«соседних» примеров а и b из миноритарного класса. Далее из d путем умножения каж-
дого его элемента на случайное число в интервале (0, 1) получают d~ . Вектор признаков
нового примера получается путем сложения векторов Xa и d~ . Процедура SMOTE
позволяет задавать количество примеров, которое необходимо искусственно сгенериро-
вать. Степень сходства примеров а и b можно регулировать значением k (числом бли-
жайших соседей).
Строгих теоретических обоснований эти процедуры не имеют. Предполагается,
что смещение, внесенное в обучающие данные, позволит алгоритму обучения получить
модель, которая минимизирует издержки при классификации новых наблюдений. Глав-
ное преимущество сэмплинга, который изменяет равновесие классов, заключается в
том, что он не требует модификации алгоритма обучения, является простой процедурой
и может применяться к любым типам классификаторов. Его использование позволяет
строить модели, оптимальные с точки зрения издержек классификации. Но есть не-
достатки. Так, выборка с удалением примеров мажоритарного класса может вызвать
потерю потенциально полезной информации, которая содержится в исключаемых при-
мерах. А «клонирование» большого числа одинаковых примеров способно привести к
переобучению модели, что экспериментально доказано в работах [1-4].
Модификация алгоритма обучения
Здесь производится модификация алгоритма построения классификатора таким
образом, чтобы он учитывал издержки ошибок классификации. В настоящее время
для многих алгоритмов существуют такие модификации. Например, при построении
дерева классифицирующих правил одним из наиболее популярных методов является
использование информации об издержках неправильной классификации при выборе
атрибута ветвления в каждом узле строящегося дерева. Одно из расширений алго-
ритма C4.5 [1] использует для выбора атрибута комбинированный критерий, учиты-
вающий как приращение информации, так и ошибки издержек классификации. Для
этого вводится функция, несущая информацию об издержках классификации. Для k- го
атрибута она определяется как ( ) ( )α112 +−= ∆
ij
I
k CICF k , где 10 ≤≤ α , kI∆ – прирост
информации, связанный с разбиением по k-му атрибуту, Cij – издержки, связанные с
классами, примеры которых участвовали в разбиении.
Паклин Н.Б., Уланов С.В., Царьков С.В.
«Искусственный интеллект» 3’2010 532
5П
Параметр α позволяет варьировать степенью «стремления» алгоритма к выбору
атрибутов, с которыми связаны меньшие издержки. Если α = 0, а ICF = 1, то издерж-
ки не учитываются. Если α = 1, то имеет место максимальное влияние издержек на
процесс построения дерева. Регулируя значение данного параметра, исследователь
добивается оптимальной чувствительности алгоритма к издержкам классификации.
Все же многие исследователи отдают предпочтение процедурам восстановле-
ния равновесия, а не модифицированным алгоритмам обучения [1], [3], [4]. Для это-
го есть несколько причин. Одна из них заключается в том, что не для всех алгоритмов
машинного обучения разработаны модифицированные варианты, учитывающие из-
держки ошибок классификации. Другая – в том, что число примеров с доминирую-
щим классом часто избыточно, и тогда выборка с удалением примеров мажоритар-
ного класса кажется наиболее привлекательной процедурой.
Кроме того, издержки ошибок классификации часто неизвестны, что затрудня-
ет использование методов обучения, чувствительных к издержкам. Если информация
об издержках отсутствует, то для оценки эффективности бинарного классификатора
можно использовать такие методы, как графики «чувствительность – специфичность»,
больше известные как ROC-кривые.
Экспериментальная часть
Целью экспериментов являлось исследовать эффективность различных подходов
к построению кредитных скоринговых моделей в условиях несбалансированности клас-
сов. Для этого мы использовали два набора данных с реальными кредитными история-
ми российских банков (их описание приведено в табл. 1), причем одна из них затрагива-
ет послекризисный период 2008 года, и три изложенных выше подхода: две процедуры
сэмплинга и алгоритм построения дерева решений C5.0, учитывающий издержки клас-
сификации. Выборки, полученные при помощи сэмплинга, также подавались на вход
алгоритма C5.0, но матрица издержек уже не задавалась.
Таблица 1 – Наборы данных, участвующие в эксперименте
Характеристика Набор 1 Набор 2
Банк Российский банк
ТОП-30
Российский банк
Типы кредитов Потребительский Потребительский
Период выдачи кредитов 11.2006 – 05.2007 09.2008 – 2009
Объем множества 4244 944
Доля «плохих» кредитов 17% 14,5%
Число переменных 22 14
Пропорции обучающего и тестового множества составили 75% и 25% соответ-
ственно. Издержки C10 (за положительный исход принят «плохой» заемщик) брались
равными поочередно 2, 3, 4, 6, 10, 50. Классификаторы создавались по 10 попыток для
каждого отношения этих издержек, а результаты усреднялись. Они приведены на рис. 2
и рис. 3 в виде графиков зависимостей Ct от C01 / C10.
Их анализ не позволил признать какую-либо одну стратегию обучения выигрыш-
ной, что совпадает с работой [3]. Тем не менее, на промежутке от «1:4» до «1:10», то
есть когда отношение издержек ложноотрицательных к ложноположительным ошибкам
варьируется от 4 до 10, что является типичной ситуацией в кредитном скоринге, лучшие
результаты показывает алгоритм C5.0, а худшие – процедура undersampling. С ростом
C10 этот метод отстает от других, делая его использование непригодным уже при C10 > 10.
Построение классификаторов на несбалансированных выборках…
«Штучний інтелект» 3’2010 533
5П
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
1:1 1:2 1:3 1:4 1:6 1:10 1:25 1:50
Отношение издержек
C
(t)
С5.0
дублирование в миноритарном классе
удаление из мажоритарного класса
Рисунок 2 – Графики зависимостей Ct от C01/C10 для набора № 1
0
200
400
600
800
1000
1200
1400
1600
1800
1:1 1:2 1:3 1:4 1:6 1:10 1:25 1:50
Отношение издержек
C
(t)
С5.0
дублирование в миноритарном классе
удаление из мажоритарного класса
Рисунок 3 – Графики зависимостей Ct от C01/C10 для набора № 2
0
500
1000
1500
2000
1:1 1:3 1:5 1:10 1:15
Отношение издержек
C(
t)
С5.0 MLP SVM NB LR1 LR2
Рисунок 4 – Графики полных издержек для различных скоринговых
алгоритмов в зависимости от отношения издержек, процедура oversampling
Далее проводились эксперименты, в которых участвовали несколько различных
алгоритмов классификации (рис. 4 и рис. 5, обозначения: LR1 – логистическая регрес-
сия с порогом округления 0,5; MLP – многослойный персептрон; SVM – машины
опорных векторов; NB – простой классификатор Байеса; LR2 – логистическая регрес-
сия с порогом, рассчитанным по правилу Байеса).
Анализ этих графиков показал, что наиболее стабильные и лучшие результаты (ми-
нимальное значение Ct) обеспечивает логистическая регрессия (обе процедуры сэмплинга),
а также алгоритм дерева решений C5.0 (процедура undersampling). С увеличением отно-
шения издержек наихудшие результаты демонстрирует метод машин опорных векторов.
Паклин Н.Б., Уланов С.В., Царьков С.В.
«Искусственный интеллект» 3’2010 534
5П
0
500
1000
1500
2000
1:1 1:3 1:5 1:10 1:15
Отношение издержек
C(
t)
С5.0 MLP SVM NB LR1 LR2
Рисунок 5 – Графики полных издержек для различных скоринговых
алгоритмов в зависимости от отношения издержек, процедура undersampling
Выводы
При решении многих практических задач стандартные алгоритмы машинного
обучения не позволяют создавать эффективные классификаторы из-за несбалансиро-
ванных обучающих выборок.
Главное преимущество метода сэмплинга с восстановлением равновесия классов
заключается в том, что он не требует модификации алгоритма обучения, является про-
стой процедурой и может применяться к любым типам классификаторов.
Показано, что в кредитном скоринге при помощи метода oversampling строятся
эффективные классификаторы, не уступающие другим подходам, которые обеспечивают
любое соотношение ошибок I и II рода, а значит, подбор порогового скорингового балла.
Перспективным представляется исследование и сравнение метода сэмплинга
SMOTE для задачи кредитного скоринга.
Литература
1. Chawla N. C4.5 and imbalanced datasets: investigating the effect of sampling method, probabilistic es-
timate, and decision tree structure / N. Chawla // ICML 2003 Workshop on Imbalanced Datasets.
2. Vinciotti V. Scorecard construction with unbalanced class sizes / V. Vinciotti, D.J. Hand // Journal of
Iranian Statistical Society. – 2002. – Vol. 2 – P. 189-205.
3. Weiss G.M. Cost-Sensitive Learning vs. Sampling: Which is Best for Handling Unbalanced Classes with
Unequal Error Costs? / G.M. Weiss, K. McCarthy, B. Zabar // Proceedings of the 2007 International
Conference on Data Mining, CSREA Press, 2007. – P. 35-41.
4. McCarthy K. Does Cost-Sensitive Learning Beat Sampling for Classifying Rare Classes? / K. McCarthy,
Zabar B., Weiss G.M. // Proceedings of the First International Workshop on Utility-Based Data Mining
(at KDD-05), ACM Press, 2005. – P. 69-75.
5. Elchan Ch. The Foundations of Cost-Sensitive Learning / Ch. Elchan // Proc. of the 17th International
Joint Conference on Artificial Intelligence, 2001. – P. 973-978.
6. Kubat M. Addressing the curse of imbalanced training sets: one-sided selection / M. Kubat, S. Matwin //
In: Proc. 14th International Conference on Machine Learning, 1997. – P. 179-186.
7. SMOTE: Synthetic Minority Over-sampling Technique / N. Chawla, K. Bowyer, L. Hall, W. Kegelmeyer // Journal
of Artificial Intelligence Research. – 2002. – Vol. 16. – P. 341-378.
M.Б. Паклiн, С.В. Уланов, С.В. Царьков
Побудова класифікаторів на незбалансованих вибірках на прикладі кредитного скорингу
У статті розглянута проблема побудови ефективних бінарних класифікаторів в умовах, коли класи
сильно незбалансовані. Показаний їх зв’язок з витратами класифікації, розглянуті стратегії боротьби з
незбалансованістю та проведені експерименти на кредитних історіях російських банків.
N.B. Paklin, S.V. Ulanov, S.V. Tsarkov
Classifiers Construction Based on Imbalanced Datasets by the Example of Credit Scoring
The article discusses the problem of constructing efficient binary classifiers on imbalanced datasets. Costs of classifica-
tion and strategies to win the imbalance are considered. Experiments on the credit histories of Russian banks are made.
Статья поступила в редакцию 01.07.2010.
|
| id | nasplib_isofts_kiev_ua-123456789-56571 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1561-5359 |
| language | Russian |
| last_indexed | 2025-12-07T17:20:15Z |
| publishDate | 2010 |
| publisher | Інститут проблем штучного інтелекту МОН України та НАН України |
| record_format | dspace |
| spelling | Паклин, Н.Б. Уланов, С.В. Царьков, С.В. 2014-02-19T21:48:11Z 2014-02-19T21:48:11Z 2010 Построение классификаторов на несбалансированных выборках на примере кредитного скоринга / Н.Б. Паклин, С.В. Уланов, С.В. Царьков // Штучний інтелект. — 2010. — № 3. — С. 528-534. — Бібліогр.: 7 назв. — рос. 1561-5359 https://nasplib.isofts.kiev.ua/handle/123456789/56571 62-50:15 В статье рассмотрена проблема построения эффективных бинарных классификаторов в условиях, когда классы сильно несбалансированы. Показана их связь с издержками классификации, рассмотрены стратегии борьбы с несбалансированностью и проведены эксперименты на кредитных историях российских банков. У статті розглянута проблема побудови ефективних бінарних класифікаторів в умовах, коли класи сильно незбалансовані. Показаний їх зв’язок з витратами класифікації, розглянуті стратегії боротьби з незбалансованістю та проведені експерименти на кредитних історіях російських банків. The article discusses the problem of constructing efficient binary classifiers on imbalanced datasets. Costs of classification and strategies to win the imbalance are considered. Experiments on the credit histories of Russian banks are made. ru Інститут проблем штучного інтелекту МОН України та НАН України Штучний інтелект Интеллектуальные системы планирования, управления, моделирования и принятия решений Построение классификаторов на несбалансированных выборках на примере кредитного скоринга Побудова класифікаторів на незбалансованих вибірках на прикладі кредитного скорингу Classifiers Construction Based on Imbalanced Datasets by the Example of Credit Scoring Article published earlier |
| spellingShingle | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга Паклин, Н.Б. Уланов, С.В. Царьков, С.В. Интеллектуальные системы планирования, управления, моделирования и принятия решений |
| title | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| title_alt | Побудова класифікаторів на незбалансованих вибірках на прикладі кредитного скорингу Classifiers Construction Based on Imbalanced Datasets by the Example of Credit Scoring |
| title_full | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| title_fullStr | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| title_full_unstemmed | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| title_short | Построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| title_sort | построение классификаторов на несбалансированных выборках на примере кредитного скоринга |
| topic | Интеллектуальные системы планирования, управления, моделирования и принятия решений |
| topic_facet | Интеллектуальные системы планирования, управления, моделирования и принятия решений |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/56571 |
| work_keys_str_mv | AT paklinnb postroenieklassifikatorovnanesbalansirovannyhvyborkahnaprimerekreditnogoskoringa AT ulanovsv postroenieklassifikatorovnanesbalansirovannyhvyborkahnaprimerekreditnogoskoringa AT carʹkovsv postroenieklassifikatorovnanesbalansirovannyhvyborkahnaprimerekreditnogoskoringa AT paklinnb pobudovaklasifíkatorívnanezbalansovanihvibírkahnaprikladíkreditnogoskoringu AT ulanovsv pobudovaklasifíkatorívnanezbalansovanihvibírkahnaprikladíkreditnogoskoringu AT carʹkovsv pobudovaklasifíkatorívnanezbalansovanihvibírkahnaprikladíkreditnogoskoringu AT paklinnb classifiersconstructionbasedonimbalanceddatasetsbytheexampleofcreditscoring AT ulanovsv classifiersconstructionbasedonimbalanceddatasetsbytheexampleofcreditscoring AT carʹkovsv classifiersconstructionbasedonimbalanceddatasetsbytheexampleofcreditscoring |