Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу
The method of credit operation’s probability of default estimation using logistic regression and cluster analysis is suggested. The example of application of this method on real sample, where proposed method was more effective in comparison with method based just on logistic regression is given.
Gespeichert in:
| Datum: | 2017 |
|---|---|
| 1. Verfasser: | |
| Format: | Artikel |
| Sprache: | Russisch |
| Veröffentlicht: |
The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
2017
|
| Online Zugang: | https://journal.iasa.kpi.ua/article/view/106501 |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Назва журналу: | System research and information technologies |
| Завантажити файл: | |
Institution
System research and information technologies| _version_ | 1867334289164599296 |
|---|---|
| author | Seredniy, S. S. |
| author_facet | Seredniy, S. S. |
| author_institution_txt_mv | [
{
"author": "S. S. Seredniy",
"institution": null
}
] |
| author_sort | Seredniy, S. S. |
| baseUrl_str | http://journal.iasa.kpi.ua/oai |
| collection | OJS |
| datestamp_date | 2018-03-30T15:02:44Z |
| description | The method of credit operation’s probability of default estimation using logistic regression and cluster analysis is suggested. The example of application of this method on real sample, where proposed method was more effective in comparison with method based just on logistic regression is given. |
| first_indexed | 2025-07-17T10:21:35Z |
| format | Article |
| fulltext |
© С.С. Середний, 2011
126 ISSN 1681–6048 System Research & Information Technologies, 2011, № 1
TIДC
НОВІ МЕТОДИ
В СИСТЕМНОМУ АНАЛІЗІ, ІНФОРМАТИЦІ
ТА ТЕОРІЇ ПРИЙНЯТТЯ РІШЕНЬ
УДК 519.866
ОЦЕНИВАНИЕ ВЕРОЯТНОСТИ ДЕФОЛТА ПО КРЕДИТНЫМ
ОПЕРАЦИЯМ С ИСПОЛЬЗОВАНИЕМ ЛОГИСТИЧЕСКОЙ
РЕГРЕССИИ И КЛАСТЕРНОГО АНАЛИЗА
С.С. СЕРЕДНИЙ
Предложен метод оценки вероятности дефолта по кредитным операциям с
применением логистической регрессии и кластерного анализа. Приведен при-
мер применения данного метода на реальной выборке, на которой предложен-
ный метод показал большую эффективность по сравнению с методом, осно-
ванном только на логистической регрессии.
ВВЕДЕНИЕ
Основную часть своего дохода банки получают за счет кредитной деятель-
ности, что делает постоянную разработку и совершенствование методов
оценки вероятности дефолта по кредитным операциям актуальной для бан-
ковского сектора. Следует отметить, что результат кредитной операции
имеет случайную природу и зависит от непрогнозируемых и сложнопрогно-
зируемых форс-мажорных факторов (смерть заемщика, неурожай для сель-
хоз предприятий), поэтому на момент выдачи кредита отнести заемщика
однозначно к «плохим» или «хорошим» не представляется возможным.
Существует два основных подхода к оценке вероятности дефолта
заемщика. Согласно первого подхода дефолт заемщика представляется как
превышение суммы задолженности заемщика над рыночной стоимостью его
активов, и на основании истории изменения биржевых цен на акции заем-
щика рассчитывается вероятность падения их ниже суммы задолженности.
Основным представителем данного подхода является модель KMV [1]. Но
такой подход имеет ряд существенных недостатков: он неприменим для
оценки вероятности дефолта физических лиц и небольших компаний, а так-
же его нельзя применить в украинских условиях, так как в Украине факти-
чески отсутствует ликвидный фондовый рынок.
По второму подходу задача оценки вероятности дефолта интерпрети-
руется как задача классификации заемщиков на «плохих» и «хороших» (или,
по необходимости, на большее количество классов). В рамках данного под-
хода, в свою очередь, существует два варианта решения данной задачи: на
основании четкой и нечеткой классификации заемщиков. В литературе
Оценивание вероятности дефолта по кредитным операциям с использованием …
Системні дослідження та інформаційні технології, 2011, № 1 127
встречается описание использования следующих методов для оценки ве-
роятности дефолта по кредитным операциям:
• На основании четкой классификации — кластерный анализ [2], де-
ревья решений [3], нейронные сети [4].
• На основании нечеткой классификации — наивный байесовский
подход [5], логистическая регрессия [6].
Согласно первому варианту обучающую выборку разбивают на классы
по возможности таким образом, чтобы в каждом классе находились
представители только одной категории. Вероятность дефолта оценивается
как доля «плохих» заемщиков в каждом из классов, на которые разбита обу-
чающая выборка. Такой подход к решению данной задачи является недоста-
точно корректным, поскольку не учитывает случайную природу результата
кредитной операции.
Согласно второму варианту оценивается вероятность принадлежности
заемщика к одной из категорий, при этом категорий обычно берут две
(«плохую» или «хорошую»), однако исходя из потребностей банка их коли-
чество может расширяться (например, «имел просрочки свыше 90 дней»).
Но наивный байесовский подход имеет существенный недостаток, который
заключается в том, что он построен на «наивной» гипотезе о том, что пара-
метры, описывающие заемщика, независимы между собой, хотя это в дейст-
вительности не так: например, возраст заемщика существенно коррелирует с
такими параметрами, как имущественное состояние, социальный статус и т.д.
Цель работы — по имеющимся данным о кредитных операциях, содер-
жащих операцию о параметрах кредита и сведения о заемщике, построить
эффективную модель оценки вероятности дефолта по кредитным операциям
новых заемщиков.
МОДИФИЦИРОВАННАЯ МОДЕЛЬ ОЦЕНКИ ВЕРОЯТНОСТИ ДЕФОЛТА
Оценка вероятности дефолта методом логистической регрессии происходит
исходя из двух основных предположений:
• Исход кредитной операции зависит от ненаблюдаемой величины
.ˆ
0 εββ ++= XY При этом, если ненаблюдаемая величина 0ˆ >Y , то счи-
тается, что клиент не погасит кредит, а если 0ˆ ≤Y , то погасит.
• Независимая случайная величина имеет логистическое распределе-
ние, имеющее функцию распределения xe
xF
−+
=
1
1)( .
Исходя из этих предположений, вероятность дефолта рассчитывается как
( ) ( )
00 1
1
1
111 00 ββββ
ββεββε
−−+ +
=
+
−=−−≤−=−−>= XX ee
XPXPPD .
Исходя из особенностей построения логистической регрессии, можно
выделить два основных недостатка, ухудшающих точность оценки вероят-
ности дефолта.
• Логистическая регрессия не предназначена для обработки качест-
венных параметров, и их приходится заменять на числовые. При этом
теряется их информативность.
С.С. Середний
ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 128
• Логистическая регрессия не учитывает взаимосвязи между перемен-
ными и наличие «границ чувствительности» для некоторых параметров (на-
пример, разница в один год для заемщиков в возрасте 60 и 61 лет намного
более существенна, чем для заемщиков в возрасте 30 и 31 года).
Для минимизации негативного влияния первого недостатка в работе [7]
было предложено использовать показатель WOE (Weight Of Evidence — вес
доказательства) при замене качественных параметров на числовые. Показа-
тель WOE, который рассчитывается по формуле: ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
=
i
i
i B
G
WOE ln , где iG —
доля «хороших» заемщиков от общего числа «хороших» заемщиков, для
которых категориальный параметр принимает i-тое значение; iB — доля
«плохих» заемщиков от общего числа «плохих», для которых категориаль-
ный параметр принимает i-тое значение.
Второй недостаток логистической регрессии следует из того, что не-
наблюдаемая величина должна иметь нелинейный вид, поскольку зависи-
мость результата кредитной операции от параметров не является линейной
(отсутствие собственного жилья в 55 лет более рискованно, чем в 25 лет, а
возраст 30 лет менее рискованный, чем возраст 20 или 60 лет), поэтому
представление ненаблюдаемой величины в виде εββ ++= 0
ˆ XY вносит
ошибку, связанную с игнорированием слагаемых более высоких порядков.
При простом включении слагаемых более высоких порядков, мы рис-
куем потерять точность модели за счет эффекта «подстраивания», поскольку
добавление одной переменной приводит к существенному увеличению тре-
бований к количеству входящих данных. Эта проблема особенно актуальна
при решении задачи оценки вероятности дефолта, поскольку данная задача
часто решается в условиях маленькой обучающей выборки.
Исходя из приведенных соображений, для минимизации негативного
влияния второго недостатка логистической регрессии был предложен сле-
дующий подход:
• обучающая выборка при помощи кластерного анализа разбивается
на кластеры в соответствии с подобностью параметров, которые описывают
кредитную операцию;
• в каждом из полученных кластеров независимо от других строится
модель оценки вероятности дефолта по кредитной операции на основании
логистической регрессии;
• для нового заемщика сначала определяется кластер, в который он
входит, а далее оценивается вероятность дефолта при помощи модели, по-
строенной для данного кластера.
МОДЕЛИРОВАНИЕ РЕЗУЛЬТАТОВ КРЕДИТНЫХ ОПЕРАЦИЙ НА
РЕАЛЬНЫХ ДАННЫХ
Для практической проверки эффективности предлагаемого метода были по-
строены модели на основании стандартного метода логистической регрес-
сии, а также на основании логистической регрессии и кластерного анализа.
Оценивание вероятности дефолта по кредитным операциям с использованием …
Системні дослідження та інформаційні технології, 2011, № 1 129
Моделирование проводилось на основании выборки, предоставленной ком-
панией SAS Institute (международная компания, являющаяся одним из лиде-
ров рынка разработки программного обеспечения, в частности, в области
риск-менеджмента). Выборка содержит данные про 2102 кредитные опера-
ции с указанием их результата («дефолт» и «не дефолт») и 29 параметров,
характеризирующих заемщика и кредитную операцию.
Алгоритм построения модели оценки вероятности дефолта заемщика
по кредитной операции состоит из следующих этапов:
• предварительный выбор параметров на основании представлений о
предметной области (например, ФИО заемщика и его ИНН не влияют на
результат кредитной операции) и замена абсолютных параметров на относи-
тельные (сумма кредита и среднемесячный доход заемщика сами по себе не
информативны и их следует заменить на соотношение среднемесячного
платежа по кредиту к среднемесячным доходам);
• удаление из выборки кредитов, полученных мошенниками (посколь-
ку такие кредитные операции имеют другую зависимость между параметра-
ми кредитной операции и ее результатами);
• очистка выборки от аномальных данных, ошибок и логических оши-
бок;
• обработка пропущенных значений;
• группирование значений качественных параметров, которые редко
встречаются (типы товаров, профессии заемщиков);
• разбиение выборки на обучающую и тестовую;
• разбиение выборки на кластеры, дальнейшие этапы проводятся для
каждого из полученных кластеров независимо;
• группирование значений качественных параметров, которые редко
встречаются по итогам разбиения на кластеры;
• замена всех качественных параметров на числовые, для чего исполь-
зуется показатель WOE [7];
• нормализация всех параметров для обеспечения устойчивости рабо-
ты программной реализации алгоритма;
• расчет статистической значимости параметров и корреляции между
ними, а также группирование параметров, имеющих высокую корреляцию с
целью избежать при построении модели ложных корреляций.
С целью определения оптимального количества параметров, которые
стоит включать в модель, производятся следующие этапы:
• сортировка параметров по их статистической значимости;
• повторное разбиение выборки на обучающую и тестовую;
• поиск коэффициентов логистической регрессии при включении в
модель только одного параметра, имеющего наибольшую статистическую
значимость;
• поиск коэффициентов логистической регрессии при включении в
модель следующего по статистической значимости параметра. Данный этап
повторяется до тех пор, пока новая модель (т.е. с количеством параметров
увеличенным на один) будет иметь большую эффективность на тестовой
выборке, чем старая.
С.С. Середний
ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 130
Добавление в модель параметров по одному не только позволит опре-
делить то оптимальное количество параметров, после которого модель на-
чинает терять точность и начинает попросту «подстраиваться» под обучаю-
щую выборку, но еще и существенно ускоряет и повышает устойчивость
работы программного алгоритма. В случае, если на каждой новой итерации
в качестве начальных значений выбирать оптимальные значения, рассчи-
танные на предыдущем шаге и 0 для вновь добавленного параметра, то ал-
горитм поиска значений для логистической регрессии, например, с десятью
параметрами, будет работать быстрее, чем просто поиск сразу всех десяти
значений из произвольных точек.
В рамках построения численного эксперимента обучающая выборка
разбивалась на 2 и 3 кластера. Эффективность модели с разбиением обу-
чающей выборки на 3 кластера оказалась хуже, чем с разбиением на 2 кла-
стера, что связано, по всей видимости, с недостаточным объемом выборки.
ОПИСАНИЕ И СРАВНЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
Для анализа полученных результатов была использована ROC-кривая [6],
смысл которой заключается в том, что она показывает зависимость соотно-
шения количества верно классифицированных «хороших» заемщиков к
неверно классифицированным «плохим» заемщикам в зависимости от поро-
га отсечения. В качестве порога отсечения выступает рассчитанная вероят-
ность дефолта PD. Построение ROC-кривой происходит следующим обра-
зом: по оси 0Y откладывается процент правильно классифицированных
«хороших» заемщиков, а по оси 0X количество неправильно классифициро-
ванных «плохих» заемщиков в зависимости от значения порога отсечения.
Соответственно, чем больше ROC-кривая отклоняется от диагональной ли-
нии, тем более эффективной считается построенная модель. Сама диаго-
нальная линия считается абсолютно бессмысленным классификатором, ко-
торый эквивалентен произвольному выбору.
Для упрощенного сравнения эффективности моделей используется по-
казатель Gini, представляющий из себя удвоенную площадь между диаго-
нальной линией и ROC-кривой.
Коэффициент Gini рассчитывается по формуле
( )
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−= ∫
1
0
5,02 dxxROCGini .
В результате проведенного моделирования были получены следующие
результаты: для модели на основании стандартного метода логистической
регрессии — показатель 629042,0=Gini , а для модели на основании ло-
гистической регрессии с применением кластерного анализа — показатель
.654799,0=Gini Графики ROC-кривых, полученные для обоих подходов,
приведены ниже.
Как видно на рисунке, а также из значений показателя Gini для обеих
моделей, модель с применением кластерного анализа более эффективна, чем
модель на основании стандартного метода логистической регрессии.
Оценивание вероятности дефолта по кредитным операциям с использованием …
Системні дослідження та інформаційні технології, 2011, № 1 131
ВЫВОДЫ
За счет разбиения входящей выборки на кластеры по принципу однородно-
сти удалось достичь уменьшения влияния на точность оценки того недос-
татка логистической регрессии, что она не учитывает взаимосвязи между
параметрами и наличия границ чувствительности. Приведенный в работе
подход к оценки вероятности дефолта по кредитной операции на основе ло-
гистической регрессии и кластерного анализа показал большую эффектив-
ность, чем подход на основании стандартного метода логистической регрес-
сии, о чем свидетельствуют результаты полученные на тестовом примере.
Использование разработанного подхода оценки вероятности дефолта
по кредитной операции позволит улучшить кредитные портфели банков,
что, в свою очередь, позволит увеличить прибыльность и устойчивость бан-
ковского сектора в целом. К тому же, при увеличении объема входящей вы-
борки можно ожидать дальнейшего увеличения точности модели, так как
это позволит разбить обучающую выборку на большее количество класте-
ров.
В предлагаемом подходе в дальнейшем может быть реализована разра-
ботка четких критериев, а также алгоритма определения оптимального ко-
личества кластеров и параметров, по которым должно происходить разбие-
ние входящей выборки.
Рисунок. Пример графиков ROC-кривых для рассматриваемых методов оценки
вероятности дефолта
1 — Логистическая регрессия
2 — Логистическая регрессия
и кластерный анализ
1
2
OX
OY
С.С. Середний
ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 132
ЛИТЕРАТУРА
1. Peter J. Crosbie, Jeffrey R. Bohn. Modeling Default Risk. — 2002. — http://
www.creditrisk.ru/publications/ files_attached/modeling_default_risk.pdf.
2. Оценка вероятности банкротства предприятий-заемщиков на основе кластер-
ного анализа // Экономический анализ: теория и практика. — 2007. — № 18.
— С. 44–45.
3. Ларин С., Ходжаева И. Использование деревьев решений для оценки кредито-
способности физических лиц // Банковское дело. — 2004. — № 3. —
С. 30–33.
4. Лаврушин О.И., Афанасьева О.Н., Корниенко С.Л. Банковское дело: современ-
ная система кредитования. — М.: Кнорус, 2007. — 261 с.
5. Воронцов К.В. Лекции по статистическим (байесовским) алгоритмам класси-
фикации. — 2008. — www.ccas.ru/voron/download/Bayes.pdf.
6. Палкин Н. Логистическая регрессия и ROC-анализ — математический аппарат.
— http://www.basegroup.ru/library/analysis/regression/logistic/.
7. Ковалев М., Корженевская В. Методика построения банковской скоринговой
модели для оценки кредитоспособности физических лиц. — www.bsu.by/
ru/sm.aspx?guid=49623.
Поступила 11.02.2010
|
| id | journaliasakpiua-article-106501 |
| institution | System research and information technologies |
| keywords_txt_mv | keywords |
| language | Russian |
| last_indexed | 2025-07-17T10:21:35Z |
| publishDate | 2017 |
| publisher | The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" |
| record_format | ojs |
| resource_txt_mv | journaliasakpiua/1b/432d69c3ba052ac18baf75700c50661b.pdf |
| spelling | journaliasakpiua-article-1065012018-03-30T15:02:44Z Credit operation’s probability of default estimation using logistic regression and cluster analysis Оценивание вероятности дефолта по кредитным операциям с использованием логистической регрессии и кластерного анализа Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу Seredniy, S. S. The method of credit operation’s probability of default estimation using logistic regression and cluster analysis is suggested. The example of application of this method on real sample, where proposed method was more effective in comparison with method based just on logistic regression is given. Предложен метод оценки вероятности дефолта по кредитным операциям с применением логистической регрессии и кластерного анализа. Приведен пример применения данного метода на реальной выборке, на которой предложенный метод показал большую эффективность по сравнению с методом, основанный только на логистической регрессии. Запропоновано метод оцінки ймовірності дефолту за кредитними операціями із застосуванням логістичної регресії та кластерного аналізу. Наведено приклад застосування цього методу на реальній вибірці, на якій запропонований метод показав більшу ефективність у порівнянні з методом, що базується лише на логістичній регресії. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2017-07-07 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/106501 System research and information technologies; No. 1 (2011); 126-132 Системные исследования и информационные технологии; № 1 (2011); 126-132 Системні дослідження та інформаційні технології; № 1 (2011); 126-132 2308-8893 1681-6048 ru https://journal.iasa.kpi.ua/article/view/106501/101595 Copyright (c) 2021 System research and information technologies |
| spellingShingle | Seredniy, S. S. Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title | Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title_alt | Credit operation’s probability of default estimation using logistic regression and cluster analysis Оценивание вероятности дефолта по кредитным операциям с использованием логистической регрессии и кластерного анализа |
| title_full | Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title_fullStr | Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title_full_unstemmed | Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title_short | Оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| title_sort | оцінювання ймовірності дефолту за кредитними операціями з використанням логістичної регресії та кластерного аналізу |
| url | https://journal.iasa.kpi.ua/article/view/106501 |
| work_keys_str_mv | AT seredniyss creditoperationsprobabilityofdefaultestimationusinglogisticregressionandclusteranalysis AT seredniyss ocenivanieveroâtnostidefoltapokreditnymoperaciâmsispolʹzovaniemlogističeskojregressiiiklasternogoanaliza AT seredniyss ocínûvannâjmovírnostídefoltuzakreditnimioperacíâmizvikoristannâmlogístičnoíregresíítaklasternogoanalízu |