Моделирование кредитных рисков на основе теории выживания
Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні до...
Saved in:
| Published in: | Проблемы управления и информатики |
|---|---|
| Date: | 2017 |
| Main Authors: | , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2017
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/208608 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-208608 |
|---|---|
| record_format |
dspace |
| spelling |
Кузнецова, Н.В. Бидюк, П.И. 2025-11-02T19:24:38Z 2017 Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/208608 519.766.4 10.1615/JAutomatInfScien.v49.i11.30 Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні дослідження, які показали доцільність використання запропонованих моделей для вирішення завдань поведінкового скорингу, оскільки пропорційні ризики Кокса дозволяють включати до множини регресорів змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей моделей, а також окреслено перспективи подальшого застосування моделей пропорційних ризиків для інших видів фінансових ризиків, де також необхідно оцінювати цілу групу (популяцію) в часі. The basic principles of the theory of survival analysis are described, step by step the construction of models of assessment of the clients by the methods of logistic regression and survival analysis are shown. The following concepts as a function of risk, the Cox proportional hazard model and the Kaplan-Meier statistics are introduced. Experimental studies have been carried out. They have shown the expediency of using the proposed models for solving the problems of behavioural scoring, since Cox's proportional risks allow the inclusion of a set of regressors with variables that depend on time. Suggested recommendations for improving the predictive qualities of models to overcome the heterogeneity of the sample, in particular the further stratification of the sample, and outlined the prospects for further development of proportional risk models for other financial risks, where it is also necessary to estimate the whole group (population) in time. ru Інститут кібернетики ім. В.М. Глушкова НАН України Проблемы управления и информатики Математическое моделирование и исследование сложных управляемых систем Моделирование кредитных рисков на основе теории выживания Моделювання кредитних ризиків на основі теорії виживання Modeling of credit risks on the basis of the theory of survival Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Моделирование кредитных рисков на основе теории выживания |
| spellingShingle |
Моделирование кредитных рисков на основе теории выживания Кузнецова, Н.В. Бидюк, П.И. Математическое моделирование и исследование сложных управляемых систем |
| title_short |
Моделирование кредитных рисков на основе теории выживания |
| title_full |
Моделирование кредитных рисков на основе теории выживания |
| title_fullStr |
Моделирование кредитных рисков на основе теории выживания |
| title_full_unstemmed |
Моделирование кредитных рисков на основе теории выживания |
| title_sort |
моделирование кредитных рисков на основе теории выживания |
| author |
Кузнецова, Н.В. Бидюк, П.И. |
| author_facet |
Кузнецова, Н.В. Бидюк, П.И. |
| topic |
Математическое моделирование и исследование сложных управляемых систем |
| topic_facet |
Математическое моделирование и исследование сложных управляемых систем |
| publishDate |
2017 |
| language |
Russian |
| container_title |
Проблемы управления и информатики |
| publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
| format |
Article |
| title_alt |
Моделювання кредитних ризиків на основі теорії виживання Modeling of credit risks on the basis of the theory of survival |
| description |
Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні дослідження, які показали доцільність використання запропонованих моделей для вирішення завдань поведінкового скорингу, оскільки пропорційні ризики Кокса дозволяють включати до множини регресорів змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей моделей, а також окреслено перспективи подальшого застосування моделей пропорційних ризиків для інших видів фінансових ризиків, де також необхідно оцінювати цілу групу (популяцію) в часі.
The basic principles of the theory of survival analysis are described, step by step the construction of models of assessment of the clients by the methods of logistic regression and survival analysis are shown. The following concepts as a function of risk, the Cox proportional hazard model and the Kaplan-Meier statistics are introduced. Experimental studies have been carried out. They have shown the expediency of using the proposed models for solving the problems of behavioural scoring, since Cox's proportional risks allow the inclusion of a set of regressors with variables that depend on time. Suggested recommendations for improving the predictive qualities of models to overcome the heterogeneity of the sample, in particular the further stratification of the sample, and outlined the prospects for further development of proportional risk models for other financial risks, where it is also necessary to estimate the whole group (population) in time.
|
| issn |
0572-2691 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/208608 |
| citation_txt |
Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос. |
| work_keys_str_mv |
AT kuznecovanv modelirovaniekreditnyhriskovnaosnoveteoriivyživaniâ AT bidûkpi modelirovaniekreditnyhriskovnaosnoveteoriivyživaniâ AT kuznecovanv modelûvannâkreditnihrizikívnaosnovíteorííviživannâ AT bidûkpi modelûvannâkreditnihrizikívnaosnovíteorííviživannâ AT kuznecovanv modelingofcreditrisksonthebasisofthetheoryofsurvival AT bidûkpi modelingofcreditrisksonthebasisofthetheoryofsurvival |
| first_indexed |
2025-11-25T11:05:24Z |
| last_indexed |
2025-11-25T11:05:24Z |
| _version_ |
1850510869407989760 |
| fulltext |
© Н.В. КУЗНЕЦОВА, П.И. БИДЮК, 2017
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 33
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И
ИССЛЕДОВАНИЕ СЛОЖНЫХ УПРАВЛЯЕМЫХ СИСТЕМ
УДК 519.766.4
Н.В. Кузнецова, П.И. Бидюк
МОДЕЛИРОВАНИЕ КРЕДИТНЫХ РИСКОВ
НА ОСНОВЕ ТЕОРИИ ВЫЖИВАНИЯ
Введение
Актуальная задача деятельности банковского сектора — анализ финансового
кредитного риска. Кредитование — один из основных источников доходов в бан-
ковском деле, инструмент стимулирования экономического развития и вместе с
тем — источник вероятных потерь. Оценить, предсказать и предотвратить эти по-
тери возможно на этапе выдачи кредита и в ходе его обслуживания.
Традиционная постановка задачи оценки финансовых (кредитных) рисков
для банковского сектора — это оценка новых клиентов при обработке заявок на
выдачу кредита. Часть банков до сих пор решают эту задачу исключительно в
статическом плане, оценивая вероятность возврата кредита и объем возможных
потерь на текущий момент. Идея динамической оценки кредита и клиента заклю-
чается в периодической проверке клиента с точки зрения выполнения его обяза-
тельств, чтобы предусмотреть возможные проблемы в обслуживании им кредита
и своевременной уплате ежемесячной задолженности. Она отличается от стан-
дартного подхода к построению скоринговых моделей [1–3], поскольку позволяет
оценивать кредиты до окончания срока, на который они были выданы, своевре-
менно реагировать и разрабатывать актуальные механизмы и сценарии действий в
случае появления таких проблемных кредитов.
В настоящей статье предлагается построение математической модели при
анализе кредитного риска новым способом, который предполагает динамическое
оценивание клиентов. Наряду с традиционными характеристиками клиента и кре-
дита предусматривается возможность прогнозирования момента времени (в меся-
цах) 120 t , предшествующего наступлению неблагоприятного события — мо-
мента появления задолженности (просрочки) по кредиту. Таким образом, предпо-
лагается итерационная процедура построения скоринговых карт, которые будут
предоставлять информацию о поведении заемщиков в момент обслуживания кре-
дита, а также построения так называемой «скоринговой карты поведения».
Скоринговые карты и модели
Скоринговая карта поведения — это математическая модель со свойственной
ей совокупностью входящих факторов (характеристик) клиента и кредита, изме-
няющихся во времени и влияющих на целевую характеристику — переменную,
описывающую возможность своевременной уплаты кредита в текущем месяце.
34 ISSN 0572-2691
Такая поведенческая скоринговая карта строится для различных типов «типич-
ных» заемщиков и позволяет оценивать вероятность ежемесячной уплаты задол-
женности. Параллельно с этим банки заинтересованы в объективной информации
о возможных потерях в случае неуплаты по кредитам. В соответствии с Базелем II
для оценки кредитных рисков банков используется IRB-подход (Internal Ratings-
Based Approach) с учетом внутренних рейтингов заемщиков, т.е. рейтингов, уста-
навливаемых самими банками [4, 5]. Такой подход предоставляет возможность
рассчитать сумму, уплаченную по кредиту, и сумму, непокрытую по кредиту, для
каждого конкретного кредита в конкретный момент времени.
Введем понятие «цикл успешного обслуживания кредита», которое опреде-
ляется как количество месяцев или дней, когда осуществляется оплата кредита без
просрочек, т.е. 120 goodcredit t при условии, что задержка 0delay дней,
.1)0delay( P
Просрочка более трех, но менее 30 дней, определяется специальным марке-
ром «подозрительного» поведения 1)_( debtsbehavioralI и считается поводом
для включения таких клиентов в периодический (более частый) мониторинг с ис-
пользованием скоринговых карт поведения и возможных средств защиты или
противодействия появлению дальнейших просрочек по кредиту.
Теория выживания: общие сведения и предположения
для предметной области прогнозирования
времени «успешности» кредита
Традиционно модели анализа выживания используются для исследования
момента гибели некоторой популяции. Время до наступления этого момента
называется временем выживания.
Модели анализа выживания предшествовало создание таблиц смертности,
которые использовались в страховании жизни и демографических науках в XVII в.
Это привело к употреблению слова «выживание» в контексте уровня смертности.
Изначально метод таблиц смертности базировался на широких временных про-
межутках и больших объемах данных. В 1950-х Каплан и Мейер [4] предложили
статистическую оценку кривой выживания. Они разработали метод для коротких
временных отрезков и меньших выборок по сравнению с теми, которые использо-
валась в демографических исследованиях.
Д. Кокс [2] предложил метод, позволяющий добавлять коварианты к анализу
подобных данных, известный как «модель пропорциональных рисков Кокса»
(proportional hazards — PH). Такая модель использует регрессоры, не зависящие
от времени, или статические переменные и предполагает, что появление рисков не
меняется с течением времени. Однако в реальных данных часто возникают ха-
рактеристики, изменяющиеся со временем. Такие переменные нарушают
предположение о постоянстве отношения, поэтому модель Кокса была моди-
фицирована и дополнена. Известны ее стратифицированная и обобщенная мо-
дификации.
Применение теории анализа выживания для моделирования кредитных рисков
предложено недавно. Так, в работе [4] указываются преимущества методов анализа
выживания по сравнению c общепринятыми статистическими методами. Более пе-
редовая методология выживания использует большее количество информации, чем
обычные модели, поскольку она позволяет детализировать поведение путем цензуры
и за счет использования переменной времени, что нельзя непосредственно применить
ни в линейной, ни в логистической регрессии. К тому же не нужно делать никаких
предположений относительно распределения переменной выхода. Именно такие
рекомендации стали исходными для более глубокого исследования авторами методов
https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B5%D0%B4%D0%B8%D1%82%D0%BD%D1%8B%D0%B9_%D1%80%D0%B8%D1%81%D0%BA
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 35
анализа выживания и их усовершенствования в контексте применения для анализа
времени платежеспособности клиентов — владельцев кредитных карт (КК). В част-
ности, в данной работе выполнена формализация постановки задачи прогнози-
рования времени беспроблемного обслуживания кредита и экспериментальные
исследования с применением моделей пропорциональных рисков.
Правыми цензурированными наблюдениями называют такие, которые пре-
кращаются до наступления события.
Наблюдение называется цензурированным слева, если исследуется до начала
периода наблюдения.
Интервальными цензурированными наблюдениями называются наблюдения,
если известна лишь информация о том, что время выживания распределено между
переменными a и b ( ],[ bat ).
Типы правого цензурирования:
1) субъекты исследования выжили до конца исследования; время цензуры
фиксированное;
2) субъекты исследования выжили до конца исследования; время цензуры
наступит, когда произойдет предварительно определенное количество событий;
3) случайные наблюдения прекращаются по причинам, которые не могут
быть контролируемыми исследователем.
Для исследования кредитных карточек определим правила цензурирования
следующим образом. КК, по которым были просрочены менее трех платежей на
сумму не менее 100 грн., считаются дефолтными, т.е. «плохими» в контексте данного
исследования. Все остальные результаты отсекаются, т.е. считаются не дошед-
шими до своего логического конца.
Формализация задачи прогнозирования времени беспроблемности об-
служивания банковского кредита. Условная функция выживания, используемая
для моделирования кредитного риска, открывает интересную перспективу для
изучения дефолта. Вместо того, чтобы определять есть ли дефолт, оцениваем
время его наступления, учитывая кредитную информацию клиентов (эндогенные
коварианты) и рассматривая индикаторы для экономического цикла (экзогенные
коварианты). Таким образом, риск дефолта измеряется посредством условного
распределения случайной переменной времени до дефолта, T , заданного векто-
ром ковариант, X . Из-за механизма цензурирования переменная T не является
полностью наблюдаемой.
Поскольку на практике доля просроченных кредитов маленькая, доля цензу-
рированных данных большая, это может привести к плохой производительности
статистических методов. С другой стороны, размер выборки обычно очень большой.
Это облегчает проблему значительной доли цензурирования [2].
Условный анализ выживания в кредитном риске
Использование методов анализа выживания для изучения кредитного риска
и, в частности, для модели вероятности дефолта ( PD ), можно иллюстрировать
с помощью рис. 1, где представлены три распространенные ситуации, которые
могут возникнуть на практике, когда кредитная компания соблюдает «срок»
кредита. Рассмотрим интервал PD ],0[ в качестве горизонта исследования.
Случай a показывает кредит с дефолтом до конечной точки времени при исследо-
вании ( ). В этом случае время жизни кредита, T , которое является временем до
дефолта кредита, — наблюдаемая переменная. Случаи (b) и (c) показывают две
различные ситуации. В обоих случаях невозможно наблюдать момент, когда кредит
вступает в дефолт, что вызывает нехватку информации, поступающей из правого
отсечения.
36 ISSN 0572-2691
В случае (b) это только время от начала кредитования до конца исследова-
ния, тогда (с) учитывает ситуации, когда ожидается отказ от кредита или по-
гашения кредита до наступления
дефолта.
Доступной информацией для
моделирования PD является выборка
из n независимых одинаково распре-
деленных величин ...,),,,({ 111 XY
}),,( nnn XY , случайного вектора
},,{ XY , где },min{ CTY —
наблюдаемая зрелость; T — время
до наступления дефолта; C — вре-
мя до окончания исследования или
предполагаемого аннулирования кре-
дита; )( cT — индикатор нецензурирования и X — вектор поясняющих ко-
вариант. Здесь предполагается независимость величин T и ,X а также условная не-
зависимость величин T и C для данного .X
С учетом предыдущих допущений можно полностью характеризировать
условное распределение случайной величины ,T используя некоторые общие со-
отношения в анализе выживаемости. Таким образом, функция условной выжива-
емости — )|( xtS , условный уровень опасности — )|( xt , условная кумулятив-
ная функция риска — )|( xt , условная функция распределения — )|( xtF , свя-
заны следующим образом [2]:
,
)|(
)|(
)|()|(
,
)|(
)|(),|(
lim
0
)|(
,)|()|()|(
00
du
xtS
xtf
duxuxt
xtS
xtf
t
xXtTttTtP
t
xt
duxufxXtTPxtS
tt
t
)|()|( xtextS ,
)|(1)|( xtSxtF .
В данной статье используются различные подходы к моделированию ,PD
применяя условный анализ выживания. Все модели основаны на записи PD с
точки зрения условной функции распределения времени до дефолта. Таким об-
разом, PD можно оценить как с помощью моделей логистической регрессии, так
и пропорциональных рисков Кокса, в которой оценка функции выживаемости по-
лучена решением уравнений частичного правдоподобия. Регрессионная модель
Кокса дает PHMD̂P с помощью обобщенной линейной модели с параметрами,
оцененными методом максимального правдоподобия; в результате получаем
модель GLMD̂P .
Моделирование вероятности дефолта функцией условного распределения.
В соответствии с требованиями Базеля II [5] модели кредитного скоринга использу-
ются для измерения вероятности дефолта на горизонте времени bt со временем
0
(a) Default
(b) No default
(c) No default
Рис. 1
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 37
зрелости .t Типичное значение 12b (в месяцах). Таким образом должна
быть вычислена следующая вероятность [2]:
x)X|tP(T
x)X|tP(Tx)X|bt<(
)x Xt,T|bt<()|(PD
TP
TtPxt
,
)|(
)|(
1
)|(1
)|()|(
xtS
xbtS
xtF
xtFxbtF
(1)
где t — наблюдаемый срок погашения кредита, x — значение ковариационного
вектора X для этого кредита.
Модели пропорциональных рисков. В данной статье используется полупа-
раметрический подход к оцениванию пропорциональных рисков Кокса для функ-
ции условного выживания )|( xtS , оценивающей совокупную условную функ-
цию риска, — )|( xtL , с использованием метода максимального правдоподобия.
Необходимо разработать условную модель для индивидуального )|( xtS , кото-
рая определена в терминах )|( xtL . Для того чтобы описать PHMD̂P , приведем
некоторые определения из теории Кокса [2, 6].
Оценка функции условного уровня риска определяется следующим образом:
),ˆexp()(ˆ)|(ˆ T
0 xtxt (2)
где )(ˆ
0 t — оценка базовой функции уровня риска )(0 t , ̂ — оценка вектора
параметров .
Таким образом, в предположении о существовании модели пропорциональ-
ных рисков PD оценивается как
)|(ˆ
)|(ˆ
1
)|(ˆ1
)|(ˆ)|(ˆ
)|(D̂P
ˆ
ˆ
ˆ
ˆˆ
xtS
xbtS
xtF
xtFxbtF
xtPHM
, (3)
где ))|(ˆexp()|(ˆ)|(ˆ1 ˆˆ xtxtSxtF
.
Метод оценивания для этой модели состоит из двух шагов. На первом шаге
интегральная функция базового риска )(0 t оценивается так:
n
i
ij
n
j
ii
YY
tY
t
1
1
0 .
}{1
}1,{1
)(ˆ (4)
Тогда параметр :
),(maxargˆ
LPHM (5)
где частичная функция правдоподобности задается выражением
)exp(1
)exp(
)(
}{
1
1 T
jYY
n
j
T
i
n
i
x
x
L
ij
. (6)
38 ISSN 0572-2691
Таким образом, оценка условной интегральной функции риска вычисляется
по формуле
)(ˆ)ˆexp()|(ˆ)|(ˆ 0
0
txdstsxt PHMT
t
. (7)
Асимптотические свойства этой оценки подробно изложены в [7]. Аналогичные
соотношения можно получить для оценки РD, определенной в (3).
В контексте потребительских кредитов популяция по теории выживания
состоит из индивидов с кредитами в форме КК или других займов, живущих по
следующим правилам:
— пользователь кредита перестает выполнять свои обязательства (пере-
ходит в состояние дефолта) по погашению задолженности, это считается его
гибелью;
— время выживания измеряется, начиная с даты открытия счета;
— если клиент никогда не переходит в дефолт в течение периода наблюде-
ния, то он подлежит цензуре в точке наблюдения, т.е. фиксируется и не использу-
ется при построении модели.
Предварительная подготовка данных
Входные данные, использованные для экспериментальных исследований,
включали в себя информацию о КК, выданных в разные периоды времени с 2013
по 2015 годы. Для того чтобы использовать как можно больше доступных записей,
решено рассматривать КК в разрезе продолжительности их жизни. Тогда получаем
множество КК, которые будто бы начинаются в один момент. При этом, посколь-
ку логистическая регрессия по своей природе является моделью статической, нуж-
но сформировать вектор характеристик на определенный момент жизни каждого
кредита. Для преодоления этой проблемы решено считать «периодом созревания»
соглашения временной интервал семь месяцев.
При построении поведенческой скоринговой карты с использованием логи-
стической регрессии нельзя обойтись без агрегирования исторических (по отно-
шению к периоду созревания) данных, потому что иначе такую модель вообще
нельзя считать поведенческой. В связи с этим в регрессоры были включены мак-
симальные, минимальные и средние значения определенных параметров за пери-
од с 1-го по 7-й месяцы.
В результате такой предварительной обработки получен следующий список
параметров: идентификатор сделки, номер месяца жизни кредита, данные о пове-
дении клиента (остаток по телу кредита, процентам, просрочки по телу и проценту,
количество дней просрочки по телу и процентам, сумма просрочки, лимит по КК,
количество снятых и возвращенных денег, номер месяца первой просрочки
более 100 грн.), аппликационные данные (тип клиента, возраст, год и период
выдачи кредита, лимит на начало сделки, запрашиваемая сумма кредита, пропис-
ка, количество иждивенцев, доход, общий скоринговый балл, возраст клиента как
контрагента, время последней прописки), агрегированные данные (максимальная
задолженность по телу, максимальное количество просроченных месяцев, макси-
мальная сумма, среднее значение ежемесячного снятия, платежа, максимальное
значение отношения просрочки к установленному лимиту) и целевое поле
(дефолт/не дефолт).
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 39
В процессе предварительного исследования данных установлено (табл. 1),
что слишком мало записей попадает в определенные категории характеристики
client type. Поэтому было принято решение объединить наименее репрезентатив-
ные из них: Employee с Insider и Salary с OldSalary. Такое решение объясняется так-
же тем, что они отражают схожие категории клиентов. В первом случае — это груп-
пы связанных лиц и работников банка, во втором — участники зарплатных проектов
и те, кто когда-то были их участниками.
Таблица 1
Название категории Количество записей
Процент от общего
количества, %
NULL 220 7,407
Client 125 4,209
Employee 100 3,367
Insider 9 0,303
Normal 1213 40,842
OldSalary 245 8,25
Salary 1058 35,622
После выполнения предварительной обработки была построена модель в со-
ответствии с формулой
)(
1
)|(
T
T
x
x
x
e
e
e
xyEp
T
(8)
средствами языка программирования R и оценены коэффициенты модели логи-
стической регрессии [8]. В результате построена модель с оцененными коэффициен-
тами ii
i
x
p
p
20
11
ln .
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.863284 0.613071 -1.408 0.159093
age 0.004807 0.005337 0.901 0.367745
is_satisfiedt -0.411450 0.119419 -3.445 0.000570 ***
liv_is_regt -0.018226 0.129879 -0.140 0.888402
childcnt 0.030690 0.078934 0.389 0.697421
dependantcnt 0.011642 0.124057 0.094 0.925233
log(1 + income) 0.029583 0.022285 1.327 0.184346
has_u_scoret 0.879906 0.580642 1.515 0.129671
with_bank_mon -0.018143 0.009391 -1.932 0.053368 .
reg_mon -0.004135 0.003742 -1.105 0.269086
clienttypeClient 0.479826 0.319386 1.502 0.133009
clienttypeEmployee 0.275121 0.411532 0.669 0.503796
clienttypeNormal 0.690322 0.242271 2.849 0.004380 **
clienttypeSalary 0.050843 0.246264 0.206 0.836434
log(1 + max_outbody) 0.142916 0.140520 1.017 0.309129
log(1 + max_ovdbody) 0.380554 0.186531 2.040 0.041334 *
log(1 + max_ovd) -0.023716 0.183434 -0.129 0.897131
log(1 + max_limit) -0.333863 0.087932 -3.797 0.000147 ***
log(1 + avg_montake) 0.367150 0.197322 1.861 0.062792 .
log(1 + avg_monpay) -0.556334 0.065413 -8.505 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Анализ модели по площади под ROC-кривой (AUC) на рис. 2 показывает, что
она неплохо справляется с задачей распознавания дефолтных и недефолтных слу-
чаев: AUC = 0,804 — приемлемый по точности результат. Однако, несмотря на то,
что для построения такой модели пришлось отбросить довольно много записей,
а также то, что в процессе агрегации осталось значительное их количество, нельзя
точно сказать, насколько этот показатель адекватен.
40 ISSN 0572-2691
0
0 0,2
0,2
0,4
0,6
0,8
1
0,4 0,6 0,8 1
True positive rate (TPR)
F
fl
se
p
o
si
ti
v
e
ra
te
(
F
P
R
)
Рис. 2
Пропорциональные риски Кокса
Предварительный анализ данных для построения динамического поведенче-
ского скоринга с помощью модели PH свидетельствует о том, что они согласо-
ванны и не содержат противоречий. Приведем несколько описательных характе-
ристик основных переменных, используемых при построении модели:
средний возраст КК — 9,113 месяцев, максимальный — 31 месяц;
максимальная задолженность по телу кредита — 100 000 грн.; среднее зна-
чение такой задолженности — 4 105,5 грн.;
среднее значение просроченной задолженности — 171 грн.; максималь-
ное — 51 474 грн.;
наибольшая величина лимита — 250 000 грн.; среднее значение — 6 884 грн.;
в среднем ежемесячно клиенты пользовались лимитом в 942,9 грн.; при
этом с их стороны в среднем поступало меньше — 740,2 грн., что свидетельствует
о тенденции клиентов к просрочке в данной выборке;
средний возраст владельцев КК — 38,67 лет, медиана — 37 лет; макси-
мальный — 66 лет; минимальный — 20 лет;
средний доход — 3 827 грн.; максимальный — 120 000 грн.; минималь-
ный — 0 грн.
Построение модели базируется на формуле (2) PH. Оценивание коэффициентов
модели происходило путем максимизации частичной функции правдоподобия (6).
Для этого применялась функция coxph библиотеки survival.
Отметим, поскольку было принято решение не использовать категоризацию
переменных, а считать непрерывные величины непрерывными, для сглаживания
влияния больших значений проводилось логарифмирование соответствующих
полей, значения которых достигали третьего порядка и выше.
Из-за чрезмерной корреляции многих показателей (например, общая про-
срочка состоит из просрочки по процентам, по комиссии и по телу; по своей
сути она является линейной комбинацией этих трех величин) для построения
модели выбраны наиболее значимые показатели. Таким образом, в модель
включен 21 регрессор:
ii
i
xtxt
21
1
)),(,(ln . (9)
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 41
Оцененные коэффициенты модели, т.е. вектор в формуле (2), экспонента
от него, оценки стандартных отклонений, Z-статистика и p-значение приведены
в модели логистической регрессии.
Предварительно можно сказать, что наибольшее влияние имеет параметр
pdd_new, что соответствует месяцам просрочки, и log (1 + ovd), что является лога-
рифмом от величины просроченной задолженности. Такой результат прогнозируем,
поскольку целевое поле формировалось именно на основе этих двух значений.
Однако стоит отметить довольно неадекватные значения в последнем столб-
це табл. 3, что указывает на необходимость более детального исследования моде-
ли. В связи с этим выбран метод, описанный в работе [6], который заключается в
отборе определенного количества наибольших оценок функции риска и соответ-
ствует количеству фактических случаев дефолта. На основе такого отбора строит-
ся ROC-кривая и оценки AUC (рис. 3).
При дальнейшем исследовании подобное поведение очевидно. Поскольку в
регрессоры включены такие поля, как количество дней просрочки и ее величина
(значительно коррелируют с целевым полем, ведь оно формируется на основе
значений именно этих двух полей), то полученный результат прогнозируемый.
Несмотря на то, что построенную модель пока нельзя применить, такое поведение
модели свидетельствует о корректности подхода.
0
FPR
T
P
R
0 0,2
0,2
0,4
0,6
0,8
1
0,4 0,6 0,8 1
Рис. 3
Для того чтобы сделать модель более адекватной, а также одновременно
обеспечить ее предикативность, логичным решением является применение лагов,
т.е. значений регрессоров, смещенных во времени [9]. Построение таких моделей
рассмотрим ниже.
Прогнозирующие модели со смещенными во времени значениями
В результате анализа модели решено применять смещенные значения. Отме-
тим, что сравнение по тесту Вальда (WT) [9] и тесту множителей Лагранжа (LM)
указывает на то, что параметр pdd_new, который соответствует «количеству ме-
сяцев просрочки», малозначительный, его можно исключить. Поэтому входные
данные остались теми же, за исключением нескольких изменений:
— параметр «количество месяцев просрочки» было решено не применять из-
за чрезмерной корреляции с другими показателями и низкой значимостью;
— добавились значения переменных: остаток по кредиту, просрочка, количе-
ство снятых и возвращенных на карточный счет денег с лагами 1–3.
После получения обновленных данных построено три модели в соответствии
с применением регрессоров с лагами 1–3:
ii
i
ii
i
k xktxktxth
21
6
5
1
)()),(,( . (10)
42 ISSN 0572-2691
В правой части уравнения первое слагаемое — динамические параметры,
а второе слагаемое — статические параметры.
Для сравнения моделей между
собой рассчитано значение AUC и
построены ROC-кривые (рис. 4, М1–
М3). Такие методы сравнения обще-
приняты и обеспечивают оценку воз-
можностей классификации по каждой
модели.
Как и следовало ожидать, воз-
можности моделей распознавать
«плохих» ухудшаются с увеличением
лаговости регрессоров. Однако при
этом улучшаются их предикативные
свойства (табл. 2).
Таблица 2
Модель с лагом M1 M2 M3
AUC 0,918881 0,887751 0,828898
GINI 0,8378 0,7755 0,6578
AIC 7495,905 7819,972 8946,005
WT 1410,135 1384,005 1308,561
Сравнение различных статистик моделей показывает, что несмотря на луч-
шее качество модели М1, использование большего количества регрессоров может
быть более оправданным, поскольку они более значимые.
Непараметрическая регрессия и оценка Каплан–Мейера
Оценка Kаплан–Mейера (КМ) является в определенной степени обобщением
эмпирической функции выживания и учитывает цензурированные наблюдения.
Формула КМ для вероятности выживания в определенное время ограничивается
произведением характеристик, соответствующих лицам, которые остались в жи-
вых после времени it . Поэтому часто такую оценку также называют Product-
limit estimator [10].
Для расчета оценки KM все наблюдения сортируются в порядке возрастания
времени их жизни. Первое вхождение начинается в нуле. Вероятность выжи-
вания к этому времени равна 1. Дальнейшие наблюдения исключаются в момент
времени их гибели (возможно, в результате цензуры). Множество под риском,
которое обозначается )( itR , — это количество всех индивидов, доживших хотя
бы до времени it .
Основная идея расчета представляется формулой
)|(ˆ)(ˆ
1
ii
j
i
j tTtTPtS
(11)
с учетом того, что
i
ii
ii
n
dn
tTtTP
)|(ˆ , (12)
где in — количество наблюдений во множестве риска | ))(|( ii tRn ; id — коли-
чество субъектов, которые погибли в момент it ( || ii Dd ).
0
0 0,2
0,2
0,4
0,6
0,8
1
0,4 0,6 0,8 1
M1
M3
M2
TPR
F
P
R
Рис. 4
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 43
Статистика KM позволяет исследовать популяцию в общем и проанализиро-
вать, какая ее часть остается живой до определенного момента времени, посколь-
ку позволяет оценить вероятность такого выживания.
На основе отобранной выборки построена оценка KM (рис. 5). Однако такая
модель, не позволяет оценивать отдельно каждого клиента, поскольку рассматри-
вает в качестве субъекта всю популяцию. Тем не менее она позволяет качественно
оценивать кредитный портфель по разным типам кредитов.
Поскольку в выборке были задействованы кредиты разных лет, целесообраз-
но выполнить срез в соответствии с датами выдачи, сравнивая модели за разные
годы на основании оценок KM.
Как видно из рис. 6–8, поток кредитов в 2015 г. в чем-то повторяет 2013 г.
При этом добросовестное поведение было у клиентов, которым выданы КК в
2014 г. После уточнения особенностей, связанных с внутренними настройками
политики банка, определено, что в 2014 г. был поднят скоринговый балл для
клиентов, которым выдавали кредит, ужесточена скоринговая карта и соответ-
ственно КК выдавались самым добросовестным (в соответствии со скоринго-
вой моделью) клиентам банка. Эти условия были ослаблены в 2015 г., что и
подтвердила оценка КМ. Неоднородность выборки свидетельствует о необхо-
димости дальнейшей стратификации выборки и построении моделей.
0
0 5
0,2
0,4
0,6
0,8
1
10 15 20 25 30
Рис. 6
0
0 5
0,2
0,4
0,6
0,8
1
10 15
Рис. 8
Анализ полученных результатов
Выполнено сравнение всех описанных моделей, построенных методами ана-
лиза выживания и с помощью логистической регрессии (рис. 9, М1–М3 и Мlog).
Из рис. 9 видно, что модели с лагами 1 и 3 значительно лучше классифицируют
клиентов. При этом модель M3 хуже справляется с задачей в нижних сегментах,
но показывает значительно лучшие результаты в верхних сегментах. Это хорошо
для банковского сектора, поскольку нужно выбрать оптимальный порог отсече-
ния, правее которого будут находиться клиенты, которым можно выдавать КК.
Цель банков — минимизация количества «плохих» клиентов в выборке, а это до-
стигается благодаря выпуклости в верхнем сегменте модели M3, которая позволя-
0
0 5
0,2
0,4
0,6
0,8
1
10 15 20 25 30
Рис. 5
0
0 5
0,2
0,4
0,6
0,8
1
10 15 20 25
Рис. 7
44 ISSN 0572-2691
ет отобрать больше «хороших» клиентов. В свою очередь, логит-модель лучше
классифицирует «плохих» клиентов, т.е. ее целесообразно применять для ско-
ринга мошенничества.
0
0 0,2
0,2
0,4
0,6
0,8
1
0,4 0,6 0,8 1
М1
М3
М2 Мlog
TPR
F
P
R
Рис. 9
Итак, можно сделать вывод, что методы теории выживания целесообразно
применять для построения моделей
определения и классификации «хо-
роших» клиентов. При этом такие
модели естественным образом
обеспечивают прогнозирование
благодаря использованию при по-
строении смещенных во времени
значений переменных (лагов). Так-
же нужно отметить возможность
скоринга портфелей КК на основе статистики KM, что дает возможность сравни-
вать поведение популяций в общем, как это показано в статье. В результате тако-
го анализа выявлено, что выборки 2013 и 2014 гг. значительно отличаются, что
наталкивает на мысль о возможности стратификации данных и рассмотрения их по
отдельности.
Заключение
Анализ поведения клиентов банка — важный аспект управления рисками.
Кроме того, что своевременное предвидение дефолта заемщика может сохранить
прибыль и устойчивое развитие финансового учреждения, такой анализ также
необходим для расчета резервов, соответсвует требованиям международных
стандартов и является обязательным на уровне действующего законодатель-
ства. Фактически подход к формированию капиталовложений основывается на
оценке вероятности потери платежеспособности клиента. Это еще раз под-
тверждает актуальность скоринговых моделей, которые позволяют сравнивать
клиентов между собой.
Особое внимание привлекает такой вид кредита, как кредитная карта. В связи
с ее динамичным характером возникает проблема выявления каких-то законо-
мерностей и своевременного реагирования на изменения в поведении владель-
ца этого платежного средства. Наиболее подходящий инструмент для решения
этой задачи — поведенческий скоринг, а самая распространенная модель для
построения скоринговой карты — логистическая регрессия. Однако, как пока-
зывает практика, этот подход не дает желаемых результатов. Во-первых, такая
Таблица 3
МОДЕЛИ AUC AIC
M1 0,919 8946,005
M2 0,888 7819,972
M3 0,829 7495,905
Logit 0,804 2334,007
Международный научно-технический журнал
«Проблемы управления и информатики», 2017, № 6 45
модель статическая, во-вторых, ее трудно применять для прогнозирования.
Поэтому предложено рассмотреть альтернативную методологию, основанную
на приемах анализа выживания.
В данной работе описаны основные принципы теории выживания. Введены
такие понятия, как функция риска, модель PH и статистика KM, т.е. предложен
математический аппарат для построения модели. Оказывается, что пропорцио-
нальные риски Кокса позволяют включать во множество регрессоров перемен-
ные, зависящие от времени. Использование такого функционала способствовало
применению значения переменных, смещенных во времени, естественным обра-
зом обеспечивая прогнозирование. Для проведения вычислительного эксперимен-
та использована выборка, состоящая из 376789 записей по 30000 КК, выданным
в 2013–2016 гг. Однако для построения моделей использованы аппликационные
данные. В связи с этим количество доступных записей уменьшилось. Для модели PH
выборка состоит из 55286 наблюдений по 4037 КК с ежемесячной детализацией.
При этом следует отметить, что для построения модели на основе логистической
регрессии происходило агрегирование и отбор так называемых «зрелых» карт,
что привело к уменьшению количества строк в выборке и к определенной по-
тере информации.
Из сравнения полученных результатов следует, что возможность классифи-
кации моделей PН уменьшается при увеличении лаговости ковариант, однако да-
же при применении третьего лага такая модель показывает лучшие результаты,
чем обычная логистическая регрессия.
В статье описана последовательность построения моделей оценки клиентов
методами логистической регрессии и анализа выживаемости, отбор параметров и
сравнение промежуточных результатов. Предложены рекомендации по улучше-
нию предсказуемых качеств моделей на основе методов теории выживания и пер-
спективы дальнейшего их развития для других видов финансовых рисков. Также
стоит обратить внимание на потенциальные возможности улучшения построен-
ных моделей путем более детального анализа независимых переменных и форми-
рования различных целевых полей.
Применение такого динамического и поведенческого оценивания клиентов и
кредитов с помощью моделей анализа выживаемости позволит банкам своевре-
менно реагировать и существенно снижать потери из-за дефолтов.
Н.В. Кузнєцова, П.І. Бідюк
МОДЕЛЮВАННЯ КРЕДИТНИХ РИЗИКІВ
НА ОСНОВІ ТЕОРІЇ ВИЖИВАННЯ
Описано основні принципи теорії аналізу виживання, покроково розписано
послідовність побудови моделі оцінки клієнтів методами логістичної регресії
і аналізу виживання. Введено такі поняття, як функція ризику, модель про-
порційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експе-
риментальні дослідження, які показали доцільність використання запропо-
нованих моделей для вирішення завдань поведінкового скорингу, оскільки
пропорційні ризики Кокса дозволяють включати до множини регресорів
змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей
моделей, а також окреслено перспективи подальшого застосування моделей
пропорційних ризиків для інших видів фінансових ризиків, де також необ-
хідно оцінювати цілу групу (популяцію) в часі.
46 ISSN 0572-2691
N.V. Kuznetsova, P.I. Bidyuk
MODELING OF CREDIT RISKS ON THE BASIS OF
THE THEORY OF SURVIVAL
The basic principles of the theory of survival analysis are described, step by step the
construction of models of assessment of the clients by the methods of logistic regres-
sion and survival analysis are shown. The following concepts as a function of risk,
the Cox proportional hazard model and the Kaplan-Meier statistics are introduced.
Experimental studies have been carried out. They have shown the expediency of us-
ing the proposed models for solving the problems of behavioural scoring, since Cox's
proportional risks allow the inclusion of a set of regressors with variables that depend
on time. Suggested recommendations for improving the predictive qualities of mod-
els to overcome the heterogeneity of the sample, in particular the further stratification
of the sample, and outlined the prospects for further development of proportional risk
models for other financial risks, where it is also necessary to estimate the whole
group (population) in time.
1. Siddiqi N. Credit risk scorecards: developing and implementing intelligent credit scoring. —
Cary, North Carolina, USA. — 2005. — 196 р.
2. Cox D.R., Society S.B. Regression models and life-tables // Methodological. — 2007. — 34,
N 2. — P. 187–220.
3. Cao R., Vilar J.M., Devia A. Modelling consumer credit risk via survival analysis // SORT. —
2009. — 33, N 1. — P. 3–30.
4. Marimo M. Survival analysis of bank loans and credit risk prognosis master of science
mathematical statistics. — http://wiredspace.wits.ac.za/jspui/bitstream/10539/18597/1/Mercy%20
Marimo%20Thesis_Survival%20Analysis_28.03.%202015_v1.pdf.
5. Basel II: International convergence of capital measurement and capital standards: a Revised
Framework. — http://www.bis.org/publ/bcbs54.htm .
6. Stepanova M., Thomas L.C. Survival analysis methods for personal loan data // Operations Re-
search. — 2002. — 50, N 2. — P. 277–289.
7. Fleming, T.R., Harrington D.P. Counting processes and survival analysis. — New York. : John
Wiley & Sons — 1991.
8. Фомін О.В., Кузнєцова Н.В. Скорингові моделі поведінки клієнтів-власників кредитних ка-
рток для оцінки їх платоспроможності // Системні науки та кібернетика. — 2016. — № 5.
— С. 56–67. — http://mmsa.kpi.ua/sites/default/files/ssc/issues/ssc_5_2016.pdf.
9. Бидюк П. И., Романенко В. Д., Тимощук О. Л. Анализ временных рядов. — Киев: Политех-
ника, 2013. — 600 с.
10. Dabrowska D. Non-parametric regression with censored survival time data // Scandinavian
Journal of Statistics. — 1987. — 14, N 3. — P. 181–197.
Получено 31.05.2017
|