Моделирование кредитных рисков на основе теории выживания

Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні до...

Full description

Saved in:
Bibliographic Details
Published in:Проблемы управления и информатики
Date:2017
Main Authors: Кузнецова, Н.В., Бидюк, П.И.
Format: Article
Language:Russian
Published: Інститут кібернетики ім. В.М. Глушкова НАН України 2017
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/208608
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-208608
record_format dspace
spelling Кузнецова, Н.В.
Бидюк, П.И.
2025-11-02T19:24:38Z
2017
Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос.
0572-2691
https://nasplib.isofts.kiev.ua/handle/123456789/208608
519.766.4
10.1615/JAutomatInfScien.v49.i11.30
Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні дослідження, які показали доцільність використання запропонованих моделей для вирішення завдань поведінкового скорингу, оскільки пропорційні ризики Кокса дозволяють включати до множини регресорів змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей моделей, а також окреслено перспективи подальшого застосування моделей пропорційних ризиків для інших видів фінансових ризиків, де також необхідно оцінювати цілу групу (популяцію) в часі.
The basic principles of the theory of survival analysis are described, step by step the construction of models of assessment of the clients by the methods of logistic regression and survival analysis are shown. The following concepts as a function of risk, the Cox proportional hazard model and the Kaplan-Meier statistics are introduced. Experimental studies have been carried out. They have shown the expediency of using the proposed models for solving the problems of behavioural scoring, since Cox's proportional risks allow the inclusion of a set of regressors with variables that depend on time. Suggested recommendations for improving the predictive qualities of models to overcome the heterogeneity of the sample, in particular the further stratification of the sample, and outlined the prospects for further development of proportional risk models for other financial risks, where it is also necessary to estimate the whole group (population) in time.
ru
Інститут кібернетики ім. В.М. Глушкова НАН України
Проблемы управления и информатики
Математическое моделирование и исследование сложных управляемых систем
Моделирование кредитных рисков на основе теории выживания
Моделювання кредитних ризиків на основі теорії виживання
Modeling of credit risks on the basis of the theory of survival
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Моделирование кредитных рисков на основе теории выживания
spellingShingle Моделирование кредитных рисков на основе теории выживания
Кузнецова, Н.В.
Бидюк, П.И.
Математическое моделирование и исследование сложных управляемых систем
title_short Моделирование кредитных рисков на основе теории выживания
title_full Моделирование кредитных рисков на основе теории выживания
title_fullStr Моделирование кредитных рисков на основе теории выживания
title_full_unstemmed Моделирование кредитных рисков на основе теории выживания
title_sort моделирование кредитных рисков на основе теории выживания
author Кузнецова, Н.В.
Бидюк, П.И.
author_facet Кузнецова, Н.В.
Бидюк, П.И.
topic Математическое моделирование и исследование сложных управляемых систем
topic_facet Математическое моделирование и исследование сложных управляемых систем
publishDate 2017
language Russian
container_title Проблемы управления и информатики
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
format Article
title_alt Моделювання кредитних ризиків на основі теорії виживання
Modeling of credit risks on the basis of the theory of survival
description Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель пропорційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експериментальні дослідження, які показали доцільність використання запропонованих моделей для вирішення завдань поведінкового скорингу, оскільки пропорційні ризики Кокса дозволяють включати до множини регресорів змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей моделей, а також окреслено перспективи подальшого застосування моделей пропорційних ризиків для інших видів фінансових ризиків, де також необхідно оцінювати цілу групу (популяцію) в часі. The basic principles of the theory of survival analysis are described, step by step the construction of models of assessment of the clients by the methods of logistic regression and survival analysis are shown. The following concepts as a function of risk, the Cox proportional hazard model and the Kaplan-Meier statistics are introduced. Experimental studies have been carried out. They have shown the expediency of using the proposed models for solving the problems of behavioural scoring, since Cox's proportional risks allow the inclusion of a set of regressors with variables that depend on time. Suggested recommendations for improving the predictive qualities of models to overcome the heterogeneity of the sample, in particular the further stratification of the sample, and outlined the prospects for further development of proportional risk models for other financial risks, where it is also necessary to estimate the whole group (population) in time.
issn 0572-2691
url https://nasplib.isofts.kiev.ua/handle/123456789/208608
citation_txt Моделирование кредитных рисков на основе теории выживания / Н.В. Кузнецова, П.И. Бидюк // Проблемы управления и информатики. — 2017. — № 6. — С. 33-46. — Бібліогр.: 10 назв. — рос.
work_keys_str_mv AT kuznecovanv modelirovaniekreditnyhriskovnaosnoveteoriivyživaniâ
AT bidûkpi modelirovaniekreditnyhriskovnaosnoveteoriivyživaniâ
AT kuznecovanv modelûvannâkreditnihrizikívnaosnovíteorííviživannâ
AT bidûkpi modelûvannâkreditnihrizikívnaosnovíteorííviživannâ
AT kuznecovanv modelingofcreditrisksonthebasisofthetheoryofsurvival
AT bidûkpi modelingofcreditrisksonthebasisofthetheoryofsurvival
first_indexed 2025-11-25T11:05:24Z
last_indexed 2025-11-25T11:05:24Z
_version_ 1850510869407989760
fulltext © Н.В. КУЗНЕЦОВА, П.И. БИДЮК, 2017 Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 33 МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ИССЛЕДОВАНИЕ СЛОЖНЫХ УПРАВЛЯЕМЫХ СИСТЕМ УДК 519.766.4 Н.В. Кузнецова, П.И. Бидюк МОДЕЛИРОВАНИЕ КРЕДИТНЫХ РИСКОВ НА ОСНОВЕ ТЕОРИИ ВЫЖИВАНИЯ Введение Актуальная задача деятельности банковского сектора — анализ финансового кредитного риска. Кредитование — один из основных источников доходов в бан- ковском деле, инструмент стимулирования экономического развития и вместе с тем — источник вероятных потерь. Оценить, предсказать и предотвратить эти по- тери возможно на этапе выдачи кредита и в ходе его обслуживания. Традиционная постановка задачи оценки финансовых (кредитных) рисков для банковского сектора — это оценка новых клиентов при обработке заявок на выдачу кредита. Часть банков до сих пор решают эту задачу исключительно в статическом плане, оценивая вероятность возврата кредита и объем возможных потерь на текущий момент. Идея динамической оценки кредита и клиента заклю- чается в периодической проверке клиента с точки зрения выполнения его обяза- тельств, чтобы предусмотреть возможные проблемы в обслуживании им кредита и своевременной уплате ежемесячной задолженности. Она отличается от стан- дартного подхода к построению скоринговых моделей [1–3], поскольку позволяет оценивать кредиты до окончания срока, на который они были выданы, своевре- менно реагировать и разрабатывать актуальные механизмы и сценарии действий в случае появления таких проблемных кредитов. В настоящей статье предлагается построение математической модели при анализе кредитного риска новым способом, который предполагает динамическое оценивание клиентов. Наряду с традиционными характеристиками клиента и кре- дита предусматривается возможность прогнозирования момента времени (в меся- цах) 120  t , предшествующего наступлению неблагоприятного события — мо- мента появления задолженности (просрочки) по кредиту. Таким образом, предпо- лагается итерационная процедура построения скоринговых карт, которые будут предоставлять информацию о поведении заемщиков в момент обслуживания кре- дита, а также построения так называемой «скоринговой карты поведения». Скоринговые карты и модели Скоринговая карта поведения — это математическая модель со свойственной ей совокупностью входящих факторов (характеристик) клиента и кредита, изме- няющихся во времени и влияющих на целевую характеристику — переменную, описывающую возможность своевременной уплаты кредита в текущем месяце. 34 ISSN 0572-2691 Такая поведенческая скоринговая карта строится для различных типов «типич- ных» заемщиков и позволяет оценивать вероятность ежемесячной уплаты задол- женности. Параллельно с этим банки заинтересованы в объективной информации о возможных потерях в случае неуплаты по кредитам. В соответствии с Базелем II для оценки кредитных рисков банков используется IRB-подход (Internal Ratings- Based Approach) с учетом внутренних рейтингов заемщиков, т.е. рейтингов, уста- навливаемых самими банками [4, 5]. Такой подход предоставляет возможность рассчитать сумму, уплаченную по кредиту, и сумму, непокрытую по кредиту, для каждого конкретного кредита в конкретный момент времени. Введем понятие «цикл успешного обслуживания кредита», которое опреде- ляется как количество месяцев или дней, когда осуществляется оплата кредита без просрочек, т.е. 120 goodcredit  t при условии, что задержка 0delay  дней, .1)0delay( P Просрочка более трех, но менее 30 дней, определяется специальным марке- ром «подозрительного» поведения 1)_( debtsbehavioralI и считается поводом для включения таких клиентов в периодический (более частый) мониторинг с ис- пользованием скоринговых карт поведения и возможных средств защиты или противодействия появлению дальнейших просрочек по кредиту. Теория выживания: общие сведения и предположения для предметной области прогнозирования времени «успешности» кредита Традиционно модели анализа выживания используются для исследования момента гибели некоторой популяции. Время до наступления этого момента называется временем выживания. Модели анализа выживания предшествовало создание таблиц смертности, которые использовались в страховании жизни и демографических науках в XVII в. Это привело к употреблению слова «выживание» в контексте уровня смертности. Изначально метод таблиц смертности базировался на широких временных про- межутках и больших объемах данных. В 1950-х Каплан и Мейер [4] предложили статистическую оценку кривой выживания. Они разработали метод для коротких временных отрезков и меньших выборок по сравнению с теми, которые использо- валась в демографических исследованиях. Д. Кокс [2] предложил метод, позволяющий добавлять коварианты к анализу подобных данных, известный как «модель пропорциональных рисков Кокса» (proportional hazards — PH). Такая модель использует регрессоры, не зависящие от времени, или статические переменные и предполагает, что появление рисков не меняется с течением времени. Однако в реальных данных часто возникают ха- рактеристики, изменяющиеся со временем. Такие переменные нарушают предположение о постоянстве отношения, поэтому модель Кокса была моди- фицирована и дополнена. Известны ее стратифицированная и обобщенная мо- дификации. Применение теории анализа выживания для моделирования кредитных рисков предложено недавно. Так, в работе [4] указываются преимущества методов анализа выживания по сравнению c общепринятыми статистическими методами. Более пе- редовая методология выживания использует большее количество информации, чем обычные модели, поскольку она позволяет детализировать поведение путем цензуры и за счет использования переменной времени, что нельзя непосредственно применить ни в линейной, ни в логистической регрессии. К тому же не нужно делать никаких предположений относительно распределения переменной выхода. Именно такие рекомендации стали исходными для более глубокого исследования авторами методов https://ru.wikipedia.org/wiki/%D0%9A%D1%80%D0%B5%D0%B4%D0%B8%D1%82%D0%BD%D1%8B%D0%B9_%D1%80%D0%B8%D1%81%D0%BA Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 35 анализа выживания и их усовершенствования в контексте применения для анализа времени платежеспособности клиентов — владельцев кредитных карт (КК). В част- ности, в данной работе выполнена формализация постановки задачи прогнози- рования времени беспроблемного обслуживания кредита и экспериментальные исследования с применением моделей пропорциональных рисков. Правыми цензурированными наблюдениями называют такие, которые пре- кращаются до наступления события. Наблюдение называется цензурированным слева, если исследуется до начала периода наблюдения. Интервальными цензурированными наблюдениями называются наблюдения, если известна лишь информация о том, что время выживания распределено между переменными a и b ( ],[ bat ). Типы правого цензурирования: 1) субъекты исследования выжили до конца исследования; время цензуры фиксированное; 2) субъекты исследования выжили до конца исследования; время цензуры наступит, когда произойдет предварительно определенное количество событий; 3) случайные наблюдения прекращаются по причинам, которые не могут быть контролируемыми исследователем. Для исследования кредитных карточек определим правила цензурирования следующим образом. КК, по которым были просрочены менее трех платежей на сумму не менее 100 грн., считаются дефолтными, т.е. «плохими» в контексте данного исследования. Все остальные результаты отсекаются, т.е. считаются не дошед- шими до своего логического конца. Формализация задачи прогнозирования времени беспроблемности об- служивания банковского кредита. Условная функция выживания, используемая для моделирования кредитного риска, открывает интересную перспективу для изучения дефолта. Вместо того, чтобы определять есть ли дефолт, оцениваем время его наступления, учитывая кредитную информацию клиентов (эндогенные коварианты) и рассматривая индикаторы для экономического цикла (экзогенные коварианты). Таким образом, риск дефолта измеряется посредством условного распределения случайной переменной времени до дефолта, T , заданного векто- ром ковариант, X . Из-за механизма цензурирования переменная T не является полностью наблюдаемой. Поскольку на практике доля просроченных кредитов маленькая, доля цензу- рированных данных большая, это может привести к плохой производительности статистических методов. С другой стороны, размер выборки обычно очень большой. Это облегчает проблему значительной доли цензурирования [2]. Условный анализ выживания в кредитном риске Использование методов анализа выживания для изучения кредитного риска и, в частности, для модели вероятности дефолта ( PD ), можно иллюстрировать с помощью рис. 1, где представлены три распространенные ситуации, которые могут возникнуть на практике, когда кредитная компания соблюдает «срок» кредита. Рассмотрим интервал PD ],0[  в качестве горизонта исследования. Случай a показывает кредит с дефолтом до конечной точки времени при исследо- вании (  ). В этом случае время жизни кредита, T , которое является временем до дефолта кредита, — наблюдаемая переменная. Случаи (b) и (c) показывают две различные ситуации. В обоих случаях невозможно наблюдать момент, когда кредит вступает в дефолт, что вызывает нехватку информации, поступающей из правого отсечения. 36 ISSN 0572-2691 В случае (b) это только время от начала кредитования до конца исследова- ния, тогда (с) учитывает ситуации, когда ожидается отказ от кредита или по- гашения кредита до наступления дефолта. Доступной информацией для моделирования PD является выборка из n независимых одинаково распре- деленных величин ...,),,,({ 111 XY }),,( nnn XY  , случайного вектора },,{ XY , где },min{ CTY  — наблюдаемая зрелость; T — время до наступления дефолта; C — вре- мя до окончания исследования или предполагаемого аннулирования кре- дита; )( cT  — индикатор нецензурирования и X — вектор поясняющих ко- вариант. Здесь предполагается независимость величин T и ,X а также условная не- зависимость величин T и C для данного .X С учетом предыдущих допущений можно полностью характеризировать условное распределение случайной величины ,T используя некоторые общие со- отношения в анализе выживаемости. Таким образом, функция условной выжива- емости — )|( xtS , условный уровень опасности — )|( xt , условная кумулятив- ная функция риска — )|( xt , условная функция распределения — )|( xtF , свя- заны следующим образом [2]: , )|( )|( )|()|( , )|( )|(),|( lim 0 )|( ,)|()|()|( 00 du xtS xtf duxuxt xtS xtf t xXtTttTtP t xt duxufxXtTPxtS tt t           )|()|( xtextS  , )|(1)|( xtSxtF  . В данной статье используются различные подходы к моделированию ,PD применяя условный анализ выживания. Все модели основаны на записи PD с точки зрения условной функции распределения времени до дефолта. Таким об- разом, PD можно оценить как с помощью моделей логистической регрессии, так и пропорциональных рисков Кокса, в которой оценка функции выживаемости по- лучена решением уравнений частичного правдоподобия. Регрессионная модель Кокса дает PHMD̂P с помощью обобщенной линейной модели с параметрами, оцененными методом максимального правдоподобия; в результате получаем модель GLMD̂P . Моделирование вероятности дефолта функцией условного распределения. В соответствии с требованиями Базеля II [5] модели кредитного скоринга использу- ются для измерения вероятности дефолта на горизонте времени bt  со временем  0 (a) Default (b) No default (c) No default Рис. 1 Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 37 зрелости .t Типичное значение 12b (в месяцах). Таким образом должна быть вычислена следующая вероятность [2]:     x)X|tP(T x)X|tP(Tx)X|bt<( )x Xt,T|bt<()|(PD TP TtPxt , )|( )|( 1 )|(1 )|()|( xtS xbtS xtF xtFxbtF      (1) где t — наблюдаемый срок погашения кредита, x — значение ковариационного вектора X для этого кредита. Модели пропорциональных рисков. В данной статье используется полупа- раметрический подход к оцениванию пропорциональных рисков Кокса для функ- ции условного выживания )|( xtS , оценивающей совокупную условную функ- цию риска, — )|( xtL , с использованием метода максимального правдоподобия. Необходимо разработать условную модель для индивидуального )|( xtS , кото- рая определена в терминах )|( xtL . Для того чтобы описать PHMD̂P , приведем некоторые определения из теории Кокса [2, 6]. Оценка функции условного уровня риска определяется следующим образом: ),ˆexp()(ˆ)|(ˆ T 0  xtxt (2) где )(ˆ 0 t — оценка базовой функции уровня риска )(0 t , ̂ — оценка вектора параметров  . Таким образом, в предположении о существовании модели пропорциональ- ных рисков PD оценивается как )|(ˆ )|(ˆ 1 )|(ˆ1 )|(ˆ)|(ˆ )|(D̂P ˆ ˆ ˆ ˆˆ xtS xbtS xtF xtFxbtF xtPHM          , (3) где ))|(ˆexp()|(ˆ)|(ˆ1 ˆˆ xtxtSxtF   . Метод оценивания для этой модели состоит из двух шагов. На первом шаге интегральная функция базового риска )(0 t оценивается так:       n i ij n j ii YY tY t 1 1 0 . }{1 }1,{1 )(ˆ (4) Тогда параметр  : ),(maxargˆ   LPHM (5) где частичная функция правдоподобности задается выражением                 )exp(1 )exp( )( }{ 1 1 T jYY n j T i n i x x L ij . (6) 38 ISSN 0572-2691 Таким образом, оценка условной интегральной функции риска вычисляется по формуле )(ˆ)ˆexp()|(ˆ)|(ˆ 0 0 txdstsxt PHMT t   . (7) Асимптотические свойства этой оценки подробно изложены в [7]. Аналогичные соотношения можно получить для оценки РD, определенной в (3). В контексте потребительских кредитов популяция по теории выживания состоит из индивидов с кредитами в форме КК или других займов, живущих по следующим правилам: — пользователь кредита перестает выполнять свои обязательства (пере- ходит в состояние дефолта) по погашению задолженности, это считается его гибелью; — время выживания измеряется, начиная с даты открытия счета; — если клиент никогда не переходит в дефолт в течение периода наблюде- ния, то он подлежит цензуре в точке наблюдения, т.е. фиксируется и не использу- ется при построении модели. Предварительная подготовка данных Входные данные, использованные для экспериментальных исследований, включали в себя информацию о КК, выданных в разные периоды времени с 2013 по 2015 годы. Для того чтобы использовать как можно больше доступных записей, решено рассматривать КК в разрезе продолжительности их жизни. Тогда получаем множество КК, которые будто бы начинаются в один момент. При этом, посколь- ку логистическая регрессия по своей природе является моделью статической, нуж- но сформировать вектор характеристик на определенный момент жизни каждого кредита. Для преодоления этой проблемы решено считать «периодом созревания» соглашения временной интервал семь месяцев. При построении поведенческой скоринговой карты с использованием логи- стической регрессии нельзя обойтись без агрегирования исторических (по отно- шению к периоду созревания) данных, потому что иначе такую модель вообще нельзя считать поведенческой. В связи с этим в регрессоры были включены мак- симальные, минимальные и средние значения определенных параметров за пери- од с 1-го по 7-й месяцы. В результате такой предварительной обработки получен следующий список параметров: идентификатор сделки, номер месяца жизни кредита, данные о пове- дении клиента (остаток по телу кредита, процентам, просрочки по телу и проценту, количество дней просрочки по телу и процентам, сумма просрочки, лимит по КК, количество снятых и возвращенных денег, номер месяца первой просрочки более 100 грн.), аппликационные данные (тип клиента, возраст, год и период выдачи кредита, лимит на начало сделки, запрашиваемая сумма кредита, пропис- ка, количество иждивенцев, доход, общий скоринговый балл, возраст клиента как контрагента, время последней прописки), агрегированные данные (максимальная задолженность по телу, максимальное количество просроченных месяцев, макси- мальная сумма, среднее значение ежемесячного снятия, платежа, максимальное значение отношения просрочки к установленному лимиту) и целевое поле (дефолт/не дефолт). Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 39 В процессе предварительного исследования данных установлено (табл. 1), что слишком мало записей попадает в определенные категории характеристики client type. Поэтому было принято решение объединить наименее репрезентатив- ные из них: Employee с Insider и Salary с OldSalary. Такое решение объясняется так- же тем, что они отражают схожие категории клиентов. В первом случае — это груп- пы связанных лиц и работников банка, во втором — участники зарплатных проектов и те, кто когда-то были их участниками. Таблица 1 Название категории Количество записей Процент от общего количества, % NULL 220 7,407 Client 125 4,209 Employee 100 3,367 Insider 9 0,303 Normal 1213 40,842 OldSalary 245 8,25 Salary 1058 35,622 После выполнения предварительной обработки была построена модель в со- ответствии с формулой )( 1 )|( T T x x x e e e xyEp T       (8) средствами языка программирования R и оценены коэффициенты модели логи- стической регрессии [8]. В результате построена модель с оцененными коэффициен- тами ii i x p p     20 11 ln . Estimate Std. Error z value Pr(>|z|) (Intercept) -0.863284 0.613071 -1.408 0.159093 age 0.004807 0.005337 0.901 0.367745 is_satisfiedt -0.411450 0.119419 -3.445 0.000570 *** liv_is_regt -0.018226 0.129879 -0.140 0.888402 childcnt 0.030690 0.078934 0.389 0.697421 dependantcnt 0.011642 0.124057 0.094 0.925233 log(1 + income) 0.029583 0.022285 1.327 0.184346 has_u_scoret 0.879906 0.580642 1.515 0.129671 with_bank_mon -0.018143 0.009391 -1.932 0.053368 . reg_mon -0.004135 0.003742 -1.105 0.269086 clienttypeClient 0.479826 0.319386 1.502 0.133009 clienttypeEmployee 0.275121 0.411532 0.669 0.503796 clienttypeNormal 0.690322 0.242271 2.849 0.004380 ** clienttypeSalary 0.050843 0.246264 0.206 0.836434 log(1 + max_outbody) 0.142916 0.140520 1.017 0.309129 log(1 + max_ovdbody) 0.380554 0.186531 2.040 0.041334 * log(1 + max_ovd) -0.023716 0.183434 -0.129 0.897131 log(1 + max_limit) -0.333863 0.087932 -3.797 0.000147 *** log(1 + avg_montake) 0.367150 0.197322 1.861 0.062792 . log(1 + avg_monpay) -0.556334 0.065413 -8.505 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Анализ модели по площади под ROC-кривой (AUC) на рис. 2 показывает, что она неплохо справляется с задачей распознавания дефолтных и недефолтных слу- чаев: AUC = 0,804 — приемлемый по точности результат. Однако, несмотря на то, что для построения такой модели пришлось отбросить довольно много записей, а также то, что в процессе агрегации осталось значительное их количество, нельзя точно сказать, насколько этот показатель адекватен. 40 ISSN 0572-2691 0 0 0,2 0,2 0,4 0,6 0,8 1 0,4 0,6 0,8 1 True positive rate (TPR) F fl se p o si ti v e ra te ( F P R ) Рис. 2 Пропорциональные риски Кокса Предварительный анализ данных для построения динамического поведенче- ского скоринга с помощью модели PH свидетельствует о том, что они согласо- ванны и не содержат противоречий. Приведем несколько описательных характе- ристик основных переменных, используемых при построении модели:  средний возраст КК — 9,113 месяцев, максимальный — 31 месяц;  максимальная задолженность по телу кредита — 100 000 грн.; среднее зна- чение такой задолженности — 4 105,5 грн.;  среднее значение просроченной задолженности — 171 грн.; максималь- ное — 51 474 грн.;  наибольшая величина лимита — 250 000 грн.; среднее значение — 6 884 грн.;  в среднем ежемесячно клиенты пользовались лимитом в 942,9 грн.; при этом с их стороны в среднем поступало меньше — 740,2 грн., что свидетельствует о тенденции клиентов к просрочке в данной выборке;  средний возраст владельцев КК — 38,67 лет, медиана — 37 лет; макси- мальный — 66 лет; минимальный — 20 лет;  средний доход — 3 827 грн.; максимальный — 120 000 грн.; минималь- ный — 0 грн. Построение модели базируется на формуле (2) PH. Оценивание коэффициентов модели происходило путем максимизации частичной функции правдоподобия (6). Для этого применялась функция coxph библиотеки survival. Отметим, поскольку было принято решение не использовать категоризацию переменных, а считать непрерывные величины непрерывными, для сглаживания влияния больших значений проводилось логарифмирование соответствующих полей, значения которых достигали третьего порядка и выше. Из-за чрезмерной корреляции многих показателей (например, общая про- срочка состоит из просрочки по процентам, по комиссии и по телу; по своей сути она является линейной комбинацией этих трех величин) для построения модели выбраны наиболее значимые показатели. Таким образом, в модель включен 21 регрессор: ii i xtxt    21 1 )),(,(ln . (9) Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 41 Оцененные коэффициенты модели, т.е. вектор в формуле (2), экспонента от него, оценки стандартных отклонений, Z-статистика и p-значение приведены в модели логистической регрессии. Предварительно можно сказать, что наибольшее влияние имеет параметр pdd_new, что соответствует месяцам просрочки, и log (1 + ovd), что является лога- рифмом от величины просроченной задолженности. Такой результат прогнозируем, поскольку целевое поле формировалось именно на основе этих двух значений. Однако стоит отметить довольно неадекватные значения в последнем столб- це табл. 3, что указывает на необходимость более детального исследования моде- ли. В связи с этим выбран метод, описанный в работе [6], который заключается в отборе определенного количества наибольших оценок функции риска и соответ- ствует количеству фактических случаев дефолта. На основе такого отбора строит- ся ROC-кривая и оценки AUC (рис. 3). При дальнейшем исследовании подобное поведение очевидно. Поскольку в регрессоры включены такие поля, как количество дней просрочки и ее величина (значительно коррелируют с целевым полем, ведь оно формируется на основе значений именно этих двух полей), то полученный результат прогнозируемый. Несмотря на то, что построенную модель пока нельзя применить, такое поведение модели свидетельствует о корректности подхода. 0 FPR T P R 0 0,2 0,2 0,4 0,6 0,8 1 0,4 0,6 0,8 1 Рис. 3 Для того чтобы сделать модель более адекватной, а также одновременно обеспечить ее предикативность, логичным решением является применение лагов, т.е. значений регрессоров, смещенных во времени [9]. Построение таких моделей рассмотрим ниже. Прогнозирующие модели со смещенными во времени значениями В результате анализа модели решено применять смещенные значения. Отме- тим, что сравнение по тесту Вальда (WT) [9] и тесту множителей Лагранжа (LM) указывает на то, что параметр pdd_new, который соответствует «количеству ме- сяцев просрочки», малозначительный, его можно исключить. Поэтому входные данные остались теми же, за исключением нескольких изменений: — параметр «количество месяцев просрочки» было решено не применять из- за чрезмерной корреляции с другими показателями и низкой значимостью; — добавились значения переменных: остаток по кредиту, просрочка, количе- ство снятых и возвращенных на карточный счет денег с лагами 1–3. После получения обновленных данных построено три модели в соответствии с применением регрессоров с лагами 1–3: ii i ii i k xktxktxth    21 6 5 1 )()),(,( . (10) 42 ISSN 0572-2691 В правой части уравнения первое слагаемое — динамические параметры, а второе слагаемое — статические параметры. Для сравнения моделей между собой рассчитано значение AUC и построены ROC-кривые (рис. 4, М1– М3). Такие методы сравнения обще- приняты и обеспечивают оценку воз- можностей классификации по каждой модели. Как и следовало ожидать, воз- можности моделей распознавать «плохих» ухудшаются с увеличением лаговости регрессоров. Однако при этом улучшаются их предикативные свойства (табл. 2). Таблица 2 Модель с лагом M1 M2 M3 AUC 0,918881 0,887751 0,828898 GINI 0,8378 0,7755 0,6578 AIC 7495,905 7819,972 8946,005 WT 1410,135 1384,005 1308,561 Сравнение различных статистик моделей показывает, что несмотря на луч- шее качество модели М1, использование большего количества регрессоров может быть более оправданным, поскольку они более значимые. Непараметрическая регрессия и оценка Каплан–Мейера Оценка Kаплан–Mейера (КМ) является в определенной степени обобщением эмпирической функции выживания и учитывает цензурированные наблюдения. Формула КМ для вероятности выживания в определенное время ограничивается произведением характеристик, соответствующих лицам, которые остались в жи- вых после времени it . Поэтому часто такую оценку также называют Product- limit estimator [10]. Для расчета оценки KM все наблюдения сортируются в порядке возрастания времени их жизни. Первое вхождение начинается в нуле. Вероятность выжи- вания к этому времени равна 1. Дальнейшие наблюдения исключаются в момент времени их гибели (возможно, в результате цензуры). Множество под риском, которое обозначается )( itR , — это количество всех индивидов, доживших хотя бы до времени it . Основная идея расчета представляется формулой )|(ˆ)(ˆ 1 ii j i j tTtTPtS   (11) с учетом того, что i ii ii n dn tTtTP   )|(ˆ , (12) где in — количество наблюдений во множестве риска | ))(|( ii tRn  ; id — коли- чество субъектов, которые погибли в момент it ( || ii Dd  ). 0 0 0,2 0,2 0,4 0,6 0,8 1 0,4 0,6 0,8 1 M1 M3 M2 TPR F P R Рис. 4 Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 43 Статистика KM позволяет исследовать популяцию в общем и проанализиро- вать, какая ее часть остается живой до определенного момента времени, посколь- ку позволяет оценить вероятность такого выживания. На основе отобранной выборки построена оценка KM (рис. 5). Однако такая модель, не позволяет оценивать отдельно каждого клиента, поскольку рассматри- вает в качестве субъекта всю популяцию. Тем не менее она позволяет качественно оценивать кредитный портфель по разным типам кредитов. Поскольку в выборке были задействованы кредиты разных лет, целесообраз- но выполнить срез в соответствии с датами выдачи, сравнивая модели за разные годы на основании оценок KM. Как видно из рис. 6–8, поток кредитов в 2015 г. в чем-то повторяет 2013 г. При этом добросовестное поведение было у клиентов, которым выданы КК в 2014 г. После уточнения особенностей, связанных с внутренними настройками политики банка, определено, что в 2014 г. был поднят скоринговый балл для клиентов, которым выдавали кредит, ужесточена скоринговая карта и соответ- ственно КК выдавались самым добросовестным (в соответствии со скоринго- вой моделью) клиентам банка. Эти условия были ослаблены в 2015 г., что и подтвердила оценка КМ. Неоднородность выборки свидетельствует о необхо- димости дальнейшей стратификации выборки и построении моделей. 0 0 5 0,2 0,4 0,6 0,8 1 10 15 20 25 30 Рис. 6 0 0 5 0,2 0,4 0,6 0,8 1 10 15 Рис. 8 Анализ полученных результатов Выполнено сравнение всех описанных моделей, построенных методами ана- лиза выживания и с помощью логистической регрессии (рис. 9, М1–М3 и Мlog). Из рис. 9 видно, что модели с лагами 1 и 3 значительно лучше классифицируют клиентов. При этом модель M3 хуже справляется с задачей в нижних сегментах, но показывает значительно лучшие результаты в верхних сегментах. Это хорошо для банковского сектора, поскольку нужно выбрать оптимальный порог отсече- ния, правее которого будут находиться клиенты, которым можно выдавать КК. Цель банков — минимизация количества «плохих» клиентов в выборке, а это до- стигается благодаря выпуклости в верхнем сегменте модели M3, которая позволя- 0 0 5 0,2 0,4 0,6 0,8 1 10 15 20 25 30 Рис. 5 0 0 5 0,2 0,4 0,6 0,8 1 10 15 20 25 Рис. 7 44 ISSN 0572-2691 ет отобрать больше «хороших» клиентов. В свою очередь, логит-модель лучше классифицирует «плохих» клиентов, т.е. ее целесообразно применять для ско- ринга мошенничества. 0 0 0,2 0,2 0,4 0,6 0,8 1 0,4 0,6 0,8 1 М1 М3 М2 Мlog TPR F P R Рис. 9 Итак, можно сделать вывод, что методы теории выживания целесообразно применять для построения моделей определения и классификации «хо- роших» клиентов. При этом такие модели естественным образом обеспечивают прогнозирование благодаря использованию при по- строении смещенных во времени значений переменных (лагов). Так- же нужно отметить возможность скоринга портфелей КК на основе статистики KM, что дает возможность сравни- вать поведение популяций в общем, как это показано в статье. В результате тако- го анализа выявлено, что выборки 2013 и 2014 гг. значительно отличаются, что наталкивает на мысль о возможности стратификации данных и рассмотрения их по отдельности. Заключение Анализ поведения клиентов банка — важный аспект управления рисками. Кроме того, что своевременное предвидение дефолта заемщика может сохранить прибыль и устойчивое развитие финансового учреждения, такой анализ также необходим для расчета резервов, соответсвует требованиям международных стандартов и является обязательным на уровне действующего законодатель- ства. Фактически подход к формированию капиталовложений основывается на оценке вероятности потери платежеспособности клиента. Это еще раз под- тверждает актуальность скоринговых моделей, которые позволяют сравнивать клиентов между собой. Особое внимание привлекает такой вид кредита, как кредитная карта. В связи с ее динамичным характером возникает проблема выявления каких-то законо- мерностей и своевременного реагирования на изменения в поведении владель- ца этого платежного средства. Наиболее подходящий инструмент для решения этой задачи — поведенческий скоринг, а самая распространенная модель для построения скоринговой карты — логистическая регрессия. Однако, как пока- зывает практика, этот подход не дает желаемых результатов. Во-первых, такая Таблица 3 МОДЕЛИ AUC AIC M1 0,919 8946,005 M2 0,888 7819,972 M3 0,829 7495,905 Logit 0,804 2334,007 Международный научно-технический журнал «Проблемы управления и информатики», 2017, № 6 45 модель статическая, во-вторых, ее трудно применять для прогнозирования. Поэтому предложено рассмотреть альтернативную методологию, основанную на приемах анализа выживания. В данной работе описаны основные принципы теории выживания. Введены такие понятия, как функция риска, модель PH и статистика KM, т.е. предложен математический аппарат для построения модели. Оказывается, что пропорцио- нальные риски Кокса позволяют включать во множество регрессоров перемен- ные, зависящие от времени. Использование такого функционала способствовало применению значения переменных, смещенных во времени, естественным обра- зом обеспечивая прогнозирование. Для проведения вычислительного эксперимен- та использована выборка, состоящая из 376789 записей по 30000 КК, выданным в 2013–2016 гг. Однако для построения моделей использованы аппликационные данные. В связи с этим количество доступных записей уменьшилось. Для модели PH выборка состоит из 55286 наблюдений по 4037 КК с ежемесячной детализацией. При этом следует отметить, что для построения модели на основе логистической регрессии происходило агрегирование и отбор так называемых «зрелых» карт, что привело к уменьшению количества строк в выборке и к определенной по- тере информации. Из сравнения полученных результатов следует, что возможность классифи- кации моделей PН уменьшается при увеличении лаговости ковариант, однако да- же при применении третьего лага такая модель показывает лучшие результаты, чем обычная логистическая регрессия. В статье описана последовательность построения моделей оценки клиентов методами логистической регрессии и анализа выживаемости, отбор параметров и сравнение промежуточных результатов. Предложены рекомендации по улучше- нию предсказуемых качеств моделей на основе методов теории выживания и пер- спективы дальнейшего их развития для других видов финансовых рисков. Также стоит обратить внимание на потенциальные возможности улучшения построен- ных моделей путем более детального анализа независимых переменных и форми- рования различных целевых полей. Применение такого динамического и поведенческого оценивания клиентов и кредитов с помощью моделей анализа выживаемости позволит банкам своевре- менно реагировать и существенно снижать потери из-за дефолтов. Н.В. Кузнєцова, П.І. Бідюк МОДЕЛЮВАННЯ КРЕДИТНИХ РИЗИКІВ НА ОСНОВІ ТЕОРІЇ ВИЖИВАННЯ Описано основні принципи теорії аналізу виживання, покроково розписано послідовність побудови моделі оцінки клієнтів методами логістичної регресії і аналізу виживання. Введено такі поняття, як функція ризику, модель про- порційних ризиків Кокса і статистика Kаплан–Мейера. Проведено експе- риментальні дослідження, які показали доцільність використання запропо- нованих моделей для вирішення завдань поведінкового скорингу, оскільки пропорційні ризики Кокса дозволяють включати до множини регресорів змінні, що залежать від часу. Дано рекомендації щодо поліпшення якостей моделей, а також окреслено перспективи подальшого застосування моделей пропорційних ризиків для інших видів фінансових ризиків, де також необ- хідно оцінювати цілу групу (популяцію) в часі. 46 ISSN 0572-2691 N.V. Kuznetsova, P.I. Bidyuk MODELING OF CREDIT RISKS ON THE BASIS OF THE THEORY OF SURVIVAL The basic principles of the theory of survival analysis are described, step by step the construction of models of assessment of the clients by the methods of logistic regres- sion and survival analysis are shown. The following concepts as a function of risk, the Cox proportional hazard model and the Kaplan-Meier statistics are introduced. Experimental studies have been carried out. They have shown the expediency of us- ing the proposed models for solving the problems of behavioural scoring, since Cox's proportional risks allow the inclusion of a set of regressors with variables that depend on time. Suggested recommendations for improving the predictive qualities of mod- els to overcome the heterogeneity of the sample, in particular the further stratification of the sample, and outlined the prospects for further development of proportional risk models for other financial risks, where it is also necessary to estimate the whole group (population) in time. 1. Siddiqi N. Credit risk scorecards: developing and implementing intelligent credit scoring. — Cary, North Carolina, USA. — 2005. — 196 р. 2. Cox D.R., Society S.B. Regression models and life-tables // Methodological. — 2007. — 34, N 2. — P. 187–220. 3. Cao R., Vilar J.M., Devia A. Modelling consumer credit risk via survival analysis // SORT. — 2009. — 33, N 1. — P. 3–30. 4. Marimo M. Survival analysis of bank loans and credit risk prognosis master of science mathematical statistics. — http://wiredspace.wits.ac.za/jspui/bitstream/10539/18597/1/Mercy%20 Marimo%20Thesis_Survival%20Analysis_28.03.%202015_v1.pdf. 5. Basel II: International convergence of capital measurement and capital standards: a Revised Framework. — http://www.bis.org/publ/bcbs54.htm . 6. Stepanova M., Thomas L.C. Survival analysis methods for personal loan data // Operations Re- search. — 2002. — 50, N 2. — P. 277–289. 7. Fleming, T.R., Harrington D.P. Counting processes and survival analysis. — New York. : John Wiley & Sons — 1991. 8. Фомін О.В., Кузнєцова Н.В. Скорингові моделі поведінки клієнтів-власників кредитних ка- рток для оцінки їх платоспроможності // Системні науки та кібернетика. — 2016. — № 5. — С. 56–67. — http://mmsa.kpi.ua/sites/default/files/ssc/issues/ssc_5_2016.pdf. 9. Бидюк П. И., Романенко В. Д., Тимощук О. Л. Анализ временных рядов. — Киев: Политех- ника, 2013. — 600 с. 10. Dabrowska D. Non-parametric regression with censored survival time data // Scandinavian Journal of Statistics. — 1987. — 14, N 3. — P. 181–197. Получено 31.05.2017