Оцінювання кредитних ризиків методами інтелектуального анализу даних

In this research, credit risks are analyzed for financial organizations using data mining techniques applied to actual data. The two sets of actual statistical data characterizing the borrowers are employed for constructing mathematical models in the form of the nonlinear logit regression, decision...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2017
Автори:	Danylov, Valery Ya., Jirov, Alex L., Bidyuk, Petro I.
Формат:	Стаття
Мова:	Українська
Опубліковано:	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2017
Теми:	кредитний ризик статистичні дані логіт-модель байєсівські мережі параметри якості моделей
Онлайн доступ:	https://journal.iasa.kpi.ua/article/view/101737
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	System research and information technologies
Завантажити файл:

Репозитарії

System research and information technologies

_version_	1867334280783331328
author	Danylov, Valery Ya. Jirov, Alex L. Bidyuk, Petro I.
author_facet	Danylov, Valery Ya. Jirov, Alex L. Bidyuk, Petro I.
author_institution_txt_mv	[ { "author": "Valery Ya. Danylov", "institution": "Навчально-науковий комплекс \"Інститут прикладного системного аналізу\" Національного технічного університету України \"Київський політехнічний інститут ім. І. Сікорського\", Київ" }, { "author": "Alex L. Jirov", "institution": "Кафедра математичного моделювання економічних систем Національного технічного університету України \"Київський політехнічний інститут ім. І. Сікорського\", Київ" }, { "author": "Petro I. Bidyuk", "institution": "Навчально-науковий комплекс \"Інститут прикладного системного аналізу\" Національного технічного університету України \"Київський політехнічний інститут ім. І. Сікорського\", Київ" } ]
author_sort	Danylov, Valery Ya.
baseUrl_str	http://journal.iasa.kpi.ua/oai
collection	OJS
datestamp_date	2018-03-30T15:25:34Z
description	In this research, credit risks are analyzed for financial organizations using data mining techniques applied to actual data. The two sets of actual statistical data characterizing the borrowers are employed for constructing mathematical models in the form of the nonlinear logit regression, decision trees, and Bayesian networks. The constructed models are analyzed with a set of appropriate statistical criteria, providing a basis for selecting the best alternative model. A series of computational experiments have been carried out using the two sets of actual statistical data from a Ukrainian bank. As a result of the performed computations, it was established that the best models in this application turned out to be nonlinear logit equations and Bayesian networks. In the future studies, we suppose to expand the number of model constructing techniques and to apply the idea of combining the estimates generated by the alternative models. Also, a specialized decision support system is to be constructed for the purpose of carrying research in the area of financial risks estimation and prediction.
doi_str_mv	10.20535/SRIT.2308-8893.2017.1.03
first_indexed	2025-07-17T10:20:56Z
format	Article
fulltext	© В.Я. Данилов, О.Л. Жиров, П.І. Бідюк, 2017 Системні дослідження та інформаційні технології, 2017, № 1 33 TIДC ПРОБЛЕМИ ПРИЙНЯТТЯ РІШЕНЬ І УПРАВЛІННЯ В ЕКОНОМІЧНИХ, ТЕХНІЧНИХ, ЕКОЛОГІЧНИХ І СОЦІАЛЬНИХ СИСТЕМАХ УДК 519.226, 330.322 DOI: 10.20535/SRIT.2308-8893.2017.1.03 ОЦІНЮВАННЯ КРЕДИТНИХ РИЗИКІВ МЕТОДАМИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ В.Я. ДАНИЛОВ, О.Л. ЖИРОВ, П.І. БІДЮК Анотація. Проаналізовано кредитні ризики фінансових організацій за допомо- гою методів інтелектуального аналізу даних. Фактичні статистичні дані, які характеризують позичальників кредитів, використано для побудови математич- них моделей у формі рівнянь типу логіт, дерев рішень і байєсівських мереж. Якість побудованих моделей проаналізовано за множиною належних статис- тичних критеріїв, які забезпечують основу для вибору кращої альтернативної моделі. Із використанням двох вибірок банківських даних виконано ряд обчис- лювальних експериментів і виявлено кращі моделі у формі рівнянь типу логіт і байєсівські мережі. Передбачається розширити множину методів побудови ма- тематичних моделей і реалізувати ідею комбінування оцінок, згенерованих за альтернативними методами. Обґрунтовано доцільність розроблення та реалі- зацію спеціалізованої системи підтримання прийняття рішень для виконання досліджень у галузі оцінювання та прогнозування фінансових ризиків. Ключові слова: кредитний ризик, статистичні дані, логіт-модель, байєсівські мережі, параметри якості моделей. ВСТУП Для того, щоб ефективно управляти кредитними ризиками, необхідно вміти точно вимірювати їх. Існує досить велика множина методів і моделей оці- нювання кредитного ризику. Для створення системи управління кредитним ризиком банки спираються на власний досвід та напрацювання. Натепер існує багато моделей оцінювання кредитоспроможності на під- ставі ринкових показників, а саме: моделі Блека–Шоулза–Мертона [1, 2]. Перевагами таких моделей є висока прогнозна спроможність, абсорбувальна інформація про позичальника, доступна всім інвесторам, присутнім на рин- ку. Недоліками є те, що інформація про позичальника є відповідною лише за умови ефективності ринку, потрібний великий масив даних. Ці методи реалізовані на практиці у вигляді програмного продукту CreditMonitor. Підходи до розроблення моделей для оцінювання кредитоспроможнос- ті на підставі фундаментальних показників ґрунтуються на макроекономіч- них показниках, фінансових показниках та на даних рейтингових агентств. Особливостями таких підходів є те, що вони враховують циклічність еконо- міки, дають змогу отримувати довгострокову оцінку, виконувати крос- В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 34 аналіз. Їх переваги: доступність інформації, простота розрахунків і прийнят- на точність прогнозу. Недоліки: важко визначити періодичність циклів еко- номіки та оцінити ймовірність дефолту конкретного позичальника; не зав- жди надані дані є достовірними; бухгалтерська звітність показує результати постфактум, тобто недостатній прогноз майбутніх перспектив; переоцінка рейтингу має часовий лаг [1, 3]. Мінімізація кредитного ризику потребує належного управління ними, що являє собою процес виявлення і оцінювання ризиків, а також вибір ме- тодів та інструментів для цього. Традиційно кредитний ризик розглядається в розрізі кожного конкретного позичальника. Численні моделі використо- вують складний математичний апарат для оцінювання кредитного ризику. Ключовим завданням побудови математичної моделі кредитного ризику є оцінювання розподілу збитків усього агрегованого кредитного портфеля. Це так звані системи скорингу [4, 5]. Роботу присвячено аналізу можливості застосування лінійної і неліній- ної регресій, а також байєсівського методу аналізу даних; виконанню та аналізу результатів обчислювальних експериментів з оцінювання кредито- спроможності клієнтів за наявними статистичними даними; порівнянню результатів застосованих методів оцінювання кредитного ризику. ОГЛЯД МОДЕЛЕЙ ДЛЯ ОЦІНЮВАННЯ КРЕДИТНОГО РИЗИКУ Лінійна та логістична регресія. Традиційними і найбільш поширеними є регресійні методи, насамперед лінійна багатофакторна регресія: nn x+ w+ x+ w x+ w wp K22110= , де p — імовірність дефолту; w — вагові коефіцієнти; x — характеристики клієнта. Недолік моделі полягає у тому, що ліва частина рівняння містить імовірність, яка набуває значення в інтер- валі [0, 1], а змінні в правій частині можуть набувати будь-яких значень від ∞− до ∞+ . Цей недолік може подолати нелінійна модель у формі логістич- ної регресії: nn xwxwxww p p ++++=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − K221101 ln . Дослідимо імовірність появи події (зі значенням імовірності, близьким до нуля або до одиниці) залежно від значень регресорів },,,{ 21 nxxxx K= . У результаті отримуємо значення логіт-функції в інтервалі [0,1], тобто ze zg −+ = 1 1)( . Тоді модель матиме вигляд: )(Pr 22110 mmxpxpxppg ++++= K . Припустімо, що існує вибірка ),,,,( 21 ii m ii yxxx K ),,1( ni K= , де iy — значення залежної змінної; n — кількість спостережень. Потрібно оцінити коефіцієнти моделі. Для цього скористаємося принципом максималь- ної правдоподібності, відповідно до якого за оцінки коефіцієнтів беруться ті значення, які дають максимум функції правдоподібності: ( ) ii yyn i pxgpxgpL − = ⎥⎦ ⎤ ⎢⎣ ⎡ ⎟ ⎠ ⎞⎜ ⎝ ⎛−⎟ ⎠ ⎞⎜ ⎝ ⎛=∏ 1 11 1 1 . Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 35 Для зручності позначимо: ( )mppppp ,,,, 210 K= , ),,,( 21 1 i m ii xxxx K= ; i mm ii xpxpxpppx ++++= K22110 1 . Зазвичай використовується логарифм фу- нкції правдоподібності, що не змінює суті задачі, але дозволяє позбутись добутку: ∑ = ⎟ ⎠ ⎞⎜ ⎝ ⎛ ⎟ ⎠ ⎞⎜ ⎝ ⎛−−+⎟ ⎠ ⎞⎜ ⎝ ⎛ ⎟ ⎠ ⎞⎜ ⎝ ⎛= n i ii pxgypxgypl 1 11 1ln)1(ln)( . Сьогодні логістична регресія є лідером скорингових систем. Перевага логістичної регресії полягає ще й у тому, що вона може поділяти клієнтів як на дві групи (0 – поганий, 1 – хороший), так і на кілька груп (1, 2, 3, 4 групи ризику). Дерева рішень. Дерева рішень — це модель, що будується на логічно- му ланцюжку правил, які намагаються описати окремі взаємозв'язки між даними щодо очікуваного результату. Структура дерев рішень відкрито по- казує аргументацію правил і тому дає змогу легко зрозуміти про- цес прийняття рішення [6]. Критерії якості моделі та оцінок прогнозів. Існує множина критеріїв, які визначають якість побудованої моделі і якість прогнозу. Подамо деякі з них, які використано у цій роботі. Інформаційний критерій Акайке (AIC). Критерій використовується для порівняння моделей з різною кількістю параметрів, коли потрібно вибрати найкращий набір пояснювальних змінних. Для лінійної моделі множинної регресії значення критерію розраховується за такою формулою: n k n AIC k i i 2ln 1 2 +⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ε = ∑ = , де n — кількість спостережень; k — кількість параметрів моделі; ∑ = ε k i i1 2 — сума квадратів залишків моделі, отриманих під час оцінювання коефіцієнтів моделі за методом найменших квадратів. Зі збільшенням кіль- кості пояснювальних змінних перший доданок у правій частині зменшуєть- ся, а другий збільшується. Таким чином, критерій не тільки винагороджує за якість наближення, але і штрафує за використання зайвої кількості парамет- рів моделі. Серед кількох альтернативних моделей перевага надається тій, значення AIC якої менше. Інформаційний критерій Шварца (SC). Цей критерій, аналогічно крите- рію Акайке, дозволяє порівняти моделі з різною кількістю параметрів, коли потрібно вибрати кращу множину пояснювальних змінних. Для лінійної мо- делі множинної регресії значення критерію визначається за формулою n nk n SC k i i )(lnln 1 2 +⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ε = ∑ = , де n — кількість спостережень; k — кількість параметрів моделі; ∑ = ε k i i1 2 — сума квадратів залишків моделі, отриманих під час оцінювання коефіцієнтів моделі за методом найменших квадратів. Зі збільшенням кількості поясню- вальних змінних перший доданок у правій частині формули зменшується, В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 36 а другий — збільшується. Серед кількох альтернативних моделей перевага віддається тій, значення SC якої менше. Коефіцієнт детермінації розглядають, як правило, як основний показ- ник, що відображає міру якості регресійної моделі, яка описує зв’язок між залежною і незалежними змінними моделі. Коефіцієнт детермінації показує, яка частка варіації пояснювальної змінної y врахована в моделі і зумовлена впливом на неї факторів, включених у модель: ∑ ∑ = = − − −= n i i n i i yy yy R 1 12 )( )ˆ( 1 , де iy — значення спостережуваної змінної; y — середнє значення спосте- режуваних даних; ŷ — модельні значення, побудовані за оціненими парамет- рами. Чим ближче значення 2R до одиниці, тим вища адекватність моделі. Стандартна похибка регресії (стандартна похибка оцінки) розглядається як міра розсіювання даних спостережень від змодельованих значень. Чим менше значення стандартної похибки регресії, тим якість моделі вища. Сума квадратів величин розбіжності між змодельованими і фактичними значен- нями, які пояснюються змінними на періоді ідентифікації, розраховується за формулою ∑ = − n i i yy 1 2 ,)ˆ( де iy — значення спостережуваної змінної; ŷ — модельні значення, обчис- лені за оціненими параметрами. Критерій Дарбіна–Уотсона (DW-критерій). Це статистичний критерій, що використовується для знаходження автокореляції залишків першого по- рядку регресійної моделі; обчислюється за формулою ρ−= 22DW , де ρ — коефіцієнт автокореляції першого порядку і 2 2 ])1([])([ 1 1 e N k ekeeke N σ −−− −=ρ ∑ = ; ∑ = − − =σ N k e eke N 1 22 ])([ 1 1 , )()()( kykyke −= . Критерій Ханана–Куіна (HQ). Критерій використовується для порів- няння моделей за співвідношенням між якістю вибору і кількістю оцінюва- них параметрів. Обчислюється тільки для моделей бінарного та множинного вибору за виразом n nk n LHQ )(lnln2ln2 +−= , де L — функція правдоподібності; n — кількість спостережень; k — кіль- кість змінних моделі. Вибирається модель з найменшим значенням критерію. Критерій Макфадена (McFadden Rsquared). Це аналог коефіцієнта де- термінації для звичайної регресії: Lstr L lnRe ln1quaredMcFaddenRs −= , Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 37 де Lln — логарифм функції правдоподібності; Lstr lnRe — залишок лога- рифма функції правдоподібності. Значення міститься в діапазоні (0, 1). Об- числюється тільки якщо модель містить константу. Найкращим вважається значення, що найближче до одиниці. Середньоквадратична похибка (СКП) використовується для оцінювання адекватності моделі і обчислюється за формулою ∑ = −= n k kyky n 1 2)](ˆ)([1СКП , де )(ky — значення спостережуваної змінної; )(ˆ ky — модельні значення, обчислені за оціненими параметрами. Середня абсолютна похибка у відсот- ках (САПВ) — це середнє абсолютних значень похибок оцінок прогнозу відносно фактичного значення показника: ∑ = − = N k ky kyky N 1 100 )( )(ˆ)(1САПВ , де )(ky — значення спостережуваної змінної; )(ˆ ky — модельні значення, обчислені за оціненими параметрами. Оскільки ця міра характеризує від- носну якість прогнозу, то її використовують здебільшого для порівняння точності прогнозів різнорідних об’єктів (процесів) прогнозування. Однак вона завжди корисна для виконання порівняльного аналізу якості прогнозу- вання одного й того ж самого процесу різними методами, оскільки відносна міра є чіткою і зрозумілою для дослідника і практичного користувача [7, 8]. Для аналізу якості моделей і встановлення кращої моделі для розв’язання певної задачі використовують кілька критеріїв для оцінювання адекватності моделей [9]: загальна точність моделі; помилки першого і другого роду; ROC-крива та індекс GINI. Загальна точність моделі (CA — Common Accuracy) визначається так: N ForecastCorrectCA = , де ForecastCorrect — кількість правильно спрогнозованих випадків; N — за- гальна кількість випадків. Загальна точність моделі є дещо суб’єктивною оцінкою, оскільки вона залежить від частки дефолтів у моделі та від порога відсікання [9]. Для різних значень порога точність моделі також буде набу- вати різних значень. ROC-крива (Receiver Operation Characteristic — робоча характеристика приймача) показує залежність кількості правильно класифі- кованих позитивних прикладів від кількості неправильно класифікованих негативних прикладів. Перші називають істинно позитивними, а другі — негативними множинами. Припускається, що у класифікаторі є певний па- раметр, варіюючи яким можна отримати певне розбиття на класи. Цей пара- метр часто називають порогом або точкою відсікання (сut-off), залежно від якого будуть отримані різні величини помилок першого і другого роду (табл. 1). Таблиця 1. Помилки першого і другого роду Повернення/ Неповернення Прогноз моделі: повернення кредиту (0) Прогноз моделі: дефолт (1) Фактично: повернення кредиту (0) Правильно класифіковані (TP) Помилки другого роду (FN) Фактично: дефолт (1) Помилки першого роду (FP) Правильно класифіковані (TN) В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 38 Для аналізу якості моделі найчастіше використовують такі відносні по- казники (у відсотках): − частка істинно позитивних прикладів (True Positives Rate): FNTP TPTPR + = ; − частка хибно позитивних прикладів (False Positives Rate): FPTN FPFPR + = . Зазвичай для аналізу якості моделей використовують ще дві характери- стики: чутливість та специфічність. Чутливість моделі — це частка істинно позитивних випадків, тобто FNTP TPTPRSe + == . Специфічність моделі — це частка істинно негативних випадків, які були правильно класифіковані моделлю: FPTN TNSp + = . Очевидно, що FPR FPTN FP FPTN FPFPTNSp −= + −= + −+ = 11 . Модель з високою чутливістю надає істинний результат за наявності позитивних випадків (виявляє позитивні приклади). Навпаки, модель із ви- сокою специфічністю найчастіше дає істинний результат за наявності нега- тивних випадків (виявляє негативні приклади). Для побудови графіка ROC-кривої по осі Y відкладаються значення чутливості Se , а по осі X — частку хибно позитивних випадків FPR або Sp−1 . Графік ідеального кла- сифікатора ROC–кривої (рис. 1) проходить через верхній лівий кут, де част- ка істинно позитивних випадків становить 1 (ідеальна чутливість), а частка хибно позитивних прикладів дорівнює нулю. Тому чим ближче крива на- ближається до верхнього лівого кута, тим кращою є здатність моделі перед- бачувати. Діагональна лінія відповідає класифікатору, який не здатний роз- пізнати ці два класи. Оскільки візуальне порівняння ROC-кривих не завжди дає змогу визна- чити ефективнішу модель, застосовують оцінку площі під кривими. Число- Рис. 1. Графік ROC-кривої 1 – Specificity Se ns iti vi ty Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 39 вий показник площі під кривою AUC (Area Under Curve) обчислюється, на- приклад, за методом трапецій: )( 2 )( 1 1 ii i ii YYXXdxxfAUC −⎥⎦ ⎤ ⎢⎣ ⎡ + == + +∫ ∑ . Більш зрозумілим і частіше згадуваним у літературі параметром оціню- вання якості моделі є індекс GINI, запропонований італійським статистиком К. Джіні, який тісно пов’язаний з числовим показником площі під ROC- кривою. Індекс GINI — це площа ділянки між діагоналлю і кривою Лоренца, поділена на площу всієї ділянки під діагоналлю. Індекс GINI широко вико- ристовується для аналізу роздільної здатності системи оцінювання під час управління кредитними ризиками, тобто оцінювання здатності моделі поді- ляти клієнтів на схильних та несхильних до дефолту. Якщо модель здатна оцінити клієнтів за ймовірністю дефолту, то більшість клієнтів, схильних до дефолту, мають отримати більшу ймовірність дефолту. Відповідно най- менша ймовірність дефолту має бути для клієнтів, не схильних до дефолту. Індекс GINI проілюстровано графіком, де сукупний відсоток дефолту для клієнтів показано поряд із сукупним відсотком клієнтів, коли вони упоряд- ковані за ймовірністю дефолту (менша ймовірність дефолту — зліва, більша — справа). Цей графік відомий як крива Лоренца (рис. 2) [9]. Діагональна лінія — це лінія «випадкової моделі». На осі Х клієнти впорядковані за заданою ймовірністю дефолту. Очевидно, що 80% дефолтів припадає саме на решту 20% клієнтів (20% клієнтів з найбільшою ймовірні- стю дефолту). Це означає, що модель виконує прийнятний поділ. Отже, чим більша ділянка між діагоналлю та кривою, тим вища якість моделі. Дефолти серед клієнтів з однаковою ймовірністю дефолту вважаються поділеними ви- падково серед цих клієнтів. Індекс GINI можна визначити через площу фігу- ри, що розміщена під ROC-кривою, таким чином: 12 −⋅= AUCGINI . Діапа- зон значень індексу GINI становить 10 ≤≤G , а моделі з найвищою роздільною здатністю, тобто моделі, які виконують високоякісне сортування схильних до дефолту клієнтів і клієнтів, не схильних до дефолту, отримають Сукупний відсоток клієнтів С ук уп ни й ві дс от ок д еф ол ті в х y Рис. 2. Крива Лоренца для кредитування В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 40 найвищі коефіцієнти. Оцінка якості моделі істотно залежить від даних, за якими вона будується. Для застосування на практиці скорингу (оцінки фі- нансового стану нових клієнтів) індекс GINI на рівні 55% є вже дуже висо- ким, у той час, як для скорингу поведінки (оцінювання фінансового стану існуючих клієнтів) індекс GINI зазвичай набуває значень, вищих за 70%. У літературі наведено шкалу значень індексу GINI (табл. 2) [9]. Т а б л и ц я 2 . Оцінка якості моделі за площею AUC та індексом GINI Інтервал AUC Індекс GINI Якість моделі 0,9 – 1,0 0,8 – 1,0 Відмінна 0,8 – 0,9 0,6 – 0,8 Дуже висока 0,7 – 0,8 0,4 – 0,6 Прийнятна 0,6 – 0,7 0,2 – 0,4 Середня 0,5 – 0,6 0 – 0,2 Незадовільна Значення точок ROC-кривої можуть бути використані для знаходження оптимального порога відсікання — компромісу між чутливістю та специфіч- ністю моделі. Критеріями вибору порога відсікання можуть бути вимоги: − мінімальної величини чутливості (специфічності) моделі; − максимальної сумарної чутливості та специфічності моделі, тобто )(max kk k SpSeoffcut +=− ; − балансу між чутливістю і специфічністю, тобто коли SeSp ≈ : \|\|min kkk SpSeoffcut −=− . ПРИКЛАД ЗАСТОСУВАННЯ МЕТОДИКИ МОДЕЛЮВАННЯ Для побудови моделі лінійної регресії, логістичної регресії та дерева рішень використано статистичні дані першої вибірки — All_1 (довжина вибірки даних — 15000 значень). − 1x — змінна, яка характеризує стать позичальника (gender); − 2x — змінна, яка характеризує вік позичальника (Age); − 3x — змінна, яка характеризує суму кредиту (Credit_sum); − 4x — змінна, яка характеризує термін кредитування у днях (Term_of_crediting_in day); − 5x — змінна, яка характеризує сімейний стан позичальника (Maritial_status); − 6x — змінна, яка характеризує кількість дітей позичальника (Children); − 7x — змінна, яка характеризує кількість найманих працівників в компанії позичальника (Number_of_employees_in_company); − 8x — змінна, яка характеризує дохід позичальника (Income_customer); − 9x — змінна, яка характеризує витрати позичальника (Costs_customer); − y — змінна, яка характеризує результат повернення кредиту (Result). Особливістю цієї вибірки є її висока асиметрія стосовно типів позича- льників, тобто вона містить характеристики 750 клієнтів, які не повертають Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 41 кредити, і 14250 клієнтів, які повертають кредити. Результат побудови лінійної регресії показано на рис. 3. Для вибору кращої моделі із множини різних специфікацій надано зна- чення інформаційних критеріїв Акайке (АІС) та Шварца (SC), логарифмічну функцію правдоподібності. Для визначення міри якості лінійної регресійної моделі вибрано такі статистичні параметри: 2R — коефіцієнт детермінації; стандартну похибку регресії; статистику Дарбіна–Уотсона; статистику Фішера (F-статистику) та відповідну ймовірність. Значення стандартної по- хибки регресії показує, що лінійна модель дає гірші результати )212,0( =SE , ніж нелінійна модель логіт )173,0( =SE . Проаналізовано також іншу вибірку (BASE_ALL) для порівняння зі статистичними даними, які описують такі змінні (потужність вибірки даних становить 7568 значень): − змінна, яка характеризує вік позичальника (Ageyears); − змінна, яка характеризує стать позичальника (Sex); − змінна, яка характеризує освіту позичальника (Education); − змінна, яка характеризує сімейний стан позичальника (Maritalstatus); − змінна, яка характеризує суму кредиту (Credit); − змінна, яка характеризує регіон проживання позичальника (Region); − змінна, яка характеризує сферу, де працює позичальник (Prev Employer Sector); − змінна, яка характеризує статус в суспільстві позичальника (Occupation Status); Рис. 3. Результати оцінювання лінійної регресії та її характеристики В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 42 − змінна, яка характеризує досвід роботи позичальника (Work Experience Month); − змінна, яка характеризує результат повернення кредиту (Good/Bad). Для побудови моделі перетворено дані таким чином: стать позичальни- ка (Sex): чоловіча (Male) — 1; жіноча (Female) — 0; освіта (Education): почат- кова (Elementary) — 0, середня (Meaddle) — 1, вища (High) — 2; дві вищі чи ступінь (Twohighand/ordegree ) — 3; сімейний стан (Maritalstatus): неодру- жений (Notmarried) — 0, одружений (Registeringmarriage ) — 1, вдова(ець) (Widow(er)) — 2, розведений (Divorced) — 3, цивільний шлюб (Civilmarriage) — 4; сфера праці (PrevEmployerSector): невизначена (none) — 0, інші (other) — 1, медицина (Medicine) — 2, сільське господарство (Agriculture) — 3, послуги (Services) — 4, будівництво (Building) — 5, освіта (Education) — 6, торгівля (Trade) — 7, виробництво (Manufacturing) — 8, фінанси (Finance) — 9, видобуток (Mining) — 10; статус у суспільстві (OccupationStatus): найманий робітник (Employee) — 0, урядовий офіцер (Governmentofficer) — 1, пенсіонер (Pensioner) — 2, власник/співвласник (Owner/coowner) — 3, військовий (Military) — 4; результат (Good/Bad): по- вернено кредит (Good) — 1, не повернено кредит (Bad) — 0. Узагальнену порівняльну характеристику лінійної моделі та моделі логіт подано в табл. 3: Т а б л и ц я 3 . Результати застосування лінійної і нелінійної регресії Якість моделі Якість прогнозу Варіант розрахунків Коефіцієнт детермінації Сума квадратів залишків Статистика Дарбіна– Уотсона Середня квадратична похибка Середня абсолютна похибка Коефіцієнт Тейла Лінійна регресія All_1 0,0048 709,062 1,855 0,212 9,463 0,113 BASE_743 0,3840 114,416 0,272 0,309 34,056 0,302 Нелінійна регресія All_1 – 638,054 – 0,173 7,446 0,101 BASE_743 – 96,127 – 0,157 22,441 0,189 Отже, нелінійна регресія за всіма показниками якості прогнозу дає кращі результати ніж лінійна регресія. Побудована модель нелінійної регре- сії є кращою за показниками якості. ПОБУДОВА ДЕРЕВ РІШЕНЬ ЗА СТАТИСТИЧНИМИ ДАНИМИ У результаті застосування системи SPSS побудовано дерево рішень з відпо- відними характеристиками для вибірки All_1 (рис. 4). За допомогою методу CHAID (CHi-squared Automatic Interaction Detection) отримано результат, який свідчить, що рівень доходу )( 8x є кращим предиктором кредитного рейтингу. Для категорії з низьким рівнем доходів кращий предиктор — рівень витрат ( 9x ), для малих витрат кращий предиктор — сума кредиту ( 3x ). Оскільки немає ніяких розгалужень, то це термінальний вузол. Клієнти цих вузлів мають досить прийнятний кредит- ний рейтинг (0,69 або 0,78), незважаючи на суму кредиту. Для великих Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 43 значень витрат немає розгалужень; це термінальний вузол. Для категорій середнього та високого доходів кращим предиктором є термін кредитування )( 4x . Для середнього терміну кращий предиктор — сума кредиту ( 3x ), а для більшого терміну — стать позичальника )( 1x . Для клієнтів з високим рів- нем доходів кращим предикто- ром є термін кредитування ( 4x ). Залежно від терміну кращими предикторами є дохід позичаль- ника ( 8x ), кількість найманих робітників в компанії ( 7x ) або сума кредиту( 3x ).Узагальнені результати за деревом рішень (оцінку ризику, його стандартну похибку, тобто міру точності прогнозу) показано на рис. 5. Отже, за допомогою дерев рішень отримано оцінку ризику неправильного оцінювання кліє- нта 4,3% та стандартне відхи- лення 0,001. Узагальнені резуль- тати за деревом для другої вибірки (BASE_743) подано ниж- че. Діаграма дерева (рис. 6), що являє собою графічне зображен- ня моделі дерева, показує, що з використанням методу CHAID регіон проживання позичальника ( 6x ) є кращим предиктором кре- дитного рейтингу. Оскільки гли- бина дерева одинична, то не від- бувається ніякого додаткового розгалуження. Gain Summery for Nodes Node N Percent,% Mean 30 1091 7,30 1 27 1001 6,70 0,99 13 233 1,60 0,99 11 947 6,30 0,98 7 2042 13,60 0,98 21 1912 12,70 0,97 29 68 0,50 0,97 15 2737 18,20 0,97 23 507 3,40 0,97 28 176 1,20 0,97 25 417 2,80 0,96 6 108 0,70 0,94 20 318 2,10 0,94 24 689 4,60 0,94 22 298 2,00 0,94 9 678 4,50 0,93 26 171 1,10 0,91 12 106 0,70 0,9 5 366 2,40 0,86 19 612 4,10 0,79 18 523 3,50 0,69 Growing Melhod CHAID Department Variable: y Risk Estimate Std Error 0,073 0,006 Growing Melhod CHAID Рис. 5. Узагальнені результати оцінювання x9, x8, x6, x7, x5, x1, x4, x2, x3 x8, x9, x3, x4, x1, x7 Рис. 4. Зведена таблиця загальних специфікацій дерева рішень В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 44 Оцінку ризику та його стандартну похибку, тобто міру точності про- гнозу дерева, подано на рис. 7. Отже, за допомогою дерев рішень отримано ризик неправильного оці- нювання клієнта 7,3%, а стандартне відхилення становить 0,06. Результати ризику неправильного оцінювання та стандартне відхилення для двох вибі- рок наведено в табл. 4. Т а б л и ц я 4 . Оцінка ризику та стандартна похибка дерева рішень для двох множин статистичних даних Вибірки Ризик неправильної оцінки Стандартне відхилення ALL_1 0,043 0,001 BASE_743 0,073 0,006 x6 Adj. P-value1=0,000. F=297, 238 d11=6, d12=736 y Рис. 6. Діаграма дерева рішень Gain Summary for Nodes Node N Percent, % Mean 1 303 40,80 0,94 5 83 11,20 0,87 3 90 12,10 0,33 7 76 10,20 0 4 68 9,20 0 6 64 8,6 0 3 59 7,90 0 Growing Method: CHAID Dependent Variable: y Risk Estimate Std Error 0,073 0,006 Growing Melhod CHAID Рис. 7. Узагальнені результаті та ризики Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 45 Побудова мережі Байєса. Для побудови першої моделі (вибірка ALL — 15000 значень) використано статистичні дані для 15000 виданих креди- тів, термін яких закінчився. Вибірку поділено на навчальну (13000 випадків) та перевірну (2000 випадків). Навчальна вибірка завантажується в підсисте- му побудови моделі. Для побудови моделі необхідно формалізувати дані у зручному для оброблення вигляді, тобто перевести їх у заданий формат, а у випадку неперервних змінних — дискретизувати їх. Для дискретизації ви- користано ієрархічну дискретизацію. На наступному кроці порівнюються характеристики взаємовиключних змінних і вибираються змінні, які будуть використовуватись на етапі побудови мережі. Далі вибирається відповідний алгоритм навчання мережі; у разі потреби використовуються експертні знання і виконується навчання мережі. Будуючи структуру мережі Байєса в програмі GeNIe, слід пам’ятати, що обраний алгоритм впливає на швидкість і якість побудови структури. Фактично найшвидшим є алгоритм Greedy Thick Thinning, його і будемо ви- користовувати для аналізу даних. У результаті роботи алгоритму отримує- мо тільки одну структуру, яка є цілком логічною і оптимальною за критері- єм максимальної правдоподібності (рис. 8). На основі перевірної вибірки перевіряється якість моделі з використан- ням відомих оцінок: загальної точності, помилок першого і другого роду. Для різних порогів відсікання обчислено помилки першого і другого роду (табл. 5). Найбільша точність моделі досягається на рівні 0,75 зі встановленням порога 0,3 — буде пропущено 10 дефолтів. Очевидно, що мережа Байєса має схильність до «перестрахування», тобто вона частіше помиляється, усуваю- чи тих клієнтів, які б повернули кредит. Зрозуміло, що точність моделі та кількість помилок першого і другого роду будуть залежати від порога відсі- кання, установленого банком. Слід пам’ятати, що, встановлюючи поріг від- сікання, варто визначати не лише відсоток відсіяних клієнтів, а і нижню ме- жу ймовірності повернення кредиту, тобто поріг, нижче за який клієнт вважається таким, що не поверне кредиту, або ж нижню межу ймовірності Рис. 8. Структура мережі Байєса у вигляді гістограм вибірки ALL В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 46 дефолту, нижче від якої вважається, що клієнту слід видати кредит. Значен- ня ймовірності дефолту 0,1 або 0,2 для клієнта є незначними і статистично малими, а тому поріг відсікання доцільно встановити на рівні 0,25 – 0,3. Зрозуміло, що встановлений поріг відсікання впливає на кількість помилок першого і другого роду. Для мережі Байєса побудовано ROC-криву (рис. 9). Т а б л и ц я 5 . Загальна точність моделі та помилки першого і другого роду для різних рівнів порога відсікання, отримані для мереж Байєса (ALL) Характеристика: повернення/кредиту Прогноз: повернення кредиту (0) Прогноз: дефолт (1) Точність, % Cut-off=0,5 Факт: повернення кредиту (0) 82 50 0,620 Факт: дефолт (1) 12 56 0,82 Загальна точність моделі 0,69 Cut-off=0,4 Факт: повернення кредиту (0) 92 49 0,65 Факт: дефолт (1) 3 56 0,94 Загальна точність моделі 0,74 Cut-off=0,3 Факт: повернення кредиту (0) 101 49 0,67 Факт: дефолт (1) 4 46 0,92 Загальна точність моделі — — 0,735 Для порівняння моделей використаємо індекс GINI. Для цього спочатку обчислимо значення площі під кривою: 86,0=AUC . Відповідно індекс GINI становить: 72,012 =−= AUCGINI . АНАЛІЗ ОТРИМАНИХ РЕЗУЛЬТАТІВ Таким чином, у праці використано три методи інтелектуального аналізу да- них для прогнозування кредитоспроможності фізичних осіб за статистични- ми даними: лінійну регресію, логістичну регресію та дерева рішень. Для ви- Рис. 9. ROC-крива для мережі Байєса Специфічність Чу тл ив іс ть –0.12 Проекционно-итерационная реализация явных методов вариационного типа для решения … Системні дослідження та інформаційні технології, 2017, № 1 47 конання обчислювальних експериментів використано дві вибірки даних: для 15000 та для 7568 клієнтів банку. Вибрано множину статистичних критеріїв для аналізу якості класифікації клієнтів. Кращі результати класифікації клі- єнтів на дві групи отримано за допомогою дерев рішень (табл. 6), що можна пояснити можливістю досягнення високої якості класифікації на дві групи за допомогою цього методу на конкретних даних. Т а б л и ц я 6 . Стандартне відхилення для трьох моделей Вибірки Лінійна регресія Логістична регресія Дерева рішень ALL_1 0,217 0,176 0,001 BASE_743 0,392 0,278 0,006 Результати порівняння якостей моделей на основі бінарної логістичної регресії та мереж Байєса наведено в табл. 7. Так, на основі моделей у формі мереж Байєса і бінарної логістичної регресії отримано дуже високі значення індексу GINI. Т а б л и ц я 7 . Порівняльна таблиця характеристик для мереж Байєса та бінарної логістичної регресії All Назва методу Індекс GINI Значення AUC Точність моделі Якість моделі Бінарна логістична регресія 0,74 0,87 0,77 Дуже висока Мережа Байєса 0,72 0,86 0,74 Дуже висока BASE Назва методу Індекс GINI Значення AUC Точність моделі Якість моделі Бінарна логістична регресія 0,74 0,87 0,79 Дуже висока Мережа Байєса 0,76 0,88 0,74 Дуже висока Наведені результати свідчать, що надалі банкам доцільно використову- вати відомі скорингові моделі і мережі Байєса, оскільки отримані результати та прогнозні якості мереж Байєса дають можливість усунути недобросовіс- них позичальників і таким чином зменшити втрати банків від неповернення кредитів. Високі значення параметрів точності моделі також дає логістична регресія. Ці результати ще раз підтверджують доцільність використання ло- гістичної регресії для оцінювання кредитоспроможності позичальника. Очевидно, що мережа Байєса має схильність до «перестрахування», тобто вона частіше помиляється, усуваючи тих клієнтів, які б повернули кредит. Зрозуміло, що точність моделі та кількість помилок першого і дру- гого роду залежатиме від порога відсікання, який встановлюється банком. ВИСНОВКИ Виконано короткий огляд моделей оцінювання кредитоспроможності і про- аналізовано їх переваги та недоліки. З наведеного огляду випливає, що існує потреба у створенні нових сучасних комп’ютерних систем для оцінювання ризиків з метою їх мінімізації та ризик-менеджменту. Описано три методи, В.Я. Данилов, О.Л. Жиров, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2017, № 1 48 які можна використовувати для прогнозування кредитоспроможності фізич- них осіб: логістичну регресію, лінійну регресію та дерева рішень. Незважа- ючи на те, що лінійна регресія використовується нечасто, її також можна використати для попереднього наближеного оцінювання та порівняльного аналізу результатів. Виконано загальний огляд статистичних критеріїв аналізу якості кла- сифікації клієнтів. Зазначено, що розрахунок критеріїв якості дещо відрізня- ється для лінійних і нелінійних моделей. Існує можливість вибрати саме ті критерії, які необхідні для аналізу якості класифікації клієнтів. Оцінено якість прогнозу та якість моделі за такими критеріями, як коефіцієнт детер- мінації, сума квадратів залишків, статистика Дарбіна–Уотсона, середня ква- дратична похибка та середня абсолютна похибка у відсотках. Нелінійна ре- гресія дає можливість отримати значно кращі якісні показники, ніж лінійна за рядом критеріїв. Установлено, що кращі результати класифікації клієнтів отримано за допомогою дерев рішень (стандартне відхилення —0,1–0,6 %). Показано, що дерева рішень і байєсівські мережі дають змогу отримати прийнятний за якістю результат класифікації. У подальших дослідженнях для оцінювання кредитоспроможності клі- єнтів фінансової установи доцільно побудувати спеціалізовану систему під- тримки прийняття рішень на основі комбінованого використання методів регресійного та інтелектуального аналізу даних. Для підвищення достовір- ності результатів доцільно також використати статистичні дані, отримані з альтернативних джерел. ЛІТЕРАТУРА 1. Матигорова И.Ю. Характеристика основных подходов к оценке кредитного риска / И.Ю. Матигорова // Экономическая наука и практика: материалы междунар. науч. конф. (г. Чита, февраль 2012 г.). — Чита: Изд-во «Молодой ученый», 2012. — С. 68–69. 2. Сиддики Н. Скоринговые карты для оценки кредитных рисков / Н.Сиддики. — М.: Изд-во «Манн, Иванов и Фербер», 2014. — 268 с. 3. Liu Y. The evaluation of classification models for credit scoring / Y. Liu. — Arbeits- bericht 02/2002. — Institut fur Wirtschaftsinformatik, 2002. — 19 p. 4. Кузминчук Н.В. Методы оценки кредитного риска в банковской деятельности / Н.В. Кузминчук, О.С. Мандрыка // Бизнесинформ, 2009. — № 1. — С. 113–117. 5. Bielecki T.R. Credit Risk: modeling, valuation and hedging / T.R. Bielecki, M. Rut- kowski. — Berlin: Springer, 2002. — 500 p. 6. Hosmer D.W. Applied Logistic Regression / D.W. Hosmer, S. Lemeshow. — New York: John Wiley & Sons, Inc. 1989. — 400 p. 7. Бідюк П.І. Аналіз часових рядів / П.І. Бідюк , В.Д. Романенко, О.Л. Тимощук. — К.: Політехніка, 2013. — 600 с. 8. Бідюк П.І. Системний підхід до прогнозування на основі моделей часових рядів / П.І. Бідюк // Системні дослідження та інформаційні технології. — 2003. — № 3. — С. 88–110. 9. Довгий С.О. СППР на основі ймовірнісно-статистичних методів / С.О. Довгий, О.М. Трофимчук. — К.: Логос, 2014. — 430 с. Надійшла 01.11.2016
id	journaliasakpiua-article-101737
institution	System research and information technologies
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T10:20:56Z
publishDate	2017
publisher	The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
record_format	ojs
resource_txt_mv	journaliasakpiua/8e/f12a5514414cdbf778fc7ef446d1688e.pdf
spelling	journaliasakpiua-article-1017372018-03-30T15:25:34Z Estimation of credit risks using the data mining methods Оценивание кредитных рисков методами интеллектуального анализа данных Оцінювання кредитних ризиків методами інтелектуального анализу даних Danylov, Valery Ya. Jirov, Alex L. Bidyuk, Petro I. credit risk statistical data logit model Bayesian networks model quality parameters кредитный риск статистические данные логит-модель байесовские сети параметры качества моделей кредитний ризик статистичні дані логіт-модель байєсівські мережі параметри якості моделей In this research, credit risks are analyzed for financial organizations using data mining techniques applied to actual data. The two sets of actual statistical data characterizing the borrowers are employed for constructing mathematical models in the form of the nonlinear logit regression, decision trees, and Bayesian networks. The constructed models are analyzed with a set of appropriate statistical criteria, providing a basis for selecting the best alternative model. A series of computational experiments have been carried out using the two sets of actual statistical data from a Ukrainian bank. As a result of the performed computations, it was established that the best models in this application turned out to be nonlinear logit equations and Bayesian networks. In the future studies, we suppose to expand the number of model constructing techniques and to apply the idea of combining the estimates generated by the alternative models. Also, a specialized decision support system is to be constructed for the purpose of carrying research in the area of financial risks estimation and prediction. Проанализированы кредитные риски финансовых организаций с помощью методов интеллектуального анализа данных. Фактические статистические данные, которые характеризуют заемщиков кредитов, использованы для построения математических моделей в форме уравнений типа логит, деревьев решений и байесовских сетей. Качество построенных моделей проанализировано с помощью множества соответствующих статистических критериев, которые дают основание для выбора лучшей альтернативной модели. С использованием двух выборок банковских данных выполнен ряд вычислительных экспериментов и установлено, что лучшими оказались модели типа логит и байесовские сети. Предусматриваются расширение множества методов построения математических моделей и реализация идеи комбинирования оценок, сгенерированных альтернативними методами. Обоснованы целесообразность разработки и реализация специализированной системы поддержки принятия решений для выполнения исследований в сфере оценивания и прогнозирования финансовых рисков. Проаналізовано кредитні ризики фінансових організацій за допомогою методів інтелектуального аналізу даних. Фактичні статистичні дані, які характеризують позичальників кредитів, використано для побудови математичних моделей у формі рівнянь типу логіт, дерев рішень і байєсівських мереж. Якість побудованих моделей проаналізовано за множиною належних статистичних критеріїв, які забезпечують основу для вибору кращої альтернативної моделі. Із використанням двох вибірок банківських даних виконано ряд обчислювальних експериментів і виявлено кращі моделі у формі рівнянь типу логіт і байєсівські мережі. Передбачається розширити множину методів побудови математичних моделей і реалізувати ідею комбінування оцінок, згенерованих за альтернативними методами. Обґрунтовано доцільність розроблення та реалізацію спеціалізованої системи підтримання прийняття рішень для виконання досліджень у галузі оцінювання та прогнозування фінансових ризиків. The National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" 2017-03-21 Article Article application/pdf https://journal.iasa.kpi.ua/article/view/101737 10.20535/SRIT.2308-8893.2017.1.03 System research and information technologies; No. 1 (2017); 33-48 Системные исследования и информационные технологии; № 1 (2017); 33-48 Системні дослідження та інформаційні технології; № 1 (2017); 33-48 2308-8893 1681-6048 uk https://journal.iasa.kpi.ua/article/view/101737/96976 Copyright (c) 2021 System research and information technologies
spellingShingle	кредитний ризик статистичні дані логіт-модель байєсівські мережі параметри якості моделей Danylov, Valery Ya. Jirov, Alex L. Bidyuk, Petro I. Оцінювання кредитних ризиків методами інтелектуального анализу даних
title	Оцінювання кредитних ризиків методами інтелектуального анализу даних
title_alt	Estimation of credit risks using the data mining methods Оценивание кредитных рисков методами интеллектуального анализа данных
title_full	Оцінювання кредитних ризиків методами інтелектуального анализу даних
title_fullStr	Оцінювання кредитних ризиків методами інтелектуального анализу даних
title_full_unstemmed	Оцінювання кредитних ризиків методами інтелектуального анализу даних
title_short	Оцінювання кредитних ризиків методами інтелектуального анализу даних
title_sort	оцінювання кредитних ризиків методами інтелектуального анализу даних
topic	кредитний ризик статистичні дані логіт-модель байєсівські мережі параметри якості моделей
topic_facet	credit risk statistical data logit model Bayesian networks model quality parameters кредитный риск статистические данные логит-модель байесовские сети параметры качества моделей кредитний ризик статистичні дані логіт-модель байєсівські мережі параметри якості моделей
url	https://journal.iasa.kpi.ua/article/view/101737
work_keys_str_mv	AT danylovvaleryya estimationofcreditrisksusingthedataminingmethods AT jirovalexl estimationofcreditrisksusingthedataminingmethods AT bidyukpetroi estimationofcreditrisksusingthedataminingmethods AT danylovvaleryya ocenivaniekreditnyhriskovmetodamiintellektualʹnogoanalizadannyh AT jirovalexl ocenivaniekreditnyhriskovmetodamiintellektualʹnogoanalizadannyh AT bidyukpetroi ocenivaniekreditnyhriskovmetodamiintellektualʹnogoanalizadannyh AT danylovvaleryya ocínûvannâkreditnihrizikívmetodamiíntelektualʹnogoanalizudanih AT jirovalexl ocínûvannâkreditnihrizikívmetodamiíntelektualʹnogoanalizudanih AT bidyukpetroi ocínûvannâkreditnihrizikívmetodamiíntelektualʹnogoanalizudanih

Оцінювання кредитних ризиків методами інтелектуального анализу даних

Репозитарії

Схожі ресурси