Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу

Проаналізовано основні особливості фінансових даних та запропоновано новий інтегрований метод їх аналізу. Запропоновано нову інформаційну технологію на основі інтегрованого методу аналізу даних та на практиці проілюстровано можливість її застосування для оцінювання кредитоспроможності позичальника....

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Системні дослідження та інформаційні технології
Дата:2011
Автори: Кузнєцова, Н.В., Бідюк, П.І.
Формат: Стаття
Мова:Українська
Опубліковано: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2011
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/50082
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу / Н.В. Кузнєцова, П.І. Бідюк // Систем. дослідж. та інформ. технології. — 2011. — № 1. — С. 22-33. — Бібліогр.: 6 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859597509316313088
author Кузнєцова, Н.В.
Бідюк, П.І.
author_facet Кузнєцова, Н.В.
Бідюк, П.І.
citation_txt Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу / Н.В. Кузнєцова, П.І. Бідюк // Систем. дослідж. та інформ. технології. — 2011. — № 1. — С. 22-33. — Бібліогр.: 6 назв. — укр.
collection DSpace DC
container_title Системні дослідження та інформаційні технології
description Проаналізовано основні особливості фінансових даних та запропоновано новий інтегрований метод їх аналізу. Запропоновано нову інформаційну технологію на основі інтегрованого методу аналізу даних та на практиці проілюстровано можливість її застосування для оцінювання кредитоспроможності позичальника. Проанализированы основные особенности финансовых данных и предложен новый интегрированный метод их анализа. Предложена новая информационная технология на основе интегрированного метода анализа данных и на практике проиллюстрирована возможность ее применение для оценки кредитоспособности заемщика. In the paper the basic features of financial data are discussed and a new integrated method for financial data analysis is proposed. The new informational technology on the basis of integrated method of data analysis is proposed and its possibility of application for the borrower’s creditworthiness assessment is illustrated in practice.
first_indexed 2025-11-27T23:27:58Z
format Article
fulltext © Н.В. Кузнєцова, П.І. Бідюк, 2011 22 ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 УДК 519.226 ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ АНАЛІЗУ ФІНАНСОВИХ ДАНИХ НА ОСНОВІ ІНТЕГРОВАНОГО МЕТОДУ Н.В. КУЗНЄЦОВА, П.І. БІДЮК Проаналізовано основні особливості фінансових даних та запропоновано но- вий інтегрований метод їх аналізу. Запропоновано нову інформаційну техно- логію на основі інтегрованого методу аналізу даних та на практиці проілюст- ровано можливість її застосування для оцінювання кредитоспроможності позичальника. ВСТУП Мінливість та нестабільність розвитку сучасного світу, великі обсяги ін- формації в різних галузях науки, які необхідно обробляти з метою прийнят- тя коректних рішень, спонукають до пошуку нових методів та підходів для опрацювання даних. Системну невизначеність, яка дедалі частіше наявна в даних, необхідно обробляти, знаходити певні закономірності та фактори впливу. Для виявлення взаємозв’язків між окремими змінними задачі вико- ристовують математичні методи регресійного аналізу (логістичної регресії), дерева рішень, мережі Байєса, нейронні мережі, кластерний аналіз, нечітку логіку тощо [1, 2, 3, 4]. Однак, незважаючи на наявність достатньої множи- ни методів аналізу даних, не завжди вдається отримати бажаний (прийнят- ний) результат щодо розв’язання конкретних задач обробки даних та прийняття рішень. Тому необхідно удосконалювати існуючі методи, роз- робляти нові, а також комбінувати різні підходи для досягнення бажаної точності результату. ПОСТАНОВКА ЗАДАЧІ Мета роботи — проаналізувати особливості фінансових даних та існуючих методів для їх аналізу, запропонувати новий метод аналізу даних, який пе- редбачає комбінацію існуючих підходів та на практичному прикладі про- ілюструвати ефективність застосування інтегрованого методу аналізу даних. У роботі пропонується логічна організація процесу збору й аналізу фі- нансових даних, а також запропоновано нову інформаційну технологію на основі інтегрованого методу та розглянуто особливості її застосування на практиці. ПРОБЛЕМИ АНАЛІЗУ ДАНИХ У ФІНАНСОВИХ УСТАНОВАХ На сьогодні фінансові установи використовують різноманітні програмні продукти для аналізу даних. Це найбільш відомі зарубіжні системи SAS, SAP, SPSS і власні розробки програмістів й аналітиків фінансових установ. Найзручнішим для використання вважається той програмний продукт, який Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 23 не потребує додаткових інструментів обробки чи аналізу даних, знань та навичок від користувачів. Тому вони досить скептично ставляться до запро- вадження в експлуатацію нових інструментів доти, поки звичні інструмен- тальні засоби продовжують працювати. Більшість із таких програмних про- дуктів ґрунтуються на одному або декількох відомих методах аналізу даних; при цьому найчастіше використовуються такі: логістична регресія, нейронні мережі, дерева рішень та мережі Байєса (МБ) — новітній інструмент ймовірнісного аналізу даних. Логістична регресія — це вид нелінійної множинної регресії, яка аналі- зує функціональну залежність між декількома незалежними змінними (регресорами) і залежною змінною [2, 5]. Бінарна логістична регресія засто- совується у тому випадку, коли вихідна змінна може приймати тільки два значення. У множинній регресії припускається, що залежна змінна є лінійною функцією незалежних змінних, тобто: uxbxbxby nn ++++= ...2211 , де y — залежна змінна (результат прийняття рішення); ix — пояснююча змінна (критерій); ib — вага пояснюючої змінної i ; u — випадкова помилка, .0)( =uP У векторному вигляді це може бути записано таким чином: uxby +′= , де x — вектор пояснюючих змінних, а b′— транспонований вектор параметрів пояснюючих змінних [1]. Відповідно, умовна ймовірність події обчислюється за виразом: xbxyP ′=)|( . Недоліком логістичної регресії є те, що вона застосовується лише до обмеженої кількості вхідних факторів, тобто на етапі підготовки даних не- обхідно або додатково залучати експертів, або проводити додаткову оброб- ку даних для виявлення найвпливовіших характеристик і включення в мо- дель лише їх. Можуть також виникнути проблеми з аномальними даними, а також інколи з’являється необхідність відкидання викидів, регуляризації ваг, відкидання ознак, стандартизації даних. Трудомісткість методу вища за звичайний метод найменших квадратів, оцінки ймовірностей можуть вияви- тися неадекватними, якщо функція правдоподібності не експоненціального вигляду тощо. Інший метод аналізу фінансових даних, який є досить відомим і поши- реним на практиці — дерева рішень. Це один із методів автоматичного ана- лізу даних, коли правила представляються у вигляді послідовної ієрархічної структури, в якій кожному вузлу відповідає єдиний вузол, що генерує рі- шення. Під правилом розуміють конструкцію, яка представлена у вигляді «якщо ... , то...» [2, 3]. Перевагами застосування дерев рішень є такі: швидкий процес навчан- ня, генерування правил у тих галузях, де знання складно формалізувати, зрозуміла класифікаційна модель, висока точність прогнозу. Однак їх засто- сування пов’язане, також, із низкою суттєвих недоліків. Зокрема, коли ви- никає необхідність реалізації навчання в оперативному режимі, існуючі ал- горитми виявляються занадто громіздкими і потребують значних обсягів пам’яті. МБ — це ймовірнісна модель у вигляді спрямованого ациклічного гра- фу, кожний вузол якого представляє змінну модельованого процесу, а кожна дуга представляє причинне відношення (зв’язок) між двома змінними [4]. Змінні характеризуються розподілом ймовірності для кожного значення. На Н.В. Кузнєцова, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 24 розподіл ймовірності кожного вузла впливають стани (для дискретних вуз- лів) або значення (для неперервних вузлів) кореневої вершини. Умовні ймовірності станів вузлів зберігаються у таблицях умовних ймовірностей. Формально МБ — це трійка >=< JGVN ,, , першою компонентою якої є множина змінних ;V другою — спрямований ациклічний граф ,G вузли якого відповідають випадковим змінним модельованого процесу, а J — спільний розподіл ймовірностей змінних },...,,{ 21 nXXXV = . При цьому виконується марковська умова: кожна змінна мережі не залежить від усіх інших змінних, за винятком батьківських попередників цієї змінної. МБ дозволяє поєднати просте графічне представлення певного процесу з його імовірнісним характером, проаналізувати можливі варіанти розвитку ситуації, відстежити правильність встановлення причинно-наслідкового зв’язку між окремими подіями і завдяки цьому підвищити обґрунтованість рішення під час складних проблемних ситуацій. Основні труднощі, які не- обхідно подолати при побудові та застосуванні МБ — це побудова самої причинно-наслідкової моделі (первинної структури мережі), суб’єктивність експертів під час визначення апріорних ймовірностей, автоматизація проце- сів побудови та навчання мережі, забезпечення належної обчислювальної ефективності. За відносно короткий проміжок часу (близько 15 років) МБ вже знайшла успішне застосування при розв’язанні задач медичної та тех- нічної діагностики, кластеризації, розпізнавання та ймовірнісного прогнозу- вання. ОСОБЛИВОСТІ ФІНАНСОВИХ ДАНИХ ТА ФІНАНСОВИХ ЗАДАЧ Зазвичай фінансовими даними називають великі обсяги статистичної ін- формації щодо фінансового стану підприємства, рівня продажів компанії, відношення попиту та пропозиції і т.ін. Фінансові дані характеризуються надзвичайно великою кількістю характеристик (величин), необхідних для їх опису. Дані надходять із різних джерел у різноманітному вигляді, а тому виникає потреба у досить великому репозитарії для їх збереження і достат- ньо серйозних інструментах для їх обробки. У зв’язку з тим, що дані надхо- дять із різних джерел, у різних вимірах та одиницях, вони є досить розрізне- ними і не можуть бути оброблені однією людиною — працівником банку. Тому постає питання автоматизації процесу обробки та аналізу даних, раціоналізації їх та приведення результатів до простого і зрозумілого для користувача вигляду. Фінансові дані можна визначити за такими харак- теристиками, як періодичність, однотипність, множинність і можливість неоднозначного трактування. Дані можуть містити пряме відношення або опис певного фінансового процесу, а також потребують ретельного збору, перевірки та прогнозування. На сьогодні аналіз даних і прогнозування очікуваних подій на наступні періоди є досить непростим завданням, для розв’язання якого залучаються різноманітні засоби, — статистичні та аналітичні — що ґрунтуються на математичних методах, будуються певні моделі, встановляються взаємоза- лежності та взаємозв’язки між окремими змінними. Останнім часом обсяг даних, що необхідно проаналізувати, постійно зростає, і тому інколи немож- Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 25 ливо ефективно застосувати ці підходи. Виникає потреба у методі, який дозволить виокремити з-поміж усієї множини даних саме ті, які безпосеред- ньо впливають на результуючу прогнозну величину або сукупність величин. ІНТЕГРОВАНИЙ МЕТОД АНАЛІЗУ ДАНИХ Основна ідея інтегрованого підходу полягає в тому, що він передбачає ком- бінацію відомих методів таким чином, щоб уникнути описаних вище недо- ліків і працювати у тих випадках, коли інші методи не можуть бути застосо- вані. Очевидно, що під час побудови прогнозної моделі постає питання, як формалізувати зібрані фінансові дані та виявити, які саме з них є суттєвими. Для цього пропонується спочатку побудувати мережу Байєса, яка встано- вить причинно-наслідкові зв’язки між змінними, що відповідають факторам, визначить силу зв’язків між цими змінними, а також дозволить виявити змінні, які взагалі не пов’язані з результуючою подією («висячі змінні») [5, 6]. На основі побудованої мережі і встановлених зв’язків можна суттєво скоротити кількість факторів, які слід включати на наступному етапі під час побудови моделі. Відомо, що для логістичної регресії зменшення кількості факторів, які включаються в модель, зазвичай спричиняє погіршення якості моделі. Тому необхідно застосовувати мережу Байєса лише як інструмент зменшення кількості факторів, які будуть включені в модель, а не як інстру- мент, який виявить найсуттєвіші фактори, а всі інші відкине. Узагальнений алгоритм реалізації інтегрованого методу аналізу даних Етап 1. Збір статистичних даних, які мають відношення до задачі, що вирішується. Етап 2. Формалізація зібраних даних і виявлення, які з них є суттєви- ми. На цьому кроці будується та навчається мережа Байєса на основі статис- тичних даних, яка і виявляє суттєві змінні та причинно-наслідкові відно- шення між ними. Завдяки цьому на наступному кроці при побудові моделі можна скоротити кількість факторів, які необхідно враховувати. Етап 3. Визначена множина суттєвих факторів та змінні, що їм відпові- дають, включаються у модель, яка будується на основі відомого методу (ло- гістичної регресії, дерева рішень, кластерного аналізу тощо). Етап 4. Аналіз отриманих результатів, перевірка якості моделі. У разі прийнятної якості моделі використання моделі для прогнозування даних. Етап 5. На основі побудованої моделі оцінюється прогноз даних та ви- дача рекомендацій щодо поставленої проблеми. На основі запропонованого алгоритму можна побудувати множину ін- тегрованих моделей, серед яких необхідно вибрати кращу для цієї проблем- ної ситуації та поставленої задачі. Інтегрована модель на основі мережі Байєса та дерева рішень (ІМБД) — це модель, побудована на основі комбінації двох методів — мережі Байєса та дерева рішень, де на першому кроці для скорочення кількості змінних застосовується мережа Байєса, а для оцінки ймовірності дефолту використо- вується дерево рішень. Іншою моделлю на основі інтегрованого методу є інтегрована модель на основі логістичної регресії і мережі Байєса (ІМЛБ) — Н.В. Кузнєцова, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 26 модель, побудована на основі комбінації методів логістичної регресії та ме- режі Байєса. На першому кроці будується мережа Байєса, яка визначає сут- тєві змінні, а на основі суттєвих змінних на другому кроці будується логіс- тична регресія [5, 6]. Описаний вище метод можна узагальнити на випадок застосування на другому кроці іншого методу для виявлення суттєвих факторів, наприклад, логістичної регресії або дерева рішень, а на третьому кроці — для побудови моделі використовувати мережі Байєса. Інтегрована модель на основі дерев рішень та мереж Байєса. Якщо кі- лькість факторів, що впливають на ключову змінну невелика, то можна за- стосувати запропонований інтегрований метод «backward». Тобто, для зада- чі будується дерево рішень, яке встановлює, які змінні безпосередньо мають вплив на результат, а потім ця інформація застосовується при побудові ме- режі Байєса. Під час побудови структури мережі вона може бути задана повністю або частково із використанням експертних даних. Після цього продовжується побудова структури мережі й у результаті отримується оста- точна структура мережі, яка відображає причинно-наслідкові зв’язки між змінними. Слід зауважити, що застосовуючи цей підхід не можна «блокува- ти» зв’язки між змінними, якщо навіть їх не виявлено деревом рішень, оскі- льки дерево рішень не дозволяє досягти глибокого розуміння причинно- наслідкових зв’язків між змінними. Визначимо місце і порядок використання інтегрованого методу аналізу даних у загальній структурі аналізу фінансових даних. Процедуру такого аналізу можна представити як низку етапів, що узагальнюють основні опе- рації обробки фінансових даних (рис. 1). Перший етап зазвичай реалізується великими компаніями, банками, фі- нансовими установами за допомогою чіткої організаційної структури філіа- лів, офісів, торгівельних представників, дилерів тощо. Надану інформацію всіма зазначеними установами будемо називати інформацією з «полів». Цей термін є зрозумілим і відображає лише місце, звідки надходить інформація до головного офісу, тобто від «поля» (низу) структури до головного («верх- нього») офісу. Ці структурні організації на місцях збирають статистичну інформацію у вигляді затвердженої певним чином звітності про фінансові показники компанії, рівні продажів, фінансовий стан та дані клієнтів, рівні курсів валют і т.ін. Найчастіше у всіх установах є свої розроблені і затвер- джені головним офісом однотипні форми звітності — як у паперовому, так і в електронному вигляді. У паперовому вигляді — це форми, анкети, бланки, які заповнюються працівниками в «полях», а вже потім ці дані переносяться та передаються у вигляді електронних файлів. Вимога до цього файлу має бути такою, щоб частина інформації була недоступною для редагування ко- ристувачами на місцях (заблокувати можливість зміни порядку та назви по- лів форм), а частина полів має бути відкрита для запису, тобто для введення необхідної інформації з «полів». На цьому етапі обов’язково має бути пере- вірено та проконтрольовано коректність введення даних на місці, щоб не допустити великої кількості помилок при внесенні даних в електронний документ. На другому етапі має бути забезпечено збереження конфіденційності інформації, неможливість втручання сторонніх осіб у процес передачі даних Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 27 із метою уникнення спотворення чи крадіжки інформації. Ще однією вимо- гою даного етапу є оперативність передачі інформації до центрального офі- су. Оскільки частина фінансових даних збирається під час роботи з клієнта- ми, то зрозуміло, що час очікування має бути зведений до мінімуму, тобто необхідно, щоб усі процедури введення інформації менеджерами були мак- симально автоматизовані, а час реакції на їх дії має бути мінімальним. Тому при експлуатації інформаційної технології на практиці мають бути застосо- Рис. 1. Організація процесу аналізу фінансових даних Етап 1 Збір фінансових даних у «полях» Етап 2 Надходження даних із «полів» в інформаційну систему банку Вимоги етапу Організація збору інформації на місцях Однотипність файлів, форм збору інформації Зрозумілість, чіткість, однозначність і повнота даних Перевірка зібраних даних на місці Вимоги етапу Безпека та конфіденційність даних, що передаються з «полів» Оперативність передачі даних Вимоги етапу Однозначність і однотипність інтерпре- тації результатів методів аналізу Перевірка якості побудованих моделей за різними характеристиками Вибір найкращого методу для моделювання Вимоги етапу На основі побудованої на попередньому етапі моделі будується прогноз на наступні періоди чи встановлюються об’єктивні причини та чинники, що впливають на результат Аналітики чи керівники відділів аналізують результати, перевіряють їх правдоподібність Отримані результати дають можливість зробити висновки щодо доцільності збору окремих показників та передавати цю інформацію для використання Етап 3 Обробка даних в інформаційній системі — формалізація і структурування Етап 4 Аналіз отриманих даних, побудова моделей та прогно- зування певних показників різними методами Етап 5 Обробка результатів і надання рекомендацій щодо покращення результатів Вимоги етапу Перевірка даних Формалізація даних у системі Приведення даних у відповідність до вимог методів аналізу даних Формування централізованого інформаційного сховища Н.В. Кузнєцова, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 28 вані швидкі та захищені канали передачі інформації від «полів» до центра- льної інформаційної системи. На третьому етапі здійснюється обробка даних, що надійшли з підроз- ділів, перевірка їх коректності, повноти цих даних та приведення до одно- типного формалізованого вигляду. Перевірені і формалізовані дані переда- ються в централізовану систему збереження інформації — інформаційне сховище (базу даних). Слід зазначити, що частина даних у компаніях може зберігатися у таких спеціальних програмних продуктах як SAP, SAS, Nielsen чи на сервері, звідки дані можуть бути легко вивантажені у зручній формі. Дані, що завантажуються в інформаційне сховище, мають бути (але не обов’язково) приведені до зручного вигляду для подальшого аналізу. Якщо дані перед завантаженням не було оброблено, необхідно вивантажити не підготовлені до аналізу дані, привести їх у відповідний вигляд, а потім вже використовувати для подальшого аналізу. На четвертому етапі наявні підготовлені для аналізу дані. Використо- вуються доступні методи аналізу даних (логістична регресія, дерева рішень, нейронні мережі, мережі Байєса тощо) та будується модель. Перевіряється адекватність побудованої моделі за різними якісними характеристиками, наприклад, загальна точність, помилки 1-го та 2-го роду. Для цього викори- стовується вибірка, зібрана в інформаційній системі за попередні періоди, яка розбивається на навчальну та перевірочну. Якщо є можливість викорис- тати різні методи аналізу даних, то будуються і перевіряються моделі за всіма можливими методами. Серед побудованих моделей обирається краща (або 2–3 кращих) на основі згаданих вище критеріїв. На п’ятому етапі відібрані на попередньому етапі кращі моделі аналізу даних використовуються для обчислення оцінок прогнозів на наступні пе- ріоди. Для уточнення оцінок прогнозів рекомендується комбінувати прогно- зи, отримані за декількома моделями. При використанні мереж Байєса є можливість виявити причинно-наслідкові зв’язки та встановити причини і чинники, що найкраще впливають на остаточний результат. Виконується обробка результатів, отриманих за певний період на основі побудованої мо- делі. Аналітики чи керівники відділів надають рекомендації щодо правдо- подібності й адекватності отриманих результатів, доцільності збору та вико- ристання певних показників на етапі побудови та використання цієї моделі. У разі виявлення недоцільності збору окремих показників чи необхідності зміни їхнього формату, наступна інформація передається в «поля» у вигляді нових файлів та форм збору даних для швидкого застосування їх на практи- ці і внесення вже оновленої інформації у сховище даних. У межах описаної вище організації аналізу даних компанії, фінансові установи, банки розроб- люють чи застосовують відомі технології аналізу даних. ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ АНАЛІЗУ ДАНИХ ПОЗИЧАЛЬНИКА БАНКУ Запропонована інформаційна технологія представляє собою сукупність ме- тодів, програмних і технічних засобів, об’єднаних в єдиний технологічний ланцюг, що забезпечує збір, збереження, редагування, обробку, виведення та розповсюдження інформації. Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 29 Інформаційна технологія аналізу даних позичальника банку містить модулі збору та збереження інформації (база даних клієнтів); модуль оброб- ки та перевірки інформації (з можливістю залучення експертів-спеціалістів банку); модуль оцінки даних (розробка моделі для аналізу даних) та модуль виведення інформації у вигляді оцінки ймовірності кредиту, або повідом- лення про можливість надання кредиту позичальнику (рис. 2). Така технологія передбачає оцінку даних позичальника, перевірку його кредитоспроможності на основі запропонованого вище інтегрованого мето- ду. Передбачається, що відділення банку видають кредити, збирають усю множину даних — фінансовий стан, соціально-демографічні характеристики позичальника на основі розроблених і встановлених у банку форм-анкет (кредитних заявок). Надані позичальником дані ретельно перевіряються ме- неджером кредитного відділу під час обробки кредитних заявок перед при- йняттям рішення щодо видачі кредиту, уточнюються та вводяться в інфор- маційну систему банку. Крім цього, в систему вводиться інформація щодо суми кредиту, процентної ставки, дати видачі, строку кредиту. В процесі життєвого циклу кредиту (тобто протягом терміну обслуговування кредиту в банку до моменту його сплати) вноситься інформація щодо вчасності та повноти внесень щомісячної оплати кредиту, а наприкінці строку обслуго- вування кредиту відмічається (нулем або одиницею), тобто чи відбувся де- фолт. Таким чином, банком збирається база позичальників банку, з якої у будь-який момент може бути отримано інформацію для аналізу та побудови моделей. Дана інформація для побудови моделі має стосуватися лише тих кредитів, за якими вже відомо, чи були вони повернуті, чи ні. Вибірки слід обирати таким чином, щоб це була найновіша інформація щодо кредитів за один і той самий проміжок часу за одних і тих же умов. Тобто, перший- третій етапи організації аналізу даних — це фактично організація збору, пе- ревірки та надходження в централізовану базу даних інформації щодо пози- чальників із відділень до центрального офісу. Саме на четвертому етапі отримані статистичні дані завантажуються в блок аналізу даних, де на основі відомого методу будується модель. У цій інформаційній технології пропонується використати інтегрований метод і побудувати модель аналізу даних на основі дерева рішень та мереж Байєса. Спочатку на основі навчальної вибірки будується дерево рішень, яке визна- чає найсуттєвіші характеристики клієнта, що безпосередньо впливають на повернення кредиту. Далі в блок побудови мережі Байєса можна завантажи- ти або лише характеристики, вибрані за допомогою дерева рішень (тобто, завантажити текстовий файл лише з цими даними), або на етапі побудови БД клієнтів (інформаційне сховище) Аналітик Блок побудови і перевірки моделі Менеджер банку Аналіз даних позичальника на основі моделі Рис. 2. Основні елементи інформаційної технології аналізу даних позичальника Н.В. Кузнєцова, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 30 мережі вказати для побудови лише вибрані характеристики. Далі будується і навчається мережа Байєса. Отримана структура мережі використовується для аналізу характеристик моделі, побудованої на основі інтегрованого ме- тоду та оцінки кредитоспроможності позичальника. Для оцінювання харак- теристик моделей використовується перевірочна вибірка, для якої обчис- люються ймовірності повернення кредиту. Отримані дані заносяться у спеціальний модуль, в якому автоматично обчислюються загальна точність, помилки 1-го та 2-го роду для різних порогів відсікання та будується ROC- крива [2, 5, 6]. На основі побудованої ROC-кривої обчислюється індекс GINI та визначається якість моделі (у випадку декількох моделей визначається краща модель). ПРИКЛАД ЗАСТОСУВАННЯ ІНТЕГРОВАНОГО МЕТОДУ ДЛЯ АНАЛІЗУ КРЕДИТОСПРОМОЖНОСТІ ПОЗИЧАЛЬНИКА Розглянемо окремі блоки інформаційної технології побудови та перевірки моделі на основі інтегрованого підходу. Для побудови моделі використо- вується статистика з 2200 випадків видачі кредитів, строк яких закінчився. Вибірка поділена на навчальну (2000 випадків) та перевірочну (200 випад- ків), вигляд якої показаний на рис. 3. Таким чином статистика зібрана і ми переходимо на другий крок алгоритму інтегрованого методу. Формалізуємо дані у зручному для застосування вигляді, тобто переводимо їх у заданий формат. Далі будуємо дерево рішень за допомогою одного з відомих про- грамних модулів. Змінна, що відображає інформацію, чи був кредит повер- нений — це залежна змінна, яка прогнозується, а характеристики клієнту та кредиту — це незалежні змінні. За допомогою дерева рішень встановлено, що найсуттєвішими змінни- ми, які впливають на змінну повернення кредиту та мають бути включені у модель на третьому кроці алгоритму є: ціна та тип товару, на який береться кредит; сімейний стан, вік, стать, освіта позичальника; кількість дітей в його сім’ї; стаж роботи та термін роботи на даному місці. На третьому кроці ви- бірка завантажується в модуль побудови мережі Байєса. Для побудови ме- режі використовуються змінні, відібрані на попередньому кроці. У резуль- таті отримується структура мережі зображена на рис. 4. Далі необхідно проаналізувати результати та перевірити якість моделі. Для цього визначається загальна точність, помилки першого та другого роду для різних порогів відсікання, будується ROC-крива та обчислюється індекс GINI. Для перевірки якості моделі використовується перевірочна вибірка, пороги відсікання встановлюються на рівні 0,9; 0,85; 0,8; 0,75 та 0,7. Інтег- рована модель на основі дерева рішень та мережі Байєса проілюструвала прийнятне виявлення неплатоспроможних клієнтів у випадку консерватив- ної політики банку. Кількість помилок першого роду, тобто пропуск дефол- тів, становить 5%, що є кращим результатом порівняно з використанням методу дерев рішень. Необхідно зазначити, що модель забезпечує перестра- ховку, а тому буде корисно використовувати її тим банкам, які проводять консервативну політику та відсікають клієнтів із імовірністю повернення кредиту нижчою за 0,85–0,9. Для цієї моделі значення площі під ROC-кривою становить: 784,0=AUC , а індекс GINI віповідно: =GINI .568,012 =−×= AUC Це прийнятні результати при оцінюванні якості моделі. Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 31 Ри с. 3 . П ри кл ад за ва нт аж ен ої н ав ча ль но ї в иб ір ки Н.В. Кузнєцова, П.І. Бідюк ISSN 1681–6048 System Research & Information Technologies, 2011, № 1 32 Отриману та протестовану модель у вигляді програмного модуля вста- новлюють на місцях працівникам-менеджерам банку, які видають кредити для того, щоб вони швидше отримували інформацію щодо можливості ви- дачі кредиту. Якщо система видає інформацію, що кредит можна видати, то менеджери банку передають усі дані позичальника та інформацію по креди- ту в базу даних або інформаційну систему, обов’язково визначаючи, яку ймовірність повернення кредиту видала модель. Зважаючи на гнучку полі- тику банку щодо кредитування (періодичне підвищення або пониження порогу відсікання), є сенс надати можливість змінювати поріг відсікання клієнтів у процесі функціонування цієї моделі. Для цього в разі необхідності можна вивантажити дані по кредитах, які було видано з початку застосуван- ня цієї моделі, за якими було встановлено ймовірності їх повернення, і за якими вже наявна інформація про повернення кредиту. Для банків, які про- водять консервативну політику видачі кредитів, такий поріг встановлюється вищим, щоб відсіяти якомога більше нестабільних та ненадійних клієнтів, для яких ймовірність повернення кредиту нижча за обраний поріг відсікан- ня. У разі проведення банками агресивної політики кредитування, тобто, коли банк хоче завоювати велику кількість нових клієнтів він навмисне опу- скає поріг відсікання, щоб видати якомога більше кредитів, заробивши при цьому великий прибуток. Таку політику проводили дочірні банки великих банків із іноземним капіталом, видаючи кредити, вже за перший рік креди- тування, виправдовуючи закладені ресурси. Скоріш за все, саме така агре- сивна політика кредитування буде спостерігатися найближчим часом, коли банки вирішать масово відновлювати усі види кредитування (споживче, іпо- течне тощо) і той, хто перший розпочне цей процес, буде встановлювати вигідні для себе умови, заробляючи при цьому надвеликі прибутки. Marital Status FullEmplay mentTer… TenureWit hCurrEm… Education Age Price Goods_type Gender Children Default1_n ondeault0 Рис. 4. Приклад структури мережі Байєса, побудованої на основі інтегрованого методу Інформаційна технологія аналізу фінансових даних на основі інтегрованого метод Системні дослідження та інформаційні технології, 2011, № 1 33 ВИСНОВКИ У роботі запропоновано новий інтегрований метод аналізу даних, перевагою якого є те, що він дозволяє обробляти дані та встановлювати взаємозалеж- ності між змінними там, де інші методи не можуть бути застосовані без втрати певної інформації. Запропонована інформаційна технологія аналізу даних позичальників на основі інтегрованого методу дозволяє побудувати адекватну модель позичальника, оцінити кредитоспроможність та спрогно- зувати ймовірність повернення кредиту. Ця технологія використовувалась разом із відомими підходами до оцінювання позичальників та дозволила отримати додаткову оцінку під час прийняття рішень щодо видачі кредиту, але не викликала жодних проблем із навчанням персоналу. Використання запропонованої інформаційної технології дає можливість скоротити обсяги можливих втрат від несумлінних позичальників завдяки оптимізації розра- хункових операцій, прогнозування надходжень та витрат і планування роз- поділу коштів. Інтегрований метод апробовано на фактичних прикладах оцінювання даних позичальників, показав прийнятні за точністю результати, а тому його можна застосовувати до аналізу інших типів фінансових даних та прикладних областей. У подальших дослідженнях планується вдосконалити структуру запропонованого інтегрованого методу, розширити його функціональні можливості та автоматизувати окремі етапи обробки даних. Все це сприя- тиме підвищенню якості обробки даних та скороченню часу на прийняття обґрунтованих об’єктивних рішень щодо видачі кредитів. ЛІТЕРАТУРА 1. Kiss F. Credit scoring processes from a knowledge мanagement perspective // Periodica Polytechnica Series: Society, Man, Sybernetics. — 2003. — 11. — № 1. — P. 95–110. 2. Кузнєцова Н.В., Бідюк П.І. Порівняльний аналіз характеристик моделей оці- нювання ризиків кредитування // Наукові вісті НТУУ «КПІ». — 2010. — № 1. — C. 42–53. 3. Терентьєв А.Н., Бидюк А.В., Миронова А.В. и др. Сравнение методов ин- теллектуального анализа данных при оценивании кредитоспособности физических лиц // Проблемы управления и информатики. — 2009. — № 5. — С. 141–149. 4. Кузнєцова Н.В., Бідюк П.І. Системний підхід до аналізу кредитних ризиків з використанням мереж Байєса // Наукові вісті НТУУ «КПІ». — 2008. — № 3. — С. 11–24. 5. Кузнєцова Н.В. Методи оцінювання ризиків роздрібного кредитування // Системний аналіз та інформаційні технології: матеріали ХІI міжнар. наук.- техн. конф. SAIT–2010, 25–29 травня 2010 р.: тези доп. — Київ: ННК «ІПСА» НТУУ «КПІ», 2010. — C. 272. 6. Кузнєцова Н.В. Інтегрований підхід до оцінювання кредитних ризиків // Труды Одесского политехн. ун-та. — 2010. — №1 (33). — С. 157–165. Надійшла 04.06.2010
id nasplib_isofts_kiev_ua-123456789-50082
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Ukrainian
last_indexed 2025-11-27T23:27:58Z
publishDate 2011
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Кузнєцова, Н.В.
Бідюк, П.І.
2013-10-04T18:51:01Z
2013-10-04T18:51:01Z
2011
Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу / Н.В. Кузнєцова, П.І. Бідюк // Систем. дослідж. та інформ. технології. — 2011. — № 1. — С. 22-33. — Бібліогр.: 6 назв. — укр.
1681–6048
https://nasplib.isofts.kiev.ua/handle/123456789/50082
519.226
Проаналізовано основні особливості фінансових даних та запропоновано новий інтегрований метод їх аналізу. Запропоновано нову інформаційну технологію на основі інтегрованого методу аналізу даних та на практиці проілюстровано можливість її застосування для оцінювання кредитоспроможності позичальника.
Проанализированы основные особенности финансовых данных и предложен новый интегрированный метод их анализа. Предложена новая информационная технология на основе интегрированного метода анализа данных и на практике проиллюстрирована возможность ее применение для оценки кредитоспособности заемщика.
In the paper the basic features of financial data are discussed and a new integrated method for financial data analysis is proposed. The new informational technology on the basis of integrated method of data analysis is proposed and its possibility of application for the borrower’s creditworthiness assessment is illustrated in practice.
uk
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Системні дослідження та інформаційні технології
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
Информационная технология анализа финансовых данных на основе интегрированного метода
Information technology for financial data analysis based on the integrated method
Article
published earlier
spellingShingle Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
Кузнєцова, Н.В.
Бідюк, П.І.
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
title Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
title_alt Информационная технология анализа финансовых данных на основе интегрированного метода
Information technology for financial data analysis based on the integrated method
title_full Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
title_fullStr Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
title_full_unstemmed Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
title_short Інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
title_sort інформаційна технологія аналізу фінансових даних на основі інтегрованого методу
topic Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
topic_facet Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
url https://nasplib.isofts.kiev.ua/handle/123456789/50082
work_keys_str_mv AT kuznêcovanv ínformacíinatehnologíâanalízufínansovihdanihnaosnovííntegrovanogometodu
AT bídûkpí ínformacíinatehnologíâanalízufínansovihdanihnaosnovííntegrovanogometodu
AT kuznêcovanv informacionnaâtehnologiâanalizafinansovyhdannyhnaosnoveintegrirovannogometoda
AT bídûkpí informacionnaâtehnologiâanalizafinansovyhdannyhnaosnoveintegrirovannogometoda
AT kuznêcovanv informationtechnologyforfinancialdataanalysisbasedontheintegratedmethod
AT bídûkpí informationtechnologyforfinancialdataanalysisbasedontheintegratedmethod