Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability

Ensuring effective decision support in complex distributed organizational systems (especially in national security and defense planning) requires reliable classification methods capable of rapid diagnosis of resource states and risks to strategic interests. The effectiveness of a resource security i...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2026
Автори:	Ilyina, O.P., Skybyk, S.Ya.
Формат:	Стаття
Мова:	Українська
Опубліковано:	PROBLEMS IN PROGRAMMING 2026
Теми:	machine-learning classification ensemble training adaptive quality metric class imbalance soft voting statistical validation strategic decision support UDC 004.855 519.86
Онлайн доступ:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/879
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems in programming
Завантажити файл:

Репозитарії

Problems in programming

_version_	1865436132829822976
author	Ilyina, O.P. Skybyk, S.Ya.
author_facet	Ilyina, O.P. Skybyk, S.Ya.
author_institution_txt_mv	[ { "author": "O.P. Ilyina", "institution": "Institute of Software Systems NAS of Ukraine" }, { "author": "S.Ya. Skybyk", "institution": "Institute of Software Systems NAS of Ukraine" } ]
author_sort	Ilyina, O.P.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2026-04-30T12:46:31Z
description	Ensuring effective decision support in complex distributed organizational systems (especially in national security and defense planning) requires reliable classification methods capable of rapid diagnosis of resource states and risks to strategic interests. The effectiveness of a resource security indicator (RSI) built on machine learning methods critically depends on the stability and reliability of integrated predictions under conditions typical of this domain: significant class imbalance (where missing a negative state is critical), limited data volume, log normal feature distribution with "long tails", and noise components that reduce the stability of individual classifiers. To address these challenges, an adaptive ensemble integration mechanism (RSI) was developed, implementing weighted soft voting of models (NB, SVM, RF, kNN, LR) with unified probability calibration. The central element is a composite dynamic quality metric (KQ), which combines 1 (prioritizing the minority class), , and , adapting their weights based on correlation. Trust coefficients (KDR) are integrated to adjust the influence of models depending on their vulnerability to data properties. Algorithm validation was performed on synthetic data simulating log-normal distribution and lag effects of real-world conditions. A large-scale experiment (250 runs, paired design) confirmed high statistical significance ( 0.001 by Wilcoxon test) of RSI superiority over the best single classifier (Random Forest) across all metrics (Δ, Δ1, Δ). The effect size (Cohen's ≥ 1.41) indicates large practical value. The results demonstrate that adaptive integration ensures stability and reliability of risk diagnosis, critically necessary for security applications.Problems in programming 2025; 4: 88-101
doi_str_mv	10.15407/pp2025.04.088
first_indexed	2026-03-12T17:16:38Z
format	Article
fulltext	88 Інформаційні системи організаційного управління © О.П. Ільїна, С.Я. Скибик, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №4 УДК 004.855, 519.86 https://doi.org/10.15407/pp2025.04.088 О.П. Ільїна, С.Я. Скибик АДАПТИВНА АНСАМБЛЕВА ІНТЕГРАЦІЯ РІШЕНЬ ДЛЯ ІНДИКАТОРА РЕСУРСНОЇ БЕЗПЕКИ: МЕТОДОЛОГІЯ ТА СТАТИСТИЧНА ВАЛІДАЦІЯ СТАБІЛЬНОСТІ Забезпечення ефективної підтримки ухвалення рішень у складних розподілених організаційних системах (особливо у сфері національної безпеки та оборонного планування) вимагає розробки надійних методів класифікації, здатних оперативно діагностувати стани ресурсів та ризики стратегічним інтересам. Ефективність індикатора ресурсної безпеки (RSI), побудованого на базі методів машинного навчання, критично залежить від стабільності та достовірності інтегрованих прогнозів, особливо в умовах, характерних для предметної області: значний дисбаланс класів (де помилка пропуску негативного стану є критичною), обмежений обсяг даних, логнормальний розподіл ознак із «довгими хвостами», та наявність шумових компонентів, що знижує стабільність окремих класифікаторів. Для вирішення цього розроблено адаптивний механізм ансамблевої інтеграції (RSI), що реалізує зважене м’яке голосування моделей (NB, SVM, RF, kNN, LR) з уніфікованим калібруванням імовірностей. Центральним елементом є композитна динамічна метрика якості (KQ), яка поєднує 𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛 (пріоритет міноритарного класу), 𝑀𝑀𝑀𝑀𝑀𝑀 та 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝑎𝑎𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛, адаптуючи їхні ваги на основі кореляції. Інтегровано коефіцієнти довіри (KDR) для корекції впливу моделей залежно від їх вразливості до властивостей даних. Валідацію алгоритму проведено на синтетичних даних, що імітують логнормальний розподіл та лагові ефекти реальних умов. Масштабний експеримент (250 прогонів, парний дизайн) підтвердив високу статистичну значущість (𝑝𝑝 < 0.001 за критерієм Вілкоксона) переваги RSI над найкращим окремим класифікатором (Random Forest) за всіма метриками (Δ𝐾𝐾𝐾𝐾, Δ𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛, Δ𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑙𝑙𝑛𝑛𝑒𝑒𝑒𝑒). Розмір ефекту (𝑑𝑑-Коена ≥ 1.41) свідчить про велику практичну цінність. Результати доводять, що адаптивна інтеграція забезпечує стабільність та надійність діагностики ризиків, що критично необхідні для безпекових застосувань. Ключові слова: класифікація методами машинного навчання, ансамблеве навчання, адаптивна метрика якості, дисбаланс класів, м’яке голосування, статистична валідація, підтримка стратегічних рішень. O.P. Ilyina, S.Ya. Skybyk ADAPTIVE ENSEMBLE DECISION INTEGRATION FOR INDICATOR OF RESOURCE SECURITY: METHODOLOGY AND STATISTICAL VALIDATION OF STABILITY Ensuring effective decision support in complex distributed organizational systems (especially in national security and defense planning) requires reliable classification methods capable of rapid diagnosis of resource states and risks to strategic interests. The effectiveness of a resource security indicator (RSI) built on machine learning methods critically depends on the stability and reliability of integrated predictions under conditions typical of this domain: significant class imbalance (where missing a negative state is critical), limited data volume, log- normal feature distribution with "long tails", and noise components that reduce the stability of individual classifiers. To address these challenges, an adaptive ensemble integration mechanism (RSI) was developed, implementing weighted soft voting of models (NB, SVM, RF, kNN, LR) with unified probability calibration. The central element is a composite dynamic quality metric (KQ), which combines 𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛 (prioritizing the minority class), 𝑀𝑀𝑀𝑀𝑀𝑀, and 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝑎𝑎𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛, adapting their weights based on correlation. Trust coefficients (KDR) are integrated to adjust the influence of models depending on their vulnerability to data properties. Algorithm validation was performed on synthetic data simulating log-normal distribution and lag effects of real-world conditions. A large-scale experiment (250 runs, paired design) confirmed high statistical significance (𝑝𝑝 < 0.001 by Wilcoxon test) of RSI superiority over the best single classifier (Random Forest) across all metrics (Δ𝐾𝐾𝐾𝐾, Δ𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛, Δ𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑙𝑙𝑛𝑛𝑛𝑛𝑛𝑛). The effect size (Cohen's 𝑑𝑑 ≥ 1.41) indicates large practical value. The results demonstrate that adaptive integration ensures stability and reliability of risk diagnosis, critically necessary for security applications. Keywords: machine-learning classification, ensemble training, adaptive quality metric, class imbalance, soft voting, statistical validation, strategic decision support. 89 Інформаційні системи організаційного управління Вступ Для забезпечення життєздатності та захисту інтересів розподілених організа- ційних систем, особливо в умовах динаміч- ного середовища воєнної сфери національ- ної безпеки та оборонного планування, критично необхідна наявність інструментів експрес-діагностики ресурсних загроз. Розглянуте в [1] моделювання індикатора ресурсної безпеки (Resource Security Indicator — RSI) ґрунтується на сучасних методах машинного навчання (ML- класифікації), проте його ефективність на практиці стикається з низкою фундамен- тальних викликів, зумовлених специфікою вхідних даних. До таких викликів нале- жать: значний дисбаланс класів на користь позитивного (нормального) стану, обмеже- ний обсяг спостережень через специфіку доменної області, а також складність розподілів ознак. Значення останніх обмежені як доля від певного нормативу, демонструють скупчення навколо серед- нього або медіани, а також наявність вагомих «хвостів» внаслідок наявних стра- тегій постачання, що ускладнює коректне та ефективне оперування ними. У цих умовах надійність будь-якого окремого класифікаційного механізму ставиться під сумнів, оскільки різні моделі можуть демонструвати нестабільну пове- дінку на різних підмножинах даних. Це робить актуальним дослідження стабіль- ності якості класифікації та розробку інтеграційних підходів, здатних компен- сувати слабкі сторони окремих методів. Динаміка змін у середовищі безпеки вима- гає інструментів, які не лише надають точ- ковий прогноз, а й адаптуються до змінних характеристик даних, мінімізуючи ризики пропуску загроз (False Negative), які можуть мати катастрофічні наслідки для стратегічного планування. 1. Аналіз літературних даних і постановка проблеми Попередні етапи досліджень дозволили сформувати базовий апарат побудови RSI, орієнтований на оперування за умов невизначеності, що реалізує ансамблеву інтеграцію гетерогенних класифікаторів [1]. Однак детальний аналіз предметної області та попередніх резуль- татів виявив необхідність орієнтувати алгоритм на доменну специфіку [2], [3] даних і пріоритетів. Це зумовило відмову від дискретного (жорсткого) голосування, де кожна модель має один рівноправний голос незалежно від ступеня її впевненості. Такий підхід втрачає критично важливу інформацію про ймовірнісний розподіл прогнозів [4]. Крім того, використання єдиної статичної метрики якості (напри- клад, тільки F1 або Каппа Коена) є неадекватним для даних з високим та змінним дисбалансом. Статичні метрики часто ігнорують внутрішню кореляцію між критеріями якості, що може призводити до зміщених оцінок та «перенавчання» під мажоритарний клас, особливо коли дані містять шум або аномальні викиди. Проблематика інтеграції рішень для RSI зосереджена навколо факторів, харак- терних для предметної області: • Різнорідність ознак та склад- ність розподілів: Поєднання логнор- мальних ресурсних показників та дискрет- них лагових ознак ускладнює навчання стандартних моделей, вимагаючи специ- фічного препроцесингу. • Критичність гіподіагностики: В умовах безпеки вартість пропуску нега- тивного прецеденту (загрози) є неспівмірно вищою за вартість хибної тривоги, що вимагає жорсткої пріоритезації метрик для міноритарного класу (негативний стан). • Залежність моделей від властивостей даних: Згідно з теоремою No Free Lunch [5], не існує універсального класифікатора, оптимального для всіх сце- наріїв розподілу даних. Це вимагає меха- нізму, який би динамічно враховував враз- ливість кожної моделі до поточних умов. Постановка проблеми полягає у необ- хідності розробки та емпіричної валідації адаптивного механізму інтеграції рішень, який забезпечить стійкість, достовірність та інтерпретованість прогнозу в умовах високої невизначеності, де ціна помилки є критичною. 90 Інформаційні системи організаційного управління 2. Мета і завдання дослідження Мета дослідження: Розробити та статистично валідувати адаптивний ме- ханізм ансамблевої інтеграції рішень (RSI), здатний забезпечити стійкість і надійність оцінки в умовах, характерних для даних ресурсної безпеки (обмеженість вибірки, наявність шумів, значний дисбаланс класів). Завдання дослідження: 1. Розробити механізм зваженого м'якого голосування (Weighted Soft Voting), що включає уніфіковане калібрування імовірностей для забезпечення мате- матичної коректності та порівнянності виходів різнорідних моделей ансамблю. 2. Сформувати динамічну ком- позитну метрику якості (KQ), яка авто- матично адаптує ваги своїх компонентів до характеристик конкретного набору спос- тережень, мінімізуючи вплив мультиколі- неарності критеріїв та акцентуючи увагу на виявленні загроз. 3. Статистично підтвердити пере- вагу адаптивного ансамблю RSI над найкращим окремим класифікатором (RF) через масштабний експеримент із вико- ристанням парного дизайну та оцінки розміру ефекту. 3. Методи і матеріали досліджень Дослідження ґрунтується на методах ансамблевого машинного навчання, теорії математичної статистики, методах обчислювального експерименту на основі генерації синтетичних даних та розробці адаптивних метрик якості. Програмна реалізація алгоритму виконана в середовищі R v4.5.1 “Great Square Root” (реліз 13.06.2025) із використанням пакетів `caret` (v7.0-1, оновлено 10.12.2024), `ranger` (v0.17.0, оновлено 08.11.2024), `e1071` (v1.7-16, оновлено 16.09.2024) та `class` (v7.3-23, оновлено 01.01.2025), що мають актуальні стабільні релізи станом на кінець 2025 року та забезпечують сучасні програмні реалізації використовуваних класифікаційних алгоритмів. Детальний опис швидкої реалізації Random Forest у пакеті `ranger` наведено в [6], а сучасні підходи до побудови та налаштування моделей із використанням `caret` систе- матизовано в [7]. Архітектура гетерогенного ансамблю. RSI використовує гетерогенний набір з п'яти базових моделей: Naive Bayes (NB), Support Vector Machine (SVM), Random Forest (RF), k-Nearest Neighbors (kNN), та Logistic Regression (LR). Вибір саме цих алгоритмів обумовлений необ- хідністю забезпечення максимальної різно- манітності помилок, що розглядається як ключова умова ефективності ансамблів [4], [8]. Наприклад, NB ефективний для неза- лежних ознак і швидкого навчання, SVM добре працює з високорозмірними просто- рами та знаходить оптимальні розділяючі гіперплощини. RF забезпечує робастність до шуму та викидів, kNN ефективний для виявлення локальних структур даних, а LR надає базову лінійну апроксимацію ймовір- ностей. Таке поєднання дозволяє компен- сувати слабкі сторони одних моделей силь- ними сторонами інших, створюючи синер- гетичний ефект. Деталі конфігурації та гіперпараметрів цих моделей були пред- ставлені в попередній роботі [1], а уза- гальнений огляд ансамблевого навчання подано в [8]. Доменно-специфічні фактори. Алгоритм RSI проєктувався як відповідь на низку викликів, характерних для ресурсних даних індикатора та контексту ухвалення рішень. Ці виклики систематизовано у вигляді множини факторів Ф1–Ф11: Ф1. Різнорідність ознак за типами (ресурсні, лагові, службові) та шкалами вимірювання. Ф2. Складність розподілів (обме- женість області, скупченість, правосто- ронні «хвости»). Ф3. Залежність поточного стану від ресурсної передісторії (інерційність процесів, часові лаги). Ф4. Високий дисбаланс на користь позитивного (нормального) класу. Ф5. Критичність гіподіагностики незадовільних станів (пропуск негативних станів є набагато небезпечнішим, ніж хибна тривога). 91 Інформаційні системи організаційного управління Ф6. Наявність нефіксованих зов- нішніх факторів впливу, які можуть змі- нювати розподіли без прямого спос- тереження. Ф7. Неоднорідність умов спосте- режень у часі та між різними підмно- жинами даних. Ф8. Епізоди оцінювання цільової змінної за відмінними експертними моде- лями та шкалами. Ф9. Обмежений обсяг доступних даних у порівнянні з потенційною склад- ністю простору ознак. Ф10. Використання різних типів класифікаційних моделей (імовірнісних, геометричних, деревоподібних) в одному ансамблі. Ф11. Вимога придатності результа- тів класифікації для практичної підтримки рішень організаційної системи. Етапи розробки адаптивного ансамблю: Ключові етапи та дії. Запро- понований алгоритм побудови та навчання індикатора становить наступну послідов- ність етапів та дій. Е1. Підготовка даних DSN→LS, TS, де DSN ̶ первинний масив спосте- режень, LS, TS-відповідно навчальна й тестова вибірка. Е1.1 Структуризація системи ознак. Е1.2 Обробка пропусків. Е1.3 Масштабування. Е2. Навчання моделей ансамблю Mi, LS→ UPi (LS), MT i, KQi, i = 1,...,6, де MT i –тренована на даних LS калібрована модель Mi ; UPi (LS)-результат класифікації в точках LS від моделі Mi, поданий як калібрована імовірність позитивного класу; KQi – значення трикомпонентної (критерії F1, MCC, Каппа) метрики якості класифікації. Е2.1 Організація циклу крос- валідації на LS. Е2.2 Параметризація процедури навчання за допомогою метрики якості. Е2.3 Реалізація навчання Mi з використанням крос-валідації та уніфі- кованого калібрування результуючих імовірностей (крос-валідаційне калібру- вання за методом Платта [4]). Е3. Визначення апріорних коефі- цієнтів довіри до елементів ансамблю D, S, Mi →KDRi, де D ̶ вимоги до статистичної моде- лі даних, що визначають вразливості моделі Mi; S ̶ ризики порушення вимог у вико- ристовуваних даних; KDR ̶ експертна оцінка коефіцієнту довіри. Е4. Побудова динамічної метрики якості класифікації UPMCC i(LS),UPKAPPA i(LS),UPF1 i(LS), KQi → CORi, WKQD i де UPMCC i(LS), UPKAPPA i(LS), UPF1 i(LS) ̶ результати класифікації, отрима- ні аналогічно Етапу 3, але з використанням метрики якості тільки з одним із трьох елементів-критеріїв; COR ̶ коефіцієнт кореляції вхідних масивів; WKQD ̶ ваговий коефіцієнт відпо- відного критерію в складі динамічної метрики якості KQDi . Е5. Прогнозна інтегрована класифі- кація для спостережень тестової вибірки TS, {MT i , WKQD i , KDRi }, TRP→ UPi (TS), DPi (TS), де MT i – треновані на етапі Е2 моделі; WKQD ̶ вагові коефіцієнти критеріїв в метриках KQD моделей; KDR ̶ коефіцієнти довіри до моде- лей; TRP ̶ множина значень імовірності, одне з яких буде обрано як поріг для проє- ктування неперервних значень імовірності класу на бінарну шкалу (0, 1); UPi(TS) ̶ імовірнісний прогноз; DPi(TS) ̶ дискретизований прогноз. Е5.1. Розрахунок ваги моделей. Е5.2. Імовірнісний прогноз від MT i в точках TS. Е5.3. Зважене усереднення прогнозу. Е5.4. Дискретизація прогнозу. В Табл. 1 надано обґрунтування основ- них положень пропонованого алгоритму. 92 Інформаційні системи організаційного управління Таблиця 1 Основні положення алгоритму Етап Виклики Втілені в алгоритмі методичні рішення Аргументація доцільності Е1.1 Ф1 Розрізнення ресурсних та лагових ознак Різний препроцесинг для запобі- гання мультиколінеарності Е1.2 Ф1, Ф3 Видалення спостережень з пропуском лагів та kNN доповнення ресурсних Збереження послідовностей Е1.3 Ф1,Ф2, Ф6,Ф10 Робастне масштабування ресурсних ознак в LR, kNN, SVM з використанням медіани та інтерквартильного розмаху (IQR) замість середнього та дисперсії (без зважування класів і видалення корельованих ознак) Забезпечення однорідності ознак за шкалами та, що найважливіше, зменшення деструктивного впливу аномальних викидів, характерних для «важких хвостів» логнор- мальних розподілів. Е2.1 Ф4, Ф6, Ф7, Ф8 5 фолдів з почерговим використанням в ролі тестового Стабільність оцінки якості Е2.2 Ф4, Ф5 Апріорна метрика якості KQi для моделі Mi: зважена сума адаптованих критеріїв F1 (з інверсією класів), MCC та Каппа (перенормованої) Акцент на виявленні негативних станів, баланс аспектів якості, зістав- ність Е2.3 Ф10 Навчання Mi з крос-валідаційним калібруванням імовірностей за методом Платта [4] Отримання достовірних та уніфі- кованих імовірностей. Е3 Ф2, Ф3, Ф6,Ф10 Визначення коефіцієнтів довіри (KDR) Регуляція впливу моделей згідно вразливості до властивостей спосте- режень, ще до етапу оцінки їхньої емпіричної точності. Е4 Ф3, Ф4, Ф5 Урахування фактичної корельованості елементів KQi для динамічної вагової параметризації з отриманням KQDi для Mi Адаптивна та об'єктивна оцінка якості, що пріоритезує міноритарний клас і запобігає домінуванню колінеарних метрик Е5.1 Ф2, Ф3, Ф5,Ф10 Вагові коефіцієнти моделей Mi для наступ- ного використання в голосуванні Інтеграція вразливості Mi з продемонстрованою якістю Е5.2 Ф10 Прогноз індивідуальних (від Mi) імовірностей класів для тестових точок Зіставлення Mi - прогнозів завдяки попереднім крокам Е5.3 Ф2, Ф4, Ф6, Ф7, Ф8, Ф9 Інтеграція індивідуальних прогнозів для точок тестової вибірки зваженим м’яким голосуванням [4] Підвищення впливу переваг, запо- бігання переоцінці більшого класу, агрегація розмитих рішень у разі складних розподілах ознак Е5.4 Ф11 Оптимальна порогова дискретизація результатів класифікації (границя між класами встановлюється як значення ймовірності, яке максимізує KQD в точках тестової вибірки) Створення можливості порівняння прогнозу класу з фактичними значеннями для тестової вибірки з метою наступної оцінки власти- востей індикатора 93 Інформаційні системи організаційного управління Табл. 1 узагальнює основні поло- ження алгоритму RSI та демонструє взаємозв’язок усіх його етапів із відповіддю на конкретні виклики — від підготовки даних і тренування моделей до формування та оцінки інтегрованого результату. Далі буде розглянуто низку критичних компонентів цієї схеми, які забезпечують адаптивне узгодження ансамблю з властивостями даних. Уніфіковане калібрування рішень. Для забезпечення сумісності ймовірностей у м'якому голосуванні використовується уніфіковане крос-валідаційне калібрування Плата. Ця процедура перетворює "сирі" вихідні дані моделей (наприклад, decision values SVM або дистанції kNN) на достовірні псевдо-імовірності. Це особливо важливо для SVM, який стандартно повертає лише відстань до розділяючої гіперплощини, та для Random Forest, який часто схильний до надмірної впевненості на краях діапазону (близько 0 та 1). Калібрування дозволяє привести виходи всіх моделей до єдиної ймовірнісної шкали, що є необхідною умовою для коректного математичного усереднення; детальний аналіз підходів до калібрування наведено в [9], [10]. Визначення коефіцієнту довіри KDR. Вплив моделей в ансамблі додатково коригується коефіцієнтом довіри 𝐾𝐾𝐾𝐾𝑅𝑅𝑖𝑖, який відображає ступінь порушення припущень даних для кожної моделі. Розрахунок 𝐾𝐾𝐾𝐾𝑅𝑅𝑖𝑖 дозволяє інтегрувати апріорні експертні знання про вразливість моделей згідно з формулою: 𝐾𝐾𝐾𝐾𝑅𝑅𝑖𝑖 = 1 4 ∑ 𝐸𝐸𝐸𝐸𝐸𝐸[𝑖𝑖, 𝑗𝑗] 𝑗𝑗 × 𝐼𝐼𝐼𝐼[𝑖𝑖, 𝑗𝑗] де 𝐸𝐸𝐸𝐸𝐸𝐸 — матриця експертних оцінок вразливості моделей до порушення властивостей даних, а 𝐼𝐼𝐼𝐼 — індикатори фактичного пору- шення цих умов у поточному наборі спостережень. Для кожного класифікатора 𝑀𝑀𝐶𝐶𝑖𝑖 з пулу 𝑃𝑃𝑃𝑃 = {NB,SVM,RF,kNN,LR} на основі аналізу широкого спектру класичних публікацій, зокрема [11], експертно оцінюється критичність чотирьох вимог до даних: 1. Форма розподілу ознак (feature distribution); 2. Незалежність ознак (feature independence); 3. Баланс спостережень за класами (observation data balance); 4. Шкала вимірювання (measurement scale). Кожна вимога 𝑗𝑗 для моделі 𝑖𝑖 оцінюється на трирівневій шкалі 𝑒𝑒𝑒𝑒𝑑𝑑𝑖𝑖𝑖𝑖 ∈ {0; 0.5; 1}, де 0 означає відсутність суттєвих вимог моделі до відповідної властивості даних, 0.5 – помірну чутливість (порушення припущення допустимі за наявності стандартних компенсуючих заходів), 1 – критичну чутливість. Обґрунтування кожного значення 𝑒𝑒𝑒𝑒𝑑𝑑𝑖𝑖𝑖𝑖 проводилося за чотирма аспектами 𝐴𝐴𝑎𝑎,𝑗𝑗 (із 𝑎𝑎 = 1, … ,4): (𝑎𝑎 = 1) - наявність первинного методичного обмеження; (𝑎𝑎 = 2) - доступні та фактично засто- совані в RSI заходи робастності; (𝑎𝑎 = 3) - програмні засоби (R-паке- ти/функції), використані для реалі- зації цих заходів; (𝑎𝑎 = 4) - потенційні ризики для якості класифікації у разі порушення вимоги. Підсумкова матриця 𝐸𝐸𝐸𝐸𝐸𝐸, наведена у Табл. 2, фіксує лише теоре- тико-методичну вразливість моделей; у формулі для 𝐾𝐾𝐾𝐾𝑅𝑅𝑖𝑖 вона поєднується з масивом індикаторів 𝐼𝐼𝐼𝐼𝑖𝑖𝑖𝑖, які залежать від конкретних спостережень. 94 Інформаційні системи організаційного управління Таблиця 2 Експертні коефіцієнти критичності 𝑒𝑒𝑒𝑒𝑑𝑑𝑖𝑖𝑖𝑖 та аргументація для моделей ансамблю RSI Розподіл ознак Aa1 Незалежність ознак Aa2 Збалансованість спостережень Aa3 Шкала значень Aa4 Байєсівський класифікатор ekdi1 0 0 0.5 0 a = 1 Не накладаються жорсткі параметрич- ні вимоги до форми розподілу ознак Передбачається умовна незалежність ознак Дисбаланс класів зміщує апостеріорні ймовірності до мажо- ритарного класу Окремих вимог немає за умови коректного препро- цесингу a = 2 Непараметрична оцінка щільності (KDE) із парамет- рами usekernel = TRUE, adjust = 1 Ознаки структуро- вано за типами (ре- сурсні, лагові), що обмежує складні залежності Баланс класів частко- во стабілізується зав- дяки стратифікова- ному поділу train/test Працює з уже узгод- жено препроцесо- ваними ознаками a = 3 caret::train (method= "nb"); e1071::naiveBayes caret, e1071 caret::confusionMatrix; mltools caret, e1071 a = 4 Мінімальні Сильні приховані за- лежності між ознака- ми можуть порушу- вати припущення умовної незалеж- ності Ризик пропуску негативних станів Непослідовне коду- вання типів ознак може викривляти інтерпретацію щільностей Метод опорних векторів SVM ekdi2 0 0 0.5 0.5 a = 1 Немає вимоги нор- мальності; проблеми переважно за умови дуже складних кордонах та шумі Загалом стійка до помірної мультиколі- неарності За суттєвого дисба- лансу гіперплощина може «зміщуватися» на користь мажоритарного класу Дуже чутлива до масштабу ознак a = 2 Застосовано радіальне ядро з підбором параметрів регуляризації та ширини ядра Ознаки структуровано за типами (ресурсні, лагові), що обмежує складні залежності Баланс класів частко- во стабілізується зав- дяки стратифікова- ному поділу train/test Робастне масштабу- вання числових ознак (центрування за медіаною та масшта- бування за IQR) a = 3 caret::train (method= "svmRadial"); kernlab::ksvm; stats::glm caret, kernlab, stats::glm caret, kernlab caret, kernlab 95 Інформаційні системи організаційного управління Розподіл ознак Aa1 Незалежність ознак Aa2 Збалансованість спостережень Aa3 Шкала значень Aa4 a = 4 Невдалий вибір пара- метрів ядра може призводити до пере- або недонавчання на складних розподілах Мультиколінеарність здатна погіршувати стабільність опорних векторів і ускладню- вати інтерпретацію моделі За значного дисба- лансу можливе зміщення розділя- ючої гіперплощини на користь мажори- тарного класу Некоректне масшта- бування ознак здатне суттєво викривлю- вати відстані в ознаковому просторі Випадковий ліс ekdi3 0 0 0.5 0 a = 1 Відсутні Відсутні Схильність до мажоритарного класу при дисбалансі Відсутні a = 2 Непотрібні Ознаки групуються за типами (ресурсні, лагові) Баланс класів частко- во стабілізується зав- дяки стратифікова- ному поділу train/test Не застосовується a = 3 caret::train (method= "rf"); randomForest; ranger a = 4 Відсутні Відсутні За сильного дисба- лансу існує ризик систематичного недопредставлення міноритарного класу Відсутні Метод найближчих сусідів kNN ekdi4 0 0.5 0.5 0.5 a = 1 Не висуваються при- пущення щодо фор- ми розподілів, але є чутливість до шуму Сильні кореляції між ознаками спотворюють евклідові відстані У разі дисбалансу найближчі сусіди часто належать мажоритарному класу Відстані сильно зале- жать від масштабу ознак; «довгі» шкали домінують у метриці a = 2 Не застосовуються; робастність досяга- ється за рахунок вибору відстаневої метрики та масшта- бування Ознаки розділено за типами (ресурсні, лагові) Баланс класів частково стабі- лізується завдяки стратифікованому поділу train/test Для числових ознак застосовано робастне масштабування (ме- діана/IQR), що змен- шує домінування ок- ремих ознак у відста- нях a = 3 caret::train (method= "knn"); class::knn; kknn::train.kknn 96 Інформаційні системи організаційного управління Розподіл ознак Aa1 Незалежність ознак Aa2 Збалансованість спостережень Aa3 Шкала значень Aa4 a = 4 Наявність шуму та розрідженості може робити сусідства нестабільними Сильні кореляції між ознаками спотво- рюють геометрію простору Виражений дисба- ланс класів може призводити до домі- нування мажоритар- ного класу серед найближчих сусідів Відсутність корект- ного масштабування робить результат за- лежним від вибору одиниць вимірю- вання Логістична регресія ekdi5 0 0.5 0.5 0.5 a = 1 Не вимагається, проте викиди та асиметрія можуть впливати на стабільність оцінок Мультиколінеарність збільшує дисперсію оцінених коефі- цієнтів та ускладнює інтерпретацію У разі дисбалансу класів максимізація правдоподібності тяжіє до мажоритарного класу Чутливість до неко- ректного кодування категоріальних змін- них та різких відмін- ностей масштабів a = 2 Для зменшення впливу викидів використано робастне масштабу- вання числових ознак Ознаки розділено за типами (ресурсні, лагові) Баланс класів частково стабілізується завдяки стратифікованому поділу train/test Для числових ознак використано робаст- не масштабування (медіана/IQR), що підвищує стабіль- ність оцінених коефіцієнтів a = 3 caret::train (method= "glm", family =binomial); stats::glm a = 4 Сильні відхилення від «регулярних» розподілів (викиди, важкі «хвости») можуть зміщувати оцінки параметрів Виражена мульти- колінеарність здатна значно збільшувати дисперсію оцінених коефіцієнтів У разі значного дисбалансу логістична регресія може повертати добре калібровані, але зміщені ймовір- ності з низькою чутливістю до міноритарного класу Некоректне коду- вання категоріальних змінних і великі відмінності масшта- бів між ознаками можуть суттєво погіршувати якість класифікації Адаптивна метрика якості (KQ). Якість класифікації оцінюється за композитним індикатором 𝐾𝐾𝐾𝐾, розроб- леним у цьому дослідженні спеціально для обробки незбалансованих даних; детальний огляд проблеми навчання на незбалансованих вибірках і відповідних метрик подано, зокрема, в [12], [13], [14]. Метрика включає три компоненти: • 𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛 (базова вага 𝑤𝑤𝑓𝑓1 = 0.5) — гармонічне середнє Precision та Recall для негативного класу. Висока вага цього компонента є свідомим вибором для пріоритезації виявлення критичних загроз, навіть якщо це призводить до незначного зниження загальної точності [2]; • 𝑀𝑀𝑀𝑀𝑀𝑀 (базова вага 𝑤𝑤𝑚𝑚𝑚𝑚𝑚𝑚 = 0.35) — коефіцієнт кореляції Метьюса. Це робастна оцінка загальної якості, яка враховує всі чотири елементи матриці плутанини (TP, TN, FP, FN) і залишається адекватною навіть за сильного дисбалансу класів; • 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝑎𝑎𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 (базова вага 𝑤𝑤𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 = 0.15) — нормалізована каппа Коена, що 97 Інформаційні системи організаційного управління відображає перевагу моделі над випадковим вгадуванням. Метрика є динамічною, оскільки її вагові коефіцієнти автоматично коригуються на основі кореляції 𝑟𝑟 між 𝑀𝑀𝑀𝑀𝑀𝑀 та 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝑎𝑎𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 (фактор надлишковості). Якщо ці метрики сильно корелюють на поточному наборі даних, їхні ваги пропорційно зменшуються, щоб уникнути дублювання інформації та перекосу оцінки. Це забезпечує адап- тованість 𝐾𝐾𝐾𝐾 до фактичних характеристик навчальних даних і робить її більш стійкою до змін у розподілах. Зважене м'яке голосування. Фінальне інтегроване рішення отримується через процедуру зваженого м'якого голосування [4], [8]: 𝑝𝑝𝑖̂𝑖 = ∑ 𝑊𝑊𝑚𝑚 𝑁𝑁 𝑚𝑚=1 ⋅ 𝑃𝑃𝑚𝑚(𝑥𝑥𝑖𝑖), де 𝑃𝑃𝑚𝑚(𝑥𝑥𝑖𝑖) — калібрована імовірність позитивного класу від моделі 𝑚𝑚, а вага 𝑊𝑊𝑚𝑚 залежить від якості моделі 𝐾𝐾𝑄𝑄𝑚𝑚 та її коефіцієнта довіри 𝐾𝐾𝐾𝐾𝑅𝑅𝑚𝑚: 𝑊𝑊𝑚𝑚 ∝ 𝐾𝐾𝑄𝑄𝑚𝑚 ⋅ (1 − 𝐾𝐾𝐾𝐾𝑅𝑅𝑚𝑚). Обґрунтування переваги м'якого голосування полягає у використанні всієї інформації про ступінь впевненості моделі. На відміну від жорсткого голосування, де "невпевнене" рішення моделі (наприклад, ймовірність 0.51) має таку ж вагу, як і "впевнене" (0.99), м'яке голосування дозволяє точніше агрегувати прогнози, надаючи більшу вагу більш впевненим моделям. Це призводить до формування гладкішої розділяючої поверхні та значно якісніших інтегрованих імовірностей. Оптимальний поріг дискретизації встановлюється не фіксовано (0.5), а адаптивно — як значення, що максимізує фінальну метрику 𝐾𝐾𝐾𝐾 на тестовій вибірці, що дозволяє гнучко балансувати точність і повноту залежно від поточних умов задачі. Генерація даних для експерименту. Для дослідження стабіль- ності використано синтетично згенеровані дані, що імітують складні виклики предметної області: логнормальний розподіл ознак, дисбаланс (20% негатив- ного класу) та інерційність процесів (лагові ознаки). Значення мітки імітують експертні оцінки цільової благополучності, які надаються наприкінці чергового періоду аудиту та розповсюджуються на ресурсні спостереження по всій його довжині. Введення лагових ознак паралельно з ознаками рівня забезпеченості за видами ресурсу обслуговує потребу в урахуванні впливів на благополучність, спричинених ресурсними даними попередніх періодів. Використання синтетичних даних є необхідним методологічним кроком, оскільки дозволяє точно контролювати параметри розподілів та рівень шуму, що неможливо на обмежених реальних історичних вибірках. Експеримент прово- дився на 5 серіях датасетів з обсягами вибірок: 3000, 1500, 840, 364 та 140 спостережень. Логіка генератора ґрунту- ється на «м’якому скоринговому відборі» (soft scoring selection). Цей метод враховує поточний стан системи (𝐿𝐿), попередній стан (𝐿𝐿𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝) та інерційні параметри (𝐹𝐹𝐹𝐹1 — довжина серії станів) для відбору значень з батьківських логнормальних розподілів. Скоринг-функція 𝑆𝑆 інтегрує вплив «хвоста» розподілу та довжини серії періодів із стабільним значенням мітки, що дозволяє генерувати реалістичні часові ряди з залежностями, імітуючи складні процеси деградації ресурсів, а не просто випадковий шум. Дизайн статистичного експерименту. Експеримент включав 250 незалежних прогонів на 5 різних синтетичних дата- сетах. Було застосовано парний дизайн (Paired Design) для порівняння ансамблю RSI проти Random Forest (RF) [15]. Вибір RF як базового еталону є обґрунтованим, оскільки попередні дослідження показали, що RF є найкращим окремим класи- фікатором серед компонентів ансамблю. Таким чином, це найбільш суворий тест, що дозволяє оцінити саме додаткову цінність механізму інтеграції, а не просто перевагу над слабкими моделями. Парний дизайн нівелює вплив випадкових факторів (випадкове початкове значення, розбиття на навчальну/тестову вибірки), фокусуючись виключно на різниці в ефективності методів на одних і тих самих даних. Для оцінки переваги використовувався аналіз 98 Інформаційні системи організаційного управління дельт (Δ = 𝑅𝑅𝑅𝑅𝑅𝑅 − 𝑅𝑅𝑅𝑅) та такі статистичні критерії: • Критерій знакових рангів Вілкоксона — непараметричний тест для перевірки гіпотези про зсув медіани різниць; • Парний t-критерій Стьюдента — для перевірки середнього значення різниць; • Розмір ефекту d-Коена — для оцінки практичної значущості отриманої різниці. 4. Результати досліджень Огляд загальної ефективності ансамблю. Проведені дослідження на 250 прогонах показали, що ансамбль RSI перевершив якість найкращої окремої моделі (Random Forest) у всіх 5 серіях експерименту (з обсягами від 3000 до 140 спостережень), незалежно від параметрів датасету (розміру вибірки та рівня шуму). Це свідчить про універсальність запропонованого підходу. Статистична значущість переваги RSI. Середні абсолютні значення метрик якості, отримані під час експерименту, наведені у Табл. 3. Результати аналізу дельт (Δ = 𝑅𝑅𝑅𝑅𝑅𝑅 − 𝑅𝑅𝑅𝑅) за загальною вибіркою (250 прогонів) підтвердили статистичну значущість переваги RSI, що детально представлено у Табл. 4. Таблиця 3 Середні абсолютні значення метрик (250 прогонів) Метрика Ансамбль RSI (Середнє) Random Forest (Середнє) Різниця 𝚫𝚫 (RSI - RF) Медіана 𝚫𝚫 (RSI - RF) 𝐾𝐾𝐾𝐾 0.6260 0.5578 +0.0682 +0.0499 𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛 0.6432 0.5609 +0.0823 +0.0647 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑙𝑙𝑛𝑛𝑛𝑛𝑛𝑛 0.7108 0.4646 +0.2462 +0.2143 Таблиця 4 Статистична значущість переваги RSI над RF (250 прогонів) Метрика Тест Вілкоксона, 𝒑𝒑 Тест Вілкоксона, 95% ДІ t-критерій Стьюдента, 𝒑𝒑 t-критерій Стьюдента, 95% ДІ Розмір ефекту 𝒅𝒅- Коена Δ𝐾𝐾𝐾𝐾 2.06×10⁻³⁸ (< 0.001) [0.0528, ∞] 1.20×10⁻³⁹ (< 0.001) [0.0610, ∞] 1.41 Δ𝐹𝐹1𝑛𝑛𝑛𝑛𝑛𝑛 3.40×10⁻⁴¹ (< 0.001) [0.0653, ∞] 4.63×10⁻⁴⁷ (< 0.001) [0.0748, ∞] 1.60 Δ𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑙𝑙𝑛𝑛𝑛𝑛𝑛𝑛 1.28×10⁻⁴¹ (< 0.001) [0.2222, ∞] 4.49×10⁻⁷⁰ (< 0.001) [0.2299, ∞] 2.23 Ключові висновки з отриманих результатів: • Статистична значущість: Усі p- значення для обох статистичних тестів (Вілкоксона та Стьюдента) значно нижчі за рівень значущості α = 0.05 (фактично 𝑝𝑝 < 10−38). Це доводить статистично значущу перевагу ансамблю RSI над RF. Імовірність 99 Інформаційні системи організаційного управління того, що цей результат є випадковим збігом, фактично нульова. • Практична значущість: Розмір ефекту d-Коена для всіх ключових метрик є великим (𝑑𝑑 ≥ 1.41). Отримані значення 𝑑𝑑 > 1.4 свідчать про те, що різниця між RSI та RF є не тільки статистично фіксованою, а також обґрунтованою та помітною на практиці. Це означає, що покращення якості класифікації є суттєвим і стабільним, а розподіли результатів двох методів мають мале перекриття. Особливо важливим є значне покращення Δ𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑙𝑙𝑛𝑛𝑛𝑛𝑛𝑛 (+24.6%), що вказує на здатність ансамблю значно краще виявляти приховані загрози. 5. Обговорення результатів Отримані результати підтверджують ключову гіпотезу дослідження: адаптивна інтеграція рішень є ефективним способом підвищення надійності та стабільності класифікації в умовах, які є традиційно складними для окремих ML-моделей. Додаткова цінність ансамблю- вання. Той факт, що ансамбль RSI статистично значуще перевершив свій найкращий окремий компонент (Random Forest), доводить, що механізм інтеграції збільшує додаткову цінність, яка виправдовує підвищену обчислювальну складність алгоритму. Ця перевага виникає завдяки синергії двох ключових факторів: • роль гетерогенності та дина- мічної адаптації: Хоча RF є найкращим у середньому, у певних підмножинах даних (наприклад, на краях розподілів або при специфічних комбінаціях шуму) якісний результат можуть демонструвати інші моделі (SVM, NB). Адаптивна інтеграція (через 𝐾𝐾𝐾𝐾𝐾𝐾-зважування та динамічний 𝐾𝐾𝐾𝐾) дозволяє RSI динамічно «нахилятися» до тимчасово найкращої моделі, уникнувши пастки локального оптимуму одного методу. Це забезпечує робастність системи. • робастність м'якого голосуван- ня: Зважене м'яке голосування, підкріплене уніфікованим калібруванням, забезпечило стабільну перевагу над RF в умовах обмежених, зашумлених та значно незбалансованих наборів даних. Цей підхід дозволяє врахувати нюанси розподілу ймовірностей, де «впевнені» прогнози (наприклад, з імовірністю 0.9) вносять суттєво більший вклад у фінальне рішення, ніж «граничні» (0.51). Це підтверджує, що агрегація ступеня впевненості моделей формує більш стійкий вирішальний простір і є значно інформативнішою, ніж проста мажоритарна агрегація бінарних рішень, яка втрачає цю критично важливу мета- інформацію. Це підтверджує, що розроблений ансамбль не просто усереднює результати, а створює адаптивний механізм, який мінімізує вплив нестабільності окремих моделей і забезпечує вищу надійність індикатора в цілому. 6. Висновки Отримані результати підтвер- джують, що запропонований алгоритм адаптивної ансамблевої інтеграції рішень є перспективним підходом для побудови індикатора ресурсної безпеки інтересів розподіленої організаційної системи: 1. Розроблена методологія успішно поєднує зважене м'яке голосування, уніфіковане калібрування імовірностей, адаптивну композитну метрику якості (𝐾𝐾𝐾𝐾) та експертно задані коефіцієнти відповідності даним (𝐸𝐸𝐸𝐸𝐸𝐸, 𝐾𝐾𝐾𝐾𝐾𝐾), що дозволяє ефективно працювати зі складними незбалансованими даними та враховувати теоретичну вразливість моделей до порушення статистичних припущень. 2. Проведений статистичний екс- перимент показав наявність доменно репрезентативних областей даних зі ста- тистично значущою перевагою ансамблю RSI над еталонним класифікатором RF (𝑝𝑝 < 0.001), підтвердивши гіпотезу про ефективність адаптивного підходу. 3. Розмір ефекту (𝑑𝑑-Коена) під- твердив практичну значущість переваги (𝑑𝑑 > 1.4), довівши, що механізм інтеграції створює реальну додаткову цінність. 4. Забезпечення стабільності та надійності класифікації робить RSI ефек- тивним інструментом для застосування у сфері національної безпеки та оборонного планування, де ціна помилки в бік 100 Інформаційні системи організаційного управління нехтування ресурсною неблагополучністю є критично високою. 5. Реалізація RSI базується на сучасному стеку пакетів R (`caret`, `ranger`, `e1071`, `class`) з актуальними версіями станом на кінець 2025 року, що додатково підкріплює відтворюваність результатів і відповідність застосованих програмних засобів сучасним практикам побудови класифікаційних моделей. Напрямки подальших досліджень. Подальші дослідження будуть зосереджені на системному аналізі стабільності досягнутої якості класифікації (метрика 𝐾𝐾𝐾𝐾) відносно ключових детермінант проблемних даних. Планується викорис- тання методології Latin Hypercube Sampling (LHC) для ефективного покриття багато- вимірного простору факторних викликів (рівня шуму, ступеня дисбалансу, об’єму даних) та отримання кількісних оцінок меж стабільності алгоритму в ширшому діапазоні умов експлуатації, як показано в [16]. Література 1. Skybyk S., Doroshenko A., Ilyina O., Sinitsyn I. Machine-Learning-Based Model for Indicators of the Resource-Based Security of Interests in High-Level Organizational Systems // Proceedings of the 9th International Scientific and Practical Conference Applied Information Systems and Technologies in the Digital Society (AISTDS 2025). CEUR Workshop Proceedings. 2025. Vol. 4133. P. 153–169. URL: https://ceur-ws.org/Vol- 4133/S_12_Doroshenko.pdf. 2. Kress M. Operational Logistics: The Art and Science of Sustaining Military Operations. 2nd ed. Switzerland: Springer International Publishing, 2016. 313 p. 3. Сініцин І.П., Шевченко В.Л., Дорошенко А.Ю., Федоренко Р.М. Моделі та програмні системи управління оборонними ресурсами: монографія. Київ: ІПС НАНУ, 2024. 268 с. 4. Large J., Lines J., Bagnall A. A probabilistic classifier ensemble weighting scheme based on exponentially weighting the probability estimates // Data Mining and Knowledge Discovery. 2019. DOI: 10.1007/s10618-019- 00638-y. 5. Adam S. P., Alexandropoulos S.-A. N., Pardalos P. M., Vrahatis M. N. No Free Lunch Theorem: A review // In: Demetriou I. C., Pardalos P. M. (eds.) Approximation and Optimization. Springer Optimization and Its Applications, vol. 145. Switzerland: Springer, 2019. P. 57–82. DOI: 10.1007/978-3-030- 12767-1_5. 6. Wright M. N., Ziegler A. ranger: A Fast Implementation of Random Forests for High Dimensional Data in C++ and R // Journal of Statistical Software. 2017. Vol. 77, No. 1. 7. Kuhn M., Johnson K. Feature Engineering and Selection: A Practical Approach for Predictive Models. Boca Raton, FL: CRC Press, 2019. 600 p. 8. Kuncheva L. I. Combining Pattern Classifiers: Methods and Algorithms. Wiley, 2004. 312 p. 9. Kull M., Silva F. A., Flach P. Beyond Sigmoids: How to Obtain Well-Calibrated Probabilities from Binary Classifiers // Machine Learning. 2017. Vol. 106, No. 3. P. 437–451. 10. Naeini M.P., Cooper G.F., Hauskrecht M. Obtaining Well Calibrated Probabilities Using Bayesian Binning // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. 11. Aggarwal C. C. Data Mining: The Textbook. Springer, 2015. 734 p. 12. He H., Ma Y. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley, 2013. DOI: 10.1002/9781118646106. 13. Branco P., Torgo L., Ribeiro R.P. A Survey of Predictive Modeling Under Imbalanced Distributions // ACM Computing Surveys. 2015. Vol. 49, No. 2. 14. Krawczyk B. Learning from Imbalanced Data: Open Challenges and Future Directions // Progress in Artificial Intelligence. 2016. Vol. 5, No. 4. P. 221–232. 15. Demšar J. Statistical Comparisons of Classifiers over Multiple Data Sets // Journal of Machine Learning Research. 2006. Vol. 7. P. 1–30. 16. Iooss B., Lemaître P. A Review on Global Sensitivity Analysis Methods // In: Dellino G., Meloni C. (eds.) Uncertainty Management in Simulation-Optimization of Complex Systems. Boston, MA: Springer, 2015. P. 101–122. References 1. Skybyk S., Doroshenko A., Ilyina O., Sinitsyn I. Machine-Learning-Based Model for Indicators of the Resource-Based Security of Interests in High-Level Organizational 101 Інформаційні системи організаційного управління Systems // Proceedings of the 9th International Scientific and Practical Conference Applied Information Systems and Technologies in the Digital Society (AISTDS 2025). CEUR Workshop Proceedings. 2025. Vol. 4133. P. 153–169. URL: https://ceur-ws.org/Vol- 4133/S_12_Doroshenko.pdf. 2. Kress M. Operational Logistics: The Art and Science of Sustaining Military Operations. 2nd ed. Switzerland: Springer International Publishing, 2016. 313 p. 3. Sinitsyn I. P., Shevchenko V. L., Doroshenko A. Yu., Fedorenko R. M. Models and software systems for defence resource management: monograph. Kyiv: IPS of NASU, 2024. 268 p. 4. Large J., Lines J., Bagnall A. A probabilistic classifier ensemble weighting scheme based on exponentially weighting the probability estimates // Data Mining and Knowledge Discovery. 2019. DOI: 10.1007/s10618-019- 00638-y. 5. Adam S. P., Alexandropoulos S.-A. N., Pardalos P. M., Vrahatis M. N. No Free Lunch Theorem: A review // In: Demetriou I. C., Pardalos P. M. (eds.) Approximation and Optimization. Springer Optimization and Its Applications, vol. 145. Switzerland: Springer, 2019. P. 57–82. DOI: 10.1007/978-3-030- 12767-1_5. 6. Wright M. N., Ziegler A. ranger: A Fast Implementation of Random Forests for High Dimensional Data in C++ and R // Journal of Statistical Software. 2017. Vol. 77, No. 1. 7. Kuhn M., Johnson K. Feature Engineering and Selection: A Practical Approach for Predictive Models. Boca Raton, FL: CRC Press, 2019. 600 p. 8. Kuncheva L. I. Combining Pattern Classifiers: Methods and Algorithms. Wiley, 2004. 312 p. 9. Kull M., Silva F. A., Flach P. Beyond Sigmoids: How to Obtain Well-Calibrated Probabilities from Binary Classifiers // Machine Learning. 2017. Vol. 106, No. 3. P. 437–451. 10. Naeini M.P., Cooper G.F., Hauskrecht M. Obtaining Well Calibrated Probabilities Using Bayesian Binning // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. 11. Aggarwal C. C. Data Mining: The Textbook. Springer, 2015. 734 p. 12. He H., Ma Y. Imbalanced Learning: Foundations, Algorithms, and Applications. Wiley, 2013. DOI: 10.1002/9781118646106. 13. Branco P., Torgo L., Ribeiro R.P. A Survey of Predictive Modeling Under Imbalanced Distributions // ACM Computing Surveys. 2015. Vol. 49, No. 2. 14. Krawczyk B. Learning from Imbalanced Data: Open Challenges and Future Directions // Progress in Artificial Intelligence. 2016. Vol. 5, No. 4. P. 221–232. 15. Demšar J. Statistical Comparisons of Classifiers over Multiple Data Sets // Journal of Machine Learning Research. 2006. Vol. 7. P. 1–30. 16. Iooss B., Lemaître P. A Review on Global Sensitivity Analysis Methods // In: Dellino G., Meloni C. (eds.) Uncertainty Management in Simulation-Optimization of Complex Systems. Boston, MA: Springer, 2015. P. 101–122. Одержано: 30.11.2025 Внутрішня рецензія отримана: 07.12.2025 Зовнішня рецензія отримана: 11.12.2025 Про авторів: Скибик Сергій Ярославович, аспірант https://orcid.org/0009-0008-4336-680X Ільїна Олена Павлівна, кандидат фізико-математичних наук, старший науковий співробітник, провідний науковий співробітник https://orcid.org/0000-0002-4073-9649 Місце роботи авторів: Інститут програмних систем Національної академії наук України, 03187, м. Київ, проспект Академіка Глушкова, 40. e-mail: ilyina.elena1@ukr.net, sskybyk@gmail.com
id	pp_isofts_kiev_ua-article-879
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2026-05-01T01:00:43Z
publishDate	2026
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/c2/883f04e9d26c76599ffc71eb86bf21c2.pdf
spelling	pp_isofts_kiev_ua-article-8792026-04-30T12:46:31Z Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability Адаптивна ансамблева інтеграція рішень для індикатора ресурсної безпеки: методологія та статистична валідація стабільності Ilyina, O.P. Skybyk, S.Ya. machine-learning classification; ensemble training; adaptive quality metric; class imbalance; soft voting; statistical validation; strategic decision support UDC 004.855, 519.86 класифікація методами машинного навчання; ансамблеве навчання; адаптивна метрика якості; дисбаланс класів; м’яке голосування; статистична валідація; підтримка стратегічних рішень УДК 004.855, 519.86 Ensuring effective decision support in complex distributed organizational systems (especially in national security and defense planning) requires reliable classification methods capable of rapid diagnosis of resource states and risks to strategic interests. The effectiveness of a resource security indicator (RSI) built on machine learning methods critically depends on the stability and reliability of integrated predictions under conditions typical of this domain: significant class imbalance (where missing a negative state is critical), limited data volume, log normal feature distribution with "long tails", and noise components that reduce the stability of individual classifiers. To address these challenges, an adaptive ensemble integration mechanism (RSI) was developed, implementing weighted soft voting of models (NB, SVM, RF, kNN, LR) with unified probability calibration. The central element is a composite dynamic quality metric (KQ), which combines 1 (prioritizing the minority class), , and , adapting their weights based on correlation. Trust coefficients (KDR) are integrated to adjust the influence of models depending on their vulnerability to data properties. Algorithm validation was performed on synthetic data simulating log-normal distribution and lag effects of real-world conditions. A large-scale experiment (250 runs, paired design) confirmed high statistical significance ( 0.001 by Wilcoxon test) of RSI superiority over the best single classifier (Random Forest) across all metrics (Δ, Δ1, Δ). The effect size (Cohen's ≥ 1.41) indicates large practical value. The results demonstrate that adaptive integration ensures stability and reliability of risk diagnosis, critically necessary for security applications.Problems in programming 2025; 4: 88-101 Забезпечення ефективної підтримки ухвалення рішень у складних розподілених організаційних системах (особливо у сфері національної безпеки та оборонного планування) вимагає розробки надійних методів класифікації, здатних оперативно діагностувати стани ресурсів та ризики стратегічним інтересам. Ефективність індикатора ресурсної безпеки (RSI), побудованого на базі методів машинного навчання, критично залежить від стабільності та достовірності інтегрованих прогнозів, особливо в умовах, характерних для предметної області: значний дисбаланс класів (де помилка пропуску негативного стану є критичною), обмежений обсяг даних, логнормальний розподіл ознак із «довгими хвостами», та наявність шумових компонентів, що знижує стабільність окремих класифікаторів. Для вирішення цього розроблено адаптивний механізм ансамблевої інтеграції (RSI), що реалізує зважене м’яке голосування моделей (NB, SVM, RF, kNN, LR) з уніфікованим калібруванням імовірностей. Центральним елементом є композитна динамічна метрика якості (KQ), яка поєднує 1 (пріоритет міноритарного класу), та , адаптуючи їхні ваги на основі кореляції. Інтегровано коефіцієнти довіри (KDR) для корекції впливу моделей залежно від їх вразливості до властивостей даних. Валідацію алгоритму проведено на синтетичних даних, що імітують логнормальний розподіл та лагові ефекти реальних умов. Масштабний експеримент (250 прогонів, парний дизайн) підтвердив високу статистичну значущість ( 0.001 за критерієм Вілкоксона) переваги RSI над найкращим окремим класифікатором (Random Forest) за всіма метриками (Δ, Δ1, Δ). Розмір ефекту (-Коена ≥ 1.41) свідчить про велику практичну цінність. Результати доводять, що адаптивна інтеграція забезпечує стабільність та надійність діагностики ризиків, що критично необхідні для безпекових застосувань.Problems in programming 2025; 4: 88-101 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2026-02-12 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/879 10.15407/pp2025.04.088 PROBLEMS IN PROGRAMMING; No 4 (2025); 88-101 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2025); 88-101 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2025); 88-101 1727-4907 10.15407/pp2025.04 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/879/932 Copyright (c) 2026 PROBLEMS IN PROGRAMMING
spellingShingle	machine-learning classification ensemble training adaptive quality metric class imbalance soft voting statistical validation strategic decision support UDC 004.855 519.86 Ilyina, O.P. Skybyk, S.Ya. Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title	Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title_alt	Адаптивна ансамблева інтеграція рішень для індикатора ресурсної безпеки: методологія та статистична валідація стабільності
title_full	Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title_fullStr	Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title_full_unstemmed	Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title_short	Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
title_sort	adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability
topic	machine-learning classification ensemble training adaptive quality metric class imbalance soft voting statistical validation strategic decision support UDC 004.855 519.86
topic_facet	machine-learning classification ensemble training adaptive quality metric class imbalance soft voting statistical validation strategic decision support UDC 004.855 519.86 класифікація методами машинного навчання ансамблеве навчання адаптивна метрика якості дисбаланс класів м’яке голосування статистична валідація підтримка стратегічних рішень УДК 004.855 519.86
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/879
work_keys_str_mv	AT ilyinaop adaptiveensembledecisionintegrationforindicatorofresourcesecuritymethodologyandstatisticalvalidationofstability AT skybyksya adaptiveensembledecisionintegrationforindicatorofresourcesecuritymethodologyandstatisticalvalidationofstability AT ilyinaop adaptivnaansamblevaíntegracíâríšenʹdlâíndikatoraresursnoíbezpekimetodologíâtastatističnavalídacíâstabílʹností AT skybyksya adaptivnaansamblevaíntegracíâríšenʹdlâíndikatoraresursnoíbezpekimetodologíâtastatističnavalídacíâstabílʹností

Adaptive ensemble decision integration for indicator of resource security: methodology and statistical validation of stability

Репозитарії

Схожі ресурси