Hibrid approach to processing incomplete stream data in distributed real-time systems

The article considers the problem of processing incomplete streaming data in distributed real-time systems, in particular in the context of data mining. It is noted that traditional methods of imputation are ineffective in conditions of limited resources, high requirements for processing speed and d...

Full description

Saved in:

Bibliographic Details
Date:	2025
Main Authors:	Zhyliuk, Y., Pleskach, V.L.
Format:	Article
Language:	Ukrainian
Published:	PROBLEMS IN PROGRAMMING 2025
Subjects:	UDC 004.94
Online Access:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/842
Tags:	Add Tag No Tags, Be the first to tag this record!
Journal Title:	Problems in programming
Download file:

Institution

Problems in programming

_version_	1865434581709094912
author	Zhyliuk, Y. Pleskach, V.L.
author_facet	Zhyliuk, Y. Pleskach, V.L.
author_institution_txt_mv	[ { "author": "Y. Zhyliuk", "institution": "Kiev Taras Shevchenko National University" }, { "author": "V.L. Pleskach", "institution": "Kiev Taras Shevchenko National University" } ]
author_sort	Zhyliuk, Y.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2025-11-03T10:02:00Z
description	The article considers the problem of processing incomplete streaming data in distributed real-time systems, in particular in the context of data mining. It is noted that traditional methods of imputation are ineffective in conditions of limited resources, high requirements for processing speed and dynamic nature of streams. A hybrid approach combining federated learning, contextual imputation and adaptation to conceptual drift is proposed. The method allows local distributed computing nodes to train lightweight imputation models on their own data, followed by centralised aggregation, backpropagation of the global model and its dynamic updating. Experimental verification on a real dataset has shown the advantages of the approach in terms of accuracy (RMSE, MAE) and network load compared to the baseline methods. The obtained results prove the effectiveness of the proposed method in distributed environments with limited computing resources.Prombles in programming 2025; 2: 112-121
doi_str_mv	10.15407/pp2025.02.112
first_indexed	2025-09-17T09:25:20Z
format	Article
fulltext	112 Паралельне програмування і розподілені системи © Я. Жилюк, В. Плескач, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №2 УДК 004.94 https://doi.org/10.15407/pp2025.02.112 Я. Жилюк, В. Плескач ГІБРИДНИЙ ПІДХІД ДО ОБРОБЛЕННЯ НЕПОВНИХ ПОТОКОВИХ ДАНИХ У РОЗПОДІЛЕНИХ СИСТЕМАХ РЕАЛЬНОГО ЧАСУ У статті розглянуто проблему оброблення неповних потокових даних у розподілених інформаційних си- стемах реального часу, зокрема у контексті інтелектуального аналізу даних. Зазначено, що традиційні методи імпутації є малоефективними в умовах обмежених ресурсів, високих вимог до швидкості оброб- лення та динамічного характеру потоків. Запропоновано гібридний підхід, що поєднує федеративне на- вчання, контекстну імпутацію та адаптацію до концептуального дрейфу. Метод дозволяє локальним ро- зподіленим обчислювальним вузлам тренувати полегшені моделі імпутації на власних даних із подаль- шою централізованою агрегацією, зворотним поширенням глобальної моделі та її динамічним оновлен- ням. Експериментальна перевірка на реальному датасеті показала переваги підходу за точністю (RMSE, MAE) та навантаженням на мережу порівняно з базовими методами. Отримані результати засвідчують ефективність запропонованого методу в умовах розподілених середовищ з обмеженими обчислюваль- ними ресурсами. Y. Zhyliuk, V. Pleskach HYBRID APPROACH TO PROCESSING INCOMPLETE STREAM DATA IN DISTRIBUTED REAL-TIME SYSTEMS The article considers the problem of processing incomplete streaming data in distributed real-time systems, in particular in the context of data mining. It is noted that traditional methods of imputation are ineffective in conditions of limited resources, high requirements for processing speed and dynamic nature of streams. A hybrid approach combining federated learning, contextual imputation and adaptation to conceptual drift is proposed. The method allows local distributed computing nodes to train lightweight imputation models on their own data, followed by centralised aggregation, backpropagation of the global model and its dynamic updating. Experimental verification on a real dataset has shown the advantages of the approach in terms of accuracy (RMSE, MAE) and network load compared to the baseline methods. The obtained results prove the effectiveness of the proposed method in distributed environments with limited computing resources. Вступ З поширенням розподілених систем реального часу (РСРЧ) зростає рівень впро- вадження інтелектуального аналізу потоко- вих даних у багатьох доменах, зокрема, Ін- тернеті речей (IoT), сенсорних мережах та фінансових ринках. Потоки даних вирізняються своєю безперервною та необмеженою природою, чутливістю до часу та часто великим обся- гом, що створює проблеми під час керу- вання та оброблення даних [1]. Розподіл джерел даних ще більше ускладнює ці виклики, створюючи склад- нощі з боку синхронізації даних, інтеграції до загальної інфраструктури розподілених інформаційних систем. Значною перешко- дою для ефективного використання інфор- мації, що міститься в цих розподілених по- токах даних, є поширене явище неповних або відсутніх даних. Ця проблема виникає внаслідок різних факторів, таких як неспра- вності обладнання, помилки мережі та не- передбачуваність процесів збору даних. Причини неповноти даних можуть варіюватися від недостатньої повноти збору даних до неузгодженості в методоло- гіях, неточностей у вимірюваннях, проблем із достовірністю чи цілісністю даних або навіть розбіжностей у часових межах збору даних. Крім того, відсутність даних може бути зумовлена різними механізмами, зок- рема, повністю випадковою відсутністю 113 Паралельне програмування і розподілені системи (Missing Completely At Random, MCAR), ви- падковою відсутністю (Missing At Random, MAR), невипадковою відсутністю (Missing Not At Random, MNAR) та структурною ві- дсутністю даних, кожен з яких має свої на- слідки для функціонування системи й про- цесу аналізу потокових даних [2]. Традиційні підходи до імпутації да- них орієнтовані здебільшого на статичні вибірки, виявляються малоефективними в умовах розподілених потокових систем ре- ального часу. Методи імпутації – це прийоми, які використовують для за- повнення відсутніх або пропущених зна- чень у даних на основі контексту, для забез- печення їхньої повноти для подальшого аналізу чи побудови моделей. Їхня неспроможність адаптуватися до динамічної природи потокових даних зу- мовлює проблеми масштабування, а також затримки під час обробки в розподілених обчислювальних середовищах. У зв’язку з цим виникає потреба у розробці нових ме- тодів імпутації, здатних враховувати специ- фіку розподілених потоків даних і забезпе- чувати ефективність інтелектуального ана- лізу в умовах жорстких часових обмежень. Метою цієї статті є розроблення та обґрунтування гібридного підходу до імпу- тації неповних потокових даних у розподі- лених інформаійних системах реального часу, що враховує динамічний характер да- них, обмежені обчислювальні ресурси та потребу в адаптації до концептуального дрейфу для підвищення ефективності інте- лектуального аналізу даних. Зростаюча за- лежність від розподілених систем для збору й аналізу даних підкреслює критичність ви- рішення проблем із відсутніми даними в цих потоках, щоб розкрити їхній повний потенціал для отримання значущої інфор- мації в процесі інтелектуального аналізу. Проблема неповних даних у розподілених потоках для інтелектуального аналізу Наявність неповних даних у розпо- ділених потоках значно перешкоджає ефек- тивності задач інтелектуального аналізу. Ці проблеми проявляються по-різному в роз- пізнаванні образів, виявленні аномалій і прогнозному моделюванні, кожне з яких вимагає ретельного розгляду та індивідуа- льних рішень. Алгоритми, призначені для іденти- фікації кластерів або класифікації даних, значною мірою покладаються на повний набір атрибутів, для точного визначення подібності та відмінності аналізованих да- них. У разі відсутності певної частини ін- формації, вказані алгоритми можуть менш точно ефективно виконувати задачі класи- фікації, що призводить до зниження здатно- сті розпізнавати значущі патерни. Напри- клад, у мережах датчиків, розгорнутих у ге- ографічній зоні, відсутність показань від певних датчиків може призвести до непов- них просторових або часових моделей, що ускладнює розуміння відстежуваного явища. Проблема відсутніх даних може по- силюватися в поєднанні з незбалансова- ними наборами даних, де недостатнє пред- ставлення певних класів об’єктів може до- датково посилюватися неповнотою інфор- мації, що призводить до неправильної інте- рпретації даних моделями машинного нав- чання [3]. Відсутність даних може призвести до виявлення помилкових закономірностей або упущення справжніх закономірностей, що зрештою призведе до некоректного ро- зуміння основних явищ. Виявлення аномалій у даних під час інтелектуального аналізу потоків у РСРЧ значно ускладнюється неповнотою вхідних даних. Аномальні точки даних, які предста- вляють відхилення від норми, можуть бути замасковані чи неправильно інтерпретовані як відсутні значення, або, навпаки, самі ві- дсутні значення можуть бути позначені як аномалії. Ігнорування відсутніх значень є по- ширеною стратегією попереднього оброб- лення даних, що становить ризик згладжу- вання або спотворення справжніх аномалій, тим самим нівелює саму мету виявлення відхилень. У розподілених середовищах, де дані можуть надходити асинхронно та з рі- зним ступенем повноти з різних вузлів мо- ніторингу, завдання виявлення аномалій стає ще більш складним. Наприклад, під час моніторингу мережевого трафіку відсутня 114 Паралельне програмування і розподілені системи інформація про пакети може або приховати шкідливу активність, яка виглядатиме як аномалія, якщо вона завершена, або хибно передбачити вторгнення через неповну пе- редачу [4]. Прогнозування в контексті непов- них потоків даних також створює значні пе- решкоди. Відсутні значення в навчальних даних, які використовуються для побудови прогнозних моделей, можуть призвести до упереджених або неефективних моделей, що зрештою вплине на їхню точність і на- дійність. Коли ці моделі застосовують до потоків в РСРЧ, які також містять відсутні дані, точність отриманих прогнозів може бути суттєво знижена. Проблема ще більше ускладнюється явищем зсуву інформації, яке є поширеним у потокових даних, де ос- новний розподіл даних змінюється з часом [11]. Прогнозні моделі, базовані на нав- чанні на історичних даних із пропущеними значеннями, можуть виявитися недостат- ньо адаптованими до змін у поточному по- тоці даних, що може призвести до поступо- вого зниження точності прогнозів під час розвитку процесу. Наприклад, у закладах охорони здоров’я система моніторингу по- казників життєдіяльності пацієнтів у реаль- ному часі, яка спирається на прогнозні мо- делі, може генерувати неточні прогнози критичних подій, якщо у вхідному потоці даних відсутні важливі показники. Прогно- зні моделі, навчені на неповних даних, мо- жуть вивчити помилкові зв’язки між да- ними або не зафіксувати базову динаміку, що призведе до ненадійного узагальнення та неточних прогнозів на нових, потенційно також неповних даних. Відсутні значення в навчальних даних зменшують обсяг інфор- мації, доступної для навчання, потенційно призводячи до надмірного, недостатнього підбору чи зміщення параметрів моделі. Обмеження традиційних методів доповнення даних для розподілених потоків у реальному часі Традиційні методи доповнення да- них, хоча й ефективні в певних контекстах, часто виявляються не ефективними для об- роблення відсутніх даних у потоках розпо- ділених даних у режимі реального часу, особливо в умовах застосування методів ін- телектуального аналізу, що пояснюється кі- лькома факторами, зокрема, затримкою, об- числювальними обмеженнями та мінливим характером розподілу даних. Одним з основних обмежень є затри- мка. Багато традиційних методів допов- нення, такі як множинна імпутація та скла- дні підходи на основі машинного навчання, є обчислювально ресурсомісткими та мо- жуть призводити до значних затримок в об- робленні. Оброблення потоків у реальному часі за своєю природою вимагає допов- нення даних з низькою затримкою, щоб за- безпечити своєчасний аналіз та ухвалення рішень. Навіть регресійна імпутація, яка може бути відносно точною, може призво- дити до неприйнятної затримки, особливо якщо базові регресійні моделі є складними або потребують частого оновлення. Пот- реба в негайному обробленні потоків даних суперечить притаманній затримці багатьох точних традиційних методів імпутації, зму- шуючи йти на компроміс між точністю та швидкістю. Застосунки реального часу ви- магають швидкого аналізу. Методи імпута- ції, які потребують значного часу оброб- лення на централізованому вузлі, стають вузькими місцями в розподіленому потоко- вому середовищі, затримуючи загальний аналіз і потенційно зменшуючи релевант- ність результатів аналізу. Обчислювальні обмеження також створюють значну проблему. Розподілене оброблення потоків часто відбувається на пристроях з обмеженими ресурсами, таких як датчики Інтернету речей та периферійні сервери. Багато складних методів імпутації вимагають значної обчислювальної потуж- ності та ресурсів пам'яті, які можуть пере- вищувати можливості цих пристроїв. Для ефективного завершення оброблення даних у таких середовищах необхідні легкі та ефе- ктивні методи імпутації. Розгортання обчи- слювально ресурсомістких методів імпута- ції на периферії розподіленої системи обро- бки потоків часто є неможливим через об- межені ресурси, доступні на цих пристроях. Потоки даних часто надходять із численних 115 Паралельне програмування і розподілені системи пристроїв з низьким енергоспоживанням. Алгоритми імпутації мають бути достатньо ефективними, щоб функціонувати ло- кально або на периферії, не споживаючи надмірної енергії або обчислювальної поту- жності, що може вплинути на основну фун- кцію та строк служби пристрою [6]. Традиційні методи доповнення ча- сто припускають, що основні статистичні властивості даних залишаються постій- ними з часом, однак потоки даних є за своєю суттю динамічними, а їхні розподіли змінюються, коли виникають нові законо- мірності, а старі зникають. Моделі імпута- ції, навчені на знімку історичних даних, мо- жуть з часом ставати неточними у процесі розвитку потоку даних, що призводить до низької продуктивності у врахуванні відсу- тніх значень. Для вирішення цієї проблеми потрібні адаптивні методи імпутації, які можуть виявляти та коригуватися до конце- птуального дрейфу даних [11]. Дрейф да- них (data drift) – це зміна статистичних вла- стивостей даних, які використовують у мо- делях машинного навчання, протягом пев- ного часу. Це явище може призвести до зниження ефективності моделі, оскільки алгоритм, навчений на певних даних, може стати менш точним або некоректним, якщо дані, на яких вона працює, змінюють. Дина- мічна природа потоків даних з їхніми кон- цептуальними закономірностями та розпо- ділами, що розвиваються, вимагає методів імпутації, спроможних адаптуватися в ре- жимі реального часу для підтримки точно- сті [7]. Зрештою традиційні методи допов- нення несуть потенціал для внесення систе- матичних помилок у дані. Прості методи, такі як імпутація середнього значення, хоча й легко реалізувати, можуть спотворювати розподіл основних даних і недооцінювати дисперсію, що потенційно може призвести до хибно позитивних висновків у подаль- шому аналізі. Регресійна імпутація, якщо обрана модель регресії неточно відображає справжні зв'язки між змінними, також може призвести до систематичної помилки. Ефе- ктивність будь-якого методу імпутації ті- сно пов'язана з механізмом, через який дані відсутні (MCAR, MAR, MNAR), а ігнору- вання цього механізму може призвести до систематичних помилок імпутації. Систе- матична помилка, внесена під час процесу доповнення, може потім поширюватися та негативно впливати на результати подаль- ших завдань інтелектуального аналізу. Не- правильно застосовані методи доповнення можуть вносити систематичні помилки в дані, що потенційно може призвести до по- милкових висновків та рішень на основі по- дальшого інтелектуального аналізу. Мета імпутації – заповнити відсутні значення правдоподібними оцінками. Однак, якщо метод імпутації робить неправильні припу- щення щодо даних або механізму відсутно- сті, це може спотворити справжні основні зв'язки між даними, які поширюються по всьому ланцюгу інтелектуального аналізу [7]. Визнаючи обмеження традиційних методів імпутації в контексті потоків да- них, дослідники розробили різні методоло- гії, спеціально спрямовані на вирішення проблем, що виникають через неповні дані в цих динамічних середовищах. Ці підходи варіюються від простих методів видалення до більш складних методів імпутації, адап- тованих до унікальних характеристик пото- кових даних. Методи видалення представляють собою простий підхід до обробки відсутніх даних. Спискове видалення передбачає ви- далення всіх спостережень з набору даних, якщо вони містять одне чи декілька відсут- ніх значень. Хоча цей метод простий у реа- лізації, він може призвести до значної втрати цінної інформації, особливо коли рі- вень відсутніх даних високий. Більше того, якщо відсутні дані не є повністю випадко- вими (MCAR), спискове видалення може внести зміщення в подальший аналіз. З ін- шого боку, попарне видалення намагається зменшити втрату інформації, використову- ючи всі доступні дані для кожного конкре- тного аналізу. Це означає, що аналіз може базуватися на різних підмножинах даних, залежно від того, які змінні мають відсутні значення. Хоча попарне видалення зберігає більше даних, ніж спискове, воно також може призвести до проблем, таких як мат- риці інтеркореляції, які не є позитивно ви- 116 Паралельне програмування і розподілені системи значеними, що потенційно перешкоджає подальшому аналізу. Статистична імпутація для потоків передбачає адаптацію традиційних статис- тичних методів, таких як імпутація серед- нього або медіанного значення до контек- сту потоку, часто за допомогою ковзних ві- кон. У ковзному вікні останніх точок даних обчислюють середнє значення або медіану спостережуваних значень для певного ат- рибута та використовують для імпутації будь-яких відсутніх значень у цьому вікні. Цей підхід є обчислювально простим і може бути ефективним, коли механізмом відсутніх даних є MCAR або MAR, а розпо- діл даних у вікні є відносно стабільним [7]. Імпутація потоків на основі машин- ного навчання набула поширеності завдяки своїй здатності фіксувати складніші взає- мозв'язки та адаптуватися до змін у розпо- ділі даних. Алгоритми онлайн-навчання, такі як онлайн-градієнтний спуск та адап- тивна фільтрація, здатні постійно оновлю- вати моделі імпутації в процесі надхо- дження нових даних, що дозволяє їм ефек- тивно адаптуватися до концептуального дрейфу в режимі реального часу. Рекурен- тні нейронні мережі (RNN), зокрема LSTM, були також предметом досліджень завдяки своїй здатності моделювати часові залеж- ності в потокових даних, що забезпечує то- чне імпутування відсутніх значень [8]. У розподілених середовищах методи розподіленого доповнення спрямовано на обролення відсутніх даних без необхідності об'єднання всіх даних у централізоване схо- вище, що може бути нездійсненним через проблеми конфіденційності чи обмеження мережі. Такі методи, як ефективна для ко- мунікації розподілена множинна імпутація, були розроблені для горизонтально розпо- ділених даних, де дані з різних джерел або сайтів містять однакові атрибути, але для різних суб'єктів. Інші спеціалізовані підходи охоплю- ють імпутацію на основі кореляції, яка ви- користовує зв'язки між різними потоками даних або датчиками для визначення відсу- тніх значень в одному потоці на основі спо- стережуваних значень у корельованих по- токах. Адаптивна імпутація на основі нечі- ткої логіки використовує нечітку логіку для управління невизначеністю, пов'язаною з відсутніми значеннями, та адаптації про- цесу імпутації на основі характеристик не- збалансованих потоків даних. Методи до- повнення на основі графів будують графіки подібності екземплярів даних у певному ча- совому вікні, а потім використовують ме- тоди поширення повідомлень на цих графі- ках для використання кореляцій між екзем- плярами та імпутації відсутніх значень [9]. Наявні методології оброблення від- сутніх даних у потоках демонструють чітку еволюцію від простих статистичних мето- дів до більш складних підходів машинного навчання та розподілених обчислень. Спі- льною характеристикою багатьох дослі- джень із зазначеним питань є визнання ча- сової та розподіленої природи даних, а та- кож потреба в методах, які можуть адапту- ватися до змін у розподілі базових даних. Гібридний підхід до доповнення потокових даних у розподілених системах Щоб усунути обмеження наявних методів оброблення неповних даних у роз- поділених потоках для інтелектуального аналізу, пропонується новий підхід, який використовує розподілену природу даних, охоплює контекстну інформацію, адапту- ється до динамічних характеристик і підт- римує обчислювальну ефективність. Цей метод спирається на принципи спільного навчання, контекстно-залежного моделю- вання та адаптації концептуального дрейфу. Запропонований підхід може вико- ристовувати спільне навчання або федера- тивні навчальні фреймворки, де кілька роз- поділених вузлів сприяють побудові глоба- льної моделі імпутації без необхідності об- міну необробленими, потенційно конфіден- ційними даними. Федеративне навчання – це метод ма- шинного навчання, за якого моделі навча- ються на розподілених даних, що зберіга- ються на пристроях або серверах, без необ- хідності централізованого збору чи передачі цих даних. Замість того, щоб передавати всі дані на сервер для навчання, лише параме- 117 Паралельне програмування і розподілені системи три чи оновлення моделі обмінюються між пристроями та сервером, що дозволяє збере- гти конфіденційність даних, оскільки вони не залишають своїх локальних джерел. У цій парадигмі кожен розподілений вузол навча- тиме локальну модель імпутації, використо- вуючи власний потік даних. Потім центра- льний сервер агрегуватиме ці локально на- вчені моделі, потенційно використовуючи такі методи, як федеративне усереднення, для створення більш надійної та узагальне- ної глобальної моделі імпутації. Ця страте- гія не лише вирішує проблеми конфіденцій- ності, зберігаючи необроблені дані децент- ралізованими, а й використовує колективні знання, вбудовані в дані з різних розподіле- них джерел [10]. Крім того, запропонований метод має зосереджуватися на включенні контек- стуальної інформації, щодо потоків даних. Це може охоплювати врахування часових залежностей у кожному потоці, просторо- вих зв'язків між точками даних (якщо дані мають просторовий компонент, наприклад, у сенсорних мережах) та інших відповідних контекстуальних факторів. Приміром, у випадку даних датчиків, процес імпутації може враховувати показники сусідніх дат- чиків у певні проміжки часу чи історичні закономірності того ж датчика у конкрет- них умовах. Враховуючи динамічну природу по- токів даних, запропонований метод також має охоплювати механізми адаптації до ди- намічних характеристик, зокрема, концеп- туального дрейфу. Це може охоплювати постійний моніторинг продуктивності гло- бальної моделі імпутації вхідних потоків даних на кожному розподіленому вузлі. Якщо виявлено значний дрейф у розподілі даних, система може ініціювати перенав- чання або оновлення локальних моделей та подальшу повторну агрегацію на централь- ному сервері. Для підвищення здатності моделі адаптуватися до змінних шаблонів даних можна використовувати такі методи, як рання зупинка на боці клієнта під час ло- кального навчання або адаптивна оп- тимізація з урахуванням дрейфу на боці сервера під час агрегації. Рис. 1. Етапи пропонованого гібридного підходу до оброблення неповних потокових даних Для забезпечення доцільності вико- ристання гібридного підходу у розподіле- них середовищах з обмеженими ресурсами, локальні моделі імпутації, навчені на окре- мих вузлах, мають бути обчислювально ефективними. Такі методи, як дистиляція 118 Паралельне програмування і розподілені системи знань, коли знання складної моделі перено- сяться на меншу, ефективнішу модель, можна використовувати для створення мо- делей імпутації, які здатні ефективно працювати на периферійних пристроях без надмірного споживання ресурсів. Пропонований гібридний підхід до оброблення неповних потокових даних у розподілених системах реального часу складається з чотирьох етапів та може бути поданий як циклічний процес (рис. 1). На першому етапі децентралізова- ного навчання кожен розподілений вузол ініціалізує та навчає спрощену локальну модель імпутації на своєму конкретному потоці даних, зокрема, відповідну контекс- туальну інформацію. На етапі агрегації па- раметрів центральний сервер керує проце- сом федеративного навчання, де він періо- дично агрегує параметри й оновлення з ло- кальних моделей імпутації, навчених на ко- жному вузлі. Іншим етапом є зворотнє по- ширення, на якому отримана глобальна мо- дель імпутації набуває необхідних характе- ристик, використовуючи переваги колекти- вного навчання на всіх вузлах, а потім роз- поділяється у звортньому напрямку на ок- ремі вузли. Кожен вузол використовує гло- бальну модель для імпутування відсутніх значень у свій вхідний потік даних у режимі реального часу. Цю глобальну модель мо- жна потенційно додатково налаштувати, використовуючи локальні дані на кожному вузлі, щоб врахувати будь-які унікальні ло- кальні характеристики. Останнім етапом є процес адаптації, що виконується періоди- чно, під час якого система постійно контро- лює продуктивність процесу імпутації на кожному вузлі на наявність ознак концеп- туального дрейфу. Виявивши значний дрейф, система ініціює новий раунд локаль- ного навчання та глобальної агрегації для оновлення моделей імпутації. Математично можемо визначити підхід таким чином: нехай 𝑁𝑁 = { 𝑁𝑁1, 𝑁𝑁2 … 𝑁𝑁𝑛𝑛 } – множина розподілених ву- злів, 𝐷𝐷𝑡𝑡 𝑖𝑖 = (𝑥𝑥𝑗𝑗 𝑡𝑡, 𝑚𝑚𝑗𝑗 𝑡𝑡) – набір даних на вузлі 𝑁𝑁𝑖𝑖 в момент часу t, де 𝑥𝑥𝑗𝑗 𝑡𝑡 ∈ ℝ – та точка даних у момент часу 𝑚𝑚𝑗𝑗 𝑡𝑡 ∈ {0, 1} – вектор біна- рної маски відсутності, 𝑓𝑓𝑖𝑖 𝑡𝑡 – локальна мо- дель імпутації на вузлі 𝑁𝑁𝑖𝑖 в час t, 𝜃𝜃𝑖𝑖 𝑡𝑡 − па- раметри локальної моделі 𝑓𝑓𝑖𝑖 𝑡𝑡, тоді для кож- ного етапу можемо записати наступні твер- дження. Кожен вузол знаходить вектор від- сустніх даних: 𝑥̂𝑥𝑗𝑗 𝑡𝑡 = 𝑓𝑓𝑖𝑖 𝑡𝑡 (𝑥𝑥𝑗𝑗 𝑡𝑡, 𝑚𝑚𝑗𝑗 𝑡𝑡, 𝑐𝑐𝑗𝑗 𝑡𝑡) де 𝑐𝑐𝑗𝑗 𝑡𝑡 – є контекстною інформацією (наприклад, залежності часових рядів, по- казники сусідніх датчиків, семантичні вбу- довування для табличних даних). Локальна модель навчена мінімізувати втрати від ма- скованої реконструкції: 𝐿𝐿𝑖𝑖 𝑡𝑡 = ∑ \|(1 − 𝑚𝑚𝑗𝑗 𝑡𝑡) ⊙ (𝑥̂𝑥𝑗𝑗 𝑡𝑡 − 𝑥𝑥𝑗𝑗 𝑡𝑡)\|2 𝐷𝐷𝑡𝑡 𝑖𝑖 𝑗𝑗=1 Через задані проміжки часу вузли надсилають оновлення параметрів моделі 𝜃𝜃𝑖𝑖 𝑡𝑡 на центральний сервер: 𝜃𝜃𝑡𝑡+1 = ∑ 𝑤𝑤𝑖𝑖 𝑡𝑡 ∑ 𝑤𝑤𝑘𝑘 𝑡𝑡 𝑘𝑘 𝑛𝑛 𝑖𝑖=1 𝜃𝜃𝑖𝑖 𝑡𝑡 де 𝑤𝑤𝑖𝑖 𝑡𝑡 – ваговий коефіцієнт, наприклад, про- порційний кількості зразків або оцінці про- дуктивності. На етапі адаптації кожен вузол оці- нює достовірність прогнозування або роз- поділ помилок з плином часу. Якщо вияв- ляється дрейф (наприклад, за допомогою методу виявлення змін, такого як Пейдж- Хінклі), це запускає локальне перена- вчання. За методом Пейдж-Хінклі, нехай 𝜀𝜀𝑖𝑖 𝑡𝑡 – середнє ковзне помилки імпутації, тоді при: \|𝜀𝜀𝑖𝑖 𝑡𝑡 − 𝜀𝜀𝑖𝑖 𝑡𝑡−𝑘𝑘\| > δ де k – кількість кроків зворотнього порів- няння, 𝛿𝛿 – межа чутливості помилки, вузол перенавчає свою модель та починає новий раунд федеративних оновлень [12]. Моделювання роботи гібридного підходу Для оцінки нового підходу прове- демо моделювання роботи запропонова- 119 Паралельне програмування і розподілені системи ного алгоритму з використанням засобів мови програмування Golang. Порівняльну характеристику метрик щодо моделювання роботи методів імпутації подано у табл.1. Таблиця 1 Порівняльна характеристика метрик щодо моделювання роботи методів імпутації Метод RMSE MAE Bandwith load Гібридний підхід 6.2 3.8 21.5 мб Mean Impu- tation 12.5 9.1 - Deep Auto- encoder 7.1 5.2 1974 мб Як тестовий набір даних було вико- ристано набір «ElectricityLoadDiagrams20112014» (https://archive.ics.uci.edu/dataset/321/electri cityloaddiagrams20112014), що репрезентує енергоспоживання 370 домогосподарств з оновленням даних один раз на 15 хвилин протягом 2011-2014 років. Цей датасет мо- делює мережу з розподілених датчиків, що надсилають дані на централізований вузол оброблення. І на прикладі сезонності даних – зростання або спадання споживання елек- троенергії залежно від пори року можна протестувати роботу запропонованого ме- тоду з концептуальним дрейфом. Для моделювання дані розподіляють між змодельованими вузлами, водночас 20 значень випадковим чином видаляють за допомогою схем MAR і MNAR. Для порів- няння використаємо методи доповнення се- реднім (Mean Imputation) і метод глибокого автоенкодера (Deep Autoencoder). Оцінку ефективності проведемо за допомогою мет- рики середньоквадратичного відхилення (RMSE) та середнього абсолютного відхи- лення (MAE): 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = √1 𝑁𝑁 ∑ (𝑥𝑥𝑖𝑖 − 𝑥̂𝑥𝑖𝑖)2𝑁𝑁 𝑖𝑖=1 ; 𝑀𝑀𝑀𝑀𝑀𝑀 = 1 𝑁𝑁 ∑ \|𝑥𝑥𝑖𝑖 − 𝑥̂𝑥𝑖𝑖\| 𝑁𝑁 𝑖𝑖=1 Додатково обчислимо загальну кіль- кість даних обміну між вузлами під час ро- боти для визначення навантаження на ме- режу (Bandwidth load). Для навчання моделей використаємо бібліотеку golearn. Модель розподіленої системи складається з 370 вузлів. Відповідно до отриманих результа- тів моделювання (табл. 1) запропоновано гібридний підхід до доповнення даних, що показав кращий результат за метрикою RMSE порівняно з методом Deep Autoen- coder на 13%, водночас зменшивши серед- ньоквадратичне відхилення порівняно з ме- тодом Mean Imputation удвічі. За метрикою MAE приріст точності порівняно з Deep Autoencoder склав 27%. Водночас гібридний підхід значно зменшив навантаження на мережу з 1974 мегабайт даних до 21.5 мегабайт порівняно з методом Deep Autoencoder. Це поясню- ється зниженням розміру пакетів, що пере- даються між вузлами через тип даних. Якщо Deep Autoencoder вимагає передачу сирих даних з вузлів для обчислення відсу- тніх даних, то в пропонованому підході між вузлами передаються лише параметри ло- кальної і агрегованої моделі, що значно впливає на обсяг споживання мережевого трафіку та пропускної здатності мережі. Запропонований метод, хоча й пер- спективний, однак має потенційні обме- ження. Накладні видатки на зв'язок, пов'я- зані з процесом федеративного навчання, потребують ретельного керування, особ- ливо в середовищах з обмеженою пропуск- ною здатністю або високою затримкою. Оброблення значної неоднорідності в розподілі даних між різними вузлами також може створювати проблеми, вимагаючи складних методів агрегації. Складність точ- ного виявлення та адаптації до різних типів концептуального дрейфу в розподіленому середовищі вимагає подальшого до- слідження. Крім того, є компроміс між складністю та точністю моделей імпутації та їхньою обчислювальною ефективністю, який необхідно ретельно збалансувати на основі вимог конкретного застосування. Водночас оцінка ефективності методу ім- 120 Паралельне програмування і розподілені системи путації в контексті конкретних задач інте- лектуального аналізу, що виконуються над доповненими потоками даних, має вирішальне значення для підтвердження його ефективності. Висновки Проблеми, що виникають через не- повні дані в розподілених потоках для інте- лектуального аналізу, є значними та поши- реними в різних прикладних галузях. Тра- диційні методи імпутації даних, часто роз- роблені для статичних наборів даних, нама- гаються ефективно враховувати динаміч- ний характер, обчислювальні обмеження та вимоги до реального часу цих потокових середовищ. Запропонований метод імпутації на основі федеративного навчання визначає перспективний напрямок, дозволяючи роз- поділеним вузлам спільно створювати гло- бальну модель імпутації. Метод вирішує проблеми конфіденційності та використо- вує колективний інтелект. Включення кон- текстної інформації та постійна адаптація до концептуального дрейфу спрямовані на підвищення точності та надійності імпуто- ваних даних з часом. Хоча вищезгаданий метод пропонує кілька потенційних переваг, такі обме- ження, як накладні витрати на зв'язок, обро- бка неоднорідності даних та складність ви- явлення та адаптації дрейфу, потребують ретельного розгляду та врахування в май- бутніх дослідженнях. Зазначимо, що ефективні методи до- повнення даних мають першочергове зна- чення для розкриття повного потенціалу ін- телектуального аналізу потокових даних у РСРЧ. Зі зростанням обсягу та швидкості цих потоків потреба в інноваційних та ада- птивних рішеннях для оброблення непов- них даних ставатиме критичнішою. Запро- понований спільний, контекстно-залежний та адаптивний метод імпутації є позитив- ним кроком до вирішення цих проблем і за- безпечення надійнішого та ефективнішого аналізу великих обсягів даних, що генеру- ються в розподілених середовищах. References 1. Handling missing values in data streams: An overview. Afonso Lima, Elaine P. M. de Sousa, 2024. 2. Distributed Data and Immersive Collaboration. Daniel Reed, Roscoe Giles, Charles E. Catlett, 1997. 3. Missing Data Imputation: A Comprehensive Review. Journal of Computer and Communications. Alwateer, M. , Atlam, E. , El-Raouf, M. , Ghoneim, O. and Gad, I., 2024. 4. A Comprehensive Review of Handling Missing Data: Exploring Special Missing Mechanisms. Youran Zhou, Sunil Aryal, 2024. 5. REAL-TIME SYSTEMS Design Principles for Distributed Embedded Applications. Hermann Kopetz, 1997. 6. Efficient Join Processing Over Incomplete Data Streams (Technical Report). Weilong Ren, Xiang Lian, Kambiz Ghazinour, 2019. 7. Emerging Issues in Data Storytelling CHAPTER 1 \| The Challenges of Working With Incomplete Data Sets [Online] – Availa- ble from: https://www.icom.org/publicati ons/data-storytelling/the-challenges-of-work- ing-with-incomplete-data-sets (Accessed 28.04.2025). 8. Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Impu- tation. GARY KING, JAMES HONAKER, ANNE JOSEPH, KENNETH SCHEVE, 2001. 9. Chukwuemeka Obasi, Victor Oisamoje, Braimoh Ikharo. Security in Distributed Sys- tem: A Review Perspective, 2022. 10. Time-Sensitive Networking [Online] – Availa- ble from: https://campaign.advan- tech.online/en/global/solutions/intelligent- transportation-systems/resources/white-pa- pers/Time-Sensitive-Networking.pdf , (Accessed 28.04.2025). 11. Concept Drift [Online] – Available from: https://www.iguazio.com/glossary/concept- drift/ , (Accessed 28.04.2025). 12. Continuous Inspection Schemes. Biometrika 41. E. S. Page. 1954. Одержано: 01.05.2025 Внутрішня рецензія отримана:17.05.2025 Зовнішня рецензія отримана: 18.05.2025 121 Паралельне програмування і розподілені системи Про авторів : Плескач Валентина, д.е.н., к.т.н., професор https://orcid.org/0000-0003-0552-0972 Жилюк Ярослав, аспірант https://orcid.org/0009-0008-9341-9164 Місце роботи авторів: Київський національний університет імені Т.Г. Шевченка, факультет інформаційних технологій v.pleskach64@gmail.com
id	pp_isofts_kiev_ua-article-842
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-11-04T02:10:32Z
publishDate	2025
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/6d/e1cc78813f56076392e597221e7e3f6d.pdf
spelling	pp_isofts_kiev_ua-article-8422025-11-03T10:02:00Z Hibrid approach to processing incomplete stream data in distributed real-time systems Гібридний підхід до оброблення неповних потокових даних у розподілених системах реального часу Zhyliuk, Y. Pleskach, V.L. UDC 004.94 УДК 004.94 The article considers the problem of processing incomplete streaming data in distributed real-time systems, in particular in the context of data mining. It is noted that traditional methods of imputation are ineffective in conditions of limited resources, high requirements for processing speed and dynamic nature of streams. A hybrid approach combining federated learning, contextual imputation and adaptation to conceptual drift is proposed. The method allows local distributed computing nodes to train lightweight imputation models on their own data, followed by centralised aggregation, backpropagation of the global model and its dynamic updating. Experimental verification on a real dataset has shown the advantages of the approach in terms of accuracy (RMSE, MAE) and network load compared to the baseline methods. The obtained results prove the effectiveness of the proposed method in distributed environments with limited computing resources.Prombles in programming 2025; 2: 112-121 У статті розглянуто проблему оброблення неповних потокових даних у розподілених інформаційних си стемах реального часу, зокрема у контексті інтелектуального аналізу даних. Зазначено, що традиційні методи імпутації є малоефективними в умовах обмежених ресурсів, високих вимог до швидкості оброб лення та динамічного характеру потоків. Запропоновано гібридний підхід, що поєднує федеративне на вчання, контекстну імпутацію та адаптацію до концептуального дрейфу. Метод дозволяє локальним ро зподіленим обчислювальним вузлам тренувати полегшені моделі імпутації на власних даних із подаль шою централізованою агрегацією, зворотним поширенням глобальної моделі та її динамічним оновлен ням. Експериментальна перевірка на реальному датасеті показала переваги підходу за точністю (RMSE, MAE) та навантаженням на мережу порівняно з базовими методами. Отримані результати засвідчують ефективність запропонованого методу в умовах розподілених середовищ з обмеженими обчислюваль ними ресурсами.Prombles in programming 2025; 2: 112-121 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-09-07 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/842 10.15407/pp2025.02.112 PROBLEMS IN PROGRAMMING; No 2 (2025); 112-121 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2025); 112-121 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2025); 112-121 1727-4907 10.15407/pp2025.02 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/842/893 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
spellingShingle	UDC 004.94 Zhyliuk, Y. Pleskach, V.L. Hibrid approach to processing incomplete stream data in distributed real-time systems
title	Hibrid approach to processing incomplete stream data in distributed real-time systems
title_alt	Гібридний підхід до оброблення неповних потокових даних у розподілених системах реального часу
title_full	Hibrid approach to processing incomplete stream data in distributed real-time systems
title_fullStr	Hibrid approach to processing incomplete stream data in distributed real-time systems
title_full_unstemmed	Hibrid approach to processing incomplete stream data in distributed real-time systems
title_short	Hibrid approach to processing incomplete stream data in distributed real-time systems
title_sort	hibrid approach to processing incomplete stream data in distributed real-time systems
topic	UDC 004.94
topic_facet	UDC 004.94 УДК 004.94
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/842
work_keys_str_mv	AT zhyliuky hibridapproachtoprocessingincompletestreamdataindistributedrealtimesystems AT pleskachvl hibridapproachtoprocessingincompletestreamdataindistributedrealtimesystems AT zhyliuky gíbridnijpídhíddoobroblennânepovnihpotokovihdanihurozpodílenihsistemahrealʹnogočasu AT pleskachvl gíbridnijpídhíddoobroblennânepovnihpotokovihdanihurozpodílenihsistemahrealʹnogočasu

Hibrid approach to processing incomplete stream data in distributed real-time systems

Institution

Similar Items