Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу

Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів о...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Системні дослідження та інформаційні технології
Дата:2016
Автор: Кузнєцова, Н.В.
Формат: Стаття
Мова:Українська
Опубліковано: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2016
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/134018
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859862533852102656
author Кузнєцова, Н.В.
author_facet Кузнєцова, Н.В.
citation_txt Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр.
collection DSpace DC
container_title Системні дослідження та інформаційні технології
description Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів. In this paper, the methods for processing missing data are reviewed. The classification of methods depending on input data, data types and formats, and causes of data incompleteness associated with influence of uncertainties of the outside world and modeling object is proposed. The commonalities and differences between existing methods are investigated. The application peculiarities of these methods for filling missing data depending on properties of uncertainties are determined. It is shown that the traditional approach for filling the missing data by average values does not allow obtaining correct forecasts in many cases due to changes in sample’s properties. The usage of data mining methods technologies for dealing with missing data is proposed. An example of using regression methods is shown for filling missing data, in particular, using the forecast evaluation.
first_indexed 2025-12-07T15:46:33Z
format Article
fulltext © Н.В. Кузнєцова, 2016 104 ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 УДК 519.816 DOI: 10.20535/SRIT.2308-8893.2016.2.10 ВИЯВЛЕННЯ ТА ОБРОБЛЕННЯ НЕВИЗНАЧЕНОСТЕЙ У ФОРМІ НЕПОВНИХ ДАНИХ МЕТОДАМИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ Н.В. КУЗНЄЦОВА Розглянуто методи оброблення пропущених даних і запропоновано їх класифі- кацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів. ВСТУП Невизначеності навколишнього світу та об’єктів, що у ньому функціонують, безпосередньо або опосередковано впливають на діяльність людини, потре- бують урахування під час прогнозування розвитку множини супутніх про- цесів. Очікувані результати від застосування тих чи інших засобів можуть бути незадовільними або зовсім непередбачуваними внаслідок дії випадко- вих зовнішніх факторів. Коли ж зовнішні фактори строго визначені або хо- ча б відомі, то невизначеність природи та обмежень може бути врахована і, відповідно, можна запропонувати методи їх оброблення. Так, у задачах сис- темного аналізу [1, 2] у загальному випадку розрізняють три основні види невизначеностей: невизначеність цілей; ситуаційну і природну невизначе- ність (невизначеність знань про можливі ситуації у процесі функціонування складних систем); інформаційну невизначеність (невизначеність поведінки навколишнього середовища та дій реального партнера чи супротивника). Розв’язування задачі розкриття концептуальної невизначеності щодо системного аналізу потребує розкриття множини різнорідних невизначенос- тей на підставі єдиних принципів, прийомів і критеріїв [3]. На практиці розв’язуються задачі дослідження невизначеності цілей розроблення і перс- пектив конкурентоспроможності виробу, аналізуються невизначеність ди- наміки ринків попиту та пропозиції і невизначеність активної протидії кон- курентів, невизначеність динаміки розроблення, виробництва, збуту та експлуатації певного виробу тощо. Одним з проявів інформаційної невизначеності є невизначеність, зумов- лена пропусками даних. Об’єктивні характеристики певних процесів можуть бути змінені або навіть спотворені внаслідок втрати частини даних під час Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 105 їх отримання, передавання чи зберігання. Постає потреба у відновленні та- ких пропущених даних і, що важливо, у підбиранні тих алгоритмів, за якими вони будуть відновлюватись, оскільки неправильне або недостатньо досто- вірне відновлення може завдати більше шкоди, ніж самі пропуски даних. Роботу присвячено аналізу інформаційної невизначеності у формі про- пусків статистичних даних та методів заповнення наявних пропусків з ме- тою підвищення адекватності математичних моделей та оцінок прогнозів, які обчислюються за цими моделями. ПОСТАНОВКА ЗАВДАННЯ Мета дослідження — аналіз та класифікація методів оброблення пропусків даних для узгодження даних різних типів та форматів, зумовлених проявом впливу невизначеностей навколишнього світу й об’єкта моделювання; роз- роблення рекомендацій для розроблення коректного підходу до оброблення неповних даних, які дадуть змогу підвищити прогнозну якість моделей, по- будованих на відновлених за цією методикою пропущених даних. Зокрема, це завдання є важливим для оброблення вибірок невеликих розмірів, коли некоректне оцінювання пропущених змінних є вкрай небажаним і може спричинити похибки подальшого прогнозування поведінки системи і побу- дови прогнозних моделей. У роботі будуть проаналізовані спільні ознаки та відмінності існуючих методів та особливості алгоритмічних засобів оброб- лення пропущених значень. НЕПОВНОТА ДАНИХ ЯК РЕАЛІЗАЦІЯ НЕВИЗНАЧЕНОСТІ Неповнота даних зумовлюється такими причинами: пропусками, неуважніс- тю під час уведення інформації; браком інформації з об’єктивних причин; незнанням; некомпетентними відповідями на поставлені запитання, зокрема, через зумисне приховування інформації [4]. Залежно від причини пропуски можуть істотно впливати на результати та спричиняти значні збитки органі- зації, яка вчасно не отримала необхідну інформацію. Невизначеності насправді трапляються у повсякденному житті. Потре- ба у моделюванні та прогнозуванні за неповними даними виникає у різних сферах: фінансах, транспорті, виробництві, сільському господарстві, логіс- тиці, фізиці, соціології тощо. Поглиблене вивчення процесів за допомогою математичних моделей дозволяє дослідити кількісні зв’язки між вхідними та вихідними змінними, а також фактори, які впливають на вихідні змінні при варіації вхідних у ши- рокому діапазоні, і розглянути поведінку процесів на будь-яких часових ін- тервалах у прийнятному масштабі часу. Математична модель, що будується для цієї мети, може бути надскладною і трудомісткою, оскільки вона має враховувати тонкощі взаємодії кількісних і якісних змінних із можливим урахуванням реального часу, тобто з використанням імітаційного моделю- вання. За допомогою математичних моделей можна виявити ефекти і явища, які недоступні безпосереднім спостереженням за допомогою приладів. Крім цього, під час проектування нових систем у різних галузях можна швидко змінювати варіанти реалізації системи завдяки можливості її швидкого Н.В. Кузнєцова ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 106 дослідження на моделі, виявити вплив початкових умов та обмежень на ключові змінні. Прогнозування значень змінних виконується, як правило, на основі на- багато простіших моделей ніж поглиблене вивчення процесів. Таке спро- щення моделі також може внести додаткову інформаційну невизначеність. Поняття структури моделі охоплює такі параметри: порядок, вимірність моделі, наявність нелінійностей і їх характер, час запізнення (для часових рядів), тип збурень тощо. Вибір структури моделі, що адекватна процесу, є непростою задачею, що розв’язується в інтерактивному режимі. Спочатку структуру моделі оці- нюють наближено на підставі дослідження закономірностей перебігу проце- су, аналізу кореляційних функцій, візуального аналізу даних. При цьому ви- бирають декілька найбільш імовірних структур (кандидатів). Потім обчислюють оцінки параметрів моделей-кандидатів і вибирають оптимальну з них, використовуючи відповідні статистичні характеристики якості мо- делей. Якщо жодна з моделей-кандидатів не може вважатися адекватною для конкретного застосування, то необхідно досліджувати на інформативність експериментальні дані, які можуть бути недостатньо інформативними для оцінювання моделі. У такому випадку потрібно буде повторно чи додатково збирати експериментальні дані (якщо це взагалі можливо) і коригувати структуру моделі. Наприклад, розглянемо задачу визначення місця розташування транс- портних засобів для контролю комунального транспорту системою EasyWay у разі неповних даних від GPS і маршруту складної форми. Інформація про місце розташування необхідна для прогнозування часу прибуття транспорту на зупинку. Щоб його розрахувати, можна використати найпростішу струк- туру моделі, що враховує відстань S і швидкість руху транспорту v : v St = . Така модель не враховує нерівномірність руху транспорту, наявність пере- шкод на шляху, особливості дорожнього покриття, погодні умови тощо. І навіть уточнена модель не може врахувати всі фактори, зокрема кількість пасажирів та час їх посадки на кожній зупинці. Прогнозований час можна показувати на сайтах, мобільних додатках та інформаційних табло на зупин- ках, що є важливим і зручним для пасажирів, зменшує час очікування і ро- бить рух транспорту більш передбачуваним. У випадку, коли транспорт пе- ребуває там, де сигнал GPS слабкий або його немає, постає питання прогнозування неповних даних (пропущених даних сигналу GPS) для уточ- нення місцеперебування та прогнозування орієнтовного часу. Тут може бути і невизначеність стану природи, зумовлена ситуаційною невизначеністю — можливим випаданням опадів, створенням складностей проїзду, аварійних ситуацій тощо. Для прогнозування неповних даних можуть застосовуватись різні методи і підходи залежно від причин появи таких невизначеностей, установлених існуючих і відомих закономірностей. Поняття «розширена невизначеність» виникає під час оброблення ре- зультатів вимірювання у фізиці, метрології, географії, військовій справі. Ро- зширена невизначеність (expanded uncertainty) — це величина, що визначає довірчий інтервал для результату вимірювання, у межах якого ймовірно міс- Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 107 титься більша частина розподілу значень, які обґрунтовано можуть бути приписані вимірюваній величині. Таким чином, розширена невизначеність визначає межі інтервалу неви- значеності для результату вимірювання y . Права межа цього інтервалу: Uy + , а ліва: .Uy − Величина розширеної невизначеності, а отже, і ширина цього інтервалу, залежать від обраного під час розрахунку рівня довіри p , який менший або дорівнює одиниці [5]. Значення рівня довіри повинно бути досить великим, щоб була висока впевненість у тому, що інтервал невизначеності містить істинне значення. Водночас із підвищенням p ширина інтервалу збільшується, що ускладнює його практичне використання для прийняття рішень за результатами вимі- рювань. Тому доводиться вибирати у певному розумінні «компромісне» значення рівня довіри. У більшості випадків значення p припускають рів- ним 0,95. Це означає, що інтервал невизначеності включатиме 95% усіх зна- чень, які можуть бути результатом вимірювання, або з імовірністю 0,95 по- криватиме істинне значення вимірюваної фізичної величини. Разом з тим під час особливо відповідальних вимірювань, які мають великий вплив на життя чи здоров'я людей, значення рівня довіри може досягати 0,99 і більше. Інформаційна невизначеність часто виникає у задачах оброблення ста- тистичних даних і пов’язана з недоотриманням, запізненням або втратою частини інформації з будь-яких причин. Це притаманно фінансовій, еконо- мічній і соціологічній галузях. Аналіз таких причин може дати додаткове розуміння суті пропусків і допомогти у виборі моделі їх заповнення. ІСНУЮЧІ МЕТОДИ ЗАПОВНЕННЯ ПРОПУСКІВ ДАНИХ Існує багато засобів заповнення пропусків уже після етапу збирання даних: заповнення середнім значенням, пропорційне розміщення спостережень з пропущеними даними за вже існуючими градаціями шкали, розрахунок можливого значення за допомогою регресійної моделі тощо. Зрозуміло, що використання будь-яких засобів заповнення пропусків може змістити структуру вибірки, яка буде отримана на основі існуючих неповних даних, у бік структури неповних даних, що може спотворити реаль- ний розподіл спостережень у вибірці і зменшити фактичну значущість отриманих результатів. Обираючи конкретний алгоритм для заповнення пропусків, варто вра- ховувати, що можливість його застосування істотно залежить від методу аналізу даних, який передбачається використати надалі. Сьогодні існують алгоритми, які дають змогу обробляти пропуски не- обхідною інформацією, такі як метод Hot Deck, метод Барлета, алгоритми Resampling, Zet, Zetbraid, EM-оцінювання, регресійне моделювання та про- гнозування значень [6–9]. Особливістю цих алгоритмів є заповнення пропус- ків значеннями, які підбираються самим алгоритмом. Метод Hot Deck. Цей метод використовує підстановку замість пропу- щеного значення найближчого інформаційного об’єкта. Пропущені дані можна підбирати як з усієї сукупності повних спостережень, так і з деякої Н.В. Кузнєцова ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 108 підгрупи — кластера, до якого належить цільовий об’єкт. Для заповнення пропуску за обраною характеристикою цільового об’єкта використовується значення цієї характеристики в об’єкта, найближчого до цільового. Тип функції відстані для визначення спостереження, найближчого до цільового (з пропуском), вибирається виходячи з типу досліджуваних даних, уявлень про характер зв’язку між змінними і завдання конкретного дослідження. Метод Барлета. Цей метод складається з двох етапів: підстановки за- мість пропуску початкових згенерованих значень на першому етапі; прове- дення на другому етапі коваріаційного аналізу цільової змінної і побудова дихотомічного індикатора повноти спостережень за цільовою змінною. Ін- дикатор повноти спостережень завжди дорівнює 0, за винятком одного єди- ного випадку: і-е значення — це цільова змінна і воно є пропущеним, тоді індикатор набуває значення 1 [8]. Алгоритм ZET. Суть цього алгоритму полягає у підборі кожного зна- чення для заповнення пропуску не за всією сукупністю спостережень, а з деякої її частини, яка називається компонентною матрицею, що склада- ється з компонентних рядків і стовпців. Компонентність деякого рядка являє собою величину, обернено пропорційну декартовій відстані за цільовим ряд- ком (неповного спостереження з пропуском) у просторі, осями якого задані змінні — характеристики об’єктів [7, 9]. За даними компонентної матриці надалі будується функціональна за- лежність прогнозного значення від відповідного значення у компонентній матриці, на основі якої потім прогнозується значення пропуску. Алгоритм ZetBraid. Основна відмінність цього методу від попередньо- го полягає у тому, що в цьому алгоритмі закладено механізм об’єктивного відбору розмірності компетентної матриці. При роботі алгоритму відбуваєть- ся послідовний почерговий відбір компетентних рядків та стовпців і щоразу формується нова компетентна матриця. Потім за заданим критерієм визна- чається її ефективність при прогнозуванні пропусків [7]. Resampling. Це ітеративний метод, який передбачає зміну рядків з пропущеними даними випадково вибраними рядками з матриці повних спостережень, а далі будується регресійне рівняння для прогнозування про- пущеного значення. Процедурe регресійного моделювання повторюють декілька разів, після чого значення отриманих регресійних коефіцієнтів усе- реднюють і отримують кінцеве значення, яке дає максимальну точність прогнозу пропущеного значення [8]. Множиннна вставка. Метод розроблений у 1970-х рр. ХХ ст. Дональ- дом Рубіним [10]. Технологія множинної вставки пропусків передбачає під- становку одразу кількох значень замість кожного пропущеного. Значна роз- біжність цих значень означає невизначеність моделі і не дозволяє зробити висновки про їх типи і причини появи. Дані, що містять набір заповнених пропусків, зберігаються в окремих масивах, кожен з яких потім аналізується як такий, що містить повні спостереження без пропусків. Наразі цей метод вважається доволі перспективним і реалізований у бі- льшості комерційних програмних додатків. ЕМ-оцінювання [11]. Метод максимізації математичного сподівання (ЕМ — expectation maximization) або ЕМ-оцінювання надає можливість не лише відтворювати пропущені значення з використанням двоетапного іте- Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 109 ративного алгоритму, але й оцінювати середнє значення, коваріаційні та ко- реляційні матриці для кількісних змінних. ЕМ-алгоритм у загальному випад- ку являє собою ітераційну процедуру, призначену для розв’язання задач оп- тимізації деякого функціонала через аналітичний пошук екстремуму функції. На Е-кроці обчислюється очікуване значення (expectation) вектора при- хованих змінних G за поточним наближенням вектора параметрів Θ . На М-кроці розв’язується задача максимізації правдоподібності і обчислюється наступне наближення вектора Θ за поточними значеннями векторів G і Θ . Ідею реалізації ЕМ-алгоритму можна подати так: – обчислити початкове наближення вектора параметрів Θ ; – повторювати: )(Θ= ESTEPG , ),( GGMSTEP=Θ ; – поки G і Θ не стабілізуються (настає збіжність до усталених зна- чень). У класичному варіанті алгоритму формально задачу максимізації очі- кування можна виразити таким чином: );(maxarg1 mm QQ ΘΘ= Θ + . Тут Θ означає розраховане очікуване умовне значення пропущеної характеристики для певного спостереження. Регресійне моделювання [12]. Пропущені значення за допомогою ре- гресійних моделей відновлюються за два етапи. 1. На першому етапі за сукупністю повних спостережень будується ре- гресійна модель і оцінюються коефіцієнти рівняння, де залежною змінною є цільова змінна — пропущене значення, яке необхідно відновити. 2. За отриманим на попередньому етапі рівнянням, у яке підставляють- ся відомі значення незалежних змінних (предикторів), для кожного цільово- го об’єкта розраховується пропущене значення за залежною цільовою змін- ною. У випадку інтервальних та абсолютних змінних розраховується конкретне значення, а для порядкових і номінальних значень з деякою ймо- вірністю передбачається категорія, до якої має бути віднесений об’єкт. Вибір типу регресійної моделі для розрахунку пропущених значень змінної визначається кількістю вимірювань цільової залежної змінної (зна- чення якої необхідно відновити) і незалежних змінних, за якими передбача- тимуться пропущені значення. У праці [13] розглядаються можливості оцінювання пропусків даних за допомогою байєсівського компонентного аналізу та локального методу найменших квадратів і порівнюються можливості їх сукупного використан- ня. Також показано, що спільне використання обох методів дає змогу отри- мати вищу якість прогнозів пропущених значень, але при цьому істотно збі- льшуються обчислювальні витрати. Для оцінювання і відновлення пропущених значень надзвичайно важ- ливою є оцінка втрат інформації через неповноту спостережень і якість оці- нок пропущених значень залежно від типу цільової змінної та частки пропус- ків початкових даних. Н.В. Кузнєцова ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 110 Зрозуміло, що коректність і ефективність роботи цих алгоритмів визна- чаються підбиранням найбільш подібного значення до пропуску, а для цього необхідно враховувати причину пропуску даних. Сучасні комп’ютерні ана- літичні системи, такі як SPSS, GeNIe, SAS Enterprise Miner, грунтуються на використанні логічних дерев для умовного обчислення значень та їх заміни на середні величини або медіани. Зокрема, для розроблення скорингових карт рекомендуються методи підстановки [14], що враховують інші харак- теристики даних. Однак присвоєння найбільш часто вживаних значень або середніх значень спричинить так звані «сплески», що спотворить реальну ситуацію з розподілом груп у вибірках і призведе до втрати надзвичайно важливої інформації. Тому пропонується виносити пропущені дані в окрему групу, замінюючи пропущені значення певним спеціальним значенням поза нормальними значеннями і включати їх в аналіз як окрему категорію. Багато аналітиків мають переконання, що пропущені значення не по- трібно взагалі включати в аналіз і вилучити їх цілком з начальної вибірки даних. Такий метод корисний, якщо аналітики не схильні накладати додат- кові ризики того, що пропущені значення будуть відновлені некоректно і таким чином можуть збільшити ризик віднесення таких випадків до нор- мальної категорії. Однак цей метод нераціональний у випадку, коли обсяг навчальної вибірки надзвичайно малий і видалення таких даних є критич- ним, або коли необхідно побудувати скорингові моделі, що відображають реальні, а не «ідеальні» дані і містять пропущені значення. Такі дані необ- хідно додатково обробляти до прийняття рішення. Загальну класифікацію методів заповнення пропусків, що використо- вуються в різних інструментальних засобах інтелектуального аналізу даних, показано на рисунку. Для детального аналізу обрано середовище SAS Enter- prise Miner, у якому реалізовано різні методи заміни пропущених значень, а також передбачено відсутність обов’язкової заміни. У SAS Enterprise Miner окремо передбачено можливість вставки для вхідних вузлів та цільових змінних, а також є можливість такого заповнення не на всій вибірці даних, а спочатку на навчальній вибірці, і у випадку отримання задовільних ре- зультатів — поширити таку заміну і на перевірну вибірку. Розглянемо дета- льніше різні методи заповнення пропусків залежно від типу змінних (кате- горіальні або неперервні). Категоріальні змінні Якщо як пропущені спостереження обрати дані за категоріальною змінною, то можливі такі методи заміщення: Count — заміна пропущеного значення для категоріальної змінної най- частішим значенням спостереження. Default Constant Value — заміна введеним вручну значенням для кате- горіальної змінної. Distribution — заміна значенням, розрахованим за ймовірнісним розпо- ділом для наявних спостережень. Такий спосіб не спотворює розподіл вибірки. Tree — заміна пропуску оціненим у результаті цільового аналізу зна- ченням. Вхідні і відбраковані змінні використовуються як предиктори. Змінні, які важливі для моделі як цільові, не можуть бути використані для Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 111 заповнення. Оскільки відновлені значення для кожної змінної з пропусками ґрунтуються на інших вхідних змінних, то такий метод має бути точнішим. Tree surrogate — використовується попередній метод дерева щеплення з наступною модифікацією правил щеплення. Правило заміни є зворотним до головного правила щеплення дерева. Коли правило щеплення діє на змінну, яка має пропуски, застосовується правило заміни. Якщо пропущені значення запобігають головному правилу виконати щеплення і всім прави- лам заміни спостережень, то головне правило призначає спостереження у гілці, що приведе до отримання відсутніх значень. Неперервні (статистичні) змінні Mean — заміна пропущених інтервальних значень середнім арифметичним. Це незміщена оцінка середнього популяції. Mean є найпоширенішою стати- Методи відновлення пропусків Константа Статистичні Комбіновані Mean Median Count Regression Midrange Turkey’s Biweight Huber Andrew’s wave За замовчуванням Обраним значенням Інші Імовірнісні Tree Tree Surrogate Distribution MLE Інші Класифікація методів заповнення пропущених даних Н.В. Кузнєцова ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 112 стикою для заміни пропущених значень, якщо значення змінної мають при- близно симетричний розподіл (наприклад, дзвоноподібний нормальний роз- поділ). Цей метод використовують за замовчуванням для неперервних змін- них з пропущеними значеннями. Median – використовується певне середнє, установлене для заміни про- пущеного інтервального значенння 50-го процентилю, яке є середнім зна- ченням або середнім арифметичним двох середніх значень для множини чи- сел, розміщених у порядку зростання. Середнє і медіана однакові для симетричного розподілу. Медіана менш чутлива до екстремальних значень, ніж середнє або півсума крайніх значень. Таким чином, медіана підходить краще для заміни відсутніх значень для змінних, які мають спотворені роз- поділи. Медіана також використовується для порядкових даних. Midrange — використовується параметр півсуми крайніх значень (серед- ній діапазон) для заміни відсутніх неперервних значень змінної значенням суми максимального значення для змінної плюс мінімального значення для змінної, поділеної на два. Midrange є швидше відображенням тенденції; його легко розрахувати. Методи Distribution, Tree, Tree Surrogate реалізуються аналогічно тому, як це виконується для категоріальних змінних. Mid-minimum Spacing — використовується середній мінімальний інтер- вал, застосовується числова константа для визначення пропорції даних, що включаються в інтервал. Huber — метод, у якому для заміни пропущеного значення використо- вується оцінка, описана нижче [15]. У разі, коли лінійна регресійна функція втрат, визначена як 2)( ∑= i irrl , швидко зростає зі збільшенням значень залишків, тоді альтернативним є використанням абсолютного значення функ- ції втрат замість квадрата залишків, тобто ∑= i irrl ||)( . Елегантним компромісом між цими двома функціями втрат стала за- пропонована Пітером Хубером у 1964 р. така функція [15]: )()( ∑ρ= i irrl , де ⎩ ⎨ ⎧ >− ≤=ρ .||if,)||2( ,||if,)( 2 crcrc crrr ii iii Хубер вважав, що правильним вибором є значення ,345,1=c і показав, що асимптотично це 95%-й інтервал. Цей метод так само ефективний як і метод найменших квадратів, якщо реальний розподіл близький до норма- льного (і набагато ефективніший у багатьох інших випадках). Tukey’s Biweight — метод, у якому оцінка для функції втрат визнача- ється за критерієм Tukey’s Biweight (відомим також як Tukey’s bisquare) [15, 16]: ⎪ ⎩ ⎪ ⎨ ⎧ > ≤ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛−=ρ .||if,0 ,||if,1)( 2 ' cr cr c rrr i i i i i Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 113 Для цієї функції втрат зазвичай використовується значення 685,4=c ; воно забезпечує асимптотичну ефективність на рівні 95%, так само, як і лі- нійна регресія для нормального розподілу. Andrew’s wave – метод, згідно з яким оцінка визначається так: ⎪⎩ ⎪ ⎨ ⎧ > ≤⎟ ⎠ ⎞ ⎜ ⎝ ⎛ π π= .||if,0 ,||if,sin)( cr cr c r r c rw i i i ii За замовчуванням π= 34,1c . Default Constant — пропуск замінюється визначеним уведеним симво- лом. ПРИКЛАД ЗАПОВНЕННЯ ПРОПУСКІВ ОЦІНКАМИ ПРОГНОЗІВ Для заповнення невеликої кількості пропусків можна скористатись моделлю авторегресії першого порядку АР: )()1()( 10 kkyaaky ε+−+= , 0)]([ =ε kE . (1) Збільшимо незалежну змінну, час на одиницю і запишемо рівняння знову: )1()()1( 10 +ε++=+ kkyaaky . Якщо коефіцієнти 10 , aa відомі, то можна знайти умовне математичне сподівання на основі відомої інформації до моменту k включно: =−εε−+=+ ]...),1(),(,...),1(),(|)1([)]1([ kkkykykyEkyE kk )()]([ 1010 kyaakyEaa k +=+= , оскільки )(ky у момент k є відомою константою. За аналогією запишемо рівняння (1) для моменту 2+k )2()1()2( 10 +ε+++=+ kkyaaky і знайдемо умовне математичне сподівання: =++=++=+ )]([)]1([)]2([ 101010 kyaaEaakyEaakyE kkk )(2 1100 kyaaaa ++= . Для наступного моменту часу маємо: )()]3([ 3 1 2 10100 kyaaaaaakyEk +++=+ . Таким чином, для загального випадку прогнозування на s кроків можна записати: ∑∑ − = − = +=+⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ =+=+ 1 0 1101 1 0 10 )()()]([)(ˆ S i SiS S i i S kyaaakyaaaskyEsky . (2) Н.В. Кузнєцова ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 114 Рівняння (2) називають функцією прогнозування на довільну кількість кроків s . Прогноз являє собою збіжний процес, якщо 11 <a , тобто 1 0 1 )]([lim a askyEks − =+ ∞→ , 11 <a , (3) де 1a — знаменник геометричної прогресії. Вираз (3) свідчить про те, що для будь-якого стаціонарного процесу АР чи АРКС оцінка умовного прогнозу асимптотично при ∞→s збігається до безумовного середнього. Виконаний порівняльний аналіз різних методів заповнення пропуще- них значень показав, що поняття «найкращого» методу для заміни пропу- щених є некоректним. Вибір методу може істотно залежати не лише від конкретної предметної галузі, у якій ці пропущені значення трапляються, а й від припущень аналітика щодо типу розподілу реальних (пропущених) даних. Найчастіше аналітики застосовують метод середнього для заміни пропущених значень, а це означає, що робиться припущення про належність даних до нормального розподілу (а це швидше виняток з правил). Заміна пропущених значень середнім, медіаною або іншою оцінкою є звичайно більш простим способом, однак це може істотно спотворити істинний роз- поділ вибірки. Тобто такі заміни можливі лише у випадку мінімального впливу на характер вибірки. ВИСНОВКИ У реальних задачах оброблення статистичних даних найбільшою складніс- тю залишається необхідність класифікації невизначеностей різних типів і зумовлених ними пропусків, утрат і неточних значень. Для кожної предме- тної галузі, виходячи з особливостей даних, з якими доводиться працювати, час від часу фіксуються одноманітні помилки, похибки, пропуски, а тому через певний час можна вибрати ефективні алгоритми опрацювання таких невизначеностей та пов’язаних з ними пропущених значень, характерних саме для цієї галузі. Обрані методи можуть бути використані для оброблен- ня даних в інших галузях і навіть бути високоефективними у задачах іншої специфіки. Основною метою роботи аналітиків є саме виявлення і напрацю- вання таких рекомендацій для конкретних сфер застосування, які можуть бути типовими для розв’язання різноманітних фінансово-економічних завдань, задач логістики, прогнозування продажів, маркетингових дослі- джень тощо. Поетапне розв’язання задачі заповнення пропущених даних передбачає аналіз суті процесу, що описується певною послідовністю даних, підбір структури моделі заповнення пропусків, вибір адекватних методів інтелек- туального аналізу даних для заповнення пропущених даних, реалізація цих методів сучасними інструментальними засобами. Перспективою для подальших досліджень автори вважають виконання на початковому етапі ґрунтовного аналізу причин появи пропусків та екстре- мальних значень. Доцільно також застосовувати комбінації методів різних типів — імовірнісних, статистичних та інтелектуального аналізу даних з метою збереження особливостей вхідної вибірки. Виявлення та оброблення невизначеностей у формі неповних даних методами … Системні дослідження та інформаційні технології, 2016, № 2 115 ЛІТЕРАТУРА 1. Згуровский М.З. Системный анализ: Проблемы. Методология. Приложения. / М.З. Згуровский, Н.Д. Панкратова; НАН Украины. Ин-т приклад. систем. анализа. — К.: Наук. думка, 2005. — 743 c. 2. Згуровський М.З. Основи системного аналізу: підруч. для студ. вищ. навч. закл. / М.З. Згуровський, Н.Д. Панкратова. — К.: Вид. група ВНУ, 2007. — 543 c. 3. Панкратова Н.Д. Рациональный компромисс в системной задаче концептуаль- ной неопределенности / Н.Д. Панкратова // Кибернетика и системный ана- лиз. — 2002. — № 4. — С. 162–180. 4. Кузнєцова Н.В. Практичні підходи до визначення та урахування невизначенос- тей, що формують фінансові ризики / Н.В. Кузнєцова // Тр. Одес. политехн. ун-та. — Одесса, 2014. — Вып. 2(44). — С. 160–170. 5. Вікіпедія [Електронний ресурс]. — Режим доступу: https://uk.wikipedia.org. 6. Зангиева И.К. Решение проблемы неповноты данных массовых опросов / Рос- сийская социология завтрашнего дня: сб. студ. работ / И.К. Зангиева. — М.: Изд. дом ГУ-ВШЭ, 2008. — Вып. 3. — С. 84–95. 7. Снитюк В.Е. Эволюционный метод восстановления пропусков в данных / В.Е. Снитюк // Интеллектуальный анализ информации. — К., 2006. — С. 262–271. 8. Злоба Е. Статистические методы восстановления пропущенных данных / Е. Злоба, И. Яцкив // Computer Modelling & New Technologies. — 2002. — 6, № 1. — P. 51–61. 9. Загоруйко Н.Г. Методы распознавания и их применение / Н.Г. Загоруйко. — М.: Сов. радио, 1972. — 216 с. 10. Rubin D.B. An Overview of Multiple Imputation / D.B. Rubin // Proc. Survey Re- search Methods Section of the American Statistical Association. — 1988. — P. 79–84. 11. Dempster A.P. Likelihood from Incomplete Data via the EM Algorithm / A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical So- ciety. Series B (Methodological). — 1977. — 39, N 1. — P. 1–38. 12. Бідюк П.І. Моделі і методи прикладної статистики / П.І. Бідюк, Л.О. Коршевнюк, Н.В. Кузнєцова . — К.: НУТУ «КПІ», 2014. — 722 с. 13. Shi F. Missing Value Estimation for Microarray Data by Bayesian Principal Component Analysis and Iterative Local Least Squares / F. Shi, D. Zhang, J. Chen, H.R. Karimi // Mathematical Problems in Engineering. Article ID 162938. — 2013. — P. 17. 14. Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring / N. Siddiqi. — 2005. — 196 р. 15. Owen M. Tukey's Biweight Correlation and the Breakdown [Електронний ресурс] / M. Owen. — 2005. — Режим доступу: http://pages.pomona.edu/~jsh04747/ Student%20Theses/MaryOwen10.pdf 16. Breheny P. Robust regression [Електронний ресурс] / P. Breheny. — Режим до- ступу: http://web.as.uky.edu/statistics/users/pbreheny/764-F11/notes/12-1.pdf. Надійшла 18.06.2015
id nasplib_isofts_kiev_ua-123456789-134018
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Ukrainian
last_indexed 2025-12-07T15:46:33Z
publishDate 2016
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Кузнєцова, Н.В.
2018-06-10T19:18:13Z
2018-06-10T19:18:13Z
2016
Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр.
1681–6048
DOI: doi.org/10.20535/SRIT.2308-8893.2016.2.10
https://nasplib.isofts.kiev.ua/handle/123456789/134018
519.816
Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів.
In this paper, the methods for processing missing data are reviewed. The classification of methods depending on input data, data types and formats, and causes of data incompleteness associated with influence of uncertainties of the outside world and modeling object is proposed. The commonalities and differences between existing methods are investigated. The application peculiarities of these methods for filling missing data depending on properties of uncertainties are determined. It is shown that the traditional approach for filling the missing data by average values does not allow obtaining correct forecasts in many cases due to changes in sample’s properties. The usage of data mining methods technologies for dealing with missing data is proposed. An example of using regression methods is shown for filling missing data, in particular, using the forecast evaluation.
uk
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Системні дослідження та інформаційні технології
Методи аналізу та управління системами в умовах ризику і невизначеності
Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
Identification and dealing with uncertainties in the form of incomplete data by data mining methods
Article
published earlier
spellingShingle Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
Кузнєцова, Н.В.
Методи аналізу та управління системами в умовах ризику і невизначеності
title Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
title_alt Identification and dealing with uncertainties in the form of incomplete data by data mining methods
title_full Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
title_fullStr Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
title_full_unstemmed Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
title_short Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
title_sort виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
topic Методи аналізу та управління системами в умовах ризику і невизначеності
topic_facet Методи аналізу та управління системами в умовах ризику і невизначеності
url https://nasplib.isofts.kiev.ua/handle/123456789/134018
work_keys_str_mv AT kuznêcovanv viâvlennâtaobroblennâneviznačenosteiuformínepovnihdanihmetodamiíntelektualʹnogoanalizu
AT kuznêcovanv identificationanddealingwithuncertaintiesintheformofincompletedatabydataminingmethods