Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу
Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів о...
Saved in:
| Published in: | Системні дослідження та інформаційні технології |
|---|---|
| Date: | 2016 |
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2016
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/134018 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1859862533852102656 |
|---|---|
| author | Кузнєцова, Н.В. |
| author_facet | Кузнєцова, Н.В. |
| citation_txt | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр. |
| collection | DSpace DC |
| container_title | Системні дослідження та інформаційні технології |
| description | Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів.
In this paper, the methods for processing missing data are reviewed. The classification of methods depending on input data, data types and formats, and causes of data incompleteness associated with influence of uncertainties of the outside world and modeling object is proposed. The commonalities and differences between existing methods are investigated. The application peculiarities of these methods for filling missing data depending on properties of uncertainties are determined. It is shown that the traditional approach for filling the missing data by average values does not allow obtaining correct forecasts in many cases due to changes in sample’s properties. The usage of data mining methods technologies for dealing with missing data is proposed. An example of using regression methods is shown for filling missing data, in particular, using the forecast evaluation.
|
| first_indexed | 2025-12-07T15:46:33Z |
| format | Article |
| fulltext |
© Н.В. Кузнєцова, 2016
104 ISSN 1681–6048 System Research & Information Technologies, 2016, № 2
УДК 519.816
DOI: 10.20535/SRIT.2308-8893.2016.2.10
ВИЯВЛЕННЯ ТА ОБРОБЛЕННЯ НЕВИЗНАЧЕНОСТЕЙ
У ФОРМІ НЕПОВНИХ ДАНИХ МЕТОДАМИ
ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ
Н.В. КУЗНЄЦОВА
Розглянуто методи оброблення пропущених даних і запропоновано їх класифі-
кацію з урахуванням видів вхідних даних, типів та форматів даних, причин
пропусків, зумовлених проявом впливу невизначеностей навколишнього світу
і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих
методів оброблення, визначено особливості їх застосування для дозаповнення
пропущених даних залежно від характеру невизначеностей. Показано, що
традиційний підхід до заповнення пропусків середнім значенням не дозволяє
отримати достовірні прогнози у багатьох випадках через зміну характеру
вибірки. Запропоновано використання методів інтелектуального аналізу даних
для оброблення пропущених значень та наведено приклад заповнення
пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок
прогнозів.
ВСТУП
Невизначеності навколишнього світу та об’єктів, що у ньому функціонують,
безпосередньо або опосередковано впливають на діяльність людини, потре-
бують урахування під час прогнозування розвитку множини супутніх про-
цесів. Очікувані результати від застосування тих чи інших засобів можуть
бути незадовільними або зовсім непередбачуваними внаслідок дії випадко-
вих зовнішніх факторів. Коли ж зовнішні фактори строго визначені або хо-
ча б відомі, то невизначеність природи та обмежень може бути врахована і,
відповідно, можна запропонувати методи їх оброблення. Так, у задачах сис-
темного аналізу [1, 2] у загальному випадку розрізняють три основні види
невизначеностей: невизначеність цілей; ситуаційну і природну невизначе-
ність (невизначеність знань про можливі ситуації у процесі функціонування
складних систем); інформаційну невизначеність (невизначеність поведінки
навколишнього середовища та дій реального партнера чи супротивника).
Розв’язування задачі розкриття концептуальної невизначеності щодо
системного аналізу потребує розкриття множини різнорідних невизначенос-
тей на підставі єдиних принципів, прийомів і критеріїв [3]. На практиці
розв’язуються задачі дослідження невизначеності цілей розроблення і перс-
пектив конкурентоспроможності виробу, аналізуються невизначеність ди-
наміки ринків попиту та пропозиції і невизначеність активної протидії кон-
курентів, невизначеність динаміки розроблення, виробництва, збуту та
експлуатації певного виробу тощо.
Одним з проявів інформаційної невизначеності є невизначеність, зумов-
лена пропусками даних. Об’єктивні характеристики певних процесів можуть
бути змінені або навіть спотворені внаслідок втрати частини даних під час
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 105
їх отримання, передавання чи зберігання. Постає потреба у відновленні та-
ких пропущених даних і, що важливо, у підбиранні тих алгоритмів, за якими
вони будуть відновлюватись, оскільки неправильне або недостатньо досто-
вірне відновлення може завдати більше шкоди, ніж самі пропуски даних.
Роботу присвячено аналізу інформаційної невизначеності у формі про-
пусків статистичних даних та методів заповнення наявних пропусків з ме-
тою підвищення адекватності математичних моделей та оцінок прогнозів,
які обчислюються за цими моделями.
ПОСТАНОВКА ЗАВДАННЯ
Мета дослідження — аналіз та класифікація методів оброблення пропусків
даних для узгодження даних різних типів та форматів, зумовлених проявом
впливу невизначеностей навколишнього світу й об’єкта моделювання; роз-
роблення рекомендацій для розроблення коректного підходу до оброблення
неповних даних, які дадуть змогу підвищити прогнозну якість моделей, по-
будованих на відновлених за цією методикою пропущених даних. Зокрема,
це завдання є важливим для оброблення вибірок невеликих розмірів, коли
некоректне оцінювання пропущених змінних є вкрай небажаним і може
спричинити похибки подальшого прогнозування поведінки системи і побу-
дови прогнозних моделей. У роботі будуть проаналізовані спільні ознаки та
відмінності існуючих методів та особливості алгоритмічних засобів оброб-
лення пропущених значень.
НЕПОВНОТА ДАНИХ ЯК РЕАЛІЗАЦІЯ НЕВИЗНАЧЕНОСТІ
Неповнота даних зумовлюється такими причинами: пропусками, неуважніс-
тю під час уведення інформації; браком інформації з об’єктивних причин;
незнанням; некомпетентними відповідями на поставлені запитання, зокрема,
через зумисне приховування інформації [4]. Залежно від причини пропуски
можуть істотно впливати на результати та спричиняти значні збитки органі-
зації, яка вчасно не отримала необхідну інформацію.
Невизначеності насправді трапляються у повсякденному житті. Потре-
ба у моделюванні та прогнозуванні за неповними даними виникає у різних
сферах: фінансах, транспорті, виробництві, сільському господарстві, логіс-
тиці, фізиці, соціології тощо.
Поглиблене вивчення процесів за допомогою математичних моделей
дозволяє дослідити кількісні зв’язки між вхідними та вихідними змінними,
а також фактори, які впливають на вихідні змінні при варіації вхідних у ши-
рокому діапазоні, і розглянути поведінку процесів на будь-яких часових ін-
тервалах у прийнятному масштабі часу. Математична модель, що будується
для цієї мети, може бути надскладною і трудомісткою, оскільки вона має
враховувати тонкощі взаємодії кількісних і якісних змінних із можливим
урахуванням реального часу, тобто з використанням імітаційного моделю-
вання. За допомогою математичних моделей можна виявити ефекти і явища,
які недоступні безпосереднім спостереженням за допомогою приладів. Крім
цього, під час проектування нових систем у різних галузях можна швидко
змінювати варіанти реалізації системи завдяки можливості її швидкого
Н.В. Кузнєцова
ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 106
дослідження на моделі, виявити вплив початкових умов та обмежень на
ключові змінні.
Прогнозування значень змінних виконується, як правило, на основі на-
багато простіших моделей ніж поглиблене вивчення процесів. Таке спро-
щення моделі також може внести додаткову інформаційну невизначеність.
Поняття структури моделі охоплює такі параметри: порядок, вимірність
моделі, наявність нелінійностей і їх характер, час запізнення (для часових
рядів), тип збурень тощо.
Вибір структури моделі, що адекватна процесу, є непростою задачею,
що розв’язується в інтерактивному режимі. Спочатку структуру моделі оці-
нюють наближено на підставі дослідження закономірностей перебігу проце-
су, аналізу кореляційних функцій, візуального аналізу даних. При цьому ви-
бирають декілька найбільш імовірних структур (кандидатів). Потім
обчислюють оцінки параметрів моделей-кандидатів і вибирають оптимальну
з них, використовуючи відповідні статистичні характеристики якості мо-
делей.
Якщо жодна з моделей-кандидатів не може вважатися адекватною для
конкретного застосування, то необхідно досліджувати на інформативність
експериментальні дані, які можуть бути недостатньо інформативними для
оцінювання моделі. У такому випадку потрібно буде повторно чи додатково
збирати експериментальні дані (якщо це взагалі можливо) і коригувати
структуру моделі.
Наприклад, розглянемо задачу визначення місця розташування транс-
портних засобів для контролю комунального транспорту системою EasyWay
у разі неповних даних від GPS і маршруту складної форми. Інформація про
місце розташування необхідна для прогнозування часу прибуття транспорту
на зупинку. Щоб його розрахувати, можна використати найпростішу струк-
туру моделі, що враховує відстань S і швидкість руху транспорту v :
v
St = .
Така модель не враховує нерівномірність руху транспорту, наявність пере-
шкод на шляху, особливості дорожнього покриття, погодні умови тощо.
І навіть уточнена модель не може врахувати всі фактори, зокрема кількість
пасажирів та час їх посадки на кожній зупинці. Прогнозований час можна
показувати на сайтах, мобільних додатках та інформаційних табло на зупин-
ках, що є важливим і зручним для пасажирів, зменшує час очікування і ро-
бить рух транспорту більш передбачуваним. У випадку, коли транспорт пе-
ребуває там, де сигнал GPS слабкий або його немає, постає питання
прогнозування неповних даних (пропущених даних сигналу GPS) для уточ-
нення місцеперебування та прогнозування орієнтовного часу. Тут може бути
і невизначеність стану природи, зумовлена ситуаційною невизначеністю —
можливим випаданням опадів, створенням складностей проїзду, аварійних
ситуацій тощо. Для прогнозування неповних даних можуть застосовуватись
різні методи і підходи залежно від причин появи таких невизначеностей,
установлених існуючих і відомих закономірностей.
Поняття «розширена невизначеність» виникає під час оброблення ре-
зультатів вимірювання у фізиці, метрології, географії, військовій справі. Ро-
зширена невизначеність (expanded uncertainty) — це величина, що визначає
довірчий інтервал для результату вимірювання, у межах якого ймовірно міс-
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 107
титься більша частина розподілу значень, які обґрунтовано можуть бути
приписані вимірюваній величині.
Таким чином, розширена невизначеність визначає межі інтервалу неви-
значеності для результату вимірювання y . Права межа цього інтервалу:
Uy + , а ліва: .Uy − Величина розширеної невизначеності, а отже, і ширина
цього інтервалу, залежать від обраного під час розрахунку рівня довіри p ,
який менший або дорівнює одиниці [5].
Значення рівня довіри повинно бути досить великим, щоб була висока
впевненість у тому, що інтервал невизначеності містить істинне значення.
Водночас із підвищенням p ширина інтервалу збільшується, що ускладнює
його практичне використання для прийняття рішень за результатами вимі-
рювань. Тому доводиться вибирати у певному розумінні «компромісне»
значення рівня довіри. У більшості випадків значення p припускають рів-
ним 0,95. Це означає, що інтервал невизначеності включатиме 95% усіх зна-
чень, які можуть бути результатом вимірювання, або з імовірністю 0,95 по-
криватиме істинне значення вимірюваної фізичної величини. Разом з тим
під час особливо відповідальних вимірювань, які мають великий вплив на
життя чи здоров'я людей, значення рівня довіри може досягати 0,99 і більше.
Інформаційна невизначеність часто виникає у задачах оброблення ста-
тистичних даних і пов’язана з недоотриманням, запізненням або втратою
частини інформації з будь-яких причин. Це притаманно фінансовій, еконо-
мічній і соціологічній галузях. Аналіз таких причин може дати додаткове
розуміння суті пропусків і допомогти у виборі моделі їх заповнення.
ІСНУЮЧІ МЕТОДИ ЗАПОВНЕННЯ ПРОПУСКІВ ДАНИХ
Існує багато засобів заповнення пропусків уже після етапу збирання даних:
заповнення середнім значенням, пропорційне розміщення спостережень
з пропущеними даними за вже існуючими градаціями шкали, розрахунок
можливого значення за допомогою регресійної моделі тощо.
Зрозуміло, що використання будь-яких засобів заповнення пропусків
може змістити структуру вибірки, яка буде отримана на основі існуючих
неповних даних, у бік структури неповних даних, що може спотворити реаль-
ний розподіл спостережень у вибірці і зменшити фактичну значущість
отриманих результатів.
Обираючи конкретний алгоритм для заповнення пропусків, варто вра-
ховувати, що можливість його застосування істотно залежить від методу
аналізу даних, який передбачається використати надалі.
Сьогодні існують алгоритми, які дають змогу обробляти пропуски не-
обхідною інформацією, такі як метод Hot Deck, метод Барлета, алгоритми
Resampling, Zet, Zetbraid, EM-оцінювання, регресійне моделювання та про-
гнозування значень [6–9]. Особливістю цих алгоритмів є заповнення пропус-
ків значеннями, які підбираються самим алгоритмом.
Метод Hot Deck. Цей метод використовує підстановку замість пропу-
щеного значення найближчого інформаційного об’єкта. Пропущені дані
можна підбирати як з усієї сукупності повних спостережень, так і з деякої
Н.В. Кузнєцова
ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 108
підгрупи — кластера, до якого належить цільовий об’єкт. Для заповнення
пропуску за обраною характеристикою цільового об’єкта використовується
значення цієї характеристики в об’єкта, найближчого до цільового. Тип
функції відстані для визначення спостереження, найближчого до цільового
(з пропуском), вибирається виходячи з типу досліджуваних даних, уявлень
про характер зв’язку між змінними і завдання конкретного дослідження.
Метод Барлета. Цей метод складається з двох етапів: підстановки за-
мість пропуску початкових згенерованих значень на першому етапі; прове-
дення на другому етапі коваріаційного аналізу цільової змінної і побудова
дихотомічного індикатора повноти спостережень за цільовою змінною. Ін-
дикатор повноти спостережень завжди дорівнює 0, за винятком одного єди-
ного випадку: і-е значення — це цільова змінна і воно є пропущеним, тоді
індикатор набуває значення 1 [8].
Алгоритм ZET. Суть цього алгоритму полягає у підборі кожного зна-
чення для заповнення пропуску не за всією сукупністю спостережень,
а з деякої її частини, яка називається компонентною матрицею, що склада-
ється з компонентних рядків і стовпців. Компонентність деякого рядка являє
собою величину, обернено пропорційну декартовій відстані за цільовим ряд-
ком (неповного спостереження з пропуском) у просторі, осями якого задані
змінні — характеристики об’єктів [7, 9].
За даними компонентної матриці надалі будується функціональна за-
лежність прогнозного значення від відповідного значення у компонентній
матриці, на основі якої потім прогнозується значення пропуску.
Алгоритм ZetBraid. Основна відмінність цього методу від попередньо-
го полягає у тому, що в цьому алгоритмі закладено механізм об’єктивного
відбору розмірності компетентної матриці. При роботі алгоритму відбуваєть-
ся послідовний почерговий відбір компетентних рядків та стовпців і щоразу
формується нова компетентна матриця. Потім за заданим критерієм визна-
чається її ефективність при прогнозуванні пропусків [7].
Resampling. Це ітеративний метод, який передбачає зміну рядків
з пропущеними даними випадково вибраними рядками з матриці повних
спостережень, а далі будується регресійне рівняння для прогнозування про-
пущеного значення. Процедурe регресійного моделювання повторюють
декілька разів, після чого значення отриманих регресійних коефіцієнтів усе-
реднюють і отримують кінцеве значення, яке дає максимальну точність
прогнозу пропущеного значення [8].
Множиннна вставка. Метод розроблений у 1970-х рр. ХХ ст. Дональ-
дом Рубіним [10]. Технологія множинної вставки пропусків передбачає під-
становку одразу кількох значень замість кожного пропущеного. Значна роз-
біжність цих значень означає невизначеність моделі і не дозволяє зробити
висновки про їх типи і причини появи. Дані, що містять набір заповнених
пропусків, зберігаються в окремих масивах, кожен з яких потім аналізується
як такий, що містить повні спостереження без пропусків.
Наразі цей метод вважається доволі перспективним і реалізований у бі-
льшості комерційних програмних додатків.
ЕМ-оцінювання [11]. Метод максимізації математичного сподівання
(ЕМ — expectation maximization) або ЕМ-оцінювання надає можливість не
лише відтворювати пропущені значення з використанням двоетапного іте-
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 109
ративного алгоритму, але й оцінювати середнє значення, коваріаційні та ко-
реляційні матриці для кількісних змінних. ЕМ-алгоритм у загальному випад-
ку являє собою ітераційну процедуру, призначену для розв’язання задач оп-
тимізації деякого функціонала через аналітичний пошук екстремуму
функції.
На Е-кроці обчислюється очікуване значення (expectation) вектора при-
хованих змінних G за поточним наближенням вектора параметрів Θ . На
М-кроці розв’язується задача максимізації правдоподібності і обчислюється
наступне наближення вектора Θ за поточними значеннями векторів G і Θ .
Ідею реалізації ЕМ-алгоритму можна подати так:
– обчислити початкове наближення вектора параметрів Θ ;
– повторювати:
)(Θ= ESTEPG ,
),( GGMSTEP=Θ ;
– поки G і Θ не стабілізуються (настає збіжність до усталених зна-
чень).
У класичному варіанті алгоритму формально задачу максимізації очі-
кування можна виразити таким чином: );(maxarg1 mm QQ ΘΘ=
Θ
+ . Тут Θ
означає розраховане очікуване умовне значення пропущеної характеристики
для певного спостереження.
Регресійне моделювання [12]. Пропущені значення за допомогою ре-
гресійних моделей відновлюються за два етапи.
1. На першому етапі за сукупністю повних спостережень будується ре-
гресійна модель і оцінюються коефіцієнти рівняння, де залежною змінною
є цільова змінна — пропущене значення, яке необхідно відновити.
2. За отриманим на попередньому етапі рівнянням, у яке підставляють-
ся відомі значення незалежних змінних (предикторів), для кожного цільово-
го об’єкта розраховується пропущене значення за залежною цільовою змін-
ною. У випадку інтервальних та абсолютних змінних розраховується
конкретне значення, а для порядкових і номінальних значень з деякою ймо-
вірністю передбачається категорія, до якої має бути віднесений об’єкт.
Вибір типу регресійної моделі для розрахунку пропущених значень
змінної визначається кількістю вимірювань цільової залежної змінної (зна-
чення якої необхідно відновити) і незалежних змінних, за якими передбача-
тимуться пропущені значення.
У праці [13] розглядаються можливості оцінювання пропусків даних за
допомогою байєсівського компонентного аналізу та локального методу
найменших квадратів і порівнюються можливості їх сукупного використан-
ня. Також показано, що спільне використання обох методів дає змогу отри-
мати вищу якість прогнозів пропущених значень, але при цьому істотно збі-
льшуються обчислювальні витрати.
Для оцінювання і відновлення пропущених значень надзвичайно важ-
ливою є оцінка втрат інформації через неповноту спостережень і якість оці-
нок пропущених значень залежно від типу цільової змінної та частки пропус-
ків початкових даних.
Н.В. Кузнєцова
ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 110
Зрозуміло, що коректність і ефективність роботи цих алгоритмів визна-
чаються підбиранням найбільш подібного значення до пропуску, а для цього
необхідно враховувати причину пропуску даних. Сучасні комп’ютерні ана-
літичні системи, такі як SPSS, GeNIe, SAS Enterprise Miner, грунтуються на
використанні логічних дерев для умовного обчислення значень та їх заміни
на середні величини або медіани. Зокрема, для розроблення скорингових
карт рекомендуються методи підстановки [14], що враховують інші харак-
теристики даних. Однак присвоєння найбільш часто вживаних значень або
середніх значень спричинить так звані «сплески», що спотворить реальну
ситуацію з розподілом груп у вибірках і призведе до втрати надзвичайно
важливої інформації. Тому пропонується виносити пропущені дані в окрему
групу, замінюючи пропущені значення певним спеціальним значенням поза
нормальними значеннями і включати їх в аналіз як окрему категорію.
Багато аналітиків мають переконання, що пропущені значення не по-
трібно взагалі включати в аналіз і вилучити їх цілком з начальної вибірки
даних. Такий метод корисний, якщо аналітики не схильні накладати додат-
кові ризики того, що пропущені значення будуть відновлені некоректно
і таким чином можуть збільшити ризик віднесення таких випадків до нор-
мальної категорії. Однак цей метод нераціональний у випадку, коли обсяг
навчальної вибірки надзвичайно малий і видалення таких даних є критич-
ним, або коли необхідно побудувати скорингові моделі, що відображають
реальні, а не «ідеальні» дані і містять пропущені значення. Такі дані необ-
хідно додатково обробляти до прийняття рішення.
Загальну класифікацію методів заповнення пропусків, що використо-
вуються в різних інструментальних засобах інтелектуального аналізу даних,
показано на рисунку. Для детального аналізу обрано середовище SAS Enter-
prise Miner, у якому реалізовано різні методи заміни пропущених значень,
а також передбачено відсутність обов’язкової заміни. У SAS Enterprise Miner
окремо передбачено можливість вставки для вхідних вузлів та цільових
змінних, а також є можливість такого заповнення не на всій вибірці даних,
а спочатку на навчальній вибірці, і у випадку отримання задовільних ре-
зультатів — поширити таку заміну і на перевірну вибірку. Розглянемо дета-
льніше різні методи заповнення пропусків залежно від типу змінних (кате-
горіальні або неперервні).
Категоріальні змінні
Якщо як пропущені спостереження обрати дані за категоріальною змінною,
то можливі такі методи заміщення:
Count — заміна пропущеного значення для категоріальної змінної най-
частішим значенням спостереження.
Default Constant Value — заміна введеним вручну значенням для кате-
горіальної змінної.
Distribution — заміна значенням, розрахованим за ймовірнісним розпо-
ділом для наявних спостережень. Такий спосіб не спотворює розподіл
вибірки.
Tree — заміна пропуску оціненим у результаті цільового аналізу зна-
ченням. Вхідні і відбраковані змінні використовуються як предиктори.
Змінні, які важливі для моделі як цільові, не можуть бути використані для
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 111
заповнення. Оскільки відновлені значення для кожної змінної з пропусками
ґрунтуються на інших вхідних змінних, то такий метод має бути точнішим.
Tree surrogate — використовується попередній метод дерева щеплення
з наступною модифікацією правил щеплення. Правило заміни є зворотним
до головного правила щеплення дерева. Коли правило щеплення діє на
змінну, яка має пропуски, застосовується правило заміни. Якщо пропущені
значення запобігають головному правилу виконати щеплення і всім прави-
лам заміни спостережень, то головне правило призначає спостереження
у гілці, що приведе до отримання відсутніх значень.
Неперервні (статистичні) змінні
Mean — заміна пропущених інтервальних значень середнім арифметичним.
Це незміщена оцінка середнього популяції. Mean є найпоширенішою стати-
Методи
відновлення пропусків
Константа Статистичні Комбіновані
Mean
Median
Count
Regression
Midrange
Turkey’s
Biweight
Huber
Andrew’s
wave
За
замовчуванням
Обраним
значенням
Інші
Імовірнісні
Tree
Tree
Surrogate
Distribution
MLE
Інші
Класифікація методів заповнення пропущених даних
Н.В. Кузнєцова
ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 112
стикою для заміни пропущених значень, якщо значення змінної мають при-
близно симетричний розподіл (наприклад, дзвоноподібний нормальний роз-
поділ). Цей метод використовують за замовчуванням для неперервних змін-
них з пропущеними значеннями.
Median – використовується певне середнє, установлене для заміни про-
пущеного інтервального значенння 50-го процентилю, яке є середнім зна-
ченням або середнім арифметичним двох середніх значень для множини чи-
сел, розміщених у порядку зростання. Середнє і медіана однакові для
симетричного розподілу. Медіана менш чутлива до екстремальних значень,
ніж середнє або півсума крайніх значень. Таким чином, медіана підходить
краще для заміни відсутніх значень для змінних, які мають спотворені роз-
поділи. Медіана також використовується для порядкових даних.
Midrange — використовується параметр півсуми крайніх значень (серед-
ній діапазон) для заміни відсутніх неперервних значень змінної значенням
суми максимального значення для змінної плюс мінімального значення для
змінної, поділеної на два. Midrange є швидше відображенням тенденції; його
легко розрахувати.
Методи Distribution, Tree, Tree Surrogate реалізуються аналогічно тому,
як це виконується для категоріальних змінних.
Mid-minimum Spacing — використовується середній мінімальний інтер-
вал, застосовується числова константа для визначення пропорції даних, що
включаються в інтервал.
Huber — метод, у якому для заміни пропущеного значення використо-
вується оцінка, описана нижче [15]. У разі, коли лінійна регресійна функція
втрат, визначена як 2)( ∑=
i
irrl , швидко зростає зі збільшенням значень
залишків, тоді альтернативним є використанням абсолютного значення функ-
ції втрат замість квадрата залишків, тобто ∑=
i
irrl ||)( .
Елегантним компромісом між цими двома функціями втрат стала за-
пропонована Пітером Хубером у 1964 р. така функція [15]:
)()( ∑ρ=
i
irrl , де
⎩
⎨
⎧
>−
≤=ρ
.||if,)||2(
,||if,)(
2
crcrc
crrr
ii
iii
Хубер вважав, що правильним вибором є значення ,345,1=c і показав,
що асимптотично це 95%-й інтервал. Цей метод так само ефективний як
і метод найменших квадратів, якщо реальний розподіл близький до норма-
льного (і набагато ефективніший у багатьох інших випадках).
Tukey’s Biweight — метод, у якому оцінка для функції втрат визнача-
ється за критерієм Tukey’s Biweight (відомим також як Tukey’s bisquare)
[15, 16]:
⎪
⎩
⎪
⎨
⎧
>
≤
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
⎟
⎠
⎞
⎜
⎝
⎛−=ρ
.||if,0
,||if,1)(
2
'
cr
cr
c
rrr
i
i
i
i
i
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 113
Для цієї функції втрат зазвичай використовується значення 685,4=c ;
воно забезпечує асимптотичну ефективність на рівні 95%, так само, як і лі-
нійна регресія для нормального розподілу.
Andrew’s wave – метод, згідно з яким оцінка визначається так:
⎪⎩
⎪
⎨
⎧
>
≤⎟
⎠
⎞
⎜
⎝
⎛ π
π=
.||if,0
,||if,sin)(
cr
cr
c
r
r
c
rw
i
i
i
ii
За замовчуванням π= 34,1c .
Default Constant — пропуск замінюється визначеним уведеним симво-
лом.
ПРИКЛАД ЗАПОВНЕННЯ ПРОПУСКІВ ОЦІНКАМИ ПРОГНОЗІВ
Для заповнення невеликої кількості пропусків можна скористатись моделлю
авторегресії першого порядку АР:
)()1()( 10 kkyaaky ε+−+= , 0)]([ =ε kE . (1)
Збільшимо незалежну змінну, час на одиницю і запишемо рівняння
знову:
)1()()1( 10 +ε++=+ kkyaaky .
Якщо коефіцієнти 10 , aa відомі, то можна знайти умовне математичне
сподівання на основі відомої інформації до моменту k включно:
=−εε−+=+ ]...),1(),(,...),1(),(|)1([)]1([ kkkykykyEkyE kk
)()]([ 1010 kyaakyEaa k +=+= ,
оскільки )(ky у момент k є відомою константою. За аналогією запишемо
рівняння (1) для моменту 2+k
)2()1()2( 10 +ε+++=+ kkyaaky
і знайдемо умовне математичне сподівання:
=++=++=+ )]([)]1([)]2([ 101010 kyaaEaakyEaakyE kkk
)(2
1100 kyaaaa ++= .
Для наступного моменту часу маємо:
)()]3([ 3
1
2
10100 kyaaaaaakyEk +++=+ .
Таким чином, для загального випадку прогнозування на s кроків можна
записати:
∑∑
−
=
−
=
+=+⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
=+=+
1
0
1101
1
0
10 )()()]([)(ˆ
S
i
SiS
S
i
i
S kyaaakyaaaskyEsky . (2)
Н.В. Кузнєцова
ISSN 1681–6048 System Research & Information Technologies, 2016, № 2 114
Рівняння (2) називають функцією прогнозування на довільну кількість
кроків s . Прогноз являє собою збіжний процес, якщо 11 <a , тобто
1
0
1
)]([lim
a
askyEks −
=+
∞→
, 11 <a , (3)
де 1a — знаменник геометричної прогресії. Вираз (3) свідчить про те, що
для будь-якого стаціонарного процесу АР чи АРКС оцінка умовного прогнозу
асимптотично при ∞→s збігається до безумовного середнього.
Виконаний порівняльний аналіз різних методів заповнення пропуще-
них значень показав, що поняття «найкращого» методу для заміни пропу-
щених є некоректним. Вибір методу може істотно залежати не лише від
конкретної предметної галузі, у якій ці пропущені значення трапляються,
а й від припущень аналітика щодо типу розподілу реальних (пропущених)
даних. Найчастіше аналітики застосовують метод середнього для заміни
пропущених значень, а це означає, що робиться припущення про належність
даних до нормального розподілу (а це швидше виняток з правил). Заміна
пропущених значень середнім, медіаною або іншою оцінкою є звичайно
більш простим способом, однак це може істотно спотворити істинний роз-
поділ вибірки. Тобто такі заміни можливі лише у випадку мінімального
впливу на характер вибірки.
ВИСНОВКИ
У реальних задачах оброблення статистичних даних найбільшою складніс-
тю залишається необхідність класифікації невизначеностей різних типів
і зумовлених ними пропусків, утрат і неточних значень. Для кожної предме-
тної галузі, виходячи з особливостей даних, з якими доводиться працювати,
час від часу фіксуються одноманітні помилки, похибки, пропуски, а тому
через певний час можна вибрати ефективні алгоритми опрацювання таких
невизначеностей та пов’язаних з ними пропущених значень, характерних
саме для цієї галузі. Обрані методи можуть бути використані для оброблен-
ня даних в інших галузях і навіть бути високоефективними у задачах іншої
специфіки. Основною метою роботи аналітиків є саме виявлення і напрацю-
вання таких рекомендацій для конкретних сфер застосування, які можуть
бути типовими для розв’язання різноманітних фінансово-економічних
завдань, задач логістики, прогнозування продажів, маркетингових дослі-
джень тощо.
Поетапне розв’язання задачі заповнення пропущених даних передбачає
аналіз суті процесу, що описується певною послідовністю даних, підбір
структури моделі заповнення пропусків, вибір адекватних методів інтелек-
туального аналізу даних для заповнення пропущених даних, реалізація цих
методів сучасними інструментальними засобами.
Перспективою для подальших досліджень автори вважають виконання
на початковому етапі ґрунтовного аналізу причин появи пропусків та екстре-
мальних значень. Доцільно також застосовувати комбінації методів різних
типів — імовірнісних, статистичних та інтелектуального аналізу даних
з метою збереження особливостей вхідної вибірки.
Виявлення та оброблення невизначеностей у формі неповних даних методами …
Системні дослідження та інформаційні технології, 2016, № 2 115
ЛІТЕРАТУРА
1. Згуровский М.З. Системный анализ: Проблемы. Методология. Приложения. /
М.З. Згуровский, Н.Д. Панкратова; НАН Украины. Ин-т приклад. систем.
анализа. — К.: Наук. думка, 2005. — 743 c.
2. Згуровський М.З. Основи системного аналізу: підруч. для студ. вищ. навч. закл.
/ М.З. Згуровський, Н.Д. Панкратова. — К.: Вид. група ВНУ, 2007. — 543 c.
3. Панкратова Н.Д. Рациональный компромисс в системной задаче концептуаль-
ной неопределенности / Н.Д. Панкратова // Кибернетика и системный ана-
лиз. — 2002. — № 4. — С. 162–180.
4. Кузнєцова Н.В. Практичні підходи до визначення та урахування невизначенос-
тей, що формують фінансові ризики / Н.В. Кузнєцова // Тр. Одес. политехн.
ун-та. — Одесса, 2014. — Вып. 2(44). — С. 160–170.
5. Вікіпедія [Електронний ресурс]. — Режим доступу: https://uk.wikipedia.org.
6. Зангиева И.К. Решение проблемы неповноты данных массовых опросов / Рос-
сийская социология завтрашнего дня: сб. студ. работ / И.К. Зангиева. — М.:
Изд. дом ГУ-ВШЭ, 2008. — Вып. 3. — С. 84–95.
7. Снитюк В.Е. Эволюционный метод восстановления пропусков в данных /
В.Е. Снитюк // Интеллектуальный анализ информации. — К., 2006. —
С. 262–271.
8. Злоба Е. Статистические методы восстановления пропущенных данных /
Е. Злоба, И. Яцкив // Computer Modelling & New Technologies. — 2002. — 6,
№ 1. — P. 51–61.
9. Загоруйко Н.Г. Методы распознавания и их применение / Н.Г. Загоруйко. —
М.: Сов. радио, 1972. — 216 с.
10. Rubin D.B. An Overview of Multiple Imputation / D.B. Rubin // Proc. Survey Re-
search Methods Section of the American Statistical Association. — 1988. —
P. 79–84.
11. Dempster A.P. Likelihood from Incomplete Data via the EM Algorithm /
A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical So-
ciety. Series B (Methodological). — 1977. — 39, N 1. — P. 1–38.
12. Бідюк П.І. Моделі і методи прикладної статистики / П.І. Бідюк, Л.О. Коршевнюк,
Н.В. Кузнєцова . — К.: НУТУ «КПІ», 2014. — 722 с.
13. Shi F. Missing Value Estimation for Microarray Data by Bayesian Principal
Component Analysis and Iterative Local Least Squares / F. Shi, D. Zhang,
J. Chen, H.R. Karimi // Mathematical Problems in Engineering. Article
ID 162938. — 2013. — P. 17.
14. Siddiqi N. Credit Risk Scorecards: Developing and Implementing Intelligent Credit
Scoring / N. Siddiqi. — 2005. — 196 р.
15. Owen M. Tukey's Biweight Correlation and the Breakdown [Електронний ресурс] /
M. Owen. — 2005. — Режим доступу: http://pages.pomona.edu/~jsh04747/
Student%20Theses/MaryOwen10.pdf
16. Breheny P. Robust regression [Електронний ресурс] / P. Breheny. — Режим до-
ступу: http://web.as.uky.edu/statistics/users/pbreheny/764-F11/notes/12-1.pdf.
Надійшла 18.06.2015
|
| id | nasplib_isofts_kiev_ua-123456789-134018 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1681–6048 |
| language | Ukrainian |
| last_indexed | 2025-12-07T15:46:33Z |
| publishDate | 2016 |
| publisher | Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
| record_format | dspace |
| spelling | Кузнєцова, Н.В. 2018-06-10T19:18:13Z 2018-06-10T19:18:13Z 2016 Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу / Н.В. Кузнєцова // Системні дослідження та інформаційні технології. — 2016. — № 2. — С. 104-115. — Бібліогр.: 16 назв. — укр. 1681–6048 DOI: doi.org/10.20535/SRIT.2308-8893.2016.2.10 https://nasplib.isofts.kiev.ua/handle/123456789/134018 519.816 Розглянуто методи оброблення пропущених даних і запропоновано їх класифікацію з урахуванням видів вхідних даних, типів та форматів даних, причин пропусків, зумовлених проявом впливу невизначеностей навколишнього світу і об’єкта моделювання. Досліджено спільні ознаки та відмінності існуючих методів оброблення, визначено особливості їх застосування для дозаповнення пропущених даних залежно від характеру невизначеностей. Показано, що традиційний підхід до заповнення пропусків середнім значенням не дозволяє отримати достовірні прогнози у багатьох випадках через зміну характеру вибірки. Запропоновано використання методів інтелектуального аналізу даних для оброблення пропущених значень та наведено приклад заповнення пропусків даних методами регресійного аналізу, зокрема за допомогою оцінок прогнозів. In this paper, the methods for processing missing data are reviewed. The classification of methods depending on input data, data types and formats, and causes of data incompleteness associated with influence of uncertainties of the outside world and modeling object is proposed. The commonalities and differences between existing methods are investigated. The application peculiarities of these methods for filling missing data depending on properties of uncertainties are determined. It is shown that the traditional approach for filling the missing data by average values does not allow obtaining correct forecasts in many cases due to changes in sample’s properties. The usage of data mining methods technologies for dealing with missing data is proposed. An example of using regression methods is shown for filling missing data, in particular, using the forecast evaluation. uk Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України Системні дослідження та інформаційні технології Методи аналізу та управління системами в умовах ризику і невизначеності Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу Identification and dealing with uncertainties in the form of incomplete data by data mining methods Article published earlier |
| spellingShingle | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу Кузнєцова, Н.В. Методи аналізу та управління системами в умовах ризику і невизначеності |
| title | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| title_alt | Identification and dealing with uncertainties in the form of incomplete data by data mining methods |
| title_full | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| title_fullStr | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| title_full_unstemmed | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| title_short | Виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| title_sort | виявлення та оброблення невизначеностей у формі неповних даних методами інтелектуального анализу |
| topic | Методи аналізу та управління системами в умовах ризику і невизначеності |
| topic_facet | Методи аналізу та управління системами в умовах ризику і невизначеності |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/134018 |
| work_keys_str_mv | AT kuznêcovanv viâvlennâtaobroblennâneviznačenosteiuformínepovnihdanihmetodamiíntelektualʹnogoanalizu AT kuznêcovanv identificationanddealingwithuncertaintiesintheformofincompletedatabydataminingmethods |