Системні основи інтелектуального аналізу геопросторових даних
Здійснено оглядове дослідження наукового напряму інтелектуального аналізу геопросторових даних (ІАГД). Виявлено основні передумови формування цього напряму і його зв’язок із геоінформатикою, системним аналізом та інтелектуальним аналізом даних. Проведено бібліографічне дослідження зарубіжних і вітчи...
Збережено в:
| Опубліковано в: : | Системні дослідження та інформаційні технології |
|---|---|
| Дата: | 2015 |
| Автор: | |
| Формат: | Стаття |
| Мова: | Ukrainian |
| Опубліковано: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2015
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/123485 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Системні основи інтелектуального аналізу геопросторових даних / В.В. Путренко // Системні дослідження та інформаційні технології. — 2015. — № 3. — С. 20-33. — Бібліогр.: 22 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-123485 |
|---|---|
| record_format |
dspace |
| spelling |
Путренко, В.В. 2017-09-06T11:27:00Z 2017-09-06T11:27:00Z 2015 Системні основи інтелектуального аналізу геопросторових даних / В.В. Путренко // Системні дослідження та інформаційні технології. — 2015. — № 3. — С. 20-33. — Бібліогр.: 22 назв. — укр. 1681–6048 https://nasplib.isofts.kiev.ua/handle/123456789/123485 681.325 Здійснено оглядове дослідження наукового напряму інтелектуального аналізу геопросторових даних (ІАГД). Виявлено основні передумови формування цього напряму і його зв’язок із геоінформатикою, системним аналізом та інтелектуальним аналізом даних. Проведено бібліографічне дослідження зарубіжних і вітчизняних публікацій в галузі ІАГД. У ході дослідження подано визначення ІАГД, виявлено основні завдання, функції та етапи його проведення, визначено коло перспективних напрямків розвитку та його зв’язок з підтримкою ухвалення рішень у регіональному управлінні. Із використанням ІАГД методів кластеризації гарячих точок проведено дослідження перевищення гранично допустимих концентрацій урану в підземних водах на території України на основі даних геологічних зйомок і виявлено зони обмеженнями використання підземних вод. Проведено обзорное исследование научного направления интеллектуального анализа геопространственных данных (ИАГД). Выявлены основные предпосылки формирования этого направления и его связь с геоинформатикой, системным анализом и интеллектуальным анализом данных. Проведено библиографическое исследование зарубежных и отечественных публикаций в области ИАГД. В ходе исследования было дано определение ИАГД, выявлены основные задачи, функции и этапы его проведения, определен круг перспективных направлений развития и его связь с поддержкой принятия решений в региональном управлении. С использованием ИАГД методов кластеризации горячих точек проведено исследование превышения предельно допустимых концентраций урана в подземных водах на территории Украины на основе данных геологической съемки и выявлено зоны ограничениями использования подземных A survey of geospatial data mining (GSDM) research was conducted. The basic prerequisites for the emergence of this research area and its relation to geoinformatics, systems analysis, and data mining were discovered. A bibliographic study of foreign and Ukrainian publications in the field of GSDM was conducted. During this study, a definition for GSDM was provided. The main tasks, functions and stages of GSDM were identified, range of promising directions of development GSDM and its relationship to support decision-making in the regional administration were determined. The study of exceeding the maximum permissible concentrations of uranium in groundwater in the territory of Ukraine on the basis of geological survey was conducted using GSDM clustering hotspots analysis methods and areas with limited use of groundwater were detected. uk Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України Системні дослідження та інформаційні технології Теоретичні та прикладні проблеми і методи системного аналізу Системні основи інтелектуального аналізу геопросторових даних Системные основы интеллектуального анализа геопространственных данных The system basis of data mining of geospatial data Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Системні основи інтелектуального аналізу геопросторових даних |
| spellingShingle |
Системні основи інтелектуального аналізу геопросторових даних Путренко, В.В. Теоретичні та прикладні проблеми і методи системного аналізу |
| title_short |
Системні основи інтелектуального аналізу геопросторових даних |
| title_full |
Системні основи інтелектуального аналізу геопросторових даних |
| title_fullStr |
Системні основи інтелектуального аналізу геопросторових даних |
| title_full_unstemmed |
Системні основи інтелектуального аналізу геопросторових даних |
| title_sort |
системні основи інтелектуального аналізу геопросторових даних |
| author |
Путренко, В.В. |
| author_facet |
Путренко, В.В. |
| topic |
Теоретичні та прикладні проблеми і методи системного аналізу |
| topic_facet |
Теоретичні та прикладні проблеми і методи системного аналізу |
| publishDate |
2015 |
| language |
Ukrainian |
| container_title |
Системні дослідження та інформаційні технології |
| publisher |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
| format |
Article |
| title_alt |
Системные основы интеллектуального анализа геопространственных данных The system basis of data mining of geospatial data |
| description |
Здійснено оглядове дослідження наукового напряму інтелектуального аналізу геопросторових даних (ІАГД). Виявлено основні передумови формування цього напряму і його зв’язок із геоінформатикою, системним аналізом та інтелектуальним аналізом даних. Проведено бібліографічне дослідження зарубіжних і вітчизняних публікацій в галузі ІАГД. У ході дослідження подано визначення ІАГД, виявлено основні завдання, функції та етапи його проведення, визначено коло перспективних напрямків розвитку та його зв’язок з підтримкою ухвалення рішень у регіональному управлінні. Із використанням ІАГД методів кластеризації гарячих точок проведено дослідження перевищення гранично допустимих концентрацій урану в підземних водах на території України на основі даних геологічних зйомок і виявлено зони обмеженнями використання підземних вод.
Проведено обзорное исследование научного направления интеллектуального анализа геопространственных данных (ИАГД). Выявлены основные предпосылки формирования этого направления и его связь с геоинформатикой, системным анализом и интеллектуальным анализом данных. Проведено библиографическое исследование зарубежных и отечественных публикаций в области ИАГД. В ходе исследования было дано определение ИАГД, выявлены основные задачи, функции и этапы его проведения, определен круг перспективных направлений развития и его связь с поддержкой принятия решений в региональном управлении. С использованием ИАГД методов кластеризации горячих точек проведено исследование превышения предельно допустимых концентраций урана в подземных водах на территории Украины на основе данных геологической съемки и выявлено зоны ограничениями использования подземных
A survey of geospatial data mining (GSDM) research was conducted. The basic prerequisites for the emergence of this research area and its relation to geoinformatics, systems analysis, and data mining were discovered. A bibliographic study of foreign and Ukrainian publications in the field of GSDM was conducted. During this study, a definition for GSDM was provided. The main tasks, functions and stages of GSDM were identified, range of promising directions of development GSDM and its relationship to support decision-making in the regional administration were determined. The study of exceeding the maximum permissible concentrations of uranium in groundwater in the territory of Ukraine on the basis of geological survey was conducted using GSDM clustering hotspots analysis methods and areas with limited use of groundwater were detected.
|
| issn |
1681–6048 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/123485 |
| citation_txt |
Системні основи інтелектуального аналізу геопросторових даних / В.В. Путренко // Системні дослідження та інформаційні технології. — 2015. — № 3. — С. 20-33. — Бібліогр.: 22 назв. — укр. |
| work_keys_str_mv |
AT putrenkovv sistemníosnoviíntelektualʹnogoanalízugeoprostorovihdanih AT putrenkovv sistemnyeosnovyintellektualʹnogoanalizageoprostranstvennyhdannyh AT putrenkovv thesystembasisofdataminingofgeospatialdata |
| first_indexed |
2025-11-26T06:26:05Z |
| last_indexed |
2025-11-26T06:26:05Z |
| _version_ |
1850615419129298944 |
| fulltext |
В.В. Путренко, 2015
20 ISSN 1681–6048 System Research & Information Technologies, 2015, № 3
УДК 681.325
СИСТЕМНІ ОСНОВИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ
ГЕОПРОСТОРОВИХ ДАНИХ
В.В. ПУТРЕНКО
Здійснено оглядове дослідження наукового напряму інтелектуального аналізу
геопросторових даних (ІАГД). Виявлено основні передумови формування цьо-
го напряму і його зв’язок із геоінформатикою, системним аналізом та інтелек-
туальним аналізом даних. Проведено бібліографічне дослідження зарубіжних
і вітчизняних публікацій в галузі ІАГД. У ході дослідження подано визначення
ІАГД, виявлено основні завдання, функції та етапи його проведення, визначе-
но коло перспективних напрямків розвитку та його зв’язок з підтримкою ухва-
лення рішень у регіональному управлінні. Із використанням ІАГД методів кла-
стеризації гарячих точок проведено дослідження перевищення гранично
допустимих концентрацій урану в підземних водах на території України на ос-
нові даних геологічних зйомок і виявлено зони обмеженнями використання пі-
дземних вод.
ВСТУП
Геоінформаційні технології стали важливою складовою інновацій, які фор-
мують сучасний вигляд інформаційного суспільства. Використання геопрос-
торової інформації у вирішенні чисельних управлінських, бізнесових та ін-
женерних завдань дозволяє підвищити їх ефективність та наочність процесу
виконання. Поряд зі специфічним інструментарієм сучасних геоінформацій-
них систем (ГІС) базовим елементом стали геопросторові дані, що накопи-
чуються у спеціалізованих сховищах.
Стрімкий розвиток геопросторової індустрії став можливим завдяки
випереджаючому накопиченню геопросторових даних, які надходять із різ-
них джерел. На сьогодні традиційне виробництво геопросторових даних, що
ґрунтується на виконанні картографічних та кадастрових робіт, зазнає вели-
ких змін. Це пов’язано з подоланням високої вартості цих робіт, зміною
суспільного замовлення та еволюцією сучасних інформаційних технологій.
Постійно розширюється спектр галузей дистанційного зондування Землі,
у якому постійно з’являються нові технічні засоби отримання даних та алго-
ритми їх подальшої обробки. Технології глобальних навігаційних супутни-
кових систем (найбільш відома американська система GPS) стали джерелом
постійного потоку геопросторових даних щодо місцеположення об’єктів та
їх поведінки у просторі. Активно розвивається напрям волонтерського збору
геопросторових даних з відкритою ліцензією завдяки таким проектам як
OpenStreetMap [1].
Такий лавиноподібний потік накопичення структурованих та неструк-
турованих даних з геопозиційною складовою призвів до необхідності вико-
ристання методів обробки Big Data та ІАГД, що дозволяє виявляти нові
знання та закономірності у великих обсягах геоданих.
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 21
Тому дослідження особливостей методів ІАГД геопросторових даних
є актуальним та перспективним напрямом наукових досліджень.
Особливе значення розробка методології та методики ІАГД має для
управління територіальним розвитком, як елементом просторової організації
суспільства. У цьому контексті ІАГД може надавати обґрунтовану інформа-
цію і бути складовою систем підтримки прийняття рішень (СППР) на різно-
му адміністративно-територіальному рівні, що допоможе в управлінні тери-
торією. На цих засадах сформовано мету та основні завдання дослідження.
Мета роботи — дослідження основ ІАГД, його структури та методів
системного використання в процесі підтримки прийняття рішень.
Завданнями статті є формування з системних позицій визначення ін-
телектуального аналізу геопросторових даних, дослідження структури ІАГД
та його місця в ГІС та СППР, аналіз складових процесу ІАГД, вивчення та
прикладне застосування основних методів ІАГД.
ОГЛЯД ЛІТЕРАТУРИ
Методологічні підходи до ІАГД почали свій розвиток з середини ХХ сто-
річчя, коли разом із індустріальним розвитком економіки з’явилась необхід-
ність у досліджені оптимальних підходів до просторової організації суспіль-
них процесів та охорони і раціонального використання природних ресурсів.
Одночасно з цим з кінця 60-х років починається розвиток геоінформаційних
систем як інформаційної основи для впровадження методів аналізу даних.
Поява високопродуктивних обчислювальних машин разом з розвитком гео-
просторової індустрії та загостренням проблем економічного розвитку та
екологічної ситуації призвели до активізації досліджень ІАГД та виділення
його в окремий напрям.
В Україні таким поштовхом стала катастрофа на Чорнобильській АЕС,
яка спонукала широке коло фахівців до використання геоінформаційних те-
хнологій щодо аналізу наслідків радіоактивного забруднення [2]. У галузі
інтелектуального аналізу даних в Україні широко відомі роботи Інституту
прикладного системного аналізу НТУУ «КПІ», Світового центру даних
з геоінформатики та сталого розвитку вчених М.З. Згуровського,
Н.Д. Панкратової, А.І. Петренко, А.О. Болдака [3–5]. Академічні та універ-
ситетські дослідження інтелектуального аналізу відображено в роботах
В.І. Зацерковного [4], Л.В. Саричевої [6], В.Ф. Ситника, М.Т. Краснюка,
О.І. Черняка, П.В. Захарченка та ін. [7, 8].
У ХХІ столітті інтелектуальний аналіз геопросторових даних сформу-
вався в окремий перспективний напрям наукових досліджень, який має свою
структуру та особливості використання. Міжнародна дослідницька школа
ІАГД сформувалась під впливом робіт таких вчених, як Г. Андрієнко,
К. Клеве, М. Гахеган, Д. Гуо, М. Пьоке, Ж. Хан, К. Коперскі, Н. Стефанович,
М. Кулдорф, Ж. Менніс, Ж. Ліу, Х. Міллер, С. Опеншав, М. Чарлтон, К. Ві-
мер, А. Крафт, С. Шекшар, С. Шіоде [9-20] та ін.
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 22
МЕТОДОЛОГІЧНІ ОСНОВИ НАПРЯМУ ІАГД
Інтелектуальний аналіз геопросторових даних має глибоке коріння в тради-
ційних галузях геопросторового аналізу (просторова статистика, аналітична
картографія, пошуковий аналіз даних) та різних методах інтелектуального
аналізу даних у статистиці та інформатиці. Його мета полягає в інтеграції
і подальшому вдосконаленні методів у різних галузях для аналізу великих
і складних наборів геопросторових даних.
У якості визначення пропонуємо наступне:
Інтелектуальний аналіз геопросторових даних (spatial data mining) —
напрям геоінформатики, направлений на системний аналіз геопросторових
даних з метою пошуку закономірностей та відносин у даних, що засновані
на місцеположенні та топологічних відношеннях.
ІАГД є зростаючим дослідницьким напрямом, який все ще перебуває
на ранніх стадіях розвитку та оперує цілим рядом різних методів, що комбі-
нують обчислювальні, статистичні та візуальні методики. Інтелектуальний
аналіз даних та виявлення знань є ітераційним процесом, який містить кіль-
ка етапів, включаючи відбір даних, фільтрацію, первинну підготовку та пе-
ретворення; аналіз за допомогою обчислювальних алгоритмів і / або підхо-
дів із візуалізації, інтерпретації та оцінки результатів; формулювання або
модифікацію гіпотез і теорій; корегування даних і методів аналізу; повторну
оцінку результатів.
Інтелектуальний аналіз даних та виявлення знань має пошукову приро-
ду і є більш індуктивним процесом, ніж традиційні статистичні методи. Це
природно вписується в початкову стадію дедуктивного процесу досліджен-
ня, де дослідники розробляють та модифікують теорії, що базуються на від-
критій інформації за даними спостережень.
ІАГД знаходиться на перетині ГІС, Data Mining, статистики та прикла-
дних галузей досліджень. З цієї точки зору використання інструментів інте-
лектуального аналізу даних разом із геоінформаційним блоком є значною
перевагою обробки вхідної інформації для управління територією та вико-
ристання ГІС в СППР. У процесі застосування геоінформаційних технологій
у СППР територіального управління можна виділити три базові рівні. До
першого інформаційного рівня відноситься вхідна інформація, яка викорис-
товується для обробки в ГІС. На сьогодні інтелектуальні системи можуть
обробляти як структуровані, так і неструктуровані дані. Специфічними для
використання в ГІС є бази геопросторових даних, дані дистанційного зонду-
вання Землі, дані з датчиків та сенсорів з відомими координатами, геотего-
вана інформація з Інтернет та соціальних мереж, історичні картографічні
дані, волонтерська географічна інформація тощо (рис. 1).
Поряд із ними широко використовуються механізми інтеграції просто-
рової та непросторової інформації на основі процесів географічної
прив’язки та геокодування. Це надає змогу повноцінно використовувати
у ГІС інформацію із зовнішніх непросторових баз даних, які супроводжу-
ються та наповнюються іншими органами управління. Необхідною складо-
вою є бази знань, які структуровано за предметними галузями, що викорис-
товуються у СППР.
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 23
Другий — аналітичний рівень спирається на використання геоінформа-
ційної системи як платформи для обробки та аналізу вхідної інформації. Тут
може бути виділено функції стандартизації та нормалізації, сумісної оброб-
ки, інтелектуального аналізу даних. На цьому етапі ГІС може взаємодіяти
з іншими системами обробки даних та бути складовою СППР.
Третій — ситуаційний рівень, пов’язаний із необхідністю прийняття
рішень щодо аналізу конкретних ситуацій за допомогою інструментів СППР
та ГІС. Важливим компонентом у цьому випадку стають механізми колек-
тивної участі в роботі за участі керівних осіб різних рівнів, експертів тех-
нічного персоналу. До таких механізмів відносяться ситуаційні центри, он-
лайн конференції, робочі наради тощо.
Процес ІАГД містить основні кроки перетворення даних. Кожний ана-
ліз здійснюється виконавцем з певною метою на основі вхідних баз даних та
баз знань, які відповідають проблемному напряму. На першому кроці обробка
даних здійснюється за допомогою інтерфейсу СКБД. На цьому етапі здійс-
нюється вибірка даних з усієї сукупності збереження даних, проведення
простих операцій аналізу даних, які можливо здійснити на основі вбудова-
них засобів СКБД. На другому кроці відбувається обробка даних за допомо-
гою алгоритмів ІАГД або їх послідовне використання. Отримані результати
аналізуються з метою виявлення нової інформації та знань. За результатами
цього аналізу відбувається оцінювання результатів обробки та даних і в за-
лежності від того, чи відповідають отримані результати критеріям аналізу,
процедура аналізу повторюється з іншими параметрами, або отримані ре-
зультати передаються для прийняття на їх основі рішень (рис. 2).
До ІАГД відноситься декілька напрямів, які дозволяють провести різ-
ностороннє дослідження даних з урахуванням геопросторової складової. До
їх числа відносяться методи класифікації геопросторових даних, кластеріза-
ція та регіоналізація, правила асоціацій, геостатистика, геовізуалізація. Цей
перелік продовжує розширюватися разом із розвитком ІАГД. Кожний із цих
напрямів містить сукупність методів, за допомогою яких відбувається аналіз
даних (рис. 3).
Рис. 1. ІАГД у структурі СППР територіального управління
Інформаційний рівень Аналітичний Ситуаційний
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 24
ПРОСТОРОВА КЛАСИФІКАЦІЯ ТА ПРОГНОЗУВАННЯ
Класифікація є процесом групування елементів даних за класами (категорі-
ями) відповідно до їх властивостей (значення атрибутів). Класифікацію та-
кож називають керованою класифікацією, на відміну від некерованої класи-
фікації (кластеризація). Керована класифікація потребує початкового набору
даних для навчання (або налаштування) моделі класифікації, набору даних
Рис. 2. Процес обробки даних в ІАГД
Виконавець
Інтерфейс
ГБД
Обробка
даних
Виявлення
просторових
зв'язків
Оцінювання
результатів
Сфера
знання
База знань
СКБД
Корис-
тувач
Рішення
Інтелектуальний аналіз
геопросторових даних
Дерева рішень
Дискримінант-
ний аналіз
Нейронні
мережі
Правила
асоціації
Класифікація Кластеризація Геостатистика Геовізуалізація
Просторова
регресія
Просторова
кореляція
Просторова
інтерполяція
Крігінг
Аналіз
спільного
розташування
Топологічний
аналіз
Неієрархічні
Ієрархічні
Регіоналізація
Точкове
розміщення
Картографічне
моделювання
Пошуковий
просторовий
аналіз
Візуальна
аналітика
Метод опорних
векторів
Рис. 3. Класифікаційна структура методів ІАГД
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 25
перевірки для підтвердження (або оптимізації) конфігурації, і тестового на-
бору даних для оцінки якості моделі.
До методів класифікації належать, наприклад, дерева рішень, штучні
нейронні мережі (ШНМ), метод максимальної правдоподібності (ММП),
лінійний дискримінантний аналіз (ЛДА), метод SVM (support vector ma-
chines — метод опорних векторів), методи найближчого сусідства і методи
CBR (case-basedreasoning — методи на основі міркування).
Просторові методи класифікації розширюють загальні методи класифі-
кації враховуючи не тільки атрибути об’єкту, що класифікуються, але й ат-
рибути сусідніх об’єктів та їх просторові відносини. Серед таких розробок
варто звернути увагу на візуальний підхід до просторової класифікації, який
було впроваджено в дерево рішень засноване на традиційному алгоритмі
C4.5, що поєднується з картою візуалізації. Це дозволяє виявити просторові
закономірності правил класифікації. Індукція дерева рішень також викорис-
товується для аналізу і прогнозування просторового вибору поведінки [9].
Дистанційне зондування є одним з основних напрямків, у якому зазвичай
використовують методи класифікації для розподілу пікселів за категоріями.
Широке використання при аналізі пікселів здобули штучні нейронні мережі.
Правила асоціацій у видобутку даних були спочатку призначені для
виявлення закономірностей між записами у великих транзакціях баз даних.
Подібно до пошуку правил асоціації в транзакційних або реляційних базах
даних, правила просторових асоціацій можуть бути знайдені в базі геопрос-
торових даних, розглядаючи просторові властивості та предикати [16].
Правило просторової асоціації виражається у вигляді %]%,[BA cs ,
де А та В є наборами просторових або непросторових предикатів, %s —
підтримка правила, %c — впевненість у правилі.
Багато можливих просторових предикатів (наприклад, «близько до»,
«далеко від», «перетинання», «перекриття» тощо), можуть бути використані
в правилах просторової асоціації. Але це потребує розгляду дуже великого
обсягу обчислень різних просторових предикатів при виводі асоціативних
правил з великих обсягів просторових даних. Ще одна потенційна проблема
полягає у пошуку правил просторової асоціації, що може бути сформована
великою кількістю правил, багато з яких є очевидними або загальновідоми-
ми. Тому необхідна наявність предметних знань, щоб відфільтровувати три-
віальні правила і зосередитися тільки на нових і цікавих відкриттях.
Інтелектуальний аналіз просторової спільності розташування порівняно
подібний, але технічно дуже відрізняється від правил асоціації. Враховуючи
набір геопросторових даних і їх місце розташування, патерн спільності роз-
ташування є підмножинами об’єктів з певною частотою розташованих разом
(наприклад, деякі види птахів, як правило, проживають поряд з певним ти-
пом дерев). Виміри та алгоритми для інтелектуального аналізу просторових
спільностей розташування структур запропоновані в низці зарубіжних робіт
[17–19].
Методологічно з правилами асоціацій тісно пов’язаний аналіз тополо-
гії, який дозволяє встановлювати правила поведінки об’єктів один відносно
іншого, а також за допомогою функцій околу та оверлейних операцій вияв-
ляти подібні правила у геопросторових даних.
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 26
КЛАСТЕРИЗАЦІЯ ТА РЕГІОНАЛІЗАЦІЯ
Кластерний аналіз широко використовується як метод аналізу даних, який
організовує набори елементів даних у групах (кластерах) таким чином, що
елементи в одній групі більше схожі між собою та істотно відрізняються від
елементів в інших угрупованнях. Методи кластеризації можна поділити на
дві групи — неієрархічна та ієрархічна.
Для розгляду кластеризації геопросторових даних було проаналізовано
три типи кластеризації, у тому числі геопросторову кластеризацію (класте-
ризація просторових точок), регіоналізацію (кластеризація з географічними
обмеженнями примикання) і аналіз точкового розміщення (статистично ва-
гомі скупчення точок «hot spot» за статистикою просторового сканування).
Для першого типу просторової кластеризації схожість між точками даних
або кластерами визначається за просторовими властивостями (місце і від-
стань). Просторові методи кластеризації можуть бути неієрархічними або
ієрархічними, заснованими на основі розподілу щільності, або на основі рів-
норозподіленої сітки комірок.
Регіоналізація є особливою формою кластеризації, яка прагне поєднати
групи просторових об’єктів у просторово суміжні кластери (тобто регіони)
у ході оптимізації цільової функції. Багато географічних додатків, таких як:
кліматичне зонування, ландшафтний аналіз, сегментація даних дистанційно-
го зондування, часто вимагають, щоб кластери були географічно суміжни-
ми. Існуючі методи районування, засновані на концепції кластеризації,
можна розділити на три групи:
багатовимірна (непросторова) кластеризація, яка потім потребує до-
даткової просторової обробки з метою упорядкування кластерів у регіони;
кластеризація з виміром просторово зваженого відхилення, яка вва-
жає просторові властивості фактором формування кластерів;
кластеризація обмежена примиканням кластеризації, що слугує для
формування просторової безперервності в процесі кластеризації [12].
Аналіз точкового розміщення, який також відомий як аналіз «гарячі міс-
ця», фокусується на виявленні незвичайних концентрацій подій у просторі,
(наприклад, географічних кластерів хвороб, злочинності, або дорожньо-
транспортних пригод). Загальною дослідницькою проблемою є визначення
того, чи існує надлишок спостережуваних точкових подій (наприклад, випад-
ків захворювання) для області (наприклад, у межах певної відстані до міс-
ця). Для пошуку подібних просторових кластерів використовується декілька
статистичних методів, таких як метод Getis-Ord Gi [21], географічна машина
аналізу (ГМА) [15] та сімейство просторово-часових методів статистики ло-
кального сканування. Все частіше статистика для виявлення просторових
кластерів доступна для неевклідових просторів, зокрема мережевих просторів.
З метою радіоекологічної оцінки якості підземних вод для цілей водо-
споживання було проведено дослідження розподілу вмісту урану в під-
земних водах на території України. Метою дослідження було виявлення
територій, де спостерігається стійке перевищення гранично допустимої
концентрації (ГДК) забруднювача, тобто перевищення концентрації має
спостерігатися не тільки в одній пробі, а мати підтвердження на сусідніх
ділянках.
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 27
За основу для проведення дослідження було обрано результати геологі-
чної зйомки території України масштабу 1: 1 000 000 державного підприєм-
ства «Кіровгеологія», які містять відомості щодо вмісту природного урану
в ґрунтових водах. База містить результати аналізу проб води у 6550 точках
України, а також за її межами (на території Росії, Білорусі, Молдови).
Для здійснення цього дослідження було обрано аналіз гарячих точок за
методом Getis-Ord Gi, який працює шляхом аналізу кожного об’єкта в кон-
тексті сусідніх об’єктів. Щоб бути статистично суттєвої гарячою точкою,
об’єкт має бути високого значення і бути оточеним іншими об’єктами з та-
кими ж високими значеннями. Це дозволяє виділити ділянки зі стабільним
перевищенням допустимих концентрацій. Локальна сума для об’єкта та його
сусідів порівнюється пропорційно з сумою всіх об’єктів. Коли локальна су-
ма дуже відрізняється від очікуваної локальної суми, і ця відмінність є за-
надто великою, щоб бути результатом випадкового процесу, то виходить
статистично значуща z-оцінка, тобто стандартне відхилення показника
1
2
1 1
,
2
,
1 1
,
__
,
*
n
n
S
Xx
G
n
j
n
j
jiji
n
j
n
j
jijji
i
,
де jx — атрибутивне значення для точки j, ijw — просторова вага між точ-
ками i та ,j n — загальна кількість точок та:
n
x
X
n
j
j
1
__
, 2
__
1
2
)(X
n
x
S
n
j
j
.
Статистична величина ,*
iG повернута для кожного об’єкта в наборі да-
них, є z-оцінкою. Для статистично значущих позитивних z-оцінок, чим
більше z-оцінка, тим інтенсивніша кластеризація високих значень (гаряча
точка). Для статистично значущих негативних z-оцінок, чим менше z-оцінка,
тим інтенсивніша кластеризація низьких значень (холодна точка).
На рис. 4. показано карту точок проб ґрунтових вод на вміст урану, які
були оцінені за допомогою аналізу гарячих точок. На карті червоними
кольорами позначені гарячі точки та синіми кольорами холодні точки клас-
теризації. Побудова цієї моделі дозволила виявити статистично значущі зо-
ни високих значень природного урану та побудувати карту перевищення
гранично допустимих концентрацій урану у ґрунтових водах, що може нега-
тивно впливати на здоров’я населення (рис. 5). У цьому випадку територію
України поділено за статистичним показником ступеня небезпеки переви-
щення ГДК урану в ґрунтових водах. На карті можна побачити, що достат-
ньо висока радіоекологічна небезпека використання ґрунтових вод спостері-
гається в Центральній та Південно-Східній частині України.
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 28
Р
ис
. 4
. А
на
лі
з
да
ни
х
ро
зп
од
іл
у
ур
ан
у
в
гр
ун
то
ви
х
во
да
х
м
ет
од
ом
г
ор
яч
их
т
оч
ок
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 29
Р
ис
. 5
.
С
ту
пі
нь
н
еб
ез
пе
ки
п
ер
ев
ищ
ен
ня
Г
Д
К
у
ра
ну
в
ґ
ру
нт
ов
их
в
од
ах
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 30
Таким чином, подібні методи кластеризації можуть бути корисними
у широкому колі природничих та соціально-економічних досліджень. Іншим
різновидом групи статистичних методів є використання ГМА.
У якості тестової статистики в ГМА використовується кількість точок
(наприклад, випадки епідемічних хвороб) в межах певної області (кругової
області навколо центру комірки). Щоб визначити, чи має значущість кіль-
кість точок в області, використовується процедура Монте-Карло для генера-
ції великої кількості (наприклад, 500) випадкових наборів даних, кожний
з яких представляє реалізацію нульової гіпотези в тій же самій області. Зна-
чення статистики випробувань розраховують для кожного випадкового на-
бору даних і, таким чином, розподіл значень тестової статистики за наявної
нульової гіпотези є похідним. Порівнюючи фактичне значення тестової ста-
тистики (тобто кількість точок) і отримані результати розподілу, отримуємо
рівень значущості для тестової статистики в області. Потенційною пробле-
мою з ГМА є те, що важко встановити рівень для завдання мультитестуван-
ня. Обчислювальне навантаження також є недоліком, але в більшій чи мен-
ший мірі всім статистичним додаткам сканування буде потрібна значна
обчислювальна потужність для пошуку та тестування локальних кластерів.
Статистика локального сканування, розроблена Кульдорфом обчислює
відношення правдоподібності для кожної локальної області. Для подолання
проблеми множинного тестування, статистика локального сканування вико-
ристовує максимальне відношення правдоподібності (яка є максимальним
коефіцієнтом ймовірності серед усіх місць), як тестову статистику. Таким
чином, спосіб статистики локального сканування визначає найімовірніший
кластер, хоча множина вторинних кластерів також додається. Для цього
алгоритм спочатку обчислює відношення правдоподібності для кожної із
сукупності зон і знаходить максимум. Для виводу рівня значущості, гене-
руються копії наборів даних за нульової гіпотези, умови якої розповсюджу-
ються на загальну кількість точок. Для кожної реплікації, значення тестової
статистики обчислюють знову (тобто максимальне відношення правдоподі-
бності знаходиться над усіма перерахованими місцями). Тоді фактичне зна-
чення тестової статистики порівнюється з тестовими значенням всіх реплі-
кацій для отримання рівня значущості для найбільш ймовірного кластеру,
а також вторинних кластерів.
Характеризувати розподіл точок можна з використанням статистичних
індексів. Прикладом такого підходу є діаграма Морішіта. Індекс Морішіта
обчислюється для області, що розбита на рівнокутні комірки рівного розмі-
ру, за формулою [22]:
,
)1(
)1(
1
NN
nn
Q
i
ii
QI
де N — повне число точок мережі моніторингу; Q — кількість осередків
розбиття; in ( Qi ,,2,1 ) — число точок мережі моніторингу, що потра-
пили в i-ту комірку. Цей індекс характеризує ймовірність того, що під час
вибору двох випадкових точок вони опиняться в одній комірці. Існують три
типи характерних значень індексу Морішіта, комбінації яких дозволяють
судити про характеристики мережі моніторингу:
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 31
Величина індексу Морішіта із зростанням розміру комірки зростає
і прагне до 1. Тоді розподіл точок можна вважати рівномірним.
Величина індексу Морішіта не залежить від розміру комірки і при-
близно дорівнює 1 (коливається близько 1). Це означає, що розподіл точок
випадковий і не має кластерних структур.
Величина індексу Морішіта із зростанням розміру комірки зменшу-
ється або зростає вище 1 — розподіл точок мережі кластерний.
ГЕОВІЗУАЛІЗАЦІЯ
Цей напрям стосується розвитку теорії та методології полегшення констру-
ювання знань на основі візуального дослідження та аналізу геопросторових
даних та реалізації візуальних інструментів для подальшого пошуку знань,
синтезу, зв’язків та використання [11]. Як галузь, що активно розвивається,
геовізуалізація залучає інтереси різних наукових областей і розвивається
разом із різноманітним набором напрямів досліджень. Основна відмінність
між традиційною картографією та геовізуалізацією полягає в тому, що кар-
тографія фокусується на розробці та використанні карт для передачі інфор-
мації та суспільного споживання, а геовізуалізація підкреслює розвиток ін-
терактивних карт і пов’язаних з ними інструментів для дослідження даних,
побудови гіпотез і створення нових знань.
Геовізуалізація також має тісні зв’язки з дослідницьким аналізом даних
(EDA) і пошуковим просторовим аналізом даних (ESDA), які пов’язують
статистичні графіки і карти і спираються на вміння людини-експерта взає-
модіяти з даними, візуально виявляти закономірності і формулювати гіпоте-
зи/моделі. Однак, щоб впоратися з сучасними великими і різноманітними
наборами геопросторових даних і полегшити відкриття і розуміння складної
інформації, геовізуалізації необхідно вирішити ряд завдань, у тому числі:
ефективну обробку дуже великих наборів даних (big data);
обробку декількох сценаріїв і роботу з багатьма змінними одночас-
но, що дозволяє виявити складні зв’язки між даними;
розробку ефективних користувальницьких інтерфейсів і інтерактив-
ної стратегії полегшення пошукового процесу.
Для обробки великих масивів даних і візуалізації загальних закономір-
ностей, візуальні підходи часто поєднуються з обчислювальними методами
(кластеризація, класифікація та правила асоціації) для узагальнення даних,
виділення структур і допомоги користувачам під час вивчення і розуміння
закономірностей [9]. Для візуалізації різних точок зору і багатьох змінних
часто необхідно об’єднувати методи візуалізації з методами зменшення ро-
змірності, такими як багатовимірне шкалювання, аналіз головних компонент
(PCA), карти самоорганізації, або інші методи пошуку оптимального відо-
браження даних. Багатовимірне картографування є актуальною проблемою
дослідження, для якого було розроблено численні підходи, такі як: спеціально
розроблені символи; мультизв’язані перегляди; підходи, що ґрунтуються на
кластеризації [13]. Дослідницькі зусилля третьої хвилі з’явились як актив-
ний субнапрям — візуальна аналітика.
В.В. Путренко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 3 32
ВИСНОВКИ
ІАГД є перспективним напрямом наукових досліджень, який розвивається
на перетині геоінформатики, методів Data Mining та статистичних методів
обробки даних із широким залученням методології системного аналізу. Ос-
новною його метою використання є пошук закономірностей та відносин
у великих масивах даних, які містять просторово координовану прив’язку.
Тому використання ІАГД у складі СППР у територіальному управлінні та
прогнозуванні є важливим та актуальним інструментом обґрунтування
управлінських рішень. Процес реалізації ІАГД відрізняється стадійністю та
ітераційністю з метою пошуку оптимальних результатів аналізу. До основ-
них напрямів ІАГД відносяться класифікація, кластерізація, правила асоціа-
цій, геостатистика та геовізуалізація, які разом формують методологію сис-
темного інтелектуального аналізу з метою підтримки прийняття рішень.
ІАГД підвищує ефективність обробки даних разом із іншими методами ана-
лізу даних на основі різних інформаційних платформ.
Практичне застосування методів кластерізації для аналізу даних щодо
розподілу вмісту природного урану у пробах підземних вод дозволило ви-
явити території зі стабільним перевищенням норм ГДК, що може негативно
впливати на стан здоров’я населення.
Подальші дослідження пов’язані з дослідженням методичного апарату
окремих напрямів ІАГД та їх інтеграцією на системній основі.
ЛІТЕРАТУРА
1. Goodchild M.F. Citizens as sensors: The world of volunteered geography // Journal
of Geography. — 2007. — 69(4). — P. 211–221.
2. Іщук О.О., Коржнев М.М., Кошляков О.Е. Просторовий аналіз і моделювання
в ГІС: Навч. посібник /; за ред. акад. Д. М. Гродзинського. — К.: Вид.-
поліграфічний центр «Київський університет», 2003. — 200 с.
3. Згуровський М.З., Болдак А.О., Єфремов К.В. Интеллектуальный анализ и сис-
темное согласование научных данных в междисциплинарных исследованях
// Кибернетика и системный анализ. — 2013. — № 4. — С. 62–75.
4. Зацерковний В.І. Геоінформаційні технології як засіб інтелектуалізації
управління територіальними об’єктами // Вісник Астрономічної школи. —
2014. — 10, № 1–2. — 2014. — С. 97–101.
5. Петренко А.І. Grid та інтелектуальна обробка даних Data Mining // Системні
дослідження та інформаційні технології. — 2008. — № 4. — С. 97–110.
6. Сарычева Л.В. Пространственно-временной подход в задачах кластеризации //
Штучний інтелект. — 2006. — № 3. — С. 646–653.
7. Ситник В.Ф., Краснюк М.Т. Інтелектуальний аналіз даних (дейтамайнінг):
навч. посібник. — К.: КНЕУ, 2007. — 376 с.
8. Черняк О.І., Захарченко П.В. Інтелектуальний аналіз даних: Підручник. — К.:
Знання, 2014. — 599 с.
9. Andrienko G., Andrienko N. Data mining with C4.5 and interactive cartographic
visualization // In N. W. G. T. Paton (Ed.), User interfaces to data intensive sys-
tems. Los Alamitos, CA: IEEE Computer Society. — 1999. — P. 162–165.
10. Cleve C., Kelly M., Kearns F.R., Morltz M. Classification of the wildland–urban in-
terface: A comparison of pixel- and object-based classifications using high-
Системні основи інтелектуального аналізу геопросторових даних
Системні дослідження та інформаційні технології, 2015, № 3 33
resolution aerial photography // Computers Environment and Urban Systems. —
2008. — 32(4). — P. 317–326.
11. Guo D., Gahegan M., MacEachren A.M., Zhou B. Multivariate analysis and geovisu-
alization with an integrated geographic knowledge discovery approach // Cartog-
raphy and Geographic Information Science. — P. 113–132.
12. Guo D. Regionalization with dynamically constrained agglomerative clustering and
partitioning (REDCAP) // International Journal of Geographical Information Sci-
ence. — 2005. — 22(7). — P. 801–823.
13. Han J., Kamber M., Tung A.K.H. Spatial clustering methods in data mining: A sur-
vey / In H. J. Miller & J. Han (Eds.). — Geographic data mining and knowledge
discovery. London and New York: Taylor and Francis. — 2001. — P. 33–50.
14. Koperski K. An efficient two-step method for classification of spatial data /
K. Koperski, J. Han and N. Stefanovic // In 1998 international symposium on
spatial data handling SDH’98, Vancouver, BC, Canada. — 1998. — P. 45–54.
15. Kulldorff M. A spatial scan statistic // Communications in Statistics. — Theory and
Methods. — 1997. — 26(6). — P. 1481–1496.
16. Mennis J., Liu J. W. Mining association rules in spatio-temporal data: An analysis of
urban socioeconomic and land cover change // Transactions in GIS. — 2005. —
9(1). — P. 5–17.
17. Miller H., Han J. Geographic data mining and knowledge discovery: An overview //
Geographic data mining and knowledge discovery. CRC Press, Taylor and Fran-
cis Group. — 2009. — P. 1–26.
18. Openshaw S., Charlton M., Wymer C., Craft A. A mark 1 geographical analysis ma-
chine for the automated analysis of point data sets // International Journal of Geo-
graphical Information Science. — 1987. — 1(4). — P. 335–358.
19. Shekhar S., Huang Y. Discovering spatial co-location patterns: A summary of results
/ In C. Jensen, M. Schneider, B. Seeger, & V. Tsotras (Eds.). // Advances in spa-
tial and temporal databases, proceedings, lecture notes in computer science. Ber-
lin: Springer-Verlag. — 2001. — P. 236–256.
20. Shiode S., Shiode N. Detection of multi-scale clusters in network space // Interna-
tional Journal of Geographical Information Science. — 2009. — 23. — P. 75–92.
21. Ord J.K., Getis A. Local Spatial Autocorrelation Statistics: Distributional Issues and
an Application // Geographical Analysis. — 1995. — № 27(4). — P. 13–22.
22. Cressie N. Statistics for spatial data. — NY: John Wiley & Sons, 1991. — 900 p.
Надійшла 15.05.2015
|