Grid та інтелектуальна обробка даних Data Mining

Обговорюються відмінності застосувань методів Data Mining від класичних статистичних методів аналізу і OLAP-систем. Розглядаються типи закономірностей, які виявляються цими методами у процесі розв’язання різноманітних задач (асоціація, класифікація, послідовність, кластеризація, прогнозування). Опис...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2008
Автор: Петренко, А.І.
Формат: Стаття
Мова:Українська
Опубліковано: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2008
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/12005
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Grid та інтелектуальна обробка даних Data Mining / А.І. Петренко // Систем. дослідж. та інформ. технології. — 2008. — № 4. — С. 97-110. — Бібліогр.: 8 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860046387200131072
author Петренко, А.І.
author_facet Петренко, А.І.
citation_txt Grid та інтелектуальна обробка даних Data Mining / А.І. Петренко // Систем. дослідж. та інформ. технології. — 2008. — № 4. — С. 97-110. — Бібліогр.: 8 назв. — укр.
collection DSpace DC
description Обговорюються відмінності застосувань методів Data Mining від класичних статистичних методів аналізу і OLAP-систем. Розглядаються типи закономірностей, які виявляються цими методами у процесі розв’язання різноманітних задач (асоціація, класифікація, послідовність, кластеризація, прогнозування). Описуються сфери застосування Data Mining. Наводиться приклад системи АDaM, що працює в середовищі Grid і дистанційно обробляє наукові дані. Обсуждаются отличия применения методов Data Mining от классических статистических методов анализа и OLAP-систем. Рассматриваются типы закономерностей, которые обнаруживаются этими методами в процессе решения различных задач (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описываются области применения Data Mining. Приводится пример системы ADaM, работающей в среде Grid и дистанционно обрабатывающей научные данные. The difference in implementation of the Data Mining methods for data processing and the classic statistical methods of analysis and OLAP systems is considered. Hidden links and laws discovered by Data Mining are reviewed for various problems (association, classification, sequence, clusterization, prognostication). The Data Mining application fields and an example of the ADaM system, working in the Grid environment and processing scientific data remotely, are described.
first_indexed 2025-12-07T16:58:04Z
format Article
fulltext © А.І. Петренко, 2008 Системні дослідження та інформаційні технології, 2008, № 4 97 TIДC ПРОБЛЕМНО І ФУНКЦІОНАЛЬНО ОРІЄНТОВАНІ КОМП’ЮТЕРНІ СИСТЕМИ ТА МЕРЕЖІ УДК 004.8; 681.3.06-519.852.6 GRID ТА ІНТЕЛЕКТУАЛЬНА ОБРОБКА ДАНИХ DATA MINING А.І. ПЕТРЕНКО Обговорюються відмінності застосувань методів Data Mining від класичних статистичних методів аналізу і OLAP-систем. Розглядаються типи закономір- ностей, які виявляються цими методами у процесі розв’язання різноманітних задач (асоціація, класифікація, послідовність, кластеризація, прогнозування). Описуються сфери застосування Data Mining. Наводиться приклад системи АDaM, що працює в середовищі Grid і дистанційно обробляє наукові дані. ВСТУП: ПЕРСПЕКТИВИ ТЕХНОЛОГІЇ DATA MINING Нещодавно в Україні почали функціонувати cвітовий центр даних «Геоін- форматика і сталий розвиток» і національна Grid-інфраструктура (акаде- мічний і освітянський сегменти), тому вітчизняні вчені і фахівці можуть розраховувати зараз на підвищені обсяги даних з різних галузей, що оброб- ляються в об’єднаній мережі кластерів країни. Розвиток методів запису і зберігання даних викликав бурхливе зростання об’ємів збираної і аналізова- ної інформації. Об’єми даних настільки значні, що людина просто не спро- можна проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже в цих «сирих даних» закладено знання, які можуть бути використані при ухваленні рішень. Для того щоб провести автоматичний аналіз даних, використовується Data Mining (здобич (витягання) знань). Це нова технологія інтелектуально- го аналізу даних з метою виявлення прихованих закономірностей у вигляді значущих особливостей, кореляцій, тенденцій і шаблонів. Сучасні системи «здобичі» даних використовують засновані на методах штучного інтелекту засоби уявлення і інтерпретації, що і дозволяє знаходити розчинену в терабайтних сховищах не очевидну, але вельми цінну інформацію. Фактично, ми говоримо про те, що в процесі Data mining система не відштовхується від наперед висунутих гіпотез, а пропонує їх сама на основі аналізу. Існує безліч визначень Data Mining, але в цілому вони співпадають у виділенні чотирьох основних ознак. За визначенням Г. Піатецького–Шапіро (G. Piatetsky–Shapiro,GTE Labs), одного з ведучих світових експертів у даній області, Data Mining — це дослідження і виявлення алгоритмами, засобами А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 98 штучного інтелекту в «сирих даних» прихованих структур, шаблонів або залежностей, які 1) раніше не були відомі; 2) нетривіальні; 3) практично корисні; 4) доступні для інтерпретації людиною і необхідні для ухвалення рі- шень в різних сферах діяльності. Специфіка сучасних вимог до продуктивної переробки інформації: • дані мають необмежений обсяг; • дані є різнорідними (кількісними, якісними, текстовими); • результати — конкретні та зрозумілі; • інструменти для обробки «сирих даних» — прості у використанні. Традиційна математична статистика, яка довгий час претендувала на роль основного інструменту аналізу даних, не відповідала новим пробле- мам. Головна причина — концепція усереднювання по вибірці, що тягне за собою операції над фіктивними величинами. Методи математичної статис- тики виявилися корисними, головним чином, для перевірки наперед сфор- мульованих гіпотез і для «грубого розвідувального аналізу», який є основою оперативної аналітичної обробки даних OLAP. Основа сучасної технології Data Mining — концепція шаблонів (pattern), що відображають фрагменти багатоаспектних взаємостосунків да- них. Цими шаблонами є закономірності, властиві підвибіркам даних, які можуть бути компактно виражені у формі, зрозумілій людині. Пошук шаб- лонів проводиться методами, не обмеженими рамками апріорних припу- щень про структуру вибірки і видом розподілів значень аналізованих показ- ників. Причини популярності Data Mining: • стрімке накопичення даних (рахунок йде вже на экзабайти); • загальна комп’ютеризація бізнес-процесів; • проникнення Інтернет у всі сфери діяльності; • прогрес в області інформаційних технологій: вдосконалення СУБД і сховищ даних; • прогрес в області виробничих технологій: стрімке зростання продук- тивності комп’ютерів, об’ємів накопичувачів, впровадження Grid-систем. Алгоритми, які використовуються в Data Mining, вимагають великої кількості обчислень. Раніше це було стримуючим чинником широкого прак- тичного застосування Data Mining, проте сьогоднішнє зростання продуктив- ності сучасних процесорів зняло гостроту цієї проблеми. Тепер за прийнят- ний час можна провести якісний аналіз сотень тисяч і мільйонів записів. Data Mining – міждисциплінарна галузь, що виникла і розвивалася на базі таких наук, як прикладна статистика, розпізнавання образів, штучний інте- лект, теорія баз даних і т.ін. (рис. 1 [1]). Потенціал Data Mining дає «зелене світло» розширенню меж застосу- вання цієї технології. Щодо перспектив Data Mining, то можливі такі напря- ми розвитку: • виділення типів предметних галузей з їх евристиками, формалізація яких полегшить рішення відповідних задач Data Mining, що відносяться до цих галузей; Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 99 • створення формальних мов і логічних засобів, за допомогою яких будуть формалізовані міркування і автоматизація яких стане інструментом рішення задач Data Mining у конкретних предметних галузях; • створення методів Data Mining, здатних не тільки «витягувати» з да- них закономірності, але й формувати деякі теорії, які спираються на емпіри- чні дані; • подолання істотного відставання можливостей інструментальних за- собів Data Mining від теоретичних досягнень в цій області. Якщо розглядати майбутнє Data Mining у короткостроковій перспекти- ві, то очевидно, що розвиток цієї технології здебільшого скерований на га- лузі, пов’язані з Grid-системами для e-Science. Можливості e-Science харак- теризують обчислювальну інфраструктуру, яка складається з трьох концептуальних рівнів (рис. 2). 1. Сервіси даних/обчислень. Цей рівень містить інформацію про роз- ташування обчислювальних ресурсів, виділених на обчислення, та про засоби передавання даних між різними обчислювальними ресурсами. Він може опра- цьовувати великі обсяги даних, забезпечуючи швидкі мережі, і надавати рі- зноманітні ресурси як єдиний метакомп’ютер. 2. Інформаційні сервіси. Вказує, яким чином інформація передається, зберігається, хто має до неї доступ. Тут інформація виступає як дані зі зна- ченням. Наприклад, виявлення цілого числа як температури процесу реакції, розпізнавання, що рядок — ім’я людини. Е-наукове середовище Сервіси знань Інформаційні сервіси Сервіси даних і обчислень Рис. 2. Трирівнева архітектура Grid-сервісів Рис. 1. Data Mining як міждисциплінарна галузь Інші дисципліни Статистика Data Mining Візуалізація Теорія БД Комп’ютерне навчання Штучний інтелект Розпізнавання образів Алгоритміза- ція А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 100 3. Сервіси знань. Надає спосіб, яким знання придбане, використову- ється, знайдено, опубліковане, щоб допомогти користувачам досягати своїх специфічних цілей. Тут знання подаються як інформація, застосована для досягнення мети, вирішення проблеми або прийняття рішення. Прикладом може бути процедура розпізнавання оператором підприємства моменту ча- су, коли температура реакції вимагає завершення виконання процесу. Розглянуті поняття є складовою частиною так званої інформаційної пі- раміди, в основі якої знаходяться дані, наступний рівень — інформація, по- тім йде рішення, завершує піраміду рівень знання. При просуванні вгору по інформаційній піраміді об’єми даних переходять в цінність рішень, тобто цінність знань. Як видно з рис. 2, даний процес є циклічним. Ухвалення рі- шень вимагає інформації, заснованої на даних. Дані забезпечують інформа- цію, що підтримує рішення, і т.д. Grid-системи, які уже побудовані, або ті, що будуть побудовані, містять деякі елементи всіх трьох рівнів. Ступінь важливості використання цих рів- нів визначатиметься користувачем. Таким чином, у деяких випадках обробка величезних обсягів даних буде домінуючим завданням, у той час, як в інших випадках обслуговування знання — основною проблемою. Дотепер більшість науково-дослідних робіт в галузі Grid концентрувалася на рівні да- них/обчислень та на інформаційному рівні. У той же час все ще багато не- вирішених проблем, які стосуються керування широкомасштабними розпо- діленими обчисленнями та ефективного доступу і розповсюдження інформації з гетерогенних джерел. Вважається, що повного потенціалу Grid- обчислень можна набути тільки завдяки тривалій експлуатації функціональ- них можливостей та можливостей, які надаються рівнем знання. Тому цей рівень необхідний для автоматизованого прямого простого доступу до опера- цій і взаємодій. МЕТОДИ І ЗАДАЧІ DATA MINING Основна особливість Data Mining — це поєднання широкого математичного інструментарію (від класичного статистичного аналізу до нових кібернетич- них методів) і останніх досягнень у сфері інформаційних технологій. У тех- нології Data Mining гармонійно об’єдналися строго формалізовані методи і методи неформального аналізу, тобто кількісний і якісний аналізи даних. До методів і алгоритмів Data Mining належать: штучні нейронні мережі, дерева рішень, символьні правила, методи найближчого сусіда і к- найближчого сусіда, метод опорних векторів, байесові мережі, лінійна ре- гресія, кореляційно-регресійний аналіз; ієрархічні методи кластерного ана- лізу, неієрархічні методи кластерного аналізу, у тому числі алгоритми к- середніх і к-медіани; методи пошуку асоціативних правил, у тому числі ал- горитм apriori; метод обмеженого перебору, еволюційне програмування і генетичні алгоритми, різноманітні методи візуалізації даних і безліч інших методів. Більшість аналітичних методів, які використовуються в технології Data Mining, — це відомі математичні алгоритми і методи. Новим є те, що їх мо- жна застосовувати при рішенні тих або інших конкретних проблем. Це обу- мовлено новими властивостями технічних і програмних засобів. Слід зазна- Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 101 чити, що більшість методів Data Mining розроблено в рамках теорії штучно- го інтелекту. Єдиної думки щодо того, які задачі слід відносити до Data Mining, не- має. Більшість авторитетних джерел називає такі: класифікація, кластериза- ція, прогнозування, асоціація, візуалізація, аналіз і виявлення відхилень, оцінювання, аналіз зв’язків, підведення підсумків. Розглянемо деякі з них. Класифікація (Classification). Найпростіша і поширеніша задача Data Mining. У результаті рішення цієї задачі виявляються ознаки, які харак- теризують групи об’єктів досліджуваного набору даних — класи. За цими ознаками новий об’єкт можна віднести до того або іншого класу. Для розв’язання задачі класифікації можуть використовуватися методи най- ближчого сусіда (Nearest Neighbor), к-найближчого сусіда (к-Nearest Neighbor), байесові мережі (Bayesian Networks), індукція дерев рішень, ней- ронні мережі (neural networks). Кластеризація (Clustering). Логічне продовження ідеї класифікації. Ця задача складніша. Особливість кластеризації полягає в тому, що класи об’єктів спочатку не визначені. Результатом кластеризації є розбиття об’єктів на групи. Прикладом методу задачі кластеризації є особливий вид нейронних мереж (карти Кохонена), які самоорганізуються без вчителя. Асоціація (Associations). Відшукуються закономірності між зв’язаними подіями в наборі даних. Відмінність асоціації від двох попередніх задач Data Mining: пошук закономірностей здійснюється не на основі властивостей об’єкту, що аналізується, а між декількома подіями, що відбуваються одно- часно.Самий відомий алгоритм рішення задачі пошуку асоціативних пра- вил — алгоритм apriori. Послідовність (Sequence), або послідовна асоціація (sequential association). Дозволяє знайти тимчасові закономірності між транзакціями. Задача послідовності подібна асоціації, але її метою є встановлення законо- мірностей не між одночасними подіями, а між подіями, які відбуваються з деяким певним інтервалом у часі. Цю задачу Data Mining також називають задачею знаходження послідовних шаблонів (sequential pattern).Правило послідовності: після події X через певний час відбудеться подія У. Прогнозування (Forecasting). На основі особливостей існуючих даних оцінюються пропущені або ж майбутні значення цільових чисельних показ- ників. Для вирішення таких задач широко застосовуються методи математи- чної статистики, нейронні мережі і т. ін. Візуалізація (Visualization, Graph Mining). Створюється графічний об- раз аналізованих даних. Для вирішення цієї задачі використовуються графі- чні методи, які показують наявність закономірностей у даних. Приклад ме- тодів візуалізації — представлення даних в 2-D і 3-D вимірюваннях. Підведення підсумків (Summarization). Опис конкретних груп об’єктів з аналізованого набору даних та ін. Задачі Data Mining, залежно від моделей можуть бути дескриптивни- ми і прогнозуючими. У результаті розв’язання описових (descriptive) задач аналітик одержує шаблони, які описують дані, що піддаються інтерпретації. Ці задачі надають загальну концепцію аналізованих даних, визначають інформативні, підсумкові, відмітні особливості даних. Прогнозуючі (predictive) задачі грунтуються на аналізі даних, створенні моделі, перед- баченні тенденцій або властивостей нових або невідомих даних. А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 102 КЛАСИФІКАЦІЯ СТАДІЙ DATA MINING Data Mining може складатися з двох або трьох стадій. Стадія 1. Виявлення закономірностей (вільний пошук). Стадія 2. Використовування виявлених закономірностей для прогнозу невідомих значень (прогностичне моделювання). На додаток до цих стадій іноді вводять стадію оцінювання (валідації) , наступну за стадією вільного пошуку. Мета валідації — перевірка достовір- ності знайдених закономірностей. Проте, ми вважатимемо валідацію части- ною першої стадії, оскільки в реалізації багатьох методів (зокрема, нейрон- них мереж і дерев рішень) передбачено розподіл загальної множини даних на навчальні і перевірочні, і останні дозволяють контролювати достовірність отриманих результатів. Стадія 3. Аналіз виключень. Виявлення і пояснення аномалій, знайде- них у закономірностях. Вільний пошук (Discovery). Дослідження набору даних з метою по- шуку прихованих закономірностей. Попередні гіпотези щодо виду закономірностей тут не визначаються. Закономірність (law) — істотний і постійно повторюваний взаємозв’язок, що визначає етапи і форми процесу становлення та розвитку різних явищ або процесів. Система Data Mining на цій стадії визначає шаблони, для отримання яких в системах OLAP, наприклад, аналітику необхідно обмірковувати і створювати множину запитів. Тут же аналітик звільняється від такої робо- ти — шаблони шукає за нього система. Особливо корисно застосовувати даний підхід у надвеликих базах даних, де встановити закономірність шля- хом створення запитів достатньо складно, для цього необхідно перепробу- вати безліч різноманітних варіантів. Вільний пошук — це такі дії: • виявлення закономірностей умовної логіки (conditional logic); • закономірностей асоціативної логіки (associations and affinities); • трендів і коливань (trends and variations). Описані дії в рамках стадії вільного пошуку виконуються при допомозі: • індукції правил умовної логіки (задач класифікації і кластеризації, опису в компактній формі близьких або схожих груп об’єктів); • індукції правил асоціативної логіки (задач асоціації і послідовності та витягування при їх допомозі інформації); • визначення трендів і коливань (початковий етап задачі прогнозуван- ня). На стадії вільного пошуку також повинна здійснюватися валідація за- кономірностей, тобто перевірка їх достовірності на частині даних, які не брали участі у формуванні закономірностей. Прогностичне моделювання (Predictive Modeling). Друга стадія Data Mining. Використовує результати роботи першої стадії. Тут знайдені закономірності використовуються безпосередньо для прогнозування. Про- гностичне моделювання — це такі дії: • прогноз невідомих значень (outcome prediction) та • розвитку процесів (forecasting). Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 103 У процесі прогностичного моделювання розв’язуються задачі класифі- кації і прогнозування. При розв’язанні задачі класифікації результати робо- ти першої стадії (індукції правил) використовуються для віднесення нового об’єкта з певною ймовірністю до одного з відомих, наперед визначених кла- сів на підставі заданих значень. При рішенні задачі прогнозування результа- ти першої стадії (визначення тренда або коливань) використовуються для прогнозу невідомих (пропущених або ж майбутніх) значень цільової змінної (змінних). Порівняємо вільний пошук і прогностичне моделювання з точки зору логіки. Вільний пошук розкриває загальні закономірності. Він по своїй при- роді індуктивний. Закономірності, отримані на цій стадії, формуються від часткового до загального. У результаті ми одержуємо деяке загальне знання про деякий клас об’єктів на підставі дослідження окремих представників цього класу. Прогностичне моделювання, навпаки, дедуктивне. Закономірності, отримані на цій стадії, формуються від загального до часткового. Тут ми одержуємо нове знання про деякий об’єкт або ж групи об’єктів на підставі: • знання класу, до якого належать досліджувані об’єкти, та • загального правила, що діє в межах даного класу об’єктів. Аналіз виключень (forensic analysis). Третя стадія Data Mining. Аналі- зуються виключення або аномалії, виявлені в знайдених закономірностях. Дія, виконувана на цій стадії, — виявлення відхилень (deviation detection), для чого необхідно визначити норму, що розраховується на стадії вільного пошуку.Стадія аналізу виключень може бути використана як очищення да- них. ПРАКТИЧНІ РЕАЛІЗАЦІЇ DATA MINING Сьогодні у світі існують декілька комерційних і фірмових систем (PolyAnalyst,Weka, Orange Canvas, SVMlightб, Cognos та ін.)[4, 8]. Вартість масових систем від $1000 до $10000. Кількість інсталяцій масових продуктів досягає десятків тисяч. Особливості Data Mining-систем розглянемо на прикладі системи ADaM (Algorithm Development and Mining System ), розробленої Центром інформаційних технологій і систем (ITSC) в університеті Алабами, яка ви- користовується для дистанційної обробки наукових даних технологіями Data Mining [6]. Створені засоби Data Mining складаються із взаємодіючих компонентів. Їх можна для різних прикладних задач включати у спеціалізо- вані додатки. ADaM містить понад 100 компонентів, які можуть бути конфі- гуровані так, щоб на замовлення користувача створювати необхідні процеси інтелектуального аналізу даних. Нові компоненти можуть бути легко додані, щоб пристосувати систему до інших проблем науки. Кожний компонент ADaM підтримується С, C++ або іншим програм- ним інтерфейсом додатку (API), загальними інструментальними засобами опису ( Perl, Python, сценарії оболонок) і, кінець кінцем, інтерфейсом Web- сервісів, що забезпечує використання Web- і Grid-додатків. Компоненти ADaM — універсальні модулі інтелектуального аналізу даних (mining) і об- А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 104 робки зображень, які можуть бути легко пристосовані до численних рішень і задач. Приклади компонентів ADаМ наведено нижче. Компоненти ADaМ Методи класифікації • Bayes Classifier • Naïve Bayes Classifier • Bayes Network Classifier • CBEA Classifier • Decision Tree Classifier • SEA classifier • Very Fast Decision Tree Classifier • Back Propagation Neural Network • k-Nearest Neighbor Classifier • Multiple Prototype Minimum Distance Classifier • Recursively Splitting Neural Network Методи кластеризації • DBSCAN • Hierarchical Cluster ing • Isodata • k-Means • k-Mediods • Maximin Методи оцінки властивостей • Backward Elimina tion • Forward Selection • Principal Compo nents • RELIEF (filter-based feature selection) • Removing Attributes • Checking Range Методи розпізнавання образів • Accuracy Measures • Data Cleaning • k-Fold Cross Valida tion • Vector Magnitude • Merging Patterns • Normalization • Sampling • Subsetting • Statistics • Cleaning Outliers • Comparing Image File • Comparing ASCII files • Discretization • Magnitude Compu tation Методи асоціації • Apriori Методи оптимізації • Genetic Algorithm • Hill Climbing • Simulated Annealing Базові перетворен- ня зображень • Arithmetic Operations(+-*/) • Collaging • Cropping • Image Difference • Image Normalization • Image Moments • Equalization • Inverse • Quantization • Relative Level Quantization • Resampling • Rotation • Scaling • Statistics • Thresholding • Vector Plot Визначення форм, сегментів, границь • Boundary Detection • Polygon Circum scription • Making Region • Marking Region Методи фільтрації • Dilation • Energy Erosion • Fast Fourier Trans- fer • Median and Mode Filters • Pulse Coupled Neural Network • Spatial Filter Визначення елеме- нтів текстур • Association Rules • Fractal Dimension • Gabor Filter • GLCM (Gray Level Concurrence Matrix) • GLRL (Gray Level Run Length) • Markov Random Field Computing Центр ITSC є партнером NSF (National Science Foundation) дослідни- цького проекту у сфері ІТ під назвою LEAD (Linked Environments for Atmospheric Discovery — зв’язані оточення для дослідження атмосфери). Формування користувачем з окремих компонентів ADaМ завдання на інте- лектуальну обробку показано на рис. 3, а візуалізацію змодельованого тор- надо — на рис. 4. Онтологія — це засіб опису семантики проблемної області за допомо- гою словника і підібраної специфікації існуючих в ній відношень та обме- жень, які забезпечують інтеграцію словника. Інформаційні онтології ство- рюються завжди з конкретною метою — рішення конструкторських задач — і оцінюються більше щодо використання, ніж повноти. Онтології — це фун- даментальні блоки для будівництва семантичної Grid. Їх визначають як роз- ширення існуючої Grid, де інформації та сервісам надаються конкретні зна- чення, покращені можливості для об’єднаної роботи людей та комп’ютерів. Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 105 Для проекту LEAD створена онтологія, яка забезпечує семантичні ме- тадані для наборів даних і служить як освітній сервіс, ресурс знань і список посилань для громадськості. ITSC проводить дослідження по створенню національної кібернетичної інфраструктури для виконання широкомас- штабних наукових досліджень і проектування. Спільно з академічними установами, Урядом і промисловістю ITSC встановлює регіональну оптичну мережу, пов’язану із національними і між- народними дослідницькими і освітніми мережами. Дослідження ITSC в об- Рис. 3. Приклад формування завдання для Data Mining Рис. 4. Вихідна інформація Data Mining 80 75 65 55 45 35 25 15 1440,0 1152,0 864,0 576,0 288,0 5 1440,01152,0864,0576,0288,0 км км 0 А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 106 числювальних мережах високої продуктивності містять розробку паралель- них алгоритмів і оцінку продуктивності та регулювання обчислювальних кластерів і паралельних файлових систем. ITSC розробляє алгоритми реаль- ного часу для об’єднання даних і трасування для дуже великих сенсорних мереж. Мережі, що налічують більше мільйона різнорідних давачів, викори- стовуються для відстежування сотень цільових об’єктів при моделюванні військових дій. СФЕРИ ЗАСТОСУВАННЯ DATA MINING Слід відразу визначити, що область використовування Data Mining нічим не обмежена. Вона скрізь, де є які-небудь дані. Можна виділити два напрями застосування систем Data Mining: як масового продукту і як інструменту для проведення унікальних досліджень. Зараз технологія Data Mining викорис- товується практично у всіх сферах діяльності людини, де накопичені ретро- спективні дані. Розглянемо основні сфери застосування технології Data Mining більш детально: наука, бізнес, роздрібна торгівля і Web-напрям [1,5,7]. 1. Data Mining для наукових досліджень і промисловості Одна з наукових областей застосування технології Data Mining — біоінфор- матика, напрям, метою якого є розробка алгоритмів для аналізу і система- тизації генетичної інформації. Отримані алгоритми використовуються для визначення структур макромолекул, а також їх функцій для пояснення різ- них біологічних явищ. Не дивлячись на консервативність медицини в багатьох її аспектах, технологія Data Mining останніми роками активно застосовується для різних досліджень і в цій сфері людської діяльності. Традиційно для постановки медичних діагнозів використовуються експертні системи, побудовані на ос- нові символьних правил, що поєднують, наприклад, симптоми пацієнта і його захворювання. З використанням Data Mining за допомогою шаблонів можна розробити базу знань для експертної системи. В області фармацевтики методи Data Mining також мають достатньо широке застосування. Це задачі дослідження ефективності клінічного засто- сування певних препаратів, визначення груп препаратів, які будуть ефекти- вні для конкретних груп пацієнтів. Актуальними тут також є задачі просу- вання лікарських препаратів на ринок. У молекулярній генетиці і генній інженерії виділяють окремий на- прям Data Mining, який має назву «аналіз даних у мікромасивах (Microarray Data Analysis, MDA)». Деякі застосування цього напряму: • нова молекулярна мета для терапії; • рання і більш точна діагностика; • поліпшення та індивідуальний підбір видів лікування; • фундаментальні біологічні відкриття. Приклади використовування Data Mining — молекулярний діагноз де- яких найсерйозніших захворювань; відкриття того, що генетичний код дійс- Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 107 но може передбачати вірогідність захворювання; винахід деяких нових ліків і препаратів. Основні поняття, якими оперує Data Mining в областях «Молекулярна генетика і генна інженерія», — маркери, тобто генетичні коди, які контро- люють різні ознаки живого організму. На фінансування проектів з викорис- танням Data Mining у даних сферах виділяють значні фінансові кошти. Технологія Data Mining активно використовується в дослідженнях ор- ганічної і неорганічної хімії. Одне з можливих застосувань Data Mining в цій сфері — виявлення деяких специфічних особливостей побудови з’єднань, які можуть складатися із тисячі елементів. Основні задачі Data Mining у промисловому виробництві : • комплексний системний аналіз виробничих ситуацій; • короткостроковий і довгостроковий прогнози розвитку виробничих ситуацій; • вироблення варіантів оптимізаційних рішень; • прогнозування якості виробу залежно від деяких параметрів техно- логічного процесу; • виявлення прихованих тенденцій і закономірностей розвитку вироб- ничих процесів; • прогнозування закономірностей розвитку виробничих процесів; • виявлення прихованих чинників впливу; • виявлення та ідентифікація раніше невідомих взаємозв’язків між ви- робничими параметрами і чинниками впливу; • аналіз середовища взаємодії виробничих процесів і прогнозування зміни її характеристик; • вироблення оптимізаційних рекомендацій по управлінню виробни- чими процесами; • візуалізація результатів аналізу, підготовка попередніх звітів і прое- ктів допустимих рішень з оцінками достовірності і ефективності можливих реалізацій. Наприклад, при збірці автомобілів виробники повинні враховувати ви- моги кожного окремого клієнта, тому їм потрібна можливість прогнозувати популярність певних характеристик і знання того, які характеристики зви- чайно замовляються у сукупності. Виробникам потрібно також передбачати число клієнтів, що подадуть гарантійні заявки, і середню вартість заявок. Авіакомпанії можуть знайти групу клієнтів, яких даними заохочувальними заходами можна спонукати літати більше. Наприклад, одна авіакомпанія виявила категорію клієнтів, які здійснювали багато польотів на короткі від- стані, не накопичуючи достатньо миль для вступу до їх клубів, тому вона змінила правила прийому в клуб, щоб заохочувати число польотів так само, як і милі. 2. Data Mining для вирішення бізнес-задач Досягнення технології Data Mining використовуються в банківській справі для вирішення таких задач: А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 108 • Виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом були визнані шахрайськими, банк визначає деякі стереотипи такого шахрайства. • Сегментація клієнтів. Розділяючи клієнтів на різні категорії, банки здійснюють свою маркетингову політику більш цілеспрямовано і результа- тивно, пропонуючи різні види послуг різним групам клієнтів. • Прогнозування змін клієнтури. Data Mining допомагає банкам буду- вати прогнозні моделі цінності своїх клієнтів і відповідним чином обслуго- вувати кожну категорію. У електронній комерції Data Mining застосовується для формування рекомендаційних систем і рішення задач класифікації відвідувачів Web- сайтів. Така класифікація дозволяє компаніям виявляти певні групи клієнтів і проводити маркетингову політику відповідно до знайдених інтересів і по- треб клієнтів. Технологія Data Mining для електронної комерції тісно пов’язана з технологією Web Mining. У сфері маркетингу Data Mining знаходить дуже широке застосування для відповідей на основні питання маркетингу «Що продається?», «Як продається?», «Хто є споживачем?». Інший поширений набір методів для вирішення задач маркетингу — методи і алгоритми пошуку асоціативних правил. Також успішно тут використовується пошук тимчасових закономір- ностей. 3. Роздрібна торгівля. Збирається докладна інформація про кожну окрему купівлю із використанням кредитних карток з маркою магазину і комп’ютеризованих систем контролю. Ось типові задачі, які можна вирішу- вати за допомогою Data Mining у сфері роздрібної торгівлі: • Аналіз середовища взаємодії виробничих процесів і прогнозування зміни її характеристик. Аналіз купівельної корзини (аналіз схожості) призна- чений для виявлення товарів, які покупці прагнуть придбати сукупно. Знан- ня купівельної корзини необхідне для поліпшення реклами, вироблення стратегії створення запасів товарів і способів їх розкладки у торгових залах. • Дослідження тимчасових шаблонів допомагає торговим підприємст- вам ухвалювати рішення про створення товарних запасів. Воно дає відповіді на питання типу «Якщо сьогодні покупець придбав відеокамеру, то через який час він найімовірніше купить нові батареї і плівку?». • Створення прогнозуючих моделей дає можливість торговим під- приємствам дізнаватися про характер потреб різних категорій клієнтів з пе- вною поведінкою, наприклад, тих, хто купує товари відомих дизайнерів або відвідуює розпродажі. Ці знання потрібні для розробки точно направле- них економічних заходів щодо просування товарів. 4. Web Mining Web Mining можна перекласти як «здобич даних у Web». Web здатний ви- значати інтереси і переваги кожного відвідувача сайтів, спостерігаючи за його поведінкою, що є серйозною і критичною перевагою конкурентної бо- ротьби на ринку електронної комерції. Системи Web Mining можуть відпо- вісти на багато питань, наприклад, хто з відвідувачів є потенційним клієн- Grid та інтелектуальна обробка даних Data Mining Системні дослідження та інформаційні технології, 2008, № 4 109 том Web-магазина, яка група цих клієнтів приносить найбільший дохід, які інтереси певного відвідувача або групи відвідувачів. Технологія Web Mining містить методи, здатні на основі даних сайту знайти нові, раніше невідомі знання і надалі використовувати їх на практиці. Іншими словами, технологія Web Mining застосовує технологію Data Mining для аналізу неструктурованої, неоднорідної, розподіленої і значної за об’ємом інформації, що міститься на Web-вузлах. При реалізації Web Mining перед розробниками виникає два типи задач: перший — збір даних, другий — використовування методів персоніфікації. У результаті збору де- якого об’єму персоніфікованих ретроспективних даних про конкретного клієнта система накопичує інформацію про нього і може рекомендувати йо- му, наприклад, певні набори товарів або послуг. На основі інформації про всіх відвідувачів сайту Web-система може виявити групи відвідувачів і та- кож рекомендувати їм товари або ж пропонувати товари в розсилках. В останні роки з’явилися Web-додатки типу Машап (від англ. mash-up — «змішувати»), у яких збираються дані більш ніж з одного джерела. Буду- ються вони комбінуванням функціональності різних програмних інтерфей- сів і джерел даних. Машапи вже застосовуються як • сервіси агрегування (інформацію з різних джерел розміщують в од- ному місці); • збирачі даних (із даних з різних джерел створюють новий сервіс (тобто агрегування)); • контролери змісту (відслідковують, фільтрують, аналізують та до- зволяють пошук сервісів); • сервісні збирачі. 5. Text Mining (інтелектуальний аналіз текстів) Text Mining містить нові методи для виконання семантичного аналізу текс- тів, інформаційного пошуку і управління. На відміну від технології Data Mining, яка передбачає аналіз впорядкованої в якусь структуру інформації, технологія Text Mining аналізує великі і надвеликі масиви неструктурованої інформації. Програми, що реалізують цю задачу, повинні деяким чином оперувати природною людською мовою і при цьому розуміти семантику аналізованого тексту. 6. Call Mining (інтелектуальний аналіз дзвінків) Технологія Call Mining об’єднує в собі розпізнавання мови, її аналіз і Data Mining. Її мета — спрощення пошуку даних в аудіоархівах, які містять запи- си переговорів між операторами і клієнтами. За допомогою цієї технології оператори можуть знаходити недоліки в системі обслуговування клієнтів, а також можливості збільшення продажів і виявляти тенденції в зміні контин- генту клієнтів. Аналітики відзначають, що за останні роки інтерес до систем на основі Call Mining значно зріс. Це пояснюється тим, що менеджери вищої ланки компаній, які працюють в різних сферах, у тому числі в області фі- нансів, мобільного зв’язку, авіабізнесу, не хочуть витрачати багато часу на прослуховування дзвінків з метою узагальнення інформації або ж виявлення яких-небудь фактів порушень. А.І. Петренко ISSN 1681–6048 System Research & Information Technologies, 2008, № 4 110 ВИСНОВКИ Важлива позиція Data Mining — нетривіальність розшукуваних шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, несподі- вані (unexpected) регулярності в даних, складові так званих прихованих знань (hidden knowledge). До суспільства прийшло розуміння, що сирі дані (raw data) містять глибинний пласт знань, при грамотній розкопці якого мо- жуть бути знайдені справжні самородки. Сфера застосування Data Mining нічим не обмежена — вона скрізь, де є які-небудь дані. Але в першу чергу методи Data Mining сьогодні заінтригу- вали комерційні підприємства. Досвід багатьох таких підприємств показує, що ефект від використовування Data Mining може досягати 1000%. Напри- клад, річна економія мережі універсамів Великобританії за рахунок упрова- дження Data Mining складає 700 тис. Data Mining представляє велику цін- ність для керівників і аналітиків у їх повсякденній діяльності. Настала черга вчених і інженерів опанувати Data Mining як інструмент для проведення наукових досліджень (генетика, хімія, медицина, нанотехні- ка і т. ін.). Розробники національної Grid-інфраструктури України зв’язують майбутнє Data Mining з її використанням в якості Grid-інтелектуальних до- датків, вбудованих у віртуальні чи корпоративні сховища даних, а також у мережу Світових центрів даних. Але міждисциплінарна задача вимагає об’єднання зусиль українських фахівців (може, в межах відповідної держав- ної програми), які працюють у вузах і академічних інститутах та добре зна- ються у математичних методах і мають досвід створення багатьох унікаль- них алгоритмів обробки інформації, щоб створити сучасну Data Mining з широкими можливостями. ЛІТЕРАТУРА 1. Чубукова И.А. Data Mining: учебное пособие. — М.: Интернет-ун-т информ. технологий. БИНОМ. Лаборатория знаний, 2006. — 382 с. (http://www.intuit. ru/department/database/datamining/). 2. Data Mining: учебный курс (+CD) / В. Дюк и др. — СПб.: Питер, 2001. — 368 с. 3. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? — Tandem Computers Inc., 1996. — 306 р. 4. Кречетов Н. Продукты для интеллектуального анализа данных // Рынок про- граммных средств. — 1997. — № 14–15. — С. 32–39. 5. Средства добычи знаний в бизнесе и финансах / М.Киселев и др. // Открытые системы. — 1997. — № 4. — С. 41–44. 6. Data Mining and Image Processing Toolkits. — http://datamining.itsc.uah. edu/ adam/. 7. Методы и модели анализа данных OLAP и Data Mining / Ф. Барсегян, М. Куприянов, В. Степаненко, И. Холод. — СПб.: БХВ. — 2008. — 267 с. 8. Data Mining, Web Mining, Text Mining, and Knowledge Discovery. — http://www.kdnuggets.com. Надійшла 14.03.2008
id nasplib_isofts_kiev_ua-123456789-12005
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1681–6048
language Ukrainian
last_indexed 2025-12-07T16:58:04Z
publishDate 2008
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
record_format dspace
spelling Петренко, А.І.
2010-09-13T17:07:33Z
2010-09-13T17:07:33Z
2008
Grid та інтелектуальна обробка даних Data Mining / А.І. Петренко // Систем. дослідж. та інформ. технології. — 2008. — № 4. — С. 97-110. — Бібліогр.: 8 назв. — укр.
1681–6048
https://nasplib.isofts.kiev.ua/handle/123456789/12005
004.8; 681.3.06-519.852.6
Обговорюються відмінності застосувань методів Data Mining від класичних статистичних методів аналізу і OLAP-систем. Розглядаються типи закономірностей, які виявляються цими методами у процесі розв’язання різноманітних задач (асоціація, класифікація, послідовність, кластеризація, прогнозування). Описуються сфери застосування Data Mining. Наводиться приклад системи АDaM, що працює в середовищі Grid і дистанційно обробляє наукові дані.
Обсуждаются отличия применения методов Data Mining от классических статистических методов анализа и OLAP-систем. Рассматриваются типы закономерностей, которые обнаруживаются этими методами в процессе решения различных задач (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описываются области применения Data Mining. Приводится пример системы ADaM, работающей в среде Grid и дистанционно обрабатывающей научные данные.
The difference in implementation of the Data Mining methods for data processing and the classic statistical methods of analysis and OLAP systems is considered. Hidden links and laws discovered by Data Mining are reviewed for various problems (association, classification, sequence, clusterization, prognostication). The Data Mining application fields and an example of the ADaM system, working in the Grid environment and processing scientific data remotely, are described.
uk
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
Проблемно і функціонально орієнтовані комп’ютерні системи та мережі
Grid та інтелектуальна обробка даних Data Mining
Grid и интеллектуальная обработка данных Data Mining
Grid and Data Mining for intellectual data processing
Article
published earlier
spellingShingle Grid та інтелектуальна обробка даних Data Mining
Петренко, А.І.
Проблемно і функціонально орієнтовані комп’ютерні системи та мережі
title Grid та інтелектуальна обробка даних Data Mining
title_alt Grid и интеллектуальная обработка данных Data Mining
Grid and Data Mining for intellectual data processing
title_full Grid та інтелектуальна обробка даних Data Mining
title_fullStr Grid та інтелектуальна обробка даних Data Mining
title_full_unstemmed Grid та інтелектуальна обробка даних Data Mining
title_short Grid та інтелектуальна обробка даних Data Mining
title_sort grid та інтелектуальна обробка даних data mining
topic Проблемно і функціонально орієнтовані комп’ютерні системи та мережі
topic_facet Проблемно і функціонально орієнтовані комп’ютерні системи та мережі
url https://nasplib.isofts.kiev.ua/handle/123456789/12005
work_keys_str_mv AT petrenkoaí gridtaíntelektualʹnaobrobkadanihdatamining
AT petrenkoaí gridiintellektualʹnaâobrabotkadannyhdatamining
AT petrenkoaí gridanddataminingforintellectualdataprocessing