Means and methods of the unstructured data analysis
Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of...
Збережено в:
Дата: | 2019 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2019
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/348 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Завантажити файл: |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-348 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/5f/577b98f15a0f7ed2b13b2c3a895c115f.pdf |
spelling |
pp_isofts_kiev_ua-article-3482024-04-28T11:00:17Z Means and methods of the unstructured data analysis Средства и методы анализа неструктурированных данных Засоби та методи аналізу неструктурованих даних Rogushina, J.V. unstructured data; ontology; Text Mining; Semantic Web; Wiki UDC 004,853, 004.55 неструктурированные данные; Text Mining; онтология; Semantic Web; Wiki УДК 004.853, 004.55 неструктуровані дані; Text Mining; онтологія; Semantic Web; Wiki УДК 004.853, 004.55 Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of unstructured texts that require the further development of specific Text Mining and algorythms of machine learning. Unstructured data consisting of natural language text in the general case, do not have a predetermined data model. Their ambiguity, heterogeneity and context dependence considerably complicate the classification of documents, the identification of their components and the automated obtaining of user-oriented knowledge from their content, while the large volumes and dynamism of such data do not involve efficient manual processing. The means and methods of data structuring, their various software implementations are considered. The prospects of using background knowledge for such structuring are analyzed. The feasibility of application such W3C standards as RDF and OWL is substantiated. The use of semantic Wiki-technologies for development of distributed information resources simplifies the process of natural text structuring by users and also generates the source of background knowledge for the analysis of arbitrary texts of the corresponding domains. The models and methods proposed in the work allow to improve this process.Problems in programming 2019; 1: 57-77 Проанализированы современные средства анализа неструктурированных данных и влияние Big Data на актуальность этого направления исследований. Рассмотрены перспективы использования фоновых знаний для такого структурирования. Обоснована целесообразность применения для этого таких стандартов W3C, как RDF и OWL. Использование семантических Wiki-технологий для создания распределенных информационных ресурсов не только позволяет довольно легко добавлять структурирование к НСД, но и является источником фоновых знаний для анализа произвольных естественноязыковых текстов соответствующей предметной области. Предложенные в работе модели и методы позволяют усовершенствовать процесс генерации таких знаний.Problems in programming 2019; 1: 57-77 Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів W3C, як RDF та OWL. Використання семантичних Wiki-технологій для створення розподілених інформаційних ресурсів не тільки дозволяє досить легко додавати структурування до НСД, але й є джерелом фонових знань для аналізу довільних природномовних текстів відповідної предметної області. Запропоновані в роботі моделі та методи дозволяють вдосконалити процес генерації таких знань.Problems in programming 2019; 1: 57-77 Інститут програмних систем НАН України 2019-03-26 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/348 10.15407/pp2019.01.057 PROBLEMS IN PROGRAMMING; No 1 (2019); 57-77 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2019); 57-77 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2019); 57-77 1727-4907 10.15407/pp2019.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/348/346 Copyright (c) 2019 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2024-04-28T11:00:17Z |
collection |
OJS |
language |
Ukrainian |
topic |
unstructured data ontology Text Mining Semantic Web Wiki UDC 004,853 004.55 |
spellingShingle |
unstructured data ontology Text Mining Semantic Web Wiki UDC 004,853 004.55 Rogushina, J.V. Means and methods of the unstructured data analysis |
topic_facet |
unstructured data ontology Text Mining Semantic Web Wiki UDC 004,853 004.55 неструктурированные данные Text Mining онтология Semantic Web Wiki УДК 004.853 004.55 неструктуровані дані Text Mining онтологія Semantic Web Wiki УДК 004.853 004.55 |
format |
Article |
author |
Rogushina, J.V. |
author_facet |
Rogushina, J.V. |
author_sort |
Rogushina, J.V. |
title |
Means and methods of the unstructured data analysis |
title_short |
Means and methods of the unstructured data analysis |
title_full |
Means and methods of the unstructured data analysis |
title_fullStr |
Means and methods of the unstructured data analysis |
title_full_unstemmed |
Means and methods of the unstructured data analysis |
title_sort |
means and methods of the unstructured data analysis |
title_alt |
Средства и методы анализа неструктурированных данных Засоби та методи аналізу неструктурованих даних |
description |
Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of unstructured texts that require the further development of specific Text Mining and algorythms of machine learning. Unstructured data consisting of natural language text in the general case, do not have a predetermined data model. Their ambiguity, heterogeneity and context dependence considerably complicate the classification of documents, the identification of their components and the automated obtaining of user-oriented knowledge from their content, while the large volumes and dynamism of such data do not involve efficient manual processing. The means and methods of data structuring, their various software implementations are considered. The prospects of using background knowledge for such structuring are analyzed. The feasibility of application such W3C standards as RDF and OWL is substantiated. The use of semantic Wiki-technologies for development of distributed information resources simplifies the process of natural text structuring by users and also generates the source of background knowledge for the analysis of arbitrary texts of the corresponding domains. The models and methods proposed in the work allow to improve this process.Problems in programming 2019; 1: 57-77 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2019 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/348 |
work_keys_str_mv |
AT rogushinajv meansandmethodsoftheunstructureddataanalysis AT rogushinajv sredstvaimetodyanalizanestrukturirovannyhdannyh AT rogushinajv zasobitametodianalízunestrukturovanihdanih |
first_indexed |
2024-09-16T04:07:52Z |
last_indexed |
2024-09-16T04:07:52Z |
_version_ |
1818568266744856576 |
fulltext |
Моделі та засоби систем баз даних і знань
© Ю.В. Рогушина, 2019
ISSN 1727-4907. Проблеми програмування. 2019. № 1 57
УДК 004.853, 004.55 https://doi.org/10.15407/pp2019.01.057
Ю.В. Рогушина
ЗАСОБИ ТА МЕТОДИ АНАЛІЗУ
НЕСТРУКТУРОВАНИХ ДАНИХ
Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на
актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань
для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів
W3C, як RDF та OWL. Використання семантичних Wiki-технологій для створення розподілених
інформаційних ресурсів не тільки дозволяє досить легко додавати структурування до НСД, але
й є джерелом фонових знань для аналізу довільних природномовних текстів відповідної предметної
області. Запропоновані в роботі моделі та методи дозволяють вдосконалити процес генерації
таких знань.
Ключові слова: неструктуровані дані, Text Mining, онтологія, Semantic Web, Wiki.
Вступ
На даний час світовим співтоварис-
твом вже усвідомлений головний напря-
мок у боротьбі з інформаційним вибухом –
перехід від збереження й обробки даних до
накопичення й обробки знань. Тому вини-
кає потреба у засобах та методах здобуття
знань з тих даних, що генеруються в про-
цесі діяльності людства та можуть бути
корисними для подальшого використання.
Актуальність проблеми загострюється че-
рез стрімке поширення Big Data, яке ви-
кликає потребу в нових, більш ефективних
методах аналізу розподілених та гетеро-
генних даних.
Обробка великих обсягів інформа-
ційних ресурсів різного походження та з
наперед не відомими моделями даних (в
такому випадку говорять про неструктуро-
вані дані), для яких не придатні традиційні
СКБД, потребує спеціалізованих засобів їх
представлення та аналізу.
Ще у 1998 році аналітики з Merrill
Lynch сформулювали емпіричне правило:
біля 80 % – 90 % всієї потенційно корисної
ділової інформації генерується в неструк-
турованій формі [1]. Прогнозується, що до
2025 року глобальна датасфера зросте до
163 зетабайт, і 70 % – 80 % її буде нестру-
ктурованою.
Визначення НСД
НСД – дані, для яких не визначені
окремі елементи, їх властивості, можливі
значення та спосіб їх кодування.
НСД – це інформація, яка не має
попередньо визначеної моделі даних або
не організована заздалегідь. Це призводить
до проблем, пов’язаних з її зберіганням
(традиційні БД не розраховані на таку не-
визначеність) та аналізом. Саме НСД по-
тенційно мають найбільшу цінність як
джерела нових знань: чим більше даних
доступних для аналізу, тим точніші ре-
зультати. Прикладами НСД можуть бути
книги, журнали, документи, метадані, ме-
дичні записи, аудіо, відео, аналогові дані,
зображення, файли та неструктурований
текст, наприклад, тіло повідомлення елек-
тронної пошти, Web-сторінки або слова
документ процесора.
Сьогодні у більшості випадків під НСД
розуміють текстову інформацію – набори
слів природної мови (ПМ) довільної дов-
жини, поєднані за слабо формалізованими
лінгвістичними правилами та представлені
в електронній формі. Це пояснюється тим,
що саме текстова інформація містить най-
більш корисні для подальшого викорис-
тання відомості. Такі НСД можуть містити
також дати, числа тощо. Приклади тексто-
вих НСД:
електронна пошта;
ПМ-документи в різних форма-
тах;
відомості з соціальних мереж
(YouTube, Facebook, Twitter, LinkedIn, Flickr
тощо);
дані з мобільних пристроїв (текс-
http://dx.doi.org/10.7124/bc.000027
Моделі та засоби систем баз даних і знань
58
тові повідомлення й інформація про місце
розташування) та Інтернету речей;
контент Web-сайтів.
Найбільш поширені приклади НСД
інших типів [2] – це потокове відео, інфо-
рмація від супутників, дані радарів чи
сонарів. Засоби аналізу таких НСД значно
більш спеціалізовані.
Іноді досить складно відрізняти
структуровані та НСД. Один з критеріїв
визначення структурованості даних – для
елемента таких даних можна створити
синтаксичний аналізатор. Термін НСД не є
точно визначеним з декількох причин [3]:
структура може міститися у та-
ких даних, але не мати формального визна-
чення;
дані, що мають певну структуру,
можуть бути охарактеризовані як неструк-
туровані, якщо ця структура не є корисною
для цілей їх обробки;
неструктурована інформація мо-
же мати певну структуру (бути слабо струк-
туровану або навіть структурованою), яка
не може бути застосована для автоматизо-
ваної обробки без додаткових уточнень.
Таким чином, дані розглядаються
як НСД у тих випадках, коли відомості про
їх структуру не можуть зробити аналіз да-
них більш ефективним.
Неструктурована інформація може
зберігатися у формі об'єктів (файлів чи до-
кументів), що самі мають структуру. На-
приклад, тіло листа або вкладення до елек-
тронної пошти – це неструктуровані дані,
але їх місцезнаходження в пошті задається
її структурою. Сполучення структурова-
них і неструктурованих даних у сукупності
також є НСД.
Властивості НСД
НСД, на відміну від структурованих
даних, які здебільшого не мають антропо-
генних особливостей, досить часто ство-
рюються безпосередньо людьми, і тому
системи обробки та аналізу НСД мають
враховувати «людський фактор».
Властивості НСД:
гетерогенність. Для НСД існує
величезна кількість різних способів ство-
рення, джерел інформації та причин, через
які ці дані не можуть бути структуровані і
поміщені в будь-яку СКБД, а лише у фай-
ли різноманітних форматів (приклад – на-
укові статті мають певну структурованість
та обов’язкові елементи, але їх неможливо
представити інакше, як файли текстових
редакторів);
неоднозначність. Висловлення
двох осіб, що збігаються дослівно, можуть
мати різний зміст у залежності від досвіду,
поглядів тощо, а та сама ідея може бути
виражена різними словами (наприклад,
твердження експерта “я не зрозумів цю
статтю свідчить про низьку якість статті, а
те саме твердження студента – про його
низьку освіту);
контекстна залежність. Те саме
слово чи ім'я можуть у різних умовах інте-
рпретуватися по-різному (“модель” у тех-
ніці та у математиці мають різне значен-
ня);
динаміка значення. Слова мо-
жуть дуже швидко змінювати свій зміст,
наприклад, назва нікому раніше не відомо-
го населеного пункту через події, що від-
бувалися в ньому, може стати загальнові-
домою та отримати додаткове значення;
етнокультурна залежність. У
різних етносах і культурах, що використо-
вують ту саму мову, слова можуть набува-
ти різного сенсу і позначати зовсім різне.
Такі технології, як Data Mining, об-
робка природної мови і Text Mining, нада-
ють різні методи для пошуку структури в
НСД. Загальні методи структуризації текс-
ту зазвичай включають у себе ручну роз-
мітку метаданими або тегами для подаль-
шого структурування. Стандарт архітекту-
ри керування неструктурованою інформа-
цією (Unstructured Information Management
Architecture – UIMA) надає загальну осно-
ву для обробки цієї інформації для здобут-
тя сенсу та створення структурованих да-
них.
Історія виникнення аналізу НСД
Найбільш ранні дослідження
Business Intelligence (BI) зосереджувалися
саме на неструктурованих текстових да-
них, а не на числових даних [4]. Проте ли-
Моделі та засоби систем баз даних і знань
59
ше на початку 21 століття технології на-
здогнали наукові дослідження. Поява Big
Data наприкінці 2000-х років викликала
підвищений інтерес до застосування не-
структурованих аналітичних даних.
У 80-х і 90-х роках 20 ст. бізнес-
аналітика (OLAP, інтелектуальний аналіз
даних, ETL та сховище даних) була зорієн-
тована на структуровані числові дані, що
зберігалися в реляційних базах даних.
Виділення аналізу НСД (UDA –
unstructured data analysis) в окремий науко-
во-технічний напрямок датується почат-
ком 2000 років, коли аналітики Gartner
опублікували інформацію про високі за-
трати часу та праці на обробку даних – ру-
тинна, не автоматизована робота з контен-
том займала до половини робочого часу.
Незручність була пов'язана саме з необхід-
ністю обробки текстових НСД у різних
форматах: електронних листів, службових
записок, новин, чатів, звітів, маркетинго-
вих матеріалів, презентацій тощо, які не
можливо було занести до реляційних
СКБД (деякі з таких даних є слабо струк-
турованими або квазіструктурованими та
супроводжуються метаданими – автор, мі-
сце створення, розмір – які можна поміс-
тити до СКБД).
На сьогоднішній день НСД склада-
ють найбільшу частку даних, що зберіга-
ються (понад 80 % усіх збережених даних,
а їхня кількість зростає на порядок швид-
ше в порівнянні з структурованими дани-
ми), тому методи та засоби їх використан-
ня швидко розвиваються. Ці методи спря-
мовані на перетворення цих даних на
структуровану інформацію, яка може ви-
користовуватися різними способами.
Text Mining як окремий напрямок
з'явився наприкінці 1990-х років 20 ст.
Ранні підходи розглядали текст як "мішок
слів" (“bag of words”), таких як абревіату-
ри, множини і сполучення, а також термі-
ни з декількох слів, відомі як n-грами. Ос-
новний лексичний аналіз може враховува-
ти частоти слів і термінів для виконання
елементарних функцій, таких як спроби
класифікувати документи за темами. Але
не було можливості зрозуміти семантику
документів. Нині Text Mining шукає при-
ховані відношення та інші складні струк-
тури в наборах текстових даних.
Text Mining як основа аналізу
неструктурованої текстової
інформації
Аналіз текстових даних як техноло-
гія базується на лінгвістиці та інтелектуа-
льному аналізі даних, що спочатку засто-
совувалися в аналітиці для розпізнавання в
тексті особистих і географічних назв, дат,
телефонних номерів та адреси електронної
пошти. Більш складні методи дозволяли
знаходити поняття і відношення між ними
та навіть настрої.
Додання структури до НСД є скла-
дною науковою проблемою, якій приділя-
ють увагу науковці на протязі довгого часу
[5]. Актуальність проблеми збільшилася з
поширенням Big Data. У найбільш уза-
гальненому вигляді розв’язок проблеми
пов’язують з побудовою розміченого гра-
фу, що відповідає вмісту НСД, та із співс-
тавленням таких графів. Інший аспект цієї
проблеми пов’язують із знаходженням ре-
левантних знань, з якими співставляють
НСД.
Методи Data Mining включають
класифікацію, кластеризацію, аналіз зв'яз-
ків, дерева рішень тощо [6]. Інтелектуаль-
не моделювання використовується для та-
ких бізнес-функцій, як оцінка кредитів,
виявлення ризиків, виявлення шахрайства
та прогнозування для прогнозування тен-
денцій залежної від часу інформації. Всі ці
методи Data Mining можуть бути присто-
совані до даних, отриманих з текстових
джерел – наприклад, необхідно знизити
високу розмірність текстової інформації.
Дослідники використовують для вирішен-
ня цих питань статистичні методи (такі як
розкладання сингулярних значень і векто-
рні машини підтримки для зменшення ро-
змірності) у поєднанні з алгоритмами ма-
шинного навчання (деревами рішень, ней-
ронними мережами тощо) і більш глибо-
кою лінгвістикою, що підтримує такі фун-
кції, як використання контексту для визна-
чення семантичної неоднозначності.
Text Mining можна визначити
як процес здобуття знань з колекції
ПМ-документів за допомогою набору ін-
Моделі та засоби систем баз даних і знань
60
струментів для їх аналізу [7]. Аналогічно
до Data Mining, засоби Text Mining праг-
нуть здобути з даних потрібну для діяль-
ності користувача інформацію. У випадку
Text Mining джерела даних – це колекції
документів, і цікаві для користувачів шаб-
лони потрібно знайти не серед формалізо-
ваних записів бази даних, а в неструктуро-
ваних текстових даних у документах цих
колекцій.
Text Mining можна розглядати як
окремий випадок Data Mining. Тому не ди-
вно, що системи Text Mining та Data
Mining мають багато подібностей в архіте-
ктурі. Наприклад, обидва типи систем ви-
користовують процедури попередньої об-
робки, алгоритми виявлення шаблонів і
засоби візуалізації результатів для покра-
щення перегляду наборів відповідей. Text
Mining використовує багато специфічних
типів моделей у своїх основних операціях
виявлення знань, які були впроваджені та
перевірені в дослідженнях Data Mining.
Оскільки Data Mining припускає,
що дані зберігаються у структурованому
форматі, попередня обробка в ньому фоку-
сується на задачах очищення та нормаліза-
ція даних і створення великої кількості
об'єднань таблиць. На відміну від цього,
для Text Mining операції з попередньої об-
робки пов’язані з ідентифікацією та пошу-
ком репрезентативних властивостей для
документів, поданих природною мовою
(ПМ). Ці операції попередньої обробки за-
безпечують перетворення НСД, що збері-
гаються в колекціях документів, в більш
чітко структурований проміжний формат.
Тому Text Mining також спирається на до-
сягнення в інших дисциплінах, пов’язаних
з обробкою природної мови: методи інфо-
рмаційного пошуку, здобуття інформації
та комп’ютерної лінгвістики на основі ко-
рпусу (рис. 1).
Для продуктивного здобуття корис-
них відомостей з даних, що містять «люд-
ську інформацію», крім пошуку, застосо-
вують технології Text Mining, спеціалізо-
вані на обробці ПМ. Уперше термін Text
Mining було використано в 1995 році як
альтернатива терміну «здобуття знань з
тексту» (Knowledge Discovery from Text,
KDT).
Складові Text Mining
Text Mining
Web MiningСтатистика
Лінгвістична
обробка ПМ
Data Mining
Здобуття
інформації
Рис. 1. Складові Text Mining
Text Mining має забезпечити пере-
хід від НСД до структурованих з наступ-
ним аналізом. Найчастіше в цьому процесі
ігнорується велика частина специфічних
особливостей ПМ, які застосовуються
тільки на попередньому етапі розбору тек-
стів, а на наступних використовується мо-
дель «мішка слів», у якій не важливий по-
рядок слів.
Етапи Text Mining. Потреба в тех-
нологіях Text Mining загострилася, коли
кількість текстів стала перевищувати мож-
ливості сприйняття людиною та виникла
потреба в автоматизації здобуття їх змісту.
На рис. 2 показана узагальнена схема про-
цесу Text Mining. На етапі попередньої об-
робки НСД перетворюються в структуро-
вану інформацію, в якої потім виділяються
істотні ознаки – атрибути та здійснюється
їх дослідження.
Автори книги «Вступ до неструкту-
рованих даних» (2007) (“Tapping into
Unstructured Data”) Бів Інмон та Ентоні
Несвіч, аналізуючи зв’язок між Business
Intelligence та Text Mining у другій частині
«Інтегрування неструктурованих даних у
текстову аналітику і BI» (“Integrating
Unstructured Data and Textual Analytics into
Business Intelligence”), поділяють Text
Mining на два напрямки: «виявлення»
(Discovery) – дедуктивні методи підтвер-
дження або спростування гіпотез та «ана-
ліз» (Analysis) – статистика, кластеризація
тощо.
Моделі та засоби систем баз даних і знань
61
Лінгвістичний
розбір тексту
Генерація
атрибутів
Вибір
атрибутів
Розпізнавання
та візуалізація
Інтерпретація
Текст
Рис. 2. Етапи Text Mining
Основні елементи Text Mining.
Ключовим елементом Text Mining є колек-
ція документів. У найпростішому випадку
це довільна група текстових документів.
Більшість рішень Text Mining спрямовані
на виявлення моделей (шаблонів) у дуже
великих колекціях документів, у тому чис-
лі – у сховищах Big Data.
Колекції документів можуть бути
статичними, тобто початковий набір до-
кументів залишається незмінним, або ди-
намічними, тобто до початкового набору
можуть додаватися нові документи, а іс-
нуючі – оновлюватися.
Якщо колекція документів має ве-
ликий розмір та швидко змінюється, то ру-
чні спроби її аналізу не є ефективними.
Автоматичні методи виявлення та вивчен-
ня взаємозв'язків між документами різко
підвищують швидкість та ефективність
дослідницької діяльності, але їх неможли-
во застосовувати на непідготовлених коле-
кціях документів.
Документ – ще один основний еле-
мент Text Mining. Це одиниця дискретних
текстових даних в колекції, може корелю-
ватися з деякими документами реального
світу, такими як звіт, електронна пошта,
стаття, прес-реліз або новини.
Документ може одночасно входити
до різних колекцій документів або різних
підмножин однієї колекції.
Елементи структурування текс-
тових документів. Такі НСД, як текстовий
документ, з деяких точок зору можна розг-
лядати як структурований об'єкт. Напри-
клад, з лінгвістичної точки зору кожен до-
кумент містить велику кількість семантич-
ної та синтаксичної структури, яка прихо-
вана в тексті. Крім того, елементи розміт-
ки, такі як знаки пунктуації, великі літери,
числа та спеціальні символи, та елементи
форматування (таблиці, стовпці, парагра-
фи тощо) можуть розглядатися як мова
«м'якої розмітки», що допомагає визначи-
ти важливі підкомпоненти документів –
назву, імена авторів, підрозділи тощо.
Послідовність слів також може бути стру-
ктурно значущим виміром документа.
Крім того, деякі текстові документи мо-
жуть містити вбудовані метадані у вигляді
формалізованих тегів розмітки, які автома-
тизовано генеруються текстовими редак-
торами.
Документи, які мають відносно ма-
ло таких елементів структурування (на-
приклад, наукові публікації та бізнес-
звіти), називають вільно форматованими
(free- format) або слабо структурованими
(weakly structured). Документи з відносно
більшою кількістю елементів структуру-
вання (наприклад, електронна пошта, Web-
сторінки HTML) називають частково
структурованими (semistructured) .
Операції попередньої обробки до-
зволяють використовувати в Text Mining
багато різних елементів, що містяться в
ПМ-документі для його перетворення з
НСД з неявним структуруванням в явно
структуровані дані. Однак, з огляду на по-
тенційно велику кількість слів, фраз, ре-
чень та елементів форматування, які може
мати навіть невеликий документ, навіть не
враховуючи потенційно велику кількість
різних значені, які кожен із цих елементів
може мати в різних контекстах і комбіна-
ціях, найважливішим завданням для біль-
шості систем Text Mining є ідентифікація
спрощеної підмножини властивостей
(ознак) документів. Такий набір ознак на-
зивають репрезентативною моделлю до-
кумента: окремі документи характеризу-
ються за допомогою наборів ознак, які мі-
стять їхні репрезентативні моделі. Але слід
враховувати, що навіть у найбільш ефек-
тивних репрезентативних моделях кожен
окремий документ у колекції має надзви-
чайно велику кількість властивостей.
Моделі та засоби систем баз даних і знань
62
Тому проблеми, пов'язані з високою
розмірністю характеристик (тобто розмі-
ром і масштабом можливих комбінацій
значень ознак для даних), зазвичай мають
значно більше значення в системах Text
Mining, ніж у класичних системах Data
Mining.
Структуровані представлення ПМ-
документів мають набагато більшу кіль-
кість потенційно репрезентативних ознак –
і, отже, більшу кількість можливих комбі-
націй їх значень – ніж в реляційних або
ієрархічних базах даних. Наприклад, у від-
носно невеликій колекції з 10–15 000 до-
кументів, можна виявити більше 25 000
нетривіальних слів. Навіть якщо працюва-
ти з більш оптимізованими типами власти-
востей, десятки тисяч ознак, пов’язаних з
різними поняттями. можуть бути актуаль-
ними для однієї предметної області (ПрО).
Кількість атрибутів у реляційній базі да-
них, які аналізуються в задачі інтелектуа-
льного аналізу даних, зазвичай значно ме-
нше. Висока розмірність потенційно ре-
презентативних властивостей спонукає до
попередньої обробки тексту, спрямованої
на створення спрощених моделей подання.
Ще однією характеристикою
ПМ-документів є розрідженість власти-
востей (feature sparsity) – лише невелика
частка всіх властивостей, можливих для
колекції документів у цілому, з'являється в
кожному окремому документі, і, таким чи-
ном, коли документ представляється у ви-
гляді бінарного вектора ознак, майже всі
значення вектора дорівнюють нулю.
Розмір кортежу також розріджений.
Тобто деякі функції часто з'являються ли-
ше в декількох документах, а це означає,
що підтримка багатьох моделей досить ни-
зька.
Властивості окремого ПМ-
документа – це символи, слова, терміни і
поняття. Оскільки алгоритми Text Mining
обробляють представлення документів че-
рез набір властивостей, а не безпосередньо
самі документи, виникає потреба у комп-
ромісі між двома важливими цілями.
Перша ціль полягає у тому, щоб до-
сягти правильної класифікації обсягу і се-
мантичного рівня властивостей для точно-
го відображення значення документа в
процесі виконання операції попередньої
обробки тексту. Друга ціль – вибрати таке
визначення властивостей, що є найбільш
обчислювально ефективним і практичним
для виявлення шаблонів. Такий вибір може
підтримуватися валідацією, нормалізацією
або посиланням на властивості з контро-
льованих словників або зовнішніх джерел
знань, таких як словники, тезауруси, онто-
логії або бази знань, щоб допомогти у
створенні менших наборів властивостей з
більшою семантичною значимість.
Хоча для представлення ПМ-
документів можна використовувати багато
потенційних властивостей, найчастіше ви-
користовуються такі чотири типи.
Символи. Букви, цифри, спеціа-
льні символи та пробіли є будівельними
блоками семантичних ознак вищого рівня,
таких як слова, терміни та поняття. Пред-
ставлення на рівні символів може включа-
ти повний набір всіх символів для докуме-
нта або деякого фільтрованого піднабору.
Представлення на основі символів без ін-
формації щодо позицій (тобто підходи з
“мішком символів” – “bag-of-characters “)
зазвичай мають дуже обмежену корисність
для Text Mining. Представлення, які вклю-
чають певний рівень позиційної інформа-
ції (наприклад, біграми або триграми) де-
що корисніші.
Слова. Конкретні слова, вибрані
безпосередньо з ПМ-документа, є базовим
рівнем для семантики. Одна властивість на
рівні слів повинна мати значення не біль-
ше одного лінгвістичного маркера. Фрази
та багатослівні вирази не складають окре-
мих властивостей на рівні слів. Представ-
лення документа на рівні слів може вклю-
чати в себе ознаки для кожного слова в
цьому документі, тобто текст документа
представляється повним набором власти-
востей рівня слова. Це може призвести до
того, що деякі представлення колекцій до-
кументів на рівні слів містять десятки або
сотні тисяч унікальних слів у своєму прос-
торі ознак. Проте, більшість представлень
документів на цьому рівні демонструють
принаймні деяку мінімальну оптимізацію і
тому складаються з підмножин репрезен-
тативних властивостей, які фільтруються
Моделі та засоби систем баз даних і знань
63
від таких елементів, як стоп-слова, симво-
ли та беззмістовні числа.
Терміни – це окремі слова та
багатослівні фрази, вибрані безпосеред-
ньо з корпусу вихідного документа за до-
помогою методології вилучення термінів.
Функції на рівні термінів, у сенсі цього
визначення, можуть бути складені тільки
з конкретних слів і виразів, знайдених у
рідному документі, для якого вони мають
бути загалом репрезентативними. Отже,
представлення документа на основі тер-
мінів обов'язково складається з підмно-
жини термінів у цьому документі. Напри-
клад, якщо документ містив речення. Іс-
нують різні методології видобування тер-
мінів, які можуть конвертувати необроб-
лений текст документа в послідовність
нормалізованих термінів (токенізованих і
лематизованих форм слова), помічених
тегами відповідних часток мови. Іноді для
нормалізації термінів також використову-
ється зовнішній лексикон для забезпечен-
ня контрольованого словника. Методики
видобуття термінів використовують різні
підходи для генерування та фільтрації
списку найбільш значущих термінів до-
кумента з цього набору нормалізованих
термінів.
Поняття – це властивості,
створені для документа за допомогою різ-
них методик категоризації. Властивості
рівня понять можуть бути створені для до-
кументів вручну, але тепер частіше видо-
буваються з документів за допомогою
складних процедур попередньої обробки,
які ідентифікують окремі слова, багатослі-
вні вирази, цілі речення або навіть більші
синтаксичні одиниці, які потім відносяться
до конкретних ідентифікаторів понять.
Багато методологій категоризації
включають ступінь перехресного посилан-
ня на зовнішнє джерело знань; для деяких
статистичних методів цим джерелом може
бути просто анотована колекція докумен-
тів. Для категоризації вручну і на основі
правилах перехресні посилання і перевірка
перспективних властивостей на рівні по-
нять зазвичай включають взаємодію з зов-
нішніми БЗ, таким як існуюча онтологія
домену, лексика або ієрархія формальних.
На відміну від властивостей на рівні слів і
термінів, властивості документа на рівні
понять можуть складатися з слів, які не
містяться у цьому документі.
З чотирьох типів описаних тут
ознак терміни та поняття відображають
властивості з найбільш виразними рівнями
семантичної значущості, тому існує багато
переваг для їх використання для представ-
лення документів в Text Mining.
Що стосується загального розміру
наборів властивостей, то представлення на
основі термінів і понять мають приблизно
однакову ефективність, але в цілому наба-
гато ефективніші, ніж моделі документів
на основі символів або слів. Представлен-
ня на рівні термінів легше згенерувати ав-
томатично з тексту, ніж представлення на
рівні понять. Проте представлення на рівні
понять набагато корисніше для обробки
синонімії та полісемії.
Представлення на основі понять
дозволяють використовувати дуже склад-
ні ієрархії понять і різноманітні знання
про домен, що надаються онтологіями та
базами знань. Але представлення на рівні
понять мають кілька потенційних недолі-
ків: а) відносна складність застосування
евристик під час операцій попередньої
обробки, б) залежності багатьох понять
від домену.
Використання фонових знань в
Text Mining
У системах Text Mining поняття на-
лежать не тільки до дескриптивних атри-
бутів певного документа, а й до доменів
(ПрО). ПрО у Text Mining – це спеціалізо-
вана область інтересів, для якої можуть
бути розроблені спеціальні онтології, лек-
сикони та таксономії.
Системи Text Mining можуть вико-
ристовувати інформацію з формалізованих
зовнішніх джерел знань для цих ПрО, щоб
покращити попередню обробку документів
та виявлення знань.
Знання ПрО (інша поширена назва –
фонові знання (background knowledge)),
можуть бути використані в Text Mining
для попередньої обробки для поліпшення
здобуття понять. Доступ до фонових знань
– хоча і не є абсолютно необхідним для
створення ієрархій концепцій в контексті
Моделі та засоби систем баз даних і знань
64
єдиного документу або збору документів –
може відігравати важливу роль у розробці
більш значущих, послідовних і нормалізо-
ваних ієрархій концепцій.
Text Mining використовує фонові
знання більшою мірою Data Mining: влас-
тивості не є просто елементами в плоскому
наборі, як це часто буває у структурованих
даних, тому що вони пов’язуються за до-
помогою лексиконів і онтологій для підт-
римки розширених запитів.
Незважаючи на те, що операції по-
передньої обробки Text Mining відіграють
важливу роль у перетворенні неструктуро-
ваного вмісту необробленої колекції доку-
ментів у більш сприйнятливе представлен-
ня даних на рівні понять, основна функці-
ональність систем Text Mining полягає
в аналізі моделей спільного виникнення
понять (“concept co-occurrence“) в доку-
ментах колекції. В Text Mining використо-
вуються алгоритмічні та евристичні підхо-
ди для розгляду розподілів, наборів, що
часто повторюються (“frequent sets”), та
різних асоціацій понять на міждокумент-
ному рівні з метою надання користувачеві
можливості виявити природу та взаємоз-
в'язки понять, що відображені у колекції в
цілому.
Наприклад, у колекції новин велика
кількість статей, де йдеться одночасно про
подію X та компанію Y, а також статей, де
йдеться одночасно про компанію Y та
продукту Z, може вказувати на інтерес до
зв’язку між Х та Z, хоча цей зв’язок не
присутній у жодному документі.
У класичному Data Mining фонові
знання із зовнішніх джерел використову-
ються для обмеження пошуку.
Системи Text Mining можуть вико-
ристовувати інформацію з зовнішніх дже-
рел знань в операціях попередньої обробки
текстів і перевірки понять. Крім того, дос-
туп до фонових знань може відігравати
важливу роль у розробці змістовних, пос-
лідовних і нормалізованих ієрархій понять.
Додаткові знання, крім того, мо-
жуть бути використані іншими компонен-
тами системи видобування тексту. Напри-
клад, одним з найбільш важливих застосу-
вань фонових знань є побудова значущих
обмежень для операцій виявлення знань.
Аналогічно, фонові знання можуть також
використовуватися для формулювання об-
межень, які дозволяють користувачам під-
вищувати гнучкість при перегляді великих
наборів результатів або при форматуванні
даних для презентації.
Системи Text Mining можуть вико-
ристовувати фонові знання, представлені у
вигляді онтологій ПрО, що описує сукуп-
ність всіх важливих для ПрО фактів, класів
і відношень між цими класами. Її можна
розглядати як словник, побудований таким
чином, щоб бути одночасно зрозумілим
для людей і придатним для машинної об-
робки. Онтологія дозволяє визначити від-
ношення часткового порядку між поняття-
ми ПрО.
Один з прикладів онтології, що за-
стосовується в Text Mining, – WordNet. Це
розробка Принстонського університету
для моделювання ПМ.
Системи розробки тексту також ви-
користовують фонові знання, що містяться
в лексиконах ПрО. Цей термін близький до
поняття тезаурусу.
Лексикон ПрО для онтології О – це
кортеж
CC fSLex Re, ,
що складається з множини CS , елементи
якої – назви понять ПрО, а відношення
cSf CC Re лексичне посилання для
понять, для яких Cfcc Re),( виконується
для всіх CSCc .
На основі CfRe можна визначити,
що для CSs
Cc fcsCcsf Re),(|{)(Re .
Лексикон, подібний до WordNet,
може служити точкою входу для фонових
знань. Використовуючи лексикон, система
Text Mining може нормалізувати ідентифі-
катори концепції, доступні для анотування
документів у його корпусі під час попере-
дньої обробки. Це дозволяє підтримувати
за допомогою онтології, пов'язаної з лек-
сиконом, такі операції, як вирішення сино-
німії, так здобуття інформації про семан-
тичні відношення між поняттями. Крім то-
Моделі та засоби систем баз даних і знань
65
го, фонові знання дозволяють задавати па-
раметри (значення атрибутів певного по-
няття) для пошукового запиту щодо екзе-
мплярів цього поняття, та визначати їх
взаємини з екземплярами інших понять.
Наприклад, можна шукати компанії, ви-
значивши значення таких атрибутів, як
продукція та місцезнаходження, або шука-
ти компанії, місцезнаходження яких відно-
ситься до класу “Столиця” .Такі атрибути
та відношення мають бути доступні корис-
тувачеві у списку вибору при формуванні
конкретного запиту. Крім того, це дозво-
ляє визначити у запиті те відношення між
поняттями, яке задовольняє користувачів.
Наприклад, це дозволяє відокремити поку-
пців продукту Х від продавців цього про-
дукту.
Моделі подання структурованих
даних та їх використання
для НСД
В роботі [8] пропонується опис
простору даних, який дозволяє класифіку-
вати моделі даних та засоби їх обробки.
Простір даних DS=<DB, DW, ODW,
Wb, Nd, Gr, Int, Se, Wo, EM> – це множина
даних з різними моделями подання. До та-
ких моделей авторка відносить бази даних
DB, сховища даних DW, статичні Web-
сторінки Wb, НСД Nd, мультимедійні дані
Gr, локальні сховища ODW, а також засо-
би інтеграції Int, пошуку Se та обробки
Wo, що об’єднані середовищем управління
моделями (EM).
Ці моделі даних ієрархічно впоряд-
ковані відповідно до їх виразної потужно-
сті: реляційна, багатовимірна, об’єктно-
реляційна моделі, розширена мова розміт-
ки інформації (Extensible Markup Language
– XML) зі схемою, середовище опису ре-
сурсів (Resource Description Framework –
RDF), стандартний засіб опису зв’язків
між об’єктами даних – онтології, описані
за допомогою Web Ontology Language –
OWL, структурований текст, неструктуро-
ваний текст (рис. 3). Кожен учасник прос-
тору даних підтримує деяку модель даних і
деяку мову запитів, відповідну до цієї мо-
делі.
Документи та Web-сторінки можуть
розглядатися в такому випадку як НСД.
Процес розміщення таких інформаційних
джерел у певній таксономії пов’язаний з їх
класифікацією. Застосування стандартів
W3C та онтологічного аналізу може засто-
совуватися для додавання структури до
НСД.
Структурований текст
Неструктурований текст
Мультимедійні дані
Семантично
розмічений текст
OWL
RDF
XML
Об’єктно-реляційна
модель
Реляційна модель
Багатовимірна
модель
Реляційна модель
з XML
В
и
р
а
зн
а
п
о
т
у
ж
н
іс
т
ь
Придатність для розподіленої обробки в Web
Рис. 3. Моделі подання даних
Найбільш розповсюдженою модел-
лю збереження структурованих даних з
кінця 70-х років 20 ст. є реляційна модель,
а стандартом на їхню обробку – мова SQL.
Однак для НСД ця модель не ефективна.
Нереляційні моделі даних. Сьогодні
задачі, що виходять за рамки реляційної
моделі, прийнято відносити до класу
NoSQL (звичайно розшифровується як
Not Only SQL), кожен підклас якого ви-
рішує окрему проблему, що погано реалі-
зується за допомогою SQL, – наприклад,
документо-орієнтовані, об'єктні та графо-
ві БД. Такі БД мають певні обмеження на
операції, що підтримуються традиційни-
ми БД. Наприклад, великі розподілені БД
повністю відмовляються від транзакцій,
що забезпечує підвищення продуктивнос-
ті за рахунок використання паралелізму.
Реалізована в проекті Hadoop тех-
нологія роботи з даними докорінно відрі-
зняється від традиційних реляційних
СКБД, призначених для роботи зі струк-
турованими даними. NoSQL – сімейство
технологій роботи з даними, які відрізня-
ються від традиційних реляційних СКБД
за наступними ознаками [9]: відсутність
підтримки мови структурованих запитів
Моделі та засоби систем баз даних і знань
66
SQL; робота з неструктурованими чи сла-
бко структурованими даними; відсутність
механізмів забезпечення цілісності даних
у тому вигляді, як вони реалізовані в кла-
сичних СКБД; розподілена реалізація з
широкими можливостями горизонтально-
го масштабування. У цілому основне при-
значення NoSQL полягає у можливості
обробки великої кількості неструктурова-
них даних за нерегламентований час, але з
гарантованим результатом. У цьому скла-
дається принципова відмінність NoSQL
від традиційних СКБД, які забезпечують
збереження інформації в чітко структуро-
ваному вигляді і гарантують час виконан-
ня операцій.
RDF як модель даних. Великий клас
задач, які важко розв'язувати на реляційній
моделі, – це задачі на сильно зв'язаних да-
них (графові задачі). Для них сьогодні
найбільше поширення одержали RDF-
сховища, які використовують стандарти
W3C для мови RDF (Resource Description
Framework) і запити SPARQL [10].
Основа RDF – це представлення да-
них у вигляді тверджень-трійок “суб'єкт-
предикат-об'єкт”. Для ідентифікації суб'єк-
тів, об'єктів і предикатів використовується
ідентифікатор URI (Uniform Resource
Identifier), що є узагальненням поняття
URL. Крім того, для подання об’єктів мо-
жуть використовуватися літерали.
На відміну від реляційної моделі,
модель RDF досить гнучка – кожен суб'єкт
може містити свої власні предикати й об'є-
кти, наприклад, у єдиній базі товарів усі
товари мають предикат «Ціна», але в той
же час холодильники можуть мати преди-
кат «Обсяг морозильної камери», а телеві-
зори – предикат «Діагональ екрана».
Модель RDF описує орієнтований
граф, у якому кожна трійка – це опис зв'я-
зку між двома вузлами.
Модель RDF служить для опису
даних, але не описує методів їхньої обро-
бки. Існує багато мов запитів до RDF:
DQL, N3QL, R-DEVICE, RDFQ, RDQ,
RDQL, SeRQL і т. д., але найпоширені-
шою є SPARQL – стандарт W3C, який, на
відміну від SQL з неоднозначною грама-
тикою і семантикою, має чітку структуру
і більшу виразність. Основна частина за-
питу на SPARQL – шаблон, що описує
підграф, який потрібно знайти в графі
RDF. Цей шаблон представляється у ви-
гляді набору трійок з перемінними. На
сьогоднішній день SPARQL є однією з
найбільш виразних мов обробки даних.
Крім мови запитів, стандарт SPARQL ре-
гламентує протокол взаємодії з базою да-
них і формат результату, що є великим
кроком вперед у порівнянні з SQL.
Рівень стандартизації RDF і
SPARQL набагато вище, ніж у SQL, – зу-
силлями комітету W3C визначені станда-
рти не тільки на модель RDF і мову
SPARQL, але і на ідентифікацію ресурсів
(URI), протокол взаємодії компонентів
(HTTP), точку доступу SPARQL тощо.
Завдяки стандартизації дані з будь-якого
RDF-сховища можна завантажувати в
RDF-сховища різних виробників. Запити
на SPARQL однаково виконуються на рі-
зних сховищах. У RDF легко зберігати
метадані. На основі метаданих можна ро-
бити складні запити, вибираючи, скаже-
мо, дані з конкретних джерел, у конкрет-
ному часовому діапазоні тощо.
Сьогодні спостерігається бурхли-
вий розвиток ринку засобів розробки на
основі моделі RDF. Деякі з них мають
спеціалізовану архітектуру для обробки
графів, а інші побудовані поверх реляцій-
них БД. Найбільш поширені з них.
Apache Jena – Java API для роз-
робки застосунків Semantic Web, що міс-
тить кілька сховищ даних: Jena TDB – схо-
вище RDF-трійок, Jena SDB – інтерфейс до
реляційного сховища, In-Memory – схови-
ще в пам'яті.
Ontotext OWLIM – сімейство
семантичних RDF-репозиторіїв з власним
ядром, реалізованим на Java, з підтримкою
семантики на RDFS (RDF Scheme) і OWL.
OpenLink Software Virtuoso з
власним RDF-сховищем, повною реаліза-
цією SPARQL та можливістю читання
RDF з файлів формату XML і Turtle.
Великі корпорації, такі як IBM і
Oracle, також розробляють власні RDF-
рішення. IBM пропонує NoSQL Graph
Support, з інтерфейсом на основі розши-
рення API Jena. Oracle у Spatial and Graph
Моделі та засоби систем баз даних і знань
67
Option підключила RDF до засобу обробки
просторових даних Spatial Data Option.
RDF-сховища дозволяють збирати,
зберігати й індексувати дані з різних дже-
рел – зокрема, при рішенні актуальної за-
дачі інтеграції сервісів, що зводиться до
об'єднання розрізнених реляційних БД у
єдину базу і приводить до задачі обробки
квазіструктурованих даних. Дані усередині
кожної з таких БД строго структуровані
для роботи з реляційною моделлю, але ко-
жна база структурована по-своєму, тому
задача їхньої інтеграції в рамках реляцій-
ної моделі потребує переробки всього рі-
шення. Якщо ж конвертувати такі бази в
модель RDF, то інтеграція зводиться до
простого злиття RDF-графів і перепису-
ванню запитів з SQL у SPARQL.
RDF-сховища найбільш придатні
для задач, що потребують виявлення та
аналізу великої кількості взаємозв'язків.
До таких задач відносяться:
обробка семантичних мереж (і
інших графових структур), отриманих в
результаті аналізу природномовних текс-
тів;
представлення й обробка даних
з соціальних мереж (побудова портрета
користувача, виявлення центрів поширен-
ня інформації у соціальних мережах то-
що);
обробка даних складних науко-
вих експериментів.
Практично всі задачі, у яких кіль-
кість взаємозв'язків між сутностями пере-
вищує кількість сутностей чи орієнтованих
на аналіз взаємозв'язків, можуть розгляда-
тися як кандидати на рішення засобами
систем RDF.
Сучасні програмні засоби обробки
неструктурованих даних
Існує велика кількість програмних
засобів для обробки та керування НСД.
Деякі з них використовують системи ке-
рування корпоративним контентом
(CMS), що можуть підтримувати весь
життєвий цикл його контента (Web-
контент, документи тощо). Багато поста-
чальників CMS масштабують свої рішен-
ня для обробки Big Data та орієнтовані на
опрацювання великих обсягів НСД у реа-
льному часі, використовуючи такі техно-
логії, як Hadoop, MapReduce і потокова
передача.
Методи роботи з НСД іноді проти-
ставляють технологіям BI, однак точніше
говорити про їх взаємне доповнення [11].
Основний недолік BI пов’язують з їхньою
недостатньою динамічністю та непристо-
сованістю для обробки Big Data у режимі
реального часу. Крім того, традиційні ме-
тоди BI орієнтувалися на аналіз структу-
рованої інформації. Інтеграція BI з техно-
логіями обробки НСД називають
Embraced Enterprise Search and Retrieval
(ESR): в них реалізовано дві всеохоплюю-
чі (Embraced) функції – корпоративний
пошук (Enterprise Search) і здобування ін-
формації з даних (Retrieval). ESR, крім
доступу до нових типів даних, дозволяють
здобувати більше корисної інформації та-
кож і зі звичайних структурованих даних.
Проблеми аналізу НСД загостри-
лися через нові джерела таких даних – со-
ціальні мережі, мобільні пристрої, реєст-
ратори. Використання інформаційно-
пошукових систем (ІПС), що традиційно
застосовуються для пошуку в Web, ускла-
днюється великими обсягами та великою
швидкістю накопичення НСД, що харак-
терні для Big Data. Водночас як застосу-
вання для цього технологій корпоратив-
ного пошуку виявилося надто коштовним.
Середня довжина запитів до ІПС не
перевищує двох-трьох слів, користувачі
рідко застосовують логічні операції. У
традиційних ІПС кожен запит виконуєть-
ся незалежно від попередніх, і пошукові
машини дають ту саму відповідь будь-
якому користувачу поза залежністю від
передісторії його роботи з базою. Деякі
компанії (наприклад, Google) використо-
вують додаткову контекстну інформацію
(метадані), що відноситься до предмета
пошуку, та рейтинги сторінок. Але й такі
системи не враховують особливості кор-
поративних даних, структурувати які все
ж більш легко, ніж інформацію від дові-
льних користувачів.
Задачі, які вирішують системи
CMS, – оцінка причин відтоку клієнтів
шляхом побудови профілів клієнтів, ана-
Моделі та засоби систем баз даних і знань
68
ліз відгуків та їх емоційного забарвлення,
оцінка компаній у ЗМІ, внутрішні розслі-
дування (пошук та захист від видалення
документів, пов’язаних з певним інциден-
том, в якому аналізуються НСД з різних
корпоративних джерел – поштових серве-
рів, корпоративних порталів, телефонних
і відеоконференцій, та побудова взаємоз-
в'язків між ними).
Засоби, що використовуються в
CMS для аналізу НСД, порівнюють за на-
ступними параметрами [12], значення яких
наведено у табл. 1.
Таблиця 1. Параметри порівняння засобів
CMS
Параметр Можливі значення
Тип засобу Засоби Text Mining
Обробка контенту баз даних
Інтеграція Text Mining та об-
робки контенту баз даних
Можли-
вості
Аналіз ключових слів
Статистичний аналіз
Лінгвістичний аналіз
Джерела
даних
Структуровані бібліографічні
джерела даних
Неструктуровані джерела
даних
Гібридні джерела даних
Результати Списки документів
Таблиці
Графіки
Карти
Для того, щоб визначити типові
операції аналізу НСД в CMS, розглянемо
кілька прикладів програмних продуктів,
що широко застосовуються для такого
аналізу.
Autonomy IDOL (Intelligent Data
Operating Layer) [13] базується на обробці
змісту (Meaning-Based Computing) текстів
незалежно від форми їхнього представ-
лення і форматів та забезпечує пошук по-
нять (концептів) за пов’язаними з ними
словами ПМ [14]. Для цього використо-
вують різні підходи – пошук за ключови-
ми словами, що враховує найпростіші за-
кономірності (частоту повторень слів то-
що), ранжирування (PageRank) на основі
частоти звертань до того чи іншого доку-
мента, федеративний пошук (Federated
Search), та концептуальний пошук
(Conceptual Search) та мультимедійний
пошук (Audio and Video Search), що спо-
лучує власне пошук з розпізнаванням об-
разів. Обробка змісту даних починається з
їх класифікації та кластеризації. IDOL для
розуміння змісту даних використовує ме-
тод байєсівського виведення (розрахунок
імовірності події на основі статистики її
здійснення в минулому) і теорію інфор-
мації Клода Шеннона разом із традицій-
ними підходами до аналізу. Це дозволяє
визначити категорії документів за допо-
могою статистичного аналізу слів, що зу-
стрічаються в цих документах.
Endeca Latitude [15] – технологія
Text Mining, що призначається для аналізу
потоків сирої текстової інформації з різних
джерел та фокусується на розкритті змісту
даних на противагу традиційному аналізу.
Вона містить Latitude Information
Integration Suite – набір засобів для збору і
попередньої обробки потоку сирих вхід-
них даних (структурованих, неструктуро-
ваних і квазіструктурованих), а також се-
редовище для створення аналітичних за-
стосувань Latitude Studio та гібридну по-
шуково-аналітичну СКБД з високою мас-
штабованістю MDEX Engine.
Ця платформа забезпечує здобуття
наступних п’яти типів інформаційних ша-
блонів, за допомогою яких користувачі за-
дають режими створення цільових моде-
лей пошуку інформації [16]:
1) оптимізація, що керується порі-
внянням (Analyze-Compare- Evaluate);
2) оптимізація, орієнтована на до-
слідження (Explore-Analyze-Evaluate);
3) стратегічний аналіз (Analyze-
Comprehend-Evaluate);
4) стратегічний нагляд (Monitor-
Analyze-Evaluate);
5) синтез, керований порівнянням
(Analyze-Compare- Synthesize).
Моделі та засоби систем баз даних і знань
69
На вході Endeca Latitude працює
Latitude Information Integration Suite, що
складається з трьох основних компонентів:
Latitude Content Acquisition
System – система збору контента, що міс-
тить колекцію конекторів для виділення,
очищення й інтеграції НСД з файлових си-
стем, Web-сайтів тощо;
Latitude Data Integrator – інтег-
ратор, що виконує функції, аналогічні ETL
(Extract, Transform, and Load – Витяг, Пе-
ретворення та Завантаження) у сховищах
даних;
Open Interfaces and Connectors –
інтерфейси і конектори для отримання да-
них з Apache Hadoop та інших джерел.
MDEX Engine націлена на пошук і
виявлення знань і є гібридом ІПС та аналі-
тичної СКБД, що призначена для обробки
даних, що швидко змінюються.
Принципова відмінність MDEX від
традиційних СКБД полягає у наближенні
записів, що зберігаються в ній, до реально-
стей навколишнього світу. Ці записи міс-
тять пари атрибутів “ключ/значення”
(key/value). У формі атрибутів зберігають-
ся ієрархічно організовані дані, наприклад
елементи ієрархій XML, причому так, що
користувач має можливість буквально
угвинчуватися (drill-into) у набори даних,
використовуючи для цього інструменти
Latitude Studio. Таким чином MDEX до-
зволяє максимально позбутися процесів
моделювання та працювати з даними у то-
му вигляді, як вони надійшли і зберігають-
ся, – те, що називають «завантажив і пі-
шов».
У MDEX реалізований фасетний
пошук – пошук в інформаційних середо-
вищах, побудованих за принципами фасе-
тної класифікації.
Фасетна класифікація (класифіка-
ція двокрапкою, класифікація Ранганатана)
– це сукупність кількох незалежних кла-
сифікацій, що здійснюються одночасно за
різними базисами. В такій класифікації
поняття представлені у вигляді перетину
ряду ознак, а класифікаційні індекси син-
тезуються за допомогою комбінування фа-
сетних ознак відповідно до фасетної фор-
мули [17].
Ця класифікація запропонована
Шиалі Ранганатаном, відомого створенням
“П’яти законів бібліотечної науки” (1931)
[18], як варіант бібліотечно-бібліогра-
фічного підходу до багатоаспектної кла-
сифікації для звичайних паперових бібліо-
тек і пізніше поширилися для комп'ютер-
них застосувань.
Це неієрархічна система організації
інформації, у якій прості поняття розподі-
лені у фасети – групи однорідних понять,
пов’язані узагальненням за однією певною
ознакою. Її структура є прямим відобра-
женням системної характеристики класи-
фікації, тобто базується на поділі об'єктів
за кількома класифікаційними ознаками
одночасно [19]. Фасетною ознакою може
бути будь-яка класифікаційна ознака, яка
використовується для угрупування понять
у фасетні ряди, у результаті чого утворю-
ються підкласи.
Особливість фасетної класифікації
пов’язана з представленням фасетних
ознак через їх послідовність, тобто резуль-
тат класифікації залежить від впорядку-
вання фасет (це визначає їх важливість для
класифікації). Більш того, послідовність
ознак у цій класифікації впливає на зміст
поняття (наприклад, “процес: матеріал:
устаткування: властивість”), яке визначає
фасетна формула – індекс, що складається
з послідовності фасетних ознак, розділе-
них двокрапкою.
Такий підхід забезпечує багатоас-
пектний пошук інформації. У цій класи-
фікації сполучаються індекси з різних
таблиць у певних комбінаціях, що дозво-
ляє отримати індекси для різноманітних
предметів. Основна таблиця фасетної кла-
сифікації в кожній предметній області
(ПрО) представлена набором таблиць, що
будуються за класифікаційними ознаками
(категоріями, фасетами) різного ступеня
узагальнення – загальні (наприклад, “Вла-
стивості”), спільні для великих груп ПрО
(наприклад, “Обладнання”) та специфічні
для окремих ПрО (наприклад, “Алгорит-
ми сортування даних”). Таблиці таких ка-
тегорій розробляються відповідно до спе-
цифіки кожної ПрО, а типові ознаки, ха-
рактерні для більшості або всіх відділів
фасетної класифікації, відображаються у
Моделі та засоби систем баз даних і знань
70
додаткових таблицях, а в особливій таб-
лиці міститься визначення характеру
зв’язків між поняттями (“Вплив”, “Порів-
няння” тощо).
ClearForest (http://www.clearforest.
com/Technology/) пропонує рішення Text
Analytics, що містить платформу видобу-
вання тексту, аналітичну платформу та
середовища розробки. Інструмент видо-
бування тексту виконує генерування мат-
риць спільного застосування термінів,
кластеризації даних, видобутку термінів і
тегування, тобто обирає відповідні термі-
ни з неструктурованого тексту, напри-
клад, статей новин, Web-опитувань і до-
кументів HTML. Після структуризації ця
інформація може бути використана в ав-
тономних аналітичних застосунках або в
поєднанні зі структурованими даними,
щоб забезпечити більш комплексний біз-
нес-інтелект. Терміни витягуються для
подальшого аналізу і автоматично класи-
фікуються в попередньо визначені кате-
горії або таксономії.
Інструмент дозволяє візуалізувати
взаємозв'язки між колекціями таксономій,
щоб отримати інформацію, яка є актуаль-
ною, дієвою та додає цінності іншим ін-
струментам Business Intelligence.
Однією з переваг ClearForest є пе-
ретворення НСД у структуровані дані за
допомогою модуля Packaged Extraction
Module. Наприклад, текст патентних до-
кументів перетворюється у структуровані
таблиці з такими параметрами, як “про-
блеми” та “технологічні процеси”.
Inxight (http://www.inxight.com/
products/smartdiscovery_as/) – набір про-
грамних рішень для аналізу ПМ дослід-
ницького центру Xerox Palo Alto (PARC),
що дозволяють розуміти документи насті-
льки глибоко, щоб забезпечити їх індек-
сацію, класифікацію та витяг всіх необ-
хідних понять, сутностей та відношень.
Програмне забезпечення ідентифікує бі-
льше 35 типів інформації в одному доку-
менті. Джерелами даних є текстові НСД,
наприклад, новини, Web-сайти, внутрішні
документи та повнотекстові патенти. Ме-
тадані і об'єкти можуть бути здобуті з по-
передньо оброблених документів. Резуль-
татом роботи Inxight є ієрархічна катего-
ризація документів, тобто документи ана-
лізуються на основі заздалегідь визначе-
них категорій в ієрархіях.
Важливою особливістю Inxight є
можливість одночасного пошуку в декі-
лькох онлайнових БД, відома як федера-
тивний пошук (“fedederated search”).
Inxight працює з 32 мовами і ідентифікує
27 типів об'єктів. Розробника Inxight стве-
рджують, що лінгвістичні алгоритми, ви-
користані в цьому продукті, є найпотуж-
нішими в даній галузі. Недоліком системи
є потреба у значних витратах часу на ана-
ліз тексту.
Платформа Velocity Platform
(http://vivisimo.com/html/velocity) компанії
Vivisimo складається з трьох пов’язаних
програмних продуктів:
Search Engine – багатофункціо-
нальна пошукова машина, агенти-краулери
якої здатні аналізувати файли різних типів
(HTML, TXT, RTF, Adobe Acrobat PDF,
PostScript, MS Word, Excel, PowerPoint,
WordPerfect, ZIP, GZIP, TAR Lotus Notes)
та здобувати інформацію з реляційних
СКБД різними мовами (всі європейські
мови, арабська і китайська);
Clustering Mashine – засіб клас-
теризації, що групує результати, отримані
від Google, Autonomy, FAST і Ultraseek, а
також тексти в різних форматах;
Content Integrator – інтегратор,
що забезпечує федерований пошук, що
вміє працювати з метаданими і передавати
результати до Clustering Engine.
Інші відомі програмні продукти,
орієнтовані на аналіз текстових НСД, – це
Goldfire Innovator (http://www.invention-
machine.com/GoldfireInnovator.htm),
OmniViz (http://www.biowisdom.com/
solutions/), TEMIS (http://www.temis.com).
Сфера застосування засобів
аналізу НСД
Призначення багатьох комерційних
систем, що здійснюють аналіз текстових
НСД, пов’язане з підтримкою зворотного
зв’язку з клієнтами та аналізом емоційного
інформаційного фону, що складається на-
Моделі та засоби систем баз даних і знань
71
вколо організації і її конкурентів [20].
Джерелами даних для них є ЗМІ, портали
новин, соціальні мережі, аналітичні пор-
тали, внутрішні інформаційні ресурси
компаній тощо. У цілому робота з НСД –
це пошук і агрегація контента з різних
джерел, витяг даних відповідно до заданих
параметрів і їхній семантичний аналіз, а
також надання підсумкових відомостей
користувачу в зручному вигляді.
Наведемо ще кілька характерних
прикладів таких систем:
First Rain компанії First Rain –
рішення для пошуку, збору й аналізу ін-
формації тільки з Web-ресурсів (звітів
компаній та аналітичних оглядів), яке
класифікує знайдені відомості за стандар-
тизованих набором тем і значущістю для
клієнта;
Digimind – рішення для пошуку
структурованих і неструктурованих даних,
з Web і соціальних мереж, що забезпечує
класифікацію оброблених матеріалів та
представлення підсумкових даних у вигля-
ді, зручному для користувача;
InfoNgen – набір рішень для
пошуку, збору й аналізу НСД, що агрегу-
ють відомості з різних Web-джерел, елект-
ронної пошти та внутрішніх інформацій-
них ресурсів організації та категоризують
їх відповідно до таксономії клієнта та до-
зволяють враховувати специфічні особли-
вості кожного джерела;
Factiva – набір інформаційно-
аналітичних рішень, що дозволяє збирати
мультимедійний контент з сайтів новин;
«Голос клієнта» – рішення для
аналізу структурованих і неструктурова-
них даних для обробки відгуків клієнтів з
соціальних мереж, центрів роботи з клієн-
тами і CRM, форумів і блогів.
Семантичний аналіз НСД дозволяє
визначити заголовок, резюме, зміст, дату
публікації тощо, заданих користувачем
елементів (наприклад, назв компаній, на-
йменувань продуктів, послуг), відкинути
непотрібні дані (рекламні оголошення,
правові обмеження), розпізнати семанти-
чну структуру тексту та семантичні зале-
жності. У ході морфологічного і лексич-
ного аналізу кожен текст розділяється на
зв'язані між собою слова, що зіставляють-
ся з заздалегідь визначеними тегами. В
процесі аналізу враховуються синоніми,
можливі варіанти написання слів (іншими
мовами або з типовими помилками), аб-
ревіатури.
Крім того, існує можливість визна-
чення емоційної тональності тексту, що
дозволяє оцінити відношення авторів до-
кумента до окремих інформаційних
об’єктів, – позитивне чи негативне, а та-
кож задати цінність кожного позитивного і
негативного висловлення в залежності від
цілей користувача.
Постановка задачі
У зв’язку з тим, що велика частка
інформаційних ресурсів – це неструкту-
ровані текстові дані, виникає потреба у
створенні засобів, що забезпечують здо-
буття з цих НСД тієї інформації, що необ-
хідна користувачам для розв’язку їх пото-
чних проблем. Використання традиційних
засобів Text Mining може бути недостат-
ньо ефективним для обробки Big Data, і
це викликає необхідність інтелектуалізації
засобів аналізу НСД. Основою такого
аналізу може стати застосування фонових
знань щодо предметної області, формалі-
зованих за допомогою онтологій. Це ви-
кликає потребу у методах побудови спе-
ціалізованих онтологій для задач корис-
тувачів та їх застосування для семантич-
ної розмітки природномовних текстів.
Пропонується використовувати для цього
технології Wiki та їх семантичне розши-
рення, а також створювати семантично
розмічені Wiki-ресурси як основу для
структурування довільних природномов-
них текстів.
Технологія Wiki як засіб
структурування інформації
Під Wiki-технологією зазвичай ро-
зуміють таку технологію побудови Web-
ресурсу, яка дає змогу відвідувачам брати
участь у редагуванні його вмісту – виправ-
ляти помилки, додавати нові матеріали,
не використовуючи спеціальні програми,
явно вказувати зв’язки між окремими сто-
рінками за допомогою гіперпосилань та
Моделі та засоби систем баз даних і знань
72
визначати категорії, до яких вони відно-
сяться [21].
Формат Wiki-сторінок – це спроще-
на мова розмітки, що використовується
для того, щоб виділити в тексті різні стру-
ктурні й візуальні елементи або вказати
на них. Важливою особливістю Wiki є те,
що вносити структурування до текстових
НСД за допомогою Wiki-розмітки може
практично кожен користувач. На сьогодні
існує велика кількість Wiki-двигунів та
створених на їх основі розподілених інфо-
рмаційних ресурсів різного обсягу та
спрямованості. Найбільш великим та відо-
мим з них є Вікіпедія.
Основними елементами Wiki-
розмітки є гіперпосилання та категорії. Їх
застосування дозволяє досить легко перет-
ворювати НСД у частково структуровані
дані. Крім того, аналіз структурування
Wiki-ресурсів на рівні слів та понять до-
зволяє отримувати знання для структуру-
вання інших НСД.
Семантизація Wiki-ресурсів
Semantic MediaWiki (SMW) – це на-
дбудова над інструментальним засобом
побудови Wiki-сайту MediaWiki [22]. Пе-
реваги SMW – це обробка інформації на
семантичному рівні, наявність засобів гру-
пового керування знаннями, відносно ви-
сока виразна потужність, надійна реаліза-
ція і зручний інтерфейс користувачів, ная-
вність документації та спільнот користу-
вачів [23]. Це дозволяє інтегрувати інфор-
мацію з різних Wiki-сторінок, здійснюючи
пошук на рівні знань, та генерувати за
Wiki-сторінками онтологічні структури,
які можуть використовувати інші ІІС.
Крім категорій, в SMW для струк-
турування інформації використовуються
такі механізми, як семантичні властиво-
сті. Вони дозволяють семантично
пов’язувати Wiki-сторінки як між собою,
так і з різними даними. Кожна семантична
властивість має тип, назву і значення, а
також власну Wiki-сторінку в спеціаль-
ному просторі імен, яка дозволяє визнача-
ти її місце в ієрархії властивостей та до-
кументувати те, як цю властивість необ-
хідно використовувати.
З точки зору онтологічного аналізу,
кожна Wiki-сторінка являє собою онтоло-
гічний елемент, тобто елемент одного з
RDF-класів – Thing, Class, ObjectProperty,
DatatypeProperty, AnnotationProperty. Крім
того, кожна стаття має власний URI, який
дозволяє уникнути плутанини між понят-
тями і HTML- сторінками. Зазвичай, стат-
ті є екземплярами класів онтології OWL,
категорії – класами, а відношення – об'єк-
тними властивостями онтології.
Виходячи з цього, для будь-якої
сторінки SMW за запитом може генерува-
ти відповідний OWL/RDF-файл. Найпрос-
тіший спосіб отримати цей RDF – просто
використати посилання "Переглянути як
RDF" ("View as RDF"), що знаходиться в
нижній частині кожної анотованої сторін-
ки. Ця сторінка може виступати як кінце-
ва точка (endpoint) для зовнішніх сервісів
(зовнішньої точки доступу), які хочуть
отримати доступ до семантичних даних
SMW. На жаль, ця функція реалізована
дуже невдало та підтримує надто мало
опцій.
Оскільки SMW сумісна з моделлю
знань OWL DL, то існує можливість ви-
користання в Wiki-ресурсах існуючих
онтологій. Це можливо здійснити двома
шляхами: імпорт онтології дозволяє ство-
рювати і модифікувати сторінки у Wiki
для подання відношень, заданих в деяко-
му існуючому OWL DL-документі; а по-
вторне використання словника дозволяє
користувачам відображати (задавати від-
повідності) Wiki-сторінки на елементи
існуючих онтологій. Функція імпорту он-
тології для читання RDF-документів витя-
гує RDF-твердження, які можуть бути
представлені у Wiki.
Семантичні Wiki-ресурси можуть
використовуватися як основа для автома-
тизованої генерації розподілених баз
знань в форматі RDF. Експорт в
OWL/RDF є засобом забезпечення зовні-
шнього повторного використання даних з
Вікі, але тільки практичне застосування
цієї функції може показати якість згене-
рованого RDF. З цією метою для видачі
RDF, розробники системи використовува-
ли ряд інструментів Semantic Web.
Моделі та засоби систем баз даних і знань
73
Таким чином, наявність перевіре-
ного та семантично розміченого Wiki-
ресурсу дозволяє побудувати онтологію
тієї ПрО, що цікавить користувача, яка
може використовуватися в Text Mining
для структурування НСД з цієї ПрО. Пе-
реваги використання моделі даних RDF
вище наведені.
Основна проблема отримання фо-
нових знань для Text Mining з Wiki-
ресурсів пов’язана з тим, що сьогодні:
преважна частка Wiki-ресурсів
не семантизована;
Wiki-ресурси здебільшого не є
реферованими та авторськими, і тому ная-
вність в них помилок (фактичних, струк-
турних та змістовних) досить ймовірна;
семантизовані Wiki-ресурси з
високим рівнем довіри до контенту здебі-
льшого високо спеціалізовані та орієнто-
вані на подання знань відносно вузьких
ПрО (крім того, навіть в таких ресурсах
зазвичай Wiki-онтологія, що лежить в ос-
нові їх семантичної розмітки, зазвичай не є
доступною для зовнішніх користувачів);
пошук та аналіз RDF та OWL із
зовнішніх сховищ та репозиторіїв – досить
складна задача, незважаючи на наявність
спеціалізованих пошукових запитів, а
знайдені таким чином онтології можуть не
повністю відповідати поточним потребам
користувача.
Крім вбудованих в Semantic
MediaWiki засобів генерації RDF, існує
багато більш спеціалізованих алгоритмів
побудови онтологій на основі семантич-
ної Wiki-розмітки [24]. Ці алгоритми до-
зволяють використовувати семантичний
пошук та фонові знання щодо специфіки
ПрО для формування корпусу Wiki-
текстів, за якими створюється онтологія.
Це викликає потребу у розробці та
вдосконаленні енциклопедичних онлайно-
вих видань на базі семантичних Wiki-
ресурсів. Саме до таких продуктів відно-
ситься портальна версія Великої українсь-
кої енциклопедії е-ВУЕ. (http://vue.gov.ua),
яка використовує вільне програмне забез-
печення MediaWiki версії 1.29.1. та його
семантичне розширення Semantic
MediaWiki версії 2.5.5. (рис. 4). Це іннова-
ційний проект із створення національної
енциклопедії на основі сучасних засобів
подання знань.
Рис. 4. Головна сторінка е-ВУЕ
Принциповими відмінностями
е-ВУЕ від інших онлайнових довідників та
енциклопедій (наприклад, від Вікіпедії) є:
- рецензованість – е-ВУЕ є науко-
вим виданням з високою репутацією, яке
подає експертні знання у вигляді авторсь-
ких статей та надає перевірені сталі факти;
- наявність обробки інформації на
рівні знань – пошук за семантичними вла-
стивостями;
- використання авторських статей.
Щоб використовувати семантизо-
ваний Wiki-ресурс як розподілену базу
знань (БЗ), створено Wiki-онтологію – мо-
дель знань цього ресурсу. Використання
цієї моделі для семантичної розмітки за-
безпечує формування та програмної реалі-
зації відповідного набору ієрархічно
пов’язаних категорій, шаблонів типових
інформаційних об’єктів, їх семантичних
властивостей та запитів, що їх використо-
вують. Наявність формальної моделі до-
зволить запобігти неоднозначної інтерпре-
тації знань різними розробниками та кори-
стувачами ресурсу.
До пошуку подібних статей доціль-
но застосовувати принципи фасетної кла-
сифікації, тому що в е-ВУЕ для категори-
зації статей використовуються одночасно
різні незалежні таксономії, такі як:
- галузі знань та їх підгалузі
(рис. 5);
Моделі та засоби систем баз даних і знань
74
Рис. 5. Категорії е-ВУЕ
- типові інформаційні об’єкти;
- наявність різних типів мульти-
медійного супроводу;
- таксономія географічних
об’єктів;
- природа, цивілізація та персона-
лії;
- класифікація за авторами та мо-
дераторами.
Кожна стаття може використовува-
ти один або кілька шаблонів для типових
інформаційних об’єктів, що дозволяють
задати значення семантичних властивос-
тей сторінки та змістовно визначити її ві-
дношення з іншими сторінками енцикло-
педії.
Таким чином, подібні статті, – це
статті, що віднесені до однакового або по-
дібного набору категорії та мають подібні
семантичні властивості, тобто аналіз бли-
зькості статей може оцінюватися через
співставлення їх фасетних індексів.
Аналіз виразних можливостей роз-
ширених засобів подання та структуруван-
ня інформації засобами технологічного
середовища Semantic MediaWiki виявив,
що, незважаючи на значно меншу, порів-
няно з онтологіями, їх виразну здатність,
ці засоби дозволяють не тільки представ-
ляти класи та екземпляри онтологій, для
яких існують однозначно визначені анало-
ги у Wiki [25] – категорії та Wiki-сторінки,
але й представляти деякі більш складні
знання. Запропоновано в цій роботі онто-
логічна модель Wiki-ресурсу дозволяє фо-
рмально описувати такі характеристики
семантичних властивостей різних типів, як
припустимість неповних та множинних
значень. Використання класів та екземпля-
рів цієї онтології дозволяє генерувати
Wiki-сторінки, на яких містяться результа-
ти виконання семантичних запитів, і за
цими сторінками створювати онтології
ПрО, що цікавлять користувачів. Застосу-
вання стандартів Semantic Web у Semantic
MediaWiki забезпечує можливість викори-
стання цих онтологій у застосуваннях Text
Mining без додаткової обробки.
Висновки
Проаналізувавши сучасні тенденції
поширення неструктурованих текстових
даних та засоби, що використовуються для
їх аналізу, можна зробити висновки щодо
високої актуальності цього напрямку та
необхідність застосування до такої оброб-
ки інтелектуальних інформаційних систем.
Big Data, значну частину яких складають
саме неструктуровані тексти, потребують
подальшого розвитку Text Mining та алго-
ритмів машинного навчання.
НСД, що складаються із природно-
мовного тексту, у загальному випадку не
мають попередньо визначеної моделі да-
них. Їх неоднозначність, гетерогенність та
залежність від контексту значно усклад-
нюють класифікацію документів, іденти-
фікацію їх компонентів та автоматизоване
здобуття з їх контенту знань, потрібних
користувачеві, тоді як великі обсяги та ди-
намічність таких даних не припускають
ефективної ручної обробки.
Розглянуто засоби та методи струк-
турування НСД, їх різноманітні програмні
реалізації. Проаналізовано перспективи
використання фонових знань для такого
структурування. Обґрунтовано доціль-
ність застосування для цього таких стан-
дартів W3C, як RDF та OWL.
Використання семантичних Wiki-
технологій для створення розподілених
інформаційних ресурсів не тільки дозволяє
досить легко додавати структурування до
НСД, але й є джерелом фонових знань для
аналізу довільних текстів відповідної пре-
дметної області. Запропоновані в роботі
моделі та методи дозволяють вдосконали-
ти цей процес.
Моделі та засоби систем баз даних і знань
75
Література
1. Grimes S. Unstructured Data and the 80
Percent Rule, 2008, Clarabridge,
Bridgepoints. – http://breakthroughanalysis.
com/2008/08/01 /unstructured-data-and-the-
80-percent-rule/.
2. Неструктурированные данные в большой
среде данных. – https://ru.howtodou.
com/unstructured-data-in-big-data-
environment.
3. Unstructured_data. – https://en.wikipedia.org/
wiki/Unstructured_data.
4. Grimes S. A Brief History of Text Analytics.
B Eye Network, 2016. – http://www.b-eye-
network.com/view/6311.
5. Buneman P., Davidson S., Fernandez M.,
Suciu D. Adding structure to unstructured
data. International Conference on Database
Theory, 1997. P. 336–350.
6. Гладун А.Я., Рогушина Ю.В. Data Mining:
пошук знань в даних. К.: ТОВ "ВД
"АДЕФ-Україна", 2016. 452 с.
7. Feldman R., Sanger, J. The text mining
handbook: advanced approaches in analyzing
unstructured data. Cambridge university
press, 2007. https://wtlab.um.ac.ir/images/e-
library/text_mining/The%20Text%20Mining
%20HandBook.pdf.
8. Шаховська Н. Особливості моделювання
просторів даних, 2007. ena.lp.edu.ua/
bitstream/ntb/35116/1/24_139-148.pdf.
9. Sadalage P., Fowler M. NoSQL Distilled.
Pearson Education, 2012. 192 p.
10. Головков В., Портнов А., Чернов В. RDF –
инструмент для неструктурированных
данных. Открытые системы. СУБД.
https://www.osp.ru/os/2012/09/13032513/.
11. Черняк Л. Аналитика неструктурирован-
ных данных. Открытые системы. 2012,
№ 06.
12. Yang Y., Akers L., Klose T., Yan, C. B. Text
mining and visualization tools–impressions of
emerging capabilities. World Patent
Information. 2008. 30(4). Р. 280–293.
https://www.scss.tcd.ie/Khurshid.Ahmad/Res
earch/High_Frequency_Trading/2008_Yanget
al_TextMiningVis_ WorldPatent.pdf.
13. Autonomy IDOL. http://www.autonomy.
com/content/Products/products-idol-
server/index.en.html.
14. Lyte V., Jones S., Ananiadou S., Kerr L. UK
institutional repository search: innovation and
discovery, 2009. http://www.ariadne.ac.uk/
issue/61/ lyte-et-al/.
15. Russell-Rose T., Lamantia J., Burrell M. A
Taxonomy of Enterprise Search. EuroHCIR,
2011. Р. 15–18. https://www.researchgate.
net/profile/Joe_Lamantia/publication/2359713
52_A_Taxonomy_of_Enterprise_Search_and
_Discovery/links/00b7d515063de775c800000
0.pdf.
16. Lamantia J. 10 Information Retrieval Patterns,
2006. http://www.joelamantia.com/ informa-
tion-architecture/10-information-retrieval-
patterns.
17. Фасетна класифікація. http://uk.wikipedia.
org/wiki/ Фасетна_класифікація.
18. Noruzi A. Application of Ranganathan's Laws
to the Web. http://www.webology.org/
2004/v1n2/a8.html.
19. Сербин О.О. Особенности фасетной клас-
сификации документов в условиях совре-
менной трансформации содержания науки
о книге. Книжная культура в контексте
международных контактов: Материалы III
Международной научной конференции,
Минск: ЦНБ НАН Беларуси; М.: ФГБУН
НИЦ «Наука» РАН, 2015. C. 457–462.
http://eprints.rclis.org/25289/1/serbin.pdf.
20. Оганесян А. Неструктурированные данные
2.0. Открытые системы. СУБД. 2012.
№ 04. https://www.osp.ru/os/2012/04/
13015772/.
21. Wagner C. Wiki: A technology for
conversational knowledge management and
group collaboration. The Communications of
the Association for Information Systems.
2004. Vol. 13(1). P. 264–289. http://aisel.
aisnet.org/cgi/viewcontent.cgi? article=
3238& context= cais.
22. MediaWiki. https://www.mediawiki.org/
wiki/MediaWiki.
23. Рогушина Ю.В., Прийма С.М., Строкань
О.В. Створення та використання семанти-
чних Wiki-ресурсів: навчальний довідник.
Мелітополь, ФОП Однорог Т.В. 2017.
169 с.
24. Rogushina J. Processing of Wiki Resource
Semantics on Base of Ontological Analysis.
Proc.of VIIІ International scientific
conference «Open Semantic Technologies for
Intelligent Systems» OSTIS-2018, Minsk,
2018. P. 159–162. https://libeldoc.bsuir.by/
bitstream/123456789/30389/1/Rogushina_Pro
cessing.PDF.
25. Rogushina J. Analysis of Automated
Matching of the Semantic Wiki Resources
with Elements of Domain Ontologies.
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
Моделі та засоби систем баз даних і знань
76
International Journal of Mathematical
Sciences and Computing (IJMSC). 2017.
Vol. 3. N 3. P. 50–58. http://www.mecs-
press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3-
5.pdf.
References
1. Grimes S. Unstructured Data and the 80
Percent Rule, 2008, Clarabridge,
Bridgepoints. http://breakthroughanalysis.
com/2008/08/01 /unstructured-data-and-the-
80-percent-rule/.
2. Unstructured data in big data environment.
https://ru.howtodou.com/unstructured-data-in-
big-data-environment.
3. Unstructured_data. https://en.wikipedia.org/
wiki/Unstructured_data.
4. Grimes S. A Brief History of Text Analytics.
B Eye Network, 2016. http://www.b-eye-
network.com/view/6311.
5. Buneman P., Davidson S., Fernandez M.,
Suciu D. Adding structure to unstructured
data. // International Conference on Database
Theory, 1997. P. 336–350.
6. Gladun A.Ya., Rogushina Y.V. Data Mining:
Finding Knowledge in Data. K .: ADEF-
Ukraine Ltd., 2016. 452 p. [in Ukrainian]
7. Feldman R., Sanger, J. The text mining
handbook: advanced approaches in analyzing
unstructured data. Cambridge university
press, 2007. https://wtlab.um.ac.ir/images/e-
library/text_mining/The%20Text%20Mining
%20HandBook.pdf.
8. Shakhovska N. Features of modeling of data
spaces, 2007. ena.lp.edu.ua/bitstream/ntb/
35116/1/24_139-148.pdf. [in Ukrainian]
9. Sadalage P., Fowler M. NoSQL Distilled.
Pearson Education, 2012. 192 p.
10. Golovkov V., Portnov A., Chernov V. RDF as
a tool for unstructured data // Open Systems.
https://www.osp.ru/os/2012/09/13032513/. [in
Russian]
11. Chernyak L. Analytics of unstructured data.
Open systems, 2012, № 06. [in Russian]
12. Yang Y., Akers L., Klose T., Yan, C. B. Text
mining and visualization tools–impressions of
emerging capabilities. World Patent
Information, 30(4), 2008. Р. 280–293.
https://www.scss.tcd.ie/Khurshid.Ahmad/Res
earch/High_Frequency_Trading/2008_Yanget
al_TextMiningVis_ WorldPatent.pdf.
13. Autonomy IDOL. http://www.autonomy.
com/content/Products/products-idol-
server/index.en.html.
14. Lyte V., Jones S., Ananiadou S., Kerr L. UK
institutional repository search: innovation and
discovery, 2009. http://www.ariadne.ac.uk/
issue/61/ lyte-et-al/.
15. Russell-Rose T., Lamantia J., Burrell M. A
Taxonomy of Enterprise Search // EuroHCIR,
2011. Р. 15–18. https://www.researchgate.
net/profile/Joe_Lamantia/publication/2359713
52_A_Taxonomy_of_Enterprise_Search_and
_Discovery/links/00b7d515063de775c800000
0.pdf.
16. Lamantia J. 10 Information Retrieval Patterns,
2006. http://www.joelamantia.com/
information-architecture/10-information-
retrieval-patterns.
17. Faceted classification. http://uk.wikipedia.
org/wiki/ Фасетна_класифікація. [in
Russian]
18. Noruzi A. Application of Ranganathan's Laws
to the Web. http://www.webology.org/
2004/v1n2/a8.html.
19. Serbin O.O. Features of the faceted
classification of documents under the modern
transformation of the book science content //
Book culture in the context of international
contacts: Proc| of the III International
Scientific Conference, Minsk: Central
Scientific Library of the National Academy of
Sciences of Belarus, 2015. P. 457–462.
http://eprints.rclis.org/25289/1/serbin.pdf.
faceted classification. [in Russian]
20. Oganesyan A. Unstructured Data 2.0 // Open
Systems. N 04, 2012. https://www.osp.ru/
os/2012/04/13015772/. [in Russian]
21. Wagner C. Wiki: A technology for
conversational knowledge management and
group collaboration // The Communications
of the Association for Information Systems.
2004. Vol. 13(1). P. 264–289. http://aisel.
aisnet.org/cgi/viewcontent.cgi? article=
3238& context= cais.
22. MediaWiki. https://www.mediawiki.org/
wiki/MediaWiki.
23. Rogushina Y.V., Priyma S.M, Strokan O.V.
Creating and use of the Semantic Wiki
resources: tutorial. Melitopol, FOP Odnorog
T.V., 2017. 169 p. [in Ukrainian]
24. Rogushina J. Processing of Wiki Resource
Semantics on Base of Ontological Analysis.
Proc.of VIIІ International scientific
conference «Open Semantic Technologies for
Intelligent Systems» OSTIS-2018, Minsk,
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
http://aisel.aisnet.org/cgi/viewcontent.cgi?%20article=%203238&%20context=%20cais
Моделі та засоби систем баз даних і знань
77
2018. P. 159–162. https://libeldoc.bsuir.by/
bitstream/123456789/30389/1/Rogushina_Pro
cessing.PDF.
25. Rogushina J. Analysis of Automated
Matching of the Semantic Wiki Resources
with Elements of Domain Ontologies.
International Journal of Mathematical
Sciences and Computing (IJMSC). 2017.
Vol. 3. N 3. P. 50–58. http://www.mecs-
press.org/ijmsc/ijmsc-v3-n3/IJMSC-V3-N3-
5.pdf.
Одержано 06.02.2019
Про автора:
Рогушина Юлія Віталіївна,
кандидат фізико-математичних наук,
старший науковий співробітник.
Кількість наукових публікацій в
українських виданнях – 140.
Кількість наукових публікацій в
зарубіжних виданнях – 30.
Індекс Хірша – 3.
http://orcid.org/0000-0001-7958-2557.
Місце роботи автора:
Інститут програмних систем
НАН України,
03181, Київ-187,
проспект Академіка Глушкова, 40.
Тел.: 066 550 1999.
E-mail: ladamandraka2010@gmail.com
mailto:ladamandraka2010@gmail.com
|