Засоби та методи аналізу неструктурованих даних

Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів W3C, як RDF та OWL. Викорис...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Проблеми програмування
Дата:2019
Автор: Рогушина, Ю.В.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут програмних систем НАН України 2019
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/150922
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Засоби та методи аналізу неструктурованих даних / Ю.В. Рогушина // Проблеми програмування. — 2019. — № 1. — С. 57-77. — Бібліогр.: 25 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-150922
record_format dspace
spelling Рогушина, Ю.В.
2019-04-18T20:42:07Z
2019-04-18T20:42:07Z
2019
Засоби та методи аналізу неструктурованих даних / Ю.В. Рогушина // Проблеми програмування. — 2019. — № 1. — С. 57-77. — Бібліогр.: 25 назв. — укр.
1727-4907
DOI: https://doi.org/10.15407/pp2019.01.057
https://nasplib.isofts.kiev.ua/handle/123456789/150922
004.853, 004.55
Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів W3C, як RDF та OWL. Використання семантичних Wiki-технологій для створення розподілених інформаційних ресурсів не тільки дозволяє досить легко додавати структурування до НСД, але й є джерелом фонових знань для аналізу довільних природномовних текстів відповідної предметної області. Запропоновані в роботі моделі та методи дозволяють вдосконалити процес генерації таких знань.
Проанализированы современные средства анализа неструктурированных данных и влияние Big Data на актуальность этого направления исследований. Рассмотрены перспективы использования фоновых знаний для такого структурирования. Обоснована целесообразность применения для этого таких стандартов W3C, как RDF и OWL. Использование семантических Wiki-технологий для создания распределенных информационных ресурсов не только позволяет довольно легко добавлять структурирование к НСД, но и является источником фоновых знаний для анализа произвольных естественноязыковых текстов соответствующей предметной области. Предложенные в работе модели и методы позволяют усовершенствовать процесс генерации таких знаний.
Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of unstructured texts that require the further development of specific Text Mining and algorythms of machine learning. Unstructured data consisting of natural language text in the general case, do not have a predetermined data model. Their ambiguity, heterogeneity and context dependence considerably complicate the classification of documents, the identification of their components and the automated obtaining of user-oriented knowledge from their content, while the large volumes and dynamism of such data do not involve efficient manual processing. The means and methods of data structuring, their various software implementations are considered. The prospects of using background knowledge for such structuring are analyzed. The feasibility of application such W3C standards as RDF and OWL is substantiated. The use of semantic Wiki-technologies for development of distributed information resources simplifies the process of natural text structuring by users and also generates the source of background knowledge for the analysis of arbitrary texts of the corresponding domains. The models and methods proposed in the work allow to improve this process.
uk
Інститут програмних систем НАН України
Проблеми програмування
Моделі та засоби систем баз даних і знань
Засоби та методи аналізу неструктурованих даних
Средства и методы анализа неструктурированных данных
Means and methods of the unstructured data analysis
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Засоби та методи аналізу неструктурованих даних
spellingShingle Засоби та методи аналізу неструктурованих даних
Рогушина, Ю.В.
Моделі та засоби систем баз даних і знань
title_short Засоби та методи аналізу неструктурованих даних
title_full Засоби та методи аналізу неструктурованих даних
title_fullStr Засоби та методи аналізу неструктурованих даних
title_full_unstemmed Засоби та методи аналізу неструктурованих даних
title_sort засоби та методи аналізу неструктурованих даних
author Рогушина, Ю.В.
author_facet Рогушина, Ю.В.
topic Моделі та засоби систем баз даних і знань
topic_facet Моделі та засоби систем баз даних і знань
publishDate 2019
language Ukrainian
container_title Проблеми програмування
publisher Інститут програмних систем НАН України
format Article
title_alt Средства и методы анализа неструктурированных данных
Means and methods of the unstructured data analysis
description Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів W3C, як RDF та OWL. Використання семантичних Wiki-технологій для створення розподілених інформаційних ресурсів не тільки дозволяє досить легко додавати структурування до НСД, але й є джерелом фонових знань для аналізу довільних природномовних текстів відповідної предметної області. Запропоновані в роботі моделі та методи дозволяють вдосконалити процес генерації таких знань. Проанализированы современные средства анализа неструктурированных данных и влияние Big Data на актуальность этого направления исследований. Рассмотрены перспективы использования фоновых знаний для такого структурирования. Обоснована целесообразность применения для этого таких стандартов W3C, как RDF и OWL. Использование семантических Wiki-технологий для создания распределенных информационных ресурсов не только позволяет довольно легко добавлять структурирование к НСД, но и является источником фоновых знаний для анализа произвольных естественноязыковых текстов соответствующей предметной области. Предложенные в работе модели и методы позволяют усовершенствовать процесс генерации таких знаний. Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of unstructured texts that require the further development of specific Text Mining and algorythms of machine learning. Unstructured data consisting of natural language text in the general case, do not have a predetermined data model. Their ambiguity, heterogeneity and context dependence considerably complicate the classification of documents, the identification of their components and the automated obtaining of user-oriented knowledge from their content, while the large volumes and dynamism of such data do not involve efficient manual processing. The means and methods of data structuring, their various software implementations are considered. The prospects of using background knowledge for such structuring are analyzed. The feasibility of application such W3C standards as RDF and OWL is substantiated. The use of semantic Wiki-technologies for development of distributed information resources simplifies the process of natural text structuring by users and also generates the source of background knowledge for the analysis of arbitrary texts of the corresponding domains. The models and methods proposed in the work allow to improve this process.
issn 1727-4907
url https://nasplib.isofts.kiev.ua/handle/123456789/150922
citation_txt Засоби та методи аналізу неструктурованих даних / Ю.В. Рогушина // Проблеми програмування. — 2019. — № 1. — С. 57-77. — Бібліогр.: 25 назв. — укр.
work_keys_str_mv AT rogušinaûv zasobitametodianalízunestrukturovanihdanih
AT rogušinaûv sredstvaimetodyanalizanestrukturirovannyhdannyh
AT rogušinaûv meansandmethodsoftheunstructureddataanalysis
first_indexed 2025-12-07T18:25:47Z
last_indexed 2025-12-07T18:25:47Z
_version_ 1850874997521776640