Об одном методе извлечения данных из слабоструктурированных документов

В работе разработан, подробно описан и практически опробован лингвистический метод решения задачи извлечения данных на примере извлечения данных о персоналиях из слабоструктурированных документов, представленных в общедоступном каталоге авторефератов диссертаций Национальной библиотеки Украины им. В...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Проблеми програмування
Дата:2020
Автори: Кудим, К.А., Проскудина, Г.Ю.
Формат: Стаття
Мова:Російська
Опубліковано: Інститут програмних систем НАН України 2020
Теми:
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/180420
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Об одном методе извлечения данных из слабоструктурированных документов / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2020. — № 1. — С. 25-32. — Бібліогр.: 4 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862568366264287232
author Кудим, К.А.
Проскудина, Г.Ю.
author_facet Кудим, К.А.
Проскудина, Г.Ю.
citation_txt Об одном методе извлечения данных из слабоструктурированных документов / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2020. — № 1. — С. 25-32. — Бібліогр.: 4 назв. — рос.
collection DSpace DC
container_title Проблеми програмування
description В работе разработан, подробно описан и практически опробован лингвистический метод решения задачи извлечения данных на примере извлечения данных о персоналиях из слабоструктурированных документов, представленных в общедоступном каталоге авторефератов диссертаций Национальной библиотеки Украины им. В.И. Вернадского. Описана вся последовательность шагов: выбор коллекции документов; подготовка документов; написание правил грамматики для извлечения данных из текста; написание правил проверки морфологии; создание интерпретаций или привязок правил к данным; анализ результатов разбора. Лингвистический метод извлечения выявил ряд преимуществ по сравнению с описанным ранее методом извлечения данных с помощью регулярных выражений. В роботі розроблений, докладно описаний і практично випробуваний лінгвістичний метод вирішення задачі витягу даних на прикладі витягу даних про персоналії з слабоструктурованих документів, представлених в загальнодоступному каталозі авторефератів дисертацій Національної бібліотеки України ім. В.І. Вернадського. Описана вся послідовність кроків: вибір колекції документів; підготовка документів; написання правил граматики для отримання даних з тексту; написання правил перевірки морфології; створення інтерпретацій або прив'язок правил до даних; аналіз результатів розбору. Лінгвістичний метод витягу даних виявив ряд переваг в порівнянні з описаним раніше методом отримання даних за допомогою регулярних виразів. Linguistic method to solve the problem of data extraction from weakly structured documents is developed, approved, and described in detail in the paper. Sample data were taken from thesis catalogue of Vernadsky National Library of Ukraine. The sequence of all stages is described: document collection choice; document preparation; writing grammar rules for data extraction from text; writing rules for morphology verification; creation of interpretations or bindings rules to data; analysis of parsing results. Linguistic method of data extraction showed many advantages in comparison to the method of data extraction with regular expressions described earlier.
first_indexed 2025-11-26T01:39:50Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-180420
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
isbn DOI: https://doi.org/10.15407/pp2020.01.025
issn 1727-4907
language Russian
last_indexed 2025-11-26T01:39:50Z
publishDate 2020
publisher Інститут програмних систем НАН України
record_format dspace
spelling Кудим, К.А.
Проскудина, Г.Ю.
2021-09-24T08:37:20Z
2021-09-24T08:37:20Z
2020
Об одном методе извлечения данных из слабоструктурированных документов / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2020. — № 1. — С. 25-32. — Бібліогр.: 4 назв. — рос.
DOI: https://doi.org/10.15407/pp2020.01.025
1727-4907
https://nasplib.isofts.kiev.ua/handle/123456789/180420
004.82
В работе разработан, подробно описан и практически опробован лингвистический метод решения задачи извлечения данных на примере извлечения данных о персоналиях из слабоструктурированных документов, представленных в общедоступном каталоге авторефератов диссертаций Национальной библиотеки Украины им. В.И. Вернадского. Описана вся последовательность шагов: выбор коллекции документов; подготовка документов; написание правил грамматики для извлечения данных из текста; написание правил проверки морфологии; создание интерпретаций или привязок правил к данным; анализ результатов разбора. Лингвистический метод извлечения выявил ряд преимуществ по сравнению с описанным ранее методом извлечения данных с помощью регулярных выражений.
В роботі розроблений, докладно описаний і практично випробуваний лінгвістичний метод вирішення задачі витягу даних на прикладі витягу даних про персоналії з слабоструктурованих документів, представлених в загальнодоступному каталозі авторефератів дисертацій Національної бібліотеки України ім. В.І. Вернадського. Описана вся послідовність кроків: вибір колекції документів; підготовка документів; написання правил граматики для отримання даних з тексту; написання правил перевірки морфології; створення інтерпретацій або прив'язок правил до даних; аналіз результатів розбору. Лінгвістичний метод витягу даних виявив ряд переваг в порівнянні з описаним раніше методом отримання даних за допомогою регулярних виразів.
Linguistic method to solve the problem of data extraction from weakly structured documents is developed, approved, and described in detail in the paper. Sample data were taken from thesis catalogue of Vernadsky National Library of Ukraine. The sequence of all stages is described: document collection choice; document preparation; writing grammar rules for data extraction from text; writing rules for morphology verification; creation of interpretations or bindings rules to data; analysis of parsing results. Linguistic method of data extraction showed many advantages in comparison to the method of data extraction with regular expressions described earlier.
ru
Інститут програмних систем НАН України
Проблеми програмування
Моделі та засоби систем баз даних і знань
Об одном методе извлечения данных из слабоструктурированных документов
Про один метод витягу даних з слабоструктурованих документів
A method for extracting data from semis-tructured documents
Article
published earlier
spellingShingle Об одном методе извлечения данных из слабоструктурированных документов
Кудим, К.А.
Проскудина, Г.Ю.
Моделі та засоби систем баз даних і знань
title Об одном методе извлечения данных из слабоструктурированных документов
title_alt Про один метод витягу даних з слабоструктурованих документів
A method for extracting data from semis-tructured documents
title_full Об одном методе извлечения данных из слабоструктурированных документов
title_fullStr Об одном методе извлечения данных из слабоструктурированных документов
title_full_unstemmed Об одном методе извлечения данных из слабоструктурированных документов
title_short Об одном методе извлечения данных из слабоструктурированных документов
title_sort об одном методе извлечения данных из слабоструктурированных документов
topic Моделі та засоби систем баз даних і знань
topic_facet Моделі та засоби систем баз даних і знань
url https://nasplib.isofts.kiev.ua/handle/123456789/180420
work_keys_str_mv AT kudimka obodnommetodeizvlečeniâdannyhizslabostrukturirovannyhdokumentov
AT proskudinagû obodnommetodeizvlečeniâdannyhizslabostrukturirovannyhdokumentov
AT kudimka proodinmetodvitâgudanihzslabostrukturovanihdokumentív
AT proskudinagû proodinmetodvitâgudanihzslabostrukturovanihdokumentív
AT kudimka amethodforextractingdatafromsemistructureddocuments
AT proskudinagû amethodforextractingdatafromsemistructureddocuments