Методы и средства извлечения данных о персоналиях из авторефератов диссертаций

В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет а...

Full description

Saved in:
Bibliographic Details
Published in:Проблеми програмування
Date:2019
Main Authors: Кудим, К.А., Проскудина, Г.Ю.
Format: Article
Language:Russian
Published: Інститут програмних систем НАН України 2019
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/161486
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1862575772759228416
author Кудим, К.А.
Проскудина, Г.Ю.
author_facet Кудим, К.А.
Проскудина, Г.Ю.
citation_txt Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос.
collection DSpace DC
container_title Проблеми програмування
description В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Национальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети. В роботі розглянуті підходи до вирішення завдання збору та вилучення розрізнених даних про персоналії з слабоструктурованих і неструктурованих документів, представлених в загальнодоступних каталогах авторефератів дисертацій. На мові PHP із застосуванням XPath розроблена система, яка дозволяє автоматично збирати первинні документи з електронного каталогу Національної бібліотеки України ім. В. І. Вернадського, витягувати з цих документів дані і зберігати їх в локальному сховищі. Для зберігання обрана модель даних RDF з урахуванням особливостей даних і можливістю подальшого представлення в семантичній мережі. The problem of extraction of data about a person from scarce data collection is studied. The data collections are public resources on the internet. When these data are collected and parsed they present additional value for users. Collecting such data is problematic because of it’s weak structure restrictions. Thus the system is suggested to automate information gathering and parsing. The initial task is to process personal data from thesis documents publicly available on the internet. This data presents information about scientists which can’t be obtained from other sources. The goal is to be able to make requests to the data having its semantics in mind and not only plain text. The prototype system is developed with PHP and XPath able to collect raw documents from digital repository of National Library of Ukraine by V. I. Vernadskiy. The system also extracts data from the collected documents and stores them locally in RDF data model suitable for specific data and for future exposition to the Semantic Web. The collection of more than 63000 documents was processed to test the system.
first_indexed 2025-11-26T13:25:23Z
format Article
fulltext
id nasplib_isofts_kiev_ua-123456789-161486
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language Russian
last_indexed 2025-11-26T13:25:23Z
publishDate 2019
publisher Інститут програмних систем НАН України
record_format dspace
spelling Кудим, К.А.
Проскудина, Г.Ю.
2019-12-10T21:34:02Z
2019-12-10T21:34:02Z
2019
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос.
1727-4907
DOI: https://doi.org/10.15407/pp2019.02.038
https://nasplib.isofts.kiev.ua/handle/123456789/161486
004.82
В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Национальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети.
В роботі розглянуті підходи до вирішення завдання збору та вилучення розрізнених даних про персоналії з слабоструктурованих і неструктурованих документів, представлених в загальнодоступних каталогах авторефератів дисертацій. На мові PHP із застосуванням XPath розроблена система, яка дозволяє автоматично збирати первинні документи з електронного каталогу Національної бібліотеки України ім. В. І. Вернадського, витягувати з цих документів дані і зберігати їх в локальному сховищі. Для зберігання обрана модель даних RDF з урахуванням особливостей даних і можливістю подальшого представлення в семантичній мережі.
The problem of extraction of data about a person from scarce data collection is studied. The data collections are public resources on the internet. When these data are collected and parsed they present additional value for users. Collecting such data is problematic because of it’s weak structure restrictions. Thus the system is suggested to automate information gathering and parsing. The initial task is to process personal data from thesis documents publicly available on the internet. This data presents information about scientists which can’t be obtained from other sources. The goal is to be able to make requests to the data having its semantics in mind and not only plain text. The prototype system is developed with PHP and XPath able to collect raw documents from digital repository of National Library of Ukraine by V. I. Vernadskiy. The system also extracts data from the collected documents and stores them locally in RDF data model suitable for specific data and for future exposition to the Semantic Web. The collection of more than 63000 documents was processed to test the system.
ru
Інститут програмних систем НАН України
Проблеми програмування
Моделі та засоби систем баз даних і знань
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
Методи і засоби отримання інформації про персоналії з авторефератів дисертацій
Methods and tools for extracting personal data from theses abstracts
Article
published earlier
spellingShingle Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
Кудим, К.А.
Проскудина, Г.Ю.
Моделі та засоби систем баз даних і знань
title Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
title_alt Методи і засоби отримання інформації про персоналії з авторефератів дисертацій
Methods and tools for extracting personal data from theses abstracts
title_full Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
title_fullStr Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
title_full_unstemmed Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
title_short Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
title_sort методы и средства извлечения данных о персоналиях из авторефератов диссертаций
topic Моделі та засоби систем баз даних і знань
topic_facet Моделі та засоби систем баз даних і знань
url https://nasplib.isofts.kiev.ua/handle/123456789/161486
work_keys_str_mv AT kudimka metodyisredstvaizvlečeniâdannyhopersonaliâhizavtoreferatovdissertacii
AT proskudinagû metodyisredstvaizvlečeniâdannyhopersonaliâhizavtoreferatovdissertacii
AT kudimka metodiízasobiotrimannâínformacíípropersonalíízavtoreferatívdisertacíi
AT proskudinagû metodiízasobiotrimannâínformacíípropersonalíízavtoreferatívdisertacíi
AT kudimka methodsandtoolsforextractingpersonaldatafromthesesabstracts
AT proskudinagû methodsandtoolsforextractingpersonaldatafromthesesabstracts