Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет а...
Збережено в:
Дата: | 2019 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут програмних систем НАН України
2019
|
Назва видання: | Проблеми програмування |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/161486 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-161486 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1614862019-12-11T01:26:20Z Методы и средства извлечения данных о персоналиях из авторефератов диссертаций Кудим, К.А. Проскудина, Г.Ю. Моделі та засоби систем баз даних і знань В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Национальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети. В роботі розглянуті підходи до вирішення завдання збору та вилучення розрізнених даних про персоналії з слабоструктурованих і неструктурованих документів, представлених в загальнодоступних каталогах авторефератів дисертацій. На мові PHP із застосуванням XPath розроблена система, яка дозволяє автоматично збирати первинні документи з електронного каталогу Національної бібліотеки України ім. В. І. Вернадського, витягувати з цих документів дані і зберігати їх в локальному сховищі. Для зберігання обрана модель даних RDF з урахуванням особливостей даних і можливістю подальшого представлення в семантичній мережі. The problem of extraction of data about a person from scarce data collection is studied. The data collections are public resources on the internet. When these data are collected and parsed they present additional value for users. Collecting such data is problematic because of it’s weak structure restrictions. Thus the system is suggested to automate information gathering and parsing. The initial task is to process personal data from thesis documents publicly available on the internet. This data presents information about scientists which can’t be obtained from other sources. The goal is to be able to make requests to the data having its semantics in mind and not only plain text. The prototype system is developed with PHP and XPath able to collect raw documents from digital repository of National Library of Ukraine by V. I. Vernadskiy. The system also extracts data from the collected documents and stores them locally in RDF data model suitable for specific data and for future exposition to the Semantic Web. The collection of more than 63000 documents was processed to test the system. 2019 Article Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос. 1727-4907 DOI: https://doi.org/10.15407/pp2019.02.038 http://dspace.nbuv.gov.ua/handle/123456789/161486 004.82 ru Проблеми програмування Інститут програмних систем НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Моделі та засоби систем баз даних і знань Моделі та засоби систем баз даних і знань |
spellingShingle |
Моделі та засоби систем баз даних і знань Моделі та засоби систем баз даних і знань Кудим, К.А. Проскудина, Г.Ю. Методы и средства извлечения данных о персоналиях из авторефератов диссертаций Проблеми програмування |
description |
В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Национальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети. |
format |
Article |
author |
Кудим, К.А. Проскудина, Г.Ю. |
author_facet |
Кудим, К.А. Проскудина, Г.Ю. |
author_sort |
Кудим, К.А. |
title |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
title_short |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
title_full |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
title_fullStr |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
title_full_unstemmed |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
title_sort |
методы и средства извлечения данных о персоналиях из авторефератов диссертаций |
publisher |
Інститут програмних систем НАН України |
publishDate |
2019 |
topic_facet |
Моделі та засоби систем баз даних і знань |
url |
http://dspace.nbuv.gov.ua/handle/123456789/161486 |
citation_txt |
Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос. |
series |
Проблеми програмування |
work_keys_str_mv |
AT kudimka metodyisredstvaizvlečeniâdannyhopersonaliâhizavtoreferatovdissertacij AT proskudinagû metodyisredstvaizvlečeniâdannyhopersonaliâhizavtoreferatovdissertacij |
first_indexed |
2023-06-10T11:11:34Z |
last_indexed |
2023-06-10T11:11:34Z |
_version_ |
1796154678910648320 |