Overview of global open access resource aggregation services and their requirements for data providers

The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtai...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2025
Автори: Proskudina, G.Yu., Kudim, K.O.
Формат: Стаття
Мова:Ukrainian
Опубліковано: PROBLEMS IN PROGRAMMING 2025
Теми:
Онлайн доступ:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/763
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Репозитарії

Problems in programming
id pp_isofts_kiev_ua-article-763
record_format ojs
resource_txt_mv ppisoftskievua/68/145261a6ef488aa4b12713fbe41a0268.pdf
spelling pp_isofts_kiev_ua-article-7632025-09-02T15:46:41Z Overview of global open access resource aggregation services and their requirements for data providers Огляд глобальних служб агрегації ресурсів відкритого доступу та їхніх вимог до постачальників даних Proskudina, G.Yu. Kudim, K.O. open access; service provider; data provider; OAI-PMH protocol UDC 004.82 відкритий доступ; провайдер сервісів; провайдер даних; протокол OAI-PMH УДК 004.82 The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtain data. The types of data providers, such as institutional repositories, open journals, publishers, scientific repositories of preprints, thematic digital libraries, and systems that are also aggregators, are analysed. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about their data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data exchange protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a certain number of scientific digital libraries, we are already registered as data providers in some of these systems. Therefore, we are familiar with their requirements in the practical sense. In this paper, we have attempted to summarise these requirements.Prombles in programming 2025; 1: 38-54 У роботі представлено огляд сучасних глобальних агрегаторів документів відкритого доступу. Проана лізовані їхні кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Проаналізовано склад і види їхніх постачальників даних, такі як інституційні репозитарії, відкриті жур нали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про їхніх постачальників даних та яким чином вона представлена у інтерфейсі користувача. Як саме відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою час тотою відбувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семанто метрії надають науковцям цілий ряд корисних сервісів. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у деяких з цих систем. Тому зна йомі з їхніми вимогами у практичній площині. В цій роботі ми спробували дещо узагальнити ці вимоги.Prombles in programming 2025; 1: 38-54  PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-08-27 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/763 10.15407/pp2025.01.038 PROBLEMS IN PROGRAMMING; No 1 (2025); 38-54 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 1 (2025); 38-54 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 1 (2025); 38-54 1727-4907 10.15407/pp2025.01 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/763/815 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-09-02T15:46:41Z
collection OJS
language Ukrainian
topic open access
service provider
data provider
OAI-PMH protocol
UDC 004.82
spellingShingle open access
service provider
data provider
OAI-PMH protocol
UDC 004.82
Proskudina, G.Yu.
Kudim, K.O.
Overview of global open access resource aggregation services and their requirements for data providers
topic_facet open access
service provider
data provider
OAI-PMH protocol
UDC 004.82
відкритий доступ
провайдер сервісів
провайдер даних
протокол OAI-PMH
УДК 004.82
format Article
author Proskudina, G.Yu.
Kudim, K.O.
author_facet Proskudina, G.Yu.
Kudim, K.O.
author_sort Proskudina, G.Yu.
title Overview of global open access resource aggregation services and their requirements for data providers
title_short Overview of global open access resource aggregation services and their requirements for data providers
title_full Overview of global open access resource aggregation services and their requirements for data providers
title_fullStr Overview of global open access resource aggregation services and their requirements for data providers
title_full_unstemmed Overview of global open access resource aggregation services and their requirements for data providers
title_sort overview of global open access resource aggregation services and their requirements for data providers
title_alt Огляд глобальних служб агрегації ресурсів відкритого доступу та їхніх вимог до постачальників даних
description The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtain data. The types of data providers, such as institutional repositories, open journals, publishers, scientific repositories of preprints, thematic digital libraries, and systems that are also aggregators, are analysed. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about their data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data exchange protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a certain number of scientific digital libraries, we are already registered as data providers in some of these systems. Therefore, we are familiar with their requirements in the practical sense. In this paper, we have attempted to summarise these requirements.Prombles in programming 2025; 1: 38-54
publisher PROBLEMS IN PROGRAMMING
publishDate 2025
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/763
work_keys_str_mv AT proskudinagyu overviewofglobalopenaccessresourceaggregationservicesandtheirrequirementsfordataproviders
AT kudimko overviewofglobalopenaccessresourceaggregationservicesandtheirrequirementsfordataproviders
AT proskudinagyu oglâdglobalʹnihslužbagregacííresursívvídkritogodostuputaíhníhvimogdopostačalʹnikívdanih
AT kudimko oglâdglobalʹnihslužbagregacííresursívvídkritogodostuputaíhníhvimogdopostačalʹnikívdanih
first_indexed 2025-07-17T09:48:28Z
last_indexed 2025-09-17T09:20:53Z
_version_ 1850409887502172160
fulltext Бази даних 38 © Г.Ю. Проскудіна, К.О. Кудім, 2025 ISSN 1727-4907. Проблеми програмування. 2025. №1 УДК 004.82 https://doi.org/10.15407/pp2025.01.038 Г.Ю. Проскудіна, К.О. Кудім ОГЛЯД ГЛОБАЛЬНИХ СЛУЖБ АГРЕГАЦІЇ РЕСУРСІВ ВІДКРИТОГО ДОСТУПУ ТА ЇХНІХ ВИМОГ ДО ПОСТАЧАЛЬНИКІВ ДАНИХ У роботі представлено огляд сучасних глобальних агрегаторів документів відкритого доступу. Проана- лізовані їхні кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Проаналізовано склад і види їхніх постачальників даних, такі як інституційні репозитарії, відкриті жур- нали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про їхніх постачальників даних та яким чином вона представлена у інтерфейсі користувача. Як саме відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою час- тотою відбувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семанто- метрії надають науковцям цілий ряд корисних сервісів. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у деяких з цих систем. Тому зна- йомі з їхніми вимогами у практичній площині. В цій роботі ми спробували дещо узагальнити ці вимоги. Ключові слова: відкритий доступ, провайдер сервісів, провайдер даних, протокол OAI-PMH. G.Yu. Proskudina, K.O. Kudim OVERVIEW OF GLOBAL OPEN ACCESS RESOURCE AGGREGATION SERVICES AND THEIR REQUIREMENTS FOR DATA PROVIDERES The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtain data. The types of data providers, such as institutional repositories, open journals, publishers, scientific repositories of preprints, thematic digital libraries, and systems that are also aggregators, are analysed. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about their data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data exchange protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a certain number of scientific digital libraries, we are already registered as data providers in some of these systems. Therefore, we are familiar with their requirements in the practical sense. In this paper, we have attempted to summarise these requirements. Key words: open access, service provider, data provider, OAI-PMH protocol. Вступ В ході виконання частини проєкту НАНУ «Відкрита наука» були проведені до- слідження із створення системи інтеграції (харвестера, агрегатора) ресурсів із різних відкритих академічних джерел з метою от- римання зручного і потужного інструменту пошуку та доступу до інформації для корис- тувачів. Також проводяться дослідження з метою інтеграції цих зібраних наукових ре- сурсів України у світовий/європейський нау- ковий інформаційний простір. Зазвичай, перед системою інтеграції постають три основні задачі: Бази даних 39 1. Збір та інтеграція описової інфор- мації (метаданих) з різних джерел електро- нних ресурсів; 2. Організація пошуку і видачі відпо- відних ресурсів; 3. Передача метаданих з власного харвестера іншим харвестерам. Проаналізувавши низку програмних систем, на платформі яких можна розгорну- ти агрегатор наукових робіт, ми зупинилися на програмній системі VuFind, що була роз- роблена в університеті Вілланова, США, про яку ми розповіли в роботі [1]. Наразі ми вже розгорнули таку си- стему1 і почали її експлуатацію. До неї підключено близько десяти електронних бібліотек (провайдерів даних), з яких було зібрано близько 300 тис метаданих доку- ментів, в основному це ‒ статті. Ми індек- суємо метадані документів усіх видів ака- демічно релевантних ресурсів ‒ таких як журнали, інституційні репозитарії, цифрові колекції тощо, які надають інтерфейс OAI та використовують протокол Open Archives Initiative Protocol for Metadata Harvesting2 (OAI-PMH) для надання свого контенту [2]. Зібрані і проіндексовані дані зберігаються на серверах Інституту програмних систем НАНУ. Апробується підключення та пере- дача метаданих з нашої системи до інших харвестерів. Вивчаються можливості сис- теми VuFind із перегляду, пошуку та заван- таження статей, а також відпрацьовуються інструкції для кінцевого користувача та постачальників даних, визначаються схеми метаданих основних видів наукових інфор- маційних ресурсів НАНУ. Зараз продовжується робота із нала- годження цієї системи інтеграції, відпра- цьовуються алгоритми завантаження та оновлення даних, регламент роботи агре- гатора, вимоги до провайдерів даних щодо підключення до нашого харвестра. Тому вивчення світового досвіду з екс- плуатації таких агрегаторів ресурсів є необ- хідним кроком у доведенні нашої системи до сучасних зразків, аби зробити макси- мально доступною для суспільства наукову 1 https://harvester.nas.gov.ua/ 2 https://www.openarchives.org/OAI/openarchivesprotocol.html інформацію, що сприятиме розвитку освіт- ньої, наукової, науково-технічної та іннова- ційної діяльності. У першій частині ми даємо основні роз’яснення щодо значення термінів, які використовуються в наших документах. У другій частині представлено огляд су- часних глобальних агрегаторів ресурсів від- критого доступу. Проаналізовані їхні кіль- кісні характеристики, такі як кількість зі- браних описів документів та повних текстів, кількість постачальників даних, наявність API отримання даних. Проаналізовано склад і види постачальників даних, такі як інституційні репозитарії, відкриті журнали, видавництва, наукові репозитарії преприн- тів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегатора- ми. Досліджено також, яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про по- стачальників даних, а також, як вона пред- ставлена у інтерфейсі користувача. Яким чи- ном відбувається взаємодія агрегатора з по- стачальниками даних, які протоколи обміну даних підтримуються, з якою частотою від- бувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семантометрії надають цілий ряд корисних сервісів науковцям. Ми як роз- робники низки наукових електронних бібліо- тек з відкритим доступом вже зареєстровані як провайдери даних у деяких із цих систем. Тому знайомі з їхніми вимогами, як провай- дерів сервісів до своїх провайдерів даних у практичній площині. У третьому розділі ми спробували дещо узагальнити ці вимоги. 1. Термінологія Цей розділ містить роз’яснення щодо значення термінів, які використову- ються в нашій роботі. Відкритий доступ (ВД). Будапештська ініціатива відкритого доступу (Budapest Бази даних 40 Open Access Initiative, BOAI), яке визначає ВД як «вільну доступність у загальнодо- ступному інтернеті, що дозволяє будь-яким користувачам читати, завантажувати, копі- ювати, поширювати, друкувати, шукати або посилатися на повні тексти цих статей, ска- нувати їх для індексації, передавати їх як дані програмному забезпеченню або вико- ристовувати їх для будь-яких інших закон- них цілей3». Дублінське ядро. Схема метаданих для опису інформаційних ресурсів репозитаріїв провайдерів даних. Електронна бібліотека (ЕБ). Це роз- поділена документальна інформаційно-по- шукова система, що функціонує на основі повнотекстових репозитаріїв (баз даних) і надає можливість створювати, зберігати та використовувати різноманітні колекції електронних документів інформаційних ресурсів (документів) у глобальній мережі комп’ютерів у зручному для користувачів вигляді. Запис. Сукупність метаданих, що опи- сують окремий науковий ресурс, розташо- ваний у репозитарії. Цей термін зазвичай використовується для позначення опису цифрового об’єкта, такого як текст, зобра- ження, відео тощо. У харвестері термін запис метаданих використовується для позначення метаданих наукової публікації, тобто її назву, авторів, анотацію, деталі фі- нансування проєкту тощо, і термін повно- текстовий запис для позначення запису, що містить посилання у метаданих на повний текст інформаційного ресурсу. У харвестері запис є інформаційним ресурсом. Інформаційна (автоматизована) си- стема. Організаційно-технічна система, в якій реалізується технологія зберігання та обробки інформації з використанням тех- нічних і програмних засобів. Інформаційний ресурс (ресурс). Елек- тронний документ або їх сукупність у авто- матизованих інформаційних системах (ЕБ, архівах, базах даних тощо). Користувач. Фізична особа, якій нада- ється відкритий доступ до пошуку та пере- гляду інформаційних ресурсів харвестера, 3 https://www.budapestopenaccessinitiative.org що мають відношення до записів метаданих та похідної від них інформації (наприклад, статистична інформація), та виконання пе- реходу на домашню сторінку знайденого документа у репозитарії провайдера даних. Персональний електронний кабінет. Індивідуальна персоніфікована веб-сторін- ка, за допомогою якої користувач здійснює роботу з інформаційними ресурсами, пред- ставленими у харвестері. Провайдер/постачальник даних. Це служба, що підтримує створення і ведення одного чи більше репозиторіїв (бази до- кументів, архівів, електронних бібліотек), здійснює публікацію своїх ресурсів, а та- кож надає доступ до своїх метаданих для їхнього використання в інших системах. Зазвичай, провайдер даних надає вільний доступ до своїх метаданих і, можливо, але не обов’язково, надає вільний доступ до повних текстів своїх документів з ЕБ чи з інших інформаційних ресурсів. Провай- дер даних може мати самостійний веб-ін- терфейс для організації пошуку, перегляду і доступу до своїх ресурсів, а також інші сервіси, що надаються кінцевим користува- чам. Провайдер даних самостійно вирішує питання про відкритість своїх інформацій- них ресурсів і доступність до них. Зокрема, провайдер даних може прийняти рішення про інтеграцію усіх або частини своїх ін- формаційних ресурсів на рівні метаданих у харвестері і для цього організує експорт відповідних метаданих у форматі узгодже- ного протоколу. Протокол OAІ-PMH. Протокол OAІ- PMH збору (харвестінгу) визначає механізм збору записів, що містять метадані інфор- маційних ресурсів, з репозитаріїв провай- дерів даних. Він надає простий спосіб та- кого представлення метаданих, яке робить їх доступними для систем-агрегаторів ін- формаційних ресурсів. Зібрані в такий спо- сіб метадані можуть бути представлені в будь-якому форматі, обраному співтовари- ством організацій, що вирішили об’єднати свої зусилля для створення інтегрованої фе- деративної інформаційної системи. Бази даних 41 Репозитарій. Електронний архів або сховище для довготривалого, постійного та надійного накопичення, зберігання, управ- ління та розповсюдження інформаційних ресурсів. Інституційний репозитарій має відношення до наукових інформаційних ре- сурсів, отриманих у результаті досліджень певної наукової установи. В тематичних репозитаріях інформаційні ресурси фо- кусуються на певних галузях знань. Типи репозитаріїв визначаються типами ін- формаційних ресурсів (журнальні статті, препринти, тези, книги, монографії, до- слідницькі дані, зображення, карти, аудіо, відео і т.ін.). Централізовані репозитарії уможливлюють інтегроване зберігання ін- формаційних ресурсів різних типів і галу- зей знання у великому обсязі. Спільнотні репозитарії створюються спільнотами до- слідників, учених або наукових установ з метою обміну даними та співпраці у кон- кретній галузі. 4 https://base-search.net/ 5 https://www.openaire.eu/ 6 https://core.ac.uk/ 7 http://unpaywall.org/ 8 https://paperity.org/ 9 https://share.osf.io/ Цільова сторінка. Сторінка HTML у харвестері, куди зазвичай потрапляють під час доступу до наукової публікації, та з якої можна отримати доступ до пов’язаних ре- сурсів. Харвестер. Програмний інструмент для автоматичного збору метаданих науко- вих періодичних видань НАН України та ін- формаційних ресурсів установ НАН Украї- ни, редагування метаданих у харвестері, пе- редачі метаданих у інші харвестери тощо. 2. Чинні служби агрегації відкритого доступу та бази даних публікацій Наразі існує низка доступних агрегацій- них служб відкритого доступу (Табл. 1), прикладами яких є BASE4, OpenAIRE5, CORE6, Unpaywall7, Paperity8, SHARE9. BASE (Bielfield Academic Search Engine) ‒ глобальна служба збору метада- них. Вона збирає репозитарії та журнали Назва Записи метаданих [/постачальники даних] Записи з повним текстом Записи з пов- нотекстовим посиланням API Набір даних Синхро- нізація даних CORE 298 млн / 11 139 32.8 млн 139 млн Так Так Так■ BASE 362 млн / 11 399 0 ~60% Так Ні Ні OpenAIRE 149 млн 19 млн* н/в Ні Ні Ні Unpaywall 50 млн / 50 тис (+ через Crossref і DOAJ) 0 50 млн Так Так♦ Так● Paperity 10.5 млн / 17 158 журналів 10.5 млн н/в Ні Ні Ні SHARE 57 млн 0 н/в Ні Ні Ні Таблиця 1. Порівняння служб агрегації відкритого доступу Примітка: * Повні тексти, розміщені на OpenAIRE, недоступні для завантаження. ♦ Набір даних, наданий Unpaywall, містить лише посилання, а не повні метадані чи повний текст, як у випадку з CORE. ■ CORE використовує механізм FastSync для синхронізації даних. ● Unpaywall забезпечує синхронізацію даних як частину преміум-сервісу. Бази даних 42 по протоколу OAI-PMH і надає зібраний вміст через API та набір даних. Наукова електронна бібліотека періодичних видань НАН України, https://dspace.nbuv.gov.ua, яку ми підтримуємо, підключена до цього агрегатора у якості провайдера даних. На рис. 1‒2 наведені приклади, яким чином тут представлені статті та сам провайдер даних (https://www.base-search.net/about/en/ about_source.php?id=2328). OpenAIRE ‒ це мережа постачаль- ників даних відкритого доступу, які підтри- мують політику відкритого доступу. Не- зважаючи на те, що в минулому проєкт був зосереджений на європейських репозитарі- ях, нещодавно він розширився за рахунок інституційних і предметних репозитаріїв поза межами Європи. Основним напрямком OpenAIRE є допомога Європейській Раді в моніторингу дотримання її політики від- критого доступу. Дані OpenAIRE доступні через API. Наукова електронна бібліотека періодичних видань зареєстрована у цій системі з 2018 року з рівнем сумісності v2.0 з інструкціями OpenAIRE (рис. 3). На да- ний час є питання щодо оновлення нашої системи до рівня сумісності v3.0 або v4.0. Оскільки нова інтегрована платформа ка- талогу EOSC Portal Catalog та Marketplace тепер обслуговуватиме лише зареєстрова- ні джерела даних OpenAIRE, які сумісні з версіями 3.0 та 4.0 інструкцій OpenAIRE. Це дасть нам змогу отримувати додаткові послуги, наприклад, буде можливість отри- мати звіти про використання досліджень. OpenAIRE збирає дані про використання, а потім об’єднує їх і надає стандартизовані звіти. Рис. 1. Приклад представлення опису документу у агрегаторі BASE Рис. 2. Приклад опису провайдера даних у агрегаторі BASE Бази даних 43 Рис. 3. Наукова електронна бібліотека періодичних видань у агрегаторі OpenAIRE Рис. 4. Домашня сторінка агрегатора Paperity Paperity ‒ перший мультидисциплі- нар-ний агрегатор журналів і статей від- критого доступу, який був запущений 2014 року. Paperity збирає як метадані, так і повні тексти. Наразі агрегатор містить 10 508 682 повнотекстових статей та 17 158 журналів (рис. 4) в усіх галузях досліджень: від на- уки, технологій, медицини до соціальних наук, гуманітарних наук і мистецтва. Ме- тою Paperity є надання читачам легкого і необмеженого доступу до тисяч журналів із сотень дисциплін в одному центральному місці; допомога авторам охопити цільову аудиторію, ефективніше поширювати від- криття та максимізувати вплив досліджень; підвищення популярності журналів, збіль- шення їх читацької аудиторії та заохочення подання нових рукописів. Paperity має на- ступні особливості: Доступність. Усі статті, які проін- дексовані Paperity, мають відкритий до- ступ і доступні з повним текстом. Це сві- домий вибір. Вчені втомилися від платних платформ і вимагають легкого доступу до потрібної їм літератури, особливо якщо ця література створена ними самими. Наукова комунікація має бути відкритою, адже від- критість ‒ це не про вартість, а про свободу наукових досліджень. Уніфікація. Сьогодні науковці по- требують широкого доступу до літератури з різних галузей, навіть з-поза меж їхньої основної дослідницької сфери. Сучасні дослідження стали міждисциплінарними і найбільш новаторські відкриття відбува- ються на перетині різних дисциплін. Ака- демічні служби мають наздоганяти цей процес. Paperity ‒ це шлях до ефективнішої наукової комунікації. Цілісність та висока якість корпусу. Paperity гарантує, що індексується дійно наукова література. Завдяки унікальній тех- Бази даних 44 нології тут збирають детальні метадані про кожну публікацію і пильно стежать за тим, щоб не забруднювати колекцію нерелевант- ними записами. У Paperity ніколи не знайти студентських завдань, бізнес-презентацій або кулінарних рецептів, класифікованих як наукові роботи. Unpaywall ‒ це безкоштовна база даних наукових статей відкритого досту- пу з API та розширенням для браузера. Розроблена некомерційною організацією Impactstory10, яка опікується проблемами відкритого доступу в науці. Тобто це не агрегатор, а скоріше збір вмісту з Crossref щоразу, коли безкоштовна версія доступна для читання. Обробляє як метадані, так і повний текст, але не розміщує їх. Розкри- ває виявлені посилання на документи через API. Значну частину даних інструмент от- римує з бази даних під назвою oaDOI, яка індексує більше сотні мільйонів докумен- тів, яким присвоєно цифрові ідентифікато- ри об’єктів (DOI). Unpaywall ‒ це також і плагін для веб-браузера (наприклад, Firefox або Chrome), який визначає потрібний вам до- кумент, а потім перевіряє, чи доступний він безкоштовно будь-де в Інтернеті. І коли ви 10 https://impactstory.org/about Рис. 5. Робота розширення Unpaywall Рис. 6. Дослідницька екосистема спільного доступу SHARE Бази даних 45 Рис. 7. Наші бібліотеки у списку постачальників даних у агрегаторі CORE перейдете на сторінку, яка підсумовує чи показує частину статті, з’явиться малень- кий значок замка (рис. 5), який повідом- ляє, чи можливо його отримати десь ще безкоштовно. Якщо стаття доступна, сірий значок «замок» Unpaywall стане зеленим і «розблокується». Клацнувши на нього, ко- ристувач отримує доступ до PDF-файлів, яке спрощує пошук PDF-файлів із відкри- тим доступом. SHARE (SHared Access Research Ecosystem), дослідницька екосистема спіль- ного доступу ‒ це збирач вмісту відкритого доступу з репозитаріїв США, https://aims. fao.org/news/share-making-research-widely- accessible-discoverable-and-reusable. Незва- жа ючи на те, що SHARE збирає як метада- ні, так і повний текст, він не розміщує ос- танній. CORE (COnnecting REpositories) об’єднує наукові статті у відкритому до- ступі від тисяч постачальників даних з усього світу, включно з інституційними та предметними репозитаріями, журналами відкритого та гібридного доступу. CORE є найбільшою колекцією літератури з відкри- того доступу ‒ на момент написання цієї статті вона забезпечує єдину точку доступу до наукової літератури, зібраної від понад десяти тисяч постачальників даних з усього світу, і ця колекція постійно зростає. Вона надає кілька способів доступу до своїх да- них як для користувачів, так і для машин, включно із безкоштовним API і повним дампом своїх даних. На наш погляд, CORE ‒ найцікавіший агрегатор з точки зору роз- витку нашої системи у майбутньому. Наразі ми маємо дві свої бібліотеки, зареєстровані у CORE (рис. 7‒9). Це вищезгадана бібліо- тека періодичних видань НАНУ, що працює на програмному забезпеченні DSpace11, і електронна бібліотека Інституту програм- них систем НАНУ, що працює на програм- ному забезпеченні EPrints12. 11 https://dspace.lyrasis.org/ 12 https://www.eprints.org/uk/ Бази даних 46 Рис. 8. Наукова електронна бібліотека періодичних видань НАН України у агрегаторі CORE13 Рис. 9. Сторінка представлення повного тексту документу з ISS Library у агрегаторі CORE 13 https://core.ac.uk/data-providers/944 Бази даних 47 Джерела даних CORE. Станом на квітень 2024 року CORE агрегував контент із 11 139 джерел даних. Ці джерела даних включають інституційні репозитарії, акаде- мічні видавництва (Elsevier, Springer), жур- нали відкритого доступу, предметні репози- торії, в тому числі ті, що містять електронні версії (arXiv, ZENODO, PubMed Central) та агрегатори (наприклад, DOAJ). Декілька найбільших джерел даних CORE наведено в Таблиці 2. При підрахунку загальної кіль- кості постачальників даних у CORE агрега- тори і видавці розглядаються як одне дже- рело даних, не зважаючи на те, що деякі з них, в свою чергу, агрегують дані з багатьох джерел. Повний список усіх постачальни- ків даних можна знайти на веб-сайті CORE, https://core.ac.uk/data-providers. Назва, url Кількість документів / повних текстів Crossref, https://crossref.org/ 118.155.624 / 1.532.012 CiteSeerX, http://citeseerx.ist.psu.edu 6.540.649 / 80.766 Directory of Open Access Journals, https://doaj.org/ 5.463.188 / 990.721 Zenodo, https://zenodo.org 3.321.673 / 51,927 Elsevier - Publisher Connector 1.682.191 / 840.998 Примітка. Агрегатори вмісту, такі як DOAJ і Elsevier, представлені як одне джерело даних, незважаючи на те, що вони самі є агрегаторами і збирають дані з багатьох джерел. Таблиця 2. Найбільші постачальники даних у CORE Crossref. Як видно з Таблиці 2, серед про- вайдерів даних CORE, однією з основних баз даних публікацій є Crossref, авторитет- ний покажчик ідентифікаторів DOI (The Digital Object Identifier). DOI ‒ це обов’язковий міжнародний ци- фровий ідентифікатор наукової публікації. DOI визначає постійне місце знаходження наукової роботи (об’єкта) в інтернеті, її наз- ву та метадані14. DOI на сьогодні є обов’яз- ковою складовою сучасної системи науко- вої комунікації. Він полегшує процедуру та облік цитування, пошуку та локалізації наукової публікації. Ви можете присвоїти DOI будь-якій публікації, наприклад: нау- ковій статті, монографії, главі монографії, дисертації, автореферату, рецензії, підруч- нику, методичним розробкам/рекомендаці- ям, звіту, препринту і навіть окремо табли- ці, рисунку, схемі, зображенню тощо. DOI призначається публікації раз і назавжди. Це забезпечує стабільність посилання на публікацію в Інтернеті та спрощує пошук потрібної інформації. 14 https://sciencen.org/o/doi/ Отже, основною функцією бази даних публікацій Crossref є збереження метада- них, пов’язаних з кожним DOI. Метадані, які зберігає Crossref, включають записи як ВД, так і не ВД. Crossref не зберігає повний текст публікації, але для багатьох публіка- цій надає посилання на повні тексти. Хоча Crossref надає API, він не пропонує свої дані для масового завантаження та не надає служби синхронізації даних. Zenodo ‒ це безкоштовний і відкри- тий цифровий архів, створений CERN і OpenAIRE, який дає змогу дослідникам ді- литися і зберігати свої наукові результати в будь-якому обсязі, форматі та з усіх галузей досліджень. На Zenodo можна знайти різно- манітні типи даних: 1. Датасети: набори даних, які дослід- ники можуть завантажувати та ділитися зі спільнотою. 2. Публікації: наукові статті, дисерта- ції, звіти та інші публікації. 3. Програмне забезпечення: відкритий вихідний код, бібліотеки, інструменти та програми. Бази даних 48 4. Презентації: презентації, семінари та доповіді. Якщо планується використовувати Zenodo, слід ознайомитися з розділом Get started, щоб дізнатися, як створити обліко- вий запис, завантажити файли та орієнтува- тися в інтерфейсі. Інші бази публікацій. Окрім сервісів агрегації ВД, існує низка інших сервісів для пошуку та завантаження наукової літерату- ри, Таблиця 3. Решту послуг із Таблиці 3 можна згру- пувати приблизно в такі дві категорії: 1) індекси цитування, 2) академічні пошукові Назва Вільний доступ Розміщується повний текст API Набір даних Синхронізація даних СORE Так Так Так Так Так Crossref Так Ні Так Ні Ні Scopus Ні Так Так Ні Ні Web of Science Ні Так Так Ні Ні Google Scholar н/в* Ні Ні Ні Ні Semantic Scholar Так Так Так Так Ні Dimensions Так Так Так Ні Ні 1findr Ні Так Ні Ні Ні Таблиця 3. Порівняння баз публікацій Примітка. Під «вільним доступом» тут розуміють, чи є доступ до бази даних вільним за допомогою автома- тизованих методів (наприклад, через API). *Google Scholar не надає засобів програмного доступу до своїх даних. системи та наукові графи. Двома основними індексами цитування є Scopus від Elsevier15 і Web of Science від Clarivate16, які є по- слугами передплати преміум-класу. Google Scholar, найвідоміша академічна пошукова система, не надає API для доступу до своїх даних і не дозволяє сканувати свій веб-сайт. Semantic Scholar17 є відносно новою акаде- мічною пошуковою службою, метою якої є створення «інтелектуальної академічної пошукової системи» [4]. Dimensions18 – це сервіс, орієнтований на аналіз даних. Він об’єднує публікації, гранти, політичні до- кументи та показники. 1findr19 – це служба індексування рефератів. Він надає посилан- ня на повний текст, але не містить API чи набору даних для завантаження. Процес збору документів у агрегаторі CORE. Процес збору можна описати як по- слідовність етапів, на кожному етапі вико- нується певна дія, і коли вихідні дані одного етапу передаються на вхід наступному [3]. Вхідними даними для цього процесу є набір постачальників даних, а кінцевим виходом є система, заповнена записами дослідниць- ких робіт. Основні типи завдань, які наразі виконуються в рамках системи збору доку- ментів, наступні: Завантаження метаданих: метадані, надані постачальником даних за протоколом OAI-PMH, завантажуються та зберігаються у файловій системі (зазвичай як XML-фай- ли). Процес завантаження є послідовним, тобто репозитарій зазвичай надає від 100 до 1000 записів метаданих на запит і мар- кер продовження. Потім цей маркер вико- ристовується для надання наступної партії записів. У результаті повне збирання може займати чимало часу (годин-днів) для ве- ликих постачальників даних. Такий процес 15 https://www.elsevier.com/solutions/scopus 16 https://clarivate.com/webofsciencegroup/solutions/web-of-science/ 17 https://www.semanticscholar.org/ 18 https://www.dimensions.ai/ 19 https://1findr.1science.com/home Бази даних 49 було впроваджено для забезпечення стійко- сті до низки комунікаційних збоїв. Витяг метаданих аналізує, очищає та узгоджує завантажені метадані та зберігає їх у внутрішній структурі даних. Процес уз- годження та очищення розглядає той факт, що різні постачальники даних описують одну й ту саму інформацію по-різному (син- таксична неоднорідність), а також мають різні інтерпретації для однієї й тієї самої інформації (семантична неоднорідність). Завантаження повного тексту: Ви- користовуючи посилання, отримані з ме- таданих, CORE намагається завантажити та зберегти повні тексти публікацій. Цей процес є нетривіальним. Як було сказа- но вище, OAI-PMH наразі є стандартним протоколом для обміну даними між схови- щами. Хоча OAI-PMH спочатку був розро- блений лише для збору метаданих, через його широке застосування та відсутність альтернатив він використовувався як точ- ка входу для збору і повного тексту. Збір повного тексту досягається шляхом витягу URL-адрес із записів метаданих, зібраних за допомогою OAI-PMH. А потім витягнуті URL-адреси використовуються для визна- чення розташування фактичного ресурсу. Однак протокол OAI-PMH безпосередньо підтримує лише збирання метаданих, тоб- то необхідно реалізувати додаткові функ- ції, щоб використовувати його для збору вмісту. Розташування посилань на повні тексти у метаданих не стандартизовано, і записи метаданих зазвичай містять кілька посилань. З метаданих не зрозуміло, яке з цих посилань вказує на описане представ- лення ресурсу, і в багатьох випадках жод- не з них не робить цього безпосередньо. Тому всі можливі посилання на сам ресурс потрібно витягнути з метаданих і переві- рити, щоб визначити правильний ресурс. Крім того, OAI-PMH не сприяє перевірці того, що виявлений ресурс справді є опи- саним ресурсом. Подолання цих проблем сприяло прийняттю формату метаданих RIOXX20 або рекомендацій OpenAIRE21. Однак питання однозначного зв’язку запи- сів метаданих і описаного ресурсу залиша- ється актуальним. Витяг інформації. Звичайний текст із завантажених документів витягується та обробляється для створення напів-структу- рованого представлення. Цей процес вклю- чає низку завдань добування інформації, таких, наприклад, як витяг посилань. Збагачення працює шляхом доповнення метаданих і повного тексту, отриманих від постачальників даних, додатковими даними з різних джерел. Деякі збагачення викону- ються безпосередньо конкретними завдан- нями в процесі виконання збору документів, зокрема, визначення мови і типу документа (стаття, презентація, дипломна робота, ін- ший). Ці збагачення зазвичай передбачають застосування моделей машинного навчання та інструментів на основі правил для збо- ру додаткової інформації про записи. І для певного запису виконуються лише один раз. Решта збагачень, які включають зов- нішні набори даних, виконуються ззовні, незалежно від процесу збору, і вбудовують- ся в набір даних. Це здійснюється шляхом збору різноманітної інформації з великих сторонніх наукових наборів даних. Інфор- мація включає метадані, які не обов’язко- во змінюються, як-от, ідентифікатор DOI, а також метадані, які зазнають змін, напри- клад, кількість цитувань. Саме через це такі збагачення виконуються періодично, тобто всі записи в CORE проходять цей процес повторно через певні проміжки часу. По- чаткове відображення запису здійснюється за допомогою DOI у разі його доступності. Однак, оскільки більшість записів з репози- таріїв не мають DOI, відбувається процес зіставлення з базою даних Crossref, вико- ристовуючи підмножину полів метаданих, включаючи назву, авторів і рік публікації. Після того, як зіставлення виконано, мож- на узгодити поля, а також зібрати широкий спектр додаткових корисних даних із відпо- відних зовнішніх баз даних, тим самим зба- гачуючи запис CORE. Такі дані включають ідентифікатори ORCID, інформацію про цитування, додаткові посилання на вільно 20 https://rioxx.net/ 21 https://guidelines.openaire.eu/ Бази даних 50 доступні повні тексти, інформацію про га- лузь дослідження тощо. Індексування. Останнім кроком збиран- ня даних є індексування зібраних даних. Отриманий індекс забезпечує роботу служб CORE, включно із пошуком, API і FastSync. Сервіси інтелектуального аналізу да- них. Особливий інтерес для нас становлять сервіси, які надаються/ плануються самими агрегаторами (або із залученням сторонніх організацій) своїм користувачам на основі сучасних досліджень інтелектуального ана- лізу тексту та даних наукової літератури. Тут ми просто наводимо їх список: виявлення плагіату нещодавно надісланих публіка- цій; семантометрики [5]; підбір публікаціям відповідних рецензентів; аналіз науково-до- слідних трендів; рекомендації щодо роботи зі співавторами, заходами проведення тощо; ідентифікація різних версій одної і тої самої статті (наприклад, препринти та постприн- ти); визначення того, чи відповідає публіка- ція умовам проведення заходу; визначення важливості, настанов або типу цитування; узагальнення результатів досліджень; побу- дова індексу цитувань; витяг або добування важливих слів або фраз; категоризація пу- блікацій за сферами досліджень; визначення типу публікації; витяг цитат для бібліометрії. 3. Вимоги та рекомендації щодо індексування вмісту постачальників даних Майже всі розглянуті у попередньому розділі служби агрегації документів від- критого доступу мають більш-менш стан- дартні процедури реєстрації та вимоги до провайдерів даних. У цьому розділі стисло описано основні вимоги та вказівки щодо найкращого налаштування репозитаріїв для індексування у таких агрегаторах. Підтримка протоколу OAI-PMH. Майже всі сучасні системи агрегації ви- користовують цей протокол для регулярно- го збору та оновлення інформації, яку вони зберігають від своїх постачальників даних. Обов’язково слід переконатися, що ваш ре- позиторій видимий через OAI-PMH. Щоб пройти індексацію, постачальники даних мають надати інформацію про свої ресурси через OAI-PMH. Доволі поширеною проблемою є те, що кінцева точка OAI-PMH постачальни- ка даних неправильно налаштована або не функціонує. Це може статися навіть тоді, коли інші функції репозитарію працюють без проблем. Тому важливо, щоб репозита- рії стежили за тим, щоб їхня кінцева точка OAI-PMH залишалася функціональною. Це можна зробити кількома способами. Валідація через інструменти пере- вірки OAI-PMH. Постачальники даних, які розглядають можливість реєстрації в агрегаторі можуть використати інструмент перевірки Open Archives OAI-PMH, https:// www.openarchives.org/Register/ValidateSite, рис. 10. Інструмент очікує базову URL-ад- ресу OAI-PMH і проводить низку переві- рок, щоб оцінити коректність конфігурації кінцевої точки. Якщо валідатор повертає помилки, їх потрібно буде виправити до реєстрації в агрегаторі. Рекомендується виконати цей крок до спроби реєстрації в агрегаторі. Реєстрація постачальників даних у агрегаторі. Відвідайте сторінку реєстрації постачальника даних у та введіть URL-ад- ресу OAI-PMH свого репозитарію. Якщо URL-адреса OAI-PMH є дійсною, репо- зитарій буде зареєстровано за умови про- ходження додаткових перевірок, описаних нижче. Важливо зазначити, що перевірка правильності конфігурації кінцевої точки OAI-PMH не гарантує, що вона правильно відображає всі записи метаданих із системи репозитарію. Це можна перевірити лише після того, як агрегатор спробує отримати дані з репозитарію. Постачальники даних, які вже заре- єстровані в агрегаторі. Зареєстровані по- стачальники даних можуть отримати до- ступ до інформаційної панелі агрегатора, як, наприклад, у системі CORE, рис. 11. Панель управління надає доступ до звіту про збір даних, який містить таку інформа- цію, як останній випадок успішного збору даних, кількість знайдених та проіндексо- ваних метаданих і повнотекстових записів (якщо повні тексти збираються агрегато- ром), будь-які помилки або попередження, що виникли в процесі збирання даних. Бази даних 51 Нерідко кількість проіндексованих за- писів метаданих у агрегаторах може дещо відрізнятися від кількості, яку постачаль- ник даних може бачити у своїй системі ре- позитарію, оскільки інформаційна панель надає незалежний зовнішній погляд на репозитарій. Відхилення можуть виника- ти через низку причин, зокрема, тому, що ваш репозитарій не відкриває всі записи через інтерфейс OAI-PMH, деякі записи відключені або їхні метадані не відповіда- ють мінімальним вимогам до якості. Тому постачальникам даних рекомендується ре- гулярно перевіряти і виправляти будь-які помилки та попередження, що з’являються на інформаційній панелі. Реєстрація репозитарію у відкритих реєстрах. Агрегатори використовують ви- знані відкриті реєстри репозитаріїв, як-от 22 http://v2.sherpa.ac.uk/opendoar/ OpenDOAR22, для виявлення нових по- стачальників даних з відкритим доступом. Тому бажано, щоб ваш репозитарій був попередньо включений до такого міжна- родного списку репозитаріїв і щоб базова URL-адреса OAI-PMH підтримувалася в актуальному стані в цьому реєстрі. Напри- клад, для реєстрації будь-якого провайдера даних у агрегаторі OpenAIRE, попередня реєстрація у реєстрі OpenDOAR є обов’яз- ковою вимогою. Нерідко зустрічаємо і таку ситуацію, коли одні агрегатори автоматич- но індексують інші агрегатори, як, напри- клад, серед провайдерів даних агрегатора CORE є агрегатор DOAJ (Каталог журналів відкритого доступу), кілька серверів пре- принтів та наукових праць, які мають іден- тифікатори публікацій, зареєстрованих у Crossref. Рис. 10. Зразок перевірки OAI-PMH журналу «Проблеми програмування» Рис. 11. Показ збору інформації агрегатором CORE репозитарію Відкритого університету Бази даних 52 Конфігурація метаданих. Для того, щоб агрегатор міг успішно збирати дані із репозитарію, як було сказано вище, він по- винен мати кінцеву точку, сумісну зі стан- дартом OAI-PMH. Більшість поширених програм, на яких будуються репозитарії, такі як EPrints, DSpace або Open Journal Systems (OJS) підтримують OAI-PMH. Крім того, для успішного індексування важливо, щоб метадані записів у репозитарії були правильними та у підтримуваному форматі. Обов’язкова підтримка стандартів метаданих. Агрегатори можуть підтриму- вати кілька форматів метаданих для опису наукових ресурсів [1]. Як правило, метадані повинні бути представлені в одному з на- ступних профілів. i. Dublin Core / Extended Dublin Core (мінімум). Дублінське ядро є однією з най- простіших і найпоширеніших схем метада- них. Розширена версія була формалізована у вигляді термінів метаданих DCMI 2019 року, з приблизно 70 полями даних. Хоча Dublin Core та Extended Dublin Core є до- статніми для індексації, наприклад, у агре- гаторі BASE, ця схема надає лише обмеже- ні можливості для опису наукових ресурсів порівняно з OpenAIRE Guidelines та Rioxx. ii. OpenAIRE Guidelines була створена для підтримки стратегії відкритого доступу Європейської Комісії та для задоволення вимог інфраструктури OpenAIRE. Ця нова версія настанов відповідно до розширен- ня цілей ініціативи OpenAIRE та її інфра- структури має ширшу сферу застосування. Впроваджуючи ці настанови, менеджери репозитаріїв дозволять авторам, які роз- міщують публікації в їхніх репозитаріях, відповідати вимогам Європейської Комісії щодо відкритого доступу. iii. RIOXX. Агрегатор CORE рекомен- дує репозитаріям використовувати формат метаданих RIOXX (The Research Outputs Metadata Schema), як найбільш придатний профіль метаданих для опису результатів наукових досліджень. Ця схема метаданих була розроблена для інституційних репози- 3 https://www.ukri.org/ 4 https://signposting.org/ 5 https://www.openarchives.org/rs/1.1/resourcesync 6 https://core.ac.uk/membership-documentation#rioxx-validator таріїв з метою обміну метаданими про на- укові ресурси, які вони містять. Спочатку розроблена для задоволення вимог до звіт- ності Дослідницьких рад Великої Британії (Research Councils UK, RCUK)23, RIOXX також виявилася корисною як стандарт для обміну метаданими між репозиторіями та мережевими сервісами, такими як вели- комасштабні агрегатори метаданих, такі як CORE. RIOXX фокусується на засто- суванні узгодженості до полів метаданих, що використовуються для ідентифікаторів наукових результатів, людей і організацій, спонсорів досліджень і проєктів/грантів, і призначений для підтримки послідовного відстеження наукових публікацій з відкри- тим доступом у різних наукових системах. RIOXX має кілька переваг над іншими схе- мами. Зокрема, ця схема була розроблена з особливим акцентом на забезпеченні ефек- тивного обміну даними між репозиторіями і машинними агентами, що робить збір да- них швидшим і точнішим завдяки уникнен- ню неоднозначності у зв’язках метаданих, що описують ресурси, такі як повні тексти, набори даних, програмне забезпечення, і самі ресурси. Вона надає значні можливо- сті для опису широкого спектру наукових властивостей, корисних для звіту та аналізу досліджень, таких як ідентифікатори гран- тів, ідентифікатори проєктів, ідентифікато- ри спонсорів, інформація про ліцензування тощо. Схема RIOXX сумісна з іншими про- токолами машинного доступу до науко- вих документів, зокрема, Signposting24 та ResourceSync25, і логічно інтегруєть- ся з ними. Вона забезпечує механізми для розрізнення ресурсів, що знаходяться під управлінням репозитарію, від ресурсів, які знаходяться під зовнішнім управлінням, що дозволяє CORE надавати перевагу по- силанням на репозитарій, де це можливо (і доречно), замість зовнішніх посилань на веб-сайт видавця. CORE надає валідатор26 метаданих для постачальників даних, які підтримують RIOXX. Бази даних 53 Кодування символів. Весь вміст інтер- фейсу OAI-PMH (заголовки, імена авторів, анотації) кодується в UTF-8. Інші кодуван- ня або дублювання кодувань спричиняють помилки у відображенні результатів пошу- ку з вашого джерела. Розділення кількох записів у полі ме- таданих. Якщо у полі метаданих вказані кілька записів (наприклад, ім’я автора та його ідентифікатор ORCID), розділяйте їх пробілами, крапкою з комою та пробіла- ми. Таке розділення дозволяє індексувати інформацію окремо і зробити її доступною для пошуку. Повнотекстова конфігурація. Як вже було сказано вище, низка потужних мож- ливостей деяких агрегаторів заснована на здатності індексувати повнотекстовий контент. До них належать повнотексто- вий пошук, рекомендації повнотекстового контенту, виявлення версій і дубльованого контенту та інші. Підтримувані повнотек- стові формати ‒ тільки дійсні файли PDF, DOC або DOCX, які містять текст, що ви- тягується. Якщо PDF-файл це відскановане зображення, то використання документа в агрегаторах буде обмежено. Для успішного індексування повного тексту статті на ньо- го має бути посилання одним з наступних способів. i. Пряме посилання на повний текст. Рекомендується, аби постачальники даних надавали однозначне посилання на повний текст у метаданих. Правильна стратегія посилання залежить від використовуваної схеми метаданих. Там, де використовується Дублінське ядро, рекомендується надавати пряме посилання на повний текст у першо- му входженні dc:identifier. < d c : i d e n t i f i e r > h t t p : / / o r o . o p e n . a c . u k / 3 7 8 2 3 / 1 / j c d l 2 0 1 9 _ v 7 . p d f < / dc:identifier> Система EPrints за замовчуванням до- тримується цієї рекомендації. Такий підхід значно зменшує навантаження, яке агрега- тор накладає на репозитарій під час індек- сації. Якщо це неможливо, то агрегатор може індексувати вміст, якщо в метаданих є чітко визначене посилання, яке вказує на машинодоступний документ (або PDF, або формат DOC/DOCX). ii. Непряме посилання на повний текст. Агрегатор автоматично визначає, коли постачальник даних не вказує поси- лання на повний текст безпосередньо, як було описано вище. У таких випадках ін- дексатор відвідає цільову сторінку і збере з неї посилання так само, як це зробив би користувач, намагаючись знайти посилання на документ на сторінці. Щоб переконатися, що правильний повний текст був знайдений, тобто пов- ний текст, що відповідає запису метаданих, агрегатор запускає процес зіставлення заго- ловка запису з заголовком, що міститься в PDF-файлі. Цей процес не є на 100% точ- ним, спричиняє додаткове навантаження на сервер і вимагає більше часу на обробку од- ного документа. Це не працює для докумен- тів, які потребують розпізнавання тексту, і тому вони будуть відкинуті. Висновки У роботі визначена термінологія та про- аналізована низка доступних і популярних агрегаційних служб та баз даних публіка- цій відкритого доступу BASE, OpenAIRE, CORE та ін. Здійснена спроба узагальнити їхні вимоги та рекомендації щодо збору ре- сурсів та індексування вмісту постачаль- ників даних. Наші ЕБ, які ми створили і підтримуємо протягом уже майже 20 років, присутні у цих агрегаторах. Тому деякий практичний досвід ми маємо, і це дозво- ляє нам виконати проєкт НАНУ «Відкрита наука» зі створення агрегатора публікацій, який у подальшому буде підключено до більш потужних європейських або світових агрегаторів наукових публікацій. Література 1. Проскудіна Г.Ю., Кудім К.О., Резніченко В.А. VUFIND: відкрите рішення для інтеграції бібліотечних колекцій // Проблеми програмування. − 2023. − № 4 – С. 15–26. https://pp.isofts.kiev.ua/ojs1/article/ view/590 2. Резніченко В.А, Новицький О.В., Проскудіна Г.Ю. Інтеграція наукових електронних бібліотек на основі протоколу OAI-PMH // Проблеми програмування. − Бази даних 54 2007. − № 2 – С. 97–112. http:// dspace.nbuv. gov.ua/hadle/123456789/291 3. Кнот П., Херрманнова Д., Канселлієрі М. та ін. CORE: Глобальна служба агрегації документів відкритого доступу. Nature Scientific Data 10, 366 (2023). https://www. nature.com/articles/s41597-023-02208-w 4. Ammar, W. et al. Construction of the Literature Graph in Semantic Scholar. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 3 (Industry Papers): 84–91 (2018). 5. Кнот П., Херрманнова Д.. К вопросу о семантометрии: новый критерий для оценки вклада научной публикации на основе семантического сходства // Международ- ный форум по информатизации. — 2015. — Т. 40, № 1. — С. 3-8. References 1. Proskudina G.Yu., Kudim K.A., Reznichenko V.A. 2023. VuFind: an open solution for integrating library collections . Problems in programming. no. 4, pp. 15–26. (in Ukrainian). Available from: https://pp.isofts.kiev.ua/ojs1 / article/view/590 [Accessed 17/10/2024]. 2. Reznichenko V.A.,. Novytskyi О.V., Proskudina G.Yu., 2007. OAI-PMH protocol- based integration of scientific digital libraries. Problems in programming, no. 2, pp. 97–112. (in Ukrainian). Available from: http://dspace. nbuv.gov.ua/handle/123456789/291 [Accessed 17/10/2024]. 3. Knoth, P., Herrmannova, D., Cancellieri, M. et al. CORE: A Global Aggregation Service for Open Access Papers. Sci Data 10, 366 (2023). https://doi.org/10.1038/s41597-023-02208-w [Accessed 17/10/2024] 4. Ammar, W. et al. Construction of the Literature Graph in Semantic Scholar. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 3 (Industry Papers): 84–91 (2018). [Accessed 17/10/2024]. 5. Petr Knoth and Drahomira Herrmannova. owards Semantometrics: A New Semantic Similarity Based Measure for Assessing a Research Publication’s Contribution. D-Lib Magazine. Volume 20, Number 11/12 (2014) https://www.dlib.org/dlib/november14/ knoth/11knoth.html [Accessed 18/10/2024]. Одержано: 15.10.2024 Внутрішня рецензія отримана: 28.10.2024 Зовнішня рецензія отримана: 02.11.2024 Про авторів: Проскудіна Галина Юріївна, науковий співробітник. http://orcid.org/0000-0001-9094-1565 Кудім Кузьма Олексійович, молодший науковий співробітник. http://orcid.org/0000-0001-9483-5495 Місце роботи авторів: Інститут програмних систем НАНУ, 03187, Київ-187, проспект Академіка Глушкова 40, корпус 5. Phone: +38(050) 368 49 27. E-mail: kuzmaka@gmail.com guproskudina@gmail.com