Global open access resource aggregation services and their requirements for data providers

The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming i...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2024
Автори:	Proskudina, G.Yu., Kudim, K.О.
Формат:	Стаття
Мова:	Українська
Опубліковано:	PROBLEMS IN PROGRAMMING 2024
Теми:	open access service provider data provider OAI-PMH protocol UDC 004.82
Онлайн доступ:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/668
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Problems in programming
Завантажити файл:

Репозитарії

Problems in programming

_version_	1865434628841537536
author	Proskudina, G.Yu. Kudim, K.О.
author_facet	Proskudina, G.Yu. Kudim, K.О.
author_institution_txt_mv	[ { "author": "G.Yu. Proskudina", "institution": "Institute of Software Systems NAS of Ukraine" }, { "author": "K.О. Kudim", "institution": "Institute of Software Systems NAS of Ukraine" } ]
author_sort	Proskudina, G.Yu.
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
collection	OJS
datestamp_date	2025-02-15T15:48:57Z
description	The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming interface for data retrieval. The composition and types of their data providers, such as institutional repositories, open journals, publishing houses, scientific repositories of preprints, thematic digital libraries, as well as systems that are also aggregators, are considered. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data communication protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a number of open access scientific digital libraries, we are already registered as data providers in these systems. Therefore, we are familiar with their requirements in practice. In this article, we have tried to summarise these requirements to some extent, namely: support for standard data transfer protocols, support for standard metadata sets, support for standard character encodings for content, and others.Prombles in programming 2024; 2-3: 449-456
doi_str_mv	10.15407/pp2024.02-03.449
first_indexed	2025-07-17T10:02:53Z
format	Article
fulltext	449 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі УДК 004.82 http://doi.org/10.15407/pp2024.02-03.449 Г.Ю. Проскудіна, К.О. Кудім ГЛОБАЛЬНІ СЛУЖБИ АГРЕГАЦІЇ РЕСУРСІВ ВІДКРИТОГО ДОСТУПУ ТА ЇХ ВИМОГИ ДО ПОСТАЧАЛЬНИКІВ ДАНИХ У роботі розглянуті сучасні глобальні агрегатори документів відкритого доступу BASE, OpenAIRE та CORE. Проаналізовані їхys кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Розглянуто склад і види їх постачальників даних, такі як інституційні репози- тарії, відкриті журнали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліоте- ки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також, яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про постачальників даних, і теж, яким чином вона представлена у інтерфейсі користувача. Як відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою частотою відбувається оновлення зібраних даних. Також сучасні агре- гатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи біблі- ометрії, вебометрики, альтиметрії, семантометрії надають цілий ряд корисних сервісів науковцям. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у цих системах. Тому знайомі з їхніми вимогами у практичній площині. В цій ро- боті ми спробували дещо узагальнити ці вимоги, а саме − підтримка стандартних протоколів переда- чі даних, підтримка стандартних наборів метаданих, підтримка стандартних кодувань символів для вмісту та інші. Ключові слова: відкритий доступ, провайдер сервісів, провайдер даних, протокол OAI-PMH. G.Yu. Proskudina, K.O. Kudim GLOBAL OPEN ACCESS RESOURCE AGGREGATION SERVICES AND THEIR REQUIREMENTS FOR DATA PROVIDERS The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming interface for data retrieval. The composition and types of their data providers, such as institutional repositories, open jour- nals, publishing houses, scientific repositories of preprints, thematic digital libraries, as well as systems that are also aggregators, are considered. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data communication protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a number of open access scientific digital libraries, we are already registered as data providers in these sys- tems. Therefore, we are familiar with their requirements in practice. In this article, we have tried to summa- rise these requirements to some extent, namely: support for standard data transfer protocols, support for standard metadata sets, support for standard character encodings for content, and others. Key words: open access, service provider, data provider, OAI-PMH protocol. Вступ Під час виконання частини проєкту НАНУ «Відкрита наука» були проведені дослідження із створення системи інтег- рації або харвестера ресурсів із різних від- критих академічних джерел з метою отри- мання зручного і потужного інструменту пошуку та доступу до інформації для ко- ристувачів. А також інтеграції цих зібра- © Г.Ю. Проскудіна, K.O. Кудім, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №2-3 450 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі них наукових ресурсів України у світо- вий/європейський науковий інформацій- ний простір. Як правило, перед системою інтег- рації стоять три основні задачі: 1. Збір і інтеграція метаданих із різ- них джерел електронних ресурсів. 2. Організація пошуку і видачі відпо- відних ресурсів. 3. Передача метаданих із власного харвестеру іншим харвестерам. Проаналізувавши низку програмних систем, на платформі яких можна розгор- нути агрегатор наукових робіт, ми зупини- лись на системі VuFind, про яку розповіли в роботі [1]. Наразі ми вже розгорнули та- ку систему1 і почали її експлуатацію. Наразі до неї підключено близько десяти діючих провайдерів даних, з яких було зі- брано близько 400 тис метаданих докумен- тів, в основному це − статті. Ми індексує- мо метадані документів усіх видів акаде- мічно релевантних ресурсів − таких, як журнали, інституційні репозитарії, цифро- ві колекції тощо, які надають інтерфейс OAI та використовують протокол Open Archives Initiative Protocol for Metadata Harvesting2 (OAI-PMH) для надання свого контенту [2] як одного з найбільш викори- стовуваних на даний час варіантів інтегра- ції. Проіндексовані дані зберігаються на серверах Інституту програмних систем НАНУ. Апробовано підключення та пере- дачу метаданих з VuFind до іншого агрега- тора. Вивчені можливості VuFind із перег- ляду, пошуку та завантаженню статей та підготовлена інструкція для кінцевого ко- ристувача. Розроблені схеми метаданих основних видів наукових інформаційних ресурсів НАНУ. Зараз продовжується налагодження цієї системи, відпрацьову-ються алгоритми завантаження та оновлення даних, регла- мент роботи агрегатора, вимоги та інстру- кції для провайдерів даних по підключен- ню до агрегатора. Тому вивчення світового досвіду з експлуатації таких агрегаторів та їхніх вимог до своїх постачальників даних 1https://harvester.nas.gov.ua/ 2https://www.openarchives.org/OAI/openarchivesprotocol.ht ml є необхідним кроком доведення нашої сис- теми до сучасних зразків. Ми як розробники низки наукових електронних бібліотек з відкритим досту- пом вже зареєстровані провайдерами да- них у таких системах як BASE3, OpenAIRE4, СORE5. Тому знайомі з вимо- гами провайдерів сервісів до провайдерів даних у практичній площині. У цій роботі ми спробували дещо узагальнити ці вимо- ги та вказівки щодо найкращого налашту- вання своїх репозитаріїв для індексування у таких агрегаторах. Приклади сучасних глобальних агрегаторів документів відкритого доступу BASE (Bielfield Academic Search Engine) − глобальна служба збору метада- них. Вона збирає репозиторії та журнали через OAI-PMH і надає зібраний вміст че- рез API та набір даних. Наразі агрегатор налічує близько 400 млн описів документів від понад 11 тис постачальників даних. Наукова електронна бібліотека періодич- них видань НАН України6, яку ми створи- ли і підтримуємо, підключена до цього аг- регатора як провайдер даних з січня 2012 року. Тут7,8 наведені приклади, яким чи- ном у цьому агрегаторі представлені наші статті та сам провайдер даних. OpenAIRE − це мережа постачаль- ників даних відкритого доступу, які підт- римують політики відкритого доступу. Не- зважаючи на те, що в минулому проєкт був зосереджений на європейських репозитарі- ях, нещодавно він розширився за рахунок інституційних і предметних репозитаріїв з- за меж Європи. Основним напрямком OpenAIRE є допомога Європейській Раді в моніторингу дотримання її політики відк- ритого доступу. Дані OpenAIRE доступні 3https://base-search.net/ 4https://www.openaire.eu/ 5https://core.ac.uk/ 6http://dspace.nbuv.gov.ua 7https://www.base-search.net/Search/Results?q= coll:ftvarnadskynl&refid=dctableen 8https://www.base- search.net/about/en/about_source.php?id=2328 451 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі через API. Наша Наукова електронна біб- ліотека періодичних видань зареєстрова- на у цій системі з 2018 року з рівнем сумі- сності v2.0 з інструкціями OpenAIRE (Рис. 1). На сьогодні стоїть питання щодо онов- лення нашої системи до рівня сумісності v3.0 або v4.0. Оскільки нова інтегрована платформа каталогу EOSC Portal Catalog та Marketplace тепер обслуговуватиме лише зареєстровані джерела даних OpenAIRE, які сумісні з версіями 3.0 та 4.0 інструкцій OpenAIRE. Це дасть нам змогу отримувати додаткові послуги. Наприклад з’явиться можливість отримання звітів про викорис- тання досліджень. OpenAIRE збирає дані про використання, а потім об’єднує їх і на- дає стандартизовані звіти. Рис. 1. Наукова електронна бібліо- тека періодичних видань НАНУ у агрега- торі OpenAIRE CORE (COnnecting REpositories) об'єднує наукові статті у відкритому дос- тупі від тисяч постачальників даних з усього світу, включаючи інституційні та предметні репозитарії, журнали відкритого доступу та гібридного доступу. CORE є найбільшою колекцією літератури з відк- ритого доступу − на момент написання цієї статті вона забезпечує єдину точку досту- пу до наукової літератури, зібраної від по- над одинадцяти тисяч постачальників да- них з усього світу, і ця колекція постійно зростає. Вона надає кілька способів досту- пу до своїх даних як для користувачів, так і для машин, включаючи безкоштовний API і повний дамп своїх даних [3]. На наш погляд, CORE − найцікавіший агрегатор із точки зору застосування у ньому низки семантичних та наукометричних техно- логій, наприклад, [4,5]. Наразі ми маємо дві наші бібліоте- ки, зареєстровані у CORE. Це − вищезга- дана Наукова бібліотека періодичних ви- дань НАНУ9, що працює на програмному забезпеченні DSpace10, і електронна біблі- отека Інституту програмних систем НА- НУ11, що працює на програмному забезпе- ченні EPrints12. Майже всі ці служби агрегації до- кументів відкритого доступу мають більш- менш стандартні процедури реєстрації та вимоги до провайдерів даних. Підтримка протоколу OAI-PMH Обов’язково переконайтеся, що ваш репозиторій видимий через OAI- PMH. Майже всі сучасні системи агрега- ції публікацій використовують протокол OAI-PMH для регулярного збирання та оновлення інформації, яку вони зберігають про своїх постачальників даних. Щоб пройти індексацію, постачальники даних повинні надати інформацію про свої ресу- рси через OAI-PMH. Відносно поширеною проблемою є те, що кінцева точка OAI-PMH постачаль- ника даних неправильно налаштована або не функціонує. Це може статися навіть то- ді, коли інші функції репозитарію працю- ють без проблем. Тому важливо, щоб ре- позитарії стежили за тим, аби їхня кінцева точка OAI-PMH залишалася функціональ- ною. Це можна зробити кількома способа- ми. Постачальники даних, які розг- лядають можливість реєстрації в агре- гаторі. Можна використовувати інстру- мент перевірки Open Archives OAI-PMH13. Інструмент очікує базову URL-адресу OAI-PMH і проводить низку перевірок, щоб оцінити коректність конфігурації кі- нцевої точки (Рис. 2). Якщо валідатор по- вертає помилки, їх потрібно буде виправи- ти до реєстрації в агрегаторі. Рекоменду- ється виконати цей крок до спроби реєст- рації в агрегаторі. 9 https://core.ac.uk/data-providers/944 10https://dspace.lyrasis.org/ 11 https://core.ac.uk/data-providers/953 12https://www.eprints.org/uk/ 13https://www.openarchives.org/Register/ValidateSite 452 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі Реєстрація постачальників даних у агрегаторі. Відвідайте сторінку реєстра- ції постачальника даних та введіть URL- адресу OAI-PMH свого репозиторію. Якщо URL-адреса OAI-PMH є дійсною, репози- торій буде зареєстровано за умови прохо- дження додаткових перевірок, описаних нижче. Важливо зазначити, що перевірка правильності конфігурації кінцевої точки OAI-PMH не гарантує правильне відобра- ження всіх записів метаданих із системи репозиторію. Це можна перевірити лише після того, як агрегатор спробує отримати дані з репозиторію. Рис. 2. Зразок перевірки OAI-PMH для журналу Проблеми програмування Постачальники даних, які вже зареєстровані в агрегаторі. Зареєстровані постачальники даних можуть отримати доступ до інформаційної панелі агрегато- ра. Панель управління надає доступ до зві- ту про збір даних, який містить таку інфо- рмацію, як останній випадок успішного збору даних, кількість знайдених та проін- дексованих метаданих і повнотекстових записів (якщо повні тексти збираються агрегатором), будь-які помилки або попе- редження, що виникли в процесі збору да- них. Рис. 3. Приклад показу збору даних агрегатором CORE на інформаційній панелі для репозитарію Відкритого університету14 14https://www.open.ac.uk/ Нерідко кількість проіндексованих записів метаданих у агрегаторах може де- що відрізнятися від кількості, яку постача- льник даних може бачити у своїй системі репозитарію, оскільки інформаційна па- нель надає незалежний зовнішній погляд на репозитарій. Відхилення можуть вини- кати через низку причин. Наприклад, через те, що ваш репозиторій не відкриває всі записи через інтерфейс OAI-PMH, деякі записи відключені або їхні метадані не ві- дповідають мінімальним вимогам щодо якості. Тому постачальникам даних реко- мендовано регулярно перевіряти і виправ- ляти будь-які помилки та попередження, що з'являються на інформаційній панелі. Реєстрація у відкритих міжнародних реєстрах Рекомендована реєстрація репо- зитарію у відкритих міжнародних реєст- рах. Агрегатори використовують визнані відкриті реєстри репозитаріїв, зокрема, та- 453 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі кі як OpenDOAR15, для виявлення нових постачальників даних із відкритим досту- пом. Тому бажано, щоб ваш репозитарій був включений до такого міжнародного списку репозитаріїв, і щоб базова URL- адреса OAI-PMH підтримувалася в актуа- льному стані в цьому реєстрі. Наприклад, для реєстрації будь-якого провайдера да- них у агрегаторі OpenAIRE, попередня ре- єстрація у реєстрі OpenDOAR є обов’язковою вимогою. Нерідко зустріча- ємо і таку ситуацію, коли одні агрегатори автоматично індексують інші агрегатори, як, наприклад, серед провайдерів даних агрегатора CORE є агрегатор DOAJ (Ката- лог журналів відкритого доступу), кілька серверів препринтів та наукових праць, які мають ідентифікатори публікацій, зареєст- рованих у Crossref [3]. Конфігурація метаданих Для того, щоб агрегатор міг успіш- но збирати дані зі сховища, як було сказа- но вище, сховище повинно мати кінцеву точку, сумісну зі стандартом OAI-PMH. Більшість поширених програм, таких як EPrints, DSpace або Open Journal Systems16 (OJS) підтримують OAI-PMH. Крім того, для успішного індексування важливо, щоб метадані записів у репозитарії були прави- льними та у підтримуваному форматі. Обов’язкова підтримка стандар- тів метаданих. Агрегатори можуть підт- римувати кілька форматів метаданих для опису наукових документів [1]. Як прави- ло, метадані мають бути представлені в одному з наступних форматів. 1. Dublin Core / Extended Dublin Core (мінімум). Дублінське ядро є однією з найпростіших і найпоширеніших схем метаданих. Розширена версія була форма- лізована у вигляді термінів метаданих DCMI17 2019 року, з приблизно 70 полями даних. Хоча Dublin Core та Extended Dublin Core є достатніми для індексації, зокрема, в агрегаторі BASE, схема надає лише обмежені можливості для опису нау- 15http://v2.sherpa.ac.uk/opendoar/ 16https://pkp.sfu.ca/ojs 17https://www.dublincore.org/specifications/dublin- core/dcmi-terms/ кових ресурсів порівняно з OpenAIRE Guidelines18 та Rioxx19. 2. OpenAIRE Guidelines була ство- рена для підтримки стратегії відкритого доступу Європейської Комісії та для задо- волення вимог інфраструктури OpenAIRE. Ця нова версія настанов, відповідно до ро- зширення цілей ініціативи OpenAIRE та її інфраструктури, має ширшу сферу засто- сування. Впроваджуючи ці настанови, ме- неджери репозитаріїв дозволять авторам, які розміщують публікації в їхніх репози- таріях, відповідати вимогам Європейської Комісії щодо відкритого доступу. 3. RIOXX. Агрегатор CORE реко- мендує репозитаріям використовувати фо- рмат метаданих Rioxx (the research outputs metadata schema) як найбільш придатний профіль метаданих для опису результатів наукових досліджень. Ця схема метаданих була розроблена для інституційних репо- зитаріїв з метою обміну метаданими про наукові ресурси, які вони містять. Спочат- ку розроблена для задоволення вимог до звітності Дослідницьких рад Великої Бри- танії (Research Councils UK, RCUK)20, Rioxx також виявилася корисною як стан- дарт для обміну метаданими між репози- таріями та мережевими сервісами, такими як великомасштабні агрегатори метаданих, наприклад, CORE. Rioxx фокусується на застосуванні узгодженості до полів мета- даних, що використовуються для іденти- фікаторів наукових результатів, людей і організацій, спонсорів досліджень і проєк- тів/грантів, і призначений для підтримки послідовного відстеження наукових публі- кацій з відкритим доступом у різних нау- кових системах. Rioxx має кілька переваг над іншими схемами. Зокрема, ця схема була розроблена з особливим акцентом на забезпеченні ефективного обміну даними між репозиторіями і машинними агентами. Це робить збір даних швидшим і точнішим завдяки уникненню неоднозначності у зв'- язках метаданих, що описують ресурси та- кі, як повні тексти, набори даних і програ- мне забезпечення, а також самі ресурси. 18https://guidelines.openaire.eu/ 19https://rioxx.net/ 20https://www.ukri.org/ 454 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі Вона уможливлює опис широкого спектру наукових властивостей, корисних для звітування та аналізу досліджень, та- ких як ідентифікатори грантів, ідентифіка- тори проєктів, ідентифікатори спонсорів, інформація про ліцензування тощо. Схема Rioxx сумісна з іншими про- токолами машинного доступу до наукових документів, зокрема, Signposting21 та ResourceSync22, і логічно інтегрується з ними. Вона забезпечує механізми для роз- різнення ресурсів, що перебувають під уп- равлінням репозитарію, від ресурсів під зовнішнім управлінням, що дозволяє CORE надавати перевагу посиланням на репозитарій, де це можливо (і доречно), замість зовнішніх посилань на веб-сайти видавців. CORE надає валідатор23 метаданих для постачальників даних, які підтриму- ють Rioxx. Повнотекстова конфігурація Як уже було сказано вище, низка потужних можливостей деяких агрегаторів заснована на здатності індексувати повно- текстовий контент. До них належать пов- нотекстовий пошук, рекомендації повно- текстового контенту, виявлення версій і дубльованого контенту та інші. Підтриму- вані повнотекстові формати − тільки дійсні файли PDF, doc або docx, які містять текст, що витягується. Якщо PDF-файл це − відс- кановане зображення, то використання до- кумента в агрегаторах буде обмежено. Для успішного індексування повного тек- сту статті, на нього має бути посилання в один з наступних способів. Пряме посилання на повний текст. Рекомендується, щоб постачальни- ки даних надавали однозначне посилання на повний текст у метаданих. Правильна стратегія посилання залежить від викорис- товуваної схеми метаданих. Там, де вико- ристовується Дублінське ядро, рекоменду- 21https://signposting.org/ 22https://www.openarchives.org/rs/1.1/resourcesync 23https://core.ac.uk/membership-documentation#rioxx- validator ється надавати пряме посилання на повний текст у першому входженні dc:identifier. <dc:identifier>http://oro.open.ac.uk/37 823/1/jcdl2019_v7.pdf</dc:identifier> Система EPrints за замовчуванням дотримується цієї рекомендації. Такий підхід значно зменшує навантаження, яке агрегатор накладає на сховище під час ін- дексації. Якщо це неможливо, то агрегатор може індексувати вміст, якщо в метаданих є чітко визначене посилання, яке вказує на машинодоступний документ (або PDF, або формат Microsoft Word doc/docx). Непряме посилання на повний текст. Агрегатор автоматично визначає, коли постачальник даних не вказує поси- лання на повний текст безпосередньо, як було описано вище. У таких випадках ін- дексатор відвідає цільову сторінку і збере з неї посилання так само, як це зробив би користувач, намагаючись знайти посилан- ня на документ на сторінці. Щоб переконатися, що правильний повний текст був знайдений, тобто повний текст, що відповідає запису метаданих, аг- регатор запускає процес зіставлення заго- ловка запису із заголовком, що міститься в pdf-файлі. Цей процес не є на 100% точ- ним, спричиняє додаткове навантаження на сервер і вимагає більше часу на обробку одного документа. Це не працює для до- кументів, які потребують розпізнавання тексту, і тому вони будуть відкинуті. Вимоги щодо кодування символів контенту та інші Кодування символів. Увесь вміст інтерфейсу OAI-PMH (заголовки, імена авторів, анотації) кодується в UTF-8. Інші кодування або дублювання кодувань спри- чиняють помилки у відображенні результа- тів пошуку з вашого джерела. Розділення кількох записів у полі метаданих. Якщо у полі метаданих вказані кілька записів (наприклад, ім'я автора та його ідентифікатор ORCID), розділяйте їх пробілами, крапкою з комою та пробілами. Таке розділення дозволяє індексувати ін- формацію окремо і зробити її доступною для пошуку. 455 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі Розмітка FAIR рекомендується. Сторінки, на яких розміщені наукові стат- ті, розроблені з думкою про людину, ці сторінки не оптимізовані для використан- ня машинними агентами, які здійснюють навігацію в науковій мережі. Розмітка за- довольняє потреби машинних агентів, на- даючи метадані, посилання на документи відповідно до стандартів, використовуючи типізовані посилання24 як засіб для пояс- нення закономірностей, що повторюються на наукових порталах. Як адміністратор платформи репо- зитарію, на якій розміщуються результати досліджень, ви можете допомогти маши- нам орієнтуватися в інформаційних систе- мах, якими ви керуєте, впровадивши про- філь вказівників FAIR25, який надає конк- ретні рекомендації, спрямовані на уніфіка- цію в різних системах. Висновки В роботі зроблено огляд доступних і популярних агрегаційних служб публіка- цій відкритого доступу BASE, OpenAIRE, CORE. А також проаналізовані і узагаль- нені їх вимоги та рекомендації щодо інде- ксування вмісту постачальників даних. Наші електронні бібліотеки, які ми ство- рили і підтримуємо протягом уже майже 20 років, працюють на основі програмного забезпечення з відкритим кодом Dspace, EPrint та OJS, вже присутні у цих агрега- торах як провайдери даних. Тому деякий практичний досвід ми маємо, і це дозволяє нам виконати проєкт НАНУ «Відкрита наука» із створення агрегатора публікацій, який у подальшому буде підключено до більш потужних європейських або світо- вих агрегаторів публікацій відкритого дос- тупу. Матеріали цієї статті будуть корис- ні тим, хто планує підключити свої ресур- си до нашої системи. А також будуть ви- користані у програмному налаштуванні нашого агрегатора наукових публікацій та документації із його адміністрування та регламенту роботи. 24https://www.iana.org/assignments/link-relations/link- relations.xhtml 25https://signposting.org/FAIR/ Література 1. Проскудіна Г.Ю., Кудім К.О., Резніченко В.А. VUFIND: відкрите рішення для інтеграції бібліотечних колекцій // Проблеми програмування. − 2023. − № 4 – С. 15–26. https://pp.isofts.kiev.ua/ojs1/article/view/590 2. Резніченко В.А, Новицький О.В., Проскудіна Г.Ю. Інтеграція наукових електронних бібліотек на основі протоколу OAI-PMH // Проблеми програмування. − 2007. − № 2 – С. 97–112. http://dspace.nbuv.gov.ua/hadle/123456789/2 91 3. Кнот П., Херрманнова Д., Канселлієрі М. та ін. CORE: Глобальна служба агрегації документів відкритого доступу. Nature Scientific Data 10, 366 (2023). https://www.nature.com/articles/s41597-023- 02208-w 4. Ammar, W.et al. Construction of the Literature Graph in Semantic Scholar. Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. − 2018 − Vol. 3 − pp. 84–91. 5. Кнот П., Херрманнова Д. К вопросу о семантометрии: новый критерий для оценки вклада научной публикации на основе семантического сходства // Международный форум по информатизации. − 2015. − Т.40, № 1. − С. 3-8. References 1. Proskudina G.Yu., Kudim K.A., Reznichenko V.A. 2023. VuFind: an open solution for integrating library collections . Problems in programming. no. 4, pp. 15–26. (in Ukrainian). Available from: https://pp.isofts.kiev.ua/ojs1/article/view/590 [Accessed 17/04/2024]. 2. Reznichenko V.A.,. Novytskyi О.V., Proskudina G.Yu., 2007. OAI-PMH protocol- based integration of scientific digital libraries. Problems in programming, no. 2, pp. 97–112. (in Ukrainian). Available from: http://dspace.nbuv.gov.ua/handle/123456789/ 291 [Accessed 17/04/2024]. 3. Knoth P., Herrmannova D., Cancellieri M. et al. CORE: A Global Aggregation Service for Open Access Papers. Sci Data 10, 366 (2023). https://doi.org/10.1038/s41597-023-02208-w [Accessed 17/04/2024]/ 456 Онтологічний аналіз, Semantic Web та менеджмент знань у відкритому просторі 4. Ammar, W. et al. Construction of the Literature Graph in Semantic Scholar. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 3 (Industry Papers): 84–91 (2018). [Accessed 17/04/2024]. 5. Petr Knoth and Drahomira Herrmannova. Towards Semantometrics: A New Semantic Similarity Based Measure for Assessing a Research Publication's Contribution. D-Lib Magazine. Volume 20, Number 11/12 (2014) https://www.dlib.org/dlib/november14/knoth/ 11knoth.html [Accessed 18/04/2024]. Одержано: 29.04.2024 Внутрішня рецензія отримана: 08.05.2024 Зовнішня рецензія отримана: 08.05.2024 Про авторів: Проскудіна Галина Юріївна, науковий співробітник. http://orcid.org/0000-0001-9094-1565 Кудім Кузьма Олексійович, молодший науковий співробітник. http://orcid.org/0000-0001-9483-5495 Місце роботи авторів: Інститут програмних систем НАН України, тел. +38 (050) 368 49 27 E-mail: guproskudina@gmail.com, kuzmaka@gmail.com
id	pp_isofts_kiev_ua-article-668
institution	Problems in programming
keywords_txt_mv	keywords
language	Ukrainian
last_indexed	2025-07-17T10:02:53Z
publishDate	2024
publisher	PROBLEMS IN PROGRAMMING
record_format	ojs
resource_txt_mv	ppisoftskievua/b4/453426713db6fabb61bb5392e87a5eb4.pdf
spelling	pp_isofts_kiev_ua-article-6682025-02-15T15:48:57Z Global open access resource aggregation services and their requirements for data providers Глобальні служби агрегації ресурсів відкритого доступу та їх вимоги до постачальників даних Proskudina, G.Yu. Kudim, K.О. open access; service provider; data provider; OAI-PMH protocol UDC 004.82 відкритий доступ; провайдер сервісів; провайдер даних; протокол OAI-PMH УДК 004.82 The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming interface for data retrieval. The composition and types of their data providers, such as institutional repositories, open journals, publishing houses, scientific repositories of preprints, thematic digital libraries, as well as systems that are also aggregators, are considered. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data communication protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a number of open access scientific digital libraries, we are already registered as data providers in these systems. Therefore, we are familiar with their requirements in practice. In this article, we have tried to summarise these requirements to some extent, namely: support for standard data transfer protocols, support for standard metadata sets, support for standard character encodings for content, and others.Prombles in programming 2024; 2-3: 449-456 У роботі розглянуті сучасні глобальні агрегатори документів відкритого доступу BASE, OpenAIRE та CORE. Проаналізовані їхys кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Розглянуто склад і види їх постачальників даних, такі як інституційні репозитарії, відкриті журнали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також, яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про постачальників даних, і теж, яким чином вона представлена у інтерфейсі користувача. Як відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою частотою відбувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семантометрії надають цілий ряд корисних сервісів науковцям. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у цих системах. Тому знайомі з їхніми вимогами у практичній площині. В цій роботі ми спробували дещо узагальнити ці вимоги, а саме − підтримка стандартних протоколів передачі даних, підтримка стандартних наборів метаданих, підтримка стандартних кодувань символів для вмісту та інші.Prombles in programming 2024; 2-3: 449-456 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/668 10.15407/pp2024.02-03.449 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 449-456 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 449-456 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 449-456 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/668/720 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
spellingShingle	open access service provider data provider OAI-PMH protocol UDC 004.82 Proskudina, G.Yu. Kudim, K.О. Global open access resource aggregation services and their requirements for data providers
title	Global open access resource aggregation services and their requirements for data providers
title_alt	Глобальні служби агрегації ресурсів відкритого доступу та їх вимоги до постачальників даних
title_full	Global open access resource aggregation services and their requirements for data providers
title_fullStr	Global open access resource aggregation services and their requirements for data providers
title_full_unstemmed	Global open access resource aggregation services and their requirements for data providers
title_short	Global open access resource aggregation services and their requirements for data providers
title_sort	global open access resource aggregation services and their requirements for data providers
topic	open access service provider data provider OAI-PMH protocol UDC 004.82
topic_facet	open access service provider data provider OAI-PMH protocol UDC 004.82 відкритий доступ провайдер сервісів провайдер даних протокол OAI-PMH УДК 004.82
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/668
work_keys_str_mv	AT proskudinagyu globalopenaccessresourceaggregationservicesandtheirrequirementsfordataproviders AT kudimko globalopenaccessresourceaggregationservicesandtheirrequirementsfordataproviders AT proskudinagyu globalʹníslužbiagregacííresursívvídkritogodostuputaíhvimogidopostačalʹnikívdanih AT kudimko globalʹníslužbiagregacííresursívvídkritogodostuputaíhvimogidopostačalʹnikívdanih

Global open access resource aggregation services and their requirements for data providers

Репозитарії

Схожі ресурси