Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН

Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації....

Full description

Saved in:
Bibliographic Details
Date:2007
Main Authors: Резніченко, В.А., Новицький, О.В., Проскудіна, Г.Ю.
Format: Article
Language:Ukrainian
Published: Інститут програмних систем НАН України 2007
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/291
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1860265563060699136
author Резніченко, В.А.
Новицький, О.В.
Проскудіна, Г.Ю.
author_facet Резніченко, В.А.
Новицький, О.В.
Проскудіна, Г.Ю.
citation_txt Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp.
collection DSpace DC
description Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації.
first_indexed 2025-12-07T19:00:22Z
format Article
fulltext Інформаційні системи © В.А Резніченко, О.В. Новицкий, Г.Ю. Проскудіна, 2007 ISSN 1727-4907. Проблеми програмування. 2007. № 2 97 УДК 004.415 В.А Резніченко, О.В. Новицкий, Г.Ю. Проскудіна ІНТЕГРАЦІЯ НАУКОВИХ ЕЛЕКТРОННИХ БІБЛІОТЕК НА ОСНОВІ ПРОТОКОЛУ OAI-PMH Розглядається підхід до інтеграції електронних бібліотек на основі технології Ініціативи відкритих архівів, а саме за допомогою протоколу OAI-PMH. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації. Вступ Університети та дослідницькі інсти- тути всього світу активно планують та реалізують репозиторії (архіви, електронні бібліотеки) своєї наукової продукції. Крім того, веб-механізм, поширення швидкісних мереж надають нові можливості для своє- часного поширення наукової інформації. У процесі роботи з електронними ресурсами кожна організація стикається з цілим ря- дом проблем, щодо одержання доступу до інформаційних ресурсів інших організацій, так і виробництва власної електронної ін- формації та її поширення. При цьому все більш актуальними стають питання інтег- рації інформаційних ресурсів. За останні роки створення систем інтеграції даних стало важливим напрямком практичних розробок інформаційних систем різного призначення, в тому числі й електронних бібліотек (ЕБ) або архівів. Під інтеграцією даних в електрон- них системах ми розуміємо забезпечення єдиного уніфікованого інтерфейсу для до- ступу користувачів до сукупності автоно- мних джерел, які як правило, мають неод- норідність щодо деяких їх властивостей [1]. Своєрідний клас систем інтеграції представляють системи, в яких за основу прийнято технологію Ініціативи відкритих архівів (Open Archive Initiative – OAI) [2]. У більшості відомих систем цієї категорії їх інформаційні ресурси представляють собою колекції текстових документів, пе- редусім наукових публікацій, які автоно- мно формуються у вузлах глобальної ме- режі, підтримуються та адмініструються їх власниками. Згідно з технологією OAI, передба- чається матеріалізована інтеграція у єди- ному репозиторії не самих інформаційних ресурсів, що цікавлять користувачів сис- теми інтеграції, а представлених деяким стандартним чином метаданих, що опису- ють колекції інформаційних ресурсів дже- рел даного архіву і окремі елементи цих колекцій. Збір таких метаданих для репо- зиторія здійснюється згідно зі спеціально розробленим протоколом Open Archives Initiative – Protocol for Metadata Harvesting (ОАІ-PMH) [3], що забезпечує глобальні послуги доступу та пошуку. Робота містить більш докладний опис такого підходу, а також двох програ- мних системи для його реалізації, що ви- конують роль провайдера даних (EPrints) та сервіс провайдера (PKP Open Archives Harvester). Підхід продемонстровано на прик- ладі реалізації електронної бібліотеки Жи- томирського державного університету ім. Івана Франка з використанням програм- ного забезпечення (ПЗ) EPrints. Даний проект був зареєстрований в якості про- вайдера даних в OAI та був вибраний сер- віс провайдером The University of Illinois OAI-PMH Data Provider Registry (http://gita.grainger.uiuc.edu/registry/searchfo rm.asp), також подано заявку на реєстрацію у OAIster (http://oaister.umdl.umich.edu). Крім того був створений власний сервіс провайдер для збору метаданих з цього ар- хіву на основі ПЗ PKP Open Archives Harvester. Ця робота містить: огляд шляхів вирішення задачі інтеграції (розділ 1); роз- гляд ініціативи “Вікриті архиві” – як шлях до створення середовища з високою сту- Інформаційні системи 98 пінню інтероперабельності (розділ 2); опис інструменьтальних засобів, що реалізують запропонований підхід та приклади реалі- зації (розділ 3) та висновки. 1. Шляхи вирішення задачі інтеграції Існує кілька підходів до вирішення проблеми створення електронних бібліотек з інтегрованими інформаційними ресур- сами. Серед них можна виділити наступні два класи таких систем: з інтегрованим ве- денням ресурсів та з розподіленим веден- ням ресурсів. Підхід з інтегрованим веденням ре- сурсів передбачає збір, збереження й обро- бку інформаційних ресурсів у єдиному ре- позиторії. Такий підхід видається доціль- ним у випадку, коли інформаційні ресурси організаційно породжуються в одному мі- сці і безпосередньо належать одному влас- нику. Прикладом таких організаційних структур можуть бути науково-дослідні інститути НАН України. Будь-який інсти- тут може створити інтегровану наукову електронну бібліотеку (НЕБ), яка б містила колекції її різноманітних наукових ресур- сів (наукові статті, звіти, дисертації, уч- бово-методичні посібники, матеріали кон- ференцій) і вирішувала всі проблеми з ве- денням таких ресурсів та наданням дос- тупу до них. Однак, наприклад, для ство- рення НЕБ НАН України, яка б припускала централізацію всіх ресурсів, такий підхід не зовсім підходить, оскільки він потребує вирішення цілого ряду складних організа- ційно-технічних задач і, насамперед, тих, що спрямовані на збір вихідних інформа- ційних ресурсів з інститутів. Крім того, він потребує створення розвинутої структури ведення такої НЕБ. Підхід з розподіленим веденням ре- сурсів припускає, що існує багато органі- зацій, які здійснюють самостійне ство- рення і ведення електронних бібліотек і надають можливість доступу до цих ресур- сів, включаючи також і організацію по- шуку необхідних ресурсів. Крім того, існує "надбудова" над ними, що дозволяє робити пошук за цими ресурсами і, при наявності відповідних умов, надавати доступ до са- мих ресурсів. У цьому випадку інститути НАН України створюють свої НЕБ, а інте- грована служба, що діє на рівні НАН України, забезпечує пошук і видачу відпо- відних ресурсів. На сьогодні існує два концептуаль- них рішення цього підходу. Перше припу- скає існування механізму перехресного пошуку за багатьма архівами (НЕБ), коли всі ресурси, бібліографічні описи та пошу- ковий сервіс знаходиться в організації. Так працюють системи з використанням про- токолу Z39.50 [4]. При цьому пошук здійс- нюється шляхом безпосереднього звер- нення до всіх або до вибраних користува- чем електронних бібліотек з наступним зведенням одержаних результатів у єдиний список. Друге – пропонує здійснювати збір (харвестинг, harvesting) метаданих, що описують інформаційні ресурси "на міс- цях" для того, щоб можна було надати централізований пошук в одному місці на основі зібраних метаданих. За суттю це є деякий аналог інтегрованого електронного каталогу. Далі в роботі розглядається дру- гий підхід. 2. Ініціатива відкритих архівів Ініціатива відкритих архівів (OAI – Open Archive Initiativee) виникла в зв'язку з тим, що багато організацій, де створю- ються електронні інформаційні ресурси (e- prіnt-співтовариство), і, насамперед, нау- кові ресурси, вирішили надати відкритий доступ до них. У зв’язку з цим виникла проблема надання інтегрованого доступу до неоднорідних гетерогенних репозито- ріїв. OAI націлена саме на те, щоб розроб- ляти та сприяти розвитку й поширенню середовища і відповідних стандартів, які б дозволили об'єднати зусилля e-prіnt-спів- товариства з інтегрованого доступу до їх- нших ресурсів [2]. Суть підходу відкритих архівів, по- лягає у тому, щоб дозволити здійснювати веб-доступ до інформаційних ресурсів, ро- зташованих у інтероперабельних репози- торіях, за допомогою організації спільного використання, публікації й архівування метаданих таких ресурсів. 2.1. Протокол OAІ для збору ме- таданих (OAІ-PMH). Протокол OAІ для збору (хагвестінгу) даних (OAІ-PMH) ви- значає механізм збору записів, що містять Інформаційні системи 99 метадані з репозиторіїв. Протокол OAІ- PMH надає провайдерам даних простий спосіб такого представлення їх метаданих, який робить їх доступними для провайде- рів сервісів. При цьому для обміну метада- них використовуються технології HTTP (Hypertext Transport Protocol) і XML (Extensіble Markup Language). Зібрані в та- кий спосіб метадані можуть бути предста- влені в будь-якому форматі, обраному спі- втовариством організацій, що вирішили об'єднати свої зусилля для створення інте- грованої федеративної ЕБ. Проте в прото- колі OAІ-PMH для забезпечення базового рівня інтероперабельності специфіковано формат Дублінського ядра [5]. Таким чи- ном, метадані з різних неоднорідних дже- рел поєднуються в єдиній базі даних для того, щоб надати множину сервісів на ос- нові таких агрегованих метаданих. Зв'язки між такими об'єднаними метаданими і від- повідними інформаційними ресурсами (тобто з контентом інформаційних ресур- сів) не визначаються в цьому протоколі, таким чином він не надає можливість ро- бити повнотекстовий пошук за інформа- ційними ресурсами, а тільки за їхніми ме- таданими. Він просто дозволяє об'єднати інформаційні ресурси на рівні метаданих і саме на цьому рівні виконувати пошук. Хоча концепція протоколу OAІ- PMH досить проста, однак побудова на її основі відповідного набору сервісів, які б задовольнили потреби користувачів, зали- шається досить складною задачею. Ця за- дача цілком лежить на "плечах" провай- дера сервісів, своєрідної пошукової сис- теми, що дозволяє користувачам знахо- дити інформацію та досліджувати декілька репозиторіїв одночасно. 2.2. Інформаційна модель OAI- PMH. Виходячи з того факту, що джере- лом виникнення протоколу була елект- ронна публікація, модель даних OAI-PMH у загальному випадку інтерпретується в термінах бібліографічних даних, що опи- сують академічний ресурс, хоча можливі й інші інтерпретації [1]. OAI-PMH має про- сту й гнучку інформаційну модель (рис. 1). У верхній частині моделі – опису- ваний ресурс (resource). Це може бути як традиційний бібліотечний об'єкт (напри- клад, книга, стаття), так і інші сутності (наприклад, зображення, поняття). Далі іде елемент (item) – складова репозиторія, за допомогою якої поширюються метадані про ресурс. Елемент концептуально являє собою контейнер, що зберігає або динамі- чно генерує метадані про окремий ресурс у oai:biomedcentral.com:1471-2121-2-1 Pubmed 2006-01-29 Повний текст 2006-01-29 MARC метадані 2006-01-29 Посилання 2006-01-29 Дублінське ядро 2006-01-29 Ресурс Ідентифікатор запису Записи http://www.biomedcentral .com/1471-2121/2/1 Рис. 1. Інформаційна модель OAI-PMH Інформаційні системи 100 декількох форматах, кожен з яких може бути зібраний у вигляді запису (record) че- рез OAI-PMH. Кожний елемент має іден- тифікатор запису (OAI identifier) або уні- кальний ідентифікатор, який однозначно визначає елемент у репозиторії, він вико- ристовується у запитах OAI-PMH для до- бування метаданих з елементів. Елемент може містити метадані у декількох форма- тах. Унікальний ідентифікатор вказує на елемент, і всі можливі записи, що є в од- ному елементі, разом використовують один і той самий унікальний ідентифіка- тор. Записи описують ресурс у довільному форматі метаданих, що може бути вираже- ний в XML Schema. В ідею протоколу OAI-PMH закладена підтримка будь-яких схем опису метаданих, але він потребує обов’язкового включення в опис ресурсу набору метаданих Дублінського ядра (Dublin Core - DC). Також бажано вклю- чати в опис і більш розширені набори ме- таданих (наприклад, MARC). Необхідно підкреслити, що іденти- фікатор запису не є ідентифікатор докуме- нта (об'єкта). Очевидно, що багато корис- тувачів захочуть одержати доступ до пов- ного тексту ресурсу, описаному записом метаданих. Протокол рекомендує, щоб ар- хіви використовували елемент запису ме- таданих для зв'язування запису з ідентифі- катором (URL, URN, DOI та ін.) асоційо- ваного документа (об'єкта). Для цієї мети обов'язковий формат DC надає елемент «ідентифікатор» (DC.Identifier). 2.3. Провайдери даних і сервісів. Концепція протоколу OAІ-PMH виділяє дві ролі: провайдера даних та провайдера сервісів [3]. Провайдер даних – це служба, що підтримує створення і ведення одного чи більше репозиторіїв (бази документів, ар- хівів, електронних бібліотек), здійснює пу- блікацію своїх ресурсів, а також надає мо- жливість доступу до своїх метаданих для їхнього використання в інших системах. Як правило, провайдер даних надає віль- ний доступ до своїх метаданих і, можливо але не обов'язково, надає вільний доступ до повних текстів своїх документів з НЕБ чи з інших інформаційних ресурсів. Про- вайдер даних може мати самостійний веб- інтерфейс для організації пошуку, перег- ляду і доступу до своїх ресурсів, а також інші сервіси, що надаються кінцевим ко- ристувачам. Провайдер даних самостійно вирішує питання про відкритість своїх ін- формаційних ресурсів і доступність до них. Зокрема, провайдер даних може при- йняти рішення про інтеграцію усіх або ча- стини своїх інформаційних ресурсів на рі- вні метаданих у провайдера сервісів і для цього організує експорт відповідних мета- даних у форматі протоколу OAІ-PMH. Провайдер сервісів здійснює збір і збереження метаданих, наданих провайде- рами даних, для надання кінцевим корис- тувачам різних сервісів. До таких сервісів, зокрема, відноситься збереження й індек- сування метаданих з метою організації пошуку на їхній підставі необхідних доку- ментів. Зазначимо, що при організації по- шуку необхідної інформації не відбува- ється звертання до провайдерів даних, тому що він здійснюється на основі збере- жених метаданих у провайдера сервісів. Провайдер сервісів може збирати не всі метадані, надані провайдером даних, а тільки ті, котрі доцільно збирати на основі тих чи інших критеріїв. Схема такої взає- модії показана на рис. 2. Зазначимо, що в цій схемі той самий провайдер може грати обидві ролі, тобто забезпечувати як створення і ведення репозиторіїв інформаційних Рис. 2. Загальна схема взаємодії провайдера даних і провайдера сервісів Інформаційні системи 101 ресурсів, так і здійснювати збір метаданих від інших провайдерів та надавати на їхній основі необхідні сервіси. Запропоновані рішення є гнучкими для їхнього подальшого розвитку. Так, наприклад, на рис. 3 показано варіант розвитку цього підходу з використанням багатьох про- вайдерів сервісів. Таке рішення дозволяє, наприклад, створювати проблемно-орієн- товані чи функціонально-орієнтовані провайдери сервісів, а також, при необхідності, знижувати навантаження на провайдер сервісів у випадку істотного збільшення навантаження на нього. На рис. 4 показано розширення з включенням агрегатора. Агрегатор виконує обидві функції – провайдера даних і сервісів. Як провайдер сервісів він збирає метадані від інших провайдерів даних і потім, виконуючи функцію провайдера даних, робить зібрані метадані доступними для збору іншими провай- дерами сервісів. Завдання агрегатора полягає в обробці зібраних метаданих, наприклад, їх нормалізацію або перетворення в інший формат метаданих. Нарешті, можна використовувати множину провайдерів сервісів, агрегаторів з одночасним комбінуванням з пошуком, як це показано на рис. 5. 2.4 Архітектурні рішення. З огляду на вищеописану концепцію OAІ PMH, пропонується наступна архітектура розподіленої НЕБ (рис. 6). Організації, ви- ходячи зі своїх можливостей і потреб, створюють, збирають і підтримують в еле- ктронному вигляді свої власні інформа- ційні ресурси у вигляді електронних ко- лекцій або ЕБ. У загальному випадку склад інфор- маційних ресурсів може бути довільним. Перелік пропонованих цими ЕБ сервісів також визначається в організаціях. Приро- дно, що мінімальними сервісами є перег- ляд і пошук необхідної інформації та на- Рис. 3. Архітектура з багатьма провайдерами сервісів Рис. 4. Архітектура з агрегаторами Інформаційні системи 102 дання результатів пошуку кінцевим кори- стувачам. Крім того, можуть включатися інші сервіси, які є характерними для ЕБ [6]. Організації самостійно приймають рі- шення щодо функціональних можливостей створюваних ними ЕБ, включаючи і меха- нізми обмеження прав доступу до тих чи інших ресурсів. Виходячи з розроблених концепцій функціонування НЕБ, організації вибира- ють програмне забезпечення, здатне задо- вольнити необхідні (передбачувані) пот- реби. У розглянутій архітектурі не накла- дається ніяких принципових обмежень щодо обраного програмного забезпечення за винятком одного – воно повинно підт- римувати механізм експорту метаданих у форматі OAІ-PMH. У даний час існує ба- гато інструментальних засобів створення ЕБ, що підтримують протокол OAІ PMH, включаючи і безкоштовні програмні про- дукти. Такі НЕБ виконують у розглянутій архітектурі функції провайдерів даних. Для інтеграції ЕБ створюється служба, яка буде виконувати функції провайдера сервісів. В її обов'язки входить: Рис. 5. Сполучення багатьох провайдерів сервісів, харвестингу і пошуку Рис. 6. Архітектура інтеграції НЕБ Інформаційні системи 103 − збір метаданих від провайдерів да- них, що прийняли рішення про надання своїх інформаційних ресурсів в інтегро- вану пошукову службу провайдера серві- сів; − індексування метаданих з метою наступного надання сервісу з організації пошуку інформаційних ресурсів; − надання сервісів з перегляду і по- шуку інформаційних ресурсів провайдерів даних з можливим наданням посилань до повних текстів документів та інших серві- сів. Суттєвою перевагою такої архітек- тури є те, що пошук стає цілком незалеж- ним від організації репозиторію докумен- тів. Пошук в одній великій базі даних або в тисячі мілких – для користувача є одним, оскільки цим займаються харвестери, які здійснюють пошук у відомих їм базах да- них. Архітектура в цьому плані нічого революційно нового не має. Термін "мета- пошуковик" та запит по декількох базах даних існує вже багато років. Новим тут є те, що використовуємий протокол организації OAI є відкритий, він не засто- совується десь тільки в одній організації і служить для взаємодії різних баз. Одна з суттєвих місій OAI полягає у тому, щоб поширювати засоби, що дозволяють уста- новам та колективам, навіть самим ма- леньким, розміщувати в мережі документи, які можна знайти за запитами стандарту OAI-PMH. 2.5. Проблеми інтеграції. Крім за- стосування єдиних протоколів доступу, проблеми інтероперабельності інформа- ційних бібліотечних систем включають формати метаданих та їх розширення (на- приклад, класифікатори предметних обла- стей), моделі документів, впорядковане пойменування та інш. Зупинимось на де- яких з них більш докладно. 2.5.1. Уніфікація схем метаданих. Запропонований підхід передбачає вирі- шення проблеми уніфікації схем метада- них, з якими працюють провайдери даних. Така уніфікація істотно спрощує процес збору й індексації метаданих. В якості та- кої схеми пропонується набір метаданих Дублінського ядра (DC). У зв'язку з цим доцільно розробити єдину схему опису ме- таданих на основі DC для представлення описової інформації щодо всіх інформа- ційних ресурсів. Проте, у загальному випадку підхід допускає існування різних схем метаданих. А на провайдер сервісів лягає відповідаль- ність за вибір однієї зі схем як стандартної й ототожнення (відображення) інших схем з обраною. У такий спосіб буде надаватися гнучкість у підтримці різних способів опису інформаційних ресурсів. Втім в да- ний час відомі провайдери даних теж до- сить вдало вирішують ту ж проблему. Се- ред яких провідне місце посідає система програмного забезпечення для побудови провайдерів даних Eprints 3.0. 2.5.2. Проблема надання сервісів. Запропонований підхід вирішує проблему надання сервісу інтегрованого пошуку не- обхідних ресурсів. Проте, при відповід- ному розширенні функціональних можли- востей провайдера сервісів можна охоплю- вати також й інші сервісні функції. 2.5.3. Проблема валідності та за- хисту інтелектуальної власності. Вико- ристання OAI забезпечить належний рі- вень правдивості та відповідності інфор- мації, оскільки будуть існувати гарантії що подана інформація є остаточною та дані дослідження є офіційним оприлюдненням. Водночас не буде порушуватися право ін- телектуальної власності, оскільки інфор- мація що знаходиться на дата провайдері уже зазвичай пройшла перевірку на цю но- рму. 3. Інструментарій реалізації розглянутого підходу 3.1. Програмне забезпечення про- вайдерів даних. Як було вищезазначено провайдер даних підтримує створення і ведення одного чи більше репозиторіїв, здійснює публікацію своїх ресурсів, а та- кож надає можливість доступу до своїх метаданих для їхнього використання в ін- ших системах. Набір платформ програм- ного забезпечення для побудови таких ре- позиторіїв постійно змінюється. Найбільш відомі та поширені на сьогодні: Інформаційні системи 104 − Archimede (http://www1.bibl.ula- val.ca/archimede/index.en.html); − CDSware (http://cdsware.cern.ch); − DSpace (http://www.dspace.org); − Eprints (http://software.eprints.org); − Fedora (http://www.fedora.info/ index.shtml); − Greenstone (http://www.greensto- ne.org/cgi-bin/library). Цей список не є вичерпним. Існує цілий ряд комерційних продуктів. Добрий огляд та аналіз цих платформ можна знайти в [7–8]. Всі перераховані системи мають набір спільних характеристик: це – відкрите програмне забезпечення, що по- ширюється під ліцензією GNU; репозитарії які побудовані на цих платформах OAI- сумісні, тобто підтримують протокол збору метаданих OAI-PMH (Greenstone поки що підтримує цей протокол лише ча- стково [9]); системи підтримують повноте- кстовий пошук для ресурсів визначених форматів; а також обов’язково використо- вують стандартний набір метаданих DC для опису своїх ресурсів. Як приклад сти- сло зупинимось на найбільш поширеній системі EPrints. 3.1.1. Програмне забезпечення EPrints, загальний опис. EPrints − вільно розповсюджуване програмне забезпечення під ліцензією GNU, що використовується для формування й керування Відкритими Архівами. На сьогодні у світі створено з використанням EPrints більше 200 архівів з більш ніж 170 000 записами. ПЗ EPrints може використовуватися для створення архівів робіт наукових досліджень, зобра- жень, даних і інших видів цифрової інфо- рмації. ПЗ EPrints розроблено в Школі еле- ктроніки й інформатики Університету Са- утгемптона (Великобританія). Зі створен- ням системи EPrints тісно зв'язаний проект TARDis (Targeting Academic Research for Deposit and Disclosure) [10], основним за- вданням якого було дослідження всіх сто- рін створення електронного архіву з метою розробки типового архіву для академічних установ. Основними системними вимогами для EPrints версії 3.0 є: ОС Unix, мова про- грамування Perl 5.8.x, сервер баз даних MySQL 4.1.x, веб-сервер Apache 2.х. Апа- ратні вимоги – сервер з обсягом оператив- ної пам'яті 1 Гб і процесором з тактовою частотою 1 Ггц і більше та відповідним дисковим простором для зберігання пов- нотекстових документів, при великому на- вантаженні на сервер бажано використову- вати жорсткий диск з підтримкою SCSI (Small Computer Systems Interface). 3.1.2. Функції та можливості EPrints. ПЗ EPrints надає наступні можли- вості [6]: − створення електронних архівів; − підтримка файлів різного формату; − індексація файлів PDF, ASCII, Microsoft Word, HTML; − перегляд формул в документах, створених на мові LaTex; − виконання повнотекстового та роз- ширеного пошуку (по метаданим); − гибке адміністрування прав дос- тупу; − гибка інтеграція з основним сайтом (з використанням основного стилю офор- мленния Веб-сайту організації). EPrints має докладну документацію за всіма аспектами проекту. Сайт демон- страції demoprints.EPrints.org представляє різноманітну інтерактивну допомогу. Крім того, документація використовує техноло- гію Wiki (http://www.wiki.org), де користу- вачі EPrints розміщають практичні поради, сценарії та іншу корисну інформацію. Приклади застосування та більш доклад- ний опис цієї системи можна знайти у [11– 15]. 3.1.3. Експорт метаданих у фор- мат OAI PMH. У розглядуваній системі реалізовано підхід підтримки багатьох на- борів метаданих, серед яких є і DC, що де- кларує протокол OAI-PMH як обов’язкового. На рис. 7 показані можли- вості системи Eprints 3.0 щодо експорту своїх метаданих. Eprints виставляє мета- дані у форматі DC своїх ресурсів, які зна- ходяться у відкритому доступі, тобто є за- гальнодоступними. Якщо OAI-сервіс за- требує інші формати метаданих, напри- клад, MODS, система надає і таку можли- вість. Інформаційні системи 105 Набір форматів метаданих в які мо- жливо експортувати дані з Eprints 3.0 (рис. 7): − BibTeX- бібліографічний формат метаданих; − OpenURL ContextObject – стандарт метаданих ANSI/NISO Z39.88-2004 [16] для контекстнозалежних срвісів, зазвичай повнотекстового пошуку; − OpenURL Dissertation – попередній стандарт, спеціалізований для ресурсів типу дисертації; − OpenURL Journal – попередній стандарт, спеціалізований для ресурсів типу журнал (рис.8); − Dublin Core − Дублінське ядро ста- ндарт метаданих ANSI/NISO Z39.85-2001 ( а також стандарт ISO 15836-2003) [5]; − DIDL - Digital Item Declaration Lan- guage, за допомогою якого в MPEG-21 описуються складні електронні об’єкти. Це описання вводить ряд абстрактних по- нять, які формують модель даних [17]; − EndNote – поширений у науковому співтоваристві бібліографічний формат посилань цитування (http://www.ecst.csuc- hico.edu/~jacobsd/bib/formats/endnote.html), використовується в однойменному комер- ційному продукті [18]; − HTML Citation – HTML-формат ци- тування для документів, що використову- ється для перегляду або пошуку докумен- тів у системі Eprints 3.0; − METS – cтандарт кодування та передачі метаданих [17]; − MODS – схема метаданих опису об’єкта [17]; − Reference Manager – формат метаданих для створення та управління архівами та бібліографічними описами, експорт у цей формат дозволить викорис- товувати метадані Eprints 3.0 у системі Reference Manager, що є системою того ж класу що і EndNote. Порівняльний аналіз цих систем можна знайти на http://thomsonresearchsoft.com/compare/; − Refer – формат файлу побудований у відповідності до спеціально відформато- ваного документу (troff) [19], він може ви- користовуватися практично будь-якою програмою і є доволі узагальненим фор- матом бібліографій (http://www.ecst.csu- chico.edu/~jacobsd/bib/formats/refer.html); − Simple Metadata (SimpleMDE) – цей набір метаданих є підмножиною повного можливого набору метаданих і викорис- товується, коли виконується швидка ано- тація [20]; − ASCII Citation – звичайний тексто- вий формат; − EP3 XML – експорт до XML. Як приклад одного з запропонова- них форматів представлення метаданих на рис. 8 наведено приклад запису у форматі OpenURL Journal. Рис. 7. Перелік форматів конвертації метаданих у Eprints 3.0 Інформаційні системи 106 3.2. ПЗ провайдерів сервісів. На сьогоднішній момент існує кілька проектів по створенню ПЗ для реалізації сервіс-провайдеру: − IWF Metadata Harvester (http://ftp.gwdg.de/pub/gnu2/iwfmdh/). Недоліком цього програмного забезпе- чення є використання Microsoft Windows Server 2003, Visual Studio, Visual C++ .NET і Microsoft SQL Server 2000, що усікає кросплатформні можливості ПЗ, хоча саме ПЗ поширюється по ліцензії GNU; − SilvaOAI Extension (http://www.inf- rae.com/products/oaipack). Це розширення до системи контент-менеджера Silva Content Management System, що дозволяє працювати з провайдерами даних за протоколом OAI-PMH. Це ПЗ працює тільки в системі Silva CMS; − Thumbgrabber 2.0 (http://prdown- loads.sourceforge.net/uilib-oai/). Це також ПЗ для реалізації функцій сервіс- провайдеру протоколу OAI-PMH. Основні системні вимоги це Windows 2000 або Windows XP, Microsoft Active COM (наприклад DSO OLE Document Properties Reader 2.0, CAPICOM v2.0 Type Library і ін.). До недоліків системи варто віднести відсутність кросплатформності, проблеми з локалізацією. Далі більш докладно зупинимось на найбільш поширеній на сьогодні, безкош- товній системі того ж класу, що й попере- дні – PKP Open Archives Harvester. 3.2.1. PKP Open Archives Harvester призначена для індексування метаданих за протоколом OAI-PMH. PKP Open Archives Harvester 2.0.0 (http://pkp.sfu.ca/?q=har- vester, далі для скорочення будемо називати Harvester), це програма яка повністю реалізована як веб-застосування і є кросплатформною, а її модульний підхід дозволяє нарощувати функціональність. Система має докладну документацію користувача і розроблювача. Дата останньої версії – січень 2007. Даний сервіс провайдер підтримує розробку системи відкритих журналів OJS, що розроблена в рамках проекту Public Knowledge Project [21] і призначена для керування відкритими журналами й публі- каціями із ціллю спрощення доступу нау- кового суспільства до їхнього змісту. Програмний продукт реалізований на PHP версії 4.2 і працює із сервером баз даних MySQL версії 3.23.23 і вище або PostgreSQL, у якості веб-сервера можуть виступати як Apache від 2.0.4, так і Microsoft IIS 6. Harvester версії 2 має наступні влас- тивості: − Можливість збирати OAI метадані в різних схемах (форматах), наприклад, некваліфікованого DC, розширеного DC системи PKP (Open Journal Systems/Open Conference Systems, OSJ/OCS, http://pkp.sfu.ca/ojs), MODS та MARCXML. Інші схеми підтримуються за допомогою плагинів. − Підтримка простого й розшире- Рис. 8. Приклад запису метаданих у форматі OpenURL Journal Інформаційні системи 107 ного пошуку, використовуючи поля пере- ходів (crosswalked fields) репозиторіїв, з яких збирається інформація. Можливо здійснювати розширений пошук для репо- зиторіїв з спільною схемою метаданих, коли використовуються поля з цієї схеми, або якщо схеми різні, але встановлені поля переходів. − Можливість виконання грануляр- ного (агрегованого) збору метаданих. − Легкість налаштування інтерфейсу користувача на основі шаблонів HTML і CSS. − Масштабованість. Установка Harvester здійснюється за допомогою веб-інтерфейсу. Після устано- вки система не вимагає ніяких додаткових настроювань і готова до роботи. 3.2.2. Додавання нового архіву в PKP Open Archives Harvester. Після ус- пішної установки Eprints і Harvester насту- пним кроком є додавання створеного ар- хіву, або провайдеру даних, в середовище сервіс провайдеру. Для цього у форму (рис. 9) слід внести: − назву провайдеру даних; − короткий опис; − URL провайдеру даних, за яким доступний інтерфейс користувача; − тип протоколу за яким збираються метадані (за замовчуванням ОАІ); − базовий URL для збору метаданих за протоколом ОАІ; − метод індексування, ListRecords чи ListIdentifiers (за замовчуванням ListRe- cords); − схему метаданих (за замовчуван- ням DC). При виборі методу індексування архіву сервіс провайдер надає два значення ListIdentifiers або ListRecords. Команда ListIdentifiers щодо протоколу OAI [3, 22] використовується для збору заголовків ідентифікаторів записів репозиторію. До- даткові аргументи дозволяють шукати іде- нтифікатори селективно − ґрунтуючись на їхній приналежності до певного набору в Рис. 9. Приклад форми для занесення даних про новий архів Інформаційні системи 108 репозиторії або на часових параметрах (модифікація, створення або видалення в зазначений період). На рис. 10 показано приклад XML-файлу відповіді на запит ListIdentifiers, до якого застосовані стилі оформлення. Команда ListRecords призначена для збору записів з архіву, що включають повні метадані. Використовуючи додаткові параметри setSpec, setName, setDescription можлива вибіркова індексація архіву, основуючись на приналежності запису до конкретного набору в архіві або на часових параметрах. Приклад XML-файлу відповіді на запит ListRecords, до якого застосовані стилі оформлення (рис. 11). Рис. 10. Результат на запит ListIdentifiers Рис. 11. Результат запиту ListRecords Інформаційні системи 109 3.2.3. Управління репозиторіями в PKP Open Archives Harvester. Користу- вач із правами адміністратора може в пов- ному обсязі керувати репозиторіями систе- ми. При індексуванні репозиторію можна здійснювати вибіркове індексування за такими характеристиками, як статус пуб- лікації (опублікована, в друці, представ- лена на розгляд, не публікована), предме- тний класифікатор, що прийнятий у да- ному архіві та ін. Потім здійснюється інде- ксування метаданих вибраного віддале- ного репозиторію. Можлива вказівка часо- вих умов, коли будуть вибиратися записи на віддалених репозиторіях. Окремої уваги заслуговує агрегатор сервіс-провайдеру. Він реалізований у ви- гляді переходів (crosswalks) пошукових полів метаданих у різних схемах. Пере- ходи використовуються для визначення подібних полів у різних схемах метаданих. Тобто якщо будуть встановлені поля-пере- ходи, то можливо виконати перехресний пошук в репозиторіях з різними схемами метаданих. Іноді для такої задачі викорис- товується термін відображення (mapping). На рис. 12 показано співставлення поля “Title” для різних схем DC, MARC, MODS. Як видно на рис.12, поле “Title” у схемі DC має один запис, водночас, як у MARC чи MODS до поля “Title” належить група записів. 3.2.4. Сервіс пошуку інформації (Reading Tools). Для кожного репозиторію у системі є можливість вказівки предмет- ного напрямку. У такий спосіб при перег- ляді конкретного запису провайдеру серві- сів можливо відправляти запити, які міс- тять метадані даного запису на сторонні пошукові машини, бібліотеки або слов- ники. Вибір набору пошукових сервісів залежить від предметного спрямування ре- позиторію. Наприклад, якщо зазначено, що репозиторій спрямований на комп'юте- рні науки, то запити ми можемо відпра- вити на Free On-Line Dictionary of Computing або на більш загальні слов- ники. Наприклад, нехай нас зацікавив за- пис "Enhancing OAI Metadata for Eprint Services: two proposals" рис. 13. При перег- Рис. 12. Відповідності поля “Назва” у різних схемах метаданих Інформаційні системи 110 ляді метаданих для уточнення значення поняття OАІ, подвійне клацання миші по слову "ОАІ" дасть нам сторінку з можливі- стю вибору інформаційного сервісу рис.14. Рис. 13. Перегляд детальних метаданих Рис. 14. Сторінка вибору інформаційного сервісу для одержання додаткової інформації про поняття "OAI" Інформаційні системи 111 Висновки Існує ряд підходів до вирішення проблеми інтеграції наукових репозито- ріїв, вони відрізняються ступінню центра- лізації ресурсів, метаінформації та пошу- кових сервісів. Підхід, який реалізований у системах, що підтримують протокол OAI- PMH, є одним із них. Він полягає у тому, що ресурси залишаються в організації, де створені наукові архіви (репозиторії, біб- ліотеки). Такі репозиторії можуть бути по- будовані, наприклад, за допомогою вільно розповсюдженого програмного забезпе- чення Eprints для створення відкритих ар- хівів. Вони виконують роль провайдерів даних. Для об’єднання таких репозитріїв за предметним чи галузевим принципом на центральний сервер, що виконує роль про- вайдеру сервісів, копіюється метаінформа- ція, з архівів які працюють в інтегрованій системі. Пошук здійснюється на центаль- ному сервері, а за повним текстом корис- тувач звертається до відповідного архіву. Провайдер сервісів можна реалізувати, на- приклад на основі програмного забезпе- чення PKP Open Archives Harvester. Серед переваг такого підходу можна виділити простоту, сучасність, забезпечення високої якості сервісів, можливості розвитку, мас- штабованість, можливість інтегрувати ре- сурси з багатьма іншими відкритими ресу- рсами. Протокол OAI-PMH побудовано на основі XML і для забезпечення сумісності потребує обов’язкової підтримки схеми опису метаданих Dublin Core. Водночас рекомендується додаткова підтримка ін- ших більш складних форматів метаданих. Якщо будь-яка група організацій домовля- ється про використання додаткового фор- мату, вони можуть легко розширити мож- ливості своєї взаємодії для вирішення будь-яких специфічних задач, але залиша- ючись при цьому в полі ресурсів, що дос- тупні через протокол OAI. Нами був створений демонстрацій- ний сервіс провайдер на основі PKP Open Archives Harvester який збирав метадані з створеного раніше архіву [12] й доступ- ний за адресою http://oai.zu.edu.ua:8080/. Таким чином було побудовано макетний приклад системи OAI-PMH обміну мета- даних, що дає можливість виконувати роз- поділений пошук, зручно нарощувати сис- тему та надавати додаткові сервіси обслу- говування користувачів. 1. Когаловский М.Р. Тенденции развития технологий управления информаци- онными ресурсами в электронных библиотеках // Тр. VIII Всероссийской научн. конф. Электронные библиотеки: перспективные методы и технологи. – Суздаль, Россия. – 2006. – С. 46 – 55. 2. Лагозе К., Ван де Зомпель Г.. Инициатива «Открытые архивы»: создание среды с высокой степенью интероперабельности. Электронные библиотеки. – 2001. – Т. 4. Вып. 6. http://www.elbib.ru/index.phtml?pa- ge=elbib/rus/journal/2001/part6/LS 3. The Open Archives Initiative Protocol for Metadata Harvesting Protocol Version 2.0 of 2002-06-14. http://www.openarchives.org /OAI/2.0/openarchivesprotocol.htm 4. Жижимов О.Л. Введение в Z39.50. – Новосибирск, 2003. – http://z3950.uig- gm.nsc.ru:210/introduction/Part_tit.htm 5. ANSI/NISO Z39.85-2001. The Dublin Core Metadata Element Set. – National Information Standards Organization. - 2001. http://www.techstreet.com/cgi- bin/pdf/free/335284/z39.85-2001.pdf 6. Резніченко В.А. Захарова О.В., Захарова Е.Г. Електронні бібліотеки: інформаційні ресурси та сервіси // Проблеми програмування. − 2005. − № 4 – С. 60–72. 7. А Guide to Institutional Repository Software, 3rd Edition, Open Society Institute, August 2004. 8. Резниченко В.А., Зарова О.В., Захарова Е.Г. Каталог програмних засобів створення електронних бібліотек. Ін- ститут програмних систем НАН України. – Київ, 2006. - 32 с. - бібл., 20 назв. Укр. - Деп. В ДНТБ України. 9. Резниченко В.А., Проскудина Г.Ю., Овдий О.М. Создание цифровой библиотеки коллекций периодических изданий на основе Greenstone // Электронные биб- лиотеки.-2005. - 8. - Вып. 6. http:// www.elbib.ru/index.phtml?page=elbib/rus/jo urnal/2005/part6. Інформаційні системи 112 10. Gutteridge C., Hitchcock S., Simpson P., Hey J. Report on the technical issues of using GNU EPrints software for the development of an institutional e-Print repository at the University of Southampton: TARDis deliverable D.2.3.2. 2003. http://tar- dis.EPrints.org/ 11. Gutteridge C. EPrints 2.3 Documentation. October12, 2005. http://www.EPrints.org/documentation/tech/ EPrints-docs.pdf 12. Новицкий А.В., Резниченко В.А., Про- скудина Г.Ю. Пример построения на- учных архивов с помощью EPrints. RCDL’2006, 17–19 Октября, Cуздаль, Россия, С. 154−161. 13. Новицкий А.В., Резниченко В.А., Про- скудина Г.Ю. Создание научных архивов с помощью системы EPrints. Электронные библиотеки. –2006. – 9. – Вып. 4. http://www.elbib.ru/index.phtml?page=elbib/ rus/journal/2006/part4/Novitski 14. EPrints Self-Archiving FAQ, http:// www.EPrints.org/openaccess/self-faq/ 15. Sale A. Eprint website for the University of Tasmania. August 2004. http://EPrints.co- mp.utas.edu.au:81/archive/00000011/ 16. ANSI/NISO Z39.88-2004. The OpenURL Framework forContext-Sensitive Services. – National Information Standards Organiza- tion. – 2005. http://www.niso.org/standards/ resources/Z39_88_2004.pdf 17. Understanding Metadata. National Infor- mation Standards Organization. – 2004. – http://www.niso.org 18. EndNote ® …Bibliographies Made Easy. Getting Started Guide. – Thomson. – 2006. - 86 p. http://scientific.thomson.com/media/ pdfs/ENXGettingStartedGuide.pdf 19. Joseph F. Ossanna, Brian W. Kernighan, Gunnar Ritter. Heirloom Documentation Tools. Nroff/Troff User’s Manual. – 2007. – http://heirloom.sourceforge.net/doctools/ troff.pdf 20. Simple Metadata Annotation Specification. - Version 6.2 – Linguistic Data Consortium February 3, 2004. – http://projects.ldc.upenn.edu/MDE/Guideline s/SimpleMDE_V6.2.pdf 21. EPrints Open Access. http://www.EPri- nts.org/openaccess/ 22. The Effect of Open Access on Citation Impact / T. Brody, H. Stamerjohanns, F. Vallieres, S. Harnad, Y. Gingras, C. Op- penheim http://www.ecs.soton.ac.uk/ ~har- nad/Temp/OATAnew.pdf Отримано 02.02.2007 Про авторів: Резніченко Валерій Анатолійович, кандидат фізико-математичних наук, старший науковий співробітник, Проскудіна Галина Юріївна, науковий співробітник, Новицкий Олександр Вадимович, аспірант. Місце роботи авторів: Інститут програмних систем НАН України, 03187, Київ-187, проспект Академіка Глушкова, 40. Тел. (044) 526 5139, 526 6033 Email: reznich@isofts.kiev.ua gupros@isofts.kiev.ua alex@zu.edu.ua
id nasplib_isofts_kiev_ua-123456789-291
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language Ukrainian
last_indexed 2025-12-07T19:00:22Z
publishDate 2007
publisher Інститут програмних систем НАН України
record_format dspace
spelling Резніченко, В.А.
Новицький, О.В.
Проскудіна, Г.Ю.
2008-02-22T18:49:30Z
2008-02-22T18:49:30Z
2007
Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp.
1727-4907
https://nasplib.isofts.kiev.ua/handle/123456789/291
Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації.
uk
Інститут програмних систем НАН України
Інформаційні системи
Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
Article
published earlier
spellingShingle Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
Резніченко, В.А.
Новицький, О.В.
Проскудіна, Г.Ю.
Інформаційні системи
title Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
title_full Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
title_fullStr Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
title_full_unstemmed Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
title_short Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
title_sort інтеграція наукових електронних бібліотек на основі протоколу оаі-рмн
topic Інформаційні системи
topic_facet Інформаційні системи
url https://nasplib.isofts.kiev.ua/handle/123456789/291
work_keys_str_mv AT rezníčenkova íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn
AT novicʹkiiov íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn
AT proskudínagû íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn