Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН
Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації....
Збережено в:
| Дата: | 2007 |
|---|---|
| Автори: | , , |
| Формат: | Стаття |
| Мова: | Українська |
| Опубліковано: |
Інститут програмних систем НАН України
2007
|
| Теми: | |
| Онлайн доступ: | https://nasplib.isofts.kiev.ua/handle/123456789/291 |
| Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
| Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Цитувати: | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraine| _version_ | 1860265563060699136 |
|---|---|
| author | Резніченко, В.А. Новицький, О.В. Проскудіна, Г.Ю. |
| author_facet | Резніченко, В.А. Новицький, О.В. Проскудіна, Г.Ю. |
| citation_txt | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp. |
| collection | DSpace DC |
| description | Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації.
|
| first_indexed | 2025-12-07T19:00:22Z |
| format | Article |
| fulltext |
Інформаційні системи
© В.А Резніченко, О.В. Новицкий, Г.Ю. Проскудіна, 2007
ISSN 1727-4907. Проблеми програмування. 2007. № 2 97
УДК 004.415
В.А Резніченко, О.В. Новицкий, Г.Ю. Проскудіна
ІНТЕГРАЦІЯ НАУКОВИХ ЕЛЕКТРОННИХ БІБЛІОТЕК
НА ОСНОВІ ПРОТОКОЛУ OAI-PMH
Розглядається підхід до інтеграції електронних бібліотек на основі технології Ініціативи відкритих
архівів, а саме за допомогою протоколу OAI-PMH. Описано досвід побудови інтегрованих бібліотечних
систем, а також інструменти для їх реалізації.
Вступ
Університети та дослідницькі інсти-
тути всього світу активно планують та
реалізують репозиторії (архіви, електронні
бібліотеки) своєї наукової продукції. Крім
того, веб-механізм, поширення швидкісних
мереж надають нові можливості для своє-
часного поширення наукової інформації. У
процесі роботи з електронними ресурсами
кожна організація стикається з цілим ря-
дом проблем, щодо одержання доступу до
інформаційних ресурсів інших організацій,
так і виробництва власної електронної ін-
формації та її поширення. При цьому все
більш актуальними стають питання інтег-
рації інформаційних ресурсів. За останні
роки створення систем інтеграції даних
стало важливим напрямком практичних
розробок інформаційних систем різного
призначення, в тому числі й електронних
бібліотек (ЕБ) або архівів.
Під інтеграцією даних в електрон-
них системах ми розуміємо забезпечення
єдиного уніфікованого інтерфейсу для до-
ступу користувачів до сукупності автоно-
мних джерел, які як правило, мають неод-
норідність щодо деяких їх властивостей
[1]. Своєрідний клас систем інтеграції
представляють системи, в яких за основу
прийнято технологію Ініціативи відкритих
архівів (Open Archive Initiative – OAI) [2].
У більшості відомих систем цієї категорії
їх інформаційні ресурси представляють
собою колекції текстових документів, пе-
редусім наукових публікацій, які автоно-
мно формуються у вузлах глобальної ме-
режі, підтримуються та адмініструються їх
власниками.
Згідно з технологією OAI, передба-
чається матеріалізована інтеграція у єди-
ному репозиторії не самих інформаційних
ресурсів, що цікавлять користувачів сис-
теми інтеграції, а представлених деяким
стандартним чином метаданих, що опису-
ють колекції інформаційних ресурсів дже-
рел даного архіву і окремі елементи цих
колекцій. Збір таких метаданих для репо-
зиторія здійснюється згідно зі спеціально
розробленим протоколом Open Archives
Initiative – Protocol for Metadata Harvesting
(ОАІ-PMH) [3], що забезпечує глобальні
послуги доступу та пошуку.
Робота містить більш докладний
опис такого підходу, а також двох програ-
мних системи для його реалізації, що ви-
конують роль провайдера даних (EPrints)
та сервіс провайдера (PKP Open Archives
Harvester).
Підхід продемонстровано на прик-
ладі реалізації електронної бібліотеки Жи-
томирського державного університету ім.
Івана Франка з використанням програм-
ного забезпечення (ПЗ) EPrints. Даний
проект був зареєстрований в якості про-
вайдера даних в OAI та був вибраний сер-
віс провайдером The University of Illinois
OAI-PMH Data Provider Registry
(http://gita.grainger.uiuc.edu/registry/searchfo
rm.asp), також подано заявку на реєстрацію
у OAIster (http://oaister.umdl.umich.edu).
Крім того був створений власний сервіс
провайдер для збору метаданих з цього ар-
хіву на основі ПЗ PKP Open Archives
Harvester.
Ця робота містить: огляд шляхів
вирішення задачі інтеграції (розділ 1); роз-
гляд ініціативи “Вікриті архиві” – як шлях
до створення середовища з високою сту-
Інформаційні системи
98
пінню інтероперабельності (розділ 2); опис
інструменьтальних засобів, що реалізують
запропонований підхід та приклади реалі-
зації (розділ 3) та висновки.
1. Шляхи вирішення задачі інтеграції
Існує кілька підходів до вирішення
проблеми створення електронних бібліотек
з інтегрованими інформаційними ресур-
сами. Серед них можна виділити наступні
два класи таких систем: з інтегрованим ве-
денням ресурсів та з розподіленим веден-
ням ресурсів.
Підхід з інтегрованим веденням ре-
сурсів передбачає збір, збереження й обро-
бку інформаційних ресурсів у єдиному ре-
позиторії. Такий підхід видається доціль-
ним у випадку, коли інформаційні ресурси
організаційно породжуються в одному мі-
сці і безпосередньо належать одному влас-
нику. Прикладом таких організаційних
структур можуть бути науково-дослідні
інститути НАН України. Будь-який інсти-
тут може створити інтегровану наукову
електронну бібліотеку (НЕБ), яка б містила
колекції її різноманітних наукових ресур-
сів (наукові статті, звіти, дисертації, уч-
бово-методичні посібники, матеріали кон-
ференцій) і вирішувала всі проблеми з ве-
денням таких ресурсів та наданням дос-
тупу до них. Однак, наприклад, для ство-
рення НЕБ НАН України, яка б припускала
централізацію всіх ресурсів, такий підхід
не зовсім підходить, оскільки він потребує
вирішення цілого ряду складних організа-
ційно-технічних задач і, насамперед, тих,
що спрямовані на збір вихідних інформа-
ційних ресурсів з інститутів. Крім того, він
потребує створення розвинутої структури
ведення такої НЕБ.
Підхід з розподіленим веденням ре-
сурсів припускає, що існує багато органі-
зацій, які здійснюють самостійне ство-
рення і ведення електронних бібліотек і
надають можливість доступу до цих ресур-
сів, включаючи також і організацію по-
шуку необхідних ресурсів. Крім того, існує
"надбудова" над ними, що дозволяє робити
пошук за цими ресурсами і, при наявності
відповідних умов, надавати доступ до са-
мих ресурсів. У цьому випадку інститути
НАН України створюють свої НЕБ, а інте-
грована служба, що діє на рівні НАН
України, забезпечує пошук і видачу відпо-
відних ресурсів.
На сьогодні існує два концептуаль-
них рішення цього підходу. Перше припу-
скає існування механізму перехресного
пошуку за багатьма архівами (НЕБ), коли
всі ресурси, бібліографічні описи та пошу-
ковий сервіс знаходиться в організації. Так
працюють системи з використанням про-
токолу Z39.50 [4]. При цьому пошук здійс-
нюється шляхом безпосереднього звер-
нення до всіх або до вибраних користува-
чем електронних бібліотек з наступним
зведенням одержаних результатів у єдиний
список. Друге – пропонує здійснювати збір
(харвестинг, harvesting) метаданих, що
описують інформаційні ресурси "на міс-
цях" для того, щоб можна було надати
централізований пошук в одному місці на
основі зібраних метаданих. За суттю це є
деякий аналог інтегрованого електронного
каталогу. Далі в роботі розглядається дру-
гий підхід.
2. Ініціатива відкритих архівів
Ініціатива відкритих архівів (OAI –
Open Archive Initiativee) виникла в зв'язку з
тим, що багато організацій, де створю-
ються електронні інформаційні ресурси (e-
prіnt-співтовариство), і, насамперед, нау-
кові ресурси, вирішили надати відкритий
доступ до них. У зв’язку з цим виникла
проблема надання інтегрованого доступу
до неоднорідних гетерогенних репозито-
ріїв. OAI націлена саме на те, щоб розроб-
ляти та сприяти розвитку й поширенню
середовища і відповідних стандартів, які б
дозволили об'єднати зусилля e-prіnt-спів-
товариства з інтегрованого доступу до їх-
нших ресурсів [2].
Суть підходу відкритих архівів, по-
лягає у тому, щоб дозволити здійснювати
веб-доступ до інформаційних ресурсів, ро-
зташованих у інтероперабельних репози-
торіях, за допомогою організації спільного
використання, публікації й архівування
метаданих таких ресурсів.
2.1. Протокол OAІ для збору ме-
таданих (OAІ-PMH). Протокол OAІ для
збору (хагвестінгу) даних (OAІ-PMH) ви-
значає механізм збору записів, що містять
Інформаційні системи
99
метадані з репозиторіїв. Протокол OAІ-
PMH надає провайдерам даних простий
спосіб такого представлення їх метаданих,
який робить їх доступними для провайде-
рів сервісів. При цьому для обміну метада-
них використовуються технології HTTP
(Hypertext Transport Protocol) і XML
(Extensіble Markup Language). Зібрані в та-
кий спосіб метадані можуть бути предста-
влені в будь-якому форматі, обраному спі-
втовариством організацій, що вирішили
об'єднати свої зусилля для створення інте-
грованої федеративної ЕБ. Проте в прото-
колі OAІ-PMH для забезпечення базового
рівня інтероперабельності специфіковано
формат Дублінського ядра [5]. Таким чи-
ном, метадані з різних неоднорідних дже-
рел поєднуються в єдиній базі даних для
того, щоб надати множину сервісів на ос-
нові таких агрегованих метаданих. Зв'язки
між такими об'єднаними метаданими і від-
повідними інформаційними ресурсами
(тобто з контентом інформаційних ресур-
сів) не визначаються в цьому протоколі,
таким чином він не надає можливість ро-
бити повнотекстовий пошук за інформа-
ційними ресурсами, а тільки за їхніми ме-
таданими. Він просто дозволяє об'єднати
інформаційні ресурси на рівні метаданих і
саме на цьому рівні виконувати пошук.
Хоча концепція протоколу OAІ-
PMH досить проста, однак побудова на її
основі відповідного набору сервісів, які б
задовольнили потреби користувачів, зали-
шається досить складною задачею. Ця за-
дача цілком лежить на "плечах" провай-
дера сервісів, своєрідної пошукової сис-
теми, що дозволяє користувачам знахо-
дити інформацію та досліджувати декілька
репозиторіїв одночасно.
2.2. Інформаційна модель OAI-
PMH. Виходячи з того факту, що джере-
лом виникнення протоколу була елект-
ронна публікація, модель даних OAI-PMH
у загальному випадку інтерпретується в
термінах бібліографічних даних, що опи-
сують академічний ресурс, хоча можливі й
інші інтерпретації [1]. OAI-PMH має про-
сту й гнучку інформаційну модель (рис. 1).
У верхній частині моделі – опису-
ваний ресурс (resource). Це може бути як
традиційний бібліотечний об'єкт (напри-
клад, книга, стаття), так і інші сутності
(наприклад, зображення, поняття). Далі іде
елемент (item) – складова репозиторія, за
допомогою якої поширюються метадані
про ресурс. Елемент концептуально являє
собою контейнер, що зберігає або динамі-
чно генерує метадані про окремий ресурс у
oai:biomedcentral.com:1471-2121-2-1
Pubmed
2006-01-29
Повний
текст
2006-01-29
MARC
метадані
2006-01-29
Посилання
2006-01-29
Дублінське
ядро
2006-01-29
Ресурс
Ідентифікатор
запису
Записи
http://www.biomedcentral .com/1471-2121/2/1
Рис. 1. Інформаційна модель OAI-PMH
Інформаційні системи
100
декількох форматах, кожен з яких може
бути зібраний у вигляді запису (record) че-
рез OAI-PMH. Кожний елемент має іден-
тифікатор запису (OAI identifier) або уні-
кальний ідентифікатор, який однозначно
визначає елемент у репозиторії, він вико-
ристовується у запитах OAI-PMH для до-
бування метаданих з елементів. Елемент
може містити метадані у декількох форма-
тах. Унікальний ідентифікатор вказує на
елемент, і всі можливі записи, що є в од-
ному елементі, разом використовують
один і той самий унікальний ідентифіка-
тор. Записи описують ресурс у довільному
форматі метаданих, що може бути вираже-
ний в XML Schema. В ідею протоколу
OAI-PMH закладена підтримка будь-яких
схем опису метаданих, але він потребує
обов’язкового включення в опис ресурсу
набору метаданих Дублінського ядра
(Dublin Core - DC). Також бажано вклю-
чати в опис і більш розширені набори ме-
таданих (наприклад, MARC).
Необхідно підкреслити, що іденти-
фікатор запису не є ідентифікатор докуме-
нта (об'єкта). Очевидно, що багато корис-
тувачів захочуть одержати доступ до пов-
ного тексту ресурсу, описаному записом
метаданих. Протокол рекомендує, щоб ар-
хіви використовували елемент запису ме-
таданих для зв'язування запису з ідентифі-
катором (URL, URN, DOI та ін.) асоційо-
ваного документа (об'єкта). Для цієї мети
обов'язковий формат DC надає елемент
«ідентифікатор» (DC.Identifier).
2.3. Провайдери даних і сервісів.
Концепція протоколу OAІ-PMH виділяє
дві ролі: провайдера даних та провайдера
сервісів [3].
Провайдер даних – це служба, що
підтримує створення і ведення одного чи
більше репозиторіїв (бази документів, ар-
хівів, електронних бібліотек), здійснює пу-
блікацію своїх ресурсів, а також надає мо-
жливість доступу до своїх метаданих для
їхнього використання в інших системах.
Як правило, провайдер даних надає віль-
ний доступ до своїх метаданих і, можливо
але не обов'язково, надає вільний доступ
до повних текстів своїх документів з НЕБ
чи з інших інформаційних ресурсів. Про-
вайдер даних може мати самостійний веб-
інтерфейс для організації пошуку, перег-
ляду і доступу до своїх ресурсів, а також
інші сервіси, що надаються кінцевим ко-
ристувачам. Провайдер даних самостійно
вирішує питання про відкритість своїх ін-
формаційних ресурсів і доступність до
них. Зокрема, провайдер даних може при-
йняти рішення про інтеграцію усіх або ча-
стини своїх інформаційних ресурсів на рі-
вні метаданих у провайдера сервісів і для
цього організує експорт відповідних мета-
даних у форматі протоколу OAІ-PMH.
Провайдер сервісів здійснює збір і
збереження метаданих, наданих провайде-
рами даних, для надання кінцевим корис-
тувачам різних сервісів. До таких сервісів,
зокрема, відноситься збереження й індек-
сування метаданих з метою організації
пошуку на їхній підставі необхідних доку-
ментів. Зазначимо, що при організації по-
шуку необхідної інформації не відбува-
ється звертання до провайдерів даних,
тому що він здійснюється на основі збере-
жених метаданих у провайдера сервісів.
Провайдер сервісів може збирати не всі
метадані, надані провайдером даних, а
тільки ті, котрі доцільно збирати на основі
тих чи інших критеріїв. Схема такої взає-
модії показана на рис. 2.
Зазначимо, що в цій схемі той
самий провайдер може грати обидві ролі,
тобто забезпечувати як створення і
ведення репозиторіїв інформаційних
Рис. 2. Загальна схема взаємодії провайдера даних і провайдера сервісів
Інформаційні системи
101
ресурсів, так і здійснювати збір метаданих
від інших провайдерів та надавати на їхній
основі необхідні сервіси. Запропоновані
рішення є гнучкими для їхнього
подальшого розвитку. Так, наприклад, на
рис. 3 показано варіант розвитку цього
підходу з використанням багатьох про-
вайдерів сервісів. Таке рішення дозволяє,
наприклад, створювати проблемно-орієн-
товані чи функціонально-орієнтовані
провайдери сервісів, а також, при
необхідності, знижувати навантаження на
провайдер сервісів у випадку істотного
збільшення навантаження на нього.
На рис. 4 показано розширення з
включенням агрегатора. Агрегатор
виконує обидві функції – провайдера
даних і сервісів. Як провайдер сервісів він
збирає метадані від інших провайдерів
даних і потім, виконуючи функцію
провайдера даних, робить зібрані метадані
доступними для збору іншими провай-
дерами сервісів. Завдання агрегатора
полягає в обробці зібраних метаданих,
наприклад, їх нормалізацію або
перетворення в інший формат метаданих.
Нарешті, можна використовувати
множину провайдерів сервісів, агрегаторів
з одночасним комбінуванням з пошуком,
як це показано на рис. 5.
2.4 Архітектурні рішення. З
огляду на вищеописану концепцію OAІ
PMH, пропонується наступна архітектура
розподіленої НЕБ (рис. 6). Організації, ви-
ходячи зі своїх можливостей і потреб,
створюють, збирають і підтримують в еле-
ктронному вигляді свої власні інформа-
ційні ресурси у вигляді електронних ко-
лекцій або ЕБ.
У загальному випадку склад інфор-
маційних ресурсів може бути довільним.
Перелік пропонованих цими ЕБ сервісів
також визначається в організаціях. Приро-
дно, що мінімальними сервісами є перег-
ляд і пошук необхідної інформації та на-
Рис. 3. Архітектура з багатьма провайдерами сервісів
Рис. 4. Архітектура з агрегаторами
Інформаційні системи
102
дання результатів пошуку кінцевим кори-
стувачам. Крім того, можуть включатися
інші сервіси, які є характерними для ЕБ
[6]. Організації самостійно приймають рі-
шення щодо функціональних можливостей
створюваних ними ЕБ, включаючи і меха-
нізми обмеження прав доступу до тих чи
інших ресурсів.
Виходячи з розроблених концепцій
функціонування НЕБ, організації вибира-
ють програмне забезпечення, здатне задо-
вольнити необхідні (передбачувані) пот-
реби. У розглянутій архітектурі не накла-
дається ніяких принципових обмежень
щодо обраного програмного забезпечення
за винятком одного – воно повинно підт-
римувати механізм експорту метаданих у
форматі OAІ-PMH. У даний час існує ба-
гато інструментальних засобів створення
ЕБ, що підтримують протокол OAІ PMH,
включаючи і безкоштовні програмні про-
дукти. Такі НЕБ виконують у розглянутій
архітектурі функції провайдерів даних.
Для інтеграції ЕБ створюється
служба, яка буде виконувати функції
провайдера сервісів. В її обов'язки
входить:
Рис. 5. Сполучення багатьох провайдерів сервісів, харвестингу і пошуку
Рис. 6. Архітектура інтеграції НЕБ
Інформаційні системи
103
− збір метаданих від провайдерів да-
них, що прийняли рішення про надання
своїх інформаційних ресурсів в інтегро-
вану пошукову службу провайдера серві-
сів;
− індексування метаданих з метою
наступного надання сервісу з організації
пошуку інформаційних ресурсів;
− надання сервісів з перегляду і по-
шуку інформаційних ресурсів провайдерів
даних з можливим наданням посилань до
повних текстів документів та інших серві-
сів.
Суттєвою перевагою такої архітек-
тури є те, що пошук стає цілком незалеж-
ним від організації репозиторію докумен-
тів. Пошук в одній великій базі даних або в
тисячі мілких – для користувача є одним,
оскільки цим займаються харвестери, які
здійснюють пошук у відомих їм базах да-
них.
Архітектура в цьому плані нічого
революційно нового не має. Термін "мета-
пошуковик" та запит по декількох базах
даних існує вже багато років. Новим тут є
те, що використовуємий протокол
организації OAI є відкритий, він не засто-
совується десь тільки в одній організації і
служить для взаємодії різних баз. Одна з
суттєвих місій OAI полягає у тому, щоб
поширювати засоби, що дозволяють уста-
новам та колективам, навіть самим ма-
леньким, розміщувати в мережі документи,
які можна знайти за запитами стандарту
OAI-PMH.
2.5. Проблеми інтеграції. Крім за-
стосування єдиних протоколів доступу,
проблеми інтероперабельності інформа-
ційних бібліотечних систем включають
формати метаданих та їх розширення (на-
приклад, класифікатори предметних обла-
стей), моделі документів, впорядковане
пойменування та інш. Зупинимось на де-
яких з них більш докладно.
2.5.1. Уніфікація схем метаданих.
Запропонований підхід передбачає вирі-
шення проблеми уніфікації схем метада-
них, з якими працюють провайдери даних.
Така уніфікація істотно спрощує процес
збору й індексації метаданих. В якості та-
кої схеми пропонується набір метаданих
Дублінського ядра (DC). У зв'язку з цим
доцільно розробити єдину схему опису ме-
таданих на основі DC для представлення
описової інформації щодо всіх інформа-
ційних ресурсів.
Проте, у загальному випадку підхід
допускає існування різних схем метаданих.
А на провайдер сервісів лягає відповідаль-
ність за вибір однієї зі схем як стандартної
й ототожнення (відображення) інших схем
з обраною. У такий спосіб буде надаватися
гнучкість у підтримці різних способів
опису інформаційних ресурсів. Втім в да-
ний час відомі провайдери даних теж до-
сить вдало вирішують ту ж проблему. Се-
ред яких провідне місце посідає система
програмного забезпечення для побудови
провайдерів даних Eprints 3.0.
2.5.2. Проблема надання сервісів.
Запропонований підхід вирішує проблему
надання сервісу інтегрованого пошуку не-
обхідних ресурсів. Проте, при відповід-
ному розширенні функціональних можли-
востей провайдера сервісів можна охоплю-
вати також й інші сервісні функції.
2.5.3. Проблема валідності та за-
хисту інтелектуальної власності. Вико-
ристання OAI забезпечить належний рі-
вень правдивості та відповідності інфор-
мації, оскільки будуть існувати гарантії що
подана інформація є остаточною та дані
дослідження є офіційним оприлюдненням.
Водночас не буде порушуватися право ін-
телектуальної власності, оскільки інфор-
мація що знаходиться на дата провайдері
уже зазвичай пройшла перевірку на цю но-
рму.
3. Інструментарій реалізації
розглянутого підходу
3.1. Програмне забезпечення про-
вайдерів даних. Як було вищезазначено
провайдер даних підтримує створення і
ведення одного чи більше репозиторіїв,
здійснює публікацію своїх ресурсів, а та-
кож надає можливість доступу до своїх
метаданих для їхнього використання в ін-
ших системах. Набір платформ програм-
ного забезпечення для побудови таких ре-
позиторіїв постійно змінюється. Найбільш
відомі та поширені на сьогодні:
Інформаційні системи
104
− Archimede (http://www1.bibl.ula-
val.ca/archimede/index.en.html);
− CDSware (http://cdsware.cern.ch);
− DSpace (http://www.dspace.org);
− Eprints (http://software.eprints.org);
− Fedora (http://www.fedora.info/
index.shtml);
− Greenstone (http://www.greensto-
ne.org/cgi-bin/library).
Цей список не є вичерпним. Існує
цілий ряд комерційних продуктів. Добрий
огляд та аналіз цих платформ можна
знайти в [7–8]. Всі перераховані системи
мають набір спільних характеристик: це –
відкрите програмне забезпечення, що по-
ширюється під ліцензією GNU; репозитарії
які побудовані на цих платформах OAI-
сумісні, тобто підтримують протокол
збору метаданих OAI-PMH (Greenstone
поки що підтримує цей протокол лише ча-
стково [9]); системи підтримують повноте-
кстовий пошук для ресурсів визначених
форматів; а також обов’язково використо-
вують стандартний набір метаданих DC
для опису своїх ресурсів. Як приклад сти-
сло зупинимось на найбільш поширеній
системі EPrints.
3.1.1. Програмне забезпечення
EPrints, загальний опис. EPrints − вільно
розповсюджуване програмне забезпечення
під ліцензією GNU, що використовується
для формування й керування Відкритими
Архівами. На сьогодні у світі створено з
використанням EPrints більше 200 архівів з
більш ніж 170 000 записами. ПЗ EPrints
може використовуватися для створення
архівів робіт наукових досліджень, зобра-
жень, даних і інших видів цифрової інфо-
рмації.
ПЗ EPrints розроблено в Школі еле-
ктроніки й інформатики Університету Са-
утгемптона (Великобританія). Зі створен-
ням системи EPrints тісно зв'язаний проект
TARDis (Targeting Academic Research for
Deposit and Disclosure) [10], основним за-
вданням якого було дослідження всіх сто-
рін створення електронного архіву з метою
розробки типового архіву для академічних
установ.
Основними системними вимогами
для EPrints версії 3.0 є: ОС Unix, мова про-
грамування Perl 5.8.x, сервер баз даних
MySQL 4.1.x, веб-сервер Apache 2.х. Апа-
ратні вимоги – сервер з обсягом оператив-
ної пам'яті 1 Гб і процесором з тактовою
частотою 1 Ггц і більше та відповідним
дисковим простором для зберігання пов-
нотекстових документів, при великому на-
вантаженні на сервер бажано використову-
вати жорсткий диск з підтримкою SCSI
(Small Computer Systems Interface).
3.1.2. Функції та можливості
EPrints. ПЗ EPrints надає наступні можли-
вості [6]:
− створення електронних архівів;
− підтримка файлів різного формату;
− індексація файлів PDF, ASCII,
Microsoft Word, HTML;
− перегляд формул в документах,
створених на мові LaTex;
− виконання повнотекстового та роз-
ширеного пошуку (по метаданим);
− гибке адміністрування прав дос-
тупу;
− гибка інтеграція з основним сайтом
(з використанням основного стилю офор-
мленния Веб-сайту організації).
EPrints має докладну документацію
за всіма аспектами проекту. Сайт демон-
страції demoprints.EPrints.org представляє
різноманітну інтерактивну допомогу. Крім
того, документація використовує техноло-
гію Wiki (http://www.wiki.org), де користу-
вачі EPrints розміщають практичні поради,
сценарії та іншу корисну інформацію.
Приклади застосування та більш доклад-
ний опис цієї системи можна знайти у [11–
15].
3.1.3. Експорт метаданих у фор-
мат OAI PMH. У розглядуваній системі
реалізовано підхід підтримки багатьох на-
борів метаданих, серед яких є і DC, що де-
кларує протокол OAI-PMH як
обов’язкового. На рис. 7 показані можли-
вості системи Eprints 3.0 щодо експорту
своїх метаданих. Eprints виставляє мета-
дані у форматі DC своїх ресурсів, які зна-
ходяться у відкритому доступі, тобто є за-
гальнодоступними. Якщо OAI-сервіс за-
требує інші формати метаданих, напри-
клад, MODS, система надає і таку можли-
вість.
Інформаційні системи
105
Набір форматів метаданих в які мо-
жливо експортувати дані з Eprints 3.0
(рис. 7):
− BibTeX- бібліографічний формат
метаданих;
− OpenURL ContextObject – стандарт
метаданих ANSI/NISO Z39.88-2004 [16]
для контекстнозалежних срвісів, зазвичай
повнотекстового пошуку;
− OpenURL Dissertation – попередній
стандарт, спеціалізований для ресурсів
типу дисертації;
− OpenURL Journal – попередній
стандарт, спеціалізований для ресурсів
типу журнал (рис.8);
− Dublin Core − Дублінське ядро ста-
ндарт метаданих ANSI/NISO Z39.85-2001
( а також стандарт ISO 15836-2003) [5];
− DIDL - Digital Item Declaration Lan-
guage, за допомогою якого в MPEG-21
описуються складні електронні об’єкти.
Це описання вводить ряд абстрактних по-
нять, які формують модель даних [17];
− EndNote – поширений у науковому
співтоваристві бібліографічний формат
посилань цитування (http://www.ecst.csuc-
hico.edu/~jacobsd/bib/formats/endnote.html),
використовується в однойменному комер-
ційному продукті [18];
− HTML Citation – HTML-формат ци-
тування для документів, що використову-
ється для перегляду або пошуку докумен-
тів у системі Eprints 3.0;
− METS – cтандарт кодування та
передачі метаданих [17];
− MODS – схема метаданих опису
об’єкта [17];
− Reference Manager – формат
метаданих для створення та управління
архівами та бібліографічними описами,
експорт у цей формат дозволить викорис-
товувати метадані Eprints 3.0 у системі
Reference Manager, що є системою того ж
класу що і EndNote. Порівняльний аналіз
цих систем можна знайти на
http://thomsonresearchsoft.com/compare/;
− Refer – формат файлу побудований
у відповідності до спеціально відформато-
ваного документу (troff) [19], він може ви-
користовуватися практично будь-якою
програмою і є доволі узагальненим фор-
матом бібліографій (http://www.ecst.csu-
chico.edu/~jacobsd/bib/formats/refer.html);
− Simple Metadata (SimpleMDE) – цей
набір метаданих є підмножиною повного
можливого набору метаданих і викорис-
товується, коли виконується швидка ано-
тація [20];
− ASCII Citation – звичайний тексто-
вий формат;
− EP3 XML – експорт до XML.
Як приклад одного з запропонова-
них форматів представлення метаданих на
рис. 8 наведено приклад запису у форматі
OpenURL Journal.
Рис. 7. Перелік форматів конвертації метаданих у Eprints 3.0
Інформаційні системи
106
3.2. ПЗ провайдерів сервісів. На
сьогоднішній момент існує кілька
проектів по створенню ПЗ для реалізації
сервіс-провайдеру:
− IWF Metadata Harvester
(http://ftp.gwdg.de/pub/gnu2/iwfmdh/).
Недоліком цього програмного забезпе-
чення є використання Microsoft Windows
Server 2003, Visual Studio, Visual C++
.NET і Microsoft SQL Server 2000, що
усікає кросплатформні можливості ПЗ,
хоча саме ПЗ поширюється по ліцензії
GNU;
− SilvaOAI Extension (http://www.inf-
rae.com/products/oaipack). Це розширення
до системи контент-менеджера Silva
Content Management System, що дозволяє
працювати з провайдерами даних за
протоколом OAI-PMH. Це ПЗ працює
тільки в системі Silva CMS;
− Thumbgrabber 2.0 (http://prdown-
loads.sourceforge.net/uilib-oai/). Це також
ПЗ для реалізації функцій сервіс-
провайдеру протоколу OAI-PMH. Основні
системні вимоги це Windows 2000 або
Windows XP, Microsoft Active COM
(наприклад DSO OLE Document Properties
Reader 2.0, CAPICOM v2.0 Type Library і
ін.). До недоліків системи варто віднести
відсутність кросплатформності, проблеми
з локалізацією.
Далі більш докладно зупинимось на
найбільш поширеній на сьогодні, безкош-
товній системі того ж класу, що й попере-
дні – PKP Open Archives Harvester.
3.2.1. PKP Open Archives Harvester
призначена для індексування метаданих за
протоколом OAI-PMH. PKP Open Archives
Harvester 2.0.0 (http://pkp.sfu.ca/?q=har-
vester, далі для скорочення будемо
називати Harvester), це програма яка
повністю реалізована як веб-застосування і
є кросплатформною, а її модульний підхід
дозволяє нарощувати функціональність.
Система має докладну документацію
користувача і розроблювача. Дата
останньої версії – січень 2007.
Даний сервіс провайдер підтримує
розробку системи відкритих журналів OJS,
що розроблена в рамках проекту Public
Knowledge Project [21] і призначена для
керування відкритими журналами й публі-
каціями із ціллю спрощення доступу нау-
кового суспільства до їхнього змісту.
Програмний продукт реалізований
на PHP версії 4.2 і працює із сервером баз
даних MySQL версії 3.23.23 і вище або
PostgreSQL, у якості веб-сервера можуть
виступати як Apache від 2.0.4, так і
Microsoft IIS 6.
Harvester версії 2 має наступні влас-
тивості:
− Можливість збирати OAI метадані
в різних схемах (форматах), наприклад,
некваліфікованого DC, розширеного DC
системи PKP (Open Journal Systems/Open
Conference Systems, OSJ/OCS,
http://pkp.sfu.ca/ojs), MODS та
MARCXML. Інші схеми підтримуються за
допомогою плагинів.
− Підтримка простого й розшире-
Рис. 8. Приклад запису метаданих у форматі OpenURL Journal
Інформаційні системи
107
ного пошуку, використовуючи поля пере-
ходів (crosswalked fields) репозиторіїв, з
яких збирається інформація. Можливо
здійснювати розширений пошук для репо-
зиторіїв з спільною схемою метаданих,
коли використовуються поля з цієї схеми,
або якщо схеми різні, але встановлені
поля переходів.
− Можливість виконання грануляр-
ного (агрегованого) збору метаданих.
− Легкість налаштування інтерфейсу
користувача на основі шаблонів HTML і
CSS.
− Масштабованість.
Установка Harvester здійснюється за
допомогою веб-інтерфейсу. Після устано-
вки система не вимагає ніяких додаткових
настроювань і готова до роботи.
3.2.2. Додавання нового архіву в
PKP Open Archives Harvester. Після ус-
пішної установки Eprints і Harvester насту-
пним кроком є додавання створеного ар-
хіву, або провайдеру даних, в середовище
сервіс провайдеру. Для цього у форму
(рис. 9) слід внести:
− назву провайдеру даних;
− короткий опис;
− URL провайдеру даних, за яким
доступний інтерфейс користувача;
− тип протоколу за яким збираються
метадані (за замовчуванням ОАІ);
− базовий URL для збору метаданих
за протоколом ОАІ;
− метод індексування, ListRecords чи
ListIdentifiers (за замовчуванням ListRe-
cords);
− схему метаданих (за замовчуван-
ням DC).
При виборі методу індексування
архіву сервіс провайдер надає два значення
ListIdentifiers або ListRecords. Команда
ListIdentifiers щодо протоколу OAI [3, 22]
використовується для збору заголовків
ідентифікаторів записів репозиторію. До-
даткові аргументи дозволяють шукати іде-
нтифікатори селективно − ґрунтуючись на
їхній приналежності до певного набору в
Рис. 9. Приклад форми для занесення даних про новий архів
Інформаційні системи
108
репозиторії або на часових параметрах
(модифікація, створення або видалення в
зазначений період). На рис. 10 показано
приклад XML-файлу відповіді на запит
ListIdentifiers, до якого застосовані стилі
оформлення.
Команда ListRecords призначена
для збору записів з архіву, що включають
повні метадані. Використовуючи додаткові
параметри setSpec, setName, setDescription
можлива вибіркова індексація архіву,
основуючись на приналежності запису до
конкретного набору в архіві або на часових
параметрах. Приклад XML-файлу відповіді
на запит ListRecords, до якого застосовані
стилі оформлення (рис. 11).
Рис. 10. Результат на запит ListIdentifiers
Рис. 11. Результат запиту ListRecords
Інформаційні системи
109
3.2.3. Управління репозиторіями
в PKP Open Archives Harvester. Користу-
вач із правами адміністратора може в пов-
ному обсязі керувати репозиторіями систе-
ми. При індексуванні репозиторію можна
здійснювати вибіркове індексування за
такими характеристиками, як статус пуб-
лікації (опублікована, в друці, представ-
лена на розгляд, не публікована), предме-
тний класифікатор, що прийнятий у да-
ному архіві та ін. Потім здійснюється інде-
ксування метаданих вибраного віддале-
ного репозиторію. Можлива вказівка часо-
вих умов, коли будуть вибиратися записи
на віддалених репозиторіях.
Окремої уваги заслуговує агрегатор
сервіс-провайдеру. Він реалізований у ви-
гляді переходів (crosswalks) пошукових
полів метаданих у різних схемах. Пере-
ходи використовуються для визначення
подібних полів у різних схемах метаданих.
Тобто якщо будуть встановлені поля-пере-
ходи, то можливо виконати перехресний
пошук в репозиторіях з різними схемами
метаданих. Іноді для такої задачі викорис-
товується термін відображення (mapping).
На рис. 12 показано співставлення поля
“Title” для різних схем DC, MARC,
MODS. Як видно на рис.12, поле “Title” у
схемі DC має один запис, водночас, як у
MARC чи MODS до поля “Title” належить
група записів.
3.2.4. Сервіс пошуку інформації
(Reading Tools). Для кожного репозиторію
у системі є можливість вказівки предмет-
ного напрямку. У такий спосіб при перег-
ляді конкретного запису провайдеру серві-
сів можливо відправляти запити, які міс-
тять метадані даного запису на сторонні
пошукові машини, бібліотеки або слов-
ники. Вибір набору пошукових сервісів
залежить від предметного спрямування ре-
позиторію. Наприклад, якщо зазначено,
що репозиторій спрямований на комп'юте-
рні науки, то запити ми можемо відпра-
вити на Free On-Line Dictionary of
Computing або на більш загальні слов-
ники. Наприклад, нехай нас зацікавив за-
пис "Enhancing OAI Metadata for Eprint
Services: two proposals" рис. 13. При перег-
Рис. 12. Відповідності поля “Назва” у різних схемах метаданих
Інформаційні системи
110
ляді метаданих для уточнення значення
поняття OАІ, подвійне клацання миші по
слову "ОАІ" дасть нам сторінку з можливі-
стю вибору інформаційного сервісу рис.14.
Рис. 13. Перегляд детальних метаданих
Рис. 14. Сторінка вибору інформаційного сервісу для одержання додаткової інформації про
поняття "OAI"
Інформаційні системи
111
Висновки
Існує ряд підходів до вирішення
проблеми інтеграції наукових репозито-
ріїв, вони відрізняються ступінню центра-
лізації ресурсів, метаінформації та пошу-
кових сервісів. Підхід, який реалізований у
системах, що підтримують протокол OAI-
PMH, є одним із них. Він полягає у тому,
що ресурси залишаються в організації, де
створені наукові архіви (репозиторії, біб-
ліотеки). Такі репозиторії можуть бути по-
будовані, наприклад, за допомогою вільно
розповсюдженого програмного забезпе-
чення Eprints для створення відкритих ар-
хівів. Вони виконують роль провайдерів
даних. Для об’єднання таких репозитріїв за
предметним чи галузевим принципом на
центральний сервер, що виконує роль про-
вайдеру сервісів, копіюється метаінформа-
ція, з архівів які працюють в інтегрованій
системі. Пошук здійснюється на центаль-
ному сервері, а за повним текстом корис-
тувач звертається до відповідного архіву.
Провайдер сервісів можна реалізувати, на-
приклад на основі програмного забезпе-
чення PKP Open Archives Harvester. Серед
переваг такого підходу можна виділити
простоту, сучасність, забезпечення високої
якості сервісів, можливості розвитку, мас-
штабованість, можливість інтегрувати ре-
сурси з багатьма іншими відкритими ресу-
рсами.
Протокол OAI-PMH побудовано на
основі XML і для забезпечення сумісності
потребує обов’язкової підтримки схеми
опису метаданих Dublin Core. Водночас
рекомендується додаткова підтримка ін-
ших більш складних форматів метаданих.
Якщо будь-яка група організацій домовля-
ється про використання додаткового фор-
мату, вони можуть легко розширити мож-
ливості своєї взаємодії для вирішення
будь-яких специфічних задач, але залиша-
ючись при цьому в полі ресурсів, що дос-
тупні через протокол OAI.
Нами був створений демонстрацій-
ний сервіс провайдер на основі PKP Open
Archives Harvester який збирав метадані з
створеного раніше архіву [12] й доступ-
ний за адресою http://oai.zu.edu.ua:8080/.
Таким чином було побудовано макетний
приклад системи OAI-PMH обміну мета-
даних, що дає можливість виконувати роз-
поділений пошук, зручно нарощувати сис-
тему та надавати додаткові сервіси обслу-
говування користувачів.
1. Когаловский М.Р. Тенденции развития
технологий управления информаци-
онными ресурсами в электронных
библиотеках // Тр. VIII Всероссийской
научн. конф. Электронные библиотеки:
перспективные методы и технологи. –
Суздаль, Россия. – 2006. – С. 46 – 55.
2. Лагозе К., Ван де Зомпель Г.. Инициатива
«Открытые архивы»: создание среды с
высокой степенью интероперабельности.
Электронные библиотеки. – 2001. – Т. 4.
Вып. 6. http://www.elbib.ru/index.phtml?pa-
ge=elbib/rus/journal/2001/part6/LS
3. The Open Archives Initiative Protocol for
Metadata Harvesting Protocol Version 2.0 of
2002-06-14. http://www.openarchives.org
/OAI/2.0/openarchivesprotocol.htm
4. Жижимов О.Л. Введение в Z39.50. –
Новосибирск, 2003. – http://z3950.uig-
gm.nsc.ru:210/introduction/Part_tit.htm
5. ANSI/NISO Z39.85-2001. The Dublin Core
Metadata Element Set. – National
Information Standards Organization. - 2001.
http://www.techstreet.com/cgi-
bin/pdf/free/335284/z39.85-2001.pdf
6. Резніченко В.А. Захарова О.В., Захарова
Е.Г. Електронні бібліотеки: інформаційні
ресурси та сервіси // Проблеми
програмування. − 2005. − № 4 – С. 60–72.
7. А Guide to Institutional Repository Software,
3rd Edition, Open Society Institute, August
2004.
8. Резниченко В.А., Зарова О.В., Захарова
Е.Г. Каталог програмних засобів
створення електронних бібліотек. Ін-
ститут програмних систем НАН України.
– Київ, 2006. - 32 с. - бібл., 20 назв. Укр. -
Деп. В ДНТБ України.
9. Резниченко В.А., Проскудина Г.Ю., Овдий
О.М. Создание цифровой библиотеки
коллекций периодических изданий на
основе Greenstone // Электронные биб-
лиотеки.-2005. - 8. - Вып. 6. http://
www.elbib.ru/index.phtml?page=elbib/rus/jo
urnal/2005/part6.
Інформаційні системи
112
10. Gutteridge C., Hitchcock S., Simpson P., Hey
J. Report on the technical issues of using
GNU EPrints software for the development
of an institutional e-Print repository at the
University of Southampton: TARDis
deliverable D.2.3.2. 2003. http://tar-
dis.EPrints.org/
11. Gutteridge C. EPrints 2.3 Documentation.
October12, 2005.
http://www.EPrints.org/documentation/tech/
EPrints-docs.pdf
12. Новицкий А.В., Резниченко В.А., Про-
скудина Г.Ю. Пример построения на-
учных архивов с помощью EPrints.
RCDL’2006, 17–19 Октября, Cуздаль,
Россия, С. 154−161.
13. Новицкий А.В., Резниченко В.А., Про-
скудина Г.Ю. Создание научных архивов
с помощью системы EPrints. Электронные
библиотеки. –2006. – 9. – Вып. 4.
http://www.elbib.ru/index.phtml?page=elbib/
rus/journal/2006/part4/Novitski
14. EPrints Self-Archiving FAQ, http://
www.EPrints.org/openaccess/self-faq/
15. Sale A. Eprint website for the University of
Tasmania. August 2004. http://EPrints.co-
mp.utas.edu.au:81/archive/00000011/
16. ANSI/NISO Z39.88-2004. The OpenURL
Framework forContext-Sensitive Services. –
National Information Standards Organiza-
tion. – 2005. http://www.niso.org/standards/
resources/Z39_88_2004.pdf
17. Understanding Metadata. National Infor-
mation Standards Organization. – 2004. –
http://www.niso.org
18. EndNote ® …Bibliographies Made Easy.
Getting Started Guide. – Thomson. – 2006. -
86 p. http://scientific.thomson.com/media/
pdfs/ENXGettingStartedGuide.pdf
19. Joseph F. Ossanna, Brian W. Kernighan,
Gunnar Ritter. Heirloom Documentation
Tools. Nroff/Troff User’s Manual. – 2007. –
http://heirloom.sourceforge.net/doctools/
troff.pdf
20. Simple Metadata Annotation Specification. -
Version 6.2 – Linguistic Data Consortium
February 3, 2004. –
http://projects.ldc.upenn.edu/MDE/Guideline
s/SimpleMDE_V6.2.pdf
21. EPrints Open Access. http://www.EPri-
nts.org/openaccess/
22. The Effect of Open Access on Citation
Impact / T. Brody, H. Stamerjohanns, F.
Vallieres, S. Harnad, Y. Gingras, C. Op-
penheim http://www.ecs.soton.ac.uk/ ~har-
nad/Temp/OATAnew.pdf
Отримано 02.02.2007
Про авторів:
Резніченко Валерій Анатолійович,
кандидат фізико-математичних наук,
старший науковий співробітник,
Проскудіна Галина Юріївна,
науковий співробітник,
Новицкий Олександр Вадимович,
аспірант.
Місце роботи авторів:
Інститут програмних систем НАН України,
03187, Київ-187, проспект Академіка
Глушкова, 40.
Тел. (044) 526 5139, 526 6033
Email: reznich@isofts.kiev.ua
gupros@isofts.kiev.ua
alex@zu.edu.ua
|
| id | nasplib_isofts_kiev_ua-123456789-291 |
| institution | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| issn | 1727-4907 |
| language | Ukrainian |
| last_indexed | 2025-12-07T19:00:22Z |
| publishDate | 2007 |
| publisher | Інститут програмних систем НАН України |
| record_format | dspace |
| spelling | Резніченко, В.А. Новицький, О.В. Проскудіна, Г.Ю. 2008-02-22T18:49:30Z 2008-02-22T18:49:30Z 2007 Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН / В.А. Резніченко, О.В. Новицкий, Г.Ю. Проскудіна // Пробл. програмув. — 2007. — N 2. — C. 97-112. — Бібліогр.: 22 назв. — укp. 1727-4907 https://nasplib.isofts.kiev.ua/handle/123456789/291 Розглянуто підхід до інтеграції електронних бібліотек на базі технології ініціативи відкритих архівів, а саме за допомогою протоколу ОАІ-РМН. Описано досвід побудови інтегрованих бібліотечних систем, а також інструменти для їх реалізації. uk Інститут програмних систем НАН України Інформаційні системи Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН Article published earlier |
| spellingShingle | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН Резніченко, В.А. Новицький, О.В. Проскудіна, Г.Ю. Інформаційні системи |
| title | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН |
| title_full | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН |
| title_fullStr | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН |
| title_full_unstemmed | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН |
| title_short | Інтеграція наукових електронних бібліотек на основі протоколу ОАІ-РМН |
| title_sort | інтеграція наукових електронних бібліотек на основі протоколу оаі-рмн |
| topic | Інформаційні системи |
| topic_facet | Інформаційні системи |
| url | https://nasplib.isofts.kiev.ua/handle/123456789/291 |
| work_keys_str_mv | AT rezníčenkova íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn AT novicʹkiiov íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn AT proskudínagû íntegracíânaukovihelektronnihbíblíoteknaosnovíprotokoluoaírmn |