Створення системи індексування інтранет-середовища наукової бібліотеки

Обгрунтовано необхідність архівування наукових публікацій та створення електронних журналів відкритого доступу бібліотеками, які мають взяти на себе функції тематичних та інституційних репозитаріїв. Визначено переваги інтранет-архівів мережевих публікацій перед їхнім інтернет-аналогом. Розглянуто те...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2007
1. Verfasser: Шерепа, Т.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Національна бібліотека України ім.В.І.Вернадського 2007
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/395
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Створення системи індексування інтранет-середовища наукової бібліотеки / Т. Шерепа // Бібл. вісн. — 2007. — N 4. — С. 3-7. — укp.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id nasplib_isofts_kiev_ua-123456789-395
record_format dspace
spelling Шерепа, Т.
2008-04-18T15:30:48Z
2008-04-18T15:30:48Z
2007
Створення системи індексування інтранет-середовища наукової бібліотеки / Т. Шерепа // Бібл. вісн. — 2007. — N 4. — С. 3-7. — укp.
1029-7200
https://nasplib.isofts.kiev.ua/handle/123456789/395
004.7 : 021
The article explains necessity of scientific articles archiving and open access journals creation with the libraries which contain thematical and institutional repositories. The advantage of Intranet-archives of their Internet-analog is clarified. The theoretical bases of scientific information resources indexing technology and principles of searching system creation for Intranet-archives are described.
Обгрунтовано необхідність архівування наукових публікацій та створення електронних журналів відкритого доступу бібліотеками, які мають взяти на себе функції тематичних та інституційних репозитаріїв. Визначено переваги інтранет-архівів мережевих публікацій перед їхнім інтернет-аналогом. Розглянуто теоретичні засади технології індексування науково-інформаційних ресурсів інтранет-середовища та методики побудови довідково-пошукового апарату інтранет-архіву.
uk
Національна бібліотека України ім.В.І.Вернадського
Загальні питання
Створення системи індексування інтранет-середовища наукової бібліотеки
Creation of the indexing system of Intranet-space of scientific library
Article
published earlier
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
title Створення системи індексування інтранет-середовища наукової бібліотеки
spellingShingle Створення системи індексування інтранет-середовища наукової бібліотеки
Шерепа, Т.
Загальні питання
title_short Створення системи індексування інтранет-середовища наукової бібліотеки
title_full Створення системи індексування інтранет-середовища наукової бібліотеки
title_fullStr Створення системи індексування інтранет-середовища наукової бібліотеки
title_full_unstemmed Створення системи індексування інтранет-середовища наукової бібліотеки
title_sort створення системи індексування інтранет-середовища наукової бібліотеки
author Шерепа, Т.
author_facet Шерепа, Т.
topic Загальні питання
topic_facet Загальні питання
publishDate 2007
language Ukrainian
publisher Національна бібліотека України ім.В.І.Вернадського
format Article
title_alt Creation of the indexing system of Intranet-space of scientific library
description Обгрунтовано необхідність архівування наукових публікацій та створення електронних журналів відкритого доступу бібліотеками, які мають взяти на себе функції тематичних та інституційних репозитаріїв. Визначено переваги інтранет-архівів мережевих публікацій перед їхнім інтернет-аналогом. Розглянуто теоретичні засади технології індексування науково-інформаційних ресурсів інтранет-середовища та методики побудови довідково-пошукового апарату інтранет-архіву.
issn 1029-7200
url https://nasplib.isofts.kiev.ua/handle/123456789/395
citation_txt Створення системи індексування інтранет-середовища наукової бібліотеки / Т. Шерепа // Бібл. вісн. — 2007. — N 4. — С. 3-7. — укp.
work_keys_str_mv AT šerepat stvorennâsistemiíndeksuvannâíntranetseredoviŝanaukovoíbíblíoteki
AT šerepat creationoftheindexingsystemofintranetspaceofscientificlibrary
first_indexed 2025-11-24T22:06:33Z
last_indexed 2025-11-24T22:06:33Z
_version_ 1850499607532929024
fulltext ISSN 1029-7200. Бібліотечний вісник. 2007. № 4 3 УДК 004.7 : 021 Тетяна ШЕРЕПА, мол. наук. співробітник НБУВ Ñòâîðåííÿ ñèñòåìè ³íäåêñóâàííÿ ³íòðàíåò-ñåðåäîâèùà íàóêîâî¿ á³áë³îòåêè Обґрунтовано необхідність архівування наукових публікацій та створення електронних журналів відкритого доступу бібліотеками, які мають взяти на себе функції тематичних та інституційних репозитаріїв. Визначено переваги інтранет-архівів мережевих публікацій перед їхнім інтернет-аналогом. Визначено теоретичні засади технології індексування науково-інфор- маційних ресурсів інтранет-середовища та методики побудови довідково-пошукового апарату інтранет-архіву. К л ю ч о в і с л о в а: архівування, електронні колекції, інтранет, пошуковий апарат, індексування, Dublin Core, WWWISIS. умовах інтенсивного розвитку глобаль- них комп’ютерних мереж суспільна по- треба забезпечення вільного доступу до джерел інформації та знань обумовила появу ініці- атив «самоархівування наукових публікацій» та створення електронних журналів відкритого до- ступу. Бібліотеки є найбільш активними захисника- ми Open Access, оскільки відкритий доступ до ін- формації – це один із центральних принципів їх- ньої діяльності 1. У провідних закордонних краї- нах розгорнута активна робота з реалізації проек- тів створення архівів мережевих науково-інформа- ційних ресурсів та організації їх збереження й ви- користання в стінах бібліотек. Стратегія самоархівування включає в себе розмі- щення авторами електронних версій власних науко- вих публікацій у загальнодоступних архівах елект- ронних документів, у вільному доступі в інтернеті. Самоархівування дозволяє підвищити ефективність використання результатів наукових досліджень зав- дяки вільному доступу до наукових матеріалів. Пуб- лікації, які архівуються, повинні розташовуватися переважно в тематичних або інституційних репози- таріях (архівах). Під «архівом» розуміється сайт, який зберігає джерела наукової інформації у відкри- тому мережевому доступі 2. Другою стратегією є журнали відкритого досту- пу – нове покоління журналів, які беруть на себе зобов’язання про відкритий доступ, не обмежують доступ до матеріалів, які вони публікують, та не беруть плату за їх використання 3. «Державною програмою розвитку діяльності Національної бібліотеки України імені В. І. Вер- надського на 2005–2010 рр.» (затвердженою По- становою Кабінету Міністрів України від 25 серпня 2004 р. № 1085) передбачено завдання збору й ар- хівації наукової суспільно значущої інформації та створення Українського науково-інформаційного порталу з розвинутою системою пошуку. З метою розширення доступу до наукових мате- ріалів НБУВ формує архів, який містить колекції наукових інтернет-публікацій, книг та інших доку- ментів України та про Україну, який доступний ло- кальним користувачам комп’ютерної мережі НБУВ. На сьогодні існує необхідність у створенні швидкої, гнучкої, інтелектуальної пошукової сис- теми на базі індексування колекцій документів, веб-сторінок або файлів інших форматів для задо- волення інформаційних потреб користувачів 4. Програмні засоби системи мають відповідати кон- цепції вільного поширення, забезпечувати інтелек- туальний пошук інформації, надавати користувачу типовий веб-орієнтований інтерфейс. Метою даної статті є визначення теоретичних засад технології індексування науково-інформа- ційних ресурсів інтранет-середовища та розробки методики побудови довідково-пошукового апарату інтранет-архіву. Розміщення публікації на веб-сервері автора у 1 Suber Р. Removing the Barriers to Research: An Introduction to Open Access for Librarians [Electronic resource]. – Way of access: URL: http://www.earlham.edu/ ~peters/writing/acrl.htm. – Title from the screen. 2 Негуляев Е. А. Самоархивирование [Электронный ресурс]. – Режим доступа: http://ellib.gpntb.ru/ntb/2004/ 12/ntb_12_9_2004.htm. – Загл. с экрана. 3 Будапештская инициатива «Открытый доступ» [Элек- тронный ресурс]. – Режим доступа: http://www.soros.org/ openaccess/ru/read.shtml. – Загл. с экрана. 4 Копанєва В. О. Архівування науково-інформаційних ресурсів Інтернет: основні концептуальні положення // Бібліотечний вісник. – 2005. – № 2. – С. 14–19. В ISSN 1029-7200. Бібліотечний вісник. 2007. № 4 Ò. ØÅÐÅÏÀ 4 вільному доступі не є бажаним для ідеї архівування наукових матеріалів, тому що звичайне веб-середо- вище не може забезпечити надійної ідентифікації метаданих та організації пошуку за ними, а також не є придатним для довготривалого збереження і га- рантії незмінності публікацій. Суттєва перевага від- критих тематичних архівів електронних публікацій полягає в тому, що їх збір та впорядкування здій- снюється спеціалістами. Наслідком є забезпечення фільтрації та пошуку даних із вищим рівнем точ- ності, тому що процес індексування таких систем є глибшим за його інтернет-аналог. З метою уніфікації представлення мережевих ре- сурсів розроблені єдині принципи їх опису, які ба- зуються на використанні метаданих Дублінського ядра 5. Основною вимогою до репозитарію є під- тримка протоколу OAI PMH (Open Archives Initia- tive Protocol for Metadata Harvesting), який забез- печує можливість збору структурованих метада- них про об’єкти, розміщених у репозитарії, об’єд- нання з іншими репозитаріями й організацію по- шуку в розподілених репозитаріях відкритого до- ступу 6. Усі нові електронні документи, які підлягають архівуванню, мають пройти процес індексування. Мета процесу індексування в документальних сис- темах аналогічна меті каталогізації у бібліотеках: надати кожній одиниці зберігання деяку множину ідентифікаторів, які б відображали зміст докумен- та. В традиційних бібліотеках у ролі ідентифікато- рів змісту виступають відповідні шифри, які визна- чають предметну класифікацію і місце зберігання документа. З розвитком автоматичної обробки до- кументів звичайний процес каталогізації транс- формується в процес індексування, котрий призна- чений для надання кожному елементу ідентифіка- торів, які також називають індексаційними термі- нами, ключовими словами, дескрипторами. Усі ці терміни відображають зміст документа і керують пошуком, вибираючи ті документи, терміни яких є найбільш схожими з термінами пошукового запиту. Зважаючи на великі обсяги інтранет-архівів, проведення ручної класифікації та індексації кож- ного електронного документа не є можливим, то- му що як одиницю обліку фонду інтернет-документів (веб-ресурсів) зручно використовувати веб-сайт чи його фрагмент. Процес комплектування фонду полягає в створенні в бібліотеці копій («дзеркал») веб-сайтів. Оскільки інформація на веб-сайті змі- нюється з часом, бібліотека повинна створювати «дзеркала» того самого сайта періодично. Автоматичне індексування базується на текстах вихідних документів, або, принаймні, на фрагмен- тах текстів, таких, як заголовки або реферати. Більшість результатів автоматичного індексування не є досконалими, але мають певні переваги перед ручним індексуванням 7: ефективність пошуку що- до видачі релевантних документів, одержаних ав- томатичними методами є несуттєво меншою, ніж при ручному індексуванні цих документів; однак вартість автоматичного індексування та витрачан- ня часу висококваліфікованого персоналу значно скорочується. Існує декілька безкоштовних інтранет пошуко- вих систем, які забезпечують задоволення інфор- маційних запитів інтранет-користувачів. Ці систе- ми розроблено для індексування внутрішніх веб- серверів і/або фрагментів цих серверів та створен- ня потрібних пошукових індексів документів, які розміщені на серверах. Такі пошукові системи можуть бути згруповані за такими категоріями: 1) технічна функціональність: платформа сервера, веб-сервер, відкритість коду, можливість по- дальшого розвитку системи та ін.; 2) особливості індексування: формати файлів (HTML, PDF тощо), рівень індексування (за- пис, файл, директорія), розпізнавання стандарт- них форматів (MARC та ін.), виділення термі- нів зі спільним коренем, наявність стоп-слов- ника та ін.; 3) особливості пошуку: підтримка булевих опера- торів, нечіткий пошук, пошук фраз, використан- ня тезаурусів синонімів та ін.; 4) відображення результатів: формати виводу, ран- жування результатів, підсвітлювання ключових слів у контексті та ін.; 5) ціна, вимоги ліцензії та реєстрації. Вибір пошукової системи інтранет має також враховувати ознайомлення інформаційних спеціа- лістів із доступними продуктами і аспектами їх використання, знання технологій інформаційного пошуку, розуміння та досвід роботи зі стандартни- ми практиками і параметрами індексування, що 5 Dublin Core Metadata Initiative / [Electronic resource]. – Way of access: URL: http://dublincore.org/. – Title from the screen. 6 Open Archive Initiative Protocol for Metadata Harvesting (OAI-PMH) [Electronic resource]. – Way of access: URL: http://www.openarchives.org/pmh/. – Title from the screen. 7 Дж. Солтон. Динамические библиотечно-информа- ционные системы. – М.: Мир, 1979. – 558 с. ISSN 1029-7200. Бібліотечний вісник. 2007. № 4 Ñòâîðåííÿ ñèñòåìè ³íäåêñóâàííÿ ³íòðàíåò-ñåðåäîâèùà íàóêîâî¿ á³áë³îòåêè 5 забезпечить точний і ефективний пошук даних на базі різноманітних індексів даних інтранету 8. З урахуванням вищеназваних вимог для апроба- ції довідково-пошукового апарату інтранет-сере- довища наукової бібліотеки нами було обрано WWWISIS, яка є однією з безкоштовних пошуко- вих систем для бібліографічних та текстових баз даних. WWWISIS підтримує всі функції пакету прикладних програм CDS/ISIS (Computer Docu- mentation System / Integrated System Information Services), що є універсальним інструментарієм для створення автоматизованих систем бібліотек, архі- вів і музеїв, тобто для обробки структурованих не- числових баз даних 9. Всесвітньо відома програма CDS/ISIS, яка по- ширюється UNESCO, добре себе зарекомендувала в діяльності бібліотек, де має місце робота з вели- кою кількістю текстової інформації. Порівняно з іншими програмними системами аналогічного призначення CDS/ISIS має такі переваги: • порівняно невеликий обсяг системи; • високу швидкодію системи; • орієтація на роботу зі стандартними форматами; • підтримка системою записів змінної довжини; • широкі можливості в здійсненні пошуку; • безкоштовне поширення даної системи. CDS/ISIS із рядом спеціальних утиліт і доробок дозволяє отримати сучасне програмно-технологіч- не середовище для операційних систем UNIX, WINDOWS, що за функціональними можливостя- ми і сервісу користувачів може бути порівняне з сучасними реляційними СУБД типу ORACLE і INFORMIX. Пошукова система на базі CDS/ISIS підходить як для колекцій, які містять невелику кількість доку- ментів, так і для більших колекцій. Використовую- чи програму послідовного перегляду документів колекції та застосовуючи відповідні фільтри, мож- на індексувати файли текстового формату, HTML чи будь якого іншого формату, що може бути кон- вертований у HTML-формат. Використання бази формату CDS/ISIS та CGI-модуля WWWISIS доз- воляє здійснювати швидкий повнотекстовий по- шук за допомогою веб-орієтованого інтерфейсу. Головною особливістю CDS/ISIS є автоматичне створення й підтримка файлів швидкого доступу («індексних файлів») до кожної бази даних, що за- безпечує максимальну швидкість пошуку навіть за великих обсягів даних. Ці файли називаються словником пошукових термінів і вміщують усі терміни, які можуть бути використані під час по- шуку в базі даних 10. Структура інвертованого файлу забезпечує його швидку модифікацію при долученні в колекцію нових документів. Можлива побудова словника стоп-слів з орієнтацією на ви- лучення другорядних частин мови та загально- вживаних слів, вилучення яких не вплине на якість пошуку, більше того може його покращити. Використання пакета прикладних програм CDS/ISIS як основи пошукової системи інтранет- архіву забезпечує її однорідність із пошуковою системою електронних колекцій бібліотек НБУВ, котра містить наступні інформаційно-ресурсні компоненти: електронний каталог НБУВ, загально- державну реферативну базу даних, фонд електрон- них документів із повними текстами. Головною за- садою побудови системи архівування науково-ін- формаційних ресурсів НБУВ є технологія збору та підготовки тематичних складових інтранет-архіву. В якості інформаційної бази для структури мета- даних архіву обрано стандарт Дублінського ядра метаданих (Dublin Core Metadata), запропоновано- го Онлайновим комп’ютерним бібліотечним цент- ром OCLC для опису ресурсів інтернету 11. Формат Dublin Core влючає 15 елементів для опису елект- ронного ресурсу: • назва (title); • автор (creator); • предметна рубрика (subject); • анотація (description); • видавець (publisher); • співавтор (contributor); • дата (date); • формат (format); • тип (type); • ідентифікатор (identifier); • джерело (source); • мова (language); • відношення (relation); • покриття (coverage); • авторські права (rights). За правилами Dublin Core кожний із 15 елемен- 8 Indexing and Search Engines for the Web (WISE). Search Engines for Intranets: An overview/ [Electronic resource]. – Way of access: URL: http://www.ncsi.iisc. ernet.in/raja/netlis/wise/search/search.html. – Title from the screen. 9 UNESCO CDS-ISIS databases [Electronic resource]. – Way of access: URL: http://www.unesco.org/. – Title from the screen. 10 Іbid. 11 Dublin Core Metadata Initiative / [Electronic resource]. – Way of access: URL: http://dublincore.org/. – Title from the screen. ISSN 1029-7200. Бібліотечний вісник. 2007. № 4 Ò. ØÅÐÅÏÀ 6 тів не є обов’язковим і може повторюватися. Опис із використанням Dublin Core інтернет-ресурсів можна, в першому наближенні, розглядати як біб- ліографічний опис книги чи аналітичний розпис журналу (газети). Індексування архіву може бути повнотекстовим або лімітованим деяким фільтром, що обирається створювачем архіву. Зважаючи на великі розміри інтранет-архіву, доцільно зберігати в індексній ба- зі такі частини HTML сторінок: • TITLE – заголовок сторінки. • META NAME=«keywords» CONTENT=«.........», що містить ключові слова і словосполучення. Може включати слова, які не зустрічаються в документі, але мають пряме відношення до те- матики сайта, що підвищить релевантність по- шуку. В середньому дозволяється вказувати до 150–200 символів як ключових слів. • META NAME=«description» CONTENT=«.........», що містить тематичний опис сайта. • Заголовки форматування HTML сторінки H1, H2 та ін. За допомогою ISIS_DLL, прикладного програм- ного інтерфейсу ISIS для операційних систем Win- dows та Linux, котрий розроблений та вільно по- ширюється UNESCO 12, та мови програмування, яка припускає використання ISIS_DLL, можна от- римати доступ до попередньо визначеної частини інтранет-архіву і створити записи відповідного формату в індексній базі. Інформаційні ресурси інтранет-архіву також можливо долучити до системи електронних ви- дань, програмні засоби якої також підтримують формат CDS/ISIS. Система електронних видань є комплексом галузевих серій колекцій документів. Галузеві серії формуються на основі структуриза- ції наявних інформаційних ресурсів бібліотеки шляхом попереднього відбору документів із бібліо- графічних, реферативних, тематичних і повноте- кстових баз даних, їх обробки та впорядкування. Кожна з галузевих серій має розвинений пошуко- вий апарат, що забезпечує виявлення потрібних документів за елементами їх бібліографічного опису (автор, назва, вихідні дані тощо), а також за текстами документів 13. На сьогодні система електронних видань НБУВ містить 6 галузевих серій: природничі, технічні, суспільні та гуманітарні, медичні, аграрні науки, бібліотечна справа та науково-інформаційна діяль- ність. Галузева серія «Бібліотечна справа та науко- во-інформаційна діяльність» є колекцією докумен- тів формату HTML. На етапі створення серія не міс- тила в собі пошукового апарату. Для доопрацюван- ня колекції існувала необхідність у створенні індекс- ної бази формату CDS/ISIS. Така база даних була створена програмно з використанням ISIS_DLL за розглянутою технологією індексування. Лімітуван- ня інформації, яка долучалася до індексної бази, ви- конано за такими дескрипторами: заголовки веб- сторінки (TITLE, H1, H2) та дані мета-тегів (META keywords, META description) відповідно до структу- ри полів Dublin Core: назва (title), предметна рубри- ка (subject), анотація (description). До сформованої індексної бази застосовано кон- фігурацію пошукової системи галузевих серій та веб-доступу на базі пакету прикладних програм CDS/ISIS та CGI-модуля WWWISIS. Таким чином, пошук у розглянутій колекції здійснюється як че- рез веб-сервер, так і на компакт-дисках. Подальший розвиток інтранет-пошукової системи НБУВ доцільно зорієнтувати в напрямах включення до його складу засобів класифікації й опису інфор- маційних колекцій документів та веб-сайтів як оди- ниць зберігання інтранет-архіву, досягнення макси- мальної ресурсоощадності зберігання електронних колекцій, інтелектуалізації пошукового апарату, се- мантичного аналізу текстів і творення нових знань. Висновки 1. Інтенсивний розвиток глобальних комп’ютер- них мереж зумовив появу ініціатив «самоархіву- вання наукових публікацій» та створення елект- ронних журналів відкритого доступу, найак- тивнішими захисниками яких є бібліотеки. Публі- кації, які архівуються, повинні розташовуватися переважно в тематичних або інституційних репо- зиторіях (архівах). Звичайне веб-середовище не може забезпечити надійної ідентифікації метада- них та організації пошуку за ними, не є придатним для довготривалого збереження і гарантії незмін- ності публікацій. 2. Основною вимогою до репозитарію є під- тримка протоколу OAI PMH (Open Archives Initia- tive Protocol for Metadata Harvesting), який забез- печує можливість збору структурованих метада- них про об’єкти, які розміщені у репозитарії, об’єднання з іншими репозитаріями, а також орга- 12 ISIS Application Program Interface ISIS_DLL User’s Manual Preliminary Version BIREME, Sao Paulo, July 2001 [Electronic resource]. – Way of access: URL: http://www.bireme.br/. – Title from the screen. 13 Шерепа Т. А. Система галузевих серій електронних видань: основні концептуальні положення // Бібліотеч- ний вісник. – 2004. – № 1. – С. 26–29. ISSN 1029-7200. Бібліотечний вісник. 2007. № 4 Êîðïîðàòèâí³ òåõíîëî㳿 ó íàóêîâèõ á³áë³îòåêàõ 7 нізації пошуку в розподілених репозитаріях від- критого доступу. 3. Суттєвою перевагою інтранет-архівів мере- жевих публікацій, які створюються в наукових бібліотеках, є здійснення попереднього збору та впорядкування документів спеціалістами. Наслід- ком є забезпечення фільтрації та пошуку даних із більш високим рівнем точності. Зважаючи на ве- ликі обсяги інтранет-архівів, проведення ручної класифікації та індексації кожного електронного документа не є можливим, тому що як одиницю облі- ку фонду інтернет-документів (веб-ресурсів) зручно використовувати веб-сайт чи його фраг- мент. У рамках веб-сайту є необхідність у прове- денні автоматичного індексування, надаючи біль- ше значення індексаційним термінам, які є мета- даними або заголовками електронних документів. 4. Головною засадою побудови системи архіву- вання науково-інформаційних ресурсів НБУВ є тех- нологія збору та підготовки тематичних складових інтранет-архіву. Конфігурація пошукової системи інтранет-архіву НБУВ на базі пакету прикладних програм CDS/ISIS із CGI-модулем WWWISIS забез- печує її функціонування, швидкодію, а також одно- рідність із системою електронних колекцій бібліо- тек НБУВ. 5. Обґрунтованість і достовірність викладеної технології підтверджено в процесі створення пошу- кової системи галузевої серії системи електронних видань «Бібліотечна справа та науково-інформацій- на діяльність». Пошук у колекції може здійснюва- тись як через веб-сервер, так і на компакт-дисках.