Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних

Викладено запропоновану методику автоматичного індексування інформації у CDS/ISIS-сумісних базах даних з оцінкою значущості термінів і виявлення ключових слів документів для покращення повноти й точності видачі результатів пошуку. Изложена разработаннaя методика автоматического индексирования информ...

Full description

Saved in:
Bibliographic Details
Published in:Реєстрація, зберігання і обробка даних
Date:2006
Main Author: Шерепа, Т.А.
Format: Article
Language:Ukrainian
Published: Інститут проблем реєстрації інформації НАН України 2006
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/50834
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних / Т.А. Шерепа // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 114-123. — Бібліогр.: 12 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859519536246554624
author Шерепа, Т.А.
author_facet Шерепа, Т.А.
citation_txt Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних / Т.А. Шерепа // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 114-123. — Бібліогр.: 12 назв. — укр.
collection DSpace DC
container_title Реєстрація, зберігання і обробка даних
description Викладено запропоновану методику автоматичного індексування інформації у CDS/ISIS-сумісних базах даних з оцінкою значущості термінів і виявлення ключових слів документів для покращення повноти й точності видачі результатів пошуку. Изложена разработаннaя методика автоматического индексирования информации в CDS/ISIS-совместимых базах данных с оценкой значимости терминов и определения ключевых слов документов для улучшения полноты и точности выдачи результатов поиска. Principles of data automatic indexing for document’s key words extracting in CDS/ISIS databases in order to improve completeness and accuracy of information search results are explained.
first_indexed 2025-11-25T20:53:07Z
format Article
fulltext Системи збереження і масового розповсюдження даних 114 УДК 004.8: 681.3 Т. А. Шерепа Національна бібліотека України імені В.І.Вернадського Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних Викладено запропоновану методику автоматичного індексування ін- формації у CDS/ISIS-сумісних базах даних з оцінкою значущості тер- мінів і виявлення ключових слів документів для покращення повноти й точності видачі результатів пошуку. Ключові слова: автоматичне індексування, пошукові терміни, значу- щість терміну, розрізнювальна сила, асоційовані терміни, тезауруси, пошукові запити. У зв’язку з розвитком документних комунікацій усе більш актуальними пос- тають проблеми ефективного доступу до інформації. Мета процесу індексування в документальних системах подібна до мети каталогізації у бібліотеках: приписа- ти кожній одиниці зберігання деяку множину ідентифікаторів, які б відображали зміст документа. В традиційних бібліотеках у ролі ідентифікаторів змісту висту- пають відповідні шифри, які визначають предметну класифікацію і місце збері- гання документа. З розвитком автоматичної обробки документів звичайний про- цес каталогізації перетворився на процес індексування, що призначений для на- дання кожному елементу ідентифікаторів, які також називають індексаційними термінами, ключовими словами, дескрипторами. Усі ці терміни відображають зміст документа і керують пошуком, вибираючи ті документи, терміни яких є найбільш схожими з термінами пошукового запиту. З наданням пріоритетів формуванню та використанню електронних публіка- цій, що передбачається «Державною програмою розвитку діяльності Національної бібліотеки України імені В.І.Вернадського на 2005–2010 роки» [1], на бібліотеку покладається завдання формування універсального фонду національних інформа- ційних ресурсів, ефективне багатоаспектне використання якого потребує якісного індексування електронних документів колекцій бібліотек. У даній роботі ставиться ціль визначення методики автоматичного індексу- вання бібліографічної інформації у CDS/ISIS-сумісних базах даних для визначен- ня ключових слів документів з метою покращення повноти й точності видачі ре- зультатів пошуку в базі даних електронних документів. © Т. А. Шерепа Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 115 Усі нові електронні документи, що надходять до пошукової системи, мають пройти процес індексування: для кожного документа формується його пошуковий образ (профайл), що включає інформацію, яка буде далі використовуватись при пошуку. Ця інформація, у найпростішому випадку ключові слова, зберігається в базі даних. Пошукова система електронних колекцій бібліотек Національної бібліотеки України ім. В.І.Вернадського (НБУВ) розроблена на базі пакета прикладних про- грам CDS/ISIS. CDS/ISIS (Computer Documentation System / Integrated System Information Services) є універсальним інструментарієм для створення автоматизо- ваних систем бібліотек, архівів і музеїв, тобто для обробки структурованих нечи- слових баз даних [2]. Принциповою вимогою до програмних засобів, на основі яких створена по- шукова система електронних колекцій, є її відповідність концепції вільного по- ширення [3], що обумовлено необхідністю тиражування електронних видань на компакт-дисках без будь-яких обмежень за проектом закону України «Про вико- ристання Відкритих форматів даних та Вільного програмного забезпечення в державних установах і державному секторі господарства» (від 18 червня 2003 р.), де наголошується на необхідності використання суб’єктами державного сектора «для провадження всіх публічних сервісів та створення інформації» лише вільно- го програмного забезпечення та програмних засобів з вільною ліцензією [4]. Головною особливістю CDS/ISIS є автоматичне створення й підтримка фай- лів швидкого доступу («індексних файлів») до кожної бази даних, що забезпечує максимальну швидкість пошуку навіть за великих об’ємів даних. Ці файли нази- ваються словником пошукових термінів, і вміщують усі терміни, які можуть бути використані під час пошуку в базі даних [2]. Автоматичне індексування базується на текстах вихідних документів, або, принаймні, на фрагментах текстів, таких, як заголовки або реферати. Більшість результатів автоматичного індексування не є досконалими, але мають наступні значні переваги перед ручним індексуванням [5]: ефективність пошуку по відно- шенню до видачі релевантних документів, отриманих автоматичними методами є не менша, а то й вища, ніж при ручному індексуванні цих документів; менша вар- тість автоматичного індексування; витрачання значно меншого часу висококвалі- фікованого персоналу. Звичайний процес індексування складається з однієї або декількох наступних операцій [5]: — відбору індексаційних термінів, що використовуються для опису змісту документа; — призначення цим термінам деякої ваги, що відображає значущість термі- нів; — відношення кожного з термінів до відповідного типу; — виявлення відношень між термінами, до яких відносяться, наприклад, си- нонімічні, ієрархічні, асоціативні та ін. При автоматичному індексуванні баз даних на основі пакету прикладних про- грам CDS/ISIS індексний файл містить для кожного терміну список ідентифікато- рів записів бази даних (документів), в яких цей термін зустрічається. В цьому списку зберігається також інформація про всі входження терміну в документ у Т. А. Шерепа 116 вигляді послідовності цілих чисел, що задають позиції даного терміну в даному документі. Ця інформація може бути корисною при виконанні пошуку за запитом із накладанням деяких обмежень на близькість термінів запиту в тексті докумен- та. Крім того, структура інвертованого файлу забезпечує його швидку модифіка- цію при долучені в колекцію нових документів. Таким чином, автоматичне індексування за допомогою пакета прикладних програм CDS/ISIS забезпечує виділення термінів з масиву документів, відкидаю- чи слова, що попередньо зазначені у стоп-словнику, зберігає в індексному файлі всю інформацію про зв’язки термінів з документами з точністю до позиції відпо- відного терміну у відповідному документі і надає доступ до цієї інформації. Але для подальшого аналізу: надання ваги термінам, індексування термінів/документ- тів за визначеними оцінками значущості (вагою), та дослідження взаємозв’язків термінів та термінів/документів прямих інструментів CDS/ISIS не дає. Однак, за допомогою ISIS_DLL, прикладного програмного інтерфейсу ISIS для операційних систем Windows та Linux, що розроблений та вільно поширюється UNESCO [6], і мови програмування, що припускає використання ISIS_DLL, можна отримати до- ступ до попередньо сформованого словника пошукових термінів відповідної бази даних CDS/ISIS для подальшого аналізу. Словник стоп-слів будується з орієнтацією на вилучення другорядних частин мови (сполучників, прийменників та ін.), загальних дієслів, прикметників та при- слівників (бути, знати, робити, великий, малий та ін.), займенників та чисельни- ків. Це загальновживані слова, вилучення яких не вплине на якість пошуку, більш того може його покращити. Комп’ютерна морфологія є необхідною в прикладних системах, які ведуть пошук і аналіз інформації, що представлена природною мовою. Основними функ- ціями, що забезпечуються комп’ютерним морфоаналізом є отримання всіх слово- форм слова, постановка слова в задану форму та отримання граматичних характе- ристик словоформи. Для англомовних текстів є популярною операція виділення кореня, основи слова (stemming), що дозволяє всі однокореневі слова замінити коренем, і при пошуку їх не розрізняти, наприклад, алгоритм Портера, що широко використову- ється і дає прийнятні результати, хоча і з деякими похибками. Однак статистич- ний підхід завжди припускає можливість помилок при порівнянні пошукового за- пита користувача з документами, і пропонує різні методики їх нейтралізації . Системи природномовного пошуку, машинного перекладу, безклавіатурного введення мовної інформації до комп’ютерів, автоматичного редагування, реферу- вання та індексування, природномовні інтерфейси до інформаційно-комп’ютер- них систем різного призначення все наполегливіше набувають ознак обов’язко- вості у програмному інструментарії комп’ютерів. Незважаючи на природність да- ного твердження, досвід науково-технічних здобутків української мови з цього напряму поки що слід оцінювати як досить скромний. Численні приклади з розви- тку фахової лексикографії підтверджують, що за репертуаром і кількісними та якісними показниками українська лексикографія поки що відстає, наприклад, від англійської, німецької, французької, російської та не повністю відповідає сучас- ним потребам. А через відсутність багатьох типів словників досі неможливе і Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 117 створення комп’ютерних лексикографічних систем, що програмує відставання в галузі вітчизняної лінгвістичної технології взагалі [7]. Російські (українські) роботи з комп’ютерної лінгвістики для швидкого по- шуку словоформи у словнику використовують допоміжні структури: дерево основ (коренів) та закінчень. Більшість слів мови відмінюються стандартним чином, тобто мають однакові закінчення в однакових граматичних формах. Як наслідок цього, всі різні парадигми (моделі відмінювання слів) компактно представляються у вигляді строк у трьох таблицях, а кожна основа слова зберігає посилання на від- повідну строку таблиці. Більшість закінчень у парадигмах також є стандартним, і для зберігання так само використовують таблицю закінчень, а в таблицях пара- дигм зберігаються посилання на відповідні закінчення. Таким чином, кожне слово описується основою й кодом парадигми відмінювання слова. Алгоритм імовірнісного морфоаналізу відрізняється від точного тим, що за- мість основи слів використовується дерево суфіксів, сформоване автоматично на етапі компіляції словника. В дерево суфіксів включаються кінцеві частини основ, що зустрічаються не менше 30 разів у словах з однаковою парадигмою відміню- вання і мають довжину не більше 4-х символів за наявністю в основі не менше 3-х символів. Емпірично доведено, що ці величини забезпечують найбільшу точність аналізу. При пошуку кожного закінчення знаходиться найдовше співпадання кінцевої частини слова з одним із суфіксів за умови однакової парадигми і частоти вхо- джень не менше 30. В якості найбільш вірогідної парадигми відмінювання прий- мається та, при якій сумарна довжина суфікса й закінчення виявляється найбіль- шою. При наявності декількох кандидатів рівної довжини пріоритет надається па- радигмі з більшою частотою входжень до словника [8]. Таким чином, використання основ слів в якості термінів веде за собою значне підвищення ефективності пошуку. Мовознавці дослідили, що загальновживані слова становлять у наукових текстах до 80 % загальної кількості слів. Звичайно, в різних науках — по-різному. Математика, наприклад, їх потребує найменше, інші науки — більше. У будь-якому випадку загальновживані слова дають найбільшу кількість помилок [9]. Автоматична система виявлення ключових слів, як правило, використовує статистичний частотний аналіз (методика В. Пурто). Якщо f — частота, з якою зустрічаються різні терміни в тексті, а u — відносне значення значущості терміну, тоді залежність f(u) може бути апроксимована формулою: u Cuf 1)( = , тобто добуток частоти використання слів і їх значущості є константою. Подана гіпотеза використовується для виявлення двох границь значень частот. Слова з частотою менше нижньої границі вважаються дуже рідкісними, з частотою біль- шою за верхню границю — загальними, такими, що не несуть змістовного наван- таження. Слова з частотою, що знаходиться між двох границь, найкраще характе- ризують зміст конкретного документа (використання такої оцінки вперше ввів Т. А. Шерепа 118 Лун). Однак, вибір границь — процедура достатньо суб’єктивна. Ключові слова, що виділяються програмно, аранжуються згідно з частотою їхнього використання. Помічено, що відповідне значення має не тільки частота вживання слова в конкретному документі, але й кількість документів, в яких це слово зустрічається. За цією теорією найбільш важливими вважаються більш рідкісні, а не часті термі- ни. В роботах Спарка Джонса експериментально показано, що якщо N — кількість документів і n — кількість документів, в яких зустрічається даний індексний тер- мін (ключове слово), то вага терміну, що визначається за формулою 1log += n NW , приводить до більш ефективних результатів, а саме точності пошуку, ніж без ви- користання оцінки значущості терміну [10]. В якості оцінки, що забезпечила б високі показники і точності, і повноти по- шуку, може бути взятий добуток попередніх двох оцінок [5]. Зовсім інший підхід має місце у другій моделі індексування, відомої як метод оцінки розрізнювальної (дискримінаційної) сили терміну. В цій моделі більшу значущість має той термін, що робить документи максимально несхожими один на одний. Тим самим забезпечується максимально можлива віддаленість одного документа від іншого у просторі індексування. І навпаки, меншу значущість має термін, що робить документи більш схожими один на одний, внаслідок чого роз- різняти їх стає важче. Чим більше буде розрізнення окремих документів, тобто чим менш будуть схожими відповідні вектори індексаційних термінів, тим легше буде знаходити одні документи, одночасно відкидаючи інші [5]. Таким чином, значущість терміну m вимірюється його розрізнювальною си- лою і визначається як різниця між значенням середньої попарної подібності до- кументів, коли термін m є відсутнім у векторах документів, і значенням середньої попарної подібності документів, коли m присутній. Якщо термін є цінним, його присутність повинна робити документи менш схожими один на одний, знижуючи значення оцінки подібності середнього попарного порівняння документів і робля- чи вище вказану різницю невід’ємною. Для термінів, що не розрізнюють докуме- нти, подана різниця має від’ємне значення. Оскільки підрахування середніх попарних значень порівнянь документів пот- ребує виконання порядку 2N операцій для N документів, то більш простим, з точки зору обчислень, є метод визначення наповненості (густини) простору як суми значень оцінки подібності між окремим документом і центроїдом простору документів. Якщо jV — набір термінів (вектор термінів) документа j, і ijV — вага (часто- та) терміну i у документі j, тоді центроїд усіх точок, що зображають документи масиву, визначається як «середній» документ C, де: å = = N j iji V N C 1 1 . Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 119 Якщо подібність документів k і j вимірювати за допомогою деякої функції порівняння векторів ),( jk VVS , де S змінюється від 1 для повністю співпадаючих документів до 0 для зовсім різних пар документів, то компактність простору до- кументів можна представити як ,0 ),,( 1 NQVCSQ N j j ££=å = тобто як суму значень подібності між кожним документом і центроїдом. Великі значення Q вказують на велику компактність простору документів, а відповідно, і більшу схожість між документами. Вплив окремого терміна m в густину простору можна визначити шляхом об- числення функції QQm - , де mQ — це компактність простору документів, коли термін m вилучений з усіх векторів документів. Якщо термін m є цінним, з точки зору відображення змісту, то QQm > , тобто простір документів після вилучення терміну m буде більш густим. Для термінів, що не мають задовільної оцінки роз- різнювальної сили QQm < . Тобто, значення розрізнювальної сили mDV )( терміну m визначається як різниця QQm - . Таким чином, можна ранжувати всі терміни в порядку зменшення їх розрізнювальної сили. Використання цієї оцінки впливає на точність пошуку. Забезпечення високих показників точності й повноти пошуку досягається на- данням термінам ваги, що дорівнює добутку значень розрізнювальної сили і час- тотної оцінки [5]. Практичне дослідження ефективності автоматичного індексування проведене на базі пошукової системи електронної колекції документів бази даних НБУВ, що містить автореферати дисертацій, захищених в Україні у 2004 р. Аналіз докумен- тів проведений на основі попередньо сформованого словника пошукових термінів бази даних CDS/ISIS колекції документів за допомогою інтерфейсу ISIS_DLL. Дані словника пошукових термінів (терміни назв та рефератів дисертацій) за до- помогою мови програмування PHP вигружені до реляційної бази MySQL наступ- ної структури. Ідентифікатор Назва ... Документ Ідентифікатор Слово Ідентифікатор словоформи Термін Ідентифікатор документа Ідентифікатор терміна Місце в документі Частота Документ - Термін Т. А. Шерепа 120 Основні статистичні характеристики даної електронної колекції документів, що отримані за допомогою PHP-скриптів та SQL, наведені в таблиці. Характеристика Значення Кількість документів електронної колекції 3119 Кількість термінів без повторювань, що містять більше 3-х літер 45490 Застосування наступного алгоритму виявлення словоформ: слова із співпадаючою основою (коренем) слова більше ніж 6 літер; 6-ти літер при закінченні не більше 3-х літер; 5-ти літер — 2-х літер закінчення; 4-х — однієї лі- тери — вважаються однокореневими 20505 Кількість термінів після вилучення з попередньої сукупності термінів із документною частотою використання 1 (що зустрілися в одному документі) 10554 Кількість термінів після вилучення з попередньої сукупності термінів із дуже ви- сокими значеннями частоти, що використовуються більш ніж у 25 % документів 10522 Кількість термінів після вилучення з попередньої сукупності термінів із від’ємним значенням розрізнювальної сили 7385 Так як електронна колекція документів бази даних НБУВ, що містить авто- реферати дисертацій, зберігає і тематики цих документів, то на основі отриманих термінів із задовільною оцінкою значущості, можуть бути побудовані тематичні (предметні) тезауруси. До кожної тематики відносять терміни, ймовірність вико- ристання яких у цій тематиці перевищує ймовірність їхнього використання в будь-якій іншій тематиці. Пошуковий запит вводиться користувачем природною мовою, тобто існує необхідність перевірити кожне слово запиту для вилучення другорядних частин мови та загальновживаних слів, провести аналіз словоформ термінів, що залиши- лись, і співуставити їх із відповідним тезаурусом. Сума оцінок ваги термінів до- кумента може бути обчислена шляхом додавання вагових коефіцієнтів тих термі- нів документа, які співпадають із термінами пошукового запиту. При нульових результатах пошуку також можуть бути розглянуті документи, що містять термі- ни, які є асоційованими до термінів пошукового запиту. Обґрунтуванням цього підходу є припущення того, що якщо термін В завжди використовується з терміном А, то немає значення який з них використовується в пошуковому запиті. Це вказує на абсолютну кореляцію між термінами. Два термі- ни, які є тісно зв’язаними в асоціативній схемі, мають бути близькими і семантич- но. Коефіцієнт асоціації може бути обчислений за формулою Дойла [11]: ABBA AB fff fA -+ = , де ABf — частота сумісного використання термінів А і В у документах; Af — час- тота використання терміну А; Bf — частота використання терміну В. Також може бути використана оцінка близькості двох термінів за допомогою формули Евклідової відстані: Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 121 å = -= N k jkikij xxd 1 2)( , де N — кількість документів; ijx — елементи досліджуваної матриці терм-до- кумент (що містить у собі частоти використання всіх термінів у кожному з доку- ментів колекції). Підрахування цієї та інших оцінок, проведення кластеризації документів еле- ктронних колекцій може бути проведене з використанням пакета прикладних про- грам IDAMS, призначеного для валідації, маніпулювання і статистичного аналізу даних. IDAMS виробляється та вільно поширюється UNESCO. Він включає в себе інструменти маніпулювання й аналізу даних, що є доступними через інтерфейс користувача та командну мову [12]. IDAMS дозволяє підраховувати базові стати- стичні параметри вибірки — середні, частотні характеристики, кореляції та ін. Основний набір статистичних процедур включає також декілька важливих видів аналізу, таких як кластерний (підтримується шість алгоритмів), дискримінантний, факторний, регресійний та дисперсійний [12]. Після імпортування до пакета IDAMS матриці терм-документ у вигляді текс- тового файлу з відокремлювачами, на основі отриманих даних необхідно створи- ти словник даних IDAMS, що визначає типи даних та правила їх валідації. На базі словника даних будується файл даних IDAMS, який і буде підлягати обробці і аналізу. Таким чином, практичне застосування методів індексування колекцій доку- ментів електронних бібліотек ставить собі за мету покращення повноти та точнос- ті інформаційного пошуку шляхом його інтелектуалізації: уточнення пошукових запитів, ранжування видачі результатів пошуку за оцінкою близькості до пошуко- вого запиту, використання тематичних тезаурусів, використання кластерів доку- ментів для звуження масиву пошуку. Також на основі проведення індексації коле- кцій електронних документів можуть бути розв’язані задачі відстеження змін у часі термінів предметних галузей, авторубрикації та класифікації нових докумен- тів та автоматичного реферування документів колекції. Висновки 1. З розвитком документних комунікацій все більш актуальними постають проблеми ефективного доступу до інформації. Мета процесу індексування в до- кументальних системах: приписати кожній одиниці зберігання деяку множину ідентифікаторів (індексаційних термінів, ключових слів, дескрипторів), що відо- бражають зміст документа і керують пошуком. Автоматичне індексування базу- ється на текстах вихідних документів, тому більшість результатів автоматичного індексування не є досконалими, але мають переваги перед ручним індексуванням, такі як ефективність пошуку по відношенню до видачі релевантних документів, меншу вартість та витрачання меншого часу висококваліфікованого персоналу. 2. Автоматична система виявлення ключових слів, як правило, використовує: статистичний частотний аналіз, аналіз кількості документів, в яких зустрічаються ключові слова, та метод оцінки розрізнювальної (дискримінаційної) сили терміну, Т. А. Шерепа 122 де більшу значущість мають терміни, що роблять документи максимально несхо- жими один на одний. 3. Проіндексовані терміни можуть бути використані для автоматичного рефе- рування документів електронної колекції та побудови тематичних тезаурусів, де до кожної тематики відносять терміни, що мають високу оцінку значущості, і ймовірність використання яких у деякій тематиці перевищує ймовірність їхнього використання в будь-якій іншій тематиці. На основі тематичних тезаурусів може бути проведена класифікація (авторубрикація) нових документів електронної ко- лекції. 4. Результати видачі пошуку можуть бути ранжовані за сумою оцінок ваги термінів документа, що обчислена шляхом додавання вагових коефіцієнтів тих термінів документа, які співпадають з термінами пошукового запиту. При нульо- вих результатах пошуку можуть бути розглянуті документи, що містять терміни, які є асоційованими до термінів пошукового запиту. При поділенні проіндексова- них термінів на кластери, пошуковий запит може бути порівняний із центром ко- жного кластера, для подальшого звуження масиву пошуку. 5. Автоматичне індексування за допомогою пакета прикладних програм CDS/ISIS забезпечує виділення термінів з масиву документів, відкидаючи стоп- слова та зберігає в індексному файлі всю інформацію про зв’язки термінів з доку- ментами. За допомогою прикладного програмного інтерфейсу ISIS_DLL можна отримати доступ до словника пошукових термінів бази даних CDS/ISIS для пода- льшого аналізу: надання ваги термінам, індексування термінів/документів за оці- нками значущості (вагою), та дослідження взаємозв’язків термінів і термінів/до- кументів. 6. Поглиблений аналіз документів електронних колекцій має вивести інфор- маційні системи бібліотек на якісно новий рівень і сприяти їх трансформації в ін- телектуальні системи, що проводитимуть бібліометричні, інформометричні та на- укометричні дослідження у великих масивах інформації й дозволять творити нові знання. 1. Про затвердження Державної програми розвитку діяльності Національної бібліотеки України імені В.І. Вернадського на 2005–2010 роки: Постанова Кабінету Міністрів України від 25 серпня 2004 р. № 1085. 2. UNESCO CDS-ISIS databases [Electronic Resource]. — Way of access: URL: http://www.unesco.org/. — Title from the screen. 3. Шерепа Т.А. Система галузевих серій електронних видань: основні концептуальні поло- ження // Бібл. вісн. — 2004. — № 1. — С. 26–29. 4. Про використання Відкритих форматів даних та Вільного програмного забезпечення в державних установах і державному секторі господарства: Проект Закону України від 18 червня 2003 р. 5. Солтон Дж. Динамические библиотечно-информационные системы. — М.: Мир, 1979. — 558 с. 6. ISIS Application Program Interface ISIS_DLL User’s Manual Preliminary Version BIREME, São Paulo, July 2001 [Electronic Resource]. — Way of Access: URL: http://www.bireme.br/. Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 123 7. Широков В.А. Всеукраїнський лінгвістичний діалог у контексті теорії лексикографічних систем // Мовознавство. — 2003. — № 6. — Way of Аccess: URL: http://ulif.org.ua/ulp 8. Ермаков А.Е., Плешко В.В. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2004. — М.: Наука, 2004 [Электронный ресурс]. — Way of access: URL: http://www.rco.ru/article.asp?ob_no=627 9. Як дібрати С Л О В О ? [Електронний ресурс]. — Way of access: URL: http://dict.linux.org.ua/dict/other/SSR/RE1.html. 10. Семенов Ю.А. Современные поисковые системы [Электронный ресурс]. — Way of access: URL: http://www.penza.fio.ru/misc/admin/tcpip/retr4514.htm. 11. Ланкастер Ф.У. Информационно-поисковые системы. — М.: Мир, 1972. — 308 с. 12. IDAMS Statistical Software [Electronic Resource]. — Way of Access: URL: http://www.unesco.org/webworld/idams. — Title from the screen. Надійшла до редакції 19.12.2005 http://dict.linux.org.ua/dict/other/SSR/RE1.html http://dict.linux.org.ua/dict/other/SSR/RE1.html Висновки Висновки Висновки
id nasplib_isofts_kiev_ua-123456789-50834
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1560-9189
language Ukrainian
last_indexed 2025-11-25T20:53:07Z
publishDate 2006
publisher Інститут проблем реєстрації інформації НАН України
record_format dspace
spelling Шерепа, Т.А.
2013-11-04T19:02:48Z
2013-11-04T19:02:48Z
2006
Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних / Т.А. Шерепа // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 114-123. — Бібліогр.: 12 назв. — укр.
1560-9189
https://nasplib.isofts.kiev.ua/handle/123456789/50834
004.8:681.3
Викладено запропоновану методику автоматичного індексування інформації у CDS/ISIS-сумісних базах даних з оцінкою значущості термінів і виявлення ключових слів документів для покращення повноти й точності видачі результатів пошуку.
Изложена разработаннaя методика автоматического индексирования информации в CDS/ISIS-совместимых базах данных с оценкой значимости терминов и определения ключевых слов документов для улучшения полноты и точности выдачи результатов поиска.
Principles of data automatic indexing for document’s key words extracting in CDS/ISIS databases in order to improve completeness and accuracy of information search results are explained.
uk
Інститут проблем реєстрації інформації НАН України
Реєстрація, зберігання і обробка даних
Системи збереження і масового розповсюдження даних
Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
Анализ значимости терминов документов в CDS/ISIS-совместимых базах данных
Analysis of Weighted Keywords in Documents of CDS/ISIS Databases
Article
published earlier
spellingShingle Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
Шерепа, Т.А.
Системи збереження і масового розповсюдження даних
title Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
title_alt Анализ значимости терминов документов в CDS/ISIS-совместимых базах данных
Analysis of Weighted Keywords in Documents of CDS/ISIS Databases
title_full Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
title_fullStr Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
title_full_unstemmed Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
title_short Аналіз значущості термінів документів у CDS/ISIS-сумісних базах даних
title_sort аналіз значущості термінів документів у cds/isis-сумісних базах даних
topic Системи збереження і масового розповсюдження даних
topic_facet Системи збереження і масового розповсюдження даних
url https://nasplib.isofts.kiev.ua/handle/123456789/50834
work_keys_str_mv AT šerepata analízznačuŝostítermínívdokumentívucdsisissumísnihbazahdanih
AT šerepata analizznačimostiterminovdokumentovvcdsisissovmestimyhbazahdannyh
AT šerepata analysisofweightedkeywordsindocumentsofcdsisisdatabases