Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку

Пропонується новий підхід для покращення існуючих інформаційних пошукових систем шляхом додання семантичних розширень, які посилюють якість послуг інформаційного пошуку. Основою підходу є використання методу LSI (Latent Semantic Indexing), де з текстових докумен тів будується семантичні концепти ко...

Full description

Saved in:
Bibliographic Details
Date:2005
Main Author: Дерецький, В.О.
Format: Article
Language:Ukrainian
Published: Інститут програмних систем НАН України 2005
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/1309
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку/В. О. Дерецький // Проблеми програмування. — 2005. — N 3. — С. 76-82. — Бібліогр.: 8 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859805889796505600
author Дерецький, В.О.
author_facet Дерецький, В.О.
citation_txt Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку/В. О. Дерецький // Проблеми програмування. — 2005. — N 3. — С. 76-82. — Бібліогр.: 8 назв. — укр.
collection DSpace DC
description Пропонується новий підхід для покращення існуючих інформаційних пошукових систем шляхом додання семантичних розширень, які посилюють якість послуг інформаційного пошуку. Основою підходу є використання методу LSI (Latent Semantic Indexing), де з текстових докумен тів будується семантичні концепти конкретної тематичної онтології і яка представлена у якості пошукового контексту користувача. Підхід націлений на автоматичне створення тематичної онтології на основі текстових документів користувача. Створена онтологія використовуються засобами асистенту семантичного пошуку, які є проміжними між запитами користувача та пошуковими машинами.
first_indexed 2025-12-07T15:16:16Z
format Article
fulltext Інформаційні системи 76 © В. О. Дерецький, 2005 ISSN 1727-4907. Проблеми програмування. 2005. № 3 УДК 681.3 В. О. Дерецький ПІДХІД ДО АВТОМАТИЧНОЇ ПОБУДОВИ ТЕМАТИЧНОЇ ОНТОЛОГІЇ ДОКУМЕНТА ДЛЯ УДОСКОНАЛЕННЯ ІНФОРМАЦІЙНОГО ПОШУКУ Пропонується новий підхід для покращення існуючих інформаційних пошукових систем шляхом додання семантичних розширень, які посилюють якість послуг інформаційного пошуку. Основою підходу є використання методу LSI (Latent Semantic Indexing), де з текстових докумен тів будується семантичні концепти конкретної тематичної онтології і яка представлена у якості пошукового контексту користувача. Підхід націлений на автоматичне створення тематичної онто- логії на основі текстових документів користувача. Створена онтологія використовуються засо- бами асистенту семантичного пошуку, які є проміжними між запитами користувача та пошуко- вими машинами. Вступ Для знаходження точної інформа- ції в Інтернет-середовищі необхідно ви- тратити надто багато часу і передивитися велику кількість Web-сайтів та Web-сто- рінок. Звичайно, пошукові машини Ін- тернет допомагають користувачеві при- скорити процес інформаційного пошуку, але часто відсутність контексту пошуко- вих слів перешкоджає ефективності по- слуг інформаційного пошуку. Ці про- блеми вирішуються шляхом впрова- дження технології XML, яка була розро- блена з метою формування опису струк- тури та семантики даних, але більшість Web-сайтів все ще створюються з вико- ристанням технології HTML. Іншою проблемою є знання про інтереси користувача або контекст в про- цесі інформаційного пошуку. Пошукові машини віднаходять та класифікують знайдену інформацію на основі ключових слів та їх характеристик. Отримується велика кількість сторінок, що містять ключові слова, проте сторінки можуть не мати необхідної інформації для користу- вача. Пошукові слова характеризуються множинами значень (проблема полісемії) [1]. Контекст, в якому ці слова з’являються, допоможе відрізнити най- більш відповідне значення запиту. У підході пропонується викорис- тати відомості про потреби користувача шляхом підтримки моделі його інтересів на стороні клієнта та використання їх для фільтрації найбільш відповідних запиту результатів. Таку модель користувач мо- же створити, застосовуючи текстові до- кументи, контекст яких його цікавить. Інший аспект запропонованої ме- тодики полягає в тому, що користувач може не мати достатньо знань про тер- міни певної предметної області, за якими здійснюється пошук інформації в Web- середовищі. Наприклад, про деталі де- яких виробів чи матеріалів користувач може не мати уявлення, але ця інформа- ція може міститись у відповідних доку- ментах, які можуть використовуватися у якості профілів інтересу користувача. Якість результатів пошуку значно різниться залежно від якості пошукового запиту: може отримуватись як надто об- межений список посилань, так і надмірно велика кількість невідповідних посилань. В окремих випадках достатньо конкрети- зувати запит парою ключових слів. Багато користувачів Інтернету шукають інформацію, яку не можна лег- ко описати за допомогою кількох ключо- вих слів. Найчастіше очікувані ре- зультати отримують за допомогою кіль- кох пошукових запитів. Тексти, одержані внаслідок одного запиту, є контекстом для формування більш точного наступ- ного запиту. Запропонований підхід спрямо- ваний на автоматичне створення темати- чної онтології з текстових документів ко- ристувача. Його метою є створення узго- джених із заданим документом чи мно- Інформаційні системи 77 жиною документів семантичних катего- рій та відповідних ключових слів. Підхід базується на використанні методу LSI (Latent Semantic Indexing) [2], за яким з текстових документів будується предметно-орієнтована онтологія, яка ви- користовується для пошукового кон- тексту користувача. Документи чита- ються, оброблюються і створюється он- тологія ієрархічної структури. Цю онто- логічну структуру можна розглядати та модифікувати за допомогою графічного інтерфейсу користувача з метою побу- дови найбільш ефективних запитів. Побу- довані семантичні інструменти прихову- ють від користувачів складність ство- рення семантичної структури та викорис- тання мови запиту конкретної пошукової машини. Засоби виконують стандартні дії, які робить більшість користувачів, щоб досягти кращих показників та отри- мати більш відповідні результати. Засоби семантичного пошуку У процесі досягнення цієї цілі ви- користовуються сучасні статистичні ме- тоди інформаційного пошуку, зокрема ме- тод латентного семантичного індексу- вання (Latent Semantic Indexing − LSI), за якими робиться спроба зрозуміти статис- тичні посилання термінів шляхом заміни простору термів документа на значно менших розмірів простір концептів. В LSI це виконується використанням ме- тоду матричної декомпозиції − Singular Value Decomposition (SVD). Ефектив- ність SVD у порівнянні з іншими мето- дами описана в [2]. Для побудови конкретної онтоло- гії використовується послідовність на- ступних процедур: читання збірки від- повідних текстових документів та вилу- чення онтологічної інформації статисти- чними методами шляхом попередньої об- робки текстів документів (Pre-process- ing), нормалізації текстів (Normalization), формування семантичних концептів, що відносяться до значимих термінів, з ви- користанням LSI та SVD. Попередня обробка є процесом, в якому здійснюється здобуття значимих термінів та підраховується їх частоти під час читання чи завантаження текстового файлу. Над текстовим документом вико- нуються кілька процедур представлення тексту в необхідному форматі для впев- неності у тому, що підрахована статис- тика є значимою. Ці процедури стосу- ються визначення загальних основ слів та відсічення відмічених, що семантично малозначні. Нормалізація − це процес, за якого рахується нормалізована вага кожного слова, яке було отримано в результаті по- передньої обробки. В попередній обробці документ аналізується в аспекті кореля- тивних слів та матриці частотності, ві- домої як матриця „терм-документ”, що створюється в результаті проведення аналізу. З використанням методу латент- ного семантичного індексування (Latent Semantic Indexing − LSI) створена мат- риця розкладається на три матриці: тер- мів (U), одинична діагональна (S) та до- кументів (V). Після мінімізації об’єму ма- триць матриця термів розкладається на вектори термінів, визначених як конце- пти, що формуються як група відповід- них термінів. Побудова онтології документа є, по суті, побудовою концептуальних та термінологічних вузлів з матриці термів (U) і документів (V). Концептуальний ву- зол представляє концепт і містить інфо- рмацію про його назву, терми, що відно- сяться до нього, та їх ваги в концепті. Графічний інтерфейс дозволяє користувачеві легко переглядати та реда- гувати онтологію. Засоби створення он- тології документа базуються на наступ- них етапах: введення (текстових докуме- нтів); попередня обробка, нормалізація; індексування за методом LSI, що базу- ється на SVD, побудова онтології доку- мента (рис. 1). Нижче розглянемо основні деталі визначених процедур. Попередня обробка документів Попередня обробка документів − це процес, за якого визначаються зна- чимі терміни і точно рахується їх часто- Інформаційні системи 78 тність під час читання текстового файла. Попередня обробка включає фільтру- вання текстового документа, щоб поле- гшити статистичний аналіз. Під час по- передньої обробки текстового докуме- нта система виконує наступні кроки: числа і розділові знаки видаля- ються; слова перевіряються та приво- дяться до загального формату символів (low-case words); наприклад, якщо текст містить слова "книга" і "Книга", то на виході програми частотність слова “кни- га” повинна дорівнювати двом. Ви- ключаються артиклі, прийменники, спо- лучники та ін. Ще один аспект попередньої обробки − це рахунок слів у конкрет- них граматичних формах (неправильні дієслова, іменники латинського похо- дження і т.д.). Остання процедура етапу попере- дньої обробки: "виділення основи” (stemming). Метою є обмежити зміни, що виникають, коли зустрічаються різні граматичні форми того ж самого слова (наприклад, "президент" − "президент- ський", "працювали" − "працівники " тощо). Для попередньої обробки докуме- нтів використовуються засоби лексичної бази даних WordNet (lexical database tools) [3, 4 ]. Функції морфологічної об- робки WordNet обробляють широкий спектр морфологічних характеристик. Засоби Morphy використовують два типи обробки, щоб спробувати конвертувати форму слова в форму, яку можна знайти в базі даних WordNet. Доступ до морфо- логічного процесора WordNet Morphy можна отримати шляхом наступних фун- кцій: morphstr() є основним інтерфей- сом користувача Morphy. Функція поля- гає в намаганні знайти основну форму слова (лему) або сполучення. В резуль- таті виконання функція повертає покаж- чик до знайденої основної форми. Пода- льші виклики функції повертають осно- вні форми слова тієї ж групи. Коли бі- льше не знайдено основних форм, то по- вертається NULL; morphword() намагається знайти основну форму слова в точно зазначеній позиції. Ця функція викликається morphstr() для кожного окремого слова. Для попередньої обробки багато- мовних документів планується скориста- тися підходом проектів WordNet Europe та WordNet Rus в яких зберігається осно- вна концепція WordNet [1]. Рис. 1. Схема засобів семантичного пошуку Засоби семантичного пошуку Запит: онтологія документа _________________ Попередня обробка Нормалізація (Word Net) LSI індексування, засноване на SVD Створення онтологій Адаптер пошукової машини Онтологічний запит - запит пошукової машини (Google queries) Пошукові машини Інформаційні системи 79 Нормалізація Нормалізація − це процес, в яко- му рахується нормалізована вага ко- жного слова, отриманого після попере- дньої обробки [5]. При нормалізації в пе- ршу чергу здійснюється визначення коре- ляції слова. Першим кроком є визна- чення числа частотності кожного терму в документі. Потім рахується вага кожного терма за наступною формулою: ∑ = = nk j kjfr kifr kiW 1 ),( ),( ),( , де W(i, k) − вага i-го терма в k-му докуме- нті; nk − загальна кількість термів в доку- менті; fr (i, k) – частота терма i в документі k. Ця вага відповідає терму в документі. Але вага терму повинна нормалізува- тися відповідно до множини документів. У наступному кроці нормалізація кожного окремого документа об’єднується з нормалізацією збірки до- кументів. Треба зауважити, що термін може мати велику вагу просто тому, що документ, в якому він зустрічається, є за- малий і тому розраховується частота, з якою він зустрічається по всій збірці до- кументів. Нормалізована вага терму роз- раховується за формулою )( 2 1 ),( ),( ik W j nk kiW kiNW = = . Цей процес є стандартною норма- лізацією термів для документа [6]. Створення матриці „терм-документ” На цьому етапі текстовий доку- мент представляється як група значимих нормалізованих термінів. Ваги нормалі- зованих термінів разом формують мат- рицю W, де W(i,k) = NW (i, k). На цю ма- трицю посилаються як на термінологі- чну матрицю документа. Рядками термі- нологічної матриці є терміни, а докуме- нти представляються її стовпцями. Таким чином створюється термі- нологічна матриця документа, яка опи- сує частотність значимих термінів в ко- жному документі збірки. Для цього ви- значаються значимість термінів, що зу- стрічаються в різних документах. При обробці нового документа система по- винна перевірити, чи ці нові терміни вже є граматичними формами деяких попередніх термінів. Результатом цього процесу є тер- мінологічна матриця документа, що міс- тить значимі терміни всієї збірки доку- ментів у якості рядів, і документів збі- рки у якості стовпців. Метод семантичного індексування На цьому етапі визначається гру- па концептів з термінологічної матриці документа, де концепт визначається як група відповідних термів. Це здійснюємо шляхом використання методу, що має назву методу латентного семантичного індексування (Latent Semantic Indexing − LSI), який включає процедуру декомпо- зиції матриці W з використанням методу Singular Value Decomposition (SVD) [6]. Метод LSI − це статистичний ме- тод, який пов’язує терміни тексту в сема- нтичну структуру без синтаксичного чи семантичного аналізу природномовних текстів та без ручного втручання лю- дини. Використовуючи цей метод, кож- ний документ представляється не за те- рмінами, а за концептами, які деякою мірою дійсно статистично незалежні, а терміни – не є такими. Терміни не мо- жуть використовуватися у якості де- скриптора документа, оскільки припус- кається, що вони незалежні. Але деякі терміни повторно зустрічаються в різних документах, і не повинні розглядатися як незалежні. Концепція LSI досліджена та опи- сана в [2]. Метод LSI використовує в свою чергу метод SVD – Singular Value De- composition, ретельно описаний в [2, 6]. Метод матричної декомпозиції Метод SDV − Singular Value De- composition – відомий метод матричної декомпозиції [3]. Він розкладає матрицю W, наприклад: термінологічна матриця документів m× n з термінами m та доку- ментами n: W = U * S * V, Інформаційні системи 80 де U – m× r матриця, що називається термінологічною; V – r× n матриця, яка називається матрицею документів і S – r × r діагональна матриця, що містить одиниці по діагоналі в порядку зме- ншення. У цій декомпозиції величини i відповідають вектору ui згідно стовпчика i у матриці U та vi рядку і у матриці V. Без втрат узагальнення для будь-якої частини документа можна допустити, що стовпчики матриці U, рядки матриці V та діагональні величини матриці S впо- рядковані таким чином, що величини упорядковані вниз по діагоналі в порядку зменшення. За допомогою методу LSI фо- рмується нова матриця. Ws = Us * Ss * Vs , де Ws створено з W шляхом видалення всіх найбільших значень s; Us − з U шля- хом видалення всіх стовпчиків, які відпо- відають значенням s, що залишилися. Vs сформовано з V шляхом видалення s від- повідно до рядків, де s ≤ r. Згідно [3], матриця Ws – це приблизна відповідність матриці W із зростаючою точністю, оскі- льки s наближається до r. У запропоно- ваному підході видаляються всі s, зна- чення яких нижче порогу, що визнача- ється як процент найбільшого значення. Матриця Us − це матриця m× s , що представляє кореляції між термінами у збірці документів. Кожний стовпчик цієї матриці ui є вектором, який розгляда- ється як такий, що представляє концепт. Елементи ui дають кореляцію термінів до концепту. Частота концепту в докумен- тах представлена величиною i. Детальну інформацію про метод SVD можна отри- мати з [2]. Формування онтології документа Побудова онтології документа є, по суті, побудовою концептуальних вузлів та термінологічних вузлів матриці термінів U та матриці документу V, отриманих з SVD. Концептуальний вузол представ- ляє концепт, що містить інформацію про свою назву та терміни, які належать до нього, і їх вагу в концепті. Назва конце- пту породжується автоматично з най- більш частотних його термінів, які пи- шуться через дефіс. Кожний стовпчик у матриці документа U відповідає концеп- туальному вузлу. Термінологічний вузол представ- ляє термін і містить інформацію про її назву, концепт, до якого він належить, та його вагу в різних концептах. Назва тер- міну генерується автоматично і вона сама є просто терміном. Кожний рядок в мат- риці документа U відповідає вузлу тер- міну. Формування графа онтології Онтологія представляється у ви- гляді графа. Маються два типи вузлів: концептуальні і термінологічні. Сфор- мований граф використовується, щоб по- казати зв’язки між різними термінами та концептами. Концептуальні вузли поєд- нані з термінологічними, які непрямо пов’язані з іншими концептуальними. Термінологічні вузли зв’язані з іншими термінологічними вузлами тільки шля- хом зв’язування з вузлом загального концепту. Онтологічний граф будується з матриці U та списку назв термінів. З век- тора ui видаляються терміни низької ко- реляції шляхом встановлення нуля в ui, для тих термінів, які нижче певного по- рогу найбільш корелятивних термінів в ui. В результаті отримано модифіко- ваний вектор ui, який стає зразком для побудови концептуального вузла. Конце- птуальний вузол з’єднується зі всіма те- рмінами, що містять ненульові елементи в модифікованому ui векторі, а терміно- логічні вузли будуються тільки для тер- мінів, які з’єднуються з концептуаль- ними вузлами. Всім вузлам надаються імена. Те- рмінологічним вузлам даються назви, що відповідають назві терміну, що викорис- товується. Концептуальні вузли буду- ються автоматично. Назва концепту складається із п’яти найбільш високо корелятивних термінів у векторі конце- пту, написаних через дефіс. Оскільки це не приводить до надмірно інтуїтивних концептуальних назв, користувач пови- нен мати можливість змінити назву кон- Інформаційні системи 81 цепту до більш придатної, використову- ючи графічний інтерфейс користувача (GUI). Графічний інтерфейс користувача Графічний інтерфейс користувача (далі − інтерфейс) дозволяє створювати, перевіряти та маніпулювати онтологією. Інтерфейс включає компоненти відобра- ження графа, ієрархію концептів, список термінів, документів і також функції створення та зміни, що дозволяють кори- стувачеві створювати та редагувати он- тологію [7, 8]. Екранні форми графічного інтерфейсу представлені на рис. 2, рис.3. Користувач може створювати групи шляхом вибору концептів та тер- мінів із списку концептів та списку тер- мінів відповідно. На екрані відображається ієрархії концептів, з’єднані між собою та відпові- дними термінами (рис. 3). Напрямки подальшого дослідження Внесення декількох удосконалень до системи зробить її більш універсаль- ною. Однією з проблем є поліпшення опрацювання документів, які зміню- Рис. 3. Графічний інтерфейс користувача. Онтологія документа Значимі терміни кожного концепту Ієрархія концептів Редагув. термінів Редагув. концепту Сервіс пошуку Рис. 2. Графічний інтерфейс користувача для побудови онтології документа Рівень деталізації Список документів Відкрити файл Створити онтологію Повернутися до сервісів Інформаційні системи 82 ються, наприклад оновлені Web-сторі- нки, друга полягає у визначенні семан- тики зв’язків концептів та в використанні зв’язків між концептами в якості запиту. Висновки У статті запропоновані підхід та система створення онтології з текстових документів з використанням методу LSI, який будує предметно-орієнтовану онто- логію із збірки текстових документів. Метод, у цій конструкції є статистичним. Він застосовує добре відому матричну декомпозицію та надає результати, дійс- ність яких підтверджується теоретично. Система забезпечує швидке формування предметно-орієнтованої онтології для ви- користання її в якості запиту в інформа- ційно-пошукових системах. 1. RussianWordNet. - http://www.pgups.ru/ webwn/ 2. Berry M.W., Dumais S.T., O’Brein G.W. Using linear algebra intelligent information retrieval // SIAM Review. –1995. –37(4). – P. 573-595. 3. Miller G.A., Beckwith R., Fellbaum Ch., Gross D., Miller K. Introduction to Word- Net: An On-line Lexical Database. http://www.isi.edu/isd/kr/5papers.pdf 4. WordNet. - http://www.cogsci.princeton.edu /~wn/ 5. Bassu D., Behrens C. Applied Research Dis- tributed LSI: Scalable Concept-based In- formation Retrieval with High Semantic Resolution. - http://research.telcordia.com 6. Chen C., Stoffel N., Post M. Telcordia LSI Engine: Implementation and Scalability Is- sues. http://citeseer.ist.psu.edu/chen01telco- rdia.html 7. Андон П.І., Дерецкий В.А. Процесори по- шуку та аналізу природномовної тексто- вої інформації в аналітичних системах // Проблемы программирования. − 2001. − N3-4. − С.144-165. 8. Дерецкий В.А. Об одном подходе к обра- ботке естественно-языковых данных на основе анализа семантических сетей // Первая Всерос. науч. конф. “Электрон- ные библиотеки: Перспективные методы и технологии, электронные коллекции”, 18-22 октября 1999 г., Санкт-Петербург. − С.100-103. Отримано 19.04.05 Про автора Дерецький Валентин Олександрович, канд.фіз.-мат.наук, провідний науковий співробітник Місце роботи автора: Інститут програмних систем НАН України, Просп. Академіка Глушкова, 40 Київ-187, 03680, Україна Тел. (044) 526 4342 E-mail:dva@isofts.kiev.ua
id nasplib_isofts_kiev_ua-123456789-1309
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1727-4907
language Ukrainian
last_indexed 2025-12-07T15:16:16Z
publishDate 2005
publisher Інститут програмних систем НАН України
record_format dspace
spelling Дерецький, В.О.
2008-07-25T15:21:40Z
2008-07-25T15:21:40Z
2005
Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку/В. О. Дерецький // Проблеми програмування. — 2005. — N 3. — С. 76-82. — Бібліогр.: 8 назв. — укр.
1727-4907
https://nasplib.isofts.kiev.ua/handle/123456789/1309
681.3
Пропонується новий підхід для покращення існуючих інформаційних пошукових систем шляхом додання семантичних розширень, які посилюють якість послуг інформаційного пошуку. Основою підходу є використання методу LSI (Latent Semantic Indexing), де з текстових докумен тів будується семантичні концепти конкретної тематичної онтології і яка представлена у якості пошукового контексту користувача. Підхід націлений на автоматичне створення тематичної онтології на основі текстових документів користувача. Створена онтологія використовуються засобами асистенту семантичного пошуку, які є проміжними між запитами користувача та пошуковими машинами.
uk
Інститут програмних систем НАН України
Інформаційні системи
Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
The approach of automatic construcring document ontology for improving information retrieval systems
Article
published earlier
spellingShingle Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
Дерецький, В.О.
Інформаційні системи
title Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
title_alt The approach of automatic construcring document ontology for improving information retrieval systems
title_full Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
title_fullStr Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
title_full_unstemmed Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
title_short Підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
title_sort підхід до автоматичної побудови тематичної онтології документа для удосконалення інформаційного пошуку
topic Інформаційні системи
topic_facet Інформаційні системи
url https://nasplib.isofts.kiev.ua/handle/123456789/1309
work_keys_str_mv AT derecʹkiivo pídhíddoavtomatičnoípobudovitematičnoíontologíídokumentadlâudoskonalennâínformacíinogopošuku
AT derecʹkiivo theapproachofautomaticconstrucringdocumentontologyforimprovinginformationretrievalsystems