Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем

Розглянуто основні методи текстового аналізу та базових ролей онтологій при створенні інтелектуальних пошукових систем інформації. Наведено приклади використання онтологій на етапах збору та класифікації інформації, інтерпретації користувацьких запитів, безпосередньо пошуку релевантної інформації в...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2011
Hauptverfasser: Глибовец, Н.Н., Глибовец, А.Н., Шабинский, А.С.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2011
Schriftenreihe:Проблемы управления и информатики
Schlagworte:
Online Zugang:https://nasplib.isofts.kiev.ua/handle/123456789/207381
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем / Н.Н. Глибовец, А.Н. Глибовец, А.С. Шабинский // Проблемы управления и информатики. — 2011. — № 6. — С. 95–102. — Бібліогр.: 10 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-207381
record_format dspace
spelling irk-123456789-2073812025-10-07T00:00:48Z Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем Застосування онтологій та методів текстового аналізу при створенні інтелектуальних пошукових систем The Ontologies and Methods of Text Analysis Application in Development of Intelligent Search Systems Глибовец, Н.Н. Глибовец, А.Н. Шабинский, А.С. Методы обработки информации Розглянуто основні методи текстового аналізу та базових ролей онтологій при створенні інтелектуальних пошукових систем інформації. Наведено приклади використання онтологій на етапах збору та класифікації інформації, інтерпретації користувацьких запитів, безпосередньо пошуку релевантної інформації в документі. The review and detailed analysis of the main text analysis methods and basic roles of the ontologies in development of intelligent search systems are made. There are examples of using ontologies on different stages of such systems. 2011 Article Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем / Н.Н. Глибовец, А.Н. Глибовец, А.С. Шабинский // Проблемы управления и информатики. — 2011. — № 6. — С. 95–102. — Бібліогр.: 10 назв. — рос. 0572-2691 https://nasplib.isofts.kiev.ua/handle/123456789/207381 004.8 10.1615/JAutomatInfScien.v43.i12.40 ru Проблемы управления и информатики application/pdf Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Методы обработки информации
Методы обработки информации
spellingShingle Методы обработки информации
Методы обработки информации
Глибовец, Н.Н.
Глибовец, А.Н.
Шабинский, А.С.
Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
Проблемы управления и информатики
description Розглянуто основні методи текстового аналізу та базових ролей онтологій при створенні інтелектуальних пошукових систем інформації. Наведено приклади використання онтологій на етапах збору та класифікації інформації, інтерпретації користувацьких запитів, безпосередньо пошуку релевантної інформації в документі.
format Article
author Глибовец, Н.Н.
Глибовец, А.Н.
Шабинский, А.С.
author_facet Глибовец, Н.Н.
Глибовец, А.Н.
Шабинский, А.С.
author_sort Глибовец, Н.Н.
title Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
title_short Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
title_full Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
title_fullStr Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
title_full_unstemmed Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
title_sort применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2011
topic_facet Методы обработки информации
url https://nasplib.isofts.kiev.ua/handle/123456789/207381
citation_txt Применение онтологий и методов текстового анализа при создании интеллектуальных поисковых систем / Н.Н. Глибовец, А.Н. Глибовец, А.С. Шабинский // Проблемы управления и информатики. — 2011. — № 6. — С. 95–102. — Бібліогр.: 10 назв. — рос.
series Проблемы управления и информатики
work_keys_str_mv AT glibovecnn primenenieontologijimetodovtekstovogoanalizaprisozdaniiintellektualʹnyhpoiskovyhsistem
AT glibovecan primenenieontologijimetodovtekstovogoanalizaprisozdaniiintellektualʹnyhpoiskovyhsistem
AT šabinskijas primenenieontologijimetodovtekstovogoanalizaprisozdaniiintellektualʹnyhpoiskovyhsistem
AT glibovecnn zastosuvannâontologíjtametodívtekstovogoanalízupristvorennííntelektualʹnihpošukovihsistem
AT glibovecan zastosuvannâontologíjtametodívtekstovogoanalízupristvorennííntelektualʹnihpošukovihsistem
AT šabinskijas zastosuvannâontologíjtametodívtekstovogoanalízupristvorennííntelektualʹnihpošukovihsistem
AT glibovecnn theontologiesandmethodsoftextanalysisapplicationindevelopmentofintelligentsearchsystems
AT glibovecan theontologiesandmethodsoftextanalysisapplicationindevelopmentofintelligentsearchsystems
AT šabinskijas theontologiesandmethodsoftextanalysisapplicationindevelopmentofintelligentsearchsystems
first_indexed 2025-10-07T01:12:37Z
last_indexed 2025-10-08T01:07:15Z
_version_ 1845373839931867136
fulltext © Н.Н. ГЛИБОВЕЦ, А.Н. ГЛИБОВЕЦ, А.С. ШАБИНСКИЙ, 2011 Международный научно-технический журнал «Проблемы управления и информатики», 2011, № 6 95 УДК 004.8 Н.Н. Глибовец, А.Н. Глибовец, А.С. Шабинский ПРИМЕНЕНИЕ ОНТОЛОГИЙ И МЕТОДОВ ТЕКСТОВОГО АНАЛИЗА ПРИ СОЗДАНИИ ИНТЕЛЛЕКТУАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ Введение С момента становления информационного поиска (ИП) как отдельного науч- ного направления его основной проблематикой неизменно является качественное удовлетворение информационной потребности пользователя. С появлением кон- цепции семантического веба информационный поиск развивается в направлении систем с имитацией понимания сути информации [1]. Пользователь заинтересован не просто найти множество документов, отвечающих его запросу (в идеале ин- формационной потребности), а и отличить документы, соответствующие запросу. Для этого в поисковых системах вычисляются точные показатели, а результиру- ющее множество документов упорядочивается в соответствии с выбранной мето- дикой ранжирования. Пользователей и исследователей интересует способность поисковой системы находить релевантные документы. Эффективность системы ИП оценивают би- нарной классификацией документов коллекции на релевантные и нерелевантные, а релевантность — как информационную потребность пользователя, а не простое соответствие между запросом и найденным документом. Важная задача ИП — обеспечение достаточной выразительности языка запросов, не менее важны зада- чи классификации и кластеризации документов. В настоящее время в качестве формы представления знаний чаще применя- ются онтологии. Онтология в философии — наука о бытии, в информатике — яв- ная спецификация концептуализации, лежащей в основе формального представ- ления знаний как абстрактного представления реальности, которую необходимо отразить для некоторых потребностей [2]. Так, в [3] онтология определена как спецификация концептов естественного или формального языка; отношение меж- ду концептами; правила применения отношений к концептам; интерпретация каждой спецификации концепта в соответствующее понятие предметной области. По ряду требований интеллектуальные поисковые системы (ИПС) преобла- дают над классическими поисковыми системами, основанными на поиске по клю- чевым словам. Преимущества проявляются не только в модели ИП, но и во взаи- модействии с пользователем, в участии экспертов, в механизме ранжирования ре- зультатов. В ИПС сделана попытка «понять» информационную потребность пользователя, учитывая, что пользователь часто не может четко сформулировать информационный запрос к ИПС. В ИПС накопление знаний на основе опыта, в частности экспертов, трансформирует поиск в семантический по источникам из Интернет. Образцом ИПС является система, в которой определение соответствия доку- мента информационной потребности (а вместе с этим и ранжирование) выполняет человек, а остальные необходимые процессы ИП (сбор, индексация, классифика- ция, любая механическая обработка информации и т.п.) возлагаются на про- граммный вычислитель. Такая ИПС гипотетическая, но она лучше передает суть идеализированной поисковой системы, в которой информационная потребность пользователя удовлетворяется в полной мере, естественно, при наличии нужной информации. 96 ISSN 0572-2691 1. Использование онтологий для определения идентичности документов в модели eTVSM Улучшенная тематическая векторно-пространственная модель ИП (Enhanced Topic-based Vector Space Model — eTVSM) [4] эволюционировала из тематиче- ской векторно-пространственной модели (Topic-based Vector Space Model — TVSM), которая, в свою очередь, эволюционировала из классической векторно- пространственной модели (Vector Space Model — VSM). 1.1. Векторно-пространственная модель. Впервые она использовалась в 1960-х годах в поисковой системе SMART (System for the Mechanical Analysis and Retrieval of Text) Information Retrieval System, разработал ее Дж. Салтон [4]. Она относится к классу алгебраических и представляет документ в виде вектора в многомерном векторном пространстве. Каждое измерение пространства соответ- ствует одному термину, поэтому главный постулат модели — ортогональность (не- зависимость) терминов. Компоненты вектора соответствуют терминам в документе, а значение компонента определяется значимостью (весом) термина в документе. Вес термина рассчитывается на основе таких статистических метрик, как частота появления в тексте и т.д. Наконец, соответствие между документами рассчитыва- ется с помощью скалярного произведения и часто выражается косинусом угла между векторами. Векторно-пространственную модель неоднократно критиковали за ее специ- фичность, неприспособленность к большим объемам информации из-за малых скалярных произведений и большой размерности векторов; невосприимчивость к различным словоформам; за наличие подстрок, способных привести к ошибочной релевантности (ошибочная релевантность в информационном поиске означает наличие в результирующей выборке таких документов, которые на самом деле не являются релевантными к запросу (в статистике — ошибка второго рода)); семан- тическую невосприимчивость, за различные термины с одинаковым или похожим неассоциируемым значением, вызывающим ошибочную нерелевантность (оши- бочная нерелевантность означает, что релевантные документы не попадают в ре- зультат (в статистике — ошибка первого рода)) и игнорирование порядка терми- нов в документе. 1.2. Тематическая векторно-пространственная модель. В модели TVSM преодолены ограничения VSM [5] благодаря введению отношений между словами. Поначалу улучшения модели достигли, устранив предположение об ортогонально- сти терминов, затем ввели понятие фундаментальных тем как векторов в ортого- нальном базисе векторного пространства. Так, принцип независимости «перешел» от терминов к темам. Вес термина определен как модуль вектора: ,)...,,,( 21 Rtttt kdkkk   kt — термин, R — векторное пространство, d — количество тем (размерность пространства R): ].1;0[... 22 2 2 1  kdkkk tttt  При таком представлении тем и терминов направление вектора-термина определяет принадлежность термина теме или темам, с которыми он имеет оди- наковое направление, причем мера принадлежности определяется углами к соот- ветствующим векторам-темам. Для тематически неспецифических терминов (со- юзы и т.д.) угол равнозначен всем векторам-темам и равен 45°. Аналогично длине векторов-терминов тематически специфические термины имеют длину, стремя- щуюся к единице, неспецифические — к нулю. Международный научно-технический журнал «Проблемы управления и информатики», 2011, № 6 97 В модели TVSM документы тоже представлены векторами. Векторы-доку- менты для удобства нормализованы к единице по длине: ,Rd k k k        , 1 kki n i k te     где kie — частота появления термина i в документе k. Сходство двух документов определяется по скалярному произведению, пред- ложенному в VSM. Благодаря нормализации векторов-документов сходство до- кументов является косинусом угла между соответствующими векторами: .coscos),(sim 212121  dddddd  Поскольку модель TVSM отражает лишь общую идею представления доку- ментов и определения сходства между ними, в ней не определены фиксированные методы задания углов и веса векторов, а лишь некоторые требования для повы- шения эффективности. Вес термина, специфический для определенных тем, близок к единице; вес не- специфических — к нулю. Угол между словами с общей основой должен быть 0°. Угол между синонимами или словами, близкими по теме, должен приближаться к 0°, а между тематическими словами и стоп-словами (союзы, предлоги, артикли) быть 45°. Угол между стоп-словами должен быть близок к 0°. По сравнению с классической моделью VSM модель TVSM повышает вос- приимчивость системы к связям между словами, в частности синонимии, и сло- воформам (падежам, множественному числу, склонениям и т.п.). Модель TVSM эволюционировала в улучшенную TVSM, в которой детали- зирована концепция отношений между понятиями благодаря устранению незави- симости между темами и использованию онтологий как источника знаний о се- мантической связи между понятиями предметных областей. В eTVSM способ определения сходства документов построен не на принципе сходства терминов, а на основе их интерпретации. Модель оперирует понятиями слова, основы слова, термина, интерпретации и темы. Документы представлены в виде векторов- интерпретаций [6, 7]. 1.3. Улучшенная тематическая векторно-пространственная модель. В eTVSM онтология использована для формирования операционного векторного пространства на основе понятий термина, его интерпретации и темы [6]. Устранен принцип независимости тем и ортогональность соответствующих векторов, зато отношения между темами, заложенные в онтологии, прежде всего определяют уг- лы между соответствующими векторами, используя карту тем (topic map). Карта тем — ориентированный граф, узлами которого являются темы, а ребрами — от- ношения «супертема–субтема». Наконец, сходство тем расчетывается как скаляр- ное произведение векторов-тем [7]. В модели eTVSM интерпретации используются как промежуточные звенья между темами и терминами и несут семантическую нагрузку. Интерпретации да- ют свободу разработчикам поисковых систем определять связи между понятиями в зависимости от целей или потребностей. Формализм расчета сходства интерпре- таций аналогичен темам [6]: , )( )( )( k k i i ik ik w            (1) 98 ISSN 0572-2691 где i — множество всех интерпретаций, ]1;0[)( iw — вес интерпретаций, )()( iT — множество тем соответствующей интерпретации, ,2)(  Θ — число тем. Термин как единица информации в eTVSM может состоять из нескольких слов и обозначать целостное понятие. С каждым термином связано произвольное количество интерпретаций. Между самими терминами невозможны связи, что устраняет циклы из структуры онтологии [6, 7]. В отличие от предыдущих систем, eTVSM оперирует интерпретациями как основными носителями содержания документов вместо работы с исходными тек- стами документов. Восприимчивость практически ко всем лингвистическим свя- зям и семантическим отношениям между понятиями существенно улучшает ИП. Путь от документа к интерпретации преодолевается в несколько этапов [6]. Документ  Простой текст. Из исходного текста устраняется форматиро- вание и метаданные. Простой текст  Слова. Путем токенизации (tokenization) пробелами текст разбивается на отдельные слова. Слова  Основы слов. Стемминг-алгоритм (стеммер) преобразовывает слова из входных словоформ в начальную форму, отсекая суффиксы и окончания и оставляя основу слова. Результат зависит от конкретной реализации стеммера. Слова  Понятия. На основе онтологии из набора слов выбираются отдель- ные понятия, присущие онтологии. Устраняются стоп-слова, не принадлежащие определенным терминам. Понятия  Интерпретации. На основе онтологии сопоставляются понятия интерпретации. Подобие документов в eTVSM определяется аналогично TVSM, с той лишь разницей, что вместо векторов-тем и веса тем используют векторы-интерпретации и вес интерпретаций [6]: ,Ddi  где D — множественное число всех документов, ,: l l li dDd       ,jijl j     где ij — вес интерпретации j в документе i. Теоретически модель eTVSM привлекательна для построения высокоэффек- тивных поисковых систем, в основном за счет онтологий, т.е. восприимчивости к семантической связи между понятиями в документах. Очевидно, это существен- ное преимущество по сравнению с классическими поисковыми системами, где весь процесс поиска основан на ключевых словах и их словоформах. От качества моделирования онтологий зависит эффективность поисковых систем. В [7] предложен подход к автоматическому построению онтологии в eTVSM на основе WordNet (WordNet — большая лексическая база английского языка, разработанная под руководством Дж. Миллера в Принстонском университете, это сеть содержательно связанных слов и понятий, представленных множеством си- нонимических существительных, прилагательных, наречий и глаголов). В резуль- тате сравнений сделан вывод, что eTVSM с онтологией на основе WordNet менее эффективна, чем eTVSM с онтологией синонимов и даже VSM. Как онтология общего назначения WordNet не может отразить большинство устоявшихся слож- ных понятий, специфику их значения и контекста. Зато в [6] предложено исполь- зовать полуавтоматический подход к моделированию онтологий для eTVSM. В работе [8] вместо интерпретаций eTVSM использованы аннотации доку- ментов, причем понятия в документе сопоставляются с определенными предмет- ными областями. Хотя механизмы реализации интерпретаций и специфические  Интерпретация в общем случае, как указано ранее. Международный научно-технический журнал «Проблемы управления и информатики», 2011, № 6 99 моменты в [7] и [8] существенно отличаются, общий подход остается неизменным и заключается в использовании онтологий в виде специализированных баз знаний для имитации определения смысла понятий и их значений в документе. 2. Использование онтологий для интеллектуального сбора информации В системах ИП определению соответствия между документами предшеству- ют эффективный сбор и первичная обработка разрозненной информации во мно- жестве первоисточников. Маловероятно, что сфера заинтересованности пользова- теля ограничивается лишь отдельным ресурсом, а соединение нескольких источни- ков в один не может быть оптимальным, прежде всего, ввиду права собственности и неоправданного дублирования больших объемов информации, тем более, что в об- щем случае областью поиска может стать выбор из сотен или даже тысяч элек- тронных ресурсов. Возможности классических поисковых систем (Google, Bing, Yandex) далеки от семантического сбора информации и в основном базируются на непосредственном анализе ключевых слов. Итак, в семантической сети, а в итоге и в ИПС есть задача эффективного интеллектуального сбора информации из большого числа источников. Рассмотрим онтологически-ориентированный сбор информации с ограни- ченными предметными областями на примере системы AGATHE [9]. Как сов- местный проект Франции и Бразилии AGATHE реализует кооперативный подход (Cooperative Information Gathering) к сбору информации на основе программных агентов и онтологий выбранных предметных областей. Концептуально система состоит из трех подсистем (см. рисунок): внешнего интерфейса (Frontend subsystem — FSS), извлечения информации (Extraction subsystem — ESS) и поисковой подсистемы (Search subsystem — SSS). Клиенты Хранилище Кластер N Кластер 1 Источники FSS ESS SSS Поисковая подсистема отвечает за запросы к внешним информационным источникам и непосредственный сбор информации. Она использует три вида агентов: поисковые, работающие с известными поисковыми системами (Google, Bing); ресурсные, работающие с ресурсными сайтами, и цитатники, например CiteSeer; надзорный агент, контролирующий функционирование агентов двух первых видов. Полученные поисковой подсистемой документы обрабатывает подсистема извлечения информации как центральный компонент архитектуры AGATHE. Она состоит из нескольких кластеров (extraction cluster), каждый отвечает за опреде- ленную предметную область. Агенты этой подсистемы выполняют функции клас- сификации, получая информацию из онтологий предметных областей и единой служебной онтологии AGATHE. Каждый кластер имеет нескольких агентов с раз- ными задачами. Информация, извлеченная из этой подсистемы, передается в под- системы внешнего интерфейса, управляющие хранением результатов классифи- кации и получением релевантных данных. Подсистема внешнего интерфейса поддерживает взаимодействие с системой. Кроме непосредственно компонента, отвечающего за контакт с пользователем или с некоторым клиентским приложением, есть компонент, управляющий хранением информации, полученной от подсистемы извлечения информации. 100 ISSN 0572-2691 В AGATHE применяется несколько тематических и одна внутренняя онтоло- гии. Тематические онтологии используют агенты соответствующих предметных областей для анализа содержания документов (веб-страниц). Внутренняя служит основой классификации материалов, определяя главные сущности относительно веб-страниц (адрес, резюме, содержание), отдельные понятия в тексте и т.п. 3. Онтологически-ориентированная интерпретация ключевых слов для семантического поиска Обычно пользователь упрощенно, интуитивно выражает свою потребность, часто в виде нескольких ключевых слов. В ИПС необходимо интерпретировать ключевые слова в более выразительные и контекстно-ориентированные запросы в терминах самой системы, а не в терминах пользователя. Оценим онтологически- ориентированный подход к интерпретации ключевых слов [10]. 3.1. Модели интерпретации запросов. Традиционный поиск по ключевым словам основан на модели запросов и модели ресурсов, а семантический, базиру- ющийся на онтологиях, — на четырех других моделях [10]. Модель мышления (ментальная модель) UO формализует информационную потребность пользователя в начале процедуры информационного поиска. По- скольку истинные механизмы человеческого мышления далеки от понимания, то постулируется лишь тот факт, что модель состоит из сущностей, соответствую- щих предметам реального мира, и принадлежит области знаний пользователя. Естественно, пользователь может интересоваться сущностями, не относящимися к модели и называемыми пробелами (gaps). Модель вопросов пользователя UQ состоит из элементов, которые конструи- руются из языковых примитивов UP языка пользователя .UL Эта модель выра- жает элементы UO в виде элементов UP языка пользователя .UL Модель системных ресурсов SO состоит из языковых примитивов SP языка системы ,SL основана на знаниях, выраженных в онтологиях, и в отличие от аб- страктной модели UΟ имеет четкую и доступную структуру. Элементы модели формируют базу знаний ИПС. Модель вопросов системы SQ представляет окончательно обработанную версию вопроса пользователя как конструкцию из языковых примитивов SP язы- ка запросов системы ,SL которые обычно выражены элементами онтологий ИПС. 3.2. Онтологически-ориентированная интерпретация запроса. В работах [7, 9, 10] четко просматривается наличие единого принципа отражения реально- сти в интеллектуальных системах интерпретаций. Правда, формально механизмы во всех трех исследованиях различаются, но сохраняют общую природу — сущ- ности реального мира формально соотносятся с сущностями модели знаний. В [10] соотносимость обеспечивается одноименным предположением. В целом подход основан на двух предположениях: П1 (онтологически-мысленная соотносимость): все сущности UO семантиче- ски и структурно соотносятся с сущностями ;SO П2 (локальность информационной потребности): все элементы ,SS OO  от- вечающие конкретной информационной потребности ,UO должны быть связаны цепочкой максимальной длины d : .,,...,,,)(,:, 11000 bxxxxxxaxbaOba nnn d nnS   Предположение предусматривает, что пользователь мыслит структурами, полностью соотносимыми с сущностями онтологий, причем каждая отдельная информационная потребность отображается только в части онтологии. Международный научно-технический журнал «Проблемы управления и информатики», 2011, № 6 101 В терминах декларативной логики П1 переформулирум более строго. 1П  (допускается, что мыслительные модели пользователей построены по- добно базам знаний, основанным на декларативных логиках). Сущности ,UΟ принадлежащие дизъюнктивному объединению  },,,,,,{ URDCTI отвечают сущностям онтологии на основе SHOIN(D) (I — индивиды, T — значения вели- чин, C — понятия (concepts), D — интервалы величин, R — объектные свойства, U — количественные свойства). Ассоциации в UΟ пользователей соответствуют отношениям ,,,,,,,, 21 jUiiRiCi где .,,, 21 TjIiii  Приведем схему алгоритма интерпретации ключевых слов [10]. Шаг 1. Термины языка пользователя сопоставляются сущностям в онтологии .: SU OQf  Шаг 2. Поиск связей между сущностями в онтологии. Шаг 3. Построение запросов. Шаг 4. Вычисление всех возможных цепочек между элементами .SO Шаг 5. Сопоставление запросов вычисленным цепочкам. Шаг 6. Ранжирование запросов (в соответствии с П2 лучшей будет более ко- роткая цепочка). Итак, в ИПС сначала пользователь формулирует запрос в виде ключевых слов, обработка которых возвращает соответствующие онтологические сущности (шаг 1) алгоритма интерпретации ключевых слов. Применяя к ним шаг 2, строит- ся граф всех связанных сущностей с ограниченой длиной цепочки связей. На этом этапе пользователь может выбрать дальнейшее расширение графа (уточнение, дета- лизацию запроса) либо перейти к результатам поиска по запросу. В первом случае он может улучшать запрос в рамках определенной онтологии, во втором запрос пе- редается на следующий этап (шаг 3). По одному из окончательных формальных за- просов будет построен результат поиска с использованием базы знаний. Заключение В примерах использования онтологий на этапах сбора и классификации ин- формации, интерпретации пользовательских запросов, поиска релевантной ин- формации в документе особый акцент сделан на качественном подборе функции интерпретации. Разработчики систем ИП могут свободно определять интерпрета- ции и это оказывает существенное влияние на общую эффективность системы. Рассмотренные нами разные роли онтологий в поисковых системах при создании интеллектуальных поисковых систем, безусловно, сочетаются, дополняя друг друга. В большинстве работ по построению ИПС постулируется наличие готовой он- тологии или онтологий. Отметим, что автоматизация построения онтологий являет- ся открытой и недостаточно развитой, что определяет актуальность исследований. М.М. Глибовець, А.М. Глибовець, А.С. Шабінський ЗАСТОСУВАННЯ ОНТОЛОГІЙ ТА МЕТОДІВ ТЕКСТОВОГО АНАЛІЗУ ПРИ СТВОРЕННІ ІНТЕЛЕКТУАЛЬНИХ ПОШУКОВИХ СИСТЕМ Розглянуто основні методи текстового аналізу та базових ролей онтологій при створенні інтелектуальних пошукових систем інформації. Наведено приклади 102 ISSN 0572-2691 використання онтологій на етапах збору та класифікації інформації, інтерпре- тації користувацьких запитів, безпосередньо пошуку релевантної інформації в документі. N.N. Glybovets, A.N. Glybovets, А.S. Shabinskiy THE ONTOLOGIES AND METHODS OF TEXT ANALYSIS APPLICATION IN DEVELOPMENT OF INTELLIGENT SEARCH SYSTEMS The review and detailed analysis of the main text analysis methods and basic roles of the ontologies in development of intelligent search systems are made. There are ex- amples of using ontologies on different stages of such systems. 1. Manning C.D., Raghavan P., Schütze H. Introduction to information retrieval. — New York : Cambridge University Press, 2008. — 496 p. 2. Gruber T.R. Toward principles for the design of ontologies used for knowledge sharing // Intern. J. Human-Comput. Stud. — 1993. — 43. — P. 907–928. 3. Мейтус В.Ю. Інтелектуальні системи, онтології та онтологічні системи // Наукові записки НАУКМА. Комп’ютерні науки. — 2009. — 99. — C. 4–14. — http://www.nbuv.gov.ua/portal/ soc_gum/naukma/Comp/2009_99/_01_mejtus_vyu.pdf. 4. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Com. of the ACM. — 1975. — 18, N 11. — P. 3–14. 5. Becker J., Kuropka D. Topic-based vector space model // Business Inform. Systems, Proc. of BIS 2003. Colorado Springs, USA. — www.kuropka.net/files/TVSM.pdf. 6. Polyvyanyy A. Evaluation of a novel information retrieval Model: eTVSM. — Potsdam : HPI, 2007. — bpt.hpi.uni-potsdam.de/pub/.../Thesis_Artem_Polyvyanyy.pdf. 7. Kuropka D. Modelle zur repräsentation natürlichsprachlicher dokumente. — www.kuropka.net/ pubs.shtml. 8. Espinasse B.F.S., Freitas F. Agent and ontology based information gathering on restricted web domains with AGATHE. Fortaleza, 2008. SAC’08. — alarcos.inf-cr.uclm.es/Alarnet/.../2008- SAC-Reynoso.pdf. 9. Oates T., Nagendra Prasad M.V., Lesser V.R. Cooperative information gathering : A distributed problem solving approach // IEE Proc. on Software Engineer. — 1997. — 1, N 1. — P. 72–88. — ftp://dis.cs.umass.edu/pub/oates_IEE_97.pdf. 10. Tran T., Cimiano Ph., Rudolph S., Studer R. Ontology-based interpretation of keywords for se- mantic search // The 6th Intern. Semantic Web Conf. Proc. of the 6th Intern. Semantic Web Conf. (ISWC'07). Korea, ISWC 2007. — P. 523–536. — www.aifb.kit.edu/web/Duc_Thanh_Tran/.../en. Получено 11.04.2011 Статья представлена к публикации членом редколлегии Ю.Г. Кривоносом. http://www.nbuv.gov.ua/portal/%0bsoc_gum/naukma/Comp/2009_99/_01_mejtus_vyu.pdf http://www.nbuv.gov.ua/portal/%0bsoc_gum/naukma/Comp/2009_99/_01_mejtus_vyu.pdf ftp://dis.cs.umass.edu/pub/oates_IEE_97.pdf