Application of problem domain ontological description for relevantness increasing of informational retrieval
Analysis of Internet informational resources is considered. Ontological approach to sphere of user’s informational interests for relevantness increasing of informational retrieval results is proposed. User builds this ontology and then uses itfor context of request. Different interpretation methods...
Saved in:
| Date: | 2015 |
|---|---|
| Main Author: | |
| Format: | Article |
| Language: | Ukrainian |
| Published: |
PROBLEMS IN PROGRAMMING
2015
|
| Subjects: | |
| Online Access: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/27 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Problems in programming |
| Download file: | |
Institution
Problems in programming| id |
pp_isofts_kiev_ua-article-27 |
|---|---|
| record_format |
ojs |
| resource_txt_mv |
ppisoftskievua/c0/7da66704d8d084ca1395940359ff61c0.pdf |
| spelling |
pp_isofts_kiev_ua-article-272018-10-09T12:38:59Z Application of problem domain ontological description for relevantness increasing of informational retrieval Использование онтологического описания предметной области для повышения релевантности информационного поиска Проведено аналіз засобів подання інформації, що публікується в Інтернеті. Запропоновано онтологічний підхід до опису предметної області, що цікавить користувача, з метою задання контексту інформаційного запиту для підвищення релевантності його результатів Rogushina, J.V. UDC 681.3 УДК 681.3 УДК 681.3 Analysis of Internet informational resources is considered. Ontological approach to sphere of user’s informational interests for relevantness increasing of informational retrieval results is proposed. User builds this ontology and then uses itfor context of request. Different interpretation methods of relations between the ontology terms are described. Проведен анализ средств представления информации, публикуемой в Интернете. Предложен онтологический подход к описанию предметной области, интересующей пользователя, с целью задания контекста информационного запроса для повышения релевантности его результатов. Предлагаются различные способы интерпретации отношений между терминами онтологии, которые входят в контекст поиска. Проведено аналіз засобів подання інформації, що публікується в Інтернеті. Запропоновано онтологічний підхід до опису предметної області, що цікавить користувача, з метою задання контексту інформаційного запиту для підвищення релевантності його результатів. Пропонуються різні способи інтерпретації відношень між термінами онтології, що входять у контекст пошуку. PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2015-07-01 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/27 PROBLEMS IN PROGRAMMING; No 4 (2003) ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2003) ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2003) 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/27/31 Copyright (c) 2015 ПРОБЛЕМИ ПРОГРАМУВАННЯ |
| institution |
Problems in programming |
| baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
| datestamp_date |
2018-10-09T12:38:59Z |
| collection |
OJS |
| language |
Ukrainian |
| topic |
UDC 681.3 |
| spellingShingle |
UDC 681.3 Rogushina, J.V. Application of problem domain ontological description for relevantness increasing of informational retrieval |
| topic_facet |
UDC 681.3 УДК 681.3 УДК 681.3 |
| format |
Article |
| author |
Rogushina, J.V. |
| author_facet |
Rogushina, J.V. |
| author_sort |
Rogushina, J.V. |
| title |
Application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_short |
Application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_full |
Application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_fullStr |
Application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_full_unstemmed |
Application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_sort |
application of problem domain ontological description for relevantness increasing of informational retrieval |
| title_alt |
Использование онтологического описания предметной области для повышения релевантности информационного поиска Проведено аналіз засобів подання інформації, що публікується в Інтернеті. Запропоновано онтологічний підхід до опису предметної області, що цікавить користувача, з метою задання контексту інформаційного запиту для підвищення релевантності його результатів |
| description |
Analysis of Internet informational resources is considered. Ontological approach to sphere of user’s informational interests for relevantness increasing of informational retrieval results is proposed. User builds this ontology and then uses itfor context of request. Different interpretation methods of relations between the ontology terms are described. |
| publisher |
PROBLEMS IN PROGRAMMING |
| publishDate |
2015 |
| url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/27 |
| work_keys_str_mv |
AT rogushinajv applicationofproblemdomainontologicaldescriptionforrelevantnessincreasingofinformationalretrieval AT rogushinajv ispolʹzovanieontologičeskogoopisaniâpredmetnojoblastidlâpovyšeniârelevantnostiinformacionnogopoiska AT rogushinajv provedenoanalízzasobívpodannâínformacííŝopublíkuêtʹsâvínternetízaproponovanoontologíčnijpídhíddoopisupredmetnoíoblastíŝocíkavitʹkoristuvačazmetoûzadannâkontekstuínformacíjnogozapitudlâpídviŝennârelevantnostíjogorezulʹtatív |
| first_indexed |
2025-07-17T09:55:05Z |
| last_indexed |
2025-07-17T09:55:05Z |
| _version_ |
1850410516556546048 |
| fulltext |
Агентно-ориентированные информационные системы
© Ю.В. Рогушина, 2003
54 ISSN 1727-4907. Проблемы программирования. 2003. № 4
УДК 681.3
Ю.В. Рогушина
ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЧЕСКОГО ОПИСАНИЯ
ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ПОВЫШЕНИЯ
РЕЛЕВАНТНОСТИ ИНФОРМАЦИОННОГО ПОИСКА
Проведен анализ средств представления информации, публикуемой в Интернете.
Предложен онтологический подход к описанию предметной области, интересующей
пользователя, с целью задания контекста информационного запроса для повышения
релевантности его результатов. Предлагаются различные способы интерпретации от-
ношений между терминами онтологии, которые входят в контекст поиска.
Введение
Деятельность отдельных людей и
организаций сейчас все больше зави-
сит от имеющейся у них информации
и способности ее эффективно исполь-
зовать. Одним из основных средств
получения информации сегодня явля-
ется глобальная сеть Интернет – ди-
намичная гетерогенная распределенная
среда. Эффективный поиск информа-
ции в Интернете по мере увеличения
объема и рассредоточения ее источни-
ков становится все более сложным и
трудоемким. При этом критичным яв-
ляется не столько время поиска, сколь-
ко отбор информации, релевантной за-
просу пользователя.
Запрос пользователя представля-
ет собой описание информации, доступ
к которой он хочет получить. Такой
запрос может, например, содержать
ключевые слова, связанные логически-
ми операторами; документ-образец;
тип документа и его тему по класси-
фикатору; списки рекомендованных
или запрещенных пользователем ин-
формационных источников; ограниче-
ния на время или объем поиска; объем,
время создания, язык искомого доку-
мента. Релевантность результатов по-
иска оценивается с точки зрения поль-
зователя. Документы, которые по ка-
кому-либо параметру, в том числе и не
указанному явно в запросе, не удовле-
творили пользователя, считаются нере-
левантными. Чем сложнее форма пред-
ставления запроса, тем более реле-
вантные результаты можно получить в
результате его выполнения. Однако ус-
ложнение формы запроса приводит к
усложнению процедуры его обработки
и, следовательно, к увеличению време-
ни поиска.
Информационный поиск пред-
ставляет собой процесс сопоставления
запроса пользователя со сведениями об
информационных ресурсах (ИР), из-
вестных информационно-поисковой
системе (ИПС), к которой поступил
этот запрос. В настоящее время доступ
к информации, размещенной в гло-
бальной сети Интернета, в подавляю-
щем большинстве случаев обеспечива-
ется при помощи поисковых машин —
по оценкам, к поисковым службам об-
ращается 71% всех пользователей Ин-
тернет [1]. Для формирования базы
данных (БД) об ИР ИПС либо само-
стоятельно их индексирует, либо ис-
пользует БД других ИПС. Второй спо-
соб значительно менее трудоемок, од-
нако то, что структура этих БД уже за-
дана разработчиками, ограничивает
параметры поиска.
Постановка задачи. Эффектив-
ность выполнения поиска оценивается
с точки зрения пользователя и опреде-
ляется как соотношение между коли-
чеством документов, по его мнению,
релевантных запросу, и общим количе-
ством предложенных ему в результате
выполнения поиска. Она зависит как
от средств представления запроса и
знаний об ИР, так и от способов их
сопоставления и представления ин-
формации о конкретном пользователе,
которая явным образом не указывается
в запросе.
В данной статье рассмотрены
средства представления информации в
Агентно-ориентированные информационные системы
55
Интернете и способы их индексирова-
ния, а также механизмы выполнения
информационных запросов. На основе
проведенного анализа предложены
средства повышения эффективности
поиска информации с помощью фор-
мирования контекста запроса – ин-
формации о пользователе, сфере его
информационных интересов, предыс-
тории ранее выполненных им запро-
сов, различных предпочтениях и т.д.
(например, пользователя может не за-
интересовать документ, который он
уже получал ранее в ответ на другой
запрос, он не хочет пользоваться ин-
формацией из платных источников или
не может обрабатывать информацию в
определенных форматах). Для форма-
лизованного описания предметной об-
ласти (ПрО), интересующей пользова-
теля, предлагается использовать онто-
логические системы. Кроме того, в дан-
ной статье предлагается, чтобы поль-
зователь не только применял готовые
онтологии, но и имел средства для
самостоятельного создания и модифи-
кации онтологии, которая отражает
именно его представления о предмет-
ной области поиска. Это требует не-
сколько упрощенного представления
онтологических систем, но позволяет
значительно расширить круг потенци-
альных пользователей, не нуждающих-
ся в специальных знаниях в области
информационных технологий и мате-
матической логики.
1. Информационные ресурсы
Интернета
Для того чтобы найти адекватные
средства информационного поиска,
следует четко определить, среди каких
именно объектов производится этот
поиск и какие параметры этих объек-
тов можно использовать для их иден-
тификации. Ниже рассматриваются
формы представления как текстовых,
так и мультимедийных данных в Ин-
тернете, а также способы их индекса-
ции в БД различных ИПС.
1.1. Средства представления ин-
формации на естественных языках.
Понятие гипертекста было введено
В. Бушем еще в 1945 году, однако
всплеск активности вокруг этой техно-
логии произошел лишь тогда, когда с
развитием Интернета возникла реаль-
ная необходимость в механизме объе-
динения больших объемов информа-
ционных ресурсов, представленных в
виде нелинейного текста. С использо-
ванием гипертекстовой модели доку-
мента представление разнообразных
информационных ресурсов в сети ста-
ло более упорядочен, а пользователи
получили удобный механизм поиска и
просмотра нужной информации. Язык
гипертекстовой разметки HTML, соз-
данный специально для представления
распределенной информации, является
упрощенной версией стандартного
описания формальных спецификаций
разметки SGML [2] (Standard General-
ized Markup Language – ISO 8879). До-
кумент HTML состоит из стандартных
элементов разметки, которые являются
типизацией компонентов обычного до-
кумента – заглавие, авторы, парагра-
фы, таблицы, цитирование и т.д. – и
отображаются стандартным образом.
По мере увеличения количества
информации в документах и усложне-
ния их структуры простота технологии
стала из достоинства превращаться в
недостаток. Тенденцией современного
развития Интернета является переход
от документов, которые компьютер чи-
тает (machine readable), к документам,
которые компьютер понимает (machine
understandable), т.е. к обработке доку-
ментов на семантическом уровне. XML
(eXtensible Markup Language) [3] по-
зволяет за счет расширения языка
разметки явным образом выделить в
документе структуру данных, что дела-
ет возможной дальнейшую машинную
обработку документа, который при
этом все еще остается понятным чело-
веку, а также отделить данные, содер-
жащиеся в документе, от того, каким
образом документ будет представлен
визуально. Технологии XML обеспечи-
вают стандартное представление дан-
ных для обработки разными приложе-
ниями без специальной дополнитель-
ной обработки информации. Различ-
Агентно-ориентированные информационные системы
56
ные логические схемы разных доку-
ментов могут использовать одни и те
же имена элементов в различных зна-
чениях. Для интерпретации этих зна-
чений необходимо указать пространст-
во имен – коллекцию имен, иденти-
фицируемых по ссылке URI (URI –
идентификатор ресурсов, позволяю-
щий описывать и идентифицировать
не только информационные ресурсы
Интернета, но и предметы реального
мира, общие понятия предметной об-
ласти), которые используются доку-
ментами XML в качестве имен типов,
элементов и атрибутов. Пространство
имен можно рассматривать как ИР, из
которого извлекают необходимые оп-
ределения.
Для описания ПрО, к которой
относятся ИР, Консорциумом W3C в
рамках Semantic Web – проекта се-
мантической интерпретации ресурсов
Интернета – предложен стандарт опи-
сания медатанных о документе RDF
(Resource Description Framework) [4],
который использует XML-синтаксис.
Этот стандарт поддерживают многие
ведущие производители программного
обеспечения и поставщики контента.
RDF описывает ресурсы в виде ориен-
тированного размеченного графа –
каждый ресурс может иметь свойства,
которые в свою очередь также могут
быть ресурсами или их коллекциями.
Однако для того, чтобы практи-
чески описать атрибуты документа,
нужно дать им названия, которые по-
том будут использоваться во всём ми-
ре. В противном случае один автор на-
пишет "Название", другой – "Заголо-
вок", а третий – "Title“. В настоящее
время наиболее распространен набор
элементов для создания метаданных,
разработанный международной груп-
пой Dublin Core Metadata Elements [5].
Он состоит из 15 элементов, которые
можно условно разбить на три группы:
Content – относящиеся к содержанию
ресурса; Intellectual Property – харак-
теризующие интеллектуальную собст-
венность; Instantiation – описывающие
конкретный экземпляр ресурса.
Этот набор элементов можно
расширять, используя уже имеющиеся
стандарты. Метаданные могут быть ли-
бо встроены в сам ИР, например в
HTML-страницу (это самый простой
подход для описания страниц), либо
храниться и обновляться независимо
от ИР. Второй подход более универса-
лен, потому что в этом случае метадан-
ные могут быть созданы для любого
ресурса.
К сожалению, RDF-описания еще
недостаточно широко распространены
и для значительной части ИР отсутст-
вуют.
Наряду с HTML часто применя-
ются и другие форматы для представ-
ления текстовой информации. Напри-
мер, PDF-файлы обычно не индекси-
руются агентами ИПС. Между тем
большой объем важной информации (в
том числе технические статьи и науч-
но-исследовательские отчеты) хранится
только в формате PDF. Поэтому ведут-
ся работы и в этом направлении. Так,
система Google, дополненная новыми
возможностями [6], может вести поиск
примерно в 70% от общего количества
PDF-файлов, опубликованных в Web.
Google преобразует PDF-файлы в
обычные текстовые документы, чтобы
проиндексировать их как обычные
Web-страницы.
В Интернете достаточно часто
встречаются и материалы в форматах
MS Word и rtf, в которых наряду с тек-
стовой информацией содержатся ри-
сунки, таблицы, графики и формулы.
Преобразование в формат PDF не по-
зволяет их дальнейшее редактирова-
ние, а в формат HTML – требует за-
мены формул графическими изобра-
жениями, что делает их менее чита-
бельными и также не позволяет их ре-
дактировать. Материалы в форматах
MS Word и rtf практически не подда-
ются индексированию стандартными
средствами ИПС. Последние версии
MS Word предоставляют некоторые
средства автоматизированного описа-
ния документов при помощи XML, но
не все пользователи применяют их, а в
большей части материалов, созданных
Агентно-ориентированные информационные системы
57
с помощью более ранних версий, такие
описания отсутствуют.
1.2. Средства представления
мультимедийных данных. Значитель-
ная часть ИР Интернета содержит на-
ряду с текстовой информацией муль-
тимедийные элементы: графику, видео,
звук. Существует значительное коли-
чество широко распространенных
форматов для хранения аудио- и ви-
деоинформации, 3D-сценариев и изо-
бражений. Для того чтобы осуществ-
лять поиск мультимедийных ИР, необ-
ходимо иметь адекватные средства как
для их индексации, так и для описания
искомого ИР. Это достаточно сложная
задача, потому что графические и зву-
ковые данные необходимо отразить в
некое символьное представление, от-
ражающее их семантику. Так, напри-
мер, чтобы найти изображение людей
на определенном фоне, нужно одно
описание ИР, а чтобы найти изобра-
жение, на котором присутствуют ма-
тематические символы, – совсем дру-
гое. Традиционные ИПС, которые раз-
вивались в тесной взаимосвязи с
СУБД, в основном ориентированы на
работу со структурированными тексто-
выми данными и мало приспособлены
для обработки мультимедийной ин-
формации и данных, поступающих в
оперативном режиме.
Альтернатива индексации есте-
ственноязыковой информации – тех-
нология, разработанная компанией Ex-
calibur Technologies, которая объеди-
няет метод адаптивного распознавания
образов APRP (Adaptive Pattern Recog-
nition Processing) и семантические се-
ти. Она позволят работать с цифро-
вой информацией любого типа – тек-
стом, графикой, видео и др. Метод
APRP опирается на теорию нейрон-
ных сетей и позволяет осуществлять
бинарную индексацию, при которой
размер индекса даже при обработке
неструктурированной информации не
превышает 30% от размера исходных
данных [7].
Мультимедийные ресурсы значи-
тельно хуже, чем текстовая информа-
ция, поддаются индексации, т.к. ис-
пользование методов, основанных на
распознавании образов, требует очень
больших вычислительных ресурсов.
Поэтому достаточно часто (например, в
ИПС Google и search.ua) для индекса-
ции изображений используются слова,
содержащиеся в названии соответст-
вующего файла, и текст подсказок. Но
в ряде случаев такую индексацию
нельзя считать удовлетворительной (в
качестве названий иллюстраций часто
используют обозначения типа «график
3» или «формула 5», не несущие прак-
тически никакой семантической на-
грузки).
Многие современные ИПС пред-
лагают услуги, относящиеся к катего-
рии «найти изображение, похожее на
выбранное», но при этом качество их
работы крайне низко (даже по сравне-
нию с услугой «найти документ, похо-
жий на выбранный», которая также
работает недостаточно эффективно), а
критерии отбора пользователю не яс-
ны.
Если информация о мультиме-
дийных ресурсах не представлена их
поставщиками явным образом в каком-
либо формате, известном средствам
индексирования, то возникает необхо-
димость в применении сложных и тру-
доемких операций (по распознаванию
образов, речи и т.д.). Все возрастаю-
щий объем мультимедийной информа-
ции делает ее важным объектом для
обработки средствами реферирования.
Соответствующие технологии должны
обрабатывать информацию из источ-
ников различных типов. Так, сущест-
вующие методы работы с аудиоин-
формацией позволяют вычленить из
потока информации законченные
фрагменты (т.е. распознавать периоды
тишины в разговоре, смену говоряще-
го, снятие телефонной трубки и т.п.).
Существуют также технологии обра-
ботки видеоинформации (определение
ключевых элементов, логотипа), кото-
рые помогают определить тематику
информации. Существуют системы,
предназначенные для определения со-
держания видеофильмов путем распо-
знавания шаблонов. Например, систе-
Агентно-ориентированные информационные системы
58
ма реферирования телевизионных но-
востей Broadcast News Navigator, опи-
раясь на стратегию представления
смешанной среды, объединяет ключе-
вые кадры, автоматически извлечен-
ные из видеофрагментов, и находит в
них информацию об организациях, ме-
стоположении и участвующих в собы-
тиях лицах (наряду с такой информа-
цией, как объем и время создания
файла, длительность видеофрагмента и
т.п.). Кроме того, для реферирования
аудио- и видеоисточников информации
широко применяются системы распо-
знавания речи, после чего к сформи-
рованным естественноязыковым дан-
ным применяются средства автомати-
ческого реферирования текстовой ин-
формации.
В настоящее время группой
MPEG (Moving Picture Experts Group
[8]) разработан ряд стандартов для
представление метаинформации о
мультимедиа (например, MPEG7 [9] и
MPEG21 [10]). MPEG-7 (Multimedia
Content Description Interface – Интер-
фейс описания мультимедийных дан-
ных) обеспечивает стандартизацию
описания разных типов мультимедиа
для их поиска. Этот стандарт могут ис-
пользовать как пользователи-люди, так
и автоматические системы. Основной
недостаток MPEG-7 – высокая слож-
ность, поэтому для большей части
мультимедийных ресурсов описание в
этом формате отсутствует.
Несмотря на специфику мульти-
медийных ИР, наиболее приемлемым
для осуществления информационного
поиска (с учетом времени его выпол-
нения и объемов хранимой в индекс-
ной БД информации) представляется
их описание с помощью тех же
средств, что и текстовой информации:
ключевых слов, размера, даты создания
файла и т.д.
1.3. Структурированные источ-
ники информации. При увеличении
объема и усложнении структуры ИР
возникает необходимость хранить ин-
формацию в БД, учитывающей осо-
бенности ПрО. При этом Web исполь-
зуется лишь как универсальный ин-
терфейс пользователя с этой БД, а ин-
формация, предоставляемая конечному
пользователю, формируется динамиче-
ски (в ответ на действия пользователя
соответствующие данные извлекаются
из БД, а затем по ним формируется
соответствующий документ).
Объем «глубинной» части Web
(Deep Web) в 400—550 раз больше «по-
верхностной» (Surface Web) [11], и это
соотношение продолжает увеличивать-
ся, поскольку тенденция к хранению
информации в структурированных ис-
точниках очевидна и по крайней мере
в ближайшие годы не изменится. Ло-
кальный поиск по отдельному Web-
серверу можно организовать несколь-
кими способами. Если сервер меняется
достаточно часто, то лучше использо-
вать локальный поиск с помощью спе-
циализированной поисковой машины,
которая устанавливается на Web-
сервер и индексирует только его. Сей-
час таких продуктов два: YandexSite
компании CompTek и Следопыт ком-
пании MediaLingua. Еще одним спосо-
бом организации локального поиска
являются поисковые агенты, устанав-
ливаемые на клиентскую машину и
анализирующие информацию с Web-
серверов. Они работают медленно, но
позволяют более точно настроить ме-
ханизм поиска и искать даже в тех
местах, где поисковая машина не дей-
ствует, например в корпоративной се-
ти без выхода в Интернет. Хотя вся
информация может быть найдена по-
сетителем такого сайта при помощи
локальной поисковой машины, гло-
бальные поисковые машины, не при-
способленные для работы с динамиче-
ским контентом, не способны проин-
дексировать информационные ресурсы
сайта, вследствие чего потенциальный
пользователь вообще не обратится к
этому сайту.
2. Определение контекста поисковых
запросов
Традиционные механизмы поис-
ка в Интернете, как правило, рассмат-
ривают информационные запросы
пользователя изолированно друг от
друга и не учитывают полученные ра-
Агентно-ориентированные информационные системы
59
нее результаты. Имея информацию о
пользователе, об интересующей его
ПрО и о выполненных ранее запросах,
можно получить более релевантные
результаты и повысить эффективность
поиска.
Существует несколько различ-
ных подходов к формализованному за-
данию таких сведений. Например, в
проекте Inquirus [12] института NEC
Research Institute контекстная инфор-
мация задается явно в виде указания
категории данных, которые запраши-
вает пользователь. Контекстная ин-
формация используется для выбора тех
механизмов поиска, которым передает-
ся запрос, для модификации запросов
и определения принципов упорядоче-
ния полученных документов.
2.1. Средства автоматического
определения контекста поиска. Неко-
торые средства позволяют определить
контекст поиска автоматически. На-
пример, система Watson моделирует
контекст на основе содержимого доку-
ментов, которые пользователь ранее
редактировал средствами Microsoft
Word или просматривал в Internet Ex-
plorer. Эти документы анализируются с
помощью эвристического алгоритма,
который выявляет характерные слова,
автоматически добавляемые к запросу.
Кроме того, Watson в фоновом режиме
ищет в Web документы, связанные с
материалами, которые редактирует или
просматривает пользователь. Недостат-
ком системы является непрозрачность
алгоритмов, используемых системой,
для конечного пользователя.
Аналогично работает Remem-
brance Agent, который индексирует
определенные файлы (сообщения элек-
тронной почты, научные статьи и т.п.)
и, пока пользователь работает с неко-
торым документом, ведет поиск доку-
ментов, связанных с ним. Autonomy’s
Kenjin [13] автоматически анализирует
содержимое локальных файлов или
файлов из Web, которые пользователь
просматривает или редактирует. К
аналогичным решениям можно отнести
агентов Fab, Letizia [14] и WebWatcher,
изучающих область интересов пользо-
вателя для того, чтобы предложить ему
соответствующие Web-страницы.
2.2. Онтологический подход к
представлению знаний о ПрО. Про-
блема информационного поиска ус-
ложняется тем, что различные сообще-
ства людей используют в запросах
специальные термины, имеющие раз-
личный смысл в разных ПрО (напри-
мер, математическая модель, модель –
уменьшенная копия технического уст-
ройства и фотомодель). Так как боль-
шинство широко используемых ИПС
являются не специализированными, а
универсальными, то они не могут учи-
тывать эти различия. В итоге значи-
тельная часть найденных ИР оказыва-
ется не релевантна запросу и пользо-
ватель должен сам просматривать
большой объем не нужной ему инфор-
мации. Специализированные же ИПС
имеют довольно ограниченную инфор-
мационную базу и, хоть и дают обычно
высоко релевантные результаты поис-
ка в определенной ПрО, не могут га-
рантировать обнаружение всех (или
хотя бы значительной части) тех ИР,
которые относятся к области их спе-
циализации и могут быть обнаружены
универсальными ИПС. Таким образом,
возникает противоречие между потен-
циальной доступностью публикуемой в
Интернете информации и ограничен-
ными возможностями человека по ее
обнаружению.
Как показывает анализ публика-
ций, один из перспективных подходов
к повышению эффективности поиска
основывается на онтологиях (так, в
проекте Semantic Web, направленном
на анализ семантики ИР, именно онто-
логический подход [15, 16, 17] является
основой для представления знаний о
различных ПрО).
Понятие онтологии, заимство-
ванное из философии, сейчас активно
применяется в искусственном интел-
лекте и информационных технологиях.
Основу онтологии составляют множе-
ство представленных в ней терминов и
множество отношений между этими
терминами [18]. Онтология – это не-
которое описание взгляда на мир при-
Агентно-ориентированные информационные системы
60
менительно к конкретной области ин-
тересов, которое состоит из терминов
и правил использования этих терми-
нов, ограничивающих их значения в
рамках конкретной ПрО. Использова-
ние онтологий способствует установ-
лению корректных связей между эле-
ментами ПрО. Формальная модель он-
тологии О представляет собой упоря-
доченную тройку { }Φℜ= ,,XO , где Х –
конечное множество концептов (поня-
тий, терминов) предметной области,
которую представляет онтология O;
ℜ – конечное множество отношений
между концептами заданной предмет-
ной области; Φ – конечное множест-
во функций интерпретации, заданных
на концептах и отношениях онтологии
O [19].
2.3. Персонификация поиска при
помощи онтологии ПрО, создаваемой
конкретным пользователем. Повысить
эффективность поиска позволяет его
персонификация, т.е. использование
сведений о предыдущих запросах кон-
кретного пользователя и сфере его
информационных интересов. Такой
персонифицированный поисковый ме-
ханизм может размещаться как на сто-
роне сервера, так и на стороне клиен-
та. Например, серверный механизм
поиска Google способен отслеживать
предыдущие запросы пользователя и
выбранные им документы, а затем на
основе этой информации делать вывод
о сфере его интересов. Но из-за того,
что затраты на работу такого механиз-
ма поиска очень высоки, полномас-
штабная персонификация на сервере
сейчас обходится слишком дорого для
основных механизмов поиска в Web.
Большинство таких механизмов (ис-
ключение составляет лишь Northern
Light [20]) даже не предлагают службу
уведомления, которая сообщала бы
пользователям о появлении новых
страниц, соответствующих конкретным
запросам [21, 22].
Наряду с глобальными онтоло-
гиями, которые описывают достаточно
широкие ПрО и для создания которых
необходимы значительные усилия как
экспертов ПрО, так и инженеров по
знаниям, существуют онтологии, по-
зволяющие формально представлять
знания конкретного пользователя о
ПрО. Такие онтологии могут созда-
ваться и модифицироваться пользова-
телями самостоятельно. Хотя, возмож-
но, некоторые представления пользо-
вателя о ПрО являются ошибочными,
но такая онтология соответствует ин-
формационным интересам именно это-
го пользователя (например, если
пользователь ошибочно считает дель-
фина рыбой и, запросив изображение
какой-нибудь рыбы, получит изобра-
жение дельфина, то его информаци-
онная потребность будет удовле-
творена). Чтобы создать онтологию, поль-
зователь должен задать конечное мно-
жество терминов ПрО, конечное мно-
жество отношений между этими тер-
минами и конечное множество функ-
ций их интерпретации, а затем указать,
между какими именно терминами су-
ществуют какие выражения (рис. 1).
Онтология ПрО может быть визуали-
зирована в виде леса ориентированных
графов с нагруженными дугами, в ко-
тором вершины соответствуют терми-
нам ПрО, а дуги – отношениям между
ними.
3. Обработка результатов выполнения
информационных запросов с учетом
контекста
Для того чтобы пользователь
имел возможность приступить к ин-
формационному поиску, ему надо пре-
доставить непустое множество инфор-
мационных ресурсов Q, nQQQ ,...,1= ,
к которым он может обратиться. Та-
кими ресурсами могут быть различные
глобальные и локальные поисковые
машины, отдельные сайты, фиксиро-
ванные документы и т.д. Затем поль-
зователь формирует информационный
запрос. Способ выполнения поиска
зависит от специфики конкретного
ИР. В результате выполнения поиска
формируется множество документов I,
которые ИПС посчитали релевантны-
ми запросу.
Агентно-ориентированные информационные системы
61
U
n
i
jII
1=
= , где jI – результат по-
иска в информационном ресурсе jQ .
К сожалению, большинство
ИПС, осуществляющих поиск по клю-
чевым словам, включают в I очень
много ненужной информации – по-
вторы, нерелевантные и устаревшие
ссылки, а также ссылки на документы,
уже известные пользователю. Чтобы
избавить пользователя от необходимо-
сти просматривать вручную все эти
документы, предлагается осуществить
их фильтрацию, используя сведения о
предыдущих запросах этого пользова-
теля и сфере его информационных ин-
тересов.
3.1. Этапы обработки результа-
тов выполнения запросов. Обработка
результатов выполнения запросов со-
стоит из 6 этапов (рис. 2).
Этап 1. В результате выполнения
информационного запроса пользовате-
ля к Q по ключевым словам формиру-
ется множество I. Если доступна мета-
информация о соответствующем ИР
(например, в формате RDF или
MPEG7), то поиск осуществляется с
учетом этой информации.
Этап 2. Если множество I не пус-
то, выполняется упорядочение этого
множества по URL-адресам ссылок.
Иначе – завершение работы.
Этап 3. Если полученное на этапе
2 множество I1 не пусто, отфильтровы-
ваются ссылки-“зеркала”. Повторяю-
щиеся адреса отбрасываются. Иначе —
завершение работы.
Этап 4. Отфильтровываются ус-
таревшие ссылки.
Этап 5. Если полученное на этапе
3 множество I2 не пусто, осуществляет-
ся проверка по БД пользователя, полу-
чал ли он ранее каждую из оставшихся
ссылок (если получал, то решение о
том, оставлять ли эту ссылку, зависит
от того, как в прошлом пользователь
Рис. 1. Схема организации поиска на основе онтологии
Агентно-ориентированные информационные системы
62
поступил с этой ссылкой, а также от
других его инструкций). Иначе – за-
вершение работы.
Этап 6. Если сформированное на
этапе 5 множество 4I , II ⊆4 не пусто,
выполняется оценка соответствия до-
кументов ji , kj ,0= из этого множест-
ва контексту поиска. Иначе – завер-
шение работы.
Именно на 6-м этапе использует-
ся онтология ПрО, созданная ранее
пользователем. Здесь контекст поиска
– это непустое неупорядоченное
множество терминов и словосочета-
ний, характерных, по мнению пользо-
вателя, для того ИР, который он хочет
найти. Так, например, наличие в ИР
терминов «монография», «список ли-
тературы» и «аннотация» повышают
вероятность того, что рассматриваемый
ИР – научная работа.
Применение пользовательских
онтологий для задания контекста поис-
ка в первую очередь ориентировано на
пользователей, имеющих постоянные
информационные интересы в сети и
требующих постоянного поступления
соответствующей информации. Запро-
сы таких пользователей могут повто-
ряться от сеанса к сеансу или изме-
няться, но ПрО, в которой пользовате-
ли являются экспертами, практически
не изменяются и являются достаточно
ограниченными. Описание этих ПрО
задается самими пользователями в ви-
де онтологий. Один пользователь мо-
жет создавать несколько онтологий,
если он имеет несколько интересую-
щих его прикладных областей, которые
не пересекаются.
3.2. Использование онтологии,
созданной пользователем, для предос-
тавления контекста поиска. Онтология
используется для предоставления кон-
текста поиска — информации о ПрО,
которая интересует пользователя, пре-
дыстории его запросов и другой ин-
формации о конкретном пользователе,
его информационных предпочтениях.
Это осуществляется следующим обра-
зом.
В онтологии пользователь может
отметить термины, наличие которых в
искомом документе является жела-
тельным или нежелательным, а также
Рис. 2. Этапы обработки результатов выполнения запросов
Агентно-ориентированные информационные системы
63
задать более сложные операции (на-
пример, автоматически отметить все
термины, находящиеся в заданном от-
ношении с терминами, отмеченными
ранее). Это позволяет, в частности,
легко учитывать при поиске синонимы
или близкие по значению слова, а
также осуществлять поиск сразу на
нескольких языках.
В результате формируется не-
пустое множество слов (или словосоче-
таний) { }mwwW ,...,1= , каждое из кото-
рых может иметь свой положительный
либо отрицательный вес kv , mk ,1= .
Затем для каждого документа ji ,
kj ,0= , из множества I ′ , II ⊆′ форми-
руется коэффициент соответствия кон-
тексту поиска
∑
=
∗==
m
k
kjkjj wifvskjs
1
),(,,0, , (1)
где
∉
∈
=
.если,
,если,
jk
jk
kj iw
iw
wif
0
1
),(
Чем выше коэффициент (1), тем,
вероятно, выше релевантность доку-
мента запросу пользователя.
В некоторых случаях может быть
полезно использовать более сложную
формулу расчета коэффициента соот-
ветствия контексту поиска:
∑
=
∗∗=′=′
m
k
kkjkjj twifvskjs
1
),(,,0, , (2)
где kt , mk ,1= , – количество вхожде-
ний термина kw , mk ,1= , в документ ji ,
kj ,0= .
После выполнения оценки най-
денных ИР с помощью (1) или (2) поль-
зователю в первую очередь предлага-
ются ИР, имеющие наиболее высокий
коэффициент соответствия контексту
поиска (фиксированное количество ИР
или все найденные ИР, имеющие ко-
эффициент соответствия контексту
поиска выше определенной пользова-
телем константы).
Пользователь может обращаться
к онтологиям, созданным другими
пользователями, – просматривать их,
задавать по ним контекст поиска, ко-
пировать из них нужны фрагменты, но
не имеет права изменять их. ИПС
должна предусматривать поиск онтоло-
гий, которые содержат введенные
пользователем термины, а также поиск
онтологий, похожих на избранную
пользователем онтологию. Это позво-
ляет создавать группы пользователей с
общими информационными интереса-
ми и предотвращать дублирование в
выполнении одинаковых многоразовых
запросов различных пользователей.
Для реализации информационно-
го поиска в Интернете представляется
целесообразным использование интел-
лектуальных программных агентов [23],
позволяющих обращаться за информа-
цией к локальным поисковым машинам
сайтов без непосредственного участия
пользователя, и разработка мультиа-
гентной информационно-поисковой
системы [24], в состав которой входят
агенты информационных ресурсов,
обеспечивающие интерфейс с локаль-
ными поисковыми системами различ-
ных сайтов, и агент-диспетчер, обеспе-
чивающий перечень таких сайтов.
Заключение
Рассмотрев различные средства
представления метаданных о разно-
родной (в том числе и мультимедий-
ной) информации, которая публикует-
ся в распределенной динамически из-
меняющейся среде Интернет, можно
сделать вывод о том, что, несмотря на
многообразие подходов к отражению
семантики информационных ресурсов,
на современном уровне развития ин-
формационных технологий в большин-
стве случаев наиболее релевантным и
полным остается информационный по-
иск по ключевым словам.
Повышение эффективности та-
кого поиска является сегодня актуаль-
ной задачей. Этого можно добиться
путем обработки контекста запроса и
сведений о конкретном пользователе,
пославшем запрос, а также предысто-
рии его обращения к различным ИПС.
Для формализованного описания
предметной области поиска, к которой
относятся информационные интересы
Агентно-ориентированные информационные системы
64
пользователя, целесообразно использо-
вать онтологический подход. При этом
необходимо создание адекватных плат-
формонезависимых инструментальных
средств для создания, модификации и
обработки онтологических систем, ко-
торые может применять пользователь,
не являющийся специалистом в облас-
ти информационных технологий.
1. Greenberg I., Garber L. Searching for new
search technologies // IEEE Comp. – 1999.
– Aug. – P. 6—11.
2. ISO 8879. – http://www.iso.ch/cate/d16387.html.
3. Extensible Markup Language (XML) 1.0, W3C
Recommendation. – http://www.w3.org/TR/-
1998/REC-xml-19980210.
4. RDF Model Theory / W3C Working Draft.
2002. – http://www.w3.org/TR/rdf-mt/.
5. RFC2413: Dublin Core Metadata for Resoerce
Discovery. – http://www.faqs.org/rfcs/-
rfc2413.html.
6. Найти можно все // PC Magazine. –
http://www._PCMagazine.CSS/Common.css.
7. Картышева Е. Интеллектуальные поиско-
вые системы Excalibur. – http://www.osp.ru/-
nets/1997/06/98.html.
8. MPEG: Achievements and Current Work. –
2001. – http://www.cselt.it/mpeg/terms_-
of_reference.htm.
9. MPEG-7: Overview. – 2002. – http://mpeg.-
telecomitalialab.com/standards/mpeg-7/-
mpeg-7.htm.
10. MPEG-21: Overview. – 2002. –
http://mpeg.telecomitalialab.com/standards/-
mpeg-21/mpeg-21.htm.
11. Deep Web. – http://www.completepla-
net.com/tutorials/deepweb.
12. Architecture of a metasearch engine that sup-
ports user information needs / E. Glover,
S. Lawrence, W. Birmingham, C.L. Giles //
Eighth International Conf. on Information and
Knowledge Management, CIKM 99. – Kan-
sas City, Missouri, 1999. – P. 210—216.
13. Autonomy’s Kenjin. – http://www.kenjin.com.
14. Lieberman H. An Agent That Assists Web
Browsing. – http://lieber.media.mit.edu.
15. A Model-Theoretic Semantics for DAML+OIL.
– http://www.w3.org/TR/daml+oil-model.
16. W3C Web Ontology. – http://www.w3.org/-
2001/sw/WebOnt/.
17. Requirements for a Web Ontology Language,
W3C Working Draft. – http://www.w3.org/-
TR/webont-req/.
18. Россеева О.И., Загорулько Ю.А. Организа-
ция эффективного поиска на основе онто-
логий. – http://www.dialog-21.ru/archive_-
article.asp.
19. Гаврилова Т.А., Хорошевский В.Ф. Базы
знаний интеллектуальных систем. – Спб.:
Питер, 2001. – 382 с.
20. Northern Light. – http://www.Northern-
Light.com/help.htm.
21. DriveWay. – http://www.driveway.com.
22. Xdrive. – http://www.xdrive.com.
23. Рогушина Ю.В. Программные агенты: опре-
деления, таксономии и модели // УСиМ. –
2001. – N 5. – С. 39—45.
24. Рогушина Ю.В. Разработка средств интел-
лектуализации поиска информации в Ин-
тернете // Пробл. программирования. –
2002. – N 1—2. – С.379—385.
Получено 18.06.03
Об авторе
Рогушина Юлия Витальевна,
кандидат физико-математических наук,
старший научный сотрудник
Место работы автора
Институт программных систем НАН Украины,
просп. Академика Глушкова, 40,
Киев-187, 03680, Украина
Тел. (044) 268 4698
|