Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web

Для того, чтобы повысить релевантность поиска информации в Интернете, предлагается использовать знания об информационных потребностях пользователя, отраженных как в описании стоящей перед ним интеллектуальной задачи, так и в его тезаурусе. Это позволяет делать предположения о тематической близост...

Full description

Saved in:
Bibliographic Details
Published in:Штучний інтелект
Date:2010
Main Authors: Гладун, А.Я., Рогушина, Ю.В.
Format: Article
Language:Russian
Published: Інститут проблем штучного інтелекту МОН України та НАН України 2010
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/56565
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web / А.Я. Гладун, Ю.В. Рогушина // Штучний інтелект. — 2010. — № 3. — С. 462-472. — Бібліогр.: 10 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859647571132153856
author Гладун, А.Я.
Рогушина, Ю.В.
author_facet Гладун, А.Я.
Рогушина, Ю.В.
citation_txt Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web / А.Я. Гладун, Ю.В. Рогушина // Штучний інтелект. — 2010. — № 3. — С. 462-472. — Бібліогр.: 10 назв. — рос.
collection DSpace DC
container_title Штучний інтелект
description Для того, чтобы повысить релевантность поиска информации в Интернете, предлагается использовать знания об информационных потребностях пользователя, отраженных как в описании стоящей перед ним интеллектуальной задачи, так и в его тезаурусе. Это позволяет делать предположения о тематической близости найденных в Web информационных ресурсов той предметной области, которая пертинентна проблеме пользователя. Для того щоб підвищити релевантність пошуку інформації у Web, пропонується використовувати знання про інформаційні потреби користувача, відображені як в описі інтелектуальної задачі, що постає перед ним, так і в його тезаурусі. Це дозволяє робити припущення про тематичну близькість знай- дених у Web інформаційних ресурсів до тієї предметної області, що пертинентна проблемі користувача. In order to improve the relevance of the Web information retrieval the knowledge about users’whsch is information needs reflected in the description of some intelligent problem and thesaurus is proposed to use. It allows to make the assumptions about thematic proximity of Web information resources to the domain pertinent to user’s problem.
first_indexed 2025-12-07T13:29:58Z
format Article
fulltext «Искусственный интеллект» 3’2010 462 5Г УДК 004.65:004.89 А.Я. Гладун1, Ю.В. Рогушина2 1Международный научно-учебный центр информационных технологий и систем НАНУ и МОНУ, г. Киев, Украина 2Институт программных систем НАНУ, г. Киев, Украина glanat@yahoo.com, _jjj_@ukr.net Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно- ориентированного поиска в Web Для того, чтобы повысить релевантность поиска информации в Интернете, предлагается использовать знания об информационных потребностях пользователя, отраженных как в описании стоящей перед ним интеллектуальной задачи, так и в его тезаурусе. Это позволяет делать предположения о тематической близости найденных в Web информационных ресурсов той предметной области, которая пертинентна проблеме пользователя. Введение В настоящее время главные направления развития информационных техно- логий (ИТ) связаны с созданием интеллектуальных информационных систем, основанных на извлечении и обработке знаний в соответствующих предметных областях (ПрО). Однако средства, предназначенные для представления знаний, еще недостаточно совер- шенны, и это часто заставляет людей вновь и вновь искать решения одних и тех же задач. Одной из наиболее распространенных задач в области ИТ является поиск ин- формационных ресурсов (ИР) в Интернете, локальной сети либо на отдельном ком- пьютере, представленных в различных форматах (текст, графика, мультимедиа и т.д.), для решения той или иной интеллектуальной задачи, стоящей перед пользователем. Конечным результатом поиска может быть: 1) обнаружение ИР (или набора ИР), удовлетворяющего заданным условиям; 2) извлечение из ИР сведений, позволяющих выбрать нужный объект реаль- ного мира (примерами таких задач могут быть поиск специалистов, способных вы- полнить ту или иную работу; подбор экспертов для оценки какого-либо научного или технического проекта, выбор товара в системах е-коммерции; выбор подходящего курса в дистанционном обучении); 3) извлечение из контента ИР правил или закономерностей, позволяющих осу- ществить логический вывод над имеющимися данными. По мере развития Интернета обостряется парадокс: вероятность присутствия необходимой информации в глобальном информационном пространстве растет, а вероятность ее нахождения – уменьшается. Это происходит потому, что наполнение Web громадно по объему, очень разнородно, быстро обновляется, плохо поддается структуризации и управлению. Пользователь информационно-поисковых систем (ИПС), как правило, не является специалистом в области ИТ и вследствие этого может при- Использование тезауруса предметной области... «Штучний інтелект» 3’2010 463 5Г менять только наиболее простые и интуитивно понятные средства формулирования своей информационной потребности. Формальный запрос к ИПС – попытка пользо- вателя формализовать свою информационную потребность и, к сожалению, не всегда удачная (либо вследствие низкой выразительной мощности языка создания запросов к ИПС, либо из-за низкой квалификации пользователя). Так, большинство пользова- телей, обращающихся даже к достаточно простым ИПС Интернета, используют только часть их возможностей – простые запросы, состоящие из 2-3 слов, и не применяют логические операторы и прочие механизмы расширенного поиска [1]. Кроме того, необходимо учитывать, что часть фактов и знаний уже имеются у пользователя, и нет необходимости предоставлять их ему повторно. Следовательно, поисковые меха- низмы должны оперировать информационными моделями пользователей, задач и ин- формационных ресурсов. Таким образом, проблема информационного поиска в Web трансформируется в задачу управления знаниями в среде Web. Сегодня значительные усилия в этом направлении предприняты в рамках проекта Semantic Web. Уже разработан ряд стандартов для представления знаний (OWL), соз- дания метаописаний ИР (RDF) и формирования запросов к ним (SPARQL). Semantic Web представляет собой лишь надстройку над существующей сетью информационных ресурсов Web, облегчающую обработку информации на семан- тическом уровне (т.е. ее смысла) поисковыми системами и другими приложениями. Если раньше поисковые машины основное внимание уделяли глубине и способам ана- лиза текстовых данных, то в Semantic Web основными элементами являются инфор- мационные объекты и соответствующие им метаданные. Например, информационный объект «Киев» обладает набором метахарактеристик, которые предоставляют данные о его географическом положении, численности населения и т.д. Постановка задачи Сегодня основная проблема, возникающая при поиске информации в Интернете, связана с фильтрацией результатов, полученных от различных ИПС, и отбором тех ИР, которые соответствуют реальным информационным потребностям пользователя. Для такого отбора необходимо формализовать представления пользователя об инте- ресующей его проблеме и разработать средства автоматизированного сопоставления этого описания с метаописаниями различных ИР. 1 Онтологии как средство представления знаний Для успешного решения задачи поиска информации необходимо представить: − представления пользователя о знаниях той ПрО, которая его интересует, в некоторой форме, пригодной для компьютерной обработки; − описание проблемы, для которой пользователю нужны эти сведения; − требования пользователя к тем ИР, котрые могут удовлетворить его инфор- мационную потребность. Важно достигнуть интероперабельности знаний, т.е. того, чтобы знания, сформи- рованные при решении одной задачи, были пригодны при решении других проблем в различных работах ИС. Именно такой формой представления знаний является онтология – соглашение об общем использовании понятий, которое содержит средства представления предметных знаний и договоренности о методах соображений. Она может рассматриваться как определенное описание взгляда на мир в конкретной сфере интересов, который состоит из набора терминов и правил использования этих Гладун А.Я., Рогушина Ю.В. «Искусственный интеллект» 3’2010 464 5Г терминов, которые ограничивают их значение в рамках конкретной ПрО [2]. Онто- логии позволяют формализовать знания пользователей о той ПрО, которая их интересует. При этом такие знания становятся доступны другим пользователям и могут приме- няться в других ИС. Онтологии, описывающие ПрО, могут потом использоваться для решения различных задач, стоящих перед пользователем. Онтология – это база знаний, описывающая факты, которые предполагаются всегда истинными в рамках определенного сообщества на основе общепринятого значения тезауруса. Она может использоваться как посредник: между пользователем и информационной системой или между членами сообщества, например, между поль- зователями некоторого корпоративного хранилища данных. Формальная модель онтологии О представляет собой упорядоченную тройку O=<X,R,F>, где Х – конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология O; R – конечное множество отношений между концептами заданной предметной области; F – конечное множество функций интерпретации, заданных на концептах и отношениях онтологии O [3]. Поскольку при обращении к ИПС пользователь должен иметь возможность получить инфор- мацию, пертинентную его запросу, то ее поиск должен быть семантически ориентиро- ванным. Для этого средства поиска соответствующей запросу информации предлагается организовать на основе онтологии, содержащей описания семантики ресурсов. Онтоло- гии позволяют формально описать конкретные ПрО. Ряд авторов предлагают методы автоматического и автоматизированного постро- ения онтологий по естественноязыковым документам. В частности, в [4] на основании обзора ряда работ, в которых рассматривается моделирование ПрО в виде концепту- альной модели мира, включающей в себя описания базовых понятий, организованных в родовидовые деревья и совокупность связей между ними, предлагается использовать как синонимы понятия модели и онтологии ПрО. При этом эта концептуальная модель включает в себя описание объектов, понятий и отношений действительности. Формирование полного семантического представления текста выполняется сред- ствами глобального семантического анализа [5]. Однако задача формирования множеств выделенных в тексте понятий и семантических отношений модели является нетриви- альной и на практике реализуема только для узких и четко формализованных ПрО. При создании онтологий наибольшую сложность представляет формирование множества F, так как этот процесс требует применения специальных навыков из области инженерии знаний и формальной логики. В то же время по трудоемкости основная работа по формированию онтологий приходится на формирование множества Х, причем эта работа доступна большинству специалистов произвольной предметной области. Несколько сложнее определить множество отношений R, которые надо использовать для моделирования ПрО, но в большинстве случаев можно исполь- зовать стандартные наборы из 10 – 20 базовых отношений («быть частью», «быть под- классом», «являться одинаковым» и т.д.). В связи с этим представляется целесообразным использовать для моделирования знаний пользователя о ПрО поиска с помощью частного случая онтологии – теза- уруса, построение которого относительно проще. До недавнего времени термины «онтология» и «тезаурус» использовались как синонимы, однако теперь в ИТ тезаурус чаще применяют для описания лексики в проекции на семантику, а онтологию – для моделирования семантики и прагматики в проекции на язык представления [6]. Как показывает анализ публикаций, достаточно четко установить взаимоотно- шение терминов «Тезаурус» и «Онтология» – сложная проблема в связи с расплыв- чатостью и почти полным сходством их интерпретации. Тезаурус из всего спектра Использование тезауруса предметной области... «Штучний інтелект» 3’2010 465 5Г средств языка отражает только лексику: она задана в знаковом виде и относительно просто поддается систематизации. Тезаурус можно было бы представить как комплекс лингвистических знаний, включающий все составляющие языка от фонетики до рито- рической структуры текста и законов коммуникации. 2 Тезаурус как средство моделирования ПрО Обычно тезаурус Т определяют как словарь, содержащий лексические единицы (ЛЕ) с явным указанием семантических связей между ними. Слово тезаурус происходит от греческого сокровищница, запас, клад. Термин «тезаурус» достаточно древнего происхождения. Впервые его применил в значении, близком сегодняшнему, еще в ХІІІ веке Б. Датини в энциклопедии «Книга о сокровище». Согласно «Современному словарю иностранных слов»: тезаурус – 1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем при- меров их употребления в текстах; в полном объеме осуществим лишь для мертвых языков; 2) идеографический словарь, в котором показаны семантические отношения (синонимические, родо-видовые и др.) между лексическими единицами; 3) в инфор- матике – полный систематизированный набор данных о какой-либо области знаний, поз- воляющий человеку или вычислительной машине в ней ориентироваться. Тезаурус (согласно третьему определению) можно рассматривать как частный случай онтологии. Очевидно, что можно говорить о тезаурусе человечества как о сумме накопленных им знаний. Можно исследовать как тезаурусы отдельных специалистов, так и тезаурусы областей знания. Впервые тезаурус был использован в связи с вычислительными машинами в 1954 г. А. Мастерман в области машинного перевода. Позднее при помощи тезаурусов устанавливалось соответствие между языком запросов пользователя и документами в информационно-поисковых системах. Но еще в начале 60-х гг. Ю.А. Шрейдер пред- лагал рассматривать тезаурус как систему знаний, отраженных языком, когда тезаурус становится интересным сам по себе, а не только как вспомогательный инструмент. Можно рассматривать тезаурус как модель терминологической системы. Термино- логическая система (ТС) – это сложная динамическая устойчивая система, элементами которой являются отобранные по определенным правилам лексические единицы какого-нибудь естественного языка, а структура изоморфна структуре логических связей между понятиями специальной области знаний и деятельности, а функция состоит в том, чтобы служить знаковой (языковой) моделью этой области знаний и деятельности [5]. Можно говорить о том, что ТС является отображением определенной ПрО. Тезаурус – это R,TTs = , где Т – множество терминов, а R – множество отношений между этими терминами. Множества Т и R конечны. Термин – это слово или словесный комплекс, соотносящийся с понятием опре- деленной организованной области познаний (науки, техники), вступающий в системные отношения с другими словами и словесными комплексами и образующее вместе с ними в любом отдельном случае и в определенное время замкнутую систему, отлича- ющуюся высокой информативностью, однозначностью, точностью и экспрессивной нейтральностью. Слово «термин» происходит от латинского «terminus» – «граница». Множество терминов тезауруса Т соответствует множеству концептов Х онтологии О. Такие свойства терминов и ТС, как системность, устойчивость и регулярность свя- зей, отсутствие экспрессии, установка на объективность описания, делают возмож- ным моделирование ТС с помощью тезаурусов. Классификация понятий ПрО через набор слов, условно синонимичных и образующих класс условной эквивалентности, лежит в основе тезаурусов, используемых для информационного поиска. База знаний Гладун А.Я., Рогушина Ю.В. «Искусственный интеллект» 3’2010 466 5Г (БЗ) – семантическая модель, описывающая структуру ПрО. В состав БЗ ПрО входят онтология ПрО и ее тезаурус. Они используют словарь терминов ПрО, устанавливая отношения между терминами и задавая правила их логического преобразования. Это позволяет отвечать на такие вопросы из этой области, ответы на которые в явном виде не присутствуют в БЗ. Большинство существующих ИПС имеют развитые средства контекстного поиска документов с учетом морфологической информации о словах. Однако в настоящее время очень незначительное число информационных систем предоставляют возмож- ность тематического поиска, например, поиска с использованием тезауруса. Каждое понятие в тезаурусе может объясняться через набор других понятий, что приводит к появлению семантического поля. Фактически тезаурус пользователя – потребителя информации – это вербализованная совокупность его представлений об исследуемой ПрО (рис.1). Основная цель разработки информационно-поисковых тезаурусов – использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. Классы онтологии ПрО “Искусственный интеллект” Классы онтологии ПрО “Искусственный интеллект” Визуализация онтологии ПрО “Искусственный интеллект” Визуализация онтологии ПрО “Искусственный интеллект” Рисунок 1 – Представление тезауруса ПрО «Искусственный интеллект» в Protégé Тезаурус может стать эффективным инструментом формирования запросов к универсальным ПМ Internet, для поиска информации в локальной сети, на отдельном компьютере и т.д. Технология полнотекстового поиска является неотъемлемой состав- ляющей таких современных и перспективных ИТ, как: системы управления докумен- тами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. Это позволит сущес- твенно повысить качество информационного поиска в специализированной темати- ческой области при выполнении следующих условий: − тезаурус отражает терминологию достаточно узкой научной/предметной области; – в тезаурусе используются различные семантические отношения; – тезаурус независим от поисковой машины. Четко описать терминологию можно при помощи тезауруса с набором сильно дифференцированных семантических отношений [4], [7], т.е. использовать не только Использование тезауруса предметной области... «Штучний інтелект» 3’2010 467 5Г универсальные (например, «род – вид», «часть – целое» и т.д.), но и специфические для конкретной ПрО отношения, несущие значительную смысловую нагрузку. Кроме непосредственных характеристик тезауруса – количества терминов, коли- чества типов связей и количества реализованных связей, важное значение имеют также их производные – коэффициент связности и количество связных компонент сети. Коэффициент связности показывает, насколько семантическая сеть тезауруса отличается от полного графа (у полного графа любые две вершины смежны, т.е. коэф- фициент связности равен 1). Для связного графа вычисляется число связности графа – называется наименьшее число вершин, удаление которых приводит к несвязному или одновершинному графу. Анализ этих характеристик позволяет оценить качество тезауруса и сравнивать различные тезаурусы, созданные для одной и той же ПрО. Основные технологические фазы создания тезауруса: 1. Выделение лексических единиц, т.е. формирование словаря (глоссария) Т. 2. Разработка набора семантических связей. 3. Актуализация связей – установление связей между терминами. При актуализации семантических связей между терминами тезауруса можно использовать знания экспертов, а также документы, предназначенные как для фиксации структуры знаний ПрО (словари, классификаторы и т.д.), так и отражаю- щие сами знания ПрО (рефераты, статьи, монографии и т.д.). 3 Использование тезаурусов для семантической обработки информации Чтобы отфильтровать результаты работы внешней ИПС и получить только те ИР, которые пертинентны информационным потребностям пользователя, необходимо предварительно сформировать тезаурус ПрО, интересующей пользователя, и тезаурусы этих ИР, а затем сравнить эти тезаурусы. Построение тезаурусов для инфор- мационных ресурсов выполняется программой автоматически на основе лексичес- кого анализа соответствующего текста. Тезаурус используют также для измерения количества информации в ИР на семантическом уровне, что позволяет связать семантические свойства информации с возможностью пользователя воспринимать (потреблять, использовать) сообщения, которые поступили по его запросу. Здесь возможны некоторые предельные случаи, например, если количество семантической информации в сообщении равняется нулю, тогда: 1) пользователь вообще не понимает информации; 2) пользователь все знает, а та информация, которая поступила, ему не нужна. Примером первого предельного случая может быть текст на неизвестном пользователю языке, а второго – таблица умно- жения для студента. Будем считать, что тезаурус ПрО – это совокупность терминов, знакомых поль- зователю ИПС. Это термины, содержащиеся в ИР, которые были найдены ранее по запросам пользователя и были признаны им относящимися к этой ПрО. Разработка тезауруса для автоматической оценки семантического количества информации в ИР характеризуется, прежде всего, необходимостью описания значи- тельно большего количества терминов (слов и словосочетаний), встречающихся в текстах данной ПрО. Тезаурус должен включать не только термины, которые представляют важные понятия в текстах данной предметной области, но также охватывать широ- кий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня. В резуль- тате сопоставления контента ИР с тезаурусом пользователя создается понятийный индекс ИР, в котором указывается, какие дескрипторы тезауруса обнаружены. Гладун А.Я., Рогушина Ю.В. «Искусственный интеллект» 3’2010 468 5Г 4 Алгоритм определения пертинентности ИР информационным потребностям пользователя 4.1 Формирование тезауруса ПрО, интересующей пользователя На первом этапе пользователь должен создать тезаурус, моделирующий инте- ресующую его ПрО, в котором содержатся основные термины ПрО и связи между ними, и сохранить ее. Для этого можно применить методологию разработки онтологи- ческих моделей – стандарт IDEF5 семейства IDEF (www.idef.com/IDEF5.html). Согласно методологии IDEF5, построение тезауруса ПрО состоит из пяти основных действий: 1. Изучение и систематизирование начальных условий – цели и контекст разра- ботки тезауруса, определение границ ПрО, интересующей пользователя. 2. Сбор и накапливание данных – отбор ИР, относящихся к данной ПрО. 3. Анализ данных – изучение отобранных ИР, формирование словаря терминов ПрО, содержащихся в отобранных ИР. 4. Начальное развитие тезауруса – установление связей между терминами ПрО (путем формирования пользователем или выбора среди существующих онтологии ПрО, например, с помощью Protégé), из которой затем извлекаются базовые термины ПрО и связи между ними); альтернативным способом построения тезауруса является непосредственный ввод терминов тезауруса пользователем. 5. Уточнение и утверждение тезауруса – анализ пользователем полученного тезауруса и его корректирование. 4.2 Формирование тезауруса информационного ресурса В связи с необходимостью анализа большого количества ИР, мы предлагаем использовать упрощенный алгоритм построения их тезауруса: по полному перечню слов, используемых в ИР, строится словарь терминов, из которого отбрасываются стоп-слова, содержащиеся в специально разработанном пользователем списке. Этот алгоритм применяется только для тех ИР, которые не сопровождаются метаописаниями. В противном случае из метаописаний (в формате RDF или OWL) извлекаются термины тезауруса и связи между ними, которые дополняют построенный по контенту ИР словарь. 4.3 Фильтрация ИР на основе тезаурусов Алгоритм фильтрации результатов запроса пользователя к внешней ИПС Интернета: 1. Пользователь вводит запрос, идентифицируя свою информационную потреб- ность с помощью ключевых слов. 2. Запрос передается внешней ИПС, от которой получают в соответствии с запросом результаты его выполнения – n ссылок на ИР и их кратких описаний { } n,j,D,fReI jj 1== . Здесь jfRe – http-адрес соответствующего ИР, найденного ИПС, а jd – информация об этом ИР, которую ИПС предоставляет пользователю в ответ на запрос. 3. Если множество I не пусто, т.е. ИПС найден в ответ на запрос более чем один ИР ( 1≥n ), то нужно установить порядок, в каком предлагать пользователю сведения о найденных ИР. Тогда для всех ИР из этого множества { } n,1j,D,fReI jj == формиру- ются их упрощенные тезаурусы n,1j,,T)ИР(Ts jjj =∅= и соответствующие им словари Использование тезауруса предметной области... «Штучний інтелект» 3’2010 469 5Г терминов { } jjj q,1w,n,1j,tТ lw === . lwjt – это слова, которые используются в инфор- мации о j-м ИР, найденном ИПС, т.е. в n,1j,D j = . n,1j,q j = – это количество различных слов, используемых в описании n,1j,D j = . Если слова в описании повторяются, то в словаре терминов они фиксируются только один раз. 4. Затем пользователь формирует тезаурус интересующей его ПрО (или указы- вает на ранее сформированный тезаурус) ПрОTs и соответствующий ему словарь терминов этой ПрО { } q,m,tТ mПрО 1== . ПрОТ – это множество, состоящее из m терми- нов, относящихся к интересующей пользователя ПрО. Это множество строится анало- гично словарю терминов ИР и обычно формируется как объединение словарей терминов, содержащихся в документах, которые пользователь нашел ранее и посчитал реле- вантными интересующей его ПрО (как в их контенте, так и в метаописаниях). 5. Производится сравнение ПрОТ и n,j,Т j 1= , высчитывается коэффициент их близости ( ) ,w,w,q,m,t,tfK j q m w w mjj j w 11 1 1 === ∑∑ = = где ( )    = ≠ = 21 21 21 1 0 tt если , tt если , t,tf . (1). Коэффициент (1) представляет собой количество терминов, которые встретились как в тезаурусе ИР, так и в тезаурусе ПрО. 6. Найденные ИР упорядочиваются в зависимости от значений jK , пользова- телю предъявляются в первую очередь те ИР, которые имеют наиболее высокий коэф- фициент близости к ПрО. При использовании коэффициента (1) возникает следующая проблема: слова, соответствующие одному термину, но являющиеся, например, различными слово- формами, синонимами или переводами на различные языки, обрабатываются как разные термины. Поэтому представляется целесообразным использовать онтологию ПрО и выделять группы слов, соответствующих одному термину. Для этого поль- зователь должен связать элементы словаря терминов терауруса ПрО с одним из тер- минов онтологии ПрО O = <X,R,F>, т.е. ==∈∀ q,1m,Тt ПрОm задать функцию ( ) Xtg m ∈ . Затем для вычисления коэффициента близости КО эта функция используется следу- ющим образом: ( ) j l,m mjj O w,w,q,m,t,tfK w 11 === ∑ , где ( )    = ≠ = )t(g)tg( если , )t(g)tg( если , t,tf 21 21 21 1 0 . (2) Коэффициент (2) представляет собой количество терминов, которые встре- тились как в тезаурусе ИР, так и в тезаурусе ПрО, и при этом ссылаются на один и тот же термин онтологии ПрО. По сравнению с коэффициентом (1) коэффициент (2) позволяет использовать меньший объем документов для построения тезауруса ПрО, но требует большее время для вычислений. 5 Программная реализация Предложенные выше методы реализованы в интеллектуальной поисковой сис- темы МАИПС (авт. свидетельство № 32015 и № 32068 от 13.02.2010), которая отвечает ряду требований к приложениям Semantic Web: Гладун А.Я., Рогушина Ю.В. «Искусственный интеллект» 3’2010 470 5Г 1. Для описания ПрО используются онтологии в формате OWL и тезаурусы, для представления которых используется XML. 2. Результаты, получаемые от внешней ИПС, содержат ссылки на ИР, предос- тавляемые различными провайдерами. 3. МАИПС осуществляет поиск и текстовых, и мультимедийных ИР. 6 Интеллектуальные методы построения тезаурусов ПрО При создании тезауруса ПрО, которая интересует пользователя ИПС, необхо- димо явно указать основные понятия ПрО и связи между ними. К сожалению, большин- ству пользователей достаточно сложно это сделать (даже имея соответствующие знания и применяя их в своей деятельности). На первом этапе формирования теза- уруса пользователь может выбрать одно из следующих решений: – самостоятельно построить с помощью одного из редакторов онтологий онто- логическое описание области его информационных интересов; – найти (например, в Интернете) какую-либо онтологию, представленную на языке OWL, которую описывает ПрО, близкую к области его информационных интересов; – сформировать множество понятий ПрО, которое содержит наиболее харак- терные слова и словосочетания, встречающиеся в интересующих его ИР. Важно определить, какие именно связи между элементами ПрО являются сущес- твенными (и их, следовательно, необходимо включить в систему). Не все сущес- твенные связи между терминами ПрО могут быть очевидны пользователю, он может воспользоваться для их нахождения методами индуктивного вывода. Существуют независимые подходы к реализации подобных методов: ID3, ACLS, CART и т.д. Наиболее интересным, в связи со спецификой проводимой работы, ока- зался алгоритм ID3 [8], который специально разработан для извлечения ценной информации из больших объемов слабо структурированных данных. При работе этого алгоритма время вычислений зависит линейно от числа введенных примеров, числа атрибутов, используемых для описания примеров, и числа узлов в строящемся дереве решений. Это качество отличает его от таких известных алгоритмов постро- ения деревьев решений, как INDUCE, SPROUTER, ROTH-P, в которых усилия, требу- ющиеся для решения задачи, резко возрастают вместе со сложностью задачи. Если методы, подобные МГУА (метод группового учета элементов), предназ- начены для нахождения закономерностей по набору количественных измерений параметров и полученному по ним результату, то методы, подобные ID3 и его вариациям (С4.5, ID4 и т.д.), предназначены для обобщения опыта экспериментов, параметры и результаты которых описаны через качественные оценки (лингвис- тические переменные). В большинстве случаев между их значениями невозможно установить даже относительное упорядочение (например, различные симптомы и диагнозы пациентов). К таким задачам относится и задача поиска информации в Интернете. Например, такой существенный параметр ИР, как язык, не может быть описан количественно. ID3 принадлежит к невозрастающим алгоритмам, то есть при добавлении к набору классифицированных примеров новых нужно обрабатывать снова как старые, так и новые примеры. Предлагается использовать ID3m [9] – модификацию ID3 для произвольного (конечного) количества решений. Он также принадлежит к невозрастающим алгорит- мам. В данном случае примерами обучающей выборки являются ИР, полученные ранее пользователем в результате запросов к ИПС. Параметрами, по которым они описы- ваются, являются свойства ИР (язык, время создания, размер, формат, право доступа Использование тезауруса предметной области... «Штучний інтелект» 3’2010 471 5Г и т.д.), а также термины тезауруса пользователя. Значения, соответствующие терми- нам тезауруса, – «Термин отсутствует в ИР», «Термин встречается в ИР редко», «Термин встречается в ИР часто». В качестве результата используется оценка, данная пользо- вателю найденному ИР (качественная оценка, имеющая два и более значений). На вход алгоритма поступает обучающая выборка H – набор из n классифи- цированных (получивших одну из возможных оценок) примеров одинаковой размер- ности. { } n,i,hH i 1== . Каждый пример из выборки – упорядоченная последо- вательность значений s атрибутов и результирующего атрибута n,i,r,a,...,ah si 11 == . Значения атрибутов принадлежат конечным множествам: ,,1,,1, jjuj nunjAa ==∈ .,1, ry nyRr =∈ Если обучающая выборка содержит примеры, в которых все значения атрибутов одинаковы, а решения различны, то введенная информация недостаточна для построения классификационного правила. Если множество примеров пустое, то можно произвольно связать его с любым решением. Если все примеры относятся к одному классу, строится один лист дерева решений, связанный с этим классом. В про- тивном случае необходимо выбрать один из атрибутов и разделить множество атрибутов на подмножества в зависимости от значения этого атрибута и применить алгоритм к каждому из полученных подмножеств. На каждом шаге работы алгоритма вычисляется, какой атрибут m несет наиболь- шее количество информации о результате. } i j d )Rr,AC(a {zmax=}s1,z,{Cmax =C z jjzz zmax i∑∑ ∈∈ = , (3) где C(x,y) – количество информации ),yp(x, lg *y)p(x, =y)C(x, i j ∑ ∑ p(x,y) – вероят- ность одновременного наступления событий x и y, dm – стоимость получения зна- чения m-го атрибута. В результате работы алгоритма ID3m формируется дерево решений, в котором каждый лист связан с одним из решений, каждый узел характеризуется именем одного из атрибутов, а выходящие из такого узла ветви – значениями этого атрибута. Такое дерево решений позволяет ИПС по параметрам вновь найденного ИР прогно- зировать, как именно оценит его пользователь, и предлагать пользователю в первую очередь те ИР, которые соответствуют его индивидуальным предпочтениям. Так как точные значения вероятностей событий из обучающей выборки неизвестны, то они аппроксимируются на основе рассматриваемого множества примеров. Выводы Предложенный в работе подход к поиску информации в Интернете основы- вается на использовании знаний пользователя о ПрО, характеризующей его инфор- мационные потребности. Пользователь может явно указывать интересующие его терми- ны и получать те информационные ресурсы, которые соответствуют его запросу, но содержат также и эти термины. Такой подход ориентирован на пользователя с отно- сительно стабильными информационными потребностями, не являющегося специ- алистом в области информационных технологий, и позволяет пользователю избежать рутинной работы по фильтрации результатов обращения к ИПС. Гладун А.Я., Рогушина Ю.В. «Искусственный интеллект» 3’2010 472 5Г Литература 1. Рогушина Ю.В. Использование онтологического описания предметной области для повышения релевантности информационного поиска / Ю.В. Рогушина // Проблемы программирования. – 2003. – № 4. – С. 54-64. 2. Гаврилова Т.А. Базы знаний интеллектуальных систем / Т.А. Гаврилова, В.Ф. Хорошевский. – Спб. : Питер, 2001. 3. Musen M. Domain Ontologies in Software Engineering: Use of Protege with the EON Architecture / M. Musen // Methods of Inform. in Medicine, 1998. – P. 540-550. 4. Андкреев А.М. Особенности проектирования модели и онтологии предметной области для по- иска противоречий в правовых электронных библиотеках [Электронный ресурс] / Андкреев А.М., Березкин Д.В. Симаков К.В. – Режим доступа : http://www.inteltec. ru/publish/articles/textan/ RCDL2004.shtml. 5. Браславский П.И. Тезаурус как средство описания систем знаний / П.И. Браславский, С.Л. Гольд- штейн, Т.Я. Ткаченко // Информационные процессы и системы. – 1997. – № 11. – Серия 2. – С. 16-22. 6. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология [Электронный ресурс] / А.С. На- риньяни. – Режим доступа : http://www.artint.ru/articles/narin/teon.htm. 7. Noy N. The PROMPT Suite: Interactive Tools For Ontology Merging And Mapping / N. Noy, M. Musen // Stanford Medical Informatics. – Stanford Univ., 2003. 8. Quinlan J.R. Discovery rules from large collections of examples: a case study / J.R. Quinlan // Expert Systems in the Microelectronic Age. – Edinburg, 1979. – P. 87-102. 9. Рогушина Ю.В. Применение методов индуктивного вывода для создания прикладных экспер- тных систем / Ю.В. Рогушина // Разработка и использование информационных технологий в системах управления. – Киев : Ин-т кибернетики им. В.М. Глушкова АН Украины, 1993. – С. 122-128. 10. Гладун А.Я., Онтологии и мультилингвистические тезаурусы как основа семантического поиска информационных ресурсов Интернет / А.Я. Гладун, Ю.В. Рогушина // The Proc. of XII-th Intern. Conf. KDS’2006, (Varna, Bulgaria). – Р. 115-121. А.Я. Гладун, Ю.В. Рогушина Використання тезауруса предметної області як інструмента представлення знань для підвищення ефективності проблемно-орієнтованого пошуку у Web Для того щоб підвищити релевантність пошуку інформації у Web, пропонується використовувати знання про інформаційні потреби користувача, відображені як в описі інтелектуальної задачі, що постає перед ним, так і в його тезаурусі. Це дозволяє робити припущення про тематичну близькість знай- дених у Web інформаційних ресурсів до тієї предметної області, що пертинентна проблемі користувача. Anatoly Gladun, Julia Rogushina Use of the Thesaurus as a Tool of Knowledge Representation in Improving of the Effectiveness of Problem-Based Web Search In order to improve the relevance of the Web information retrieval the knowledge about users’whsch is information needs reflected in the description of some intelligent problem and thesaurus is proposed to use. It allows to make the assumptions about thematic proximity of Web information resources to the domain pertinent to user’s problem. Статья поступила в редакцию 28.05.2010.
id nasplib_isofts_kiev_ua-123456789-56565
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Russian
last_indexed 2025-12-07T13:29:58Z
publishDate 2010
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Гладун, А.Я.
Рогушина, Ю.В.
2014-02-19T21:36:35Z
2014-02-19T21:36:35Z
2010
Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web / А.Я. Гладун, Ю.В. Рогушина // Штучний інтелект. — 2010. — № 3. — С. 462-472. — Бібліогр.: 10 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/56565
004.65:004.89
Для того, чтобы повысить релевантность поиска информации в Интернете, предлагается использовать знания об информационных потребностях пользователя, отраженных как в описании стоящей перед ним интеллектуальной задачи, так и в его тезаурусе. Это позволяет делать предположения о тематической близости найденных в Web информационных ресурсов той предметной области, которая пертинентна проблеме пользователя.
Для того щоб підвищити релевантність пошуку інформації у Web, пропонується використовувати знання про інформаційні потреби користувача, відображені як в описі інтелектуальної задачі, що постає перед ним, так і в його тезаурусі. Це дозволяє робити припущення про тематичну близькість знай- дених у Web інформаційних ресурсів до тієї предметної області, що пертинентна проблемі користувача.
In order to improve the relevance of the Web information retrieval the knowledge about users’whsch is information needs reflected in the description of some intelligent problem and thesaurus is proposed to use. It allows to make the assumptions about thematic proximity of Web information resources to the domain pertinent to user’s problem.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Интеллектуальные системы планирования, управления, моделирования и принятия решений
Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
Використання тезауруса предметної області як інструмента представлення знань для підвищення ефективності проблемно-орієнтованого пошуку у Web
Use of the Thesaurus as a Tool of Knowledge Representation in Improving of the Effectiveness of Problem-Based Web Search
Article
published earlier
spellingShingle Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
Гладун, А.Я.
Рогушина, Ю.В.
Интеллектуальные системы планирования, управления, моделирования и принятия решений
title Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
title_alt Використання тезауруса предметної області як інструмента представлення знань для підвищення ефективності проблемно-орієнтованого пошуку у Web
Use of the Thesaurus as a Tool of Knowledge Representation in Improving of the Effectiveness of Problem-Based Web Search
title_full Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
title_fullStr Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
title_full_unstemmed Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
title_short Использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в Web
title_sort использование тезауруса предметной области как инструмента представления знаний при повышении эффективности проблемно-ориентированного поиска в web
topic Интеллектуальные системы планирования, управления, моделирования и принятия решений
topic_facet Интеллектуальные системы планирования, управления, моделирования и принятия решений
url https://nasplib.isofts.kiev.ua/handle/123456789/56565
work_keys_str_mv AT gladunaâ ispolʹzovanietezaurusapredmetnoioblastikakinstrumentapredstavleniâznaniipripovyšeniiéffektivnostiproblemnoorientirovannogopoiskavweb
AT rogušinaûv ispolʹzovanietezaurusapredmetnoioblastikakinstrumentapredstavleniâznaniipripovyšeniiéffektivnostiproblemnoorientirovannogopoiskavweb
AT gladunaâ vikoristannâtezaurusapredmetnoíoblastíâkínstrumentapredstavlennâznanʹdlâpídviŝennâefektivnostíproblemnooríêntovanogopošukuuweb
AT rogušinaûv vikoristannâtezaurusapredmetnoíoblastíâkínstrumentapredstavlennâznanʹdlâpídviŝennâefektivnostíproblemnooríêntovanogopošukuuweb
AT gladunaâ useofthethesaurusasatoolofknowledgerepresentationinimprovingoftheeffectivenessofproblembasedwebsearch
AT rogušinaûv useofthethesaurusasatoolofknowledgerepresentationinimprovingoftheeffectivenessofproblembasedwebsearch