Using ontological knowledge in recommender systems

The main functions of recommender systems and criteria of their classification are analysed. Methods of recommendation generation based on the ontological model of knowledge about users and resources and its use in the semantic search system MAIPS are proposed.Problems in programming 2013; 2: 71-86

Gespeichert in:
Bibliographische Detailangaben
Datum:2025
1. Verfasser: Rogushina, J.V.
Format: Artikel
Sprache:Russian
Veröffentlicht: PROBLEMS IN PROGRAMMING 2025
Schlagworte:
Online Zugang:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/780
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems in programming
Завантажити файл: Pdf

Institution

Problems in programming
id pp_isofts_kiev_ua-article-780
record_format ojs
resource_txt_mv ppisoftskievua/32/e1d0388e9e7a551dfc8e12ee0bf63732.pdf
spelling pp_isofts_kiev_ua-article-7802025-08-27T13:11:22Z Using ontological knowledge in recommender systems Использование онтологических знаний в рекомендующих системах Rogushina, J.V. UDC 681.3 УДК 681.3 The main functions of recommender systems and criteria of their classification are analysed. Methods of recommendation generation based on the ontological model of knowledge about users and resources and its use in the semantic search system MAIPS are proposed.Problems in programming 2013; 2: 71-86 Проанализированы основные функции рекомендующих систем и критерии их классификации. Предложены методы выработки рекомендаций на основе онтологической модели знаний о пользователях и ресурсах и ее использование в семантической поисковой системе МАИПС.Problems in programming 2013; 2: 71-86 PROBLEMS IN PROGRAMMING ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ ПРОБЛЕМИ ПРОГРАМУВАННЯ 2025-08-27 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/780 PROBLEMS IN PROGRAMMING; No 2 (2013); 71-86 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2 (2013); 71-86 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2 (2013); 71-86 1727-4907 ru https://pp.isofts.kiev.ua/index.php/ojs1/article/view/780/832 Copyright (c) 2025 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-08-27T13:11:22Z
collection OJS
language Russian
topic
UDC 681.3
spellingShingle
UDC 681.3
Rogushina, J.V.
Using ontological knowledge in recommender systems
topic_facet
UDC 681.3

УДК 681.3
format Article
author Rogushina, J.V.
author_facet Rogushina, J.V.
author_sort Rogushina, J.V.
title Using ontological knowledge in recommender systems
title_short Using ontological knowledge in recommender systems
title_full Using ontological knowledge in recommender systems
title_fullStr Using ontological knowledge in recommender systems
title_full_unstemmed Using ontological knowledge in recommender systems
title_sort using ontological knowledge in recommender systems
title_alt Использование онтологических знаний в рекомендующих системах
description The main functions of recommender systems and criteria of their classification are analysed. Methods of recommendation generation based on the ontological model of knowledge about users and resources and its use in the semantic search system MAIPS are proposed.Problems in programming 2013; 2: 71-86
publisher PROBLEMS IN PROGRAMMING
publishDate 2025
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/780
work_keys_str_mv AT rogushinajv usingontologicalknowledgeinrecommendersystems
AT rogushinajv ispolʹzovanieontologičeskihznanijvrekomenduûŝihsistemah
first_indexed 2025-09-17T09:22:17Z
last_indexed 2025-09-17T09:22:17Z
_version_ 1850413003871092736
fulltext Моделі і засоби систем баз даних та знань © Ю.В. Рогушина, 2013 ISSN 1727-4907. Проблеми програмування. 2013. № 2 71 УДК 681.3 Ю.В. Рогушина ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЧЕСКИХ ЗНАНИЙ В РЕКОМЕНДУЮЩИХ СИСТЕМАХ Проанализированы основные функции рекомендующих систем и критерии их классификации. Предло- жены методы выработки рекомендаций на основе онтологической модели знаний о пользователях и ре- сурсах и ее использование в семантической поисковой системе МАИПС. Введение Постоянное увеличение объема контента, доступного через World Wide Web, его о гетерогенность, слабая струк- турированность и нечеткость классифика- ции усложняют его эффективное исполь- зование. У большинства пользователей возникает необходимость в фильтрации доступной через Web информации таким образом, чтобы найти то, что соответству- ют реальным информационным потребно- стям пользователя. Для этого пользовате- лю необходимо как-то задать предметную область своих интересов и классифициро- вать искомый объект (таким объектом мо- жет быть, к примеру, информационный ресурс, сервис или товар, продаваемый че- рез Интернет). Именно этим занимаются различ- ные рекомендующие системы, ориентиро- ванные на различные типы ресурсов и предметные области. К сожалению, часто людям сложно четко сформулировать, чем они интересу- ются и что именно им нужно (причем про- блема не сводится только к используемой терминологии), однако им значительно проще оценить, подходит ли им тот или иной предложенный образец. Поэтому це- лесообразно использовать принцип обрат- ной связи пользователя с рекомендующей системой: люди оценивают элементы как интересные или не интересные, а система пытается найти новые элементы, которые подобны интересным и не похожи на не интересные, отрицательные примеры. При достаточном количестве положительных и отрицательных примеров современные ме- тоды машинного обучения способны клас- сифицировать новые элементы с высокой точностью и определить, интересны ли они пользователю. Рекомендующие системы (РС) от- личаются от информационно-поисковых систем (ИПС) тем, что для обнаружения необходимого пользователю результата нет необходимости явным образом форму- лировать поисковый запрос – система са- ма, на основании имеющихся сведений о пользователе, предлагает пользователю то, что может его заинтересовать или быть ему полезным. Чем выше и точнее инфор- мированность РС о потребностях пользо- вателя, тем более эффективны результаты ее работы. РС представляют собой один из подходов к решению проблему информа- ционной перегрузки. Использование тех- нологий Semantic Web и Web 2.0. позволя- ет интегрировать знания о пользователях и ресурсах, и повысить эффективность фор- мирования рекомендаций, а разработка гибкой стратегии построения рекоменда- ций, явно формируемой пользователем, обеспечивает более высокую персонифи- кацию РС. Типы рекомендующих систем В [1] РС определяются как про- граммные средства и методы, предлагаю- щие пользователям полезные для них эле- менты. При этом "элемент" является об- щим термином, используемым для обозна- чения того, что система рекомендует поль- зователям. Чтобы точнее определить РС, следует уточнить ее роль, различая при этом роль РС для поставщика рекоменду- емых элементов (РЭ) от ее роли для поль- зователя. Моделі і засоби систем баз даних та знань 72 Поставщики РЭ могут использовать технологии РС для: 1) увеличения количества продава- емого товара; 2) продажи более разнообразной продукции; 3) повышения удовлетворенности пользователей; 4) увеличения лояльности пользо- вателей; 5) лучшего понимания потребно- стей пользователей. С точки зрения пользователей, РС позволяют: 1) найти несколько подходящих пользователю РЭ (ранжированный список и прогноз их полезности);  найти все РЭ, которые могут удовле- творить некоторые потребности поль- зователей;  аннотации найденных РЭ в контексте долгосрочных пользовательские пред- почтения;  рекомендовать последовательность РЭ (порядок чтения книг, просмотра фильмов, выбор обучающих курсов и т.д.);  рекомендовать комплект – группу РЭ, используемых совместно (например, план отдыха включает транспорт, услу- ги по размещению и набор экскурсий). В своей простейшей форме, персо- нализированные рекомендации – это упо- рядоченные списки РЭ. При этом упо- рядочении РС, основываясь на предпо- чтениях и ограничениях пользователей, пытается прогнозировать, какие товары или сервисы наиболее подходят пользова- телю. Для этого РС накапливает информа- цию о предпочтениях пользователя и о его действиях. РС широко используются в элек- тронной коммерции, машинном обучении, электронных библиотеках, интегрируются с программными агентами – персональны- ми помощниками и мультиагентными си- стемами. Они применяются на таких ши- роко известных Web-сайтах, как Amazon.com, YouTube, Yahoo и т. д. Формально формирование реко- мендаций в РС может быть представлена следующим образом: пусть С – множе- ство пользователей РС, S – множество предлагаемых РЭ (товаров, книг, филь- мов, сервисов и т. д.). U – функция по- лезности, описывающая интерес пользо- вателя Cc к РЭ Ss , т. е. RSCU : , где R – количественная оценка. Цель РС – для каждого потре- бителя Cc выбрать такой РЭ Ss ̀ , что   ),(max`, scuscU Ss  . Каким именно обра- зом определяется функция полезности, зависит от типа РС и от специфики РЭ. РС базируются на методах коллабо- ративной фильтрации, контентной филь- трации и их сочетаниях. При классифика- ции РС обычно выделяют следующие под- ходы к отбору РЭ:  персональный подход – анализ профиля конкретного пользователя, его ранее проявленных предпочтений и явным образом выраженных условий;  социальный (коллаборативный) подход – анализ предпочтений других пользователей, которые по тем или иным причинам могут распространяться и на того пользователя, для которого делается выбор;  контент-ориентированный под- ход, при котором анализируются сами РЭ, предлагаемые пользователю;  доверительный подход – анали- зируется качество предлагаемых пользова- телю РЭ и анализируется степень доверия к ним. Следует отметить, что в большин- стве реальных РС все эти подходы реали- зуются интегрировано, но им придается различное внимание. При контентной фильтрации полез- ность  ,u c s определяется на основе зна- чений полезности  , iu c s , определенных этим пользователем для подобных РЭ, а при коллаборативной – на основе значе- ний полезности  ,iu c s , определенных для этого РЭ другими пользователями. Чаще всего контентные РС исполь- Моделі і засоби систем баз даних та знань 73 зуют для рекомендования РЭ, содержащих текстовую информацию (например, Web- сайтов, новостей) [2]. Важность слова мо- жет определяться, например, с помощью частоты его использования. Значительно сложнее применять контентную фильтра- цию к мультимедийным объектам, в кото- рых надо вначале распознавать естествен- но-языковый текст. Иногда необходимо отфильтровы- вают объекты, не только если они несход- ны с предпочтениями пользователя, но и в том случае, если они обладают слишком большим сходством. Кроме того, чтобы преодолеть про- блему узких рекомендаций, когда пользо- ватель никогда не узнает о тех РЭ, с кото- рыми ранее не сталкивался, можно приме- нять фактор случайности (например, гене- тические алгоритмы). Алгоритмы для коллаборативной фильтрации можно разделить на два больших класса: анамнестические (на ос- нове памяти) и модельные. Анамнестические алгоритмы про- гнозируют оценки РЭ клиентом, исходя из всех предшествующих оценок, сделан- ных данным клиентом, т. е. не оцененный ранее пользователем РЭ получает такую оценку, какую дали ему те пользователи, которые так же (или похоже) оценили ра- нее оцененные пользователем РЭ. В большинстве РС подобие между двумя пользователями основывается на том, какие оценки они дали одним и тем же товарам. Наибольшее распространение получили корреляционный метод и метод линейного сходства.        N i ii ccsimscU N scU 1 `,*`, 1 ``, , где  21,ccsim – функция, оценивающая степень подобия пользователей 21 c,c ,   1021 ,,ccsim  , которая может опреде- ляться, например, следующим образом:       M j j,sc,сQ M c,сsim 1 1 2121 , где                ,scU,sc U, ,scU,sc U, ,s,ccQ 21 21 21 если0 если1 , а M – количество РЭ, оцененных обоими пользователями. Эта функция может быть описана более сложно, если оценки могут иметь не только бинарные значения. Однако такая функция определения подобия не учитывает того, что пользова- тели по-разному использовать шкалу оце- нок, и потому более точные результат дает учет среднего значения оценок, даваемых каждым пользователем. В отличие от анамнестических ме- тодов, модельные алгоритмы прогнозиру- ют оценку РЭ, исходя не из эвристических допущений, а на некоей модели поведения, созданной с помощью статистического анализа, используя, например, кластерные модели, латентно-семантический анализ и Байесовы сети. Для эффективной работы РС надо предвидеть оценки, исходя из небольшого количества примеров. Для преодоления проблему разреженности оценок следует при поиске похожих пользователей ис- пользовать также сведения из их профилей и обнаруживать пользователей со схожими профилями, например, относящихся к од- ному демографическому сегменту. Анализ основных направлений раз- вития современных РС [3] связывает их с использованием онтологий для представ- ления знаний как о пользователях, так и о РЭ. При персональном подходе РС необ- ходимо накопить достаточно сведений о пользователе, чтобы в дальнейшем их обобщать и анализировать. Фоновый мо- ниторинг работы пользователя обеспечи- вает положительные примеры того, что этот пользователь ищет, не мешая его нормальной работе. Для нахождения отри- цательных примеров из наблюдаемого по- ведения также могут применяться эври- стики, (хотя в целом с меньшей точно- стью). Эта идея лежит в основе тех РС, ко- торые наблюдают за поведением пользова- телей и рекомендуют им те новые РЭ, ко- торые коррелируют с профилями пользо- вателей. Например, если пользователь ре- гулярно просматривает сайты определен- Моделі і засоби систем баз даних та знань 74 ной тематики, то РС, проанализировав контент этих сайтов, может предложить ему другие сайты той же направленности. Другой способ рекомендовать РЭ базируется на рейтингах, предоставляе- мых теми людьми, которые ранее оценили РЭ. Коллаборативные РС для этого за- прашивают у пользователей явные оценки РЭ, а затем рекомендуют те РЭ, которые высоко оценили похожие пользователи. При коллаборативной фильтрации нет прямого вознаграждения за выставления оценок, которые помогают другим людям. Профилирование пользователя, т. е. создание формализованного описания пользователя, позволяющего прогнозиро- вать его реакцию на различные РЭ, как правило, базируется либо на знаниях о нем, либо на анализе его поведения. Для получения знаний о пользователе часто используются анкетирование и интервью. После того, как модель для пользователя выбрана, можно использовать знания со- ответствующей этому типу пользователей предметной области для того, чтобы по- мочь конкретному пользователю. Подходы, основанные на поведе- нии, используют поведение пользователя в качестве модели, а обычно используе- мые методы машинного обучения позво- ляют обнаружить полезные закономерно- сти в поведении. Регистрация поведения используется для получения данных, не- обходимых для извлечения закономерно- стей. В [4] приведен обзор методов созда- ния модели пользователя – его планов, предпочтений, знаний, и методы попол- нения этой модели сведениями из новых информационных ресурсов. В большинстве РС профилирова- ние пользователей базируется на поведе- нии и обычно использует бинарную мо- дель классов для представления того, что пользователь считает интересным и не интересным. Для поиска РЭ, потенциаль- но интересных пользователю, использу- ются методы машинного обучения, реко- мендующие РЭ, которые соответствуют положительным примерам и не соответ- ствуют отрицательным примерам. Но би- нарный профиль не позволяет совместно использовать примеры проявления инте- реса или интегрировать разные области знаний. Ранние РС, использующие подходы на основе бинарной классификации кон- тента, анализируют обучающую выборку примеров того, что было интересно и не интересно конкретному пользователю. Методы машинного обучения использу- ются для выполнения контролируемого обучения на основе наборов наблюдаемых примеров, которые пользователь обозна- чил как «хорошо» или «плохо». Класси- ческий пример РС на основе контента – система Fab [5], которая использует би- нарную классификацию К-ближайшего соседа. Онтологии позволяют расширить РС для гетерогенной среды, обеспечивая использование основанных на знаниях подходов совместно с классическими ал- горитмами машинного обучения, стати- стическими корреляциями, профилирова- нием пользователей и специфическими для предметной области эвристиками. Коммерческие РС, как правило, поддер- живают простые онтологии продуктов (например, книг), которые они могут ис- пользовать при помощи эвристик, или имеют большое сообщество пользовате- лей, активно оценивающих контент (например, фильмы), что делает возмож- ной коллаборативную фильтрацию. РС, ориентированные на исследования, ис- пользуют значительно больше методов, что обеспечивает повышенную точность, но усложняет работу пользователей (например, навязчивый мониторинг пове- дения пользователей в течение длитель- ного периода времени). Рекомендация относительно новых РЭ для пользователей может формиро- ваться на основе его сравнения с подоб- ными РЭ (фильтрация на основе контен- та), отзывов об РЭ в сообществе пользо- вателей (коллаборативной фильтрации), семантических отношений между РЭ (эв- ристические рекомендации) или сочета- ния этих подходов. Во многих случаях выбор подхода зависит от того, насколько доступны метаданные об РЭ и есть ли об- ратная связь с пользователями (явно и не- явно). Методы на основе контента хорошо Моделі і засоби систем баз даних та знань 75 работают, если есть достаточная обучаю- щая выборка, а коллаборативные методы – когда система имеет большое сообщество пользователей. Однако на сегодня не вы- работаны общепринятые правила для вы- бора стратегии рекомендования: чтобы выбрать наиболее удачный подход для конкретной предметной области как пра- вило, необходимы опыт и знания. Для расширения бинарной класси- фикации в онтологии домена были введе- ны мультиклассовые классификации и, следовательно, мультиклассовые реко- мендации. Обычно классы в онтологии ПрО, такой как онтология товаров на Web-сайте электронной коммерции, ис- пользуются для классификации товаров, которые пользователь купил ранее, и Web-страниц, которые он просматривал. Примером мультиклассовой рекоменда- ции является Raap [6], который использу- ет простой набор категорий для представ- ления индивидуальных профилей пользо- вателей. После того, как ПрО классифици- рована в терминах онтологических поня- тий, отношения, определяемые онтологи- ей ПрО, могут использоваться для логи- ческого вывода интересности и релевант- ности одного понятия из наблюдаемого интереса к другому понятию. Основанная на знаниях система может использовать правила экспертной системы для вывода вероятности интереса к классам РЭ, се- мантической связанным с наблюдаемым интересом к РЭ. Обычно семантическое расстояние (количество отношений от од- ной теме от другой) используется для расчета семантического сходства, и это используется, чтобы определить вес инте- реса. Например, в [7] рассматриваются РС, использующие знание- ориентированный подход к формирова- нию рекомендаций о выборе ресторанов. Если запросы пользователей сфор- мулированы через Web-интерфейс, то критериям запроса может управлять осно- ванное на знаниях дерево решений для уточнений запроса. Примером такого подхода является система CWAdvisor [8], при котором конечное состояние модели используется для уточнения запросов о доступных финансовых услугах, которые соответствуют установленным требовани- ям пользователя. Некоторые области не имеют четко определенных классов РЭ, с помощью ко- торых можно классифицировать контент. В этих случаях рекомендующие системы используют методов кластеризации для выявления в пределах группы РЭ потен- циально похожих классов. Например, иерархическая кластеризация использова- на для классификации коллекций доку- ментов [9]. Подразделяют кластеризацию на основе расстоянии и на основе понятий. Кластеризация на основе расстоя- ния использует подход к построению иерархического дерева классов либо сверху вниз (разделение), либо снизу вверх (агломерация). Она также может использовать онтологический подход для учета предпочтений пользователей. Функция расстояния, которая использует- ся для вычисления сходства между доку- ментами, часто основывается на подобии частоты использования слов в докумен- те. Алгоритм кластеризации повторяется, подразделяя супер-кластеры или объеди- няя малые кластеров в более крупные, пока не будет сформировано дерево понятий. Кластеризация на основе понятий принимает РЭ, представленные в виде пар атрибутов, и строит отношения, основан- ные на вероятности появления пар атри- бутов в узлах. Одним из первых примеров кластеризация на основе понятий является алгоритм COBWEB [10]. Узлы создаются при нисходящем подходе, при котором узлы разделяются или объединяются в соответствии со значением полезности категории; полезность категории является мерой силы дифференцирования этого узла. Коллаборативная фильтрация ис- пользует рейтинги, предоставляемых со- обществом пользователей, чтобы реко- мендовать РЭ конкретному пользователю. Существуют два взаимодополняющих подхода к коллаборативной фильтрации: на основе пользователя или на основе РЭ. При коллаборативной фильтрации на ос- Моделі і засоби систем баз даних та знань 76 нове пользователя находят группы подоб- ных пользователей, а затем конкретному пользователю рекомендуют те РЭ, кото- рые понравились другим пользователям из той же группы. При коллаборативной фильтрации на основе РЭ группируются те РЭ, которые одинаково оцениваются людьми. Для того, чтобы выполнить кол- лаборативную фильтрацию, должен быть создан профиль пользователя на основа- нии имеющихся документов о том, какие РЭ были этим пользователем рассмотре- ны и оценены. Обычно для оценки ис- пользуется 5-бальная шкала (от очень хо- рошего до очень плохого). Общепринятое представление профиля пользователя представляет собой взвешенный вектор, в котором каждому классу ПрО соответ- ствует его оценка пользователем. Эти векторы могут быть также использованы для определения сходства между РЭ. Для ПрО, в которых метаданные об РЭ не до- ступны как онтологические термины, как правило, применяют методы предвари- тельной обработки для вычисления часто- ты терминов в словах, документах и мета- данных, удаляют стоп-слова (общие слова всех ПрО) и объединять похожие слова, используя какой-либо тезаурус (напри- мер, WordNet). Коллаборативная филь- трация на основе пользователя – наиболее популярный алгоритм рекомендования благодаря своей простоте и высокому ка- честву рекомендаций. Вначале отношения соседства формируются с помощью мет- рики подобия. Затем создается набор про- гнозов рейтинга с использованием профи- лей, которые находятся близко к персо- нальному профилю пользователя. Колла- боративная фильтрация на основе РЭ ста- ла популярной в последние годы, по- скольку она разделяет модель вычислений и процесс прогнозирования; в частности, этот метод успешно используется Amazon [11] для обработки сведений о большом количестве как пользователей, так и РЭ. Так же, как и основанном на пользователе методе, сходство РЭ определяется при помощи того, сколько пользователей оце- нили эти РЭ как подобные. При этом определяются наборы похожих предме- тов. Этот метод хорошо масштабируется, поскольку новые РЭ добавляются к окрестностях на основе того, как пользо- ватели оценивают их, без необходимости явного использования онтологии. Иногда РС должна сравнивать РЭ из разных онтологий ПрО, таких, как два списка товаров. В этих случаях онтологии для обоих доменов могут быть созданы на одном языке (например, OWL) и отобра- жение между ними задается вручную или автоматизировано, например, с помощью байесовской сети доверия: так, в [12] предложен метод на основе ключевых слов, не зависящий от структуры онтоло- гии товаров. Если понятия отображаются успешно, то затем используют обычные подходы для рекомендаций. Современные исследования также используются некоторые новые ресурсы Web 2.0 и Semantic Web, чтобы помочь в классификации РЭ. Одна из таких систем [13] используется для рекомендования фильмов и работает с базой данных, кото- рая содержит подробную информацию об актерах, фильмах и т.д., и отображает эту семантическую информацию на поведе- ние пользователей на Web-сайте рекомен- дации фильмов и используя технологии Semantic Web для интеграции сведений из различных источников. Облако тегов со- здаются на основе частоты ключевых слов, связанных с РЭ, который оценивает- ся. Методы Data mining также могут быть связаны с онтологическими знаниями для улучшения соответствия сходства и реко- мендаций с использованием исторических данных. Постановка задачи Анализ существующих подходов к построению рекомендующих систем вы- явил необходимость в построении фор- мальной классификации методов выра- ботки рекомендаций и обеспечении ее до- ступности пользователям этих систем. Кроме того, целесообразно разрабатывать методы и стратегии, использующие зна- ния об интересующей пользователя пред- метной области и позволяющие пользова- телю непосредственно управлять спосо- бом выработки рекомендаций. Моделі і засоби систем баз даних та знань 77 Критерии классификации подходов к выработке рекомендаций в РС На основе вышеприведенного ана- лиза можно предложить следующие под- ходы к работе РС с использованием онто- логий: формирование модели пользовате- ля; формирование модели РЭ; создание онтологии РЭ; накопление сведений об экземплярах РЭ и экземплярах пользова- телей; накопление оценок РЭ пользовате- лями; анализ экземпляров РЭ; классифи- кация (или кластеризация) пользователей на группы с подобными интересами; фор- мирование набора стратегий, которые пользователь может явно выбирать для получения рекомендации; построение ме- тода, позволяющего уточнить класс необ- ходимого пользователю РЭ. Широко распространенные класси- фикации подходов к выработке рекомен- даций, подразделяющие все существую- щие методы на базирующиеся на пользо- вателе и базирующиеся на РЭ, а также на персональные и коллаборативные, яв- ляются слишком общими и, как правило, бинарными. Кроме того, в РС большое внимание уделяют алгоритмам вычисле- ния подобия пользователей и РЭ, и значи- тельно меньшее – методам классификации пользователей и РЭ. На практике целесообразно не только использовать больше критериев, значимых для выработки рекомендаций, но и предоставить пользователю РС воз- можность самостоятельно формировать стратегию рекомендования, явным обра- зом указывая значимость для данной зада- чи тех или иных критериев. При выработке рекомендаций в РС многое зависит от специфики искомого РЭ. Все РЭ можно подразделить на две категории с точки зрения возможности их повторного использования: используемые одноразово и многоразово. К первой кате- гории относятся различные предметы ма- териального мира и связанные с их ис- пользованием услуги. К ним относятся, например, технические устройства, про- дукты питания, авиабилеты, турпоездки. Если у пользователя уже есть такой РЭ, то ему может понадобиться такой же или по- хожий на него (после поломки первого, использования и т.д.). К второй категории относятся, как правило, информационные объекты, т.е. такие объекты, что наличие одного экземпляра позволяет создавать произвольное количество его копий. К ним относятся, например, электронные книги и фильмы. Если у пользователя уже есть та- кой РЭ, то маловероятно, что ему понадо- бится еще один (хотя возможна утрата или поломка). Кроме того, РЭ можно классифици- ровать (на два или более классов – в зави- симости от требуемой точности рекомен- даций) на редко или часто используемые. К примеру, прогноз погоды нужен пользо- вателю почти ежедневно, а выбор модели холодильника актуален для большинства раз в 10 лет. Для наиболее часто использу- емых РЭ большинство пользователей склонны ориентироваться на собственный опыт, а для редко используемых – на сово- купный опыт сообщества пользователей РС. При этом следует учитывать, что один и тот же РЭ может одним пользователям быть интересен редко, а другим – часто. Например, большинство людей редко ин- тересуется особенностями газовых плит или мебельной фурнитурой, но специалист по комплексным ремонтам может выпол- нять такие запросы регулярно. Поэтому надо дать пользователю возможность са- мому явно определять, насколько часто он интересуется такими РЭ (т.е. насколько его собственное мнение о них компетентно и актуально). Еще один важный параметр РЭ – субъективность оценивания. Если, к при- меру, при оценке бытовой техники или ав- томобилей достаточно легко сформулиро- вать те отличия, по которым пользователь более высоко оценивает один РЭ, чем дру- гой (например, надежность работы, стои- мость, простота обслуживания, функцио- нальные возможности), и вследствие этого каждому пользователю может быть поле- зен опыт всего сообщества, то при оценке предметов искусства, музыки, фильмов такие отличия практически невозможно формализовать, и потому при выработке рекомендаций для конкретного пользова- Моделі і засоби систем баз даних та знань 78 теля важен только опыт некоторого под- множества сообщества с аналогичными вкусами, причем это подмножество может быть сформировано с помощью методов машинного обучения и на основе прадук- тивного вывода. На способ выработки рекомендаций влияет и то, насколько оценивание РЭ тре- бует специальных знаний в конкретной предметной области. Особенно важно это для тех РЭ, которыми большинство поль- зователей интересуются редко и потому сами, как правило, не имеют о них глубо- ких знаний. Вследствие этого они оцени- вают, как правило, лишь конкретный предмет (а не все предметы данного клас- са) и практически не имеют возможности сравнивать его с другими подобными РЭ. Например, оценивая телевизор, пользова- тель может оценить лишь ту модель теле- визора, которую он купил, и сравнивать ее лишь с несколькими теми моделями, кото- рыми он пользовался. Поэтому в некото- рых областях важнее ориентироваться на мнение экспертов, а не на мнение боль- шинства. Так, при выборе учебника по какой- то дисциплине больший вес имеет оценка преподавателя, при покупке бытовой тех- ники – мнение специалиста по ремонту, а при подборе лекарства – оценка врача. От- крытым остается вопрос о том, каким об- разом формировать множество экспертов для той или иной ПрО. В частности, в большинстве социальных сетей существу- ет как возможность зафиксировать как связь пользователя с набором тем, так и средства определения общего рейтинга пользователя (влиятельность его мнения для других пользователей, оценка его дей- ствий другими пользователями и т.д.), но, как правило, отсутствует возможность дифференцировать компетентность поль- зователя в той или иной тематике. Например, один и тот же пользова- тель, проявляющий интерес к компьюте- рам и кулинарии, может быть экспертом в компьютерной техники (и его оценки раз- личных экземпляров компьютеров будут высоко точными), а в приготовлении пищи разбираться очень плохо (и именно потому и интересоваться этой областью) и потому оценивать различные РЭ крайне непра- вильно. Следует отметить, что в процессе развития Web и систем электронной ком- мерции появилось много источников, обеспечивающих доступ к одним и тем же РЭ. При этом речь идет как о материаль- ных, так и об информационных продуктах и услугах. Но при этом разные источники предлагают разные условия доступа и ка- чества обслуживания. Поэтому значитель- ного внимания заслуживает степень дове- рия к источникам, которую можно опреде- лить по совокупности оценок сообщества пользователей. Этот критерий рекомендо- вания выделяется отдельно, так как речь идет не об оценивании РЭ, а об оценива- нии источников РЭ. Например, многие Web-сайты предлагают бесплатно скачи- вать статьи, книги и фильмы, но некото- рые из них требуют регистрации, отправки SMS-сообщений (не бесплатных), оплаты пароля на распаковку архива и т.д. оче- видно, что такие сайты оцениваются зна- чительно ниже, чем те, которые предлага- ют свободный доступ к электронной биб- лиотеке. Электронные магазины, предла- гающие покупку материальных предметов, также работают не всегда честно – они мо- гут задерживать доставку, предоставлять бракованную продукцию, требовать до- полнительной оплаты доставки, значи- тельно завышать цену по сравнению с обо- значенной (например, на сайте цена пред- ставлена в долларах, а оплату следует осуществлять в гривнах по крайне невы- годному курсу, отличающемуся от офици- ального). Поэтому следует предоставить пользователям оценить такие магазины ни- же, чем те, которые работают корректно. В большинстве используемых на практике РС вырабатываются рекоменда- ции относительно какого-то довольно уз- кого класса РЭ, и нет возможности связы- вать профили одного и того же пользова- теля, сформированные различными РС (например, нельзя связать предпочтения пользователя относительно выбора худо- жественной литературы, покупок в элек- тронном магазине и при просмотре ново- стей). Использование онтологических мо- делей пользователей позволяет в какой-то Моделі і засоби систем баз даних та знань 79 мере решить эту задачу и интегрировать различные РС. При этом возникает допол- нительная задача – классификация РЭ, от- носительно которого пользователь нужда- ется в рекомендации (и, соответственно, переадресация запроса к соответствующей специализированной РС). Следует учиты- вать, что нередко пользователь нуждается в рекомендациях по набору взаимосвязан- ных вопросов (например, выбор места для отдыха связан и с выбором турпутевки, и с прогнозом погоды, и с рекомендациями относительно транспорта). Для этого необходимо разработать общую онтоло- гию РЭ, которая должна быть достаточно компактной и несложной, но при этом охватывать основные классы РЭ, относи- тельно которых пользователи часто нуж- даются в рекомендациях. Специфичные знания предметных областей такая онтоло- гия не должна включать, т. к. они должны содержаться в онтологиях специализиро- ванных РС. Рассмотрим также, оценки каких именно групп пользователей целесообраз- но применять для коллаборативной филь- трации. Самый простой случай группы – это группа, состоящая всего из одного пользователя, для которого и осуществля- ется поиск рекомендаций. Можно сказать, что при этом коллаборативная фильтрация сводится к персональной. Но и в этом слу- чае можно ввести ряд управляемых поль- зователем опций – например, учитывать его опыт только за определенный период времени (например, пользователь считает собственные оценки компьютерной техни- ки, сделанные более 5 лет назад, уже не актуальными). Это особенно важно для быстро изменяющихся предметных обла- стей и для пользователей младшего воз- раста (очевидно, что в 10 и 15 лет интере- сы и оценки пользователя могут быть раз- личными). Противоположный случай – когда для пользователя значимы оценки РЭ всем сообществом в целом. Это может иметь место для тех ПрО, к которым пользова- тель обращается впервые и еще не имеет собственного мнения не только о самой области, но и о критериях нахождения в ней экспертов. К промежуточным случаям отно- сятся анализ оценок экспертов в ПрО (причем тоже надо предоставить пользова- телю возможность явно задавать приемле- мый уровень их квалификации). В целом следует оценивать выбран- ную стратегию рекомендования по трем направлениям – учет мнения самого поль- зователя, учет мнения сообщества, анализ самого РЭ. В таком трехмерном простран- стве (рисунок) можно разместить большин- ство типичных объектов рекомендования. Мнение пользователя Мнение сообщества Анализ элемента Бытовая техника Технич. литература Худож. литература новости Комп. техника Научн.. литература Рисунок. Классификация стратегий рекомендования Выбор пользователем значения по каждому из трех параметров для стратегии рекомендования для интересующих его РЭ и наличие онтологии (или хотя бы таксо- номии РЭ) позволяет достаточно точно профилировать интересы самого пользова- теля, оценить его собственную компетент- ность для оценивания РЭ (и, соответствен- но, значимость его мнения для других пользователей) и выявлять группы пользо- вателей со сходными интересами. Следует отметить, что более объективным является признание своей некомпетентности в оце- нивании РЭ, чем декларирование своей высокой квалификации. Существует несколько направлений усовершенствования работы РС: 1) расширение профилей пользова- телей и РЭ (на основе Text Mining, анализа сетевого поведения и т. д.); 2) многомерность рекомендаций (вместо традиционного двумерного про- странства «Пользователь-РЭ»), учитыва- Моделі і засоби систем баз даних та знань 80 ющих контекст – например, время года или суток, погоду, местонахождение поль- зователя; 3) ненавязчивость – возможность уточнить рекомендации по косвенным предпочтениям. Тезаурусы как средство представления знаний о задаче Cледует отметить, что важным тре- бованием к РС является понятность для пользователя рассуждений системы. В об- щем случае онтология ПрО является до- статочно сложной структурой, и потому при решении конкретной задачи целесооб- разнее использовать только часть знаний, содержащихся в такой онтологии и пред- ставленных в более простой для понима- ния форме – тезаурус задачи, который можно рассматривать как проекцию онто- логии на задачу. Именно такой тезаурус затем используется для анализа контента текстовых РЭ и метаописаний всех остальных РЭ РС. Формирование онтологии ПрО без дополнительных ограничений – достаточ- но сложный, трудоемкий и длительный процесс. Поэтому представляется целесо- образным использовать для моделирова- ния знаний пользователя об интересующей его ПрО частного случая онтологии – те- зауруса, построение которого относитель- но проще. Тезаурус из всего спектра средств языка отражает только лексику: она задана в знаковом виде и относительно просто поддается систематизации. Тезау- рус можно представить как комплекс лингвистических знаний, включающий все составляющие языка от фонетики до рито- рической структуры текста и законов ком- муникации [14]. Обычно тезаурус Т определяют как словарь, содержащий лексические едини- цы с явным указанием семантических свя- зей между ними. Еще в начале 60-х гг. прошлого века Ю.А. Шрейдер предлагал рассматривать тезаурус как систему зна- ний, отраженных языком, когда тезаурус становится интересным сам по себе, а не только как вспомогательный инструмент. Тезаурус в ИТ – это полный систе- матизированный набор данных о какой- либо области знаний, позволяющий чело- веку или вычислительной машине в ней ориентироваться. Тезаурус – это T,RTs  , где T – множество терминов, а R – множество отношений между этими терминами. Множества T и R конечны. Можно рассматривать тезаурус как модель терминологической системы. Тер- минологическая система (ТС) – это слож- ная динамическая устойчивая система, РЭ которой являются отобранные по опре- деленным правилам лексические единицы какого-нибудь естественного языка, а структура изоморфна структуре логиче- ских связей между понятиями специаль- ной области знаний и деятельности, а функция состоит в том, чтобы служить знаковой (языковой) моделью этой обла- сти знаний и деятельности [15]. Можно говорить о том, что ТС – отображение определенной ПрО. Множество терминов тезауруса Т соответствует множеству концептов Х он- тологии О. Такие свойства терминов и ТС, как системность, устойчивость и регуляр- ность связей, отсутствие экспрессии, уста- новка на объективность описания, делают возможным моделирование ТС с помощью тезаурусов. Классификация понятий ПрО через набор слов, условно синонимичных и образующих класс условной эквивалент- ности, лежит в основе тезаурусов, исполь- зуемых для информационного поиска. Многие авторы рассматривают те- заурус как иерархическую структуру или ряд иерархических структур, в которые сводятся группы понятий с общими харак- теристиками, выраженные в терминах естественного языка. Для большинства ре- альных ПрО это не так, поскольку различ- ные отношения, используемые в ПрО, не- сравнимы (например, "статья написана ав- тором", "программа разработана на язы- ке"). Более корректно тезаурус можно представить как семантическую сеть. В узлах такой сети находятся термины, свя- занные отношениями из ограниченного набора. Для представления тезауруса целе- сообразно также использовать ориентиро- ванные графы и фреймы. Сохраняя многие из достоинств семантической сети, фрей- мовая сеть позволяет в качестве вершин Моделі і засоби систем баз даних та знань 81 представить сложные структуры (фреймы), имеющие, в частности, незаполненные по- ля (слоты), что дает новые возможности при описании вложенных структур, пере- ключении между различными приложени- ями и т. д. Большинство существующих ин- формационно-поисковых систем имеют развитые средства контекстного поиска документов с учетом морфологической информации о словах. Однако в настоящее время очень незначительное число инфор- мационных систем предоставляют воз- можность тематического поиска, напри- мер, поиска с использованием тезауруса. Каждое понятие в тезаурусе может объяс- няться через набор других понятий, что приводит к появлению семантического поля. Фактически тезаурус пользователя- потребителя информации – это вербализо- ванная совокупность его представлений об исследуемой ПрО. Основной целью разра- ботки информационно-поисковых тезауру- сов является использование их единиц (де- скрипторов) для описания основных тем документов в процессе ручного индекси- рования. Тезаурусы позволяют моделировать знания как о пользователях РС, так и о РЭ [16]. Чтобы уведомить РС об области своих интересов – ПрО поиска – пользова- тель должен создать тезаурус, моделиру- ющий интересующую его ПрО, в котором содержатся основные термины ПрО и свя- зи между ними. Тезаурус можно создать вручную или автоматизированно. Основой для автоматического создания тезауруса может послужить обработка набора тек- стовых документов – информационных ресурсов (ИР), которые пользователь счи- тает релевантными этой ПрО, или ранее созданная онтология ПрО, из которой пользователь отбирает только необходи- мые ему термины. Все эти подходы могут комбинироваться друг с другом. Для необходимости анализа боль- шого количества ИР предлагается исполь- зовать упрощенный алгоритм построения тезауруса: по полному перечню слов, ис- пользуемых в ИР, строится словарь терми- нов, из которого отбрасываются стоп- слова, содержащиеся в специально разра- ботанном пользователем списке. Этот ал- горитм применяется только для тех ИР, которые не сопровождаются метаописани- ями. В противном случае из метаописаний (в формате RDF или OWL) извлекаются термины тезауруса и связи между ними, которые дополняют построенный по кон- тенту ИР словарь. Аналогично строятся тезаурусы РЭ – обрабатываются их метаописание, кон- тент, отзывы о них других пользователей. Для выбора тех РЭ, которые будут рекомендоваться пользователю, необхо- димо сопоставить их тезаурусы с тезауру- сами пользователей. Пользователь вводит запрос, при- близительно идентифицируя свою инфор- мационную потребность с помощью клю- чевых слов или выбирая класс интересу- ющего его РЭ (возможно, с набором усло- вий и ограничений), например, РЭ класса «художественная литература/фантастика/ фэнтези», изданная после 2005 года. В от- вет РС формирует набор РЭ, доступных системе и соответствующих этому прибли- зительному запросу – n ссылок на РЭ и их кратких описаний  jj ,DfI Re , n,j 1 . Здесь jfRe – ссылка на соответствующий РЭ (или его описание), а jd – информация об этом РЭ, l wjt доступная РС. Если множество I не пусто, причем РС найден в ответ на запрос более чем один РЭ ( 1n ), то нужно установить по- рядок, в каком предлагать пользователю сведения о найденных РЭ. Тогда для всех РЭ из этого множества  jj DfI ,Re , nj ,1 формируются их упрощенные те- заурусы   njTИРTs jjj ,1,,  и со- ответствующие им словари терминов   wljj tТ  , nj ,1 , jqw ,1 . l wjt – это слова, которые используются в информа- ции о j -м РЭ, найденном РС, т. е. в njD j ,1,  . njq j ,1,  – это количество различных слов, используемых в описании njD j ,1,  . Если слова в описании повто- Моделі і засоби систем баз даних та знань 82 ряются, то в словаре терминов они фикси- руются только один раз. Затем пользователь формирует те- заурус интересующей его ПрО (или указы- вает на ранее сформированный тезаурус) ПрОTs и соответствующий ему словарь терминов этой ПрО   qmtТ mПрО ,1,  . ПрОТ – это множество, состоящее из m терминов, относящихся к интересующей пользователя ПрО. Это множество строит- ся аналогично словарю терминов РЭ и обычно формируется как объединение словарей терминов, содержащихся в доку- ментах, которые пользователь нашел ранее и посчитал релевантными интересующей его ПрО (как в их контенте, так и в метао- писаниях). Производится сравнение ПрОТ и jТ , nj ,1 , высчитывается коэффициент их близости      q m w w mjj j w ttfK 1 1 , , qm ,1 , jww ,1 , где         . если ,1 , если ,0 , 21 21 21 tt tt ttf (1) Коэффициент (1) представляет со- бой количество терминов, которые встре- тились как в тезаурусе РЭ, так и в тезауру- се ПрО. Найденные ИР упорядочиваются в зависимости от значений jK , пользовате- лю предъявляются в первую очередь те ИР, которые имеют наиболее высокий ко- эффициент близости к ПрО. При использовании коэффициента (1) возникает следующая проблема: слова, соответствующие одному термину, но яв- ляющиеся, например, различными слово- формами, синонимами или переводами на различные языки, обрабатываются как разные термины. Поэтому представляется целесообразным использовать онтологию ПрО и выделять группы слов, соответ- ствующих одному термину. Для этого пользователь должен связать РЭ словаря терминов тезауруса ПрО с одним из тер- минов онтологии ПрО O X,R,F , т. е. ПрОm Тt  , qm ,1 задать функцию   Xtg m  . Затем для вычисления коэффи- циента близости OK эта функция исполь- зуется следующим образом:   lm mjj O ttfK w , , , qm ,1 , jww ,1 , где                .g если ,1 ,g если ,0 , 21 21 21 tgt tgt ttf (2) Коэффициент (2) представляет со- бой количество терминов, которые встре- тились как в тезаурусе РЭ, так и в тезауру- се ПрО и при этом ссылаются на один и тот же термин онтологии ПрО. По срав- нению с коэффициентом (1) коэффициент (2) позволяет использовать меньший объ- ем документов для построения тезауруса ПрО, но требует большее время для вы- числений. При создании тезауруса ПрО, ко- торая интересует пользователя РС, необ- ходимо явно указать основные понятия ПрО и связи между ними. К сожалению, большинству пользователей достаточно сложно это сделать (даже имея соответ- ствующие знания и применяя их в своей деятельности). На первом этапе формиро- вания тезауруса пользователь может вы- брать одно из следующих решений: 1) са- мостоятельно построить с помощью одно- го из редакторов онтологий онтологиче- ское описание области его информацион- ных интересов; 2) найти (например, в Ин- тернете) какую-либо онтологию, представ- ленную на языке OWL, которую описыва- ет ПрО, близкую к области его информа- ционных интересов; 3) сформировать множество понятий ПрО, которое содер- жит наиболее характерные слова и слово- сочетания, встречающиеся в интересую- щих его ИР. Важно определить, какие именно связи между РЭ ПрО являются существен- ными (и их, следовательно, необходимо включить в систему). Не все существенные связи между терминами ПрО могут быть очевидны пользователю, поэтому для их выявления он может воспользоваться для Моделі і засоби систем баз даних та знань 83 их нахождения методами индуктивного вывода. Существуют независимые подходы к реализации подобных методов: ID3, ACLS, CART и т. д. Наиболее интерес- ным, в связи со спецификой проводимой работы, оказался алгоритм ID3 [17], кото- рый специально разработан для извлече- ния ценной информации из больших объе- мов слабо структурированных данных. При работе этого алгоритма время вычис- лений зависит линейно от числа введен- ных примеров, числа атрибутов, использу- емых для описания примеров, и числа узлов в строящемся дереве решений. Это качество отличает его от таких известных алгоритмов построения деревьев решений, как INDUCE, SPROUTER, ROTH-P, в ко- торых усилия, требующиеся для решения задачи, резко возрастают вместе со слож- ностью задачи. Если методы, подобные МГУА (ме- тод группового учета РЭ), предназначены для нахождения закономерностей по на- бору количественных измерений парамет- ров и полученному по ним результату, то методы, подобные ID3 и его вариациям (С4.5, ID4 и т.д.), предназначены для обобщения опыта экспериментов, пара- метры и результаты которых описаны через качественные оценки (лингвистиче- ские переменные). В большинстве случаев между их значениями невозможно уста- новить даже относительное упорядочение (например, различные симптомы и диагно- зы пациентов). К таким задачам относится и проблема, которую решают рекоменду- ющие системы. ID3 принадлежит к невоз- растающим алгоритмам, то есть при до- бавлении к набору классифицированных примеров определенного количества но- вых нужно обрабатывать снова как старые, так и новые примеры. Но ID3 предназна- чен для построения только бинарного де- рева решений, а этого недостаточно удоб- но для представления закономерностей многих ПрО. Поэтому предлагается использовать ID3m [18] – модификацию ID3 для произ- вольного (конечного) количества решений. Он также принадлежит к невозрастающим алгоритмам. В данном случае, примерами обучающей выборки являются РЭ, доступ- ные РС, а параметрами, по которым они описываются, являются их свойства, опи- санные в метаданных и в онтологии РЭ, а также термины тезауруса пользователя. Значения, соответствующие терминам те- зауруса, – "Термин отсутствует в описании РЭ", "Термин встречается в описании РЭ редко", "Термин встречается в описании РЭ часто". В качестве результата исполь- зуется оценка, данная пользователем найденному РЭ (качественная оценка, имеющая два и более значений). На вход алгоритма поступает обу- чающая выборка H – набор из n класси- фицированных (получивших одну из воз- можных оценок) примеров одинаковой размерности  ihH  , ni ,1 . Каждый пример из выборки пред- ставляет собой упорядоченную последова- тельность значений s атрибутов и резуль- тирующего атрибута raah si ,,...,1 , ni ,1 . Значения атрибутов принадлежат конечным множествам: juj Aa  , nj ,1 , jnu ,1 , Rry  , rny ,1 . Если обучающая выборка содержит примеры, в которых все значения атрибу- тов одинаковы, а решения различны, то введенная информация недостаточна для построения классификационного правила. Если множество примеров пустое, то мож- но произвольно связать его с любым ре- шением. Если все примеры относятся к одному классу, строится один лист дерева решений, связанный с этим классом. В противном случае необходимо выбрать один из атрибутов и разделить множество атрибутов на подмножества в зависимости от значения этого атрибута и применить алгоритм к каждому из полученных под- множеств. На каждом шаге работы алгоритма вычисляется, какой атрибут m несет наи- большее количество информации о резуль- тате.  =1maxmax s,z,C= C z  Моделі і засоби систем баз даних та знань 84             i j d R,rAaC z z jjzzimax= , (3) где  ,C x y – количество информации ( , ) ( , )*lg ( , ) i j C x y p x y p x y   ,  ,p x y – вероятность одновременного наступления событий x и y , md – стоимость получе- ния значения m -го атрибута. В результате работы алгоритма ID3m формируется дерево решений, в ко- тором каждый лист связан с одним из ре- шений, каждый узел характеризуется име- нем одного из атрибутов, а выходящие из такого узла ветви – значениями этого ат- рибута. Такое дерево решений позволяет РС по параметрам вновь найденного РЭ про- гнозировать, как именно оценит его поль- зователь, и предлагать пользователю в первую очередь те РЭ, которые соответ- ствуют его индивидуальным предпочтени- ям. Так как точные значения вероятностей событий из обучающей выборки неизвест- ны, то они аппроксимируются на основе рассматриваемого множества примеров. Предложенный выше подход к формированию рекомендаций основывает- ся на использовании знаний пользователя о ПрО, характеризующей его информаци- онные потребности. Пользователь может явно указывать интересующие его терми- ны и получать те РЭ, которые соответ- ствуют его потребности. Такой подход ориентирован на пользователя с относи- тельно стабильными информационными потребностями, не являющегося специали- стом в области информационных техноло- гий, и позволяет пользователю избежать рутинной работы по фильтрации результа- тов поиска в Web. Методы выработки рекомендаций в МАИПС МАИПС – мультиагентная инфор- мационно-поисковая система с развиты- ми средствами интеллектуализации ее поведения, которая более детально описа- на в [19], предназначена для поиска ин- формации в описанных пользователем от- носительно узких предметных областях, связанных с профессиональными или научными интересами пользователей, и рекомендует пользователю те результаты поиска, которые относятся к интересую- щей его предметной области и соответ- ствуют его информационным потребно- стям. Ее можно рассматривать как реко- мендующую систему, ориентированную на формирование рекомендаций относитель- но естественно-языковых и мультимедий- ных информационных ресурсов, доступ- ных через Web. Система МАИПС ориентирована на пользователей, имеющих в сети постоян- ные информационные интересы и требу- ющих постоянного поступления соответ- ствующей информации. Для этого МАИПС позволяет сохранять и повторно выполнять запросы, учитывая реакцию пользователя на ранее предложенные ему ИР (персональная фильтрация), отслежи- вать появление аналогичных запросов у других пользователей (коллаборативная фильтрация), сохранять формальное опи- сание области интересов пользователя в виде онтологии (семантическая фильтра- ция) и т.д. Кроме того, в МАИПС при профилировании пользователей использу- ется специфичный для естественно- языковых ИР критерий оценивания – сложность текста для понимания. Особен- ностью системы является использование оригинального знание-ориентированного алгоритма, позволяющего определить сложность понимания текста для конкрет- ного пользователя (для этого используют- ся тезаурусы предметных областей, инте- ресующих пользователей) [20]. Основой МАИПС являются техно- логии Semantic Web, в частности, язык представления онтологий OWL и средства его обработки. Для представления знаний об интересующей пользователя ПрО ис- пользуются онтологии и тезаурусы ПрО. При этом тезаурус строится пользователем по соответствующей онтологии самостоя- тельно, а онтология выбирается из набора предложенных на сайте. По мере развития МАИПС возникла потребность в подключении репозитория онтологий, чтобы пользователи могли по- вторно использовать знания о ПрО, до- Моделі і засоби систем баз даних та знань 85 ступные в Web [21]. При этом поиск может осуществляться не только по ключевым словам, а и по другим важным свойствам онтологий. Поэтому в дальнейшем пред- ставляется целесообразным реализовать в МАИПС средства взаимодействия с репо- зиториями онтологий, поддерживающие поиск нужной пользователю онтологии, обнаружение похожих на выбранную пользователем онтологий, а также сопо- ставление построенного пользователем тезауруса с другими онтологиями и тезау- русами. Пользователь МАИПС может об- ращаться к онтологиям, созданных други- ми пользователями – пересматривать их, задавать по ним контекст поиска, копиро- вать из них нужны фрагменты, но не имеет права изменять их. ИПС может обеспечить поиск онтологий, которые содержат вве- денные пользователем термины, а также поиск онтологий, похожих на выбранную пользователем онтологию. Это позволяет создавать группы пользователей с общими информационными интересами и предот- вратить дублированию в выполнении оди- наковых многоразовых запросов разных пользователей. Выводы Объем ресурсов, предлагаемых со- временным Web, требует использования семантических методов для поиска той информации, которая необходима кон- кретному пользователю. Совместное ис- пользование рекомендующих систем и технологий Semantic Web позволяет обес- печить пользователя необходимыми све- дениями, а явным образом выбранные ме- тоды рекомендования объясняют пользо- вателю поведение такой системы. 1. Ricci F., Rokach L., Shapira B., Kantor P. Recommender Systems Handbook. – Spring- er, 2011. – 842 p. 2. Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions // IEEE Transactions on Knowledge and Data Engineering. – 2005. – Vol. 17, N 6. – http://artpragmatica.ru/rs/in/pic/58-870- 20061024072441. 3. Middleton S., De Roure D., Shadbolt N. On- tology-Based Recommender Systems // in Handbook on Ontologies, Edt. by S.Staab, R.Studer, Springer, 2009. – P. 779–796. 4. Kobsa A. User modeling: recent work, pro- spects and hazards. – http://zeus.gmd.de/~kobsa/papers/1993-aui- kobsa.pdf. 5. Balabanovic M., Shoham Y. Fab: Content- based, collaborative recommendation // Communications of the ACM, 1997. – 40(3). – P. 67–72. 6. Eirinaki M., Lampos C., Paulakis S., Vazir- giannis M. Web personalization integrating content semantics and navigational patterns // Proc. of the 6th annual ACM International workshop on Web information and data man- agement, USA. – 2004. – P. 72–79. 7. Burke R. Knowledge-based Recommender Systems // In Kent A (ed.) Encyclopedia of Library and Information Systems, V. 69, sup- plement 32. Marcel Dekker, New York, 2000. – http://josquin.cti.depaul.edu/~rburke/pubs/ burke-elis00.pdf. 8. Felfernig A., Friedrich G., Jannach D., Zanker M. An integrated environment for the development of knowledge-based recom- mender applications // International Journal of Electronic Commerce. – 2006. – 11(2). – P. 11–34. 9. Schickel-Zuber V., Faltings B. Inferring Us- er’s Preferences using Ontologies. – http://infoscience.epfl.ch/record/85768/files/A AAI06-222.pdf. 10. Fisher D. Knowledge acquisition via incre- mental concept clustering // Machine Learn- ing 2(2): 1987. – P. 139–172. – http://link.springer.com/article/10.1007%2FB F00114265#page-1. 11. Linden G., Smith B., York J. () Amazon.com recommendations: Item-to-Item collaborative filtering // IEEE Internet Computing. – 2003. N 7(1). – P. 76–80. – http://www.cs.umd.edu/~samir/498/Amazon- Recommendations.pdf 12. Lee T., Chun J., Shim J., Lee S. An ontology- based product recommender system for B2B marketplaces // International Journal of Elec- tronic Commerce. – 2006. – N 11(2). – P. 125–155. 13. Szomszor M., Cattuto C., Alani H., O’Hara K., Baldassarri A., Loreto V. Servedio VDP Folksonomies, the Semantic Web, and Movie Моделі і засоби систем баз даних та знань 86 Recommendatio // Proc. of 4th European Se- mantic Web Conference, Bridging the Gap between Semantic Web and Web 2.0, 2007. – http://eprints.soton.ac.uk/264007/1/ESWC200 7.pdf. 14. Гладун А.Я., Рогушина Ю.В. Основи мето- дології формування тезаурусів з викори- станням онтологічного та мереологічного аналізу // Искусственный интеллект. – 2008. – № 5. – С. 112–124. 15. Браславский П.И., Гольдштейн С.Л., Тка- ченко Т.Я. Тезаурус как средство описания систем знаний // Информационные процес- сы и системы. – 1997. – № 11, Серия 2. – С. 16–22. 16. Гладун А.Я., Рогушина Ю.В. Онтологии и мультилингвистические тезаурусы как ос- нова семантического поиска информаци- онных ресурсов Интернет // The Proc. of XII-th Intern. Conf. KDS’2006, Varna, Bulgaria. – Р. 115–121. 17. Quinlan J.R. Discovery rules from large col- lections of examples: a case study // Expert Systems in the Microelectronic Age. – Edin- burg, 1979. – P. 87–102. 18. Рогушина Ю.В. Применение методов ин- дуктивного вывода для создания приклад- ных экспертных систем // Разработка и ис- пользование информационных технологий в системах управления. – Киев: Ин-т ки- бернетики имени В.М. Глушкова НАН Украины. – 1993. – С. 122–128. 19. Рогушина Ю.В., Гришанова І.Ю. Літера- турний твір наукового характеру "Модель мультиагентної інформаційно-пошукової системи "МАІПС"("Модель МАІПС"). – Свідоцтво про реєстрацію авторського права на твір № 32068, 2010. 20. Рогушина Ю.В. Использование критериев оценки удобочитаемости текста для поиска информации, соответствующей реальным потребностям пользователя // Проблеми програмування. – 2007. –№ 3. – С. 76–87. 21. Рогушина Ю.В. Использование репозито- риев онтологий для отображения области интересов пользователя при семантиче- ском поиске // ХI Междунар. конф. им. Т.А. Таран "Интеллектуальный анализ ин- формации ИАИ-2012". – 2012. – С. 134–140. Получено 10.10.2012 Об авторе: Рогушина Юлия Витальевна, кандидат физико-математических наук, старший научный сотрудник. Место работы автора: Институт программных систем НАН Украины, 03187, Киев-187, проспект Академика Глушкова, 40. E-mail: ladamandraka2010@gmail.com