Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом

В результате анализа проблем продвижения в поисковых системах веб-ресурсов с динамическим контентом предложена методика автоматизации разработки и обновления семантического ядра сайта на основе создания ассоциативных правил с помощью алгоритма поиска популярных наборов Apriori в базе поисковых транз...

Full description

Saved in:
Bibliographic Details
Published in:Штучний інтелект
Date:2012
Main Authors: Арсирий, Е.А., Антощук, С.Г., Игнатенко, О.А., Трофимов, Б.Ф.
Format: Article
Language:Russian
Published: Інститут проблем штучного інтелекту МОН України та НАН України 2012
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/57760
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом / Е.А. Арсирий, С.Г. Антощук, О.А. Игнатенко, Б.Ф. Трофимов // Штучний інтелект. — 2012. — № 4. — С. 464-473. — Бібліогр.: 6 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859684880969891840
author Арсирий, Е.А.
Антощук, С.Г.
Игнатенко, О.А.
Трофимов, Б.Ф.
author_facet Арсирий, Е.А.
Антощук, С.Г.
Игнатенко, О.А.
Трофимов, Б.Ф.
citation_txt Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом / Е.А. Арсирий, С.Г. Антощук, О.А. Игнатенко, Б.Ф. Трофимов // Штучний інтелект. — 2012. — № 4. — С. 464-473. — Бібліогр.: 6 назв. — рос.
collection DSpace DC
container_title Штучний інтелект
description В результате анализа проблем продвижения в поисковых системах веб-ресурсов с динамическим контентом предложена методика автоматизации разработки и обновления семантического ядра сайта на основе создания ассоциативных правил с помощью алгоритма поиска популярных наборов Apriori в базе поисковых транзакций. Применение методики позволило повысить полноту и точность, а также снизить время разработки и обновления семантического ядра сайта типа интернет-витрины и магазина. У результаті аналізу проблем просування в пошукових системах веб-ресурсів з динамічним контентом запропонована методика автоматизації розробки та оновлення семантичного ядра сайту на основі створення асоціативних правил за допомогою алгоритму пошуку популярних наборів Apriori в базі пошукових транзакцій. Застосування цієї методики дозволило підвищити повноту і точність, а також зменшити час розробки та оновлення семантичного ядра сайта типу інтернет-вітрини та магазину. As the result of analysis of the problems of promotion for web-resources with dynamic content in the search systems, the techniques for automation and updating of semantic kernel of a site are given on the basis of creation of content rules with the help of algorithm for search of popular sets Apriori in the transaction search base. The use of methods allows improving accuracy and reducing time for development and updating of semantic kernel of such site as online shopping.
first_indexed 2025-11-30T21:38:14Z
format Article
fulltext «Искусственный интеллект» 4’2012 464 6А УДК 330.43 Е.А. Арсирий, С.Г. Антощук, О.А. Игнатенко, Б.Ф. Трофимов Одесский национальный политехнический университет Одесса, просп. Т. Шевченко, 1 Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом E.A. Arsirij, S.G. Antotshuk, O.A. Ignatenko, B.F. Trofimov Odessa National Polytechnic University Odessa, T. Shevchenko Avenue Automation of Development and Updating for Semantic Kernel of a Site with Dynamic Content О.О. Арсірій, С.Г. Антощук, О.О. Ігнатенко, Б.Ф. Трофимов Одеський національний політехнічний університет Одеса, просп. Т. Шевченка, 1 Автоматизація розробки і оновлення семантичного ядра сайта з динамічним контентом В результате анализа проблем продвижения в поисковых системах веб-ресурсов с динамическим контентом предложена методика автоматизации разработки и обновления семантического ядра сайта на основе создания ассоциативных правил с помощью алгоритма поиска популярных наборов Apriori в базе поисковых транзакций. Применение методики позволило повысить полноту и точность, а также снизить время разработки и обновления семантического ядра сайта типа интернет-витрины и магазина. Ключевые слова: семантическое ядро сайта, динамический контент, поисковая система As the result of analysis of the problems of promotion for web-resources with dynamic content in the search systems, the techniques for automation and updating of semantic kernel of a site are given on the basis of creation of content rules with the help of algorithm for search of popular sets Apriori in the transaction search base. The use of methods allows improving accuracy and reducing time for development and updating of semantic kernel of such site as online shopping. Key Words: semantic kernel of a site, dynamic content, search engine. У результаті аналізу проблем просування в пошукових системах веб-ресурсів з динамічним контентом запропонована методика автоматизації розробки та оновлення семантичного ядра сайту на основі створен- ня асоціативних правил за допомогою алгоритму пошуку популярних наборів Apriori в базі пошукових транзакцій. Застосування цієї методики дозволило підвищити повноту і точність, а також зменшити час розробки та оновлення семантичного ядра сайта типу інтернет-вітрини та магазину. Ключові слова: семантичне ядро сайта, динамічний контент, пошукова система. Введение В век информационных технологий успех практически любого бизнеса в доста- точно большой степени зависит от способов виртуального представления фирмы в сети Интернет. При этом целью разработки контента веб-ресурса (сайта) фирмы является Автоматизация разработки и обновления семантического ядра сайта... «Штучний інтелект» 4’2012 465 6Т предоставление информации, которая была бы способна заставить пользователя думать и вести себя в направлении, выгодном реальному бизнесу. С другой стороны, известно, что доля «поискового трафика» любого сайта (число посетителей, пришедших от поис- ковых выдач от общей посещаемости сайта) является преобладающей [1], [2]. Поэтому при разработке контента сайта большое внимание уделяется SEO (search engine optimization) – комплексу мер, направленных на продвижение веб-ресурса к верхним позициям поисковой системы (ПС) с целью увеличения его посещаемости. Известно, что одним из ключевых этапов SEO является разработка семантического ядра сайта (СЯС), которая, как правило, выполняется специалистами вручную и требует боль- ших временных затрат [4]. Такое положение является особенно недопустимым при разработке и обновлении СЯС с динамическим контентом, когда SEO-специалисты не успевают вовремя реагировать на изменяющиеся предпочтения и действия пользо- вателей, внешнее интернет-окружение сайта, а также его содержимое. Поэтому акту- альным является создание методики разработки и обновления СЯС, применение которой SEO-специалистами позволило сократить время на достижение и поддержание лидирующих позиций сайта в поисковых выдачах. Для создания методики авторам не- обходимо было: проанализировать связь между этапами и процедурами работы ПС и разработки или обновления СЯС и предложить способ ее описания; определить требования к формированию транзакционной базы данных в терминах анализа связей и разработать базу поисковых транзакций; разработать методику применения анализа связей к базе поисковых транзакций; предложить методику реализации поиска попу- лярных наборов с помощью алгоритма Apriori и создания ассоциативных правил на основе найденных популярных наборов для разработки или обновления СЯС. Анализ этапов и процедур работы ПС и разработки СЯС ПС представляет собой сайт, состоящий из веб-интерфейса для пользователя и поисковой машины, которая является движком, обеспечивающим функциональность ПС. Поисковая машина состоит из модуля индексирования, базы данных (БД) про- индексированных документов и поискового сервера, занимающегося анализом и об- работкой запросов пользователей. Модуль индексирования состоит из трех вспо- могательных программ (роботов) – spider (паук), crawler (путешествующий паук) и indexer (индексатор). Паук скачивает веб-документы с помощью протокола НТТР, извлекает ссылки и перенаправления и сохраняет текст в следующем формате: URL, дата скачивания, http-заголовок ответа сервера, тело страницы (html-код). Crawler обрабатывает найденные пауком ссылки и осуществляет дальнейшее направление паука. Indexer разбирает html-код страницы на составные части, такие как заголов- ки (title), подзаголовки (subtitles), метатэги (meta tags), текст, ссылки, структурные и стилевые особенности и т.д, анализирует их на основе различных лексических и морфологических алгоритмов с целью последующего ранжирования по степени важ- ности. При этом найденным словам и словосочетаниям присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). В результате формируется файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла, а также решают задачи определения дубликатов и «почти дубликатов». Арсирий Е.А., Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф. «Искусственный интеллект» 4’2012 466 6А Результаты индексирования записываются в базу данных (БД) проиндексированных документов (рис. 1 а). а) б) Рисунок 1 – Обобщенная схема этапов и процедур: а) – работы ПС; б) – разработки СЯС Поисковый сервер является важнейшим элементом всей ПС, так как от алгорит- мов, которые лежат в основе его функционирования, зависит качество и скорость по- иска. Принцип его работы заключается в следующем. Полученный от пользователя запрос (ключевые слова) подвергается морфологическому анализу для получения ин- формационного окружения. При этом выделяются информационные (поиск сведений), транзакционные (совершение действия), нечеткие (общие) и навигационные (прямой адрес) запросы. Поиск документов по их содержанию называется семантическими. Информационное окружение передается специальному модулю ранжирования, задача которого состоит в поиске html страниц в БД проиндексированных документов, сорти- ровке и выдаче в порядке релевантности. При этом для оценки релевантности найденных документов, как правило, используют TF-IDF-меру, согласно которой релевантность документа будет выше, если слово или словосочетание из запроса чаще встречается в найденном документе (частота слова – term frequency – TF) и реже других документах БД – IDF (обратная частота документа – inverse document frequency – IDF). Если необхо- димо, прядок выдачи документов может быть изменен пользователем путем задания Автоматизация разработки и обновления семантического ядра сайта... «Штучний інтелект» 4’2012 467 6Т дополнительных условий (расширенный поиск). Далее генерируется сниппет, то есть для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются. Полученные результаты поиска переда- ются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи по- исковых результатов. Таким образом, основой работы всех ПС является определение так называемых «ключевых слов» веб-ресурса. Из списка таких слов состоит семан- тическое ядро сайта (СЯС). СЯС представляет собой список ключевых слов и их ком- бинаций, записанных в метатэги keywords и распределенных в контенте сайта, а именно, в тэге title, в alt-атрибутах, в ссылочном тексте внутренних и внешних ссылок, в выделениях жирным и наклонным шрифтом, в начале контента сайта, в названии файлов, в URL и др. При этом от полноты и точности разработки СЯС зави- сит положение сайта в списке выдач ПС. Разработка СЯС является ключевым этапом SEO и состоит из ряда интеллекту- альных, трудноформализуемых этапов и процедур, для реализации которых необхо- димы большие временные и человеческие ресурсы (рис. 1 б). На первом этапе необходимо оценить контент сайта, определив его тип (интер- нет-магазин, новостной блог, сайт-визитка и пр.), тематику, структуру, целевую ауди- торию и необходимость обратной связи с пользователями. Следующим этапом будет создание первичного списка запросов. Для этого можно использовать различные вари- анты названий товаров, услуг, самого сайта, различные действия, предоставляемые пользователям, и варианты качества товара или услуг [1]. Затем составляется список ассоциированных запросов с помощью средств статистики поисковых систем (word- stat.yandex, adstat.rambler, google/insights/search/, adwords.google и др.) и подсчитывается частота ключевых слов. Ключевые слова с наибольшей частотой помещают в метатэги keywords, с меньшей – распределяют по контенту сайта. Однако, для сайтов с динами- ческим контентом, таких как интернет-витрина, магазин, новостной блог, где меняется ассортимент товаров, их популярность, новости, заголовки и пр., перечисленные этапы разработки СЯС необходимо повторять достаточно часто. При этом длительность вы- полнения каждого этапа может значительно задерживать необходимую периодичность повторения, что приводит к снижению полноты и точности СЯС, а сайт теряет свои позиции в SERP. Для сокращения времени разработки и обновления СЯС с динамиче- ским контентом без потери полноты и точности в данном исследовании предлагается использовать анализ связей (link analysis), позволяющий сгенерировать правила коли- чественного описания взаимной связи между двумя и более ключевыми словами, объе- диненными в одном семантическом запросе. Такие правила в терминах анализа связей называются ассоциативными, а запрос представляет собой некоторое множество собы- тий, происходящих совместно, и образует транзакцию. Методика анализа связей в базе поисковых транзакций Транзакционная или операционная БД (Transaction database) представляет собой двумерную таблицу, которая состоит из номера транзакции (TID) и перечня ключевых слов, составивших запрос во время этой транзакции. Пример фрагмента базы поисковых транзакций (БПТ) для интернет витрины Konica-Digital показан в табл. 1, где TID – уникальный идентификатор, определяющий каждую поисковую Арсирий Е.А., Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф. «Искусственный интеллект» 4’2012 468 6А транзакцию. На основе имеющейся БПТ необходимо найти связи между событиями, которые представляют собой поисковые запросы пользователей. Таблица 1 – База поисковых транзакций TID Поисковые запросы TID Поисковые запросы 1 флешки, онлайн 8 фото, рамки, онлайн 2 фото, альбом 9 печать, фото 3 фото, альбом, онлайн 10 интернет, магазин, фото 4 фото, рамки 11 фото, магазин, альбом 5 фото, рамки, купить, онлайн 12 фото, магазин, рамки 6 печать, фото, онлайн 13 рамки, альбом, фото 7 фото, магазин 14 печать, флешки В терминах анализа связей пусть I = {i1, i2, i3, …in} – множество (набор) ключе- вых слов, называемых элементами. Пусть M – множество транзакций из БПТ, где каждая транзакция T с уникальным номером TID – это набор элементов из I, TI. При этом, длиной транзакции Т с номером TID считается количество элементов из I, входящих в Т – DTID. Говорят, что транзакция T содержит А, некоторый набор эле- ментов из I, если А  T. Ассоциативным правилом (АП) состоящим из двух наборов элементов называется импликация АB, где AI, BI и AB = . При этом A называют условием (antecedent), а B – следствием (consequent) и говорят «Если А то B». Можно выделить объективные (независимые от конкретного приложения) меры значимости АП. К таким мерам, описывающим связь между наборами элементов, которые соответствуют условию и следствию, относят поддержку – supp (support) и достоверность conf – (confidence) [3]. Говорят, что правило AB имеет поддержку supp, если supp% транзакций из M, содержат АВ (условие и следствие) supp(AB) = supp(AB) (1) Достоверность conf правила – отношение количества транзакций, содержащих условие A и следствие B, к количеству транзакций, содержащих только условие A – показывает какова вероятность того, что из A следует B. conf(AB) = supp(A B)/supp(A) (2) При этом говорят, правило АВ справедливо с достоверностью conf , если conf% транзакций из M, содержащих А, также содержат В. Пользуясь данными из табл. 1 и формулами (1) и (2) рассчитаем поддержку и достоверность АП, когда А = «альбом», В = «фото»: Поддержка: supp(альбомфото) = supp(альбом  фото) = 4/14*100=28,6% Достоверность: conf(альбомфото) = supp(альбом  фото) / supp(альбом) = = 4/4*100=100% Таким образом, ассоциация «альбомфото» имеет невысокую поддержку, но ее достоверность равна 100%, поэтому данная ассоциация может рассматриваться как АП. Цель анализа связей – получить возможные АП вида АВ для всех элементов с различными значениями поддержки и достоверности, которые должны быть выше определенных порогов, называемых соответственно минимальной поддержкой (min- Автоматизация разработки и обновления семантического ядра сайта... «Штучний інтелект» 4’2012 469 6Т support) и минимальной достоверностью (minconfidence). Величины порогов зависят от конкретной задачи и, как правило, выбираются экспериментально. Методика применения анализа связей к БПТ состоит из двух этапов: 1 Поиск всех наборов элементов, поддержка которых больше либо равна minsup- port. Такие наборы элементов называются популярными наборами (frequent itemset). 2 Разработка АП на основе популярных наборов с достоверностью большей либо равной minconf. На этапе поиска популярных наборов можно выделить две процедуры: генера- ция наборов и расчет поддержки набора. Первые алгоритмы поиска популярных на- боров (AIS и SETM) генерировали наборы и рассчитывали поддержку во время чте- ния транзакций из базы данных, не используя при этом свойство антимонотонности, заключающееся в том, что поддержка любого набора элементов не может превышать минимальной поддержки любого из его поднаборов. Сокращение времени поиска популярных наборов можно добиться за счет исполь- зования алгорима Apriori. Работа данного алгоритма состоит из некоторого числа (про- ходов) повторяющихся процедур генерации k-элементных наборов-кандидатов (can- didate generation) и подсчета поддержки наборов-кандидатов (candidate counting). При этом процедура генерация кандидатов, заключающаяся в создании k-элемент- ных множеств (k – номер этапа) выполняется во время чтения транзакций из базы данных. Далее запускается отдельная процедура вычисления поддержки каждого k- элементного множества, после выполнения которой происходит удаление наборов- кандидатов, поддержка которых меньше minsupport. Оставшиеся k-элементные наборы считаются популярными (frequent itemset) [6]. Пользуясь данными БПТ (табл. 1) покажем процесс поиска популярных набо- ров (f_itemset) на основе алгоритма Apriori, который начинается с генерации 1-эле- ментных множеств кандидатов ik, k = 1  n, где n – количество всех возможных элементов в базе данных. Для данных из БПТ – n = 9. Результат выполнения про- цедуры генерации представлен в виде нормализованной таблицы (табл. 2), каждая строка которой содержит транзакцию с номером TID, представляющую собой бинар- ный вектор T. Элемент вектора t[k] = 1, если ik элемент присутствует в транзакции, иначе t[k] = 0. Таблица 2 БПТ 1-элементных наборов в нормализованном виде Эл-ты ik i1 i2 i3 i4 i5 i6 i7 i8 i9 TID флешки онлайн фото альбом рамки купить печать магазин интернет 1 1 1 0 0 0 0 0 0 0 2 0 0 1 1 0 0 0 0 0 3 0 1 1 1 0 0 0 0 0 4 0 0 1 0 1 0 0 0 0 5 0 1 1 0 1 1 0 0 0 6 0 1 1 0 0 0 1 0 0 7 0 0 1 0 0 0 0 1 0 8 0 1 1 0 1 0 0 0 0 9 0 0 1 0 0 0 1 0 0 10 0 0 1 0 0 0 0 1 1 11 0 0 1 1 0 0 0 1 0 12 0 0 1 0 1 0 0 1 0 13 0 0 1 1 1 0 0 0 0 14 1 0 0 0 0 0 1 0 0 Supp1(ik) 14,3 % 35,7% 85,7% 28,6% 35,7% 7,14% 21,43% 28,6% 7,14% Арсирий Е.А., Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф. «Искусственный интеллект» 4’2012 470 6А Поддержка supp1(iк) каждого 1-элементного набора iк вычисляется как: 100*)/()(sup 1 1 miip m j kjk    , где m – количество транзакций (m = 14). При этом популярным считается набор, для которого выполняется условие supp1(iк) >= minsupp. Допустим, что экспериментально выбранный порог поддержки составил minsupp = 28,6%, тогда сог- ласно свойству антимонотонности поддержки наборов элементов, в генерации всех воз- можных 2-элементных наборов-кандидатов вместо исходных девяти 1-элементных мно- жеств будут участвовать только пять признанных популярными – {i2},{i3},{i4}, {i5} и {i8} (табл. 2). Результаты первого, второго и третьего прохода процедур поиска попу- лярных наборов согласно алгоритму Apriori показаны в виде решетки связей начина- ющейся с пустого набора (рис. 2). При этом на 1 уровне располагаются 1-элементные наборы, на 2-м – 2-элементные и т.д. Тогда на k-м уровне могут быть представлены k-элементные наборы, связанные со всеми своими (k-1)-элементными поднаборами. При этом если 1-элементный набор {i1} согласно (1) имеет поддержку ниже заданного порога и, соответственно, не является популярным, тогда, согласно свойству антимо- нотонности, все его постнаборы также не являются популярными и отбрасываются. Далее 1-элементный набор {i1} не участвует в генерации 2- и 3-элементных наборов. Таким образом, любой k-элементный набор будет популярным тогда и только тогда, когда все его (k-1)-элементные поднаборы будут популярными Таким образом, использование алгоритма Apriori для поиска популярных наборов позволит резко снизить количество операций перебора всех возможных наборов эле- ментов из БПТ, которое с ростом числа элементов в I (| I |) растет экспоненциально. Рисунок 2 – Результаты работы первого, второго и третьего прохода процедуры поиска популярных наборов в БПТ Автоматизация разработки и обновления семантического ядра сайта... «Штучний інтелект» 4’2012 471 6Т Количество повторяющихся проходов процедуры поиска популярных наборов согласно алгоритму Apriori меньше или равно количеству элементов в самом длин- ном наборе – L = max (DTID), где TID – номер транзакции. В рассматриваемом примере (табл. 1) самым длинным является 4-элементный набор для транзакции с пятым номером, т.е L = 4. Однако поддержка ни одного из 3-эмементных наборов- кандидатов не больше minsupp (рис. 2), поэтому процесс поиска популярных наборов завершается уже после 3-го прохода, и можно переходить ко второму этапу анализа связей в БПТ – разработки АП на основе найденных популярных наборов. Разработка АП для найденных популярных наборов f_itemset выполняется на основе расчета поддержки и достоверности, используя (1) и (2) для всех импликаций типа АB. При этом в качестве А используются все возможные популярные и непустые (k-1)-элементные поднаборы f_itemsetk-1 популярного k-элементного набора f_itemsetk. А в качестве В используется разности R между f_itemsetk и всеми f_itemsetk-1. Например (рис.2), для набора f_itemset3={i2i3i5}, поддержка котрого supp3(i2i3i5)=14,3%, поднаборами будут f_itemset2={{i2i3}, {i2i5}, {i3i5}}, а разностями R = {{i5}, {i3}, {i2}}соответственно. Тогда все импликации АB будут выглядеть, как АB = {({i2i3}{i5}),({i2i5}{i3}), ({i3i5}{i2})}. При этом импликация АB будет относится к АП тогда и только тогда, когда supp(AB) > minsupp и conf(AB)> minconf. При условии, что для данных из БПТ (табл.1) экспериментально выбранный порог поддержки составил minsupp = 28,6%., то для разработки АП будут исполь- зованы только 2-элементные популярные наборы f_itemset2, т.к. поддержка supp3(…) всех 3-эмементных наборов-кандидатов меньше minsupp (рис. 2). Сформируем все возможные импликации типа АB для 2-элементных попу- лярных наборов f_itemset2 = {{i2i3}, {i3i4}, {i3i5}, {i3i8}}. Для этого определим их 1-эле- ментные популярные поднаборы f_itemset1 и разности R. Рассчитаем их поддержку и достоверность, результаты запишем в табл. 3. При условии, что экспериментально выбранный порог достоверности составит minconf = 60%, к АП можно отнести сле- дующие правила: «Если фото то онлайн»; «Если фото то альбом»; «Если фото то рамки»; «Если фото то магазин». Таблица 3 – Наборы-кандидаты в АП типа импликации АB f_itemset2 f_itemset1 R АB supp(AB) conf(AB) {i2 i3} онлайн фото {i2 }онлайн {i3 }фото онлайн  фото (4)28,6% (4/12) 33% {i3} фото {i2 }онлайн Фото онлайн (4)28,6% (4/5) 80% {i3 i4} фото альбом {i3} фото {i4} альбом Фото  альбом (4)28,6% (4/4) 100% {i4} альбом {i3} фото Альбом  фото (4)28,6% (4/12) 33% {i3 i5} фото рамки {i3} фото {i5} рамки фото  рамки (5)35,7% (5/5) 100% {i5} рамки {i3} фото рамки фото (5)35,7% (5/12)41,6% {i3 i8} фото магазин {i3} фото {i8} магазин фото магазин (4)28,6% (4/4) 100% {i8} магазин {i3} фото Магазин  фото (4)28,6% (4/12) 33% Арсирий Е.А., Антощук С.Г., Игнатенко О.А., Трофимов Б.Ф. «Искусственный интеллект» 4’2012 472 6А Методика автоматизации разработки и обновления СЯС В результате анализа этапов и процедур разработки СЯС (рис. 1 б) и возможно- стей применения анализа связей к базе поисковых транзакций, методику автоматизации разработки и обновления СЯС можно представить в виде последовательности следующих шагов: 1 Оценка контента сайта и исследование поисковых тенденций для определения первичного списка поисковых транзакций. Например, для интернет-витрины Konica- Digital шаблон поисковой транзакции согласно территориального расположения будет выглядеть как «фото онлайн в Одессе», а согласно наивысшей стоимости – «фото- графии печать». 2 С помощью средств статистики поисковых системы yandex (wordstat.yandex) формирование списка ассоциированных запросов с указанной частотой ключевых слов (рис. 3 а). 3 Формирование базы поисковых транзакций (БПТ) заданного вида на основании списка ассоциированных запросов (рис. 3 а) 4 Поиск популярных наборов в БПТ на основе алгоритма Apriori и формиро- вание базы популярных поисковых транзакций (БППТ). 5 На основе БППТ формирование базы возможных импликаций типа «условие  следствие», расчет их поддержки и достоверности и формирование базы ассоциа- тивных правил. 6 Формирование МЕТА-тэгов (Title, Description, Keywords) и, возможно, моди- фикация контента сайта. Например, для интернет-витрины Konica-Digital мета тег keywords, будет выглядеть так: <meta name="keywords" content="интернет магазин, магазин интернет, купить онлайн, фотографии онлайн, фотографии печать, фото- графии рамки, магазин рамки интернет, купить онлайн рамки, ..."> а б Рисунок 3 – Экранные формы автоматизации разработки СЯС Konica-Digital (а – статистики поисковых запросов в wordstat.yandex; б – вида БПТ в текстовом формате) Автоматизация разработки и обновления семантического ядра сайта... «Штучний інтелект» 4’2012 473 6Т Выводы Реализация предлагаемой методики разработки СЯС с динамическим контентом позволила поднять позиции Konica-Digital в SERP на 25% для 70% информационных, 85% транзакционных и 60% нечетких запросов, вводимых пользователем в основные ПС Yandex и Google. При этом в 1,5 раза сократились затраты рабочего времени спе- циалиста по SEO, необходимые для достижения заявленных результатов. Ограниченный объем статьи не позволил показать другие приложения методики разработки СЯС с динамическим контентом. Однако необходимо заметить, что при реализации предлагаемой методики для интернет-магазина Vsedetali в качестве БПТ использовалась таблица заказов, а автоматизированное формирование атрибута content мета тэгов keywords на основе АП также позволило повысить полноту и точность, снизить время разработки семантического ядра сайта. Таким образом, предложенная методика разработки СЯС является достаточно универсальной и с небольшими дора- ботками может быть применена специалистами по SEO для эффективного продвиже- ния сайтов с динамическим контентом ЛИТЕРАТУРА 1. Ашманов И. Оптимизация и продвижение сайтов в поисковых системах / И. Ашманов, А. Ива- нов. – [3-е изд.]. – СПб. : Питер, 2011. – 464 c. 2. Как работают поисковые системы – сниппет, алгоритм обратных индексов, индексация страниц, особенности работы поисковиков [Электронный ресурс]. – Режим доступа : http://ktonanovenkogo.ru/seo/search/kak-rabotayut-poiskovye-sistemy-snippet-index.html – 2009. 3. Паклин Н.Б. Бизнес-аналитика: от данных к знаниям / Н.Б. Паклин, В.И. Орешков. – СПб. : Изд. Питер, 2009. – 624 с. 4. Dirk Chung. Suchmaschienen-Optimierung: Darschnell Einstieg / Dirk Chung, Andreas Klünder. – Hei- delberg, 2007. 5. Timo Aden. Google Analytics: 2 Auflage / Timo Aden. – München : Carl Hanser Verlag, 2010. 6. Agrawal R. 1993. Mining Associations between Sets of Items in Massive Databases / R. Agrawal, T. Imielinski, A. Swami. // Proc. of the ACM-SIGMOD Int’l Conf. on Management of Data, 1993. – Р. 207- 216 Literatura 1. Ashmanov I. Optimizacija i prodvizhenie sajtov v poiskovyh sistemah: 3-e izd. SPb.: Piter. 2011. 464 s. 2. Kak rabotajut poiskovye sistemy – snippet, algoritm obratnyh indeksov, indeksacija stranic, osobennosti raboty poiskovikov. http://ktonanovenkogo.ru/seo/search/kak-rabotayut-poiskovye-sistemy-snippet- index.html – 2009 g. 3. Paklin N.B. . Biznes-analitika: ot dannyh k znanijam. SPb.: Izd. Piter. 2009. 624 s. 4. Dirk Chung. Suchmaschienen-Optimierung: Darschnell Einstieg. REDLINE GmbH. Heidelberg. 2007. 5. Timo Aden. Google Analytics: 2 Auflage. Carl Hanser Verlag München. 2010. 6. Agrawal R.. In Proc. of the 1993 ACM-SIGMOD Int’l Conf. on Management of Data. 1993. S. 207-216 Стаття поступила в редакцию 01.06.2012.
id nasplib_isofts_kiev_ua-123456789-57760
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn 1561-5359
language Russian
last_indexed 2025-11-30T21:38:14Z
publishDate 2012
publisher Інститут проблем штучного інтелекту МОН України та НАН України
record_format dspace
spelling Арсирий, Е.А.
Антощук, С.Г.
Игнатенко, О.А.
Трофимов, Б.Ф.
2014-03-14T13:44:13Z
2014-03-14T13:44:13Z
2012
Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом / Е.А. Арсирий, С.Г. Антощук, О.А. Игнатенко, Б.Ф. Трофимов // Штучний інтелект. — 2012. — № 4. — С. 464-473. — Бібліогр.: 6 назв. — рос.
1561-5359
https://nasplib.isofts.kiev.ua/handle/123456789/57760
330.43
В результате анализа проблем продвижения в поисковых системах веб-ресурсов с динамическим контентом предложена методика автоматизации разработки и обновления семантического ядра сайта на основе создания ассоциативных правил с помощью алгоритма поиска популярных наборов Apriori в базе поисковых транзакций. Применение методики позволило повысить полноту и точность, а также снизить время разработки и обновления семантического ядра сайта типа интернет-витрины и магазина.
У результаті аналізу проблем просування в пошукових системах веб-ресурсів з динамічним контентом запропонована методика автоматизації розробки та оновлення семантичного ядра сайту на основі створення асоціативних правил за допомогою алгоритму пошуку популярних наборів Apriori в базі пошукових транзакцій. Застосування цієї методики дозволило підвищити повноту і точність, а також зменшити час розробки та оновлення семантичного ядра сайта типу інтернет-вітрини та магазину.
As the result of analysis of the problems of promotion for web-resources with dynamic content in the search systems, the techniques for automation and updating of semantic kernel of a site are given on the basis of creation of content rules with the help of algorithm for search of popular sets Apriori in the transaction search base. The use of methods allows improving accuracy and reducing time for development and updating of semantic kernel of such site as online shopping.
ru
Інститут проблем штучного інтелекту МОН України та НАН України
Штучний інтелект
Обучающие и экспертные системы
Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
Автоматизація розробки і оновлення семантичного ядра сайта з динамічним контентом
Automation of Development and Updating for Semantic Kernel of a Site with Dynamic Content
Article
published earlier
spellingShingle Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
Арсирий, Е.А.
Антощук, С.Г.
Игнатенко, О.А.
Трофимов, Б.Ф.
Обучающие и экспертные системы
title Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
title_alt Автоматизація розробки і оновлення семантичного ядра сайта з динамічним контентом
Automation of Development and Updating for Semantic Kernel of a Site with Dynamic Content
title_full Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
title_fullStr Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
title_full_unstemmed Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
title_short Автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
title_sort автоматизация разработки и обновления семантического ядра сайта с динамическим контентом
topic Обучающие и экспертные системы
topic_facet Обучающие и экспертные системы
url https://nasplib.isofts.kiev.ua/handle/123456789/57760
work_keys_str_mv AT arsiriiea avtomatizaciârazrabotkiiobnovleniâsemantičeskogoâdrasaitasdinamičeskimkontentom
AT antoŝuksg avtomatizaciârazrabotkiiobnovleniâsemantičeskogoâdrasaitasdinamičeskimkontentom
AT ignatenkooa avtomatizaciârazrabotkiiobnovleniâsemantičeskogoâdrasaitasdinamičeskimkontentom
AT trofimovbf avtomatizaciârazrabotkiiobnovleniâsemantičeskogoâdrasaitasdinamičeskimkontentom
AT arsiriiea avtomatizacíârozrobkiíonovlennâsemantičnogoâdrasaitazdinamíčnimkontentom
AT antoŝuksg avtomatizacíârozrobkiíonovlennâsemantičnogoâdrasaitazdinamíčnimkontentom
AT ignatenkooa avtomatizacíârozrobkiíonovlennâsemantičnogoâdrasaitazdinamíčnimkontentom
AT trofimovbf avtomatizacíârozrobkiíonovlennâsemantičnogoâdrasaitazdinamíčnimkontentom
AT arsiriiea automationofdevelopmentandupdatingforsemantickernelofasitewithdynamiccontent
AT antoŝuksg automationofdevelopmentandupdatingforsemantickernelofasitewithdynamiccontent
AT ignatenkooa automationofdevelopmentandupdatingforsemantickernelofasitewithdynamiccontent
AT trofimovbf automationofdevelopmentandupdatingforsemantickernelofasitewithdynamiccontent