Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс

Построены модели ранжирования результатов выдачи поисковых систем Google и Яндекс с применением индуктивных алгоритмов. Проведен сравнительный анализ построенных моделей и выявлены наиболее весомые признаки ранжирования и характерные особенности моделей. Побудовано моделі ранжування результатів вида...

Повний опис

Збережено в:
Бібліографічні деталі
Опубліковано в: :Індуктивне моделювання складних систем
Дата:2011
Автори: Зосимов, В.В., Степашко, В.С., Булгакова, А.С.
Формат: Стаття
Мова:Російська
Опубліковано: Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України 2011
Онлайн доступ:https://nasplib.isofts.kiev.ua/handle/123456789/45932
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс / В.В. Зосимов, В.С. Степашко, А.С. Булгакова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2011. — Вип. 3. — С. 69-77. — Бібліогр.: 2 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
_version_ 1859668786051809280
author Зосимов, В.В.
Степашко, В.С.
Булгакова, А.С.
author_facet Зосимов, В.В.
Степашко, В.С.
Булгакова, А.С.
citation_txt Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс / В.В. Зосимов, В.С. Степашко, А.С. Булгакова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2011. — Вип. 3. — С. 69-77. — Бібліогр.: 2 назв. — рос.
collection DSpace DC
container_title Індуктивне моделювання складних систем
description Построены модели ранжирования результатов выдачи поисковых систем Google и Яндекс с применением индуктивных алгоритмов. Проведен сравнительный анализ построенных моделей и выявлены наиболее весомые признаки ранжирования и характерные особенности моделей. Побудовано моделі ранжування результатів видачі пошукових систем Google і Яндекс із застосуванням індуктивних алгоритмів. Проведено порівняльний аналіз побудованих моделей та виявлено найбільш вагомі ознаки ранжування і характерні особливості моделей. Models of ranking the return results of search engines Google and Yandex were built using inductive algorithms. Comparative analysis of constructed models was done and the most significant ranking features and models specific peculiarities found out.
first_indexed 2025-11-30T12:30:57Z
format Article
fulltext Построение и сравнительный анализ моделей ранжирования результатов УДК 004.738.52 ПОСТРОЕНИЕ И СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ РАБОТЫ ПОИСКОВЫХ СИСТЕМ GOOGLE И ЯНДЕКС В.В. Зосимов1, В.С. Степашко2, А.С. Булгакова1 1 Николаевский национальный университет им. В.О.Сухомлинского, 54000 Николаев, ул. Никольская 24 2 Международный научно-учебный центр информационных технологий и систем, 03680 Киев, пр. Академика Глушкова, 40 zosimovvv@bk.ru, stepashko@irtc.org.ua , sashabulgakova1@gmail.com Побудовано моделі ранжування результатів видачі пошукових систем Google і Яндекс із застосуванням індуктивних алгоритмів. Проведено порівняльний аналіз побудованих моделей та виявлено найбільш вагомі ознаки ранжування і характерні особливості моделей. Ключові слова: ранжування, пошукові системи, індуктивне моделювання, ітераційні алгоритми, МГУА. Models of ranking the return results of search engines Google and Yandex were built using inductive algorithms. Comparative analysis of constructed models was done and the most significant ranking features and models specific peculiarities found out. Keywords: ranking, search engines, inductive modeling, iterative algorithms, GMDH Построены модели ранжирования результатов выдачи поисковых систем Google и Яндекс с применением индуктивных алгоритмов. Проведен сравнительный анализ построенных моделей и выявлены наиболее весомые признаки ранжирования и характерные особенности моделей. Ключевые слова: ранжирование, поисковые системы, индуктивное моделирование, итерационные алгоритмы, МГУА Введение В данной статье описаны результаты построения и сравнительного анали- за моделей ранжирования результатов работы поисковых систем Google и Ян- декс. Целью исследования является выявление характерных особенностей мо- делей ранжирования для дальнейшего поиска возможных путей их усовершен- ствования или построения более эффективных моделей. В основе исследования лежит построение моделей ранжирования с при- менением обобщенного итерационного алгоритма МГУА на основе обучающей выборки, в качестве которой использовались результаты ранжирования поиско- вых систем. На основе полученных в ходе экспериментов данных исследуется важ- ность признаков ранжирования, а также сходство и различие моделей поиско- вых систем Google и Яндекс. Індуктивне моделювання складних систем, випуск 3, 2011 69 В.В. Зосимов, В.С. Степашко, А.С. Булгакова 1. Построение модели ранжирования поисковой выдачи Google В данной задаче моделируем процесс ранжирования веб-ресурсов поис- ковой выдачи системы Google (google.com.ua) для поисковой фразы «веб- программирование». Для эксперимента было отобрано первых 50 сайтов поисковой выдачи по данному ключевому запросу. Матрица исходных данных X содержит 42 при- знака-фактора, которые численно характеризуют каждый сайт (см. ниже). Столбцы матрицы X соответствуют значениям факторов, а строки – веб- ресурсу. Выходной величиной у является порядок ранжирования результатов выдачи, т.е. номер сайта. Для моделирования применяется обобщенный итерационный алгоритм ОИА МГУА [1], в котором матрица данных X делится на две части: первая (примерно 2/3 длины) – обучающая А, которая используется для оценки коэф- фициентов моделей, вторая (1/3 длины) – проверочная выборка В, на которой вычисляется качество модели как значение критерия регулярности AR: 2ˆ ABB XyAR θ−= , (1) где - оценка коэффициентов модели с помощью МНК. Aθ̂ Для моделирования процесса ранжирования результатов поиска веб- ресурсов были использованы следующие признаки (входные переменные): х1 – количество ключевых слов на сайте; х2 – количество ключевых слов на странице; х3 – отношение общего числа слов к числу ключевых слов на сайте; х4 – отношение всего числа слов к числу ключевых слов на странице; х5 – Google Page Rank (далее PR, результат расчета авторитетности веб- страниц по алгоритму системы); х6 – популярность тематики; х7 – число запросов по конкретному ключевому слову за определённый пе- риод времени; х8 – общее количество веб-страниц сайта; х9 – объём текста сайта; х10 – объём сайта; х11 – объём текста веб-страницы; х12 – возраст сайта; х13 – наличие ключевого слова в URL сайта (имя домена); х14 – периодичность обновления информации на сайте; х15 – последнее обновление страниц сайта; х16 – число картинок (рисунков) на сайте; х17 – количество мультимедийных файлов; х18 – наличие замещающих надписей на рисунках (картинках); х19 – длина (число символов) замещающих надписей рисунков (картинок); х20 – использование фреймов; 70 Індуктивне моделювання складних систем, випуск 3, 2011 Построение и сравнительный анализ моделей ранжирования результатов х21 – язык сайта (русский или иностранный); х22 – размер шрифта, которым оформлены ключевые слова; х23 – жирность шрифта ключевых слов; х24 – написаны ключевые слова в разрядку или нет; х25 – написаны или нет ключевые слова заглавными буквами; х26 – как далеко от начала веб-страницы располагаются ключевые слова; х27 – наличие ключевых слов в заголовке; х28 – наличие ключевых слов в мета-тэгах; х29 – наличие файла «robot.txt»; х30 – географическое месторасположение сайта; х31 – комментарии внутри программного кода сайта; х32 – к какому типу страниц относится каждая страница сайта: html или asp; х33 – наличие в составе сайта flash модулей; х34 – наличие в составе сайта веб-страниц с незначительными отличиями друг от друга; х35 – соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт; х36 – наличие «шумовых слов» («стоп-слов»); х37 – общее количество гиперссылок сайта; х38 – количество внутренних гиперссылок сайта; х39 – количество внешних гиперссылок сайта; х40 – глубина сайта; х41 – количество внешних ссылок, содержащих в названии ключевые слова; х42 – индекс цитирования Яндекс (ТИЦ). Выходной переменной у является позиция веб-ресурса среди результатов ранжирования поисковой выдачи системы. Точность построенной модели будем рассчитывать по формуле коэффи- циента детерминации: ( ) ( ) %,100 ˆ 1 2 1 2 2 ∑ ∑ = = − − = n i i n i i yy yy R (2) где −y среднее значение, – выход модели. iŷ С применением программной реализации ОИА МГУА была построена следующая модель, которая описывает результаты ранжирования веб-ресурсов в данной поисковой системе: 393837 2 15146541403528 272212743 002,006,089,7006,0429,27 8,14012,069,200003,012,071,224,3 ххххххххххх ххххххy ++−−+−− −−+−+++= . (3) Показатели качества модели: AR(А) = 2,48; AR(В) = 3,51, R2 =92%. Полу- ченный процент означает, что эта модель лишь в четырех случаях из 50-ти ука- Індуктивне моделювання складних систем, випуск 3, 2011 71 В.В. Зосимов, В.С. Степашко, А.С. Булгакова зала другой порядковый номер ресурса по сравнению с Google. При этом ре- зультат вычисления по модели (3) округлялся до целого числа, которое и было ранговой позицией ресурса, см. таблицу 1, где показаны результаты примене- ния модели уже к 100 первым сайтам. Таблица 1 – Результаты ранжирования веб-ресурсов с помощью МГУА Место в google.com.ua Значения по модели МГУА Результаты округления 1 1,23 1 2 1,89 2 3 4,01 4 4 4,21 4 5 4,89 5 6 6,02 6 7 6,78 7 8 8,00 8 9 8,52 9 10 9,33 9 … … … 21 21,23 21 22 22,49 23 23 22,85 23 … … … 32 33,56 34 33 33,56 34 34 33,68 34 … … … 57 57,22 57 58 58,15 58 … … … 99 98,95 99 100 99,56 100 Проанализировав структуру построенной модели, можно сделать вывод, что на ранжирование веб-ресурсов в поисковой системе google наибольшее влияние оказывают следующие 16 факторов: х3 – отношение общего числа слов к числу ключевых слов на сайте; х4 – отношение общего числа слов к числу ключевых слов на странице; х5 – Google PR; х6 – популярность тематики; х7 – число запросов по конкретному ключевому слову за определённый пе- риод времени; 72 Індуктивне моделювання складних систем, випуск 3, 2011 Построение и сравнительный анализ моделей ранжирования результатов х12 – возраст сайта; х14 – периодичность обновления информации на сайте; х15 – последнее обновление страниц сайта; х22 – размер шрифта, которым оформлены ключевые слова; х27 – наличие ключевых слов в заголовке; х28 – наличие ключевых слов в мета-тегах; х35 – соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт; х37 – общее количество гиперссылок сайта; х38 – количество внутренних гиперссылок сайта; х39 – количество внешних гиперссылок сайта; х40 – глубина сайта; х41– количество внешних ссылок, содержащих в названии ключевые слова; Проанализировав эти факторы, можно сказать, что на ранжирование веб- ресурсов в поисковой системе google влияют в основном внешние факторы (х5, х6, х7, х12, х35, х39, х41), а не внутренние. Проверим правильность работы построенной модели (3) на других поис- ковых запросах: • «рецепт омлета»; • «купить ноутбук Киев»; • «экспертные системы». Полученные результаты отражены в таблице 2. Таблица 2 – Результаты ранжирования веб-ресурсов в google.com.ua Значения по модели МГУА Место в google.com.ua «рецепт омлета» / округленный результат «купить ноутбук Киев» / округлен- ный результат «экспертные систе- мы» / округленный результат 1 0,83 / 1 1,02 / 1 0,78 / 1 2 1,91 / 2 2,11 / 2 2,02 / 2 3 3,09 / 3 3,56 / 4 3,01 / 3 … … … … 15 14,89 / 15 15,08 / 15 14,98 / 15 16 16,02 / 16 16,06 / 16 14,99 / 15 17 16,78 / 17 17,21 / 17 14,99 / 15 … … … … 21 19,52 / 20 21,11 / 21 21,03 / 21 22 21,33 / 21 22,13 / 22 21,89 / 22 23 23,01 / 23 24,05 / 24 22,99 / 23 … … … … Індуктивне моделювання складних систем, випуск 3, 2011 73 В.В. Зосимов, В.С. Степашко, А.С. Булгакова Продолжение таблицы 2 37 37,91 / 38 36,99 / 37 36,89 / 37 38 37,95 / 38 38,00 / 38 38,01 / 38 39 38,23 / 38 38,78 / 39 39,05 / 39 … … … … 62 63,06 / 63 62,12 / 62 62,13 / 62 63 63,56 / 64 63,42 / 64 62,58 / 63 64 64,18 / 64 64,01 / 64 64,02 / 64 … … … … 77 77,02 / 77 76,01 / 76 78,00 / 78 78 78,11 / 78 77,72 / 78 78,32 / 78 … … … … 89 88,95 / 89 89,23 / 89 89,00 / 89 … … … … 100 99,86 / 100 100,56 / 101 100,01 / 100 R2 87% 95% 93% Из таблицы 2 видно, что найденная с помощью ОИА МГУА модель с вы- сокой точностью повторяет ранжирование поисковой системы Google для со- вершенно разных поисковых запросов и может быть применена для дальнейше- го изучения данного способа ранжирования. 2. Построение модели ранжирования поисковой выдачи Яндекс В данной задаче моделируем процесс ранжирования веб-ресурсов поис- ковой выдачи Yandex (yandex.ua) для поисковой фразы «теплообмен». Для эксперимента было отобрано первых 50 сайтов поисковой выдачи по данному ключевому запросу. Матрица данных X содержит 42 переменных- фактора, которые численно характеризуют каждый сайт. Столбцы матрицы X соответствуют значениям факторов, а строки – веб-ресурсу. Как и в первой за- даче, качество модели вычислялось как значение критерия регулярности AR (1) при такой же пропорции разделения данных на две части А и В. Выходной пе- ременной у является позиция веб-ресурса в поисковой выдаче. С применением ОИА МГУА была построена следующая модель, описы- вающая порядок ранжирования веб-ресурсов в поисковой системе: 93837 2 1514642413528 272212743 04,008,322,12001,219,48001,0 79,212,869,2000001,012,001,112,7 хххххххххх ххххххy +−−−−+ +++−+++= (4) 74 Індуктивне моделювання складних систем, випуск 3, 2011 Построение и сравнительный анализ моделей ранжирования результатов Показатели качества модели: AR(А) = 3,12; AR(В) = 3,92, R2 =89%. Таблица 3 – Результаты ранжирования веб-ресурсов в yandex.ua Место в yandex.ua Значения по МГУА Результаты округления 1 0,83 1 2 1,29 2 3 3,08 3 4 5,01 5 5 5,23 5 6 6,02 6 7 7,78 8 8 8,09 8 9 9,22 9 10 10,13 10 … … … 21 21,23 21 22 21,99 22 23 23,85 24 … … … 32 32,56 33 33 33,07 33 34 34,12 34 … … … 57 57,02 57 58 58,11 58 … … … 99 99,95 100 100 107,12 107 Из структуры модели следует, что на ранжирование веб-ресурсов в поис- ковой системе Yandex наибольшее влияние оказывают следующие 13 факторов: х3 – отношение общего числа слов к числу ключевых слов на сайте; х4 – отношение общего числа слов к числу ключевых слов на странице; х6 – популярность тематики; х7 – число запросов по ключевому слову за определённый период времени; х12 – возраст сайта; х14 – периодичность обновления информации на сайте; х15 – последнее обновление страниц сайта; х22 – размер шрифта, которым оформлены ключевые слова; х27 – наличие ключевых слов в заголовке; х28 – наличие ключевых слов в мета-тэгах; Індуктивне моделювання складних систем, випуск 3, 2011 75 В.В. Зосимов, В.С. Степашко, А.С. Булгакова х35 – соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт; х41– количество внешних ссылок, содержащих в названии ключевое слова; х42 – индекс цитирования Яндекс. Проанализировав эти факторы, можно сказать, что на ранжирование веб- ресурсов в поисковой системе yandex влияют в основном внешние факторы (х6, х7, х12, х35, х41, х42). Проверим правильность работы найденной формулы (4) на других поис- ковых запросах: • «теория вероятности»; • «химчистка ковров»; • «отдых в Таиланде». Таблица 4 – Результаты ранжирования веб-ресурсов в yandex.ua Значения по МГУА Место в yandex.ua «теория вероятно- сти» / округленный результат «химчистка ковров» / округленный результат «отдых в Таилан- де» / округленный результат 1 0,95 / 1 1,12 / 1 1,18 / 1 2 1,91 / 2 2,11 / 2 2,00 / 2 3 3,21 / 3 3,46 / 4 3,61 / 4 … … … … 15 15,09 / 15 15,08 / 15 14,18 / 14 16 16,00 / 16 16,08 / 16 14,99 / 15 17 17,12 / 17 17,21 / 17 15,09 / 15 … … … … 21 20,52 / 21 21,11 / 21 21,03 / 21 22 22,33 / 22 22,13 / 22 22,79 / 23 23 23,01 / 23 23,95 / 24 23,99 / 24 … … … … 37 37,51 / 38 36,99 / 37 37,12 / 37 38 37,95 / 38 38,00 / 38 38,01 / 38 39 39,23 / 39 38,78 / 39 38,05 / 38 … … … … 62 63,06 / 63 62,12 / 62 61,93 / 62 63 63,56 / 64 63,42 / 64 62,58 / 63 64 64,18 / 64 64,01 / 64 64,47 / 65 … … … … 77 77,02 / 77 77,01 / 77 78,00 / 78 76 Індуктивне моделювання складних систем, випуск 3, 2011 Построение и сравнительный анализ моделей ранжирования результатов Продолжение таблицы 4 78 78,01 / 78 78,22 / 78 78,82 / 79 … … … … 89 88,95 / 89 89,23 / 89 88,00 / 88 … … … … 100 99,86 / 100 100,06 / 100 99,01 / 99 R2 85% 88% 84% Из таблицы 4 видно, что построенная модель с высокой точностью соот- ветствует результатам ранжирования поисковой системы Yandex. Сравнив полученные модели ранжирования для Google (3) и Яндекс (4), видим, что из-за различных алгоритмов расчета авторитетности веб-страницы (PR для Google и ТИЦ для Яндекс) они отличаются только такими признаками: х40 – возраст домена; х5 – значение PR; х42 – значение ТИЦ. Остальные признаки входят в обе модели, но с разными коэффициентами. 3. Выводы Анализ полученных в ходе исследования моделей ранжирования поиско- вых систем Google и Яндекс показал следующее: - в обе модели входят почти одни и те же признаки ранжирования, и раз- ница в них заключается в основном в коэффициентах при этих признаках; - в обеих моделях преимущественно используются внешние (более поме- хоустойчивые) признаки ранжирования, которые сложнее искусственно накру- чивать при продвижении произвольного сайта; - основные отличия моделей ранжирования заключаются в алгоритмах рас- чета авторитетности веб-страниц, которые являются запатентованными разра- ботками и держатся в строгом секрете [2]. Исследование показало, что, благодаря независимости признаков ранжиро- вания от смыслового наполнения сайта, в рамках одной поисковой системы можно использовать одну и ту же модель ранжирования для запросов из совсем разных областей знаний. Высокая точность построенных моделей ранжирования доказывает эффек- тивность применения ОИА МГУА для решения подобного рода задач. Література 1. Степашко В.С., Булгакова О.С., Зосімов В.В. Гібридні алгоритми самоорганізації моделей для прогнозування складних процесів. – Індуктивне моделювання складних систем. Зб. наук. праць, вип. 2. – К.: МННЦ ІТС НАН та МОН України, 2010.– С. 236-246. 2. Колисниченко Д.Н. Поисковые системы и продвижение сайтов в Интер- нете. — М.: «Диалектика», 2007. — 272 с. Індуктивне моделювання складних систем, випуск 3, 2011 77
id nasplib_isofts_kiev_ua-123456789-45932
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
issn XXXX-0044
language Russian
last_indexed 2025-11-30T12:30:57Z
publishDate 2011
publisher Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
record_format dspace
spelling Зосимов, В.В.
Степашко, В.С.
Булгакова, А.С.
2013-06-20T19:21:41Z
2013-06-20T19:21:41Z
2011
Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс / В.В. Зосимов, В.С. Степашко, А.С. Булгакова // Індуктивне моделювання складних систем: Зб. наук. пр. — К.: МННЦ ІТС НАН та МОН України, 2011. — Вип. 3. — С. 69-77. — Бібліогр.: 2 назв. — рос.
XXXX-0044
https://nasplib.isofts.kiev.ua/handle/123456789/45932
004.738.52
Построены модели ранжирования результатов выдачи поисковых систем Google и Яндекс с применением индуктивных алгоритмов. Проведен сравнительный анализ построенных моделей и выявлены наиболее весомые признаки ранжирования и характерные особенности моделей.
Побудовано моделі ранжування результатів видачі пошукових систем Google і Яндекс із застосуванням індуктивних алгоритмів. Проведено порівняльний аналіз побудованих моделей та виявлено найбільш вагомі ознаки ранжування і характерні особливості моделей.
Models of ranking the return results of search engines Google and Yandex were built using inductive algorithms. Comparative analysis of constructed models was done and the most significant ranking features and models specific peculiarities found out.
ru
Міжнародний науково-навчальний центр інформаційних технологій і систем НАН та МОН України
Індуктивне моделювання складних систем
Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
Article
published earlier
spellingShingle Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
Зосимов, В.В.
Степашко, В.С.
Булгакова, А.С.
title Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
title_full Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
title_fullStr Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
title_full_unstemmed Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
title_short Построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем Google и Яндекс
title_sort построение и сравнительный анализ моделей ранжирования результатов работы поисковых систем google и яндекс
url https://nasplib.isofts.kiev.ua/handle/123456789/45932
work_keys_str_mv AT zosimovvv postroenieisravnitelʹnyianalizmodeleiranžirovaniârezulʹtatovrabotypoiskovyhsistemgoogleiândeks
AT stepaškovs postroenieisravnitelʹnyianalizmodeleiranžirovaniârezulʹtatovrabotypoiskovyhsistemgoogleiândeks
AT bulgakovaas postroenieisravnitelʹnyianalizmodeleiranžirovaniârezulʹtatovrabotypoiskovyhsistemgoogleiândeks