Организация сети информационных прокси-серверов
Приведены проблемы современного web-пространства, не позволяющие рассматривать его как надежный и живучий информационный ресурс. Описан подход к организации сетевой инфраструктуры, позволяющей решить ряд проблем на основе использования системы контент-мониторинга и сети информационных прокси-серверо...
Saved in:
| Published in: | Реєстрація, зберігання і обробка даних |
|---|---|
| Date: | 2006 |
| Main Authors: | , |
| Format: | Article |
| Language: | Russian |
| Published: |
Інститут проблем реєстрації інформації НАН України
2006
|
| Subjects: | |
| Online Access: | https://nasplib.isofts.kiev.ua/handle/123456789/50849 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| Cite this: | Организация сети информационных прокси-серверов / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 3. — С. 24-31. — Бібліогр.: 9 назв. — pос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraine| id |
nasplib_isofts_kiev_ua-123456789-50849 |
|---|---|
| record_format |
dspace |
| spelling |
Додонов, А.Г. Ландэ, Д.В. 2013-11-05T00:24:55Z 2013-11-05T00:24:55Z 2006 Организация сети информационных прокси-серверов / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 3. — С. 24-31. — Бібліогр.: 9 назв. — pос. 1560-9189 https://nasplib.isofts.kiev.ua/handle/123456789/50849 681.3 Приведены проблемы современного web-пространства, не позволяющие рассматривать его как надежный и живучий информационный ресурс. Описан подход к организации сетевой инфраструктуры, позволяющей решить ряд проблем на основе использования системы контент-мониторинга и сети информационных прокси-серверов. Наведено проблеми сучасного web-простору, що не дозволяють розглядати його як надійний та живучий інформаційний ресурс. Описано підхід до організації мережної інфраструктури, що дозволяє вирішити ряд проблем на основі використання системи контент-моніторингу та мережі інформаційних проксі-серверів. Problems of the modern web-space which prevent to consider it as a reliable and viable information resource are given. The approach to the organization of the network infrastructure allowing to solve a set of problems based on use of content-monitoring systems and information proxies network is described. ru Інститут проблем реєстрації інформації НАН України Реєстрація, зберігання і обробка даних Інформаційно-аналітичні системи обробки даних Организация сети информационных прокси-серверов Організація мережі інформаційних проксі-серверів The Organization of Information Proxy Servers Network Article published earlier |
| institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
| collection |
DSpace DC |
| title |
Организация сети информационных прокси-серверов |
| spellingShingle |
Организация сети информационных прокси-серверов Додонов, А.Г. Ландэ, Д.В. Інформаційно-аналітичні системи обробки даних |
| title_short |
Организация сети информационных прокси-серверов |
| title_full |
Организация сети информационных прокси-серверов |
| title_fullStr |
Организация сети информационных прокси-серверов |
| title_full_unstemmed |
Организация сети информационных прокси-серверов |
| title_sort |
организация сети информационных прокси-серверов |
| author |
Додонов, А.Г. Ландэ, Д.В. |
| author_facet |
Додонов, А.Г. Ландэ, Д.В. |
| topic |
Інформаційно-аналітичні системи обробки даних |
| topic_facet |
Інформаційно-аналітичні системи обробки даних |
| publishDate |
2006 |
| language |
Russian |
| container_title |
Реєстрація, зберігання і обробка даних |
| publisher |
Інститут проблем реєстрації інформації НАН України |
| format |
Article |
| title_alt |
Організація мережі інформаційних проксі-серверів The Organization of Information Proxy Servers Network |
| description |
Приведены проблемы современного web-пространства, не позволяющие рассматривать его как надежный и живучий информационный ресурс. Описан подход к организации сетевой инфраструктуры, позволяющей решить ряд проблем на основе использования системы контент-мониторинга и сети информационных прокси-серверов.
Наведено проблеми сучасного web-простору, що не дозволяють розглядати його як надійний та живучий інформаційний ресурс. Описано підхід до організації мережної інфраструктури, що дозволяє вирішити ряд проблем на основі використання системи контент-моніторингу та мережі інформаційних проксі-серверів.
Problems of the modern web-space which prevent to consider it as a reliable and viable information resource are given. The approach to the organization of the network infrastructure allowing to solve a set of problems based on use of content-monitoring systems and information proxies network is described.
|
| issn |
1560-9189 |
| url |
https://nasplib.isofts.kiev.ua/handle/123456789/50849 |
| citation_txt |
Организация сети информационных прокси-серверов / А.Г. Додонов, Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 3. — С. 24-31. — Бібліогр.: 9 назв. — pос. |
| work_keys_str_mv |
AT dodonovag organizaciâsetiinformacionnyhproksiserverov AT landédv organizaciâsetiinformacionnyhproksiserverov AT dodonovag organízacíâmerežíínformacíinihproksíserverív AT landédv organízacíâmerežíínformacíinihproksíserverív AT dodonovag theorganizationofinformationproxyserversnetwork AT landédv theorganizationofinformationproxyserversnetwork |
| first_indexed |
2025-11-26T05:51:03Z |
| last_indexed |
2025-11-26T05:51:03Z |
| _version_ |
1850614416767188992 |
| fulltext |
Інформаційно-аналітичні системи
обробки даних
24
УДК 681.3
А. Г. Додонов1, Д. В. Ландэ2
1Институт проблем регистрации информации НАН Украины
ул. Н. Шпака, 2, 03113 Киев, Украина
2Информационный центр «ЭЛВИСТИ»
ул. М. Кривоноса, 2а, 03037 Киев, Украина
Организация сети информационных прокси-серверов
Приведены проблемы современного web-пространства, не позволяю-
щие рассматривать его как надежный и живучий информационный
ресурс. Описан подход к организации сетевой инфраструктуры, по-
зволяющей решить ряд проблем на основе использования системы
контент-мониторинга и сети информационных прокси-серверов.
Ключевые слова: Интернет-ресурсы, информационный прокси-сервер,
надежность, доступность, сетевая инфраструктура, контент.
Возможности доступа к Интернет-ресурсам, которые привлекают своей от-
крытостью, объемами и содержательной многогранностью на первый взгляд ка-
жутся безграничными. Однако кризисные события в разных областях, будь-то
крупные теракты или чемпионаты по футболу, свидетельствуют об обратном.
Именно в кризисных ситуациях Интернет достаточно часто подводит. Существует
множество проблем — от перегруженности сетевой инфраструктуры до вирусных
атак, уязвимостей и отказов в обслуживании отдельных web-серверов. Целый ряд
проблем порожден также объемами, разнообразием представления и динамикой
контентной части сетевых информационных потоков.
Проблемы
Несмотря на такие позитивные качества как открытость и доступность, суще-
ствующую инфраструктуру Интернет нельзя признать надежной, живучей и дос-
товерной [1]. Назовем еще несколько проблем, присущих современному web-
пространству.
1. Не решена задача доступа пользователей к разнородным web-ресурсам «из
одного окна» для получения обобщенного представления потоков информации по
необходимой тематике.
2. Не обеспечена возможность своевременного «напоминания» и «проталки-
© А. Г. Додонов, Д. В. Ландэ
Организация сети информационных прокси-серверов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 3 25
вания» профильной для пользователя информации, публикуемой на большом ко-
личестве web-сайтов.
3. Достаточно высокая вероятность отказа в обслуживании со стороны кри-
тически важных Интернет-ресурсов в самое необходимое время.
Известно, что сегодня существуют технологии интеграции контента, частич-
но предоставляющие решение названных проблем, однако не исследован уровень
безопасности их применения, возможно массового. Вопросы сетевой безопасно-
сти, например, в рамках современной концепции Семантического Web, по мне-
нию авторов, выглядят преимущественно декларативно, а на практике заужены
тематикой цифровой подписи.
Из всего сказанного выше следует необходимость создания новой инфра-
структуры, обеспечивающей надежную доставку сетевого контента заинтересо-
ванным лицам и организациям, в частности, на государственном уровне.
Ограничения, с которыми необходимо считаться
Пожалуй, самая распространенная причина отказов от предоставления web-
сайтами своего контента по запросам пользователей состоит в их банальной пере-
груженности. Вместе с тем мало кто из информационных администраторов web-
сайтов, даже сайтов и порталов органов государственной власти, владеют данны-
ми о максимально возможном количестве запросов пользователей, которые спо-
собны удовлетворить эти ресурсы. Владельцы любительских web-сайтов и сайтов
электронных СМИ даже не задумываются об этом вопросе.
При этом существуют достаточно жесткие ограничения возможностей web-
сайтов при массовой работе с их контентом. Следует заметить, что многие из этих
ограничений не учтены даже в нормативных документах, регламентирующих тре-
бования по защите информации на web-страницах [2]. Назовем некоторые из них,
которые влияют на уровень доступности web-ресурсов:
— ширина канала связи до web-сайта. Это ограничение было наиболее обос-
новано на начальных этапах развития сети Интернет;
— физические ограничения программно-технических платформ web-сер-
веров. Для снятия этого ограничения, например, популярные поисковые службы
используют сотни Frontend-серверов;
— устанавливаемые ограничения в программном обеспечении web-серверов.
Например, у самого популярного в настоящее время web-сервера Apache [3] па-
раметром MaxKeepAliveRequests определяется максимальное количество разре-
шенных запросов при устойчивом соединении. При этом для обеспечения макси-
мальной производительности это значение зачастую устанавливается по умолча-
нию равным 100;
— ограничения на отдачу динамических страниц, например, со стороны
СУБД, поисковых систем или сервисных других программ. Такие ограничения
часто устанавливаются при совместном виртуальном хостинге у провайдеров и
измеряются количеством запросов в час. В случае использования популярной в
Интернет СУБД MySQL [4] это ограничение, например, задается параметром
max_questions, значение которого, как правило, составляет 72000 (20 обращений к
базе данных в секунду). Превышение ограничения может происходить по разным
А. Г. Додонов, Д. В. Ландэ
26
причинам: установка малого значения в соответствии с политикой провайдера,
высокая посещаемость сайта, установка ресурсоемких приложений типа стати-
стики, нестандартных программ и т.д.
Следует выделить два явления, которые существенно влияют на надежность
получения информации от web-сайтов: пиковые нагрузки со стороны пользовате-
лей в кризисные дни (например, 11 сентября, «Оранжевая революция», начало
войны в Ираке и т.п.) [5] и DoS-атаки (Denial of Service или Отказ от обслужива-
ния). Во втором случае хакеры особым образом формируют запросы к программ-
ным компонентам web-серверов, чтобы загрузить их до такого уровня, когда они
перестанут функционировать. Такие атаки, как правило, не ведут к разрушению
самих серверов; чтобы вернуть web-сервер в рабочее состояние, как правило, тре-
буется перезагрузка. Часто DoS-атака выполняется с большого количества ком-
пьютеров, в этом случае она называется распределенной (DDoS Distributed Denial
of Service). Этот вид атак можно отнести к так называемым «сетевым войнам»,
формам организации конфликтных ситуаций на основе Интернет [6]. В таких слу-
чаях web-серверы не успевают отвечать на все запросы, в том числе и запросы ре-
альных пользователей.
Обе ситуации — и злонамеренная DoS-атака, и кризисная пиковая посещае-
мость приводят к недоступности информационных ресурсов web-сайтов, в част-
ности, для аналитиков и лиц, принимающих решения.
Поведение систем в результате возникновения данных ситуаций: определен-
ное количество запросов может обрабатываться — остальные стоят в очереди или
«отбрасываются» по тайм-ауту.
Назначение прокси-сервера
Как подход к решению названных проблем предлагается построение сети —
системы связанных информационных прокси-серверов. Необходимо заметить, что
использование прокси-серверов (точнее, кэширующих прокси-серверов) при ра-
боте в сети Интернет очень популярно [7]. В этом случае прокси-серверы служат,
в основном, для ускорения загрузки страниц за счет кэширования содержимого
страниц, ответов на запросы пользователей, DNS и т.п.
Для английского слова «proxy» в данном контексте применимы такие перево-
ды: «полномочный представитель», «посредник». В Интернет-технологиях прокси
— это программа, которая получает запросы, обращается к внешнему сервису из
Интернет, получает ответы и возвращает их пользователям. Под кэшем понимает-
ся информационное хранилище, в котором хранятся часто запрашиваемые web-
страницы.
Именно идеологию кэширующего прокси-сервера предлагается рассмотреть
как базу для построения инфраструктуры, которая позволит решить проблемы,
названные в статье.
При этом к данным, которые предположительно будет обслуживать инфор-
мационный прокси-сервер, предъявляются такие требования:
— рассматривается динамическая новостная составляющая web-простран-
ства как наиболее критичная с точки зрения обеспечения оперативного доступа;
Организация сети информационных прокси-серверов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 3 27
— множество кэшируемых web-сайтов выбирается экспертами в соответст-
вии с их вкладом этих источников в информационное пространство и может огра-
ничиваться несколькими тысячами;
— информация в прокси-сервере должна быть представлена в универсальном
внутрисистемном формате, предполагающем однозначную синтаксическую трак-
товку. Этим форматом может быть популярный сегодня XML или один из его
диалектов (например, RSS);
— данные в информационном хранилище (кэше) должны обновляться и ро-
тироваться по расписанию, соответствующему динамике их обновления на web-
сайтах.
Прокси-сервер, с одной стороны, предназначен для надежного обслуживания
пользователей корпоративных сетей, а с другой стороны, может обеспечивать об-
мен данными с аналогичными внешними прокси-серверами. Такое взаимодейст-
вие образует своеобразную сетевую структуру, которая, по мнению авторов, мо-
жет оказаться решением названных проблем.
Принципы функционирования информационного прокси-сервера
Пользователи информационного прокси-сервера обращаются к данным, по-
мещаемым в информационное хранилище (кэш). Кэш пополняется программой-
роботом, которая сканирует целевые web-сайты. Следует отметить, что многие
популярные сетевые информационно-поисковые системы также кэшируют ин-
формацию с web-страниц, предоставляя ее при необходимости пользователям.
Можно назвать такие системы, как Yandex (режим «Cохраненная копия»), Ram-
bler (режим «Восстановить текст»), Gooogle (режим Cached).
Характерная особенность роботов — настойчивость (при получении отказов
на запросы, он продолжает их задавать до момента получения позитивного отве-
та). Это тот плюс, который, например, позволил авторам наблюдать поток сооб-
щений из Вашингтона 11 сентября при общем впечатлении об Интернет, как «за-
висшей» в тот момент сети.
Интеллектуальный сканер системы (рис. 1) обращается к web-сайтам и скачи-
вает с них информацию по сценарию, составленному на специальном языке мак-
роописаний [8]. При этом сценарии могут существенно отличаться по качеству,
все зависит от квалификации эксперта-оператора.
Предполагается, что в результате сбора и первичной обработки данные в ин-
формационном хранилище будут программно приведены к единому формату,
классифицированы в соответствии с определенными рубрикаторами, каждому до-
кументу приписан ряд дескрипторов, включая ключевые слова.
Вместе с тем администраторам web-сайтов известны многие роботы, которые
излишне загружают их ресурсы, не принося при этом явной пользы. Опасность
массового применения роботов состоит в том, что они сами могут порождать не-
что подобное DoS-атакам. Что можно противопоставить этой опасности? По мне-
нию авторов, это:
— строгое соблюдение стандарта исключений для роботов (этот документ
можно найти, например, по адресу http://www.robotstxt.org/wc/exclusion.html);
А. Г. Додонов, Д. В. Ландэ
28
— аккуратное описание сценариев сбора информации роботами, зачастую
буквально эмуляция действий пользователей;
— создание сети информационных прокси-серверов, например, на отрасле-
вых уровнях. В этом случае сканироваться могут не web-сайты-оригиналы, а бли-
жайшие прокси-серверы.
Рис. 1. Процедура сбора данных
На рис. 2 приведен принцип функционирования сети информационных про-
кси-серверов. На нем представлен иерархический принцип организации этой сети.
Прокси-сервер первого уровня обеспечивает доступ к кэшу, заполняемому интел-
лектуальным сканером. К этому кэшу с помощью информационно-поисковой сис-
темы обеспечивается доступ конечных пользователей корпоративной сети. Эти же
пользователи имеют возможность обращения к документам непосредственно в
сети Интернет. Представленные на рис. 2 прокси-серверы 2-го уровня загружают
информацию с кэша прокси-сервера 1-го уровня, а кроме того, могут дополнять
свое информационное хранилище данными, сканируемыми непосредственно из
Организация сети информационных прокси-серверов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 3 29
Интернет (информационные потребности пользователей разных прокси-серверов
могут отличаться). Очевидно расширение приведенной схемы на третий и после-
дующие уровни.
Рис. 2. Принцип организации сети информационных Proxy-серверов
Программно-аппаратный комплекс InfoStream Port
В качестве прототипа информационного прокси-сервера рассматривается
система, созданная на основе комплекса мониторинга новостей InfoStream [9], ко-
торая в настоящее время позволяет осуществлять сканирование информации из
нескольких тысяч открытых web-сайтов.
На основе этой системы реализуетися информационный прокси-сервер, к ко-
торому обращаются пользователи — корпоративные серверы, которые сами непо-
средственно не сканируют Интернет (или выполняют эту операцию в ограничен-
ных объемах, решая специфические информационные задачи). Такой подход об-
ладает следующими преимуществами.
1. Не требуется сканирования и обработки данных из Интернет непосредст-
венно (прежде всего — экономия на ресурсах, необходимых для администрирова-
ния).
2. Анонимность (при сканировании сайтов их владельцы могут определять
адреса робота-сканера).
А. Г. Додонов, Д. В. Ландэ
30
3. Существенная экономия Интернет-трафика (в этом случае основные рас-
ходы берет на себя информационный провайдер — владелец первого проски-
сервера. Как показывает опыт, соотношение объемов сканируемой и «готовой к
употреблению» информации составляет 50:1).
4. Не отрицается возможность самостоятельного сканирования Интернет (на-
пример, ресурсы общего плана можно загружать из информационного прокси-
сервера, а специальные ресурсы — непосредственно из Интернет).
Для корпоративных пользователей реализовано решение InfoStream Port, ко-
торое обеспечивает доступ к базам данных оперативной и ретроспективной ин-
формации в корпоративных сетях. Программно-технологическое обеспечение
InfoStream Port основано на принципе интеграции информационного прокси-
сервера и поисковой системы и включает как компоненты утилиту обмена дан-
ными с информационным хранилищем (кэшем) и полнотекстовую информацион-
но-поисковую систему InfoRes.
Информационное обеспечение системы у корпоративного пользователя,
функционирование которой основывается на использовании кэша, формируется
за счет выполнения совокупности технологических операций, в число которых
входят сбор информации из Интернет, нормализация информации, приведение ее
к единому системному формату, классификация, помещение данных в информа-
ционное хранилище и предоставление санкционированного доступа к кэшу.
Заключение
Описанная распределенная система информационных прокси-серверов по-
зволяет создавать эффективные и масштабируемые решения, которые могут быть
существенным подспорьем для аналитиков, сотрудников информационных служб,
так как они способны существенно повысить надежность доставки и уровень
обобщения оперативных данных, а также снизить загрузку каналов связи. Благо-
даря используемому кэшированию не только повышается эффективность исполь-
зования каналов, но и уменьшаются задержки, возникающие в процессе доставки
интернет-контента пользователю.
Критически важным в этой технологии являются инструментальные средства,
которые должны гарантировать безопасность, актуальность принимаемых и пере-
даваемых данных, а также их целостность.
1. Додонов А.Г., Клещев Н.Т., Клименко В.Г. Анализ отраслевых вычислительных сетей. —
Л.: Судостроение, 1990. — 256 с.
2. Вимоги до захисту інформації WEB-сторінки від несанкціонованого доступу. НД ТЗІ 2.5-
010-03. — К.: ДСТСЗІ СБ України, 2003. — 20 с.
3. Уэйнрайт П. Apache для профессионалов. — М.: Лори, Wrox Press Ltd, 2001. — 474 с.
4. Дюбуа П. MySQL. — М.: ИД «Вильямс», 2004. — 1056 с.
5. Фурашев В.Н., Ландэ Д.В., Григорьєв А.Н., Фурашев А.В. Электронное информационное
общество Украины: взгляд в настоящее и будущее // Академия правовых наук Украины. Научно-
исследовательский центр правовой информатики. — К.: Инжиниринг, 2005. — 163 с.
Организация сети информационных прокси-серверов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 3 31
6. Азаров С.С., Додонов А.Г. Информационные техологии: кибервойны, информационные
войны и сетевые войны: Сб. науч. тр. Международной конференции «Информационные техноло-
гии и безопасность». Вып. 5. — К.: Национальная академия наук Украины, 2003. — C. 3–11.
7. Ландэ Д.В. Данные в кармане // CHIP/Украина. — 2002. — № 6. — С. 82–85.
8. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информацион-
ные и компьютерные интегрированные технологии: Сб. науч. тр. Вып. 28. — Харьков: Аэрокос-
мический ун-т «ХАИ», 2005. — С. 53–58.
9. Ланде Д.В., Фурашев В.М, Григор’єв О.М. Програмно-апаратний комплекс інформаційної
підтримки прийняття рішень: Науково-методичний посібник. — К.: ТОВ «Інжиніринг, 2006. —
48 с.
Поступила в редакцию 17.08.2006
|