Технология разработки систем фильтрации интернет трафика на основе методов машинного обучения

Рассмотрен способ построения систем фильтрации Интернет трафика локальных сетей на основе методов машинного обучения. Огромное количество Интернет ресурсов, основная масса которых на сегодняшний день является динамическими, делают малопригодными традиционные сигнатурные подходы к анализу и фильтраци...

Full description

Saved in:
Bibliographic Details
Date:2008
Main Authors: Глазкова, В.В., Масляков, В.А., Машечкин, И.В., Петровский, М.И.
Format: Article
Language:Russian
Published: Інститут програмних систем НАН України 2008
Subjects:
Online Access:https://nasplib.isofts.kiev.ua/handle/123456789/1445
Tags: Add Tag
No Tags, Be the first to tag this record!
Journal Title:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Cite this:Технология разработки систем фильтрации интернет трафика на основе методов машинного обучения / В.В. Глазкова, В.А. Масляков, И.В. Машечкин, М.И. Петровский // Пробл. програмув. — 2008. — N 2-3. — С. 119-126. — Бібліогр.: 18 назв. — рус.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
Description
Summary:Рассмотрен способ построения систем фильтрации Интернет трафика локальных сетей на основе методов машинного обучения. Огромное количество Интернет ресурсов, основная масса которых на сегодняшний день является динамическими, делают малопригодными традиционные сигнатурные подходы к анализу и фильтрации Интернет информации. Анализ мета информации о ресурсе, такой как URL и тип содержимого, а также анализ содержимого на основе ключевых слов не обладают достаточной точностью, обеспечивающей эффективное решение задачи фильтрации трафика. Авторами предложена оригинальная архитектура, использующая методы машинного обучения для решения задачи многотемной классификации Интернет ресурсов. В работе описаны основные модули системы, их алгоритмы работы и способ организации базы знаний. Разработанная архитектура экспериментально протестирована на эталонных тестовых наборах данных, результаты экспериментов показали достаточно высокую точность и скорость работы. This report gives an overview of a method of constructing an Internet traffic filtering system based on machine learning approach. Large number of Internet resources, most of which today are dynamic, make little use of traditional signature approaches to the analysis and filtering of Internet information. Analysis of Internet resource meta-information, such as its URL and content type, or analysis based on keywords does not have sufficient accuracy to perform effective traffic filtering. The authors propose an original architecture, which uses machine-learning techniques to perform online multi-class multi-label classification of Internet resource content. This paper describes main modules, algorithms and knowledge base structure of such Internet traffic filtering system. Proposed architecture and algorithms were successfully implemented and tested on standard test data sets. Experiment results have shown fairly high accuracy and speed.
ISSN:1727-4907