Статья опубликована в рамках: XXXVII-XXXVIII Международной научно-практической конференции «Вопросы технических и физико-математических наук в свете современных исследований» (Россия, г. Новосибирск, 21 апреля 2021 г.)
Наука: Информационные технологии
Секция: Системный анализ, управление и обработка информации
Скачать книгу(-и): Сборник статей конференции
дипломов
МАШИННАЯ ИДЕНТИФИКАЦИЯ ЛОКАЛЬНОЙ ВЫЧИСЛИТЕЛЬНОЙ СЕТИ
Работа выполнена в рамках гранта № 19-47-480002.
АННОТАЦИЯ
В статье рассматривается машинная идентификация сетевого трафика на основе нейронной сети для обнаружения и решения проблем. Выявлены основные достоинства данного метода обучения.
Ключевые слова: нейронная сеть, идентификация, машинное обучение, анализ сетевого трафика.
В настоящее время существует множество различных методов и устройств, позволяющие находить и устранять проблемы, возникающие в локальной сети (ЛВС). Обязанности по выявлению сетевых проблем лежит на системном администраторе организации. Для этого ему необходимо своевременно накапливать актуальные данные о работе сети, анализировать их, контролировать работу сетевого оборудования, которое необходимо для нормального функционирования ЛВС. Данная работа занимает большую часть рабочего времени персонала, занимающегося обслуживанием IT-оборудованием организации. Для оптимизации времени работы системного администратора и сокращение временных затрат, необходимое для выполнения стандартных операций, необходимо использовать современные IT-технологии, которые должны быть связаны с современной системой поддержкой принятия решений (СППР).
При изучении методов анализа сетевого трафика была выявлена последовательность шагов, каждый из которых приводит к повышению уровня репрезентативности объекта анализа, захватывается пакет, который проходит через контролируемое сетевое соединение. В результате этого шага анализируемый объект поступает в виде сетевых пакетов. Есть несколько подходов к захвату пакетов, которые влияют на скорость и точность анализа и зависят от вычислительной мощности.
- Для быстрого анализа трафика используется подход, при котором только данные потока будут подвергнуты анализу. Это приводит к очень быстрому анализу при минимальных затратах. Но при данном подходе страдает качество анализа, поэтому этот метод используется только для анализа трафика.
- Если необходим мониторинг трафика, то используется метод, при котором только определенные пакеты данных захвачены, которые выбраны для определенного атрибута. Такой подход называется отбором проб.
- Если стоит задача точности анализа трафика, то необходим перехват всех пакетов. Этот подход называется глубоким захватом пакетов. Такой подход используется в случаях сетевой безопасности.
После захвата пакет объединяется в потоки. Результатом этого шага является получение нового объект для анализа (поток данных). Последний шаг – классификация потока. После завершения этой операции возможна дальнейшая обработка полученного объекта, конкретный вид которого зависит от поставленной задачи.
Задачу классификации сетевого трафика можно определить как большое количество потоков данных , где любой поток данных в сети может выражаться различными характеристиками, такие как размер потока, средняя длина пакета, длительность передачи пакета данных.
Сетевой трафик можно классифицировать различными методами. Одним из широко используемых методов классификации является машинное обучение. Этот метод получил широкое распространение благодаря возможности постоянно приобретать новые знания или преобразовать структуру знаний. В процессе создания сетевого трафика, модели классификации данных, используемые для обучения, являются основой для создания классификаторов.
Логически процедуру машинного обучения можно разделить на:
- процесс создания;
- модель классификации ;
- процесс классификации.
Методы машинного обучения делятся на: методика обучения с учителем и обучение без учителя [1, 2]. Для обучения с учителем необходимо сначала создать структуру знаний, которая впоследствии будет использоваться для классификации новых шаблонов.
Таким образом, обучение сводится к подаче на вход машины набора типовых примеров, которые определенным классам известны заранее.
В результате такого учебного процесса с учителем строится модель для классификации на основе анализа и обобщения представленных образцов, т.е. создается модель для ввода и вывода.
Основным недостатком обучения с учителем является невозможность обнаружения новых приложений из-за отсутствия обучающего набора в базе знаний. Если есть необходимость определить новые приложения в классификации сетевого трафика, то желательно использовать метод обучения без учителя. Когда классификация сетевого трафика, не требуют первоначальной ручной разметки ввода данных, они основаны только на сходстве между классифицированными и статистическими объектами. В качестве входных данных используются характеристики сетевого потока данных. Этот метод позволит сгруппировать новые идентифицированные приложения в кластере.
Опишем процесс кластеризации обучающей выборки потоков данных , количество кластеров, в которые необходимо поместить потоки. В результате необходимо определить , где кластер, а поток должен быть назначен только одному , и .
Целью анализа является оптимальное разделение сетевого потока на кластеров с определенным сходством данных. Для определения оптимальности анализа, среднеквадратическую ошибку следует свести к минимуму, разделением потоков данных.
Существуют различные метрики сходства. Метрика может быть выбрана исходя из пространственного расположения объекта или другие характеристики, неявно характеризующие кластеры. Потоки и находятся в – расстоянии, которое определяется применением определенной метрики в пространстве характеристик.
Для определения расстояния, разделяющего такие потоки и , целесообразно использовать евклидову метрику:
(1)
На основании (1) можно увидеть, что с увеличением евклидова расстояния, сходство между двумя выбранными векторами потока уменьшается.
Среди множества алгоритмов кластеризации удобно использовать быстрый и простой алгоритм k-средних. Этот алгоритм отлично подходит для кластеризации трафика, передаваемого по локальной сети. Основные этапы кластеризации по алгоритму - средних следующие:
1. Из обучающей выборки ᵡi выбирается случайный центр кластера, где i=1,2,…,k..
2. Находим сетевой поток данных с похожими свойствами и добавляем в кластер.
3. На основе вновь добавленных сетевых потоков центры кластеров пересчитываются, после чего на основе новых центров потоки перераспределяются.
4. Рассчитываются критерии остановки алгоритма; если критерии не соблюдены, происходит возврат к шагу 2.
Критерием остановки алгоритма является минимальное изменение среднеквадратичной ошибки разбиения (2):
(2)
Основным недостатком алгоритма – средних является чувствительность к начальным настронам. Например, если неправильно выбрать начальный центр кластера, то вместо глобального критерия будет найден локальный критерий. В результате алгоритм -средних должен повторяться много раз, чтобы получить разумное разделение потоков. Это накладывает свой отпечаток на скорость работы алгоритма.
Наиболее распространены методы машинного обучения с применением нейронных сетей. Нейронные сети позволяют решать задачи в области обработки и распознавания различных изображений более эффективно, чем классические подходы [3]. Например, одним из первых подходов к обнаружению и классификации проблем компьютерных сетей является сигнатурный анализ. Его основой является нахождение совпадений найденной последовательности с базовой выборкой путем побитового сравнения. Таким образом, вы можете найти сигнатуру, указывающую на наличие вредоносного кода в обрабатываемом трафике.
Для более эффективного использования нейронные сети в задачах анализа трафика компьютерных сетей, достаточно качественно обучить нейронную сеть, т.е. получить возможность правильно идентифицировать все проблемные события, возникающие при классификации сетевого трафика.
Для решения проблемы можно использовать, например, нейронную сеть Хемминга. Ее можно использовать как решение проблемы классификации двоичных векторов. В основу работы сети входят процедуры, направленные на поиск эталонного изображения среди всех представленных входных векторов.
Нейронная сеть Хемминга используется для определения принадлежности объекта к определенному классу, который определяется вектором X. Этот вектор имеет биполярные особенности, которые могут принимать значения 1 и -1, и имеет размерность . Предполагается, что существует M классов, каждый из которых характеризуется своим представителем - объектом [1].
Данные основаны на изображениях опорных векторов и векторов признаков, выбранных экспертами и соответствующих выбранным изображениям. Анализатор нейронных сетей Хемминга обрабатывает данные.
ИНС Хемминга состоит извходов, на которые передаются биполярные характеристики объекта. Далее происходит обработка полученных характеристик, после чего активируется один из K - выходов, указывающий на определенный класс, к которому принадлежит представленный на входе объект.
Анализ сетевого трафика позволяет определять статистические параметры работы компьютерной сети, а также позволяет получать информацию о пользователях в сети. Метод машинного обучения используется как метод создания качественной системы, позволяющей определять состояние локальной сети; а в качестве модели самообучения используется нейросетевой анализатор трафика на основе оптимизированной нейронной сети Хемминга [3].
Список литературы:
- Мерков, А.Б. Распознавание образов. Введение в методы статистического обучения / А. Б. Мерков, Едиториал УРСС, 2011. - 256 стр.
- Воронин И.В., Газин А.И., Зияутдинов В.С., Золотарева Т.А., Селищев О.В., Скуднев Д.М./ Алгоритмическое обеспечение интеллектуальной системы поддержки принятия решений для идентификации сетевых проблем в локальной вычислительной сети / В сборнике: Научный форум: технические и физико-математические науки. Cборник статей по материалам XXVII международной научно-практической конференции. 2019. С. 9-16.
- Хайкин, С. Нейронные сети: полный курс [Текст] / С. Хайкин. Вильямс, 2006. - 1104 стр.
дипломов
Оставить комментарий