Статья опубликована в рамках: XIII Международной научно-практической конференции «Научное сообщество студентов: МЕЖДИСЦИПЛИНАРНЫЕ ИССЛЕДОВАНИЯ» (Россия, г. Новосибирск, 23 января 2017 г.)
Наука: Информационные технологии
Скачать книгу(-и): Сборник статей конференции
дипломов
ФОРМИРОВАНИЕ ПРИЗНАКОВ ДЛЯ ПОСТРОЕНИЯ МЕЖСЕТЕВОГО ЭКРАНА УРОВНЯ ПРИЛОЖЕНИЯ
Межсетевой экран уровня приложения (Web Application Firewall далее WAF) – это система предотвращения вторжений, анализирующая данные протокола HTTP. Одним из способов построения такой системы является выявление аномалий на основе классификатора. Это является большим плюсом, так как количество модификаций похожих атак растет с каждым днем и сигнатурный метод будет действовать всегда с запаздыванием. Для осуществления классификации http пакетов на вредоносные и легальные нужно решить две основные задачи: формирование признаков и классификация. Рассмотрим первую задачу, которая включает в себя три этапа.
Предварительная обработка.
Во-первых, нужно сформировать подходящие данные, для выделения признаков, а также для тестирования уже обученной системы. Обучающая выборка должна обеспечивать сходство с реальным трафиком, также иметь довольно большую энтропию значений, чтобы обучение не привязывалось к конкретному формату данных. Также требуется эмуляция разнообразных действий злоумышленника.
HTTP трафик представляет собой пакеты, состоящие из заголовков и тела пакета. Представление данных может отличаться в разных пакетах по различным причинам, будь то кодировки, форматы изображений. Требуется привести весь объем данных к нормализованному виду, выполнив их декодирование, чистку или другие действия. Задача предварительной обработки может включать и другие действия, в зависимости от области применения системы и характеристик данных, с которыми предстоит работать.
Извлечение признаков.
Задача извлечения признаков представляет собой детерминированное представление данных в признаковом пространстве. От выбора признаков сильно зависит результат классификации, а также выбор алгоритма классификации. Существуют различные подходы решения данной задачи:
- Использование опыта экспертов для извлечения признаков для определения различий между нормальным трафиком и атаками. Этот подход позволяет получить высокие показатели верной классификации. Однако такой ручной процесс медленно адаптируется к изменяющимся параметрам сети и защищаемого приложения.
- Автоматические методы устраняют недостатки предыдущего метода. К сожалению, часто результаты классификации после такого извлечения признаков хуже, чем в ручном методе. Одним из методов данного подхода являются n-граммы.
- Третий подход является комбинацией двух предыдущих методов. Однако эксперименты в данной области показывают, что изолированные группы признаков, найденными разными способами, будут давать хороший результат, так как «природа» этих групп признаков будет различна.
Приведем примеры признаков, на основе экспертной оценки: длины основных HTTP заголовков, длины URI запроса, метод запроса, количество аргументов запроса и их длина, количество ключевых символов в аргументах и URI, а также минимальное и максимальное значение байтов пакета. Также есть подход, основанный на выделении четырех основных типов символов:
- буквы
- цифры
- управляющие символы, которые имеют специальное назначение в различных языках программирования. В случае WAF это могут быть, например, Javascript или SQL.
- Остальные символы, не вошедшие в три предыдущих категории.
Может быть подсчитана энтропия символов, входящих в HTTP пакет и в дальнейшим приниматься решение о классификации в результате пороговой обработки.
N-граммы. Рассмотрим также и метод реализации автоматического выделения признаков. N-граммы представляют собой подстроки длины n в обрабатываемой строке. То есть для строки abcd 2-граммами будут: ab, bc, cd. Так как для веб-трафика не характерны большие значения заголовков или параметров (за исключением передачи мультимедиа данных, но для этого используются свои подходы), чаще всего использую 1-граммы. Итого в кодировке utf-8, имеющей 8-битовое представление символов, количество всевозможных 1-грамм будет равно 256. Модель N-грамм является «независимой от языка», то есть для формирования признаков нам не нужны знания о предметной области классифицируемых данных, поэтому это легко автоматизировать.
Задача отбора признаков - найти минимальный набор признаков, увеличивающих точность алгоритма классификации. Данная методология следует принцип экономии (бритва Оккама). Данные принципы требуют от модели и процедур содержать в себе только то, что действительно необходимо для моделирования. Уменьшая количество признаков, не влияющих на результат классификации, можно добиться уменьшения нагрузки на аппаратные системы, используемых в процедуре распознавания. Особенно нельзя обойтись без процедуры отбора признаков, когда их количество в данной модели очень велико. Например, при использовании метода n-грамм, количество числа возможно n грамм увеличивается экспоненциально с числом роста n. Такой рост обычно ведет к так называемому проклятью размерности и к вычислительной сложности вычислений.Проклятье размерности было введено Ричардом Беллманом и обозначает факт, что не все алгоритмы, хорошо работающие на малом объеме данных, также эффективно работают больших объемах. В машинном обучении процедура обобщения может стать экспоненциально сложным по мере роста размерности, которая определяется как раз в первую очередь количество признаков. На шаге обучение, этот нюанс будет тоже заметен.
Результат отбора признаков обычно характеризуется:
- Уменьшением общего объема данных: уменьшая требования по объему памяти для системы
- Улучшением производительности: увеличение скорости работы алгоритма
Отбор признаков применяется непосредственно при детектировании вторжений. В данном случае система детектирования вторжений достигает лучших результатов и при этом используя меньшую вычислительную мощность. В машинном обучении, метод отбора признаков обычно разделяют на три вида: обертки, фильтры и встроенные модели. Они отличаются, по способу взаимодействия с классификатором.
- Оберточный подход – нацелен на улучшение результатов конкретного классификатора. Данный метод предполагает использование части вычислительной мощности алгоритма обучения для оценивания качества признаков и затем их отбора.
- Модель фильтрации – рассчитывает статистические характеристики выборки, не взаимодействуя с алгоритмом обучения. Из-за большой высокой вычислительной эффективности, алгоритм обычно используется на высоко-размерных наборах данных. Основная задача при отборе признаков для систем детектирования вторжений это выбор подходящего алгоритма, который точно определит значимость признака в представленном наборе данных.
- Встроенная модель – обучение и отбор признаков в данной модели представлено как одно целое. Примером такой модели может служить дерево принятия решений, где отбор признаков происходит для каждого промежуточного узла.
Подводя итог можно сказать, что задача отображения данных на признаковое пространство является отнюдь не тривиальной и напрямую влияет на качество классификатора. Также в результате изучения подходов к построению признаков применительно именно к HTTP трафику можно сказать, что метод экспертного выявления признаков всё же уступает по гибкости автоматическим методам, хотя может использоваться в комбинации с ним, если будет распространен в основном на заголовки HTTP пакета.
Список литературы:
- Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. [Электронный ресурс]. – Режим доступа: http://www.machinelearning.ru (дата обращения: 05.01.17)
дипломов
Оставить комментарий