Статья опубликована в рамках: VII Международной научно-практической конференции «Технические науки - от теории к практике» (Россия, г. Новосибирск, 21 февраля 2012 г.)
Наука: Технические науки
Секция: Информатика, вычислительная техника и управление
Скачать книгу(-и): Сборник статей конференции, Сборник статей конференции часть II
- Условия публикаций
- Все статьи конференции
дипломов
ТИПЫ АНОМАЛИЙ В ВИДЕОИЗОБРАЖЕНИЯХ
Гриценко Артем Владимирович
аспирант, Ставропольский государственный университет, г. Ставрополь
E-mail: gart.stav@gmail.com
Введение. Под обнаружением аномалий понимается проблема нахождения данных, которые не удовлетворяет ожидаемому поведению. Эти несоответствующие образцы данных принято называть аномалиями, несоответствиями или отклонениями [1, с. 12]. Таким образом, аномалии — это образы данных, которые не подходят под точно определенное представление нормального поведения.
Рисунок 1. Простой пример аномалий в двумерном наборе данных
Рисунок 1 иллюстрирует аномалии в простом двумерном наборе данных. Данные имеют две нормальных области и , так как большая часть наблюдаемой выборки находится в этих двух регионах. Точки, которые достаточно сильно удалены от этих двух областей, например, , и , являются аномалиями. Важным аспектом метода определения аномалий в видеоизображениях является природа рассматриваемой аномалии. Все аномалии могут быть разделены на три типа: точечные, коллективные и контекстуальные аномалии.
Точечные аномалии. Если отдельный экземпляр данных может рассматриваться как аномальный по отношению к остальным данным, то такой экземпляр определяется как точечная аномалия. Это простейший тип аномалии и предмет исследования большинства работ по обнаружению аномалий.
Например, на рисунке 1 точки и , так же как и область лежат вне границ нормальных областей и поэтому являются точечными аномалиями, так как отличаются от нормальных данных. Примером из жизни может служить обнаружение мошенничества с кредитными картами. Пусть набор данных соответствует определенной транзакции с кредитной картой. Для простоты предположим, что данные однозначно определяются с помощью одной характеристики — потраченной суммы. Транзакция, для которой потраченная сумма относительно велика по сравнению с нормальным диапазоном трат для этого человека, является точечной аномалией.
Контекстуальные аномалии. Если экземпляр данных является аномальным лишь в определенном контексте, тогда он определяется как контекстуальная аномалия (также называемая условной аномалией) [7, с. 631—645].
Понятие контекста восходит к структуре в наборе данных и должно быть определено как часть постановки проблемы обнаружения аномалий. Каждый экземпляр данных характеризуется при помощи следующих наборов свойств.
· Контекстуальные атрибуты. Контекстуальные атрибуты используются для определения контекста (или окружения) для этого экземпляра. Например, в пространственных наборах данных долгота и ширина местоположения — это контекстуальные атрибуты. Во временных рядах контекстуальным атрибутом является время, которое определяет положение экземпляра в целой последовательности.
· Поведенческие атрибуты. Поведенческие атрибуты определяют неконтекстуальные характеристики экземпляра данных. Например, в пространственном наборе данных, описывающим средние значения осадков во всем мире, количество осадков в каком-то конкретном месте — это поведенческий атрибут.
Аномальное поведение определяется посредством значений поведенческих атрибутов исходя из конкретного контекста. Экземпляр данных может быть контекстуальной аномалией в данном контексте, но точно такие же данные (если рассматривать поведенческие атрибуты) могут считаться нормальными в другом контексте. Это свойство является ключевым в разделении контекстуальных и поведенческих атрибутов в методе обнаружения контекстуальных аномалий.
Рисунок 2. Контекстуальная аномалия в температурном временном ряду. Надо заметить, что температура во время такая же, как и во время , но находится в ином контексте и поэтому не рассматривается как аномалия.
Контекстуальные аномалии были наиболее широко исследованы во временных рядах [8, с. 373—399] и пространственных данных [4]. Рисунок 2 показывает один из таких примеров для температурного временного ряда, который содержит помесячную температуру области в течение нескольких последних лет. Некоторое значение температуры может считаться нормальным зимой (во время ), но такая же температура летом (во время ) указывает на аномалию.
Похожий пример может быть приведен из области мошенничества с кредитными картами. Контекстуальным атрибутом в данном случае может быть время покупки. Предположим, что какой-то человек в среднем тратит $100 в неделю всегда, помимо новогодних праздников, когда траты составляют $1000. Новая покупка, стоимостью $1000 в середине июня будет расценена как контекстуальная аномалия из-за того, что она не удовлетворяет нормальному поведению человека в этот период времени (несмотря на то, что то же количество, потраченное на праздниках, считается нормальным).
Необходимость применения метода обнаружения контекстуальных аномалий исходит из важности контекстуальных аномалий в данной области. Другим ключевым фактором является доступность контекстуальных аномалий. В некоторых случаях определение контекста — прямолинейно и поэтому применение методов обнаружения контекстуальных аномалий имеет смысл. Иногда же, напротив, определение контекста не является простой задачей, что делает сложным применение подобных подходов.
Рисунок 3. Коллективная аномалия, связанная с преждевременной закупоркой артерии на электрокардиограмме человека
Коллективные аномалии. Если последовательность связанных экземпляров данных является аномальным по отношению к целому набору данных, то такая последовательность именуется коллективной аномалией. Отдельный экземпляр данных в такой последовательности может и не быть аномальным сам по себе, но появление таких экземпляров вместе является коллективной аномалией. Рисунок 3 иллюстрирует пример такой аномалии. На нем изображен результат электрокардиограммы человека [3, с. 215]. Выделенный регион является аномалией, потому что одно и то же низкое значение наблюдается в течение длительного времени. Надо заметить, что низкое значение само по себе не является аномалией.
В качестве еще одного примера представим последовательность событий, происходящих на компьютере:
. . . http-web, buffer-overflow, http-web, http-web, smtp-mail, ftp, http-web, ssh, smtp-mail, http-web, ssh, buffer-overflow, ftp, http-web, ftp, smtp-mail, http-web . .
Выделенная последовательность (ssh, buffer-overflow, ftp) относится к типичной последовательности событий при веб-атаке с помощью удаленного компьютера, за которой следует копирование данных с рассматриваемого компьютера на удаленный компьютер посредством протокола ftp. Причем, именно эта последовательность событий является аномалией, в то время как отдельные события этой последовательности — нормальные, если они происходят в разные промежутки времени.
Коллективные аномалии исследовались для последовательных данных [2, с. 110], графовых данных [5, с. 631—636] и пространственных данных [6, с. 371—376]. Необходимо заметить, что в то время как точечные аномалии могут наблюдаться в любом наборе данных, коллективные наблюдаются только в тех, где данные связаны между собой. С другой стороны, появление контекстуальных аномалий связано с доступностью контекстуальных атрибутов в данных. Точечная или коллективная аномалия может также являться контекстуальной, если анализируется с учетом контекста. Таким образом, задача обнаружения точечных или коллективных аномалий может быть преобразована в задачу обнаружения контекстуальных аномалий путем добавления контекстуальной информации.
Список литературы:
1. Chandola V., Banerjee A., Kumar V. Anomaly Detection: A Survey. // ACM Computing Surveys, Vol. 41(3), Article 15, 2009.
2. Forrest S., D’Haeseleer P., and Helman P. An immunological approach to change detection: Algorithms, analysis and implications. // In Proceedings of the 1996 IEEE Symposium on Security and Privacy, IEEE Computer Society, 1996.
3. Goldberger A. L., Amaral L. A. N., Glass L., Hausdorff J. M., Ivanov P. C., Mark R. G., Mietus J. E., Moody G. B., Peng C.-K., Stanley H. E. PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. // Circulation Electronic Pages, 2000.
4. Kou Y., Lu C.-T., Chen D. Spatial weighted outlier detection. // In Proceedings of SIAM Conference on Data Mining, 2006.
5. Noble C. C., Cook D. J. Graph-based anomaly detection. // In Proceedings of the 9th ACM SIGKDD international conference on Knowledge discovery and data mining. NY : ACM Press, 2003.
6. Shekhar S., Lu C.-T., Zhang P. Detecting graph-based spatial outliers: algorithms and applications (a summary of results). // In Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining. NY: ACM Press, 2001.
7. Song X., Wu, M., Jermaine C., Ranka S. Conditional anomaly detection. // IEEE Transactions on Knowledge and Data Engineering, Vol. 19, 2007.
8. Weigend A. S., Mangeas M., Srivastava A. N. Nonlinear gated experts for time-series — discovering regimes and avoiding overfitting. // 6th International Journal of Neural Systems, 1995.
дипломов
Оставить комментарий