Выявление аномалий

Выявление аномалий (обнаружение выбросов[1]) — опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые значительно отличаются от большинства данных и не соответствуют четко определенному представлению о нормальном состоянии[2]. Такие примеры могут вызвать подозрения в том, что они были сгенерированы другим механизмом[3], или могут показаться несовместимыми с остальной частью этого набора данных[4].

Обнаружение аномалий находит применение во многих областях, включая кибербезопасность, медицину, автоматический анализ видеоинформации, статистику, неврологию, охрану правопорядка и финансовое мошенничество, и это лишь некоторые из них. Первоначально аномалии искали для полного исключения из набора данных, чтобы облегчить статистический анализ, например, для вычисления среднего значения или стандартного отклонения. Они также удалялись для улучшения прогнозирования с помощью таких моделей, как линейная регрессия, а совсем недавно их удаление повысило производительность алгоритмов машинного обучения. Однако во многих задачах аномалии сами по себе представляют интерес и являются наиболее интересными наблюдениями во всем наборе данных, которые необходимо идентифицировать и отделить от шума или несущественных выбросов.

Общее обсуждение

Выявление аномалий в контексте обнаружения злоумышленного использования и вторжения в сеть, интересующие нас объекты часто не являются редкими, но проявляют неожиданную вспышку активности. Это не соответствует обычному статистическому определению выбросов как редких объектов и многие методы обнаружения выбросов (в частности, методы без учителя) терпят неудачу на таких данных, пока данные не будут сгруппированы подходящим образом. Зато алгоритмы кластерного анализа способны заметить микрокластеры, образованные таким поведением[5].

Существует широкий набор категорий техник выявления аномалий[6]. Техника выявления аномалий без учителя обнаруживает аномалии в непомеченных наборах тестовых данных при предположении, что большая часть набора данных нормальна, путём поиска представителей, которые меньше подходят к остальному набору данных. Техника выявления аномалий с учителем требует предоставления данных, помеченных как «нормальные» и «ненормальные», и использует обучение классификатора (ключевое отличие от многих других задач классификации заключается в неотъемлемой несбалансированной природе выявления выбросов). Техника выявления аномалий с частичным учителем строит модель, представляющую нормальное поведение из заданного набора нормального тренировочного набора, а затем проверяет правдоподобие полученной модели.

Приложения

Выявление аномалий применимо к широкому кругу областей, таких как система обнаружения вторжений, обнаружение мошенничества, обнаружение неисправностей, мониторинга здоровья, обнаружение событий в сетях датчиков и обнаружение нарушений в экологической сфере. Часто выявление аномалий используется для предварительной обработки данных с целью удаления аномалий. При обучении с учителем удаление аномальных данных из набора часто приводит к существенному статистическому увеличению точности[7][8].

Популярные техники

В литературе было предложено несколько техник выявления аномалий[9]. Вот некоторые популярные техники:

Эффективность различных методов зависит от данных и параметров и имеют слабые систематические преимущества один перед другим, если сравнивать по многим наборам данных и параметров[29][30].

Приложение к защите данных

Выявление аномалий предложила для систем обнаружения вторжений Дороти Деннинг в 1986 году[31]. Выявление аномалий для систем обнаружения вторжений обычно выполняется с заданием порога и статистики, но может быть сделано с помощью мягких вычислений и индуктивного обучения[32]. Типы статистики, предлагавшиеся в 1999 году, включали профили пользователей, рабочих станций, сетей, удалённых узлов, групп пользователей и программ, основанных на частотах, средних и дисперсиях[33]. Эквивалентом выявления аномалий в обнаружении вторжений является обнаружение злонамеренного использования[англ.].

Программное обеспечение

  • ELKI[англ.] является комплектом инструментов с открытым кодом на языке Java для анализа данных, который содержит некоторые алгоритмы выявления аномалий, а также ускорители на основе индексов для них.

Примечания

  1. Zimek, Schubert, 2017, с. 1–5.
  2. Varun Chandola, Arindam Banerjee, Vipin Kumar. Anomaly detection: A survey (англ.) // ACM Computing Surveys. — 2009-07. — Vol. 41, iss. 3. — P. 1–58. — ISSN 0360-0300. — doi:10.1145/1541880.1541882.
  3. Douglas M. Hawkins. Identification of outliers. — London ; New York: Chapman and Hall, 1980. — 188 с. — (Monographs on applied probability and statistics). — ISBN 978-0-412-21900-9.
  4. Vic Barnett, Toby Lewis. Outliers in statistical data. — Repr. — Chichester: Wiley, 1980. — 365 с. — (Wiley series in probability and mathematical statistics Applied probability and statistics). — ISBN 978-0-471-99599-9.
  5. Dokas, Ertoz, Kumar и др., 2002.
  6. Chandola, Banerjee, Kumar, 2009, с. 1–58.
  7. Tomek, 1976, с. 448–452.
  8. Smith, Martinez, 2011, с. 2690.
  9. Zimek, Filzmoser, 2018, с. e1280.
  10. Knorr, Ng, Tucakov, 2000, с. 237–253.
  11. Ramaswamy, Rastogi, Shim, 2000, с. 427.
  12. Angiulli, Pizzuti, 2002, с. 15.
  13. Breunig, Kriegel, Ng, Sander, 2000, с. 93–104.
  14. Liu, Ting, Zhou, 2008, с. 413–422.
  15. Schubert, Zimek, Kriegel, 2012, с. 190–237.
  16. Kriegel, Kröger, Schubert, Zimek, 2009, с. 831.
  17. Kriegel, Kroger, Schubert, Zimek, 2012, с. 379.
  18. Zimek, Schubert, Kriegel, 2012, с. 363–387.
  19. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001, с. 1443–71.
  20. 1 2 3 Hawkins, He, Williams, Baxter, 2002, с. 170–180.
  21. He, Xu, Deng, 2003, с. 1641–1650.
  22. Campello, Moulavi, Zimek, Sander, 2015, с. 5:1–51.
  23. Lazarevic, Kumar, 2005, с. 157–166.
  24. Nguyen, Ang, Gopalkrishnan, 2010, с. 368.
  25. Kriegel, Kröger, Schubert, Zimek, 2011, с. 13–24.
  26. Schubert, Wojdanowski, Zimek, Kriegel, 2012, с. 1047–1058.
  27. Zimek, Campello, Sander (1), 2014, с. 11–22.
  28. Zimek, Campello, Sander (2), 2014, с. 1.
  29. Campos, Zimek, Sander и др., 2016, с. 891.
  30. См. наборы данных ниже
  31. Denning, 1987, с. 222–232.
  32. Teng, Chen, Lu, 1990, с. 278–284.
  33. Jones, Sielken, 1999.

Литература

Ссылки

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya