Anomali tespiti - Anomaly detection

İçinde veri analizi, anomali tespiti (Ayrıca aykırı değer tespiti)[1] verilerin çoğunluğundan önemli ölçüde farklılık göstererek şüphe uyandıran nadir unsurların, olayların veya gözlemlerin belirlenmesidir.[1] Tipik olarak anormal öğeler, aşağıdakiler gibi bir tür soruna dönüşür: banka dolandırıcılığı, yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar. Anomalilere ayrıca aykırı değerler yenilikler, gürültü, sapmalar ve istisnalar.[2]

Özellikle, kötüye kullanım ve ağa izinsiz giriş tespiti bağlamında, ilginç nesneler genellikle nadir nesneler, ancak beklenmedik patlamalar faaliyette. Bu model, nadir bir nesne olarak aykırı değerin genel istatistiksel tanımına uymaz ve uygun bir şekilde toplanmadıkça, birçok aykırı değer tespit yöntemi (özellikle denetimsiz yöntemler) bu tür verilerde başarısız olur. Bunun yerine, bir küme analizi algoritması bu modellerin oluşturduğu mikro kümeleri tespit edebilir.[3]

Üç geniş anormallik algılama tekniği kategorisi mevcuttur.[4] Denetimsiz anormallik tespiti Teknikler, veri kümesindeki örneklerin çoğunun normal olduğu varsayımı altında, veri kümesinin geri kalanına en az uyan örnekleri arayarak etiketlenmemiş bir test veri kümesindeki anormallikleri tespit eder. Denetimli anormallik algılama teknikler, "normal" ve "anormal" olarak etiketlenmiş bir veri kümesi gerektirir ve bir sınıflandırıcı eğitimini içerir (diğer birçok istatistiksel sınıflandırma sorunlar, aykırı değer tespitinin doğal dengesiz doğasıdır). Yarı denetimli anormallik algılama teknikler, belirli bir davranıştan normal davranışı temsil eden bir model oluşturur. normal eğitim veri seti ve ardından öğrenilen model tarafından bir test örneğinin üretilme olasılığını test edin.

Başvurular

Anormallik tespiti, aşağıdakiler gibi çeşitli alanlarda uygulanabilir: izinsiz giriş tespiti, dolandırıcılık tespiti, hata algılama, sistem sağlığı izleme, sensör ağlarında olay algılama ve ekosistem bozukluklarını algılama. Veri kümesinden anormal verileri kaldırmak için genellikle ön işlemede kullanılır. İçinde denetimli öğrenme, anormal verilerin veri kümesinden çıkarılması genellikle doğrulukta istatistiksel olarak önemli bir artışla sonuçlanır.[5][6]

Popüler teknikler

Literatürde çeşitli anormallik tespit teknikleri önerilmiştir.[7] Popüler tekniklerden bazıları şunlardır:

Farklı yöntemlerin performansı büyük ölçüde veri kümesine ve parametrelere bağlıdır ve yöntemlerin birçok veri kümesi ve parametre ile karşılaştırıldığında diğerine göre çok az sistematik avantajı vardır.[31][32]

Veri güvenliğine uygulama

Anormallik tespiti için önerildi Saldırı Tespit Sistemleri (IDS) tarafından Dorothy Denning 1986'da.[33] IDS için anormallik tespiti normalde eşikler ve istatistiklerle gerçekleştirilir, ancak aynı zamanda yazılımsal bilgi işlem ve tümevarımlı öğrenme.[34] 1999 tarafından önerilen istatistik türleri arasında kullanıcı profilleri, iş istasyonları, ağlar, uzak ana bilgisayarlar, kullanıcı grupları ve frekanslar, araçlar, varyanslar, kovaryanslar ve standart sapmalara dayalı programlar yer alıyordu.[35] Anormallik tespitinin karşılığı izinsiz giriş tespiti dır-dir yanlış kullanım tespiti.

Yazılım

  • ELKI çeşitli anormallik algılama algoritmalarının yanı sıra bunlar için dizin hızlandırma içeren açık kaynaklı bir Java veri madenciliği araç setidir.

Veri kümeleri

Ayrıca bakınız

Referanslar

  1. ^ a b Zimek, Arthur; Schubert, Erich (2017), "Aykırı Değer Tespiti", Veritabanı Sistemleri Ansiklopedisi, Springer New York, s. 1-5, doi:10.1007/978-1-4899-7993-3_80719-1, ISBN  9781489979933
  2. ^ Hodge, V. J .; Austin, J. (2004). "Aykırı Değer Tespit Metodolojileri Üzerine Bir İnceleme" (PDF). Yapay Zeka İncelemesi. 22 (2): 85–126. CiteSeerX  10.1.1.318.4023. doi:10.1007 / s10462-004-4304-y. S2CID  3330313.
  3. ^ Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). "Ağ izinsiz giriş tespiti için veri madenciliği" (PDF). Proceedings Yeni Nesil Veri Madenciliği Üzerine NSF Çalıştayı.
  4. ^ Chandola, V .; Banerjee, A .; Kumar, V. (2009). "Anormallik tespiti: Bir anket". ACM Hesaplama Anketleri. 41 (3): 1–58. doi:10.1145/1541880.1541882. S2CID  207172599.
  5. ^ Tomek, Ivan (1976). "Düzenlenmiş En Yakın Komşu Kuralıyla Bir Deney". Sistemler, İnsan ve Sibernetik Üzerine IEEE İşlemleri. 6 (6): 448–452. doi:10.1109 / TSMC.1976.4309523.
  6. ^ Smith, M.R .; Martinez, T. (2011). "Yanlış sınıflandırılması gereken örnekleri belirleyip kaldırarak sınıflandırma doğruluğunu iyileştirme" (PDF). 2011 Uluslararası Sinir Ağları Ortak Konferansı. s. 2690. CiteSeerX  10.1.1.221.1371. doi:10.1109 / IJCNN.2011.6033571. ISBN  978-1-4244-9635-8. S2CID  5809822.
  7. ^ Zimek, Arthur; Filzmoser, Peter (2018). "Orada ve tekrar: İstatistiksel akıl yürütme ve veri madenciliği algoritmaları arasında aykırı değer algılama" (PDF). Wiley Disiplinlerarası İncelemeler: Veri Madenciliği ve Bilgi Keşfi. 8 (6): e1280. doi:10.1002 / widm.1280. ISSN  1942-4787.
  8. ^ Knorr, E. M .; Ng, R. T .; Tucakov, V. (2000). "Uzaklık tabanlı aykırı değerler: Algoritmalar ve uygulamalar". The VLDB Journal The International Journal on Very Large Data Basees. 8 (3–4): 237–253. CiteSeerX  10.1.1.43.1842. doi:10.1007 / s007780050006. S2CID  11707259.
  9. ^ Ramaswamy, S .; Rastogi, R .; Shim, K. (2000). Büyük veri kümelerinden aykırı değerlerin madenciliği için verimli algoritmalar. 2000 ACM SIGMOD Uluslararası Veri Yönetimi Konferansı Bildirileri - SIGMOD '00. s. 427. doi:10.1145/342009.335437. ISBN  1-58113-217-4.
  10. ^ Angiulli, F .; Pizzuti, C. (2002). Yüksek Boyutlu Uzaylarda Hızlı Aykırı Değer Algılama. Veri Madenciliği ve Bilgi Keşfi İlkeleri. Bilgisayar Bilimlerinde Ders Notları. 2431. s. 15. doi:10.1007/3-540-45681-3_2. ISBN  978-3-540-44037-6.
  11. ^ Breunig, M. M .; Kriegel, H.-P.; Ng, R. T .; Sander, J. (2000). LOF: Yoğunluğa Dayalı Yerel Aykırı Değerleri Tanımlama (PDF). 2000 ACM SIGMOD Uluslararası Veri Yönetimi Konferansı Bildirileri. SIGMOD. s. 93–104. doi:10.1145/335191.335388. ISBN  1-58113-217-4.
  12. ^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (Aralık 2008). İzolasyon Ormanı. 2008 Sekizinci IEEE Uluslararası Veri Madenciliği Konferansı. sayfa 413–422. doi:10.1109 / ICDM.2008.17. ISBN  9780769535029. S2CID  6505449.
  13. ^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (Mart 2012). "İzolasyona Dayalı Anomali Tespiti". Verilerden Bilgi Keşfi Üzerine ACM İşlemleri. 6 (1): 1–39. doi:10.1145/2133360.2133363. S2CID  207193045.
  14. ^ Schubert, E .; Zimek, A.; Kriegel, H. -P. (2012). "Yerel aykırı değer tespiti yeniden gözden geçirildi: Uzamsal, video ve ağ aykırı değer tespiti için uygulamalarla yerellik üzerine genelleştirilmiş bir görünüm". Veri Madenciliği ve Bilgi Keşfi. 28: 190–237. doi:10.1007 / s10618-012-0300-z. S2CID  19036098.
  15. ^ Kriegel, H. P.; Kröger, P .; Schubert, E .; Zimek, A. (2009). Yüksek Boyutlu Verilerin Eksen-Paralel Alt Uzaylarında Aykırı Değer Algılama. Bilgi Keşfi ve Veri Madenciliğindeki Gelişmeler. Bilgisayar Bilimlerinde Ders Notları. 5476. s. 831. doi:10.1007/978-3-642-01307-2_86. ISBN  978-3-642-01306-5.
  16. ^ Kriegel, H. P.; Kroger, P .; Schubert, E .; Zimek, A. (2012). Keyfi Yönlendirilmiş Alt Uzaylarda Aykırı Değer Algılama. 2012 IEEE 12. Uluslararası Veri Madenciliği Konferansı. s. 379. doi:10.1109 / ICDM.2012.21. ISBN  978-1-4673-4649-8.
  17. ^ Fanaee-T, H .; Gama, J. (2016). "Tensör tabanlı anormallik tespiti: Disiplinler arası bir araştırma". Bilgiye Dayalı Sistemler. 98: 130–147. doi:10.1016 / j.knosys.2016.01.027.
  18. ^ Zimek, A.; Schubert, E .; Kriegel, H.-P. (2012). "Yüksek boyutlu sayısal verilerde denetimsiz aykırı değer tespiti üzerine bir anket". İstatistiksel Analiz ve Veri Madenciliği. 5 (5): 363–387. doi:10.1002 / sam.11161.
  19. ^ Schölkopf, B .; Platt, J. C .; Shawe-Taylor, J .; Smola, A. J .; Williamson, R.C. (2001). "Yüksek Boyutlu Dağıtım Desteğini Tahmin Etmek". Sinirsel Hesaplama. 13 (7): 1443–71. CiteSeerX  10.1.1.4.4106. doi:10.1162/089976601750264965. PMID  11440593. S2CID  2110475.
  20. ^ a b c Hawkins, Simon; O, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Çoğaltıcı Sinir Ağlarını Kullanarak Aykırı Değer Tespiti". Veri Ambarlama ve Bilgi Keşfi. Bilgisayar Bilimlerinde Ders Notları. 2454. s. 170–180. CiteSeerX  10.1.1.12.3366. doi:10.1007/3-540-46145-0_17. ISBN  978-3-540-44123-6.
  21. ^ J. An ve S. Cho, "Yeniden yapılandırma olasılığını kullanarak varyasyonel otomatik kodlayıcı tabanlı anormallik algılama", 2015.
  22. ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22–24 Nisan 2015). Zaman Serilerinde Anormallik Algılama için Uzun Kısa Süreli Bellek Ağları. Avrupa Yapay Sinir Ağları, Hesaplamalı Zeka ve Makine Öğrenimi Sempozyumu. Bruges (Belçika).
  23. ^ He, Z .; Xu, X .; Deng, S. (2003). "Küme tabanlı yerel aykırı değerleri keşfetmek". Desen Tanıma Mektupları. 24 (9–10): 1641–1650. CiteSeerX  10.1.1.20.4242. doi:10.1016 / S0167-8655 (03) 00003-5.
  24. ^ Campello, R. J. G. B .; Moulavi, D .; Zimek, A.; Sander, J. (2015). "Veri Kümeleme, Görselleştirme ve Aykırı Değer Tespiti için Hiyerarşik Yoğunluk Tahminleri". Verilerden Bilgi Keşfi Üzerine ACM İşlemleri. 10 (1): 5:1–51. doi:10.1145/2733381. S2CID  2887636.
  25. ^ Lazarevic, A .; Kumar, V. (2005). Aykırı değer tespiti için torbalama özelliği. Proc. 11. ACM SIGKDD Uluslararası Veri Madenciliğinde Bilgi Keşfi Konferansı. s. 157–166. CiteSeerX  10.1.1.399.425. doi:10.1145/1081870.1081891. ISBN  978-1-59593-135-1. S2CID  2054204.
  26. ^ Nguyen, H. V .; Ang, H. H .; Gopalkrishnan, V. (2010). Rastgele Alt Uzaylarda Heterojen Dedektörler Topluluğu ile Madencilik Aykırı Değerleri. Gelişmiş Uygulamalar için Veritabanı Sistemleri. Bilgisayar Bilimlerinde Ders Notları. 5981. s. 368. doi:10.1007/978-3-642-12026-8_29. ISBN  978-3-642-12025-1.
  27. ^ Kriegel, H. P.; Kröger, P .; Schubert, E .; Zimek, A. (2011). Aykırı Değer Puanlarının Yorumlanması ve Birleştirilmesi. 2011 SIAM Uluslararası Veri Madenciliği Konferansı Bildirileri. s. 13–24. CiteSeerX  10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN  978-0-89871-992-5.
  28. ^ Schubert, E .; Wojdanowski, R .; Zimek, A.; Kriegel, H. P. (2012). Aykırı Değer Sıralaması ve Aykırı Değer Puanlarının Değerlendirilmesi Üzerine. 2012 SIAM Uluslararası Veri Madenciliği Konferansı Bildirileri. s. 1047–1058. doi:10.1137/1.9781611972825.90. ISBN  978-1-61197-232-0.
  29. ^ Zimek, A.; Campello, R. J. G. B .; Sander, J.R. (2014). "Denetimsiz aykırı değer tespiti için topluluklar". ACM SIGKDD Explorations Bülteni. 15: 11–22. doi:10.1145/2594473.2594476. S2CID  8065347.
  30. ^ Zimek, A.; Campello, R. J. G. B .; Sander, J.R. (2014). Aykırı değer tespit toplulukları için veri kargaşası. 26. Uluslararası Bilimsel ve İstatistiksel Veritabanı Yönetimi Konferansı Bildirileri - SSDBM '14. s. 1. doi:10.1145/2618243.2618257. ISBN  978-1-4503-2722-0.
  31. ^ Campos, Guilherme O .; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B .; Micenková, Barbora; Schubert, Erich; Onay, Ira; Houle, Michael E. (2016). "Denetimsiz aykırı değer tespitinin değerlendirilmesi hakkında: önlemler, veri kümeleri ve ampirik bir çalışma". Veri Madenciliği ve Bilgi Keşfi. 30 (4): 891. doi:10.1007 / s10618-015-0444-8. ISSN  1384-5810. S2CID  1952214.
  32. ^ Anormallik algılama karşılaştırma veri havuzu of Ludwig-Maximilians-Universität München; Ayna -de São Paulo Üniversitesi.
  33. ^ Denning, D. E. (1987). "Saldırı Tespit Modeli" (PDF). Yazılım Mühendisliğinde IEEE İşlemleri. SE-13 (2): 222–232. CiteSeerX  10.1.1.102.5127. doi:10.1109 / TSE.1987.232894. S2CID  10028835.
  34. ^ Teng, H. S .; Chen, K .; Lu, S. C. (1990). Endüktif olarak oluşturulan sıralı kalıpları kullanarak uyarlanabilir gerçek zamanlı anormallik algılama (PDF). IEEE Bilgisayar Topluluğu Güvenlik ve Gizlilik Araştırmaları Sempozyumu Bildirileri. s. 278–284. doi:10.1109 / RISP.1990.63857. ISBN  978-0-8186-2060-7. S2CID  35632142.
  35. ^ Jones, Anita K .; Sielken, Robert S. (1999). "Bilgisayar Sistemi Saldırı Tespiti: Bir Araştırma". Teknik Rapor, Bilgisayar Bilimleri Bölümü, Virginia Üniversitesi, Charlottesville, VA. CiteSeerX  10.1.1.24.7802.