K-anonimlik - K-anonymity

kanonimlik belirli kişilerin sahip olduğu bir mülktür anonim veriler. Kavramı k-anonimlik ilk olarak Latanya Sweeney ve Pierangela Samarati 1998'de yayınlanan bir makalede[1] Sorunu çözme girişimi olarak: "Kişiye özel alan yapılandırılmış veriler verildiğinde, verilerin pratikte yararlı kalırken, verilerin öznesi olan bireylerin yeniden tanımlanamayacağına dair bilimsel garantilerle bir veri yayınlayın."[2][3][4] Bir veri yayınının şu özelliklere sahip olduğu söyleniyor: k- Bültende yer alan her bir kişi için bilgiler en azından ayırt edilemiyorsa anonimlik özelliği bültende bilgileri de yer alan kişiler.

k-anonimlik, İngiliz bilgisayar bilimcisinin 2018 yılında medyada geniş yer bulmasını sağladı. Junade Ali mülkü yanında kullandı kriptografik karma aranan şifreyi açıklamadan bir şifrenin sızdırılıp sızdırılmadığını anonim olarak doğrulamak için bir iletişim protokolü oluşturmak.[5][6] Bu protokol, bir genel API olarak uygulandı Troy Avı 's Pwned oldum mu? hizmet ve dahil olmak üzere birden çok hizmet tarafından tüketilir şifre yöneticileri[7][8] ve tarayıcı uzantıları.[9][10] Bu yaklaşım daha sonra kopyalandı Google Şifre Kontrolü özelliği.[11][12][13]

Yöntemler k-anonimleştirme

Bağlamında k-anonimleştirme sorunları, bir veritabanı ile bir tablodur n satırlar ve m sütunlar. Tablonun her satırı, bir popülasyonun belirli bir üyesiyle ilgili bir kaydı temsil eder ve çeşitli satırlardaki girişlerin benzersiz olması gerekmez. Çeşitli sütunlardaki değerler, popülasyonun üyeleriyle ilişkili özniteliklerin değerleridir. Aşağıdaki tablo, hastanedeki bazı hayali hastanelerin hasta kayıtlarından oluşan anonim olmayan bir veritabanıdır. Kochi.

İsimYaşCinsiyetİkametgah durumuDinHastalık
Ramsha30KadınTamil NaduHinduKanser
Yadu24KadınKeralaHinduViral enfeksiyon
Salima28KadınTamil NaduMüslümanTB
Güneşli27ErkekKarnatakaParsiHastalık yok
Joan24KadınKeralaHıristiyanKalp ile ilgili
Bahuksana23ErkekKarnatakaBudistTB
Rambha19ErkekKeralaHinduKanser
Kişor29ErkekKarnatakaHinduKalp ile ilgili
Johnson17ErkekKeralaHıristiyanKalp ile ilgili
John19ErkekKeralaHıristiyanViral enfeksiyon

Bu verilerde 6 öznitelik ve 10 kayıt bulunmaktadır. Başarmak için iki yaygın yöntem vardır k-bir değer için anonimlik k.

  1. Bastırma: Bu yöntemde, özniteliklerin belirli değerleri bir yıldız işareti '*' ile değiştirilir. Bir sütunun tüm veya bazı değerleri '*' ile değiştirilebilir. Aşağıdaki anonimleştirilmiş tabloda, "Ad" özelliğindeki tüm değerleri ve "Din" özelliğindeki tüm değerleri "*" ile değiştirdik.
  2. Genelleme: Bu yöntemde, özniteliklerin ayrı ayrı değerleri daha geniş bir kategori ile değiştirilir. Örneğin, "Yaş" özelliğinin "19" değeri "≤ 20", "23" değeri "20

Sonraki tablo anonimleştirilmiş veritabanını gösterir.

İsimYaşCinsiyetİkametgah durumuDinHastalık
*20 KadınTamil Nadu*Kanser
*20 KadınKerala*Viral enfeksiyon
*20 KadınTamil Nadu*TB
*20 ErkekKarnataka*Hastalık yok
*20 KadınKerala*Kalp ile ilgili
*20 ErkekKarnataka*TB
*Yaş ≤ 20ErkekKerala*Kanser
*20 ErkekKarnataka*Kalp ile ilgili
*Yaş ≤ 20ErkekKerala*Kalp ile ilgili
*Yaş ≤ 20ErkekKerala*Viral enfeksiyon

Tablonun herhangi bir satırında bulunan bu özniteliklerin herhangi bir kombinasyonu için her zaman bu tam özniteliklere sahip en az 2 satır olduğundan, bu verilerin 'Yaş', 'Cinsiyet' ve 'İkametgah durumu' niteliklerine göre 2-anonimliği vardır. Bir düşman için mevcut olan niteliklere yarı tanımlayıcılar. Her bir yarı tanımlayıcı tuple, en azından k bir veri kümesi için kayıtlar k- anonimlik.[14]

Meyerson ve Williams (2004), optimum k-anonimlik bir NP-zor sorun, ancak sezgisel yöntemler k-Bayardo ve Agrawal (2005) tarafından verilen optimizasyon çoğu zaman etkili sonuçlar verir.[15][16] Çözmeyi sağlayan pratik bir yaklaşım algoritması kYaklaşık garantili anonimleştirme sorunu Kenig ve Tassa tarafından sunuldu.[17]

Olası saldırılar

Süre k-anonimlik, basitliği ve bunu gerçekleştiren geniş algoritma dizisi göz önüne alındığında, grup tabanlı anonimleştirme için umut verici bir yaklaşımdır, ancak birçok saldırıya karşı hassastır. Arka plan bilgisi bir saldırgan için mevcut olduğunda, bu tür saldırılar daha da etkili hale gelir. Bu tür saldırılar şunları içerir:

  • Homojenlik Saldırısı: Bu saldırı, hassas bir değer için tüm değerlerin bir dizi k kayıtlar aynıdır. Bu gibi durumlarda, veriler alınmış olsa bile k-anonimleştirilmiş, dizi için hassas değer k kayıtlar tam olarak tahmin edilebilir.
  • Arka Plan Bilgi Saldırısı: Bu saldırı, hassas öznitelik için olası değerler kümesini azaltmak için bir veya daha fazla yarı tanımlayıcı öznitelik ile duyarlı öznitelik arasındaki ilişkiden yararlanır. Örneğin, Machanavajjhala, Kifer, Gehrke ve Venkitasubramaniam (2007), Japon hastalarda kalp krizlerinin daha düşük bir oranda gerçekleştiğini bilmenin, bir hastanın hastalığının hassas bir özelliği için değer aralığını daraltmak için kullanılabileceğini gösterdi.

Uyarılar

Çünkü k-anonimleştirme herhangi bir rasgeleleştirme içermez, saldırganlar yine de kişilere zarar verebilecek veri kümeleri hakkında çıkarımlar yapabilir. Örneğin, Kerala'dan 19 yaşındaki John'un yukarıdaki veritabanında olduğu biliniyorsa, o zaman güvenilir bir şekilde kansere, kalbe bağlı bir hastalığa veya viral bir enfeksiyona sahip olduğu söylenebilir.

K-anonimleştirme, yüksek boyutlu veri kümelerini anonimleştirmek için iyi bir yöntem değildir.[18] Örneğin, araştırmacılar, 4 konum verildiğinde birlik cep telefonu zaman damgası-konum veri kümelerinin (, k- ne zaman anonimlik )% 95 kadar yüksek olabilir.[19]

Ayrıca gösterildi k-Anonimlik, orantısız bir şekilde temsili olmayan özelliklere sahip veri noktalarını bastırır ve genelleştirirse, bir veri kümesinin sonuçlarını çarpıtabilir.[20] Gizleme ve genelleme algoritmaları k-Anonimleştir veri kümeleri değiştirilebilir, böylece böyle bir çarpıklık etkisi olmaz.[21]

Karma tabanlı k-Anonimlik

Karma tabanlı k-Anonimlik büyük ölçüde Junade Ali, başlangıçta önlemek için Güvenliği İhlal Edilmiş Kimlik Bilgileri Kontrolü[22][23][24] ve daha sonra gerçek zamanlı anonimleştirme için MAC adresleri.[25]

Bu yaklaşım, bir kriptografik karma tek boyutlu verinin ve hash'in en az olacak şekilde kesilmesi karma çarpışmalar. Bu yaklaşım, ihlal edilmiş parolalar gibi büyük veri kümelerinin etkili bir şekilde anonim olarak aranmasına olanak tanır.[26] Bu yaklaşım ayrıca, gizliliğe duyarlı verilere resmi olarak gösterilebilir bir anonimlik seviyesi sağlamak için kullanılabilir ve bu da bilgi sızıntısı ile işlevsellik arasında kesin bir değiş tokuşun yapılmasına izin verir.[27][28]

Ayrıca bakınız

Referanslar

  1. ^ Samarati, Pierangela; Sweeney, Latanya (1998). "Bilgileri ifşa ederken gizliliğin korunması: k-anonimlik ve genelleme ve bastırma yoluyla uygulanması" (PDF). Harvard Veri Gizlilik Laboratuvarı. Alındı 12 Nisan, 2017.
  2. ^ P. Samarati. Mikro Veri Yayınında Katılımcıların Kimliklerinin Korunması. Bilgi ve Veri Mühendisliği arşivinde IEEE İşlemleri Cilt 13 Sayı 6, Kasım 2001.
  3. ^ L. Sweeney. "Veritabanı Güvenliği: k-anonimlik". Alındı 19 Ocak 2014.
  4. ^ L. Sweeney. k-anonimlik: gizliliği korumak için bir model. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 卌, 2002; 557-570.
  5. ^ "Bir sunucuya göndermeden şifrenizin çözülüp çözülmediğini öğrenin". Ars Technica. Alındı 2018-05-24.
  6. ^ "Bir 'şifreli şifre' kontrolünde 1Password cıvataları - TechCrunch". techcrunch.com. Alındı 2018-05-24.
  7. ^ "1Password, Şifrelerinizin Çevrimiçi Olarak Sızdırılıp Sızdırıldığını Kontrol Etmek İçin 'Şifreli Şifreler' ile Bütünleşir". Alındı 2018-05-24.
  8. ^ Conger, Kate. "1Password, Şifrenizin Şifreli Olup Olmadığını Öğrenmenize Yardımcı Olur". Gizmodo. Alındı 2018-05-24.
  9. ^ Condon, Stephanie. "Okta, yeni ürün, One App | ZDNet ile ücretsiz çok faktörlü kimlik doğrulama sunuyor". ZDNet. Alındı 2018-05-24.
  10. ^ Coren, Michael J. "Dünyanın en büyük saldırıya uğramış şifreler veritabanı artık sizin şifrenizi otomatik olarak kontrol eden bir Chrome uzantısı oldu". Kuvars. Alındı 2018-05-24.
  11. ^ Wagenseil ben, Paul. "Google'ın Yeni Chrome Uzantısı, Saldırıya Uğramış Şifrelerinizi Buluyor". www.laptopmag.com.
  12. ^ "Google, Kullanıcıları Veri İhlalleri Hakkında Uyarmak İçin Şifre Kontrolü Uzantısını Başlattı". Bilgisayar.
  13. ^ Dsouza, Melisha (6 Şubat 2019). "Google'ın yeni Chrome uzantısı 'Password CheckUp', kullanıcı adınızın veya şifrenizin bir üçüncü taraf ihlaline maruz kalıp kalmadığını kontrol eder". Packt Hub.
  14. ^ Narayanan, Arvind; Shmatikov, Vitaly. "Büyük Seyrek Veri Kümelerinin Güçlü Anonim Hale Getirilmesi" (PDF).
  15. ^ Roberto J. Bayardo; Rakesh Agrawal (2005). Optimal aracılığıyla Veri Gizliliği k-anonimleştirme (PDF). ICDE '05 21. Uluslararası Veri Mühendisliği Konferansı Bildirileri. s. 217–28. doi:10.1109 / ICDE.2005.42. ISBN  978-0-7695-2285-2. ISSN  1084-4627. S2CID  17044848. Veri kimlik gizleme, araştırma amacıyla verilerin serbest bırakılması talebini ve bireylerin mahremiyet talebini uzlaştırır. Bu makale, güçlü kimlik gizleme prosedürü için bir optimizasyon algoritması önermekte ve değerlendirmektedir. k-anonimleştirme. Bir k-anonimleştirilmiş veri kümesi, her kaydın en azından ayırt edilemeyecek özelliğine sahiptir. k - 1 kişi daha. Optimize edilmiş basit kısıtlamalar bile k-anonimlik NP-zordur ve önemli hesaplama zorluklarına yol açar. Sorunun kombinasyonlarını ehlileştiren olası anonimleştirmelerin alanını keşfetmek için yeni bir yaklaşım sunuyoruz ve sıralama gibi pahalı işlemlere olan bağımlılığı azaltmak için veri yönetimi stratejileri geliştiriyoruz. Gerçek nüfus sayımı verileri üzerinde yapılan deneyler sayesinde, ortaya çıkan algoritmanın en uygun k-iki temsili maliyet ölçüsü ve geniş bir k aralığı altında anonimleştirme. Ayrıca, girdi verilerinin veya girdi parametrelerinin makul bir sürede en uygun çözümü bulmaya engel olduğu durumlarda algoritmanın iyi anonimleştirmeler üretebileceğini de gösteriyoruz. Son olarak, farklı kodlama yaklaşımlarının ve problem varyasyonlarının anonimleştirme kalitesi ve performansı üzerindeki etkilerini keşfetmek için algoritmayı kullanıyoruz. Bildiğimiz kadarıyla bu, optimal olduğunu gösteren ilk sonuçtur. k- problemin genel bir modeli altında önemsiz olmayan bir veri setinin anonimleştirilmesi.
  16. ^ Adam Meyerson; Ryan Williams (2004). Optimalin Karmaşıklığı Üzerine K-Anonimlik (PDF). PODS '04 Yirmi üçüncü ACM SIGMOD-SIGACT-SIGART Veritabanı Sistemleri Prensipleri Sempozyumu Bildirileri. New York, NY: ACM. s. 223–8. doi:10.1145/1055558.1055591. ISBN  978-1581138580. S2CID  6798963. Literatürde, hem veri gizliliğini hem de veri bütünlüğünü sağlarken, kamuya açık bilgileri yayınlamanın alternatif bir yolu olarak k-anonimleştirme tekniği önerilmiştir. İlişkilerin optimal k-anonimleştirilmesinin iki genel versiyonunun NP-zor olduğunu kanıtlıyoruz, bunlara ilişkiden silinecek minimum giriş sayısını seçme anlamına gelen bastırma versiyonu dahildir. Ayrıca, k sabit olduğunda veritabanının boyutundan bağımsız bir yaklaşıklık oranına ulaşan optimum k-anonimlik için bir polinom zaman algoritması sunuyoruz. Özellikle, büyük-O'daki sabitin 4'ten fazla olmadığı bir O (k log k) -yaklaşımıdır. Ancak, algoritmanın çalışma zamanı k cinsinden üsteldir. Biraz daha akıllı bir algoritma bu koşulu ortadan kaldırır, ancak bir O (k logm) -yaklaşımıdır, burada m, ilişkinin derecesidir. Bu algoritmanın pratikte potansiyel olarak oldukça hızlı olabileceğine inanıyoruz.
  17. ^ Kenig, Batya; Tassa, Tamir (2012). "Optimum k-anonimlik için pratik bir yaklaşım algoritması". Veri Madenciliği ve Bilgi Keşfi. 25: 134–168. doi:10.1007 / s10618-011-0235-9. S2CID  14158546.
  18. ^ Aggarwal, Charu C. (2005). "Açık k-Anonimlik ve Boyutluluğun Laneti ". VLDB '05 - 31. Uluslararası Çok Büyük Veri Tabanları Konferansı Bildirileri. Trondheim, Norveç. CiteSeerX  10.1.1.60.3155. ISBN  1-59593-154-6.
  19. ^ de Montjoye, Yves-Alexandre; César A. Hidalgo; Michel Verleysen; Vincent D. Blondel (25 Mart 2013). "Kalabalıkta Benzersiz: İnsan hareketliliğinin gizlilik sınırları" (PDF). Bilimsel Raporlar. 3: 1376. Bibcode:2013NatSR ... 3E1376D. doi:10.1038 / srep01376. PMC  3607247. PMID  23524645.
  20. ^ Angiuli, Olivia; Joe Blitzstein; Jim Waldo. "Verilerinizin Kimliğini Nasıl Kaldırabilirsiniz?". ACM Sırası. ACM.
  21. ^ Angiuli, Olivia; Jim Waldo (Haziran 2016). "Büyük Ölçekli Veri Kümelerinin Kimliksizleştirilmesinde Genelleme ve Gizleme Arasındaki İstatistiksel Ödünleşmeler". IEEE Computer Society Uluslararası Bilgisayar, Yazılım ve Uygulamalar Konferansı: 589–593. doi:10.1109 / COMPSAC.2016.198. ISBN  978-1-4673-8845-0. S2CID  17716908.
  22. ^ Li, Lucy; Pal, Bijeeta; Ali, Junade; Sullivan, Nick; Chatterjee, Rahul; Ristenpart, Thomas (4 Eylül 2019). "Güvenliği İhlal Edilen Kimlik Bilgilerini Kontrol Etme Protokolleri". arXiv:1905.13737 [cs.CR ].
  23. ^ "Bir sunucuya göndermeden şifrenizin çözülüp çözülmediğini öğrenin". Ars Technica. Alındı 2018-05-24.
  24. ^ "Bir 'şifreli şifre' kontrolünde 1Password cıvataları - TechCrunch". techcrunch.com. Alındı 2018-05-24.
  25. ^ Ali, Junade; Dyo, Vladimir (2020). "MAC Adresleri için Pratik Karma Tabanlı Anonimlik". 17. Uluslararası Güvenlik ve Kriptografi Konferansı (SECRYPT 2020): 572–579. arXiv:2005.06580. doi:10.5220/0009825105720579. ISBN  978-989-758-446-6. S2CID  218629946.
  26. ^ Thomas, Kurt; Pullman, Jennifer; Yeo, Kevin; Raghunathan, Ananth; Kelley, Patrick Gage; Invernizzi, Luca; Benko, Borbala; Pietraszek, Tadek; Patel, Sarvar; Boneh, Dan; Bursztein, Elie (2019). Hesapları, şifre ihlali uyarısı ile kimlik bilgilerinin doldurulmasına karşı koruma. s. 1556–1571. ISBN  9781939133069. Alındı 22 Mayıs 2020.
  27. ^ Ali, Junade; Dyo, Vladimir (2020). "MAC Adresleri için Pratik Karma Tabanlı Anonimlik". 17. Uluslararası Güvenlik ve Kriptografi Konferansı (SECRYPT 2020): 572–579. arXiv:2005.06580. doi:10.5220/0009825105720579. ISBN  978-989-758-446-6. S2CID  218629946.
  28. ^ Demir, Levent; Kumar, Amrit; Cunche, Mathieu; Lauradoux, Cédric (2018). "Gizlilik için Hashing İşleminin Tuzakları". İletişim Anketleri ve Öğreticiler, IEEE İletişim Topluluğu. 20 (1): 551. doi:10.1109 / COMST.2017.2747598. S2CID  3571244. Alındı 22 Mayıs 2020.