K'den bağımsız hashing - K-independent hashing

İçinde bilgisayar Bilimi bir aile karma işlevler olduğu söyleniyor k-bağımsız veya k-evrensel[1] aileden rastgele bir işlev seçilmesi, belirlenen herhangi bir hash kodunun k anahtarlar bağımsız rastgele değişkenler (aşağıdaki kesin matematiksel tanımlara bakın). Bu tür aileler, girdi verileri bir rakip tarafından seçilse bile, rastgele algoritmalarda veya veri yapılarında iyi ortalama durum performansına izin verir. Bağımsızlık derecesi ile hash fonksiyonunu değerlendirmenin etkinliği arasındaki ödünleşimler iyi çalışılmıştır ve birçok kbağımsız aileler önerildi.

Arka fon

Hashing işleminin amacı genellikle bazı büyük etki alanlarındaki (evren) anahtarları eşlemektir. daha küçük bir aralığa, örneğin kutular (etiketli ). Rastgele algoritmaların ve veri yapılarının analizinde, genellikle çeşitli anahtarların karma kodlarının "rastgele davranması" istenir. Örneğin, her anahtarın karma kodu bağımsız bir rastgele seçim ise , bölme başına anahtar sayısı, Chernoff bağlı. Belirleyici bir hash fonksiyonu, rakip bir ortamda böyle bir garanti veremez, çünkü rakip anahtarları tam olarak ön görüntü bir çöp kutusu. Ayrıca, deterministik bir hash fonksiyonu, yeniden yıkama: bazen giriş verileri hash işlevi için kötü olabilir (örneğin, çok fazla çarpışma vardır), bu nedenle biri karma işlevini değiştirmek ister.

Bu sorunların çözümü, bir işlev seçmektir. rastgele geniş bir hash fonksiyonları ailesinden. Karma işlevin seçilmesindeki rastgelelik, ilgili herhangi bir anahtarın karma kodlarının istenen bazı rasgele davranışlarını garanti etmek için kullanılabilir. Bu satırlardaki ilk tanım şuydu: evrensel hashing, herhangi iki belirlenmiş anahtar için düşük bir çarpışma olasılığını garanti eder. Kavramı 1981'de Wegman ve Carter tarafından tanıtılan bağımsız hashing,[2] ailelerine rastgele davranış garantilerini güçlendirir belirlenmiş anahtarlar ve karma kodların tek tip dağıtımı için bir garanti ekler.

Tanımlar

Wegman ve Carter tarafından sunulan en katı tanım[2] "son derece evrensel hash family ", aşağıdaki gibidir. Hash fonksiyonları ailesi dır-dir - varsa bağımsız farklı anahtarlar Ve herhangi biri karma kodlar (mutlaka farklı değildir) , sahibiz:

Bu tanım, aşağıdaki iki koşula eşdeğerdir:

  1. herhangi bir sabit için , gibi rastgele çekilir , eşit olarak dağıtılır .
  2. sabit, farklı anahtarlar için , gibi rastgele çekilir , bağımsız rastgele değişkenlerdir.

Çoğunlukla mükemmel eklem olasılığını elde etmek sakıncalıdır. yuvarlama sorunları nedeniyle. Takip etme,[3] bir tanımlayabilir - tatmin edilecek bağımsız aile:

farklı ve ,

Bunu gözlemleyin, hatta 1'e yakın, artık bağımsız rastgele değişkenler değildir ve bu genellikle rastgele algoritmaların analizinde bir problemdir. Bu nedenle, yuvarlama sorunlarıyla uğraşmanın daha yaygın bir alternatifi, hash ailesinin yakın olduğunu kanıtlamaktır. istatistiksel mesafe bir bağımsızlık özelliklerinin kara kutu kullanımına izin veren bağımsız aile.

Teknikler

Rastgele katsayılı polinomlar

Orijinal yapım tekniği kCarter ve Wegman tarafından verilen bağımsız hash fonksiyonları, büyük bir asal sayı seçmekti p, Seç k rastgele sayılar modulo pve bu sayıları bir katsayıları olarak kullanın polinom derece k − 1 kimin değerleri modulo p karma işlevinin değeri olarak kullanılır. Verilen modulo derecesinin tüm polinomları p eşit olasılıktadır ve herhangi bir polinom, herhangi bir k-tuple of argument-value çiftleri ile farklı argümanlar; k-birbirinden farklı bağımsız değişkenlerin üçlüsü, herhangi bir k-tuple hash değerleri.[2]

Tablolama karması

Tablolama karması her bir anahtarı bölümlere ayırarak anahtarları hash değerlerine eşleme tekniğidir. bayt, her baytı rastgele sayılar tablosuna dizin olarak kullanmak (her bayt konumu için farklı bir tabloyla) ve bu tablo aramalarının sonuçlarını bit bazında birleştirmek özel veya operasyon. Bu nedenle, başlatılmasında polinom yöntemine göre daha fazla rastgelelik gerektirir, ancak muhtemelen yavaş çarpma işlemlerinden kaçınır. 3'ten bağımsızdır ancak 4'ten bağımsız değildir.[4] Tablo hashinginin varyasyonları, giriş anahtarından gelen üst üste binen bit kombinasyonlarına dayalı tablo aramaları gerçekleştirerek veya yinelemeli olarak basit tablo hashingi uygulayarak daha yüksek bağımsızlık derecelerine ulaşabilir.[5][6]

Farklı hashing yöntemlerinin gerektirdiği bağımsızlık

Kavramı k- Bağımsızlık, işlem başına sabit beklenen süreyi garanti etmek için gereken bağımsızlık düzeyine göre, farklı karma yöntemleri arasında ayrım yapmak için kullanılabilir.

Örneğin, karma zincirleme, 2 bağımsız bir karma işlevle bile sabit beklenen süre alır, çünkü belirli bir anahtar için bir arama gerçekleştirmek için beklenen süre, anahtarın dahil olduğu beklenen çarpışma sayısı ile sınırlıdır. Beklentinin doğrusallığı ile, bu beklenen sayı, verilen anahtar ile diğer anahtarın çarpışma olasılığının karma tablosundaki diğer tüm anahtarların toplamına eşittir. Bu toplamın terimleri yalnızca iki anahtar içeren olasılıksal olayları içerdiğinden, 2 bağımsızlık, bu toplamın gerçekten rastgele bir hash fonksiyonu için olduğu gibi aynı değere sahip olmasını sağlamak için yeterlidir.[2]

Çift hashing düşük derecede bağımsızlık gerektiren başka bir karma yöntemdir. İki hash fonksiyonunu kullanan bir açık adresleme biçimidir: biri bir prob dizisinin başlangıcını belirlemek, diğeri ise prob dizisindeki pozisyonlar arasındaki adım boyutunu belirlemek için. Her ikisi de 2 bağımsız olduğu sürece, bu yöntem işlem başına sabit beklenen süreyi verir.[7]

Diğer taraftan, doğrusal inceleme adım boyutunun her zaman bir olduğu daha basit bir açık adresleme biçimi, 5 bağımsızlık gerektirir. 5 bağımsız hash fonksiyonu ile işlem başına sabit beklenen zamanda çalışması garanti edilebilir,[8] ve işlem başına logaritmik zaman aldığı 4 bağımsız hash fonksiyonu vardır.[9]

Referanslar

  1. ^ Cormen, Thomas H.; Leiserson, Charles E.; Rivest, Ronald L.; Stein, Clifford (2009) [1990]. Algoritmalara Giriş (3. baskı). MIT Press ve McGraw-Hill. ISBN  0-262-03384-4.
  2. ^ a b c d Wegman, Mark N.; Carter, J. Lawrence (1981). "Yeni hash fonksiyonları ve bunların kimlik doğrulama ve set eşitliğinde kullanımı" (PDF). Bilgisayar ve Sistem Bilimleri Dergisi. 22 (3): 265–279. doi:10.1016/0022-0000(81)90033-7. FOCS'79'da konferans versiyonu. Alındı 9 Şubat 2011.
  3. ^ Siegel, Alan (2004). "Son derece rastgele sabit zamanlı hash fonksiyonlarının evrensel sınıfları ve bunların zaman-uzay değiş tokuşu hakkında" (PDF). Bilgi İşlem Üzerine SIAM Dergisi. 33 (3): 505–543. doi:10.1137 / S0097539701386216. FOCS'89'daki konferans versiyonu.
  4. ^ Pătraşcu, Mihai; Thorup, Mikkel (2012), "Basit çizelgeleme özetlemesinin gücü", ACM Dergisi, 59 (3): Sanat. 14, arXiv:1011.5200, doi:10.1145/2220357.2220361, BAY  2946218.
  5. ^ Siegel, Alan (2004), "Son derece rastgele sabit zamanlı hash fonksiyonlarının evrensel sınıfları üzerine", Bilgi İşlem Üzerine SIAM Dergisi, 33 (3): 505–543, doi:10.1137 / S0097539701386216, BAY  2066640.
  6. ^ Thorup, M. (2013), "Basit tablolama, hızlı genişleticiler, çift tablolama ve yüksek bağımsızlık", Bilgisayar Biliminin Temelleri Üzerine 54. Yıllık IEEE Sempozyumu Bildirileri (FOCS 2013), s. 90–99, arXiv:1311.3121, doi:10.1109 / FOCS.2013.18, ISBN  978-0-7695-5135-7, BAY  3246210.
  7. ^ Bradford, Phillip G .; Katehakis, Michael N. (2007), "Kombinatoryal genişleticiler ve hash oluşturma üzerine olasılıksal bir çalışma" (PDF), Bilgi İşlem Üzerine SIAM Dergisi, 37 (1): 83–111, doi:10.1137 / S009753970444630X, BAY  2306284, dan arşivlendi orijinal (PDF) 2016-01-25 tarihinde, alındı 2016-01-19.
  8. ^ Pagh, Anna; Pagh, Rasmus; Ružić, Milan (2009), "Sürekli bağımsızlıkla doğrusal araştırma", Bilgi İşlem Üzerine SIAM Dergisi, 39 (3): 1107–1120, arXiv:cs / 0612055, doi:10.1137/070702278, BAY  2538852
  9. ^ Pătraşcu, Mihai; Thorup, Mikkel (2010), "Üzerinde kDoğrusal inceleme ve minimum bağımsızlık gerektirdiği bağımsızlık " (PDF), Automata, Languages ​​and Programming, 37th International Colloquium, ICALP 2010, Bordeaux, France, July 6-10, 2010, Proceedings, Part I, Bilgisayar Bilimlerinde Ders Notları, 6198, Springer, s. 715–726, arXiv:1302.5127, doi:10.1007/978-3-642-14165-2_60, ISBN  978-3-642-14164-5

daha fazla okuma