Tablolama karması - Tabulation hashing

İçinde bilgisayar Bilimi, tablo karması inşa etmek için bir yöntemdir evrensel hash fonksiyonları aileleri birleştirerek tablo araması ile özel veya operasyonlar. İlk olarak şeklinde çalışıldı Zobrist hashing bilgisayar oyunları için; Carter'ın daha sonra çalışması ve Wegman bu yöntemi rastgele sabit uzunluklu anahtarlara genişletti. Metin dizgileri gibi değişken uzunluklu anahtarları işleyebilen çizelgeleme karması genellemeleri de geliştirilmiştir.

Sadeliğine rağmen, tablo karması, onu diğer bazı karma işlevlerden ayıran güçlü teorik özelliklere sahiptir. Özellikle, 3'ten bağımsızdır: her 3-demet anahtarın, herhangi bir 3-demet karma değerle eşlenmesi eşit derecede muhtemeldir. Ancak, 4'ten bağımsız değildir. Daha karmaşık ancak daha yavaş tablo hashing varyantları, yöntemi daha yüksek bağımsızlık derecelerine kadar genişletir.

Yüksek derecede bağımsız olması nedeniyle, tablo hashing, yüksek kaliteli bir hash işlevi gerektiren hashing yöntemleriyle kullanılabilir. seksek hashı, guguklu haşlama, ve MinHash küme kavşaklarının boyutunu tahmin etme tekniği.

Yöntem

İzin Vermek p sayısını belirtmek bitler Hashing uygulanacak bir anahtarda ve q bir çıktı hash fonksiyonunda istenen bit sayısını gösterir. Başka bir numara seçin r, küçüktür veya eşittir p; bu seçim keyfidir ve hashing yönteminin zaman ile bellek kullanımı arasındaki değiş tokuşu kontrol eder: r daha az bellek kullanır, ancak karma işlevinin daha yavaş olmasına neden olur. Hesaplama t yuvarlayarak p/r bir sonraki büyük tam sayıya kadar; bu, sayısını verir rBir anahtarı temsil etmek için gereken bit blokları. Örneğin, eğer r = 8, sonra bir r-bit sayı bir bayt, ve t anahtar başına bayt sayısıdır. Tablo hashing işleminin temel fikri, bir anahtarı bir vektör nın-nin t r-bit sayılar, bir kullanın arama tablosu her biri için bir karma değeri hesaplamak için rastgele değerlerle doldurulmuş r- belirli bir anahtarı temsil eden bit sayıları ve bu değerleri bitsel ikili ile birleştirir özel veya operasyon.[1] Un seçimi r bu masa çok büyük olmayacak şekilde yapılmalıdır; ör. bilgisayarın içine sığması için ön bellek.[2]

Algoritmanın başlatma aşaması iki boyutlu bir dizi oluşturur T boyutların 2r tarafından tve diziyi rastgele doldurur q-bit sayılar. Dizi bir kez T başlatıldığında, karma değerini hesaplamak için kullanılabilir h(x) herhangi bir anahtarx. Bunu yapmak için bölümleme x içine r-bit değerleri, nerede x0 düşük mertebeden oluşur r bitleri x, x1 bir sonrakinden oluşur r bit, vb. Örneğin, seçim ile r = 8, xben sadece benbaytı xArdından, bu değerleri indeksler olarak kullanın. T ve bunları özel veya operasyonla birleştirin:[1]

h(x) = T[0][x0] ⊕ T[1][x1] ⊕ T[2][x2] ⊕ ...

Tarih

Tablo hashing işleminin ilk örneği Zobrist hashing, soyut masa oyunlarında pozisyonları hashing için bir yöntem satranç adını Albert Lindsey Zobrist, bunu 1970'te yayınlayan.[3] Bu yöntemde, bir satranç taşı ile satranç tahtasının bir karesinin kombinasyonu gibi her oyun özelliği için rastgele bir bit dizisi oluşturulur. Daha sonra, herhangi bir oyun pozisyonunu hash hale getirmek için, o pozisyonun özelliklerinin bit dizgileri, bit düzeyinde özel veya. Ortaya çıkan hash değeri daha sonra bir indeks olarak kullanılabilir. aktarım tablosu. Her hareket tipik olarak yalnızca az sayıda oyun özelliğini değiştirdiğinden, bir hareketten sonraki konumun Zobrist değeri, konumun tüm özelliklerinde döngü yapmaya gerek kalmadan hareketten önceki konumun değerinden hızlı bir şekilde güncellenebilir.[4]

Rasgele ikili değerler için daha büyük genellikte tablo karması daha sonra yeniden keşfedildi Carter ve Wegman (1979) ve tarafından daha ayrıntılı olarak çalışıldı Pătraşcu ve Thorup (2012).

Evrensellik

Carter ve Wegman (1979) hash fonksiyonları oluşturmak için rastgele bir şema tanımlayın evrensel eğer herhangi iki anahtar için çarpışmak (yani birbirleriyle aynı değere eşlenirler) 1 /m, nerede m anahtarların alabileceği değerlerin sayısıdır. Sonraki makalede daha güçlü bir özellik tanımladılar Wegman ve Carter (1981): hash fonksiyonları oluşturmak için rastgele bir şema k-bağımsız her biri için k-tuple anahtar ve olası her biri k-tuple of values, bu anahtarların bu değerlere eşlenme olasılığı 1 /mk. 2 bağımsız karma şemaları otomatik olarak evrenseldir ve herhangi bir evrensel karma şeması, rastgele bir sayı depolayarak 2 bağımsız bir şemaya dönüştürülebilir x algoritmanın başlatma aşamasının bir parçası olarak ve x her bir hash değerine. Dolayısıyla evrensellik, 2 bağımsızlık ile temelde aynıdır. Ancak, kdaha büyük değerler için bağımsızlık k , daha az karma algoritma tarafından tutulan daha güçlü bir özelliktir.

Gibi Pătraşcu ve Thorup (2012) gözlemleyin, tablo karması 3 bağımsızdır ancak 4'ten bağımsız değildir. Herhangi bir tek anahtar için x, T[x0, 0] eşit derecede olasılıkla herhangi bir karma değeri ve özel veya T[x0, 0] kalan tablo değerleri ile bu özelliği değiştirmez. Herhangi iki anahtar için x ve y, x daha önce olduğu gibi herhangi bir hash değeriyle eşlenme olasılığı eşittir ve en az bir konum vardır ben nerede xben ≠ yben; tablo değeri T[yben,ben] hesaplamasında kullanılır h(y) ama hesaplanmasında değil h(x), dolayısıyla değerinden sonra bile h(x) Tespit edildi, h(y) herhangi bir geçerli karma değer olma olasılığı da aynıdır. Benzer şekilde, herhangi üç anahtar için x, y, ve z, üç tuştan en az birinin bir konumu var ben değeri nerede zben diğer ikisinden farklıdır, böylece değerlerinden sonra bile h(x) ve h(y) belirlenir, h(z) herhangi bir geçerli karma değer olma olasılığı da aynıdır.[5]

Ancak, bu mantık dört anahtar için bozulur çünkü anahtarlar vardır. w, x, y, ve z dördünden hiçbiri, diğer anahtarlardan en az biriyle paylaşmadığı bir bayt değerine sahip değildir. Örneğin, anahtarların her birinde iki bayt varsa ve w, x, y, ve z bayt değerleri sıfır veya bir olan dört anahtardır, bu durumda her konumdaki her bayt değeri dört anahtardan tam olarak ikisi tarafından paylaşılır. Bu dört anahtar için, tablo karması ile hesaplanan karma değerleri her zaman denklemi karşılayacaktır. h(w) ⊕ h(x) ⊕ h(y) ⊕ h(z) = 04 bağımsız bir hash şeması için aynı denklem yalnızca 1 / olasılıkla karşılanacaktır.m. Bu nedenle, tablo karması 4'ten bağımsız değildir.[5]

Uygulama

Çizelgeleme karması evrensel bir özetleme şeması olduğundan, evrenselliğin yeterli olduğu herhangi bir karma tabanlı algoritmada kullanılabilir. Örneğin karma zincirleme, işlem başına beklenen süre, çarpışma olasılıklarının toplamı ile orantılıdır; bu, herhangi bir evrensel şema için gerçekten rastgele karma işlevler için olduğu gibi aynıdır ve karma tablosunun yük faktörü sabit olduğunda sabittir. Bu nedenle, çizelgeleme karma işlemi, işlem başına sabit beklenen süre teorik garantisiyle karma zincirleme için karma işlevlerini hesaplamak için kullanılabilir.[6]

Bununla birlikte, evrensel hashing, diğer bazı hash algoritmalarının performansını garanti edecek kadar güçlü değildir. Örneğin, doğrusal inceleme, 5 bağımsız karma işlevler, sabit zamanlı çalışmayı garanti edecek kadar güçlüdür, ancak başarısız olan 4 bağımsız karma işlevi vardır.[7] Bununla birlikte, yalnızca 3'ten bağımsız olmasına rağmen, çizelgeleme hashingi doğrusal problama için aynı sabit zamanlı garantiyi sağlar.[8]

Guguklu haşlama uygulama için başka bir teknik karma tablolar, arama başına sabit süreyi garanti eder (hash işlevinden bağımsız olarak). Bir guguklu karma tablosuna eklemeler başarısız olabilir ve tüm tablonun yeniden oluşturulmasına neden olabilir, ancak bu tür hatalar, ekleme başına beklenen sürenin (gerçekten rastgele bir karma işlevi veya logaritmik bağımsız bir karma işlevi kullanılarak) sabit olması pek olası değildir. Öte yandan, çizelgeleme karması ile, başarısızlık olasılığı hakkında bilinen en iyi sınır daha yüksektir, eklemelerin sabit beklenen süre alacağı garanti edilemeyecek kadar yüksektir. Bununla birlikte, tablo karması, tablo kullanıldıkça değişmeyen statik bir anahtar seti için bir guguklu karma tablonun doğrusal olarak beklenen zaman yapısını sağlamak için yeterlidir.[8]

Uzantılar

Yukarıda tarif edildiği gibi çizelgeleme karması ("basit çizelgeleme karması") yalnızca 3 bağımsız olmasına rağmen, bu yöntemin varyasyonları, çok daha yüksek bağımsızlık derecelerine sahip karma işlevler elde etmek için kullanılabilir. Siegel (2004) bir tablodan rastgele değerleri birleştirmek için özel veya işlemleri kullanma fikrini kullanır, buna dayalı daha karmaşık bir algoritma ile genişletici grafikler anahtar bitleri tablo indekslerine dönüştürmek için, hashing şemalarını tanımlamak için kherhangi bir sabit veya hatta logaritmik değer için bağımsız k. Bununla birlikte, Siegel'in tablo hashing varyasyonunu kullanarak her bir hash değerini hesaplamak için gereken tablo arama sayısı, sabit olsa da, pratik olamayacak kadar büyüktür ve Siegel'in tekniğinde genişleticilerin kullanımı da onu tam olarak yapıcı hale getirmez.Thorup (2013) daha yapıcı bir şekilde, yüksek bağımsızlık derecelerine daha hızlı ulaşan tablo hashingine dayalı bir şema sağlar. Giriş anahtarlarını orijinal uzunluklarının altı katına genişletmek için bir tur basit tablo hashing'i ve ardından ikinci bir tur kullanarak Genişletilmiş anahtarlar üzerinde basit tablo karması, bağımsızlık numarası parametrede üstel olan bir karma şemasına neden olur ranahtarların bloklara bölünmesinde blok başına bit sayısı.

Basit tablolama, sabit uzunluktaki anahtarlarla sınırlıdır, çünkü anahtarlardaki bir bloğun her konumu için farklı bir rasgele değerler tablosunun başlatılması gerekir.Lemire (2012) karakter dizileri gibi değişken uzunluklu anahtarlar için uygun tablo hashing varyasyonlarını inceler. Lemire tarafından incelenen genel hash şeması türü tek bir tablo kullanır T Anahtar içindeki konumuna bakılmaksızın bir bloğun değerine göre indekslenir.Ancak, bu tablodaki değerler bitsel özel veya.Lemire'den daha karmaşık bir işlevle birleştirilebilir, bu türden hiçbir şemanın 3'ten bağımsız olamayacağını gösterir. Yine de 2 bağımsızlık elde etmenin hala mümkün olduğunu gösteriyor. Özellikle, değerleri yorumlayan bir tablo şeması T[xben] (nerede xben daha önce olduğu gibi bengirişin inci bloğu) bir katsayıları olarak polinom sonlu bir alan üzerinde ve sonra elde edilen polinom modülünün kalanını başka bir polinom alır, 2'den bağımsız bir hash fonksiyonu verir.

Notlar

Referanslar

İkincil kaynaklar
  • Morin, Pat (22 Şubat 2014), "Bölüm 5.2.3: Tablolama karması", Veri Yapılarını Aç (sözde kodda) (0.1Gβ ed.), s. 115–116, alındı 2016-01-08.
  • Mitzenmacher, Michael; Upfal, Eli (2014), "Bazı pratik rastgele algoritmalar ve veri yapıları", Tucker, Allen; Gonzalez, Teofilo; Diaz-Herrera, Jorge (ed.), Hesaplama El Kitabı: Bilgisayar Bilimi ve Yazılım Mühendisliği (3. baskı), CRC Press, s. 11-1 - 11-23, ISBN  9781439898529. Özellikle bkz. Bölüm 11.1.1: Tablo karması, s. 11-3 - 11-4.
Birincil kaynaklar