Akustik parmak izi - Acoustic fingerprint

Bir akustik parmak izi yoğunlaştırılmış bir dijital özettir, bir parmak izi, belirleyici olarak bir ses sinyali, bu bir ses örneği veya benzer öğeleri hızlı bir şekilde bir ses veritabanı.[1]

Akustik parmak izinin pratik kullanımları şunları içerir: şarkılar, melodiler, melodiler veya reklamlar; ses efekti kütüphane yönetimi; ve video dosyası kimlik. Akustik parmak izlerini kullanarak medya tanımlaması, belirli müzik eserlerinin ve performansların kullanımını izlemek için kullanılabilir. Radyo yayını, kayıtları, CD'ler, akış medya ve Eşler arası ağlar. Bu tanımlama, telif hakkı uygunluğu, lisanslama ve diğer para kazanma şemaları.

Öznitellikler

Sağlam bir akustik parmak izi algoritması, sesin algısal özelliklerini hesaba katmalıdır. İki dosya insan kulağına benziyorsa, ikili gösterimleri oldukça farklı olsa bile akustik parmak izleri eşleşmelidir. Akustik parmak izleri karma işlevler, verilerdeki küçük değişikliklere duyarlı olması gerekir. Akustik parmak izleri, parmak izinin kullandığı özelliklerde önemsiz olan küçük değişikliklerin tolere edildiği insan parmak izlerine daha benzerdir. Bir referans veri tabanındaki başka bir parmak izi örneğiyle doğru bir şekilde eşleştirilebilen bulaşmış bir insan parmak izi baskısı durumu hayal edilebilir; akustik parmak izleri de benzer şekilde çalışır.

Genellikle işitsel parmak izlerinin istismar ettiği algısal özellikler arasında ortalama sıfır geçiş oran, tahmini tempo, ortalama spektrum, spektral düzlük, bir dizi üzerinde belirgin tonlar frekans aralıkları, ve Bant genişliği.

Çoğu ses sıkıştırma teknikler, insan kulağı tarafından algılanma biçimini kökten etkilemeden bir ses dosyasının ikili kodlamasında köklü değişiklikler yapacak. Sağlam bir akustik parmak izi, ses kalitesi önemli ölçüde düşürülmüş olsa bile, bir kaydın bu tür bir sıkıştırmadan geçtikten sonra tanımlanmasına izin verecektir. Kullanmak için Radyo yayını izleme, akustik parmak izleri de analoga duyarsız olmalıdır. aktarma eserler.

Spektrogram

Sesten bir imza oluşturmak, sese göre arama. Yaygın bir teknik, adı verilen bir zaman-frekans grafiği oluşturmaktır. spektrogram.

Herhangi bir ses parçası bir spektrograma çevrilebilir. Her ses parçası zamanla bazı bölümlere ayrılır. Bazı durumlarda, bitişik bölümler ortak bir zaman sınırını paylaşırken, diğer durumlarda bitişik bölümler çakışabilir. Sonuç, sesin üç boyutunu gösteren bir grafiktir: frekansa karşı genlik (yoğunluk) ve zamana karşı.

Shazam

Shazam 'nın algoritması, spektrogramda daha yüksek enerji içeriğini temsil eden zirvelerin olduğu noktaları seçer.[2] Sesteki zirvelere odaklanmak, arkaplan gürültüsü sesli kimliğe sahiptir. Shazam, parmak izi kataloğunu bir karma tablo anahtarın frekans olduğu yer. Spektrogramda sadece tek bir noktayı işaretlemezler, bunun yerine bir çift noktayı işaretlerler: tepe yoğunluğu artı bir saniye dayanak noktası.[3] Dolayısıyla, veritabanı anahtarı yalnızca tek bir frekans değil, her iki noktanın frekanslarının bir karmasıdır. Bu daha az karma çarpışmalar karma tablonun performansını iyileştirmek.[4]

Ayrıca bakınız

Referanslar

  1. ^ ISO IEC TR 21000-11 (2004), Multimedya çerçevesi (MPEG-21) - Bölüm 11: Kalıcı İlişkilendirme Teknolojileri için Değerlendirme Araçları
  2. ^ Surdu, Nicolae (20 Ocak 2011). "Shazam bir şarkıyı tanımak için nasıl çalışıyor?". Arşivlenen orijinal 2016-10-24 tarihinde. Alındı 12 Şubat 2018.
  3. ^ Li-Chun Wang, Avery, Endüstriyel Güçlü Ses Arama Algoritması (PDF), Kolombiya Üniversitesi, alındı 2018-04-02
  4. ^ "Shazam Nasıl Çalışır?". Alındı 2018-04-02.

Dış bağlantılar