Ses süresini uzatma ve perde ölçekleme - Audio time stretching and pitch scaling

Zaman germe bir ürünün hızını veya süresini değiştirme işlemidir ses sinyali etkilemeden Saha. Satış aralığı ölçeklendirme tam tersi: hızı etkilemeden perdeyi değiştirme işlemi. Pitch shift perde ölçekleme bir efekt birimi ve canlı performans için tasarlanmıştır. Pitch kontrolü bir kaydı yavaşlatarak veya hızlandırarak eş zamanlı olarak perde ve hızı etkileyen daha basit bir işlemdir.

Bu süreçler, klipler yeniden gerçekleştirilemediğinde veya yeniden örneklenemediğinde, karıştırmak için önceden kaydedilmiş iki klibin perde ve temposunu eşleştirmek için sıklıkla kullanılır. Zaman uzatma genellikle ayarlamak için kullanılır radyo reklamları[1] ve sesi televizyon reklamları[2] 30 veya 60 saniyeye tam olarak uyacak şekilde. Daha uzun materyali 1 saatlik yayın gibi belirlenmiş bir zaman dilimine uydurmak için kullanılabilir.

Yeniden örnekleme

Bir sayfanın süresini veya aralığını değiştirmenin en basit yolu dijital ses klip bitti örnekleme oranı dönüşümü. Bu, örneklerinden sürekli bir dalga biçimini etkin bir şekilde yeniden oluşturan ve ardından bu dalga biçimini farklı bir hızda tekrar örnekleyen matematiksel bir işlemdir. Yeni örnekler orijinal örnekleme frekansında oynatıldığında, ses klibi daha hızlı veya daha yavaş çalar. Ne yazık ki, numunedeki frekanslar her zaman hız ile aynı hızda ölçeklenir ve süreç içinde algılanan perdesini yukarı veya aşağı aktarır. Başka bir deyişle, kaydı yavaşlatmak perdeyi düşürür, hızlandırmak perdeyi yükseltir. Bu, hızlandırma veya yavaşlatma ile benzerdir. analog kayıt gibi fonograf kaydı veya bant, oluşturma Sincap etkisi. Bu yöntemi kullanarak iki efekt birbirinden ayrılamaz. Perdeli enstrümanlar içermeyen bir davul parçası, olumsuz etkiler olmadan tempo için orta düzeyde örnekleme oranına dönüştürülebilir, ancak perdeli bir parça bunu yapamaz.

Frekans alanı

Faz ses kodlayıcı

Bir sinyalin uzunluğunu perdeyi etkilemeden uzatmanın bir yolu, bir faz ses kodlayıcı Flanagan, Golden ve Portnoff'tan sonra.

Basit adımlar:

  1. kullanarak sinyalin anlık frekans / genlik ilişkisini hesaplayın STFT, hangisi ayrık Fourier dönüşümü kısa, üst üste binen ve düzgün pencereli bir örnek bloğu;
  2. Fourier dönüşüm büyüklüklerine ve aşamalarına bazı işlemler uygulayın (FFT bloklarını yeniden örneklemek gibi); ve
  3. her öbek üzerinde ters Fourier dönüşümünü alarak ve sonuçta ortaya çıkan dalga biçimi parçalarını ekleyerek ters bir STFT gerçekleştirin, buna örtüşme ve ekleme (OLA) da denir.[3]

Faz ses kodlayıcı kolları sinüzoid bileşenler iyi, ancak erken uygulamalar, geçici ("vuruş") tüm tamsayı olmayan sıkıştırma / genişleme oranlarında dalga formları, bu da sonuçları fazlı ve dağınık hale getirir. Son gelişmeler, tüm sıkıştırma / genişletme oranlarında daha kaliteli sonuçlara izin verir, ancak kalıntı bulaşma etkisi hala devam etmektedir.

Faz ses kodlayıcı tekniği, tümü zamanın bir fonksiyonu olarak değiştirilebilen perde kaydırma, koro yapma, tını manipülasyonu, harmonizasyon ve diğer olağandışı modifikasyonları gerçekleştirmek için de kullanılabilir.

Sinüzoidal analiz / sentez sistemi (dayalı McAulay ve Quatieri 1988, s. 161)[4]

Sinüzoidal spektral modelleme

Zaman uzatmanın başka bir yöntemi, spektral model sinyalin. Bu yöntemde, çerçevelerde pikler, STFT sinyal ve sinüzoidal "izler", bitişik çerçevelerde tepe noktaları birleştirilerek oluşturulur. İzler daha sonra yeni bir zaman ölçeğinde yeniden sentezlenir. Bu yöntem, özellikle sinyal alt bantlara ayrıldığında, hem polifonik hem de vurmalı materyal üzerinde iyi sonuçlar verebilir. Bununla birlikte, bu yöntem diğer yöntemlere göre hesaplama açısından daha zordur.[kaynak belirtilmeli ]

Tek sesli bir sesi, silindir etki alanına sahip bir işlevin sarmalı boyunca gözlem olarak modelleme

Zaman alanı

SOLA

Rabiner ve Schafer, 1978'de, zaman alanı: bulmaya çalışın dönem (veya eşdeğer olarak temel frekans ) bazılarını kullanarak dalganın belirli bir bölümünün perde algılama algoritması (genellikle sinyalin tepe noktası otokorelasyon, ya da bazen Cepstral işleme) ve çapraz geçiş bir dönemden diğerine.

Bu denir zaman alanlı harmonik ölçeklendirme[5] veya senkronize örtüşme-ekleme yöntemi (SOLA) ve daha yavaş makinelerde faz ses kodlayıcıdan biraz daha hızlı performans gösterir, ancak otokorelasyon karmaşık harmoniklere sahip bir sinyalin periyodunu yanlış tahmin ettiğinde başarısız olur (örneğin orkestra adet).

Adobe Audition (eski adıyla Cool Edit Pro) bunu, kullanıcının belirttiği bir merkez periyoduna en yakın periyodu, temponun tam sayı katı olması gereken ve 30 arasında arayarak çözüyor gibi görünüyor. Hz ve en düşük bas frekansı.

Bu, kapsam açısından faz ses kodlayıcı tabanlı işlemeye göre çok daha sınırlıdır, ancak gerçek zamanlı uygulamalar için çok daha az işlemci yoğun hale getirilebilir. En tutarlı sonuçları sağlar[kaynak belirtilmeli ] ses veya müziksel olarak monofonik enstrüman kayıtları gibi tek perdeli sesler için.

Üst düzey ticari ses işleme paketleri, iki tekniği birleştirir (örneğin sinyali sinüzoid ve geçici dalga formlarına ayırarak) veya dalgacık dönüştürme veya yapay sinir ağı işleme[kaynak belirtilmeli ], en kaliteli zaman esnemesini üretiyor.

Çerçeve tabanlı yaklaşım

Birçok TSM prosedürünün çerçeve tabanlı yaklaşımı

Bir ses sinyalinin perdesini uzatırken veya süresini sıkıştırırken korumak için, birçok zaman ölçeği modifikasyon (TSM) prosedürü çerçeve tabanlı bir yaklaşımı izler.[6]Orijinal bir ayrık zamanlı ses sinyali verildiğinde, bu stratejinin ilk adımı, sinyali kısaya bölmektir. analiz çerçeveleri Analiz çerçeveleri, sabit sayıda örnekle aralıklıdır. analiz boyutu Gerçek zaman ölçeği değişikliğini elde etmek için, analiz çerçeveleri daha sonra geçici olarak yeniden konumlandırılır. sentez atlama boyutu Bu çerçevenin yeniden konumlandırılması, sinyalin süresinin bir germe faktörü nın-ninBununla birlikte, modifiye edilmemiş analiz çerçevelerinin basitçe üst üste getirilmesi, tipik olarak, faz süreksizlikleri veya genlik dalgalanmaları gibi istenmeyen eserlerle sonuçlanır. Bu tür yapaylıkları önlemek için, analiz çerçeveleri forma uyarlanır. sentez çerçeveleri, zaman ölçeğinde değiştirilmiş çıkış sinyalinin yeniden yapılandırılmasından önce.

Sentez çerçevelerinin analiz çerçevelerinden nasıl türetileceğine ilişkin strateji, farklı TSM prosedürleri arasında temel bir farktır.

Hızlı işitme ve hızlı konuşma

Spesifik konuşma durumu için, zaman uzatma kullanılarak gerçekleştirilebilir PSOLA.

Biri kavramayı azaltmak için hızlanmayı bekleyebilirken, Herb Friedman "Deneyler, beynin en verimli şekilde, kulaklardaki bilgi hızının (konuşma yoluyla) yaklaşık 200-300 wpm olan 'ortalama' okuma hızı olduğunu gösterdiğini söylüyor. (dakika başına kelime), ancak ortalama konuşma hızı 100-150 wpm civarında. "[7]

Sesi hızlandırma eşdeğeri olarak görülüyor hızlı Okuma.[8][9]

Satış aralığı ölçeklendirme

Pitch değiştirme (Frekans ölçeklendirme) sağlanmıştır Eventide Uyumlaştırıcı
Frekans kaydırma tarafından sunulan Bode Frekans Değiştirici tutmaz frekans oranı ve uyum.

Bu teknikler ayrıca değiştirmek hızı veya süreyi sabit tutarken bir ses örneği. Bu, zaman esnetme ve ardından orijinal uzunluğa yeniden örnekleme ile gerçekleştirilebilir. Alternatif olarak, sinüzoidlerin frekansı bir sinüzoidal model doğrudan değiştirilebilir ve sinyal uygun zaman ölçeğinde yeniden oluşturulabilir.

Aktarma çağrılabilir Sıklık ölçekleme veya perde değiştirme, perspektife bağlı olarak.

Örneğin, her notanın perdesini, temposu aynı tutarak mükemmel bir beşte bir yukarı hareket ettirebiliriz. Bu transpozisyonu, bir piyano klavyesinde her notayı 7 tuş yukarı "kaydırma", "perde kaydırma" olarak görebilir veya üzerinde sabit miktar Mel ölçeği veya doğrusal olarak sabit bir miktar ekleme adım alanı Aynı transpozisyonu "frekans ölçekleme", "ölçekleme" (her notanın frekansını 3/2 ile çarpma) olarak görebilir.

Müzikal transpozisyon, filmin oranlarını korur. harmonik sesi belirleyen frekanslar tını aksine frekans kayması tarafından gerçekleştirilen genlik modülasyonu, her notanın frekansına sabit bir frekans kayması ekler. (Teoride, kişi gerçek adım ölçekleme müzikal perde uzayı konumunun ölçeklendiği [daha yüksek bir nota doğrusal perde uzayında daha düşük bir notadan daha büyük bir aralıkta kaydırılır], ancak bu oldukça sıra dışı ve müzikal değil.[kaynak belirtilmeli ])

Bulaşma daha az fark edilir olduğundan, zaman alanı işleme burada çok daha iyi çalışır, ancak vokal örneklerini ölçeklendirmek, Formants bir çeşit Alvin ve Sincaplar Bir sesin biçimlerini ve karakterini koruyan bir süreç, sinyalin bir sesle analiz edilmesini içerir. kanal ses kodlayıcı veya LPC ses kodlayıcı artı herhangi biri perde algılama algoritmaları ve sonra onu farklı bir temel frekansta yeniden sentezlemek.

Perde kaydırma için daha eski analog kayıt tekniklerinin ayrıntılı bir açıklaması, Alvin ve Sincaplar giriş.

Ayrıca bakınız

diğerleri

Referanslar

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^ Jont B. Allen (Haziran 1977). "Kısa Süreli Spektral Analiz, Sentez ve Ayrık Fourier Dönüşümü ile Modifikasyon". Akustik, Konuşma ve Sinyal İşleme ile ilgili IEEE İşlemleri. ASSP-25 (3): 235–238.
  4. ^ McAulay, R. J .; Quatieri, T. F. (1988), "Sinüzoidal Modele Dayalı Konuşma İşleme" (PDF), Lincoln Laboratuvar Dergisi, 1 (2): 153–167, şuradan arşivlendi: orijinal (PDF) 2012-05-21 tarihinde, alındı 2014-09-07
  5. ^ David Malah (Nisan 1979). "Harmonik bant genişliğini azaltma ve konuşma sinyallerinin zaman ölçeklendirmesi için zaman alan algoritmaları". Akustik, Konuşma ve Sinyal İşleme ile ilgili IEEE İşlemleri. ASSP-27 (2): 121-133.
  6. ^ Jonathan Driedger ve Meinard Müller (2016). "Müzik Sinyallerinin Zaman Ölçeğinde Değişiklik Yapılmasına Dair Bir İnceleme". Uygulamalı Bilimler. 6 (2): 57. doi:10.3390 / app6020057.
  7. ^ Değişken Konuşma, Yaratıcı Hesaplama Cilt. 9, No. 7 / Temmuz 1983 / s. 122
  8. ^ http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128

Dış bağlantılar