TIMIT - TIMIT

TIMIT fonemik ve sözcüksel olarak transkribe edilmiş konuşmalardan oluşan bir külliyattır. Amerika İngilizcesi farklı cinsiyet ve lehçelerden konuşanlar. Kopyalanan her öğe, zaman içinde tanımlanmıştır.

TIMIT, akustik-fonetik bilgi ve otomatik konuşma tanıma sistemlerini daha da ileri götürmek için tasarlanmıştır. Tarafından yaptırıldı DARPA ve külliyat tasarımı, Massachusetts Teknoloji Enstitüsü, SRI Uluslararası, ve Texas Instruments (TI). Konuşma TI'da kaydedildi, MIT'de yazıya döküldü ve doğrulandı ve yayınlanmak üzere hazırlandı. Ulusal Standartlar ve Teknoloji Enstitüsü (NIST).[1] NTIMIT (Network TIMIT) adında bir telefon bant genişliği sürümü de vardır.

TIMIT ve NTIMIT ücretsiz olarak kullanılamaz - her iki üye de Dil Veri Konsorsiyumu veri kümesine erişim için parasal bir ödeme yapılması gerekir.

Tarih

TIMIT telefon topluluğu, konuşma örnekleriyle bir veritabanı oluşturmak için erken bir girişimdi.[2] 1988 yılında yayınlandı. CD-ROM ve konuşmacı başına yalnızca 10 cümleden oluşur. Her konuşmacı tarafından iki 'lehçe' cümlesi ve daha büyük bir setten seçilen başka 7 cümle okundu [3] Her cümle 30 saniye uzunluğundadır ve 630 farklı konuşmacı tarafından konuşulur.[4] Oluşturma ve dağıtmada ilk kayda değer girişimdi. konuşma külliyatı ve genel proje 1.5 milyon ABD doları maliyet üretmiştir.[5]

Projenin tam adı DARPA-TIMIT Akustik-Fonetik Sürekli Konuşma Derlemidir.[6] ve TIMIT kısaltması, Texas Instruments / Massachusetts Teknoloji Enstitüsü anlamına gelir. Bir telefon konuşması külliyatının yaratılmasının ana nedeni, eğitim vermekti. Konuşma tanıma yazılım. İçinde Blizzard meydan okuması, farklı yazılımların ses kayıtlarını metin verilerine dönüştürme yükümlülüğü vardır ve TIMIT derlemi standartlaştırılmış bir temel olarak kullanılmıştır.[7]

Makine Öğrenimi Yöntemi Karşılaştırması

TIMIT veri kümesinde ses birimi tanıma yöntemlerinin karşılaştırması
Ders çalışmaYöntemDoğruluk (%)
Cao ve Fan[8]KIRF93.1
Bird vd.[9]DEvo MLP92.85
Cao ve Fan[8]NPCD / MPLSR92.8
Cao ve Fan[8]NPCD / PCA92.1
Cao ve Fan[8]MPLSR91.1
Cao ve Fan[8]PDA / Sırt91.1
Li ve GhosalUMP89.25
Li ve GhosalMLO85.25
Li ve GhosalQDA83.75
Ager vd.GMM81.5
Li ve Yu[10]FSDA81.5
Li ve Yu[10]FSVM78

Ayrıca bakınız

Referanslar

  1. ^ Fisher, William M .; Doddington, George R .; Goudie-Marshall, Kathleen M. (1986). DARPA Konuşma Tanıma Araştırma Veritabanı: Özellikler ve Durum. s. 93–99.
  2. ^ Morales, Nicolas ve Tejedor, Javier ve Garrido, Javier ve Colas, Jose ve Toledano, Doroteo T (2008). "STC-TIMIT Tek kanallı bir telefon topluluğunun oluşturulması". Altıncı Uluslararası Dil Kaynakları ve Değerlendirme Bildirileri (LREC'08): 391–395.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)
  3. ^ Lori F Lamel ve Robert H. Kassel ve Stephanie Seneff (1986). Konuşma Veritabanı Geliştirme: Akustik-Fonetik Derlemin Tasarımı ve Analizi (Teknik rapor). DARPA (SAIC-86/1546).
  4. ^ John S Garofolo ve Lori F Lamel ve William M Fisher ve Jonathan G Fiscus ve David S Pallett ve Nancy L Dahlgren (1993). DARPA TIMIT: (Teknik rapor). Ulusal Standartlar ve Teknoloji Enstitüsü. doi:10.6028 / nist.ir.4930.
  5. ^ Nattanun Chanchaochai ve Christopher Cieri ve Japhet Debrah ve Hongwei Ding ve Yue Jiang ve Sishi Liao ve Mark Liberman ve Jonathan Wright ve Jiahong Yuan ve Juhong Zhan ve Yuqing Zhan (2018). GlobalTIMIT: Dünya Dilleri için Akustik-Fonetik Veri Kümeleri. Interspeech 2018. ISCA. doi:10.21437 / interspeech.2018-1185.
  6. ^ Bauer, Patrick ve Scheler, David ve Fingscheidt, Tim (2010). WTIMIT: 3G AMR Geniş Bant Mobil Ağı Üzerinden İletilen TIMIT Konuşma Topluluğu. LREC.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)
  7. ^ Sawada, Kei ve Asai, Chiaki ve Hashimoto, Kei ve Oura, Keiichiro ve Tokuda, Keiichi (2016). Blizzard Challenge 2016 için NITech metin okuma sistemi. Blizzard Challenge 2016 Çalıştayı.CS1 bakimi: birden çok ad: yazarlar listesi (bağlantı)
  8. ^ a b c d e Cao, Jiguo; Fan, Guangzhe (2010). Çekirdeklerle Rastgele Orman Kullanarak Sinyal Sınıflandırması. IEEE. doi:10.1109 / aict.2010.81. ISBN  978-1-4244-6748-8.
  9. ^ Bird, Jordan J .; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Çok amaçlı evrimsel algoritmalar aracılığıyla fonetik duyarlı konuşma tanımanın optimizasyonu". Uygulamalarla uzmanlık sistmeleri. Elsevier BV. 153: 113402. doi:10.1016 / j.eswa.2020.113402. ISSN  0957-4174.
  10. ^ a b Li, Bin; Yu, Qingzhao (2008). "İşlevsel verilerin sınıflandırılması: Bir bölümleme yaklaşımı". Hesaplamalı İstatistikler ve Veri Analizi. Elsevier BV. 52 (10): 4790–4800. doi:10.1016 / j.csda.2008.03.024. ISSN  0167-9473.

Dış bağlantılar