Sesli bilgi işlem - Voice computing

Amazon Echo bir sesli bilgisayar örneği

Sesli bilgi işlem ses girişlerini işlemek için donanım veya yazılım geliştiren disiplindir.[1]

Aşağıdakiler dahil birçok başka alanı kapsar: insan bilgisayar etkileşimi, etkileşimli hesaplama, dilbilim, doğal dil işleme, otomatik konuşma tanıma, konuşma sentezi, ses mühendisliği, dijital sinyal işleme, Bulut bilişim, veri bilimi, ahlâk, yasa, ve bilgi Güvenliği.

Sesli bilgi işlem, modern zamanlarda, özellikle de akıllı hoparlörler gibi Amazon Echo ve Google Asistan doğru bir kayma sunucusuz bilgi işlem ve iyileştirilmiş doğruluk Konuşma tanıma ve konuşma metni modeller.

Tarih

Sesli hesaplamanın zengin bir geçmişi vardır.[2] İlk olarak, bilim adamları Wolfgang Kempelen ilk sentetik konuşma seslerini üretmek için konuşma makineleri kurmaya başladı. Bu, Thomas Edison'un ses kaydı yapmak için daha fazla çalışmasına yol açtı. dikte makineleri ve kurumsal ortamlarda oynatın. 1950'lerde-1960'larda, otomatikleştirilmiş inşa etmek için ilkel girişimler vardı. Konuşma tanıma sistemler Bell Laboratuvarları, IBM, ve diğerleri. Ancak, 1980'lere kadar Gizli Markov Modelleri konuşma tanıma sistemlerinin uygun hale geldiği 1.000 kelimeye kadar tanımak için kullanıldı.

TarihEtkinlik
1784Wolfgang von Kempelen Akustik-Mekanik konuşma makinesini oluşturur.
1879Thomas Edison ilkini icat eder dikte makinesi.
1952Bell Laboratuvarları Salıverme Audrey, söylenen rakamları% 90 doğrulukla tanıyabilir.
1962IBM Shoebox 16 kelimeye kadar tanıyabilir.
1971Harpy 1000'den fazla kelimeyi anlayabilen oluşturulur.
1986IBM Tangora kullanır Gizli Markov Modelleri konuşmadaki fonemleri tahmin etmek.
2006Ulusal Güvenlik Ajansı normal sohbetler sırasında özel kelime saptama konusunda araştırmaya başlar.
2008Google bir ses uygulaması başlatır, mobil cihazlara konuşma tanıma getirir.
2011elma iPhone'da Siri'yi serbest bırakır
2014Amazon Salıverme Amazon Echo ses bilişimini genel olarak halkla alakalı hale getirmek.

2011 civarı, Siri tüketicilerin erişebildiği ilk sesli asistan olarak Apple iPhone'larda ortaya çıktı. Bu yenilik, sese öncelik veren bilgi işlem mimarileri oluşturmaya doğru çarpıcı bir değişime yol açtı. PS4 2013 yılında Sony tarafından Kuzey Amerika'da piyasaya sürüldü (70 milyondan fazla cihaz), Amazon Amazon Echo 2014'te (30+ milyon cihaz), Microsoft Cortana'yı piyasaya sürdü (2015 - 400 milyon Windows 10 kullanıcısı), Google yayınladı Google Asistan (2016 - Android telefonlarda 2 milyar aktif aylık kullanıcı) ve elma yayınlandı HomePod (2018 - 500.000 cihaz satıldı ve iOS / Siri ile 1 milyar aktif cihaz). Bulut altyapısındaki gelişmelerle birlikte bu değişiklikler (ör. Amazon Web Hizmetleri ) ve codec bileşenleri, ses bilişim alanını sağlamlaştırdı ve genel olarak kamuoyuyla geniş çapta alakalı hale getirdi.

Donanım

Bir sesli bilgisayar ses girişlerini işlemek için birleştirilmiş donanım ve yazılımdır.

Geleneksel bilgisayarlarda olduğu gibi sesli bilgisayarların mutlaka bir ekrana ihtiyaç duymadığını unutmayın. Amazon Echo. Diğer uygulamalarda, geleneksel dizüstü bilgisayarlar veya cep telefonları ses bilgisayarı olarak kullanılabilir. Dahası, ses bilgisayarları için giderek daha fazla arayüz haline geldi. IoT - otomobillerin veya televizyonların içindeki gibi etkinleştirilmiş cihazlar.

Eylül 2018 itibarıyla şu anda Amazon Alexa ile uyumlu 20.000'den fazla cihaz türü bulunmaktadır.[3]

Yazılım

Ses bilgi işlem yazılımı, ses dosyalarını okuyabilir / yazabilir, kaydedebilir, temizleyebilir, şifreleyebilir / şifresini çözebilir, oynatma, kod dönüştürme, yazıya dönüştürme, sıkıştırma, yayınlama, özellik oluşturma, modelleme ve görselleştirme işlemleri yapabilir.

İşte sesli bilgi işlemle ilgili bazı popüler yazılım paketleri:

Paket ismiAçıklama
FFmpegiçin kod dönüştürme bir formattan diğerine ses dosyaları (örneğin .WAV -> .MP3).[4]
Audacityses kaydetmek ve filtrelemek için.[5]
SoXses dosyalarını değiştirmek ve çevresel gürültüyü ortadan kaldırmak için.[6]
Natural Language Toolkitdeşifre etmek için konuşmanın bölümleri.[7]
LibROSAses dosyası spektrogramlarını görselleştirmek ve ses dosyalarını özel kılmak için.[8]
OpenSMILEmel-frekans cepstrum katsayıları gibi şeylere sahip ses dosyalarını özelleştirme için.[9]
CMU Sfenkskonuşma dosyalarını metne dönüştürmek için.[10]
Pyttsx3ses dosyalarını oynatmak için (metinden konuşmaya).[11]
Pycryptodomeses dosyalarını şifrelemek ve şifresini çözmek için.[12]

Başvurular

Sesli bilgi işlem uygulamaları, ses asistanları, sağlık hizmetleri, e-Ticaret, finans, tedarik zinciri, tarım, metin okuma, güvenlik, pazarlama, müşteri desteği, işe alma, bulut bilgi işlem, mikrofonlar, hoparlörler ve podcasting dahil olmak üzere birçok sektörü kapsar. Ses teknolojisinin 2025 yılına kadar% 19-25'lik bir YBBO'da büyüyeceği tahmin ediliyor ve bu da onu hem yeni başlayanlar hem de yatırımcılar için çekici bir sektör haline getiriyor.[13]

Kullanım alanıÖrnek Ürün veya Başlangıç
Sesli asistanlarCortana,[14] Amazon Alexa,[15] Siri,[16] Google Asistan,[17] Apple HomePod,[18] Jasper,[19] ve Nala.[20], Alexa Ses Hizmeti[21]
Sağlık hizmetiKardiyoküp,[22] Toneboard,[23] Suki,[24] Praktice.ai,[25] Corti,[26] ve Hece.[27]
e-TicaretSerebel,[28] Voysis,[29] Mindori,[30] Twiggle,[31] ve Addstructure.[32]
FinansmanKasisto,[33] Personetik,[34] Voxo,[35] ve Aktif Zeka.[36]
Tedarik zinciri ve İmalatKehanet,[37] Kextil,[38] 3DSinyaller,[39] Voxware,[40] ve Otosense.[41]
TarımAgvoice.[42]
Konuşma metniLyrebyrd [43] ve VocalID.[44]
GüvenlikPindrop güvenliği [45] ve Aimbrain.[46]
PazarlamaConvirza,[47] Dialogtech,[48] Invoca,[49] ve Veritonic.[50]
Müşteri desteğiCogito.,[51] Afiniti,[52] Aaron.ai,[53] Blueworx,[54] Servo.ai,[55] SmartAction ve Chatdesk.[56]
İşe almaSurveyLex [57] ve Sesli bakış.[58]
Konuşmadan yazıyaSes tabanı,[59] Konuşmamatiği,[60] Capio,[61] Nuance ve Spitch.[62], AWS Uyarlamak
Bulut bilişimAWS,[63] GCP,[64] IBM Watson,[65] ve Microsoft Azure.[66]
Mikrofon /hoparlör tasarımBose [67] ve Audio Technica.[68]
PodcastingÇapa [69] ve iTunes.[70]

Yasal hususlar

Amerika Birleşik Devletleri'nde eyaletler değişiyor telefon görüşmesi kayıt yasaları. Bazı eyaletlerde, yalnızca bir tarafın rızasıyla bir görüşmeyi kaydetmek yasaldır, bazılarında ise tüm tarafların rızası gerekir.

Dahası, COPPA İnternet kullanan küçükleri korumaya yönelik önemli bir yasadır. 23 Ekim 2017'de sesli bilgi işlem cihazlarıyla (ör.Amazon Alexa) etkileşime giren küçüklerin sayısının artmasıyla Federal Ticaret Komisyonu COPAA kuralını gevşeterek çocukların sesli arama ve komutlar verebilmesini sağladı.[71][72]

Son olarak, GDPR yöneten yeni bir Avrupa yasasıdır unutulma hakkı ve AB vatandaşları için diğer birçok madde. GDPR, şirketlerin, ses kayıtları yapılırsa onay almak için net önlemleri belirlemeleri ve bu kayıtların nasıl kullanılacağına ilişkin amaç ve kapsamı, örneğin eğitim amaçlı olarak tanımlamaları gerektiği de açıktır. GDPR kapsamında geçerli izin çıtası yükseltilmiştir. Onaylar serbestçe verilmeli, spesifik, bilgili ve açık olmalıdır; zımni onay artık yeterli değildir.[73]

Araştırma konferansları

Ses bilgi işlemle ilgili birçok araştırma konferansı vardır. Bunlardan bazıları şunları içerir:

Geliştirici topluluğu

Google Asistan'ın Ocak 2018 itibarıyla yaklaşık 2.000 işlemi var.[78]

Eylül 2018 itibarıyla dünya çapında 50.000'den fazla Alexa becerisi var.[79]

Haziran 2017'de, Google AudioSet yayınlandı,[80] YouTube videolarından alınan büyük ölçekli, insan etiketli 10 saniyelik ses klipleri koleksiyonu. 1.010.480 insan konuşma dosyası videosu veya toplamda 2.793,5 saat içerir.[81] IEEE ICASSP 2017 Konferansı'nın bir parçası olarak yayınlandı.[82]

Kasım 2017'de, Mozilla Vakfı Daha büyük açık kaynak makine öğrenimi topluluğuna katkıda bulunmaya yardımcı olmak için bir konuşma dosyaları koleksiyonu olan Common Voice Project'i yayınladı.[83][84] Ses bankası şu anda 12GB boyutunda ve projenin başlangıcından bu yana 112 ülkeden toplanan 500 saatten fazla İngilizce ses verisi Haziran 2017.[85] Bu veri kümesi, açık kaynaklı bir transkripsiyon modeli olan DeepSpeech modeli gibi yaratıcı projelerle sonuçlandı.[86]

Ayrıca bakınız

Referanslar

  1. ^ Schwoebel, J. (2018). Python'da Sesle Hesaplamaya Giriş. Boston; Seattle, Atlanta: NeuroLex Laboratuvarları. https://neurolex.ai/voicebook
  2. ^ Konuşma Tanıma için Zaman Çizelgesi. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
  3. ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ Cüret. https://www.audacityteam.org/
  6. ^ SoX. http://sox.sourceforge.net/
  7. ^ NLTK. https://www.nltk.org/
  8. ^ LibROSA. https://librosa.github.io/librosa/
  9. ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
  10. ^ "PocketSphinx, özellikle avuç içi ve mobil cihazlar için ayarlanmış hafif bir konuşma tanıma motorudur, ancak masaüstünde eşit derecede iyi çalışır: Cmusphinx / Pocketsphinx". 29 Mart 2020.
  11. ^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
  12. ^ Pycryptodome. https://pycryptodome.readthedocs.io/en/latest/
  13. ^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
  14. ^ Cortana. https://www.microsoft.com/en-us/cortana
  15. ^ Amazon Alexa. https://developer.amazon.com/alexa
  16. ^ Siri. https://www.apple.com/siri/
  17. ^ Google Asistan. https://assistant.google.com/#?modal_active=none
  18. ^ HomePod. https://www.apple.com/homepod/
  19. ^ Jasper https://jasperproject.github.io/
  20. ^ Nala. https://github.com/jim-schwoebel/nala
  21. ^ Alexa Ses Hizmeti. https://developer.amazon.com/alexa-voice-service
  22. ^ Kardiyoküp. https://www.cardiocube.com/
  23. ^ Toneboard. https://toneboard.com/
  24. ^ Suki. https://www.suki.ai/
  25. ^ Praktice.ai. https://praktice.ai/
  26. ^ Corti. https://corti.ai/
  27. ^ Hece. https://www.syllable.ai/
  28. ^ Cerebel. https://map.startuplithuania.lt/companies/cerebel
  29. ^ Voysis. https://voysis.com/
  30. ^ Mindori. http://mindori.com/
  31. ^ Twiggle. https://www.twiggle.com/
  32. ^ AddStructure. https://www.crunchbase.com/organization/addstructure
  33. ^ Kasisto. https://kasisto.com/
  34. ^ Personetik. https://personetics.com/
  35. ^ Voxo. https://www.voxo.ai/
  36. ^ Aktif Zeka. https://active.ai/
  37. ^ Kehanet. https://www.augury.com/
  38. ^ Kextil. http://www.kextil.com/
  39. ^ 3DSinyaller. https://www.3dsig.com/
  40. ^ Voxware. https://www.voxware.com/
  41. ^ Otosense. https://www.otosense.com/
  42. ^ Agvoice. https://agvoiceglobal.com/
  43. ^ Lyrebird. https://lyrebird.ai/
  44. ^ VocalD. https://vocalid.ai/
  45. ^ Pindrop. https://www.pindrop.com/
  46. ^ Aimbrain. https://aimbrain.com/
  47. ^ Convirza. https://www.convirza.com/
  48. ^ Dialogtech. https://www.dialogtech.com/
  49. ^ Invoca. https://www.invoca.com/
  50. ^ Veritonic. https://veritonic.com/
  51. ^ Cogito. https://www.cogitocorp.com/
  52. ^ Afiniti. https://www.afiniti.com/
  53. ^ Aaron.ai. https://aaron.ai/
  54. ^ Blueworx. https://www.blueworx.com/
  55. ^ Servo.ai. https://www.servo.ai/
  56. ^ Chatdesk. https://chatdesk.com/
  57. ^ SurveyLex. https://www.surveylex.com/
  58. ^ Sesli bakış. https://voiceglance.com/
  59. ^ Ses tabanı. https://www.voicebase.com/
  60. ^ Konuşmamatiği. https://www.speechmatics.com/
  61. ^ Capio. https://www.capio.ai/
  62. ^ Spitch. https://www.spitch.ch/
  63. ^ AWS. https://aws.amazon.com/
  64. ^ GCP. https://cloud.google.com/
  65. ^ IBM Watson. https://www.ibm.com/watson/
  66. ^ Microsoft Azure. https://azure.microsoft.com/en-us/
  67. ^ Bose hoparlörler. https://www.bose.com/en_us/shop_all/speakers/speakers.html
  68. ^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
  69. ^ Çapa. https://anchor.fm/
  70. ^ iTunes. https://www.apple.com/itunes/
  71. ^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
  72. ^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and- kullanım
  73. ^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  74. ^ Interspeech 2018. http://interspeech2018.org/
  75. ^ AVEC 2018. http://avec2018.org/
  76. ^ 2018 FG. https://fg2018.cse.sc.edu/
  77. ^ ASCII 2019. http://acii-conf.org/2019/
  78. ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
  79. ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.
  80. ^ Google AudioSet. https://research.google.com/audioset/
  81. ^ Ses seti verileri. https://research.google.com/audioset/dataset/speech.html
  82. ^ Gemmeke, J.F., Ellis, D. P., Freedman, D., Jansen, A., Lawrence, W., Moore ve Ritter, M. (2017, Mart). Ses kümesi: Ses olayları için bir ontoloji ve insan etiketli veri kümesi. Akustik, Konuşma ve Sinyal İşleme (ICASSP), 2017 IEEE Uluslararası Konferansı (s. 776-780). IEEE.
  83. ^ Ortak Ses Projesi. https://voice.mozilla.org/
  84. ^ Ortak Ses Projesi. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
  85. ^ Mozilla'nın geniş ses verisi deposu, makine öğreniminin geleceğini şekillendirecek. https://opensource.com/article/18/4/common-voice
  86. ^ DeepSpeech. https://github.com/mozilla/DeepSpeech