語音處理
編輯語音處理是對語音信號和信號處理方法的研究。信號通常以數字表示形式進行處理,因此語音處理可以看作是數字信號處理的一種特殊情況,應用于語音信號。語音處理的方面包括語音信號的獲取、操作、存儲、傳輸和輸出。輸入稱為語音識別,輸出稱為語音合成。
語音處理的歷史
編輯語音處理和識別的早期嘗試主要集中在理解一些簡單的語音元素,如元音。1952年,貝爾實驗室的三位研究人員斯蒂芬.Balashek、R.Biddulph和KHDavis開發了一種系統,可以識別單個說話者所說的數字。1940年代報道了使用頻譜分析的語音識別領域的開創性工作。
線性預測編碼(LPC)是一種語音處理算法,由名古屋大學的板倉文忠和日本電報電話(NTT)的齋藤修三于1966年首次提出。BishnuS.Atal進一步發展了LPC技術和1970年代貝爾實驗室的ManfredR.Schroeder。LPC是IP語音(VoIP)技術的基礎,以及語音合成器芯片,例如Speak&Spell中使用的德州儀器LPC語音芯片1978年的玩具。
1990年發布的首批商用語音識別產品之一是DragonDictate。1992年,由勞倫斯·拉賓納(LawrenceRabiner)和貝爾實驗室的其他人開發的技術被AT&T在其語音識別呼叫處理服務中使用,以在沒有人工接線員的情況下路由呼叫。至此,這些系統的詞匯量已經超過了人類的平均詞匯量。
到2000年代初,占主導地位的語音處理策略開始從隱馬爾可夫模型轉向更現代的神經網絡和深度學習。
語音處理的技術
編輯動態時間扭曲
動態時間扭曲(DTW)是一種用于測量兩個時間序列之間相似性的算法,其速度可能會有所不同。通常,DTW是一種計算兩個給定序列(例如時間序列)之間的最佳匹配的方法,具有一定的限制和規則。最佳匹配由滿足所有限制和規則并且具有最小成本的匹配表示,其中成本計算為每個匹配的索引對在它們的值之間的xxx差的總和。
隱馬爾可夫模型
一個隱馬爾可夫模型可以表示為最簡單的動態貝葉斯網絡。該算法的目標是在給定觀測值列表y(t)的情況下估計隱藏變量x(t)。通過應用馬爾可夫性質,在給定隱藏變量x的值的情況下,隱藏變量x(t)在時間t的條件概率分布僅取決于隱藏變量x(t?1)的值。類似地,觀測變量y(t)的值僅取決于隱藏變量x的值(t)(都在時間t)。
人工神經網絡
人工神經網絡(ANN)基于稱為人工神經元的連接單元或節點的集合,它們對生物大腦中的神經元進行松散的建模。每個連接,就像生物大腦中的突觸一樣,可以將信號從一個人工神經元傳輸到另一個人工神經元。接收信號的人工神經元可以對其進行處理,然后向與其連接的其他人工神經元發出信號。在常見的ANN實現中,人工神經元之間連接處的信號是實數,每個人工神經元的輸出是通過其輸入之和的某個非線性函數計算的。
語音處理的應用
編輯內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/132219/