• 聲碼器

    編輯
    本詞條由“匿名用戶” 建檔。

    聲碼器

    編輯

    聲碼器/?v?o????o??d??r?/,一個混成的話音和編碼器)是一個類別的語音編解碼器的是分析和合成的人聲信號的音頻數據壓縮、復用、話音加密或語音變換。

    聲碼器是荷爾·杜德利(Homer Dudley)在貝爾實驗室(Bell Labs)于1938年發明的,它是一種合成人類語音的方法。這項工作被發展為信道聲碼器,它被用作電信的語音編解碼器,對語音進行編碼以節省傳輸帶寬

    通過對控制信號進行加密,可以確保語音傳輸不會被攔截。它以這種方式的主要用途是用于安全的無線電通信。這種加密方法的優點是,不發送任何原始信號,僅發送帶通濾波器的包絡。接收單元需要設置為相同的濾波器配置,以重新合成原始信號頻譜的版本。

    聲碼器

    聲碼器還被廣泛用作電子樂器。聲碼器的解碼器部分稱為voder,可以獨立用于語音合成

    聲碼器理論

    編輯

    聲碼器的人聲包括由所述開口和所述的開閉生成的聲音的聲門由聲帶,其產生與許多周期性波形的諧波。然后,基本聲音被鼻子和喉嚨(復雜的共振管道系統)過濾,以受控方式產生諧波含量(共振峰)的差異,從而產生了語音中使用的多種聲音。還有另一組聲音,稱為清音和爆破音,由嘴以不同的方式創建或修改。

    聲碼器通過測量語音的頻譜特性隨時間的變化來檢查語音。這導致在用戶說話時在任何特定時間代表這些修改頻率的一系列信號。簡而言之,信號被分為多個頻帶(此數目越大,分析越準確),并且每個頻帶上存在的信號電平立即表示頻譜能量含量。為了重新創建語音,聲碼器只需逆轉該過程,將寬帶噪聲源通過一個根據原始記錄的數字序列對頻率內容進行濾波的階段即可對其進行處理。

    具體地,在編碼器中,輸入通過多頻帶濾波器,然后每個頻帶通過包絡跟隨器,并且來自包絡跟隨器的控制信號被發送到解碼器。解碼器將這些(振幅)控制信號施加到濾波器通道的相應放大器,以進行重新合成。

    丟棄有關原始語音信號瞬時頻率的信息(不同于其頻譜特性);對于聲碼器最初用作加密輔助功能而言,保留此信息并不重要。正是聲碼處理的“非人性化”方面使它在流行音樂和音頻娛樂中創建特殊的語音效果時很有用。

    聲碼器處理僅通過通信鏈路發送聲音模型的參數,而不是逐點重新創建波形。由于參數與原始語音波形相比變化緩慢,因此可以減少傳輸語音所需的帶寬。這允許更多的語音信道利用給定的通信信道,例如無線電信道或海底電纜

    模擬聲碼器通常通過將信號分成多個調諧的頻帶或范圍來分析輸入信號。甲調制器和載波信號通過一系列這些調諧的發送帶通濾波器。在典型的機器人聲音的示例中,調制器是麥克風,載體是噪聲或鋸齒波形。通常有8至20個頻段。

    每個單獨的分析頻帶的調制器的幅度會產生一個電壓,該電壓用于控制每個相應載波頻帶的放大器。結果是,隨著每個頻帶中離散幅度的變化,調制信號的頻率分量被映射到載波信號上。

    通常情況下,沒有清晰的樂隊或演奏會渠道。這適用于典型語音分析頻帶之外的頻率,但在語音中仍然很重要。例如,以字母s、f、ch或任何其他簡單的聲音開頭的單詞。這些可以與載波輸出混合以提高清晰度。結果是可識別的語音,盡管聽起來有些“機械”。聲碼器通常包括第二系統,該第二系統使用噪聲發生器而不是基頻來產生清音。

    在信道聲碼器算法中,在分析信號的兩個分量中,僅考慮幅度分量而僅忽略相位分量往往會導致聲音不清晰。有關糾正此問題的方法,請參見相位聲碼器

    現代實現

    編輯

    即使需要記錄多個頻率和其他清晰的聲音,聲碼器系統的壓縮也令人印象深刻。標準語音記錄系統捕獲大約500 Hz至3,400 Hz的頻率,其中語音中使用的大多數頻率都位于此頻率,通常使用8 kHz的采樣率(略大于奈奎斯特速率)。采樣分辨率通常為每個采樣分辨率12位或更多位(標準為16位),最終數據速率在96-128 kbit / s范圍內,但是一個好的聲碼器可以提供語音仿真的良好效果,而僅需少至2.4 kbit / s的數據。

    諸如ITU G.729之類的“收費質量”語音編碼器已在許多電話網絡中使用。特別是G.729的最終數據速率為8 kbit / s,具有出色的語音質量。G.723在5.3 kbit / s和6.4 kbit / s的數據速率下質量稍差。許多語音聲碼器系統使用較低的數據速率,但低于5 kbit / s的語音質量開始迅速下降。

    NSA加密系統中使用了幾種聲碼器系統:

    • LPC-10、FIPS Pub 137、2400 bit / s,使用線性預測編碼。
    • STU-III中使用的代碼激勵線性預測(CELP)、2400和4800 bit / s、聯邦標準1016。
    • 16 kbit / s的連續可變斜率增量調制(CVSD),用于諸如KY-57的寬帶加密器中。
    • 混合激勵線性預測(MELP)、MIL STD 3005、2400 bit / s,用于未來窄帶數字終端FNBDT(NSA的21世紀安全電話)。
    • 適應差分脈沖編碼調制(ADPCM),以前的ITU-T?G.721,在STE安全電話中使用的32 kbit / s

    (ADPCM是不正確的聲碼器,而是一個波形編解碼器。國際電聯已與其他一些ADPCM編解碼器為G.726一起聚集G.721)。

    聲碼器目前還用于發展心理物理學、語言學、計算神經科學人工耳蝸研究。

    當今用于通信設備和語音存儲設備中的現代聲碼器基于以下算法:

    • 代數碼激勵線性預測(ACELP 4.7 kbit / s – 24 kbit / s)
    • 混合激勵線性預測(MELPe 2400、1200和600 bit / s)
    • 多頻帶激勵(AMBE 2000 bit / s – 9600 bit / s)
    • 正弦脈沖表示(SPR 600 bit / s – 4800 bit / s)
    • 強大的高級低復雜度波形插值(RALCWI 2050bit / s,2400bit / s和2750bit / s)
    • 三波激勵線性預測(TWELP 600 bit / s – 9600 bit / s)
    • 噪聲健壯的聲碼器(NRV 300位/秒和800位/秒)

    基于線性預測

    自1970年代后期以來,大多數非音樂聲碼器已使用線性預測實現,從而通過全極點IIR?濾波器估算目標信號的頻譜包絡(共振峰)。在線性預測編碼中,全極點濾波器取代了其前身的帶通濾波器組,并在編碼器處用于使信號變白(即,使頻譜展平),在解碼器處再次用于重新應用目標的頻譜形狀語音信號。

    這種濾波的一個優點是線性預測變量頻譜峰的位置完全由目標信號確定,并且可以與要濾波的時間段所允許的精度一樣。這與使用固定寬度濾波器組實現的聲碼器相反,在聲碼器中,頻譜峰值通常只能確定在給定頻帶的范圍內。LP濾波的缺點還在于,具有大量組成頻率的信號可能會超出線性預測濾波器可以表示的頻率數量。此限制是LP編碼幾乎總是與高壓縮語音編碼器中的其他方法一起使用的主要原因。

    波形內插

    WB Kleijn于1995年左右在AT&T貝爾實驗室開發了波形內插(WI)聲碼器,隨后AT&T為DoD安全聲碼器競賽開發了低復雜度版本。加利福尼亞大學圣巴巴拉分校對WI編碼器進行了顯著增強。AT&T擁有與WI相關的核心專利,而其他機構則擁有其他專利。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/117597/

    (3)
    詞條目錄
    1. 聲碼器
    2. 聲碼器理論
    3. 現代實現
    4. 基于線性預測
    5. 波形內插

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久