24小時聯系電話:18217114652、13661815404
中文
公司新聞
嵌入式媒體處理中的語音處理模型
嵌入式媒體處理中的語音處理模型
語音和音頻處理都處理可聽數據,盡管語音處理的頻率范圍是 20 Hz 到 4 kHz,而音頻處理的頻率范圍是 20 Hz 到 20 kHz。語音和音頻處理之間有一個主要區別:語音壓縮機制基于人類聲帶,而音頻壓縮機制基于人耳系統。
語音處理是數字信號處理的一個子集。人類聲道的某些特性與一些數學技術一起使用來實現語音信號的壓縮,以便通過 VoIP 和蜂窩網絡傳輸數據。
語音處理大致分為:
語音編碼:通過刪除數據中的冗余來壓縮語音以減少數據大小以用于存儲和流式傳輸。
語音識別:算法識別口語單詞并將其轉換為文本的能力。
說話人驗證/識別:用于銀行業的安全應用,以確定說話人的身份。
語音增強:用于消除噪音和增加增益,使錄制的語音更清晰。
語音合成:人工生成人類語音以進行文本到語音的轉換。
從語音處理的角度剖析人類聲帶
人耳對 50 Hz 至 4 KHz 之間的能量信號最為敏感。語音信號由聲音序列組成。當空氣被擠出肺部時,聲道的聲學激發產生聲音/語音信號。肺在言語產生過程中充當供氣設備。聲帶(如下圖所示)實際上是改變聲門面積的兩層膜。當我們呼吸時,聲帶保持打開狀態,但當我們說話時,它們會打開和關閉。
當空氣被擠出肺部時,聲帶附近的氣壓就會升高。一旦氣壓達到某個閾值,聲帶/褶皺就會打開,空氣流過它們會導致膜振動。聲帶振動的頻率取決于聲帶的長度和聲帶的張力。該頻率稱為基頻或音調頻率,它定義了人類的音調。統計發現人類的基頻在以下范圍內:
男士 50 Hz 至 200 Hz
150 Hz 至 300 Hz 女性和
兒童 200 Hz 至 400 Hz
人類的語音可以大致分為三種類型的聲音:
濁音:當空氣從肺部流過聲道時,聲帶振動產生的聲音,例如 a、b、m、n 等。濁音帶有低頻成分。在濁音產生期間,聲帶大部分時間是閉合的。
清音:聲帶不振動的清音??諝馔ㄟ^聲道的持續流動會產生清音,例如 shh、sss、f 等。清音帶有高頻分量。在清音產生期間,聲帶大部分時間是開放的。
其他聲音:這些聲音可以分類為:
鼻音:聲帶與鼻道在聲學上耦合,即通過鼻孔和嘴唇發出的聲音,例如 m、n、ing 等。
爆破音:這些聲音是聲道前部閉合處附近壓力的積累和突然釋放的結果,例如 p、t、b 等
聲道的橫截面積根據我們打算產生的聲音而變化。共振峰頻率可以定義為能量高度集中的頻率。統計上,已經觀察到對于每 kHz 大約有一個共振峰頻率。因此,我們可以在 4 KHz 的人類語音頻率范圍內觀察到總共 3-4 個共振峰頻率。
由于人類語音的帶寬為 0 到 4
KHz,我們基于奈奎斯特準則以 8 KHz 對語音信號進行采樣以避免混疊。
語音制作模型
根據語音信號(濁音或清音)的內容,語音信號包括一系列脈沖(對于濁音)或隨機噪聲(對于清音)。這個信號頻譜在聲道中移動。聲道充當頻譜整形濾波器,即聲道的頻率響應被施加到傳入語音信號上。聲道的形狀和大小決定了頻率響應,從而決定了人聲的差異。
開發準確的語音生成模型需要開發基于語音過濾器的人類語音生成機制模型。假定激發源和聲道是相互獨立的。因此,它們都是單獨建模的。為了對聲道進行建模,假設聲道在 10 毫秒的時間段內具有定義的特征。因此,每 10 毫秒一次,聲道配置會發生變化,從而產生新的聲道參數(即共振/共振峰頻率)
要建立準確的語音生成模型,必須建立基于語音濾波器的模型。該模型必須準確地表示以下內容:
人類語言產生機制的激發技術。
唇鼻發聲過程。
聲道的復雜操作。
濁音和
無聲的講話。
S(z) = E(z) * G(z) * A*V(z) * R(z)
在哪里:
S(z) => 模型輸出的語音
E(z) => 激勵模型
G(z) => 聲門模型
A => 增益因子
V(z) => 聲帶模型
R(z) => 輻射模型
激勵模型:模型的激勵函數的輸出將根據產生的語音的特征而變化。
在濁音過程中,激勵將由一系列脈沖組成,每個脈沖以基音周期的間隔間隔開。
在清音過程中,激勵將是白噪聲/隨機噪聲類型的信號。
聲門模型:聲門模型專門用于人類語音的濁音部分。聲門流在語音識別和語音合成機制中區分說話者。
增益系數:聲音的能量取決于增益系數。通常,濁音的能量比清音的能量大許多倍。
聲道模型:一連串無損管(短而圓柱形)構成聲道的基礎/模型(如下圖 4所示),每個管都有自己的共振頻率。無損管的設計因人而異。共振頻率取決于管子的形狀,因此不同人的聲音也不同。
上述聲道模型通常用于低比特率語音編解碼器、語音識別系統、說話人認證/識別系統以及語音合成器。為每一幀語音導出聲道模型的系數是必不可少的。用于導出語音編解碼器中聲道模型系數的典型技術是線性預測編碼 (LPC)。LPC 聲碼器可以實現 1.2 到 4.8 kbps 的比特率,因此被歸類為低質量、中等復雜度和低比特率算法。
使用 LPC,我們可以從過去的語音樣本中導出當前的語音樣本值。
在時域中,語音方程可以粗略表示如下:
當前語音樣本 = [(系數 X 過去的語音樣本)+ 增益修正的激勵]
概括
語音信號的特性取決于人類語音產生系統。語音生成模型源自人類語音生成系統的基本原理。
因此,了解人類語音生成系統的特征對于設計語音壓縮、語音合成和語音識別技術的算法至關重要。語音生成模型用于將模擬語音轉換為數字形式,以通過電話應用程序(蜂窩電話、有線電話和互聯網上的 VoIP 流)、文本到語音轉換、語音編碼以通過壓縮有效利用帶寬將語音信號降低比特率以在相同帶寬內容納更多用戶。