24小時聯系電話:18217114652、13661815404
中文
技術專題
語音控制系統中的功耗降低
語音控制系統中的功耗降低
僅使用語音來控制機器的能力已成為許多商業和消費者系統中的流行功能。但是語音控制的問題在于設備必須始終處于監聽狀態,這意味著必須始終為其供電。不過,新的選擇正在不斷涌現,它們可以幫助設計人員減少語音激活設計的功耗。
使機器對口頭命令做出適當響應是一個巨大的處理挑戰。它要求系統首先有一個麥克風來拾取聲音,一個數字轉換器將聲音轉換成處理器可以使用的東西,然后進行大量的數字信號處理以從聲音中提取語音信息。涉及的處理量將取決于需要識別的命令字的數量。詞匯量有限的系統可以使用圖1中所示的結構進行本地處理,以進行單詞發現,而需要自然語音理解的系統可以使用云計算資源進行進一步處理。
圖1典型的語音控制系統必須不斷處理聲音以尋找命令字
不幸的是,大多數時候沒有語音發生,并且浪費了處理和消耗的功率。通過要求用戶首先按下按鈕等來啟動語音處理,可以避免浪費。但是,如果僅通過語音激活系統,則必須始終捕獲并處理聲音,以免丟失命令。這對于電池供電的應用特別引起關注,因為語音處理的“始終在線”性質可能會消耗大量電池。
為了減少浪費的精力并節省功率,語音處理系統通常會使用“喚醒”字進行激活。這種方法所需的功率較小,因為在大多數情況下,語音處理只需要能夠識別單個特定單詞,而不是其全部功能詞匯。因此,該系統可以在偵聽喚醒字的同時運行更簡單,耗電更少的處理算法,從而暫停整個語音處理工作,直到檢測到喚醒字為止。
為了追求這種方法,業界已經投入大量精力來開發需要最小功率的喚醒單詞引擎。通常,這些引擎只能識別幾個單詞,從而為用戶提供可能的喚醒選項的選擇。但是,某些引擎可以識別足夠多的單詞,以提供有限形式的語音控制,從而提供多個命令。但是,對于更復雜的語音控制,喚醒詞引擎的目的只是為了及時激活功能更強大,更耗電的處理,以接收和解釋將跟隨喚醒詞的語音命令。
這些喚醒詞引擎在不斷發展。最近的一項介紹是將Retune的VoiceSpot單詞斑點算法與CEVA的低功耗DSP系列配對。該組合可以執行波束成形和聲學回聲消除,以提高在存在噪聲的情況下單詞識別以及喚醒單詞識別的可靠性。該算法的總內存占用量不到80 KB,主要針對較小的,由電池供電的應用,例如耳塞,智能手表和運動相機。
另一個最新的介紹將Cyberon的CSpotter算法與瑞薩的RA6系列微控制器結合使用。該算法使用基于音素的建模,支持30多種語言。它可以用作喚醒引擎或使用多個不同的命令集提供本地語音控制。該處理器為數字麥克風提供I 2 S(IC間聲音)接口,從而無需ADC。
兩種方法盡管已將語音識別任務減至最少,但仍依靠數字信號處理來進行喚醒詞識別。這為始終接通的電源需求設置了下限,這在電池供電的應用中可能仍然很麻煩。但是,還有另一種技術可以為始終在線的喚醒字識別節省更多功率。
模擬機器學習技術是關鍵。RAMP(可重配置模擬模塊化處理器)芯片,首先將聲音識別為語音,然后再嘗試確定語音是否在說喚醒詞。RAMP芯片允許系統執行的操作是,在執行任何語音處理之前,先確定所檢測到的聲音實際上是語音。如圖2所示,這種預先確定甚至可以使喚醒單詞引擎在沒有人講話時也保持休眠狀態。
圖2通過首先確定聲音是否是語音,RAMP芯片允許語音處理安全地忽略其他類型的聲音。
該芯片使用模擬神經網絡來實現這一目標,該模擬神經網絡經過訓練可以將人的聲音與其他聲音區分開,然后向聲音處理系統發送激活信號,以確定聲音是否在說喚醒詞。為了確保語音處理具有完整的語音模式,芯片將在預卷式緩存中緩存500毫秒的捕獲聲音。當芯片將聲音識別為語音時,它會將傳入的聲音(從前滾動數據開始)定向到語音處理系統以進行解釋。
這種方法允許語音控制系統僅使RAMP芯片持續供電。每當沒有人講話時,語音處理硬件(包括喚醒詞引擎)就可以保持休眠狀態。在大多數情況下,沒有語音的時間段表示系統運行的大部分時間。與喚醒字檢測所需的典型數十毫安電流相比,RAMP芯片和主機微控制器僅需要約25μA的電流。因此,與始終在線的喚醒字檢測相比,忽略靜音和非語音聲音的能力可以節省大量功率。
語音控制中的這種降低功率的創新很可能會繼續發生,從而將語音激活操作的潛力擴展到從線路供電到電池供電設計的應用中。無論通過語音控制給定設備是一個好主意,無論其電源如何,它都已成為一種實用的選擇。