目前來說離線語音芯片和在線語音芯片的應(yīng)用前景都非常廣泛,離線語音芯片和在線語音芯片的主要區(qū)別在于離線語音芯片無需依賴網(wǎng)絡(luò)即可實現(xiàn)語音指令控制產(chǎn)品,一個需要聯(lián)網(wǎng)來實現(xiàn)更好的語音交互功能,很多人也把在線語音芯片稱之為AI交互語音芯片主要應(yīng)用于產(chǎn)品的AI對話功能比如唯創(chuàng)知音的WT2606A和WT3000A。

離線語音芯片的工作原理講解
這里以唯創(chuàng)知音的離線語音芯片WTK6900FC來舉例,這款離線語音芯片支持四國語言分別是中文/英語/韓語/日語,同時還支持喚醒詞10條、喚醒詞自學(xué)習(xí)1條、命令詞300條、命令詞自學(xué)習(xí)19條。
以上這些功能都是直接在本地完成的,離線語音芯片通過聲音采集、信號處理、語義識別、指令判斷、指令執(zhí)行這幾個環(huán)節(jié)來實現(xiàn)離線語音控制功能的,下面我們一起來詳細(xì)了解一下離線語音芯片的工作過程。
1.聲音采集
人說話的時候會產(chǎn)生聲波,麥克風(fēng)(內(nèi)置或外接)接收空氣中的聲波,通過聲電轉(zhuǎn)換原理,將聲波振動轉(zhuǎn)化為連續(xù)的模擬電信號(如電壓變化)。模擬電信號會先經(jīng)過一個簡單的前置放大電路(增強弱信號)和抗混疊濾波器(過濾高頻干擾)最終由
ADC 轉(zhuǎn)換器按固定頻率(如 16kHz 采樣率)對模擬信號 “采樣”,并將其量化為離散的數(shù)字信號(如 16 位精度的數(shù)字?jǐn)?shù)據(jù)),存入
WTK6900FC的RAM 臨時緩存。
2.信號處理
臨時緩存當(dāng)中的信號含有各種各樣的環(huán)境噪音,比如在電風(fēng)扇在工作狀態(tài)下就會產(chǎn)生一些嗚嗚或者嗡嗡的聲音,還有一些周邊的環(huán)境聲,如果直接識別這些聲音則會影響識別準(zhǔn)確率,所以我們的離線語音芯片WTK6900FC需要對這些“噪音”進行處理,采用專用算法(如譜減法、維納濾波),通過分析
“語音信號” 與 “噪聲信號” 的頻率差異,剔除背景噪聲,保留純凈的聲音信號。
3.語義識別
離線語音芯片其實在業(yè)內(nèi)的名稱叫語音識別芯片,語義識別也是影響識別率非常重要的因素之一,離線語音芯片最常用的特征是MFCC(梅爾頻率倒譜系數(shù)),其設(shè)計靈感源于人耳的聽覺特性(人耳對不同頻率的敏感度不同,對中低頻更敏感)。過程如下
將每幀時域語音信號轉(zhuǎn)換為頻域信號,得到各頻率成分的能量分布(傅里葉變換)
用一組模擬人耳聽覺特性的 “梅爾濾波器” 對頻域信號濾波,保留人耳敏感的頻率成分,剔除不敏感成分(梅爾濾波組)

對濾波后的能量值取對數(shù)(模擬人耳對聲音強度的對數(shù)感知),再通過 DCT 壓縮數(shù)據(jù),最終得到 12-16 維的MFCC
特征向量(每幀語音對應(yīng)一個特征向量,數(shù)據(jù)量大幅減少)【對數(shù)與離散余弦變換(DCT)】。
除 MFCC 外,部分芯片也會用LPCC(線性預(yù)測倒譜系數(shù))(基于語音的線性預(yù)測模型,計算量更小,適合低功耗場景)。
4.指令判斷
因為多數(shù)離線語音芯片的一大優(yōu)勢就是響應(yīng)快,但是受困于成本能夠在市面上普及的離線語音大多數(shù)價格都比較親民,成本限制了離線語音芯片的端側(cè)算力,所以這幾年的主流方案都是采用
CNN、RNN、Transformer 的輕量化版本 Tiny Transformer的模型,模型參數(shù)被壓縮到幾十 KB - 幾 MB(適配芯片存儲),通過本地
NPU/DSP 快速運算,輸出 “是否匹配某指令” 的概率(如概率>90% 則判定識別成功。
5.指令執(zhí)行
這一步就最簡單了,指令識別成功以后可以通過通信的方式發(fā)給MCU,然后MCU驅(qū)動響應(yīng)的功能打開。
以上這就是離線語音芯片的工作原理,離線語音芯片的特點是響應(yīng)快,安全性高(不聯(lián)網(wǎng)不用擔(dān)心信息泄露)。
而在線語音芯片的工作原理是類似的,區(qū)別在于在線語音芯片可以通過云端算力來輔助識別,識別率會更高,同時可以接入大模型有更豐富的內(nèi)容可以輸出,但是缺點也比較明顯因為需要上傳信息到服務(wù)器并且等待大模型響應(yīng)并返回,即便是使用流式傳輸也會有一定的延遲。
但是在線語音芯片+大模型這種方式,雖然在響應(yīng)上比離線語音芯片多一些延遲,但是可以進行更豐富的玩法,比如給玩具賦能讓玩具可以和孩子說話,讓寶貝不再孤單,也可以接入自己設(shè)計的智能體充當(dāng)語音說明書
,適合一些共享設(shè)備。

其實還有一款離在線語音芯片,這款芯片及支持離線使用也支持在線使用,完美的契合了兩者的優(yōu)點,目前主要面向需要AI對話的產(chǎn)品,為機器人、Ai玩具等產(chǎn)品賦予語音控制和開口說話的能力。
總結(jié):離線語音芯片和在線語音芯片各有優(yōu)劣,離在線語音芯片也很強,但是各自都有各自的使用場景,離線語音芯片你可以理解為語音遙控器或者聲控芯片,而在線語音芯片你可以理解為AI對話芯片AI交互芯片,離在線語音芯片則是兼顧了遙控器和AI對話功能的完全體。