MATLAB軟件包括五大通用功能,數(shù)值計算功能(Nemeric)、符號運算功能(Symbolic)、數(shù)據(jù)可視化功能(Graphic)、數(shù)字圖形文字統(tǒng)一處理功能(Notebook)和建模仿真可視化功能(Simulink) 運用MATLAB 的數(shù)字信號處理功能, 采集語音信號, 并對語音信號進行預(yù)加重,加窗分幀和端點檢測、濾波及變換處理,觀察其時域和頻域特性。
基于統(tǒng)計的語音識別方法分析報告
一、摘 要 1
二、語音識別發(fā)展史及現(xiàn)狀 1
(1)國外研究歷史及現(xiàn)狀 1
(2)國內(nèi)研究歷史及現(xiàn)狀 2
三、語音識別的幾種基本方法 3
(1)基于語音學(xué)和聲學(xué)的方法 3
(2)模板匹配的方法 4
(3)神經(jīng)網(wǎng)絡(luò)的方法 6
四、基于統(tǒng)計的方法分析 6
(1)語音信號預(yù)處理與特征提取 7
(2)聲學(xué)模型與模式匹配 10
(3)語言模型與語言處理 13
五、已有孤立詞系統(tǒng)分析 13
(1)前端信號處理 13
(2)聲音模型處理 14
(3)拼音漢字處理 19
六、主要參考文獻 19Page 1
一、摘 要
概括語音識別的發(fā)展史及現(xiàn)狀,總結(jié)語音識別的基本方法,并對基于統(tǒng)計的
方法作主要的論述, 包括語音信號預(yù)處理和特征提取的分析, 隱馬爾可夫模型的
分析與在語音識別中的應(yīng)用分析, 模型的訓(xùn)練和識別方法分析等等, 最后介紹已
有孤立詞系統(tǒng)。
二、語音識別發(fā)展史及現(xiàn)狀
(1)國外研究歷史及現(xiàn)狀
語音識別的研究工作可以追溯到 20 世紀 50 年代 AT&T 貝爾實驗室的 Audry
系統(tǒng),它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。
但真正取得實質(zhì)性進展,并將其作為一個重要的課題開展研究則是在 60 年
代末 70 年代初。這首先是因為計算機技術(shù)的發(fā)展為語音識別的實現(xiàn)提供了硬件
和軟件的可能,更重要的是語音信號線性預(yù)測編碼( LPC)技術(shù)和動態(tài)時間規(guī)整
(DTW)技術(shù)的提出,有效的解決了語音信號的特征提取和不等長匹配問題。
這一時期的語音識別主要基于模板匹配原理, 研究的領(lǐng)域局限在特定人, 小詞匯
表的孤立詞識別, 實現(xiàn)了基于線性預(yù)測倒譜和 DTW 技術(shù)的特定人孤立詞語音識
別系統(tǒng);同時提出了矢量量化 (VQ) 和隱馬爾可夫模型 (HMM) 理論。
隨著應(yīng)用領(lǐng)域的擴大,小詞匯表、特定人、孤立詞等這些對語音識別的約束
條件需要放寬, 與此同時也帶來了許多新的問題: 第一,詞匯表的擴大使得模板
的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個音素、音節(jié)以及詞之間沒有明
顯的邊界,各個發(fā)音單位存在受上下文強烈影響的協(xié)同發(fā)音( Co-articulation )
現(xiàn)象;第三,非特定人識別時, 不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差
異,即使相同的人在不同的時間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會有很
大的差異;第四,識別的語音中有背景噪聲或其他干擾。 因此原有的模板匹配方
法已不再適用。
實驗室語音識別研究的巨大突破產(chǎn)生于 20 世紀 80 年代末:人們終于在實驗
室突破了大詞匯量、 連續(xù)語音和非特定人這三大障礙, 第一次把這三個特性都集
成在一個系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué) (Carnegie Mellon University) 的Page 2
Sphinx 系統(tǒng),它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。
這一時期,語音識別研究進一步走向深入,其顯著特征是 HMM 模型和人工
神經(jīng)元網(wǎng)絡(luò) (ANN) 在語音識別中的成功應(yīng)用。 HMM 模型的廣泛應(yīng)用應(yīng)歸功于
AT&T Bell 實驗室 Rabiner 等科學(xué)家的努力,他們把原本艱澀的 HMM 純數(shù)學(xué)模
型工程化 ,從而為更多研究者了解和認識,從而使統(tǒng)計方法成為了語音識別技術(shù)
的主流。
統(tǒng)計方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細化,
而是更多地從整體平均 (統(tǒng)計)的角度來建立最佳的語音識別系統(tǒng)。 在聲學(xué)模型
方面,以 Markov 鏈為基礎(chǔ)的語音序列建模方法 HMM(隱式 Markov 鏈)比較
有效地解決了語音信號短時穩(wěn)定、 長時時變的特性, 并且能根據(jù)一些基本建模單
元構(gòu)造成連續(xù)語音的句子模型, 達到了比較高的建模精度和建模靈活性。 在語言
層面上,通過統(tǒng)計真實大規(guī)模語料的詞之間同現(xiàn)概率即 N 元統(tǒng)計模型來區(qū)分識
別帶來的模糊音和同音詞。 另外,人工神經(jīng)網(wǎng)絡(luò)方法、 基于文法規(guī)則的語言處理
機制等也在語音識別中得到了應(yīng)用。
20 世紀 90 年代前期,許多著名的大公司如 IBM、蘋果、 AT&T 和 NTT 都
對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術(shù)有一個很好的評估機制,
那就是識別的準確率,而這項指標在 20 世紀 90 年代中后期實驗室研究中得到
了不斷的提高。比較有代表性的系統(tǒng)有: IBM 公司推出的 Via Voice 和 Dragon
System 公司的 Naturally Speaking, Nuance 公司的 Nuance Voice Platform 語音
平臺,Microsoft 的 Whisper, Sun 的 VoiceTone 等。
其中 IBM 公司于 1997 年開發(fā)出漢語 ViaVoice 語音識別系統(tǒng),次年又開發(fā)
出可以識別上海話、 廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’98 。
它帶有一個 32 ,000 詞的基本詞匯表,可以擴展到 65 ,000 詞,還包括辦公常用
詞條,具有“糾錯機制”,其平均識別率可以達到 95 %。該系統(tǒng)對新聞?wù)Z音識別
具有較高的精度,是目前具有代表性的漢語連續(xù)語音識別系統(tǒng)。
(2)國內(nèi)研究歷史及現(xiàn)狀
我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從
實驗室逐步走向?qū)嵱谩?從 1987 年開始執(zhí)行國家 863 計劃后,國家 863 智能計算
機專家組為語音識別技術(shù)研究專門立項, 每兩年滾動一次。 我國語音識別技術(shù)的
研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)Page 3
勢,并達到國際先進水平。中科院自動化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈
爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等
科研機構(gòu)都有實驗室進行過語音識別方面的研究, 其中具有代表性的研究單位為
清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組, 研發(fā)的非特定人漢語
數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度, 達到 94.8%(不定長數(shù)字串) 和 96.8%
(定長數(shù)字串)。在有 5%的拒識率情況下,系統(tǒng)識別率可以達到 96.9%(不
定長數(shù)字串)和 98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,
其性能已經(jīng)接近實用水平。 研發(fā)的 5000 詞郵包校核非特定人連續(xù)語音識別系統(tǒng)
的識別率達到 98.73%,前三選識別率達 99.96%;并且可以識別普通話與四
川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技 (Pattek) 公司 2002 年發(fā)布了他們共同推
出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品 ——Pattek ASR,
結(jié)束了中文語音識別產(chǎn)品自 1998 年以來一直由國外公司壟斷的歷史。
三、語音識別的幾種基本方法
一般來說 ,語音識別的方法有三種: 基于聲道模型和語音知識的方法、 模板匹
配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法 [1]
。
(1)基于語音學(xué)和聲學(xué)的方法
該方法起步較早,在語音識別技術(shù)提出的開始,就有了這方面的研究,但由
于其模型及語音知識過于復(fù)雜,現(xiàn)階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元, 而且可以通過其語音信號的
頻域或時域特性來區(qū)分。這樣該方法分為兩步實現(xiàn):
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應(yīng)一個或幾個語音基元的聲學(xué)特
性。然后根據(jù)相應(yīng)聲學(xué)特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據(jù)第一步所得語音標號序列得到一個語音基元網(wǎng)格, 從詞典得到有效的詞
序列,也可結(jié)合句子的文法和語義同時進行。Page 4
(2)模板匹配的方法
模板匹配的方法發(fā)展比較成熟, 目前已達到了實用階段。 在模板匹配方法中,
要經(jīng)過四個步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:
動態(tài)時間規(guī)整 (DTW)、隱馬爾可夫( hmm)理論、矢量量化( VQ)技術(shù)。
1、動態(tài)時間規(guī)整 (DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟, 它是特征訓(xùn)練和識
別的基礎(chǔ)。所謂端點檢測就是在語音信號中的各種段落 (如音素、音節(jié)、詞素) 的
始點和終點的位置, 從語音信號中排除無聲段。 在早期,進行端點檢測的主要依
據(jù)是能量、振幅和過零率。但效果往往不明顯。 60年代日本學(xué)者 Itakura提出了
動態(tài)時間規(guī)整算法 (DTW:Dynamic Time Warping) 。算法的思想就是把未知量
均勻的升長或縮短 ,直到與參考模式的長度一致。在這一過程中,未知單詞的時
間軸要不均勻地扭曲或彎折,以使其特征與模型特征對正。
動態(tài)時間規(guī)整是將時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。 設(shè)
測試語音參數(shù)共有 N幀矢量,而參考模板共有 M幀矢量,且 N ≠M。 要找時間
規(guī)整函數(shù) j = w(i) ,使測試矢量的時間軸 i 非線性地映射到模板的時間軸 j 上,
并滿足:
式中d[ T(i) ,R(ω(i) ) ]是第 i 幀測試矢量 T(i) 和第 j 幀模板矢量 R(j) 之間的距
離測度。 D 則是在最優(yōu)情況下的兩矢量之間的匹配路徑。 一般情況下, DTW采
用逆向思路 ,從過程的最后階段開始,逆推到起始點,尋找其中的最優(yōu)路徑。
2、隱馬爾可夫法 (HMM)
隱馬爾可夫法 (HMM) 是70年代引入語音識別理論的,它的出現(xiàn)使得自然語
音識別系統(tǒng)取得了實質(zhì)性的突破。 HMM 方法現(xiàn)已成為語音識別的主流技術(shù), 目
前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于 HMM模型的。
HMM是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學(xué)上的雙重
隨機過程:一個是用具有有限狀態(tài)數(shù)的 Markov 鏈來模擬語音信號統(tǒng)計特性變化
的隱含的隨機過程, 另一個是與 Markov 鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨
機過程。前者通過后者表現(xiàn)出來, 但前者的具體參數(shù)是不可測的。 人的言語過程
實際上就是一個雙重隨機過程, 語音信號本身是一個可觀測的時變序列, 是由大
腦根據(jù)語法知識和言語需要 (不可觀測的狀態(tài) ) 發(fā)出的音素的參數(shù)流。可見 HMM
))] ( ( ), ( [ min
1 ) (
i w R i T d D
M
i
i wPage 5
合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性 ,
是較為理想的一種語音模型。
HMM語音模型λ (π,A ,B) 由起始狀態(tài)概率 (π) 、狀態(tài)轉(zhuǎn)移概率 (A) 和觀測
序列概率 (B) 三個參數(shù)決定。π揭示了 HMM 的拓撲結(jié)構(gòu), A 描述了語音信號隨
時間的變化情況, B 給出了觀測序列的統(tǒng)計特性。
經(jīng)典HMM語音識別的一般過程是:用前向后向算法 (Forward - Backward)
通過遞推方法計算已知模型輸出 O 及模型λ = f (π,A ,B) 時的產(chǎn)生輸出序列的
概率P(O|λ),然后用 Baum-Welch 算法,基于最大似然準則 (ML) 對模型參數(shù)
λ(π,A ,B) 進行修正,最優(yōu)參數(shù)λ *的求解可表示為λ *= argmax{P(O| λ) } 。最
后用Viterbi算法解出產(chǎn)生輸出序列的最佳狀態(tài)轉(zhuǎn)移序列 X。所謂最佳是以 X 的
最大條件后驗概率為準則,即 X =arg max{P(X| O , λ) }。
3、矢量量化 (VQ)
矢量量化 (Vector Quantization) 是一種重要的信號壓縮方法。與 HMM相比,
矢量量化主要適用于小詞匯量、 孤立詞的語音識別中。 其過程是: 將語音信號波
形的 k 個樣點的每一幀, 或有k 個參數(shù)的每一參數(shù)幀, 構(gòu)成 k 維空間中的一個
矢量,然后對矢量進行量化。量化時,將 k 維無限空間劃分為 M 個區(qū)域邊界,
然后將輸入矢量與這些邊界進行比較, 并被量化為 “距離”最小的區(qū)域邊界的中
心矢量值。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書, 從實際效
果出發(fā)尋找到好的失真測度定義公式, 設(shè)計出最佳的矢量量化系統(tǒng), 用最少的搜
索和計算失真的運算量, 實現(xiàn)最大可能的平均信噪比。 失真測度主要有均方誤差
(即歐氏距離 ) 、加權(quán)的均方誤差、 Itakura2Saito 距離、似然比失真測度等。初始
碼書的生成可以是隨機選取、分裂生成法、乘積碼書法 [4]
。在選定了失真測度
和初始碼書后,就用 LBG算法,對初始碼書進行迭代優(yōu)化 ,一直到系統(tǒng)性能滿足
要求或不再有明顯的改進為止。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設(shè)計的,
那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信
號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。
在實際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致
可以分為兩類: 無記憶的矢量量化和有記憶的矢量量化。 無記憶的矢量量化包括
樹形搜索的矢量量化和多級矢量量化。 [3]Page 6
(3)神經(jīng)網(wǎng)絡(luò)的方法
利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80年代末期提出的一種新的語音識別方法。 人工
神經(jīng)網(wǎng)絡(luò) (ANN)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng), 模擬了人類神經(jīng)活動的
原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性,其強的分類能力和
輸入-輸出映射能力在語音識別中都很有吸引力。但由于存在訓(xùn)練、識別時間太
長的缺點,目前仍處于實驗探索階段。
由于ANN不能很好的描述語音信號的時間動態(tài)特性, 所以常把 ANN與傳統(tǒng)識
別方法結(jié)合,分別利用各自優(yōu)點來進行語音識別。
ANN與DTW:
ANN納入DTW框架中的最簡單方法就是利用多層感知器模型 (MLP)計算
DTW搜索中的局部路徑得分。
ANN與HMM:
1) 多層感知器網(wǎng)絡(luò)來估計隱馬爾可夫模型的狀態(tài)概率輸出的方法
2) BP算法實現(xiàn) HMM模型參數(shù)的重估
3) 利用自組織神經(jīng)網(wǎng)絡(luò) Kohonen 的學(xué)習(xí)矢量量化算法訓(xùn)練產(chǎn)生矢量量
化碼本
四、基于統(tǒng)計的方法分析
目前幾乎所有成功的語音識別方法都是基于統(tǒng)計的、 概率的或信息理論的方
法。其中較具代表性的方法有矢量量化法 (VQ)和隱馬爾可夫模型法 (HMM)。VQ
法是由 Shore 和 Burton 首先提出的,其主要優(yōu)點是無需進行時間規(guī)正或動態(tài)
時間伸縮( DTW) 。由于語音特征是時間序列,所以 Burton 等人又提出了分段
VQ 的方法,它可以看成是 VQ 法和 DTW 的統(tǒng)合。然而 DTW 不是一種統(tǒng)計
概率的方法。 HMM 作為統(tǒng)計概率模型已經(jīng)被證明是一種很好的語音識別模型。
本文主要介紹使用 HMM 統(tǒng)計概率模型的語音識別方法。
一個完整的基于統(tǒng)計的語音識別系統(tǒng)可大致分為三部分:Page 7
(1) 語音信號預(yù)處理與特征提取
(2) 聲學(xué)模型與模式匹配
(3) 語言模型與語言處理
(1)語音信號預(yù)處理與特征提取
語音識別一個根本的問題是合理的選用特征。選擇的標準應(yīng)體現(xiàn)對于異字
音,相應(yīng)特征間的距離應(yīng)大,而對于同字音,彼此間距離應(yīng)小。若以前者距離與
后者距離之比作為優(yōu)化準則用的“目標量” [3]
,則應(yīng)使此量最大。
一般將語音信號的特征向量分為兩類:第一類為時域特征向量,通常將幀語
音信號的各個時域采樣值直接構(gòu)成一個向量。 第二類為變換域特征向量, 即對一
幀語音信號進行某種變換后產(chǎn)生的特征向量。 前者的優(yōu)點在于計算簡單, 缺點是
不能壓縮維數(shù)且不適于表征幅度譜特性。 與此對應(yīng),各種變換域特征向量的計算
比較復(fù)雜,但能從不同的角度反映幅度譜的特征。
特征的選取取決于具體的系統(tǒng),下面的特征是有代表性的:
1) 幅度(或功率)
2) 過零率
3) 鄰界帶特征矢量
4) LPC 預(yù)測系數(shù)特征矢量
5) LPC 倒譜特征矢量
6) Mel 倒譜參數(shù)
7) 前三個共振峰 F1、F2、F3
幅度是端點檢測的主要依據(jù),也用于區(qū)分元音和輔音。過零率可以用來表示
擦音和齒音。高分辨率的譜信息 (即共振峰、 LPC 參數(shù)或濾波器組輸出 ) 提供共
振峰和共振峰變遷的信息。
特征提取完成從語音信號提取出對語音識別有用的信息, 它對語音信號進行
分析處理,去掉與語音識別無關(guān)的冗余信息, 獲得影響語音識別的重要信息。 對
于非特定人語音識別來講, 希望特征參數(shù)盡可能多的反映語義信息, 盡量減少說
話人的個人信息。從信息論角度講,這是信息壓縮的過程。一般而言,由于倒頻
譜(cepstrum)有著能將頻譜上的高低頻分開的優(yōu)點, 因此被廣泛地應(yīng)用在語音
識別的研究上,例如過去常用的線性預(yù)測編碼導(dǎo)出的倒頻譜參數(shù)( LPCC)[4][6]
和梅爾刻度式倒頻譜參數(shù)( MFCC)[4]
等都是常用的語音特征。從目前使用的情
|