激勵(lì)型線性預(yù)測語音編碼技術(shù)是低速率(4.8Kb/s以下)語音編碼所采用的編碼技術(shù)。
1、二元激勵(lì)線性預(yù)測語音編碼(LPC)
線性預(yù)測編碼(LPC,Linear Prediction Coding)是最基本的低速率語音編碼方法,LPC語音編碼的基礎(chǔ)是語音信號(hào)產(chǎn)生的數(shù)字模型,如圖1-1所示。在這個(gè)模型中,激勵(lì)源由濁音和清音兩個(gè)分支分別組成,是最典型的二元激勵(lì)語音編碼模型。而語音信號(hào)則是由激勵(lì)源來激勵(lì)一個(gè)自適應(yīng)濾波器(即LPC濾波器)產(chǎn)生。LPC濾波器的參數(shù)是通過線性預(yù)測的方法,即用過去的樣值預(yù)測當(dāng)前樣值提取的。LPC在軍事通信和其它通信領(lǐng)域都得到越來越廣泛的應(yīng)用。
圖1-1:語音信號(hào)產(chǎn)生的數(shù)字模型框圖
美國聯(lián)邦標(biāo)準(zhǔn)FS-1015的2.4Kb/s的LPC-10聲碼器和LPC-l0e(LPC-10的改進(jìn)型)就是二元激勵(lì)LPC語音編碼的典型例子,主要用于電話線上的窄帶語音保密通信。1976年,美國國家安全局(NSA)制定了LPC-10聲碼器作為在2.4Kb/s速率上語音通信的標(biāo)準(zhǔn)技術(shù);1981年,這個(gè)算法被美國國防部所接受,作為美國聯(lián)邦政府標(biāo)準(zhǔn)FS-1015公布。基于這個(gè)標(biāo)準(zhǔn)的聲碼器被用于美國第二代保密電話單元(STU-Ⅱ)。利用LPC-10聲碼器可以合成清晰、可懂的語音,但是抗噪聲能力和自然度尚有欠缺。自1986年以來,美國第三代保密電話單元(STU-Ⅲ)采用了速率為2.4Kb/s的LPC-10e聲碼器作為語音通信標(biāo)準(zhǔn),使得語音的自然度和魯棒性有所提高,目前STU-Ⅲ的語音質(zhì)量被評(píng)為“良好”。
LPC-10聲碼器的采樣速率是8kHz,每180個(gè)樣點(diǎn)為一幀,幀長為22.5ms,每幀量化比特為54,總的速率為2.4Kb/s。
2、碼激勵(lì)線性預(yù)測語音編碼(CELP)
1985年,Manfred R.Schroeder和Bishnu S Atal在電氣電子工程師協(xié)會(huì)(IEEE)的國際語言語音和信號(hào)處理會(huì)議(ICASSP)年會(huì)上首先提出了用碼本作為激勵(lì)源的碼激勵(lì)線性預(yù)測(CELP,Code Excited Linear Prediction )編碼技術(shù)。CELP以高質(zhì)量的合成語音以及優(yōu)良的抗噪聲和多次轉(zhuǎn)接性能,在低速率語音編碼上得到了廣泛的應(yīng)用。
1987年美國國家安全局(NSA)發(fā)起了4.8Kb/s語音編碼的標(biāo)準(zhǔn)化工作。為了選擇一種好的編碼方案,NSA對(duì)各種4.8Kb/s速率的編碼算法進(jìn)行了一次調(diào)查,測試結(jié)果表明3種CELP型的編碼算法優(yōu)于其它方案,但沒有充足的理由選擇其中的某一種作為聯(lián)邦標(biāo)準(zhǔn)。1988年5月,美國國防部開始評(píng)價(jià)幾種4.8Kb/s速率上的語音編碼器,希望找到一種能用于未來政府通信系統(tǒng)中的高質(zhì)量低速率語音編碼算法。1988年12月,美國國防部結(jié)束了這次評(píng)價(jià),所選的算法是由美國國防部與美國電報(bào)電話公司的貝爾實(shí)驗(yàn)室共同研制的CELP編碼器,它構(gòu)成了美國聯(lián)邦FS-1016標(biāo)準(zhǔn)語音編碼器的基礎(chǔ)。實(shí)驗(yàn)和測試表明該編碼器優(yōu)于當(dāng)時(shí)其它低于16Kb/s的聲碼器,并且具有很好的抗噪聲和信道誤碼的能力。
1991年2月14日美國政府正式頒布了聯(lián)邦第1016號(hào)標(biāo)準(zhǔn)FS -1016,即4.8Kb/s碼激勵(lì)線性預(yù)測(CELP)語音編碼標(biāo)準(zhǔn),它是第一個(gè)十分重要的CELP算法國際標(biāo)準(zhǔn)。FS-1016標(biāo)準(zhǔn)語音編碼器基于合成分析(ABS)、感知加權(quán)矢量量化(VQ)和線性預(yù)測(LP)等技術(shù)。它采用10階線性預(yù)測濾波器來模擬語音信號(hào)的短時(shí)頻譜或聲道特性,并且采用了兩種碼本:自適應(yīng)碼本和隨機(jī)碼本。自適應(yīng)碼本用來模擬長時(shí)信號(hào)或基音的周期激勵(lì);固定的隨機(jī)碼本用來逼近經(jīng)過了矢量量化的短時(shí)線性預(yù)測和長時(shí)預(yù)測后的預(yù)測誤差。譯碼端合成部分的激勵(lì)信號(hào)由自適應(yīng)碼本和隨機(jī)碼本經(jīng)過增益加權(quán)后得到,感知加權(quán)濾波利用人耳的掩蔽效應(yīng)來提高語音的質(zhì)量。
FS-1016標(biāo)準(zhǔn)語音編碼器要求輸入語音信號(hào)的采樣頻率為8kHz,并且至少12比特線性量化,實(shí)際上是16比特線性量化脈沖編碼調(diào)制(PCM)語音信號(hào)。編碼分析時(shí)以幀為單位,幀長是240個(gè)樣點(diǎn)(30ms),一幀又分為4個(gè)子幀,子幀長是60個(gè)樣點(diǎn)(7.5ms)。編碼(發(fā)送端)分析部分包含有3個(gè)大的功能:短時(shí)線性預(yù)測分析與量化;長時(shí)自適應(yīng)碼本搜索與編碼;固定(隨機(jī))碼本搜索與編碼。編碼發(fā)送的參數(shù)是:10個(gè)線譜對(duì)(LSP)參數(shù);自適應(yīng)碼本索引及增益;固定碼本索引及增益;加上幀同步,前向糾錯(cuò)和未來擴(kuò)展比特共144比特每幀。FS-1016標(biāo)準(zhǔn)語音編碼的特點(diǎn)詳見下表2-1。
表2-1:FS- 1016標(biāo)準(zhǔn)語音編碼的特點(diǎn)表
3、混合激勵(lì)線性預(yù)測語音編碼(MELP)
美國在1981年公布了聯(lián)邦標(biāo)準(zhǔn)線性預(yù)測編碼算法LPC-10,即FS-1015標(biāo)準(zhǔn)。但音質(zhì)不令人滿意,主要是對(duì)爆破音的處理不好,后來又提出了增強(qiáng)型的LPC-10e,但終因當(dāng)時(shí)對(duì)語音的研究深度不夠,效果也不理想。
在1993年,美國國防部語音信號(hào)數(shù)字處理協(xié)會(huì)(DDVPC)開始選擇新的美國國防部2.4Kb/s標(biāo)準(zhǔn),DDVPC研究制定了一組最低要求并設(shè)計(jì)了一整套測試方案。組織聽覺測試開始于1995年9月,最后在1996年3月最終選用TI(Texas Instuments)公司推出的混合激勵(lì)線性預(yù)測(MELP,Mixed Excited Linear Prediction)聲碼器來取代舊標(biāo)準(zhǔn)FS-1015。1997年3月,這個(gè)MELP聲碼器算法被最終確定為新的美國聯(lián)邦標(biāo)準(zhǔn)并被公布,以替換原有的2.4Kb/s聯(lián)邦標(biāo)準(zhǔn)FS-1015 (LPC-10聲碼器)。
基本線性預(yù)測編碼(LPC)產(chǎn)生模型將語音分為清音和濁音兩大類。清音模型采用白噪聲作為激勵(lì)信號(hào),濁音模型采用周期等于基音周期的脈沖序列作為激勵(lì)信號(hào)。實(shí)際上,由于聲門張開時(shí),除了主要的聲門激勵(lì)(形成共振峰)外,還可能有一些次要的激勵(lì),會(huì)影響共振峰結(jié)構(gòu);聲門關(guān)閉時(shí),有時(shí)不夠完全,會(huì)產(chǎn)生一些吸氣噪聲。這些都會(huì)破壞濁音時(shí)激勵(lì)氣流的周期性。尤其是在清音、濁音之間過渡時(shí),這種現(xiàn)象更加顯著,這是由于過渡幀往往既存在周期成分,又存在一定的非周期成分。
為了改善LPC聲碼器的音質(zhì),MELP算法把語音分為清音、濁音和抖動(dòng)濁音3種狀態(tài)。抖動(dòng)濁音采用非周期脈沖加白噪聲作為合成激勵(lì)信號(hào),濁音采用周期脈沖加白噪聲作為合成激勵(lì)信號(hào)。采用這種新的分類模式,對(duì)語音的分類更加精細(xì)。更為重要的是,它從方法上解決了二元模型對(duì)大量“中間”語音不能正確分類的難題,諸如過渡音或較弱濁音等語音的分類。因?yàn)槟切┚哂斜容^強(qiáng)的非周期性的語音(清音)和比較強(qiáng)的濁音是比較容易判別出來的。其它語音采用混合激勵(lì)后,無論是把它判作濁音還是抖動(dòng)濁音,都能夠通過混合比例的調(diào)整給予較好的近似。采用的新的分類模式對(duì)于諸如過渡音、弱濁音等“中間”語音的處理更加準(zhǔn)確。因而,可以較好地改善合成語音的自然度,同時(shí),也可以減少激勵(lì)信號(hào)中脈沖成分或噪聲成分過多所帶來的合成噪聲,使語音聽起來更清晰。
混合激勵(lì)的實(shí)現(xiàn)利用了多帶模型:通過一組帶通濾波器將語音信號(hào)分成5個(gè)子頻帶,分別判斷每個(gè)子帶的清濁狀況,在譯碼端利用這5個(gè)子帶信號(hào)相加得到混合激勵(lì),其主要功能是減少通常的LPC聲碼器所帶有的蜂鳴聲。MELP聲碼器在傳統(tǒng)的二元激勵(lì)線性預(yù)測模型基礎(chǔ)上做了改進(jìn),吸收了多帶激勵(lì)(MBE)、LPC-10e等算法的一些思想。并采用了一些新的措施,如改進(jìn)了基音提取法,引入了非周期脈沖和傅里葉級(jí)數(shù)幅度值來合成激勵(lì)信號(hào)等,使得在2.4Kb/s速率上能夠得到更高質(zhì)量的合成語語音,也就是使得合成語音能更好地?cái)M合自然語音。(MELP)的關(guān)鍵技術(shù)詳見附錄3,與LPC-10聲碼器類似,MELP聲碼器的采樣速率也是8kHz,每180個(gè)樣點(diǎn)為一幀,幀長為22.5ms,每幀量化比特為54,總的速率為2.4Kb/s。
附錄3:混合激勵(lì)線性預(yù)測語音編碼(MELP)的關(guān)鍵技術(shù)
欲更多了解國際窄帶語音編碼標(biāo)準(zhǔn)的請(qǐng)進(jìn)入。
欲詳細(xì)了解相關(guān)激勵(lì)型線性預(yù)測語音編碼技術(shù)原理介紹的請(qǐng)進(jìn)入。
欲進(jìn)一步了解激勵(lì)型線性預(yù)測語音編碼技術(shù)的合成語音質(zhì)量指標(biāo)的請(qǐng)進(jìn)入。