幾種激勵(lì)線性預(yù)測語音編碼技術(shù)簡介

瀏覽：15290 來源：通信人在線日期：2021-10-11

激勵(lì)型線性預(yù)測語音編碼技術(shù)是低速率(4.8Kb/s以下)語音編碼所采用的編碼技術(shù)。

1、二元激勵(lì)線性預(yù)測語音編碼（LPC）

線性預(yù)測編碼（LPC，Linear Prediction Coding）是最基本的低速率語音編碼方法，LPC語音編碼的基礎(chǔ)是語音信號(hào)產(chǎn)生的數(shù)字模型，如圖1-1所示。在這個(gè)模型中，激勵(lì)源由濁音和清音兩個(gè)分支分別組成，是最典型的二元激勵(lì)語音編碼模型。而語音信號(hào)則是由激勵(lì)源來激勵(lì)一個(gè)自適應(yīng)濾波器（即LPC濾波器）產(chǎn)生。LPC濾波器的參數(shù)是通過線性預(yù)測的方法，即用過去的樣值預(yù)測當(dāng)前樣值提取的。LPC在軍事通信和其它通信領(lǐng)域都得到越來越廣泛的應(yīng)用。

圖1-1：語音信號(hào)產(chǎn)生的數(shù)字模型框圖

美國聯(lián)邦標(biāo)準(zhǔn)FS-1015的2.4Kb/s的LPC-10聲碼器和LPC-l0e（LPC-10的改進(jìn)型）就是二元激勵(lì)LPC語音編碼的典型例子，主要用于電話線上的窄帶語音保密通信。1976年，美國國家安全局(NSA)制定了LPC-10聲碼器作為在2.4Kb/s速率上語音通信的標(biāo)準(zhǔn)技術(shù)；1981年，這個(gè)算法被美國國防部所接受，作為美國聯(lián)邦政府標(biāo)準(zhǔn)FS-1015公布。基于這個(gè)標(biāo)準(zhǔn)的聲碼器被用于美國第二代保密電話單元(STU-Ⅱ)。利用LPC-10聲碼器可以合成清晰、可懂的語音，但是抗噪聲能力和自然度尚有欠缺。自1986年以來，美國第三代保密電話單元(STU-Ⅲ)采用了速率為2.4Kb/s的LPC-10e聲碼器作為語音通信標(biāo)準(zhǔn)，使得語音的自然度和魯棒性有所提高，目前STU-Ⅲ的語音質(zhì)量被評(píng)為“良好”。

LPC-10聲碼器的采樣速率是8kHz，每180個(gè)樣點(diǎn)為一幀，幀長為22.5ms，每幀量化比特為54，總的速率為2.4Kb/s。

2、碼激勵(lì)線性預(yù)測語音編碼（CELP）

1985年，Manfred R.Schroeder和Bishnu S Atal在電氣電子工程師協(xié)會(huì)（IEEE）的國際語言語音和信號(hào)處理會(huì)議(ICASSP)年會(huì)上首先提出了用碼本作為激勵(lì)源的碼激勵(lì)線性預(yù)測(CELP，Code Excited Linear Prediction )編碼技術(shù)。CELP以高質(zhì)量的合成語音以及優(yōu)良的抗噪聲和多次轉(zhuǎn)接性能，在低速率語音編碼上得到了廣泛的應(yīng)用。

1987年美國國家安全局(NSA)發(fā)起了4.8Kb/s語音編碼的標(biāo)準(zhǔn)化工作。為了選擇一種好的編碼方案，NSA對(duì)各種4.8Kb/s速率的編碼算法進(jìn)行了一次調(diào)查，測試結(jié)果表明3種CELP型的編碼算法優(yōu)于其它方案，但沒有充足的理由選擇其中的某一種作為聯(lián)邦標(biāo)準(zhǔn)。1988年5月，美國國防部開始評(píng)價(jià)幾種4.8Kb/s速率上的語音編碼器，希望找到一種能用于未來政府通信系統(tǒng)中的高質(zhì)量低速率語音編碼算法。1988年12月，美國國防部結(jié)束了這次評(píng)價(jià)，所選的算法是由美國國防部與美國電報(bào)電話公司的貝爾實(shí)驗(yàn)室共同研制的CELP編碼器，它構(gòu)成了美國聯(lián)邦FS-1016標(biāo)準(zhǔn)語音編碼器的基礎(chǔ)。實(shí)驗(yàn)和測試表明該編碼器優(yōu)于當(dāng)時(shí)其它低于16Kb/s的聲碼器，并且具有很好的抗噪聲和信道誤碼的能力。

1991年2月14日美國政府正式頒布了聯(lián)邦第1016號(hào)標(biāo)準(zhǔn)FS -1016，即4.8Kb/s碼激勵(lì)線性預(yù)測(CELP)語音編碼標(biāo)準(zhǔn)，它是第一個(gè)十分重要的CELP算法國際標(biāo)準(zhǔn)。FS-1016標(biāo)準(zhǔn)語音編碼器基于合成分析(ABS)、感知加權(quán)矢量量化(VQ)和線性預(yù)測(LP)等技術(shù)。它采用10階線性預(yù)測濾波器來模擬語音信號(hào)的短時(shí)頻譜或聲道特性，并且采用了兩種碼本：自適應(yīng)碼本和隨機(jī)碼本。自適應(yīng)碼本用來模擬長時(shí)信號(hào)或基音的周期激勵(lì)；固定的隨機(jī)碼本用來逼近經(jīng)過了矢量量化的短時(shí)線性預(yù)測和長時(shí)預(yù)測后的預(yù)測誤差。譯碼端合成部分的激勵(lì)信號(hào)由自適應(yīng)碼本和隨機(jī)碼本經(jīng)過增益加權(quán)后得到，感知加權(quán)濾波利用人耳的掩蔽效應(yīng)來提高語音的質(zhì)量。

FS-1016標(biāo)準(zhǔn)語音編碼器要求輸入語音信號(hào)的采樣頻率為8kHz，并且至少12比特線性量化，實(shí)際上是16比特線性量化脈沖編碼調(diào)制(PCM)語音信號(hào)。編碼分析時(shí)以幀為單位，幀長是240個(gè)樣點(diǎn)(30ms)，一幀又分為4個(gè)子幀，子幀長是60個(gè)樣點(diǎn)(7.5ms)。編碼(發(fā)送端)分析部分包含有3個(gè)大的功能：短時(shí)線性預(yù)測分析與量化；長時(shí)自適應(yīng)碼本搜索與編碼；固定(隨機(jī))碼本搜索與編碼。編碼發(fā)送的參數(shù)是：10個(gè)線譜對(duì)(LSP)參數(shù)；自適應(yīng)碼本索引及增益；固定碼本索引及增益；加上幀同步，前向糾錯(cuò)和未來擴(kuò)展比特共144比特每幀。FS-1016標(biāo)準(zhǔn)語音編碼的特點(diǎn)詳見下表2-1。

表2-1：FS- 1016標(biāo)準(zhǔn)語音編碼的特點(diǎn)表

3、混合激勵(lì)線性預(yù)測語音編碼（MELP）

美國在1981年公布了聯(lián)邦標(biāo)準(zhǔn)線性預(yù)測編碼算法LPC-10，即FS-1015標(biāo)準(zhǔn)。但音質(zhì)不令人滿意，主要是對(duì)爆破音的處理不好，后來又提出了增強(qiáng)型的LPC-10e，但終因當(dāng)時(shí)對(duì)語音的研究深度不夠，效果也不理想。

在1993年，美國國防部語音信號(hào)數(shù)字處理協(xié)會(huì)(DDVPC)開始選擇新的美國國防部2.4Kb/s標(biāo)準(zhǔn)，DDVPC研究制定了一組最低要求并設(shè)計(jì)了一整套測試方案。組織聽覺測試開始于1995年9月，最后在1996年3月最終選用TI(Texas Instuments)公司推出的混合激勵(lì)線性預(yù)測（MELP，Mixed Excited Linear Prediction）聲碼器來取代舊標(biāo)準(zhǔn)FS-1015。1997年3月，這個(gè)MELP聲碼器算法被最終確定為新的美國聯(lián)邦標(biāo)準(zhǔn)并被公布，以替換原有的2.4Kb/s聯(lián)邦標(biāo)準(zhǔn)FS-1015 (LPC-10聲碼器)。

基本線性預(yù)測編碼(LPC)產(chǎn)生模型將語音分為清音和濁音兩大類。清音模型采用白噪聲作為激勵(lì)信號(hào)，濁音模型采用周期等于基音周期的脈沖序列作為激勵(lì)信號(hào)。實(shí)際上，由于聲門張開時(shí)，除了主要的聲門激勵(lì)（形成共振峰）外，還可能有一些次要的激勵(lì)，會(huì)影響共振峰結(jié)構(gòu)；聲門關(guān)閉時(shí)，有時(shí)不夠完全，會(huì)產(chǎn)生一些吸氣噪聲。這些都會(huì)破壞濁音時(shí)激勵(lì)氣流的周期性。尤其是在清音、濁音之間過渡時(shí)，這種現(xiàn)象更加顯著，這是由于過渡幀往往既存在周期成分，又存在一定的非周期成分。

為了改善LPC聲碼器的音質(zhì)，MELP算法把語音分為清音、濁音和抖動(dòng)濁音3種狀態(tài)。抖動(dòng)濁音采用非周期脈沖加白噪聲作為合成激勵(lì)信號(hào)，濁音采用周期脈沖加白噪聲作為合成激勵(lì)信號(hào)。采用這種新的分類模式，對(duì)語音的分類更加精細(xì)。更為重要的是，它從方法上解決了二元模型對(duì)大量“中間”語音不能正確分類的難題，諸如過渡音或較弱濁音等語音的分類。因?yàn)槟切┚哂斜容^強(qiáng)的非周期性的語音（清音）和比較強(qiáng)的濁音是比較容易判別出來的。其它語音采用混合激勵(lì)后，無論是把它判作濁音還是抖動(dòng)濁音，都能夠通過混合比例的調(diào)整給予較好的近似。采用的新的分類模式對(duì)于諸如過渡音、弱濁音等“中間”語音的處理更加準(zhǔn)確。因而，可以較好地改善合成語音的自然度，同時(shí)，也可以減少激勵(lì)信號(hào)中脈沖成分或噪聲成分過多所帶來的合成噪聲，使語音聽起來更清晰。

混合激勵(lì)的實(shí)現(xiàn)利用了多帶模型：通過一組帶通濾波器將語音信號(hào)分成5個(gè)子頻帶，分別判斷每個(gè)子帶的清濁狀況，在譯碼端利用這5個(gè)子帶信號(hào)相加得到混合激勵(lì)，其主要功能是減少通常的LPC聲碼器所帶有的蜂鳴聲。MELP聲碼器在傳統(tǒng)的二元激勵(lì)線性預(yù)測模型基礎(chǔ)上做了改進(jìn)，吸收了多帶激勵(lì)（MBE）、LPC-10e等算法的一些思想。并采用了一些新的措施，如改進(jìn)了基音提取法，引入了非周期脈沖和傅里葉級(jí)數(shù)幅度值來合成激勵(lì)信號(hào)等，使得在2.4Kb/s速率上能夠得到更高質(zhì)量的合成語語音，也就是使得合成語音能更好地?cái)M合自然語音。（MELP）的關(guān)鍵技術(shù)詳見附錄3，與LPC-10聲碼器類似，MELP聲碼器的采樣速率也是8kHz，每180個(gè)樣點(diǎn)為一幀，幀長為22.5ms，每幀量化比特為54，總的速率為2.4Kb/s。

附錄3：混合激勵(lì)線性預(yù)測語音編碼（MELP）的關(guān)鍵技術(shù)

欲更多了解國際窄帶語音編碼標(biāo)準(zhǔn)的請(qǐng)進(jìn)入。

欲詳細(xì)了解相關(guān)激勵(lì)型線性預(yù)測語音編碼技術(shù)原理介紹的請(qǐng)進(jìn)入。

欲進(jìn)一步了解激勵(lì)型線性預(yù)測語音編碼技術(shù)的合成語音質(zhì)量指標(biāo)的請(qǐng)進(jìn)入。

附錄

本文的所有附表與附圖2017-10-16

附錄3：混合激勵(lì)線性預(yù)測語音編碼（MELP）的關(guān)鍵技術(shù)2017-10-16

果冻传媒高清在线播放_黑人巨茎大战椎名由奈_女人毛片视频_高中生喷水喷浆 - 成人国产精品

幾種激勵(lì)線性預(yù)測語音編碼技術(shù)簡介