隨著通信技術(shù)的發(fā)展,近幾十年來(lái)出現(xiàn)了許多語(yǔ)音及音頻編碼技術(shù)和算法。由于通信技術(shù)的發(fā)展對(duì)語(yǔ)音編碼不斷提出新的要求,同時(shí)隨著語(yǔ)音及音頻編碼技術(shù)的不斷成熟,在這一時(shí)期產(chǎn)生了一系列語(yǔ)音及音頻編碼的國(guó)際標(biāo)準(zhǔn)和地區(qū)標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)不但反映了語(yǔ)音及音頻編碼技術(shù)的發(fā)展歷程和現(xiàn)狀,也反映出語(yǔ)音及音頻編碼技術(shù)的發(fā)展趨勢(shì)和方向。
下面對(duì)相關(guān)已標(biāo)準(zhǔn)化的語(yǔ)音及音頻編碼技術(shù)進(jìn)行簡(jiǎn)單比較。主要是針對(duì)其編碼速率、語(yǔ)音質(zhì)量、時(shí)間復(fù)雜度(MIPS)、空間復(fù)雜度(RAM)、幀的長(zhǎng)度、預(yù)留時(shí)間、編碼算法類型等參數(shù)。
一、ITU-T的電話語(yǔ)音編碼標(biāo)準(zhǔn)
ITU-T 制定了一系列主要是應(yīng)用于電話通信語(yǔ)音編碼的標(biāo)準(zhǔn)(G.7xx系列)。ITU-T主要是由第15研究組(SG 15)負(fù)責(zé)語(yǔ)音標(biāo)準(zhǔn)的制定,其他一些研究組也提出一些特殊應(yīng)用的語(yǔ)音標(biāo)準(zhǔn)。SG 15負(fù)責(zé)建立參考條款(ITU-T的內(nèi)部文件)的總體責(zé)任,SG 12的語(yǔ)音質(zhì)量專家組(SQEG)協(xié)助SG 15制定語(yǔ)音質(zhì)量的目標(biāo)并負(fù)責(zé)設(shè)計(jì)和指導(dǎo)實(shí)驗(yàn)程序,確定候選的編碼器是否符合要求。
ITU-T制定的各種電話通信語(yǔ)音編碼技術(shù),主要是上世紀(jì)末階段,首先在1972年頒布了G.711的PCM編碼標(biāo)準(zhǔn)(64kbit/s),到1998年公布的4kbit/s 編碼標(biāo)準(zhǔn)。ITU-T于1994年前和1995年后陸續(xù)公布的電話帶寬語(yǔ)音編碼標(biāo)準(zhǔn)分別詳見(jiàn)下表1-1和1-2,1995年后陸續(xù)公布的電話帶寬語(yǔ)音編碼標(biāo)準(zhǔn)的編碼速率將更低。ITU-T制定的音頻編碼技術(shù)不多(有G.722、G.725),主要研究制定的是電話通信的語(yǔ)音編碼技術(shù)。
表1-1:ITU-T于1994年前公布的電話語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
表1-2:ITU-T于1995年后公布的電話帶寬語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
欲進(jìn)一步了解ITU-T G.7xx系列建議介紹的請(qǐng)進(jìn)入。
二、關(guān)于移動(dòng)通信語(yǔ)音編碼技術(shù)
1、北美數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)
美國(guó)TIA的TR-45分會(huì)主要負(fù)責(zé)制定北美數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn),TR-30分會(huì)負(fù)責(zé)同時(shí)具有聲音和數(shù)據(jù)的調(diào)制解調(diào)標(biāo)準(zhǔn)。北美數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)詳見(jiàn)下表2-1所示。
表2-1:北美數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
2、歐洲數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)
歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(ETSI)對(duì)語(yǔ)音編碼有很大影響的一個(gè)例子就是TCS-HS。這個(gè)實(shí)體就是在1987年制定了全歐數(shù)字蜂窩移動(dòng)通信TDMA標(biāo)準(zhǔn)GSM,GSM采用ETSI規(guī)范的13kb/s速率的長(zhǎng)時(shí)預(yù)測(cè)-規(guī)則脈沖激勵(lì)線性預(yù)測(cè)語(yǔ)音編碼標(biāo)準(zhǔn),后來(lái)TCH-HS又提出了一個(gè)“半速率”語(yǔ)音編碼標(biāo)準(zhǔn),其系統(tǒng)容量是原來(lái)系統(tǒng)的2倍。歐洲數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)如表2-2所示。
表2-2:歐洲數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
3、日本的數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)
日本的RCR負(fù)責(zé)制定了日本的數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼。日本的數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)詳見(jiàn)下表2-3。
表2-3:日本的數(shù)字蜂窩移動(dòng)通信語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
三、國(guó)際海事衛(wèi)星組織的衛(wèi)星通信語(yǔ)音編碼標(biāo)準(zhǔn)
國(guó)際海事衛(wèi)星組織(INMARSAT)于1990年公布了應(yīng)用于衛(wèi)星通信的IMBE(改進(jìn)型多帶激勵(lì)編碼)4.15kb/s語(yǔ)音編碼標(biāo)準(zhǔn)。具體詳見(jiàn)下表3-1。
表3-1:國(guó)際海事衛(wèi)星組織公布的4.15 kb/s的IMBE語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
四、美國(guó)的保密通信語(yǔ)音編碼標(biāo)準(zhǔn)
為了保密通信,美國(guó)的DOD制定了一系列應(yīng)用美國(guó)的保密通信的語(yǔ)音編碼標(biāo)準(zhǔn),具體詳見(jiàn)下表4-1。
表4-1:美國(guó)的保密通信語(yǔ)音編碼標(biāo)準(zhǔn)的參數(shù)
五、ISO的多媒體應(yīng)用的音頻壓縮編碼標(biāo)準(zhǔn)
近年來(lái)隨著功能強(qiáng)大、價(jià)格便宜的個(gè)人計(jì)算機(jī)進(jìn)入千家萬(wàn)戶,多媒體的應(yīng)用愈來(lái)愈廣泛。在多媒體用領(lǐng)域中,文本、圖象、電視、電影和聲音都被存儲(chǔ)在計(jì)算機(jī)中,然后再顯示、編輯和回放。ISO在對(duì)多媒體數(shù)據(jù)進(jìn)行MPEG壓縮和處理時(shí),對(duì)音頻的壓縮已經(jīng)成為MPEG視頻壓縮中不可分割的一部分。這里的對(duì)音頻的壓縮編碼,與前述的幾種語(yǔ)音編碼技術(shù)不同的是,前述的幾種語(yǔ)音編碼技術(shù)主要是對(duì)話音頻帶(300 Hz~3400Hz)進(jìn)行壓縮編碼,而ISO的MPEG的音頻壓縮編碼是對(duì)聲音頻帶的編碼,我們知道人耳能聽(tīng)到的聲音頻率范圍大約為20 Hz~22000Hz。
1、MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)
ISO/IEC 11172-3標(biāo)準(zhǔn)是MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)。此標(biāo)準(zhǔn)規(guī)定了MPEG-1音頻層數(shù)據(jù)壓縮編碼的方法。標(biāo)準(zhǔn)中有三個(gè)處理級(jí)別,分別稱為第Ⅰ、Ⅱ、Ⅲ層,第Ⅰ層是基本模式,其余兩層有更多的處理,因而在相同的聽(tīng)覺(jué)質(zhì)量下,將會(huì)有更高的壓縮效率。
此標(biāo)準(zhǔn)主要用于一般音頻信號(hào)的處理,特別是與各種數(shù)字視頻應(yīng)用有關(guān)的音頻信號(hào)的處理。MPEG-1可以提供取樣頻率為32 kHz、44.1 kHz和48 kHz的單聲道或立體聲。表5-1給出了第Ⅰ、Ⅱ、Ⅲ層的性能和應(yīng)用領(lǐng)域。可見(jiàn),由第Ⅰ層到第Ⅲ層壓縮效率和聽(tīng)覺(jué)質(zhì)量逐層提高。第Ⅲ層的壓縮算法我們常稱之為MP3。表5-2給出了MPEG-1音頻第Ⅰ、Ⅱ?qū)訁?shù)的比較。
表5-1:MPEG-1音頻第Ⅰ、Ⅱ、Ⅲ層音頻編碼的參數(shù)
表5-2:MPEG-1音頻第Ⅰ、Ⅱ?qū)訁?shù)的比較
2、MPEG-2音頻壓縮編碼標(biāo)準(zhǔn)
ISO/IEC 13818-3標(biāo)準(zhǔn)是MPEG-2音頻壓縮編碼標(biāo)準(zhǔn)。此標(biāo)準(zhǔn)是MPEG委員會(huì)在1994年11月通過(guò)的。MPEG-2音頻壓縮的應(yīng)用范圍包括數(shù)字HDTV電視節(jié)目的發(fā)送以及從因特網(wǎng)上的下載等。它可以向后兼容多聲道聲音、低取樣率以及高級(jí)音頻編碼(AAC)這一類非向后兼容的多聲道聲音。
MPEG-2音頻壓縮編碼標(biāo)準(zhǔn)包括MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)的第Ⅰ、Ⅱ、Ⅲ層,使用相同的編碼和譯碼原理。在許多情況下,為了應(yīng)用MPEG-1所設(shè)計(jì)的算法,也適用于MPEG-2。多聲道的MPEG-2音頻向后兼容MPEG-1。MPEG-2的譯碼器可以接收MPEG-1的比特流。MPEG-1的譯碼器可以從MPEG-2的比特流中得到立體聲。MPEG-2允許使用不兼容的音頻編碼器。MPEG-2可以提供取樣頻率為32 kHz、44.1 kHz和48 kHz的多聲道聲音。MPEG-2向后兼容MPEG-1,通常用BC表示向后兼容,則可以表示為MPEG-2BC。MPEG-2也支持取樣頻率為16 kHz、22.05 kHz和24 kHz的單聲道和立體聲編碼。
3、MPEG-4音頻壓縮編碼
MPEG-4用MPEG-2AAC和MPEG-4音頻編碼來(lái)支持高質(zhì)量單聲道、立體聲和多聲道信號(hào)的編碼。MPEG-4還特別針對(duì)非常低的比特率,例如針對(duì)64~2kb/s的自然音頻進(jìn)行編碼。當(dāng)其使用變速率編碼時(shí),甚至可以對(duì)低于 2 kb/s以下的自然音頻編碼,例如,可以對(duì)1.2 kb/s速率的音頻編碼。MPEG-4也支持中等質(zhì)量的音頻編碼。對(duì)于這一質(zhì)量等級(jí)的音頻信號(hào),從使用8 kHz的取樣頻率開(kāi)始。MPEG-4支持寬帶話音編碼、窄帶話音編碼、智能話音編碼、語(yǔ)音合成以及音頻合成。定義了4個(gè)音頻的分布圖,提供對(duì)極低比特率話音進(jìn)行參數(shù)編碼的合音矢量激活編碼(HVXC)器、對(duì)窄帶/寬帶話音進(jìn)行編碼的CELPC編碼器和一個(gè)文字到話音的接口。
欲更多了解關(guān)于語(yǔ)音編碼知識(shí)的請(qǐng)進(jìn)入:相關(guān)標(biāo)準(zhǔn)化組織語(yǔ)音編碼標(biāo)準(zhǔn);常用的語(yǔ)音編碼的相關(guān)特性比較;按語(yǔ)音編碼速率分類的編碼技術(shù)比較