果冻传媒高清在线播放_黑人巨茎大战椎名由奈_女人毛片视频_高中生喷水喷浆 - 成人国产精品

歡迎來到通信人在線![用戶登錄] [免費(fèi)注冊]

語音編碼性能評價(jià)指標(biāo)的概念

瀏覽:13851  來源:通信人在線  日期:2020-03-02

語音編碼所要解決的基本問題,是在給定的編碼速率條件下,如何得到盡可能好的重建語音質(zhì)量(或稱編碼質(zhì)量),同時(shí)應(yīng)盡可能減少編譯碼算法的復(fù)雜度和時(shí)延,并使編譯碼系統(tǒng)有較好的堅(jiān)韌性;或者是在給定編碼質(zhì)量、編譯碼復(fù)雜度和時(shí)延以及堅(jiān)韌性要求的條件下,如何盡可能降低語音編碼所需的速率等。這五個(gè)方面的要求,就是衡量語音編碼性能的主要指標(biāo)。應(yīng)該指出的是,這五個(gè)方面的要求(或稱五個(gè)質(zhì)量指標(biāo))有時(shí)是互相矛盾的,它們之間有著緊密的聯(lián)系,是互相影響的,在不同的應(yīng)用中,對各個(gè)指標(biāo)要求的側(cè)重點(diǎn)也有所不同。

1、編碼速率

編碼速率直接反應(yīng)了語音編碼對語音信息的壓縮程度。編碼速率又稱為比特率,它是指一個(gè)編碼器的信息速率。在語音通信系統(tǒng)中,它決定了編碼器工作時(shí)占用的信道帶寬,低速率語音編碼可以占用較少的信道帶寬。編碼速率可以用“比特/秒”(b/s)來度量,它代表了編碼的總速率,一般用V表示。編碼速率也可以用“比特/樣點(diǎn)”(b/p)表示,它代表了平均每個(gè)語音樣點(diǎn)用多少比特編碼,一般用R表示。VR可以通過取樣頻率聯(lián)系起來:

V = R fS

其中的取樣頻率fS通常根據(jù)Nyquist定理由信號帶寬決定。目前國際上各種數(shù)字聲頻信號常用的帶寬及取樣頻率由表1給出。

    1:幾種數(shù)字聲頻帶帶寬及取樣頻率

顯然,平均每樣點(diǎn)比特?cái)?shù)R越高,語音波形或參數(shù)量化就越精細(xì),話音質(zhì)量也就越好,相應(yīng)地對傳輸帶寬或存儲容量的要求也就越高。在波形編碼中,為了獲得高質(zhì)量的重建話音,一般取R2(ΔM除外),而在參數(shù)編碼中R可以低到0.25甚至0.1以下。當(dāng)然在后一種情況下重建語音只能保持一定的可懂度,而反映講話人特征的信息和語音的自然度就會有較大的損失。

2、合成語音質(zhì)量

合成語音質(zhì)量可以說是語音編碼性能的最根本指標(biāo)。評價(jià)合成語音質(zhì)量的方法很多,多年來人們提出的許多方法歸納起來可以分為兩類:主觀評價(jià)方法和客觀評價(jià)方法。

1)主觀評價(jià)方法

主觀評價(jià)方法是在一組測試者對原始語音和合成語音進(jìn)行對比試聽的基礎(chǔ)上,根據(jù)某種預(yù)先約定的尺度來對失真語音劃分質(zhì)量等級,它比較全面地反映了人們聽音時(shí)對合成語音質(zhì)量好壞程度的一種主觀印象。主觀評價(jià)方法符合人類聽話時(shí)對語音質(zhì)量的感覺,目前得到了比較廣泛的應(yīng)用。常用的主觀評價(jià)方法有3種:平均意見得分(MOS)、判斷韻字測試(DRT)和判斷滿意度測量(DAM)

欲詳細(xì)了解語音編碼質(zhì)量的主觀評價(jià)方法的請進(jìn)入

2)客觀評價(jià)方法

針對主觀評價(jià)方法的不足之處,基于客觀測度的語音客觀評價(jià)方法相繼被提出。客觀評價(jià)必然要借鑒主觀評價(jià)的那種高度智能和人性化的過程,但是不可能找到一個(gè)絕對完善的測度和十分理想的測試方法,只能盡量利用所獲信息做出基本正確的評價(jià)。一般地,一種客觀測度的優(yōu)劣取決于它與主觀評價(jià)結(jié)果在統(tǒng)計(jì)意義上的相關(guān)程度。客觀評價(jià)方法建立在原始語音和合成語音的數(shù)學(xué)對比之上,大多數(shù)客觀評價(jià)是用數(shù)值距離或者描述聽覺系統(tǒng)如何來感知語音質(zhì)量的模型來量化語音質(zhì)量的。圖2給出了語音客觀評價(jià)方法的基本過程。由圖2不難看出,輸入語音(原始語音)與輸出語音(合成語音)之間的同步是非常重要的,它也是決定客觀評價(jià)結(jié)果正確與否的關(guān)鍵因素,在實(shí)際操作過程中,需要認(rèn)真對待。

2:語音客觀評價(jià)方法的基本過程圖

目前所用的客觀評價(jià)方法可以分為時(shí)域客觀評價(jià)和頻域客觀評價(jià)兩大類。時(shí)域客觀評價(jià)測度定義為被測系統(tǒng)的輸入語音與輸出語音在時(shí)域波形比較上的失真度。因此,這種評價(jià)方法僅適用于波形編碼系統(tǒng)。此類方法中的結(jié)果取值越大,說明被測語音質(zhì)量就越好。時(shí)域客觀評價(jià)常用的方法有信噪比(SNR)測度和平均分段信噪比(segSNR)測度等。

頻域客觀評價(jià)測度一般有距離測度、LPC倒譜距離測度、巴克譜失真測度(BSD)MEL譜測度等。在這類測度中,若測度計(jì)算結(jié)果取值越小,說明合成語音與原始語音越接近,即被測語音質(zhì)量就越好。頻域客觀評價(jià)方法最常用的就是巴克譜失真測度(BSD),因?yàn)樗紤]了人耳的多種聽覺特性。巴克譜失真測度考慮了人耳的多種聽覺特性,在評價(jià)速率較高的波形編碼算法時(shí)和人的主觀感覺比較符合,但在參數(shù)編碼算法和混合編碼算法的評價(jià)中仍然不能很好地表征人耳對語音的感知。因此人們提出了改進(jìn)的巴克譜失真測度(MBSD)來對合成語音質(zhì)量進(jìn)行客觀評價(jià)。MBSD基于人耳的聽覺掩蔽效應(yīng),更好地表征了人耳對語音的感知,而且它與MOS評分有很高程度的相關(guān)性,因此得到了廣泛應(yīng)用。

3、編解碼延時(shí)

編解碼延時(shí)一般用單次編解碼所需時(shí)間來表示。在實(shí)時(shí)語音通信系統(tǒng)中,語音編解碼延時(shí)同線路傳輸延時(shí)的作用一樣,對系統(tǒng)的通信質(zhì)量有很大影響。過長的語音延時(shí)會使通信雙方產(chǎn)生交談困難,而且會產(chǎn)生明顯的回聲而干擾人的正常思維。因此,在實(shí)時(shí)語音通信系統(tǒng)中,必須對語音編解碼算法的編解碼延時(shí)提出一定的要求。對于公用電話網(wǎng),編解碼延時(shí)通常要求不超過5ms~10ms,而對于移動蜂窩通信系統(tǒng),允許最大延時(shí)不超過100ms

4、算法復(fù)雜度

算法復(fù)雜度包括兩個(gè)方面,運(yùn)算復(fù)雜度和內(nèi)存要求,它主要影響到語音編解碼器的硬件實(shí)現(xiàn),也決定了硬件實(shí)現(xiàn)的復(fù)雜程度、體積、功耗以及成本等。對于一些復(fù)雜的語音編碼算法,運(yùn)算復(fù)雜度一般用處理每一秒鐘信號樣本所需的數(shù)字信號處理(DSP)指令條數(shù)來衡量其計(jì)算復(fù)雜度,可用單位“兆次操作/s(兆次/s)或“兆條指令/s(兆指令/s)等來對運(yùn)算復(fù)雜度進(jìn)行描述。內(nèi)存則用單位“字節(jié)(B)”來衡量。在討論算法復(fù)雜度時(shí)應(yīng)該考慮算法可擴(kuò)展性。它是指一種語音編碼算法不僅能解決當(dāng)前的實(shí)際應(yīng)用,而且可以兼顧將來的發(fā)展,隨著運(yùn)算器件性能的增強(qiáng),算法稍加修改就可獲得更高的語音質(zhì)量,這就是要求算法具有可擴(kuò)展性的意義。

5、其它性能

語音編碼的其它性能還包括語音編碼的頑健性、對多語種的通用性、抗隨機(jī)誤碼和突發(fā)誤碼能力、抗丟包和丟幀能力、誤碼容限、對不同信號的編碼能力等。隨著基于分組交換語音業(yè)務(wù)的發(fā)展,這些性能的研究也已提到議事日程上來。

編碼器的頑健性是通過取多種不同來源的語音信號進(jìn)行編、譯碼,并對輸出語音質(zhì)量進(jìn)行比較測試得到的一種指標(biāo)。例如,取不同類型的發(fā)音人的語音、各種背景噪聲下的語音、用各種麥克風(fēng)或不同頻響的放大器錄制的語音、非語音聲音等。編碼器是要用于通信系統(tǒng)的,必須能適應(yīng)各種各樣的情況。多級編譯碼情況下的輸出語音質(zhì)量也是衡量編碼器頑健性的一項(xiàng)重要指標(biāo)。在逐步發(fā)展起來的數(shù)字通信網(wǎng)中,既有數(shù)字電話又有模擬電話,從端到端的路由中,會出現(xiàn)“模擬語音信號-語音壓縮編碼-譯碼還原為模擬語音信號-語音壓縮編碼-譯碼還原為模擬語音信號”這樣一種異步級聯(lián)多級編碼的情況,在這樣的情況下,語音編碼器的頑健性就顯得十分重要。

誤碼容限也是一個(gè)應(yīng)該考慮的性能指標(biāo),由于話音業(yè)務(wù)的實(shí)時(shí)性,不能像電報(bào)業(yè)那樣檢錯(cuò)重發(fā),因此在編碼器中即使采取了一些誤碼保護(hù)措施,也仍然難免存在誤碼。通常要求語音編碼器在1%的誤碼率下仍然能提供可用的輸出語音。

總的來說,一個(gè)理想的語音編碼算法應(yīng)該是低速率、高合成語音質(zhì)量、低時(shí)延、低運(yùn)算復(fù)雜度并具有良好的編碼頑健性、可擴(kuò)展性的編碼算法,由于這些性能之間存在著互相制約的關(guān)系,實(shí)際的編碼算法都是這些性能的折衷。事實(shí)上,正是這些相互矛盾的要求,推動了語音編碼技術(shù)的不斷發(fā)展。

欲進(jìn)一步了解幾種語音編碼主觀評價(jià)與客觀評價(jià)指標(biāo)的請進(jìn)入

聯(lián)合國兒童基金會助學(xué)
© 2004-2025 通信人在線 版權(quán)所有 備案號:粵ICP備06113876號 網(wǎng)站技術(shù):做網(wǎng)站