語音編碼的分類方法

瀏覽：19417 來源：通信人在線日期：2021-10-11

自從1937年A.H.Reeves提出脈沖編碼調(diào)制(PCM)編碼以來，語音編碼技術(shù)就開創(chuàng)了語音數(shù)字化通信的歷程。近年來，隨著通信技術(shù)的發(fā)展和人類社會信息化進程的加快，語音編碼技術(shù)也正在迅速地發(fā)展，各種語音編碼的新技術(shù)和新算法更是層出不窮，這里匯集了31種語音壓縮編碼方式（或算法）的中英文對照詳見下表0。因此，對語音編碼算法進行合理地分類，可以讓大家從整體上把握語音編碼技術(shù)的各個發(fā)展領(lǐng)域。根據(jù)對語音信號不同的處理角度，語音編碼可有下述9種不同的分類方法。

表0：語音壓縮編碼方式的中英文對照表（31種）

欲更多了解各類已標(biāo)準(zhǔn)化的語音及音頻編碼技術(shù)的性能比較的請進入。

1、按語音信號帶寬分類

按語音信號帶寬分類是根據(jù)語音信號本身在頻域內(nèi)所占的頻譜寬度進行的一種語音編碼分類方法，據(jù)此方法可以將語音編碼分為3種：普通話帶語音編碼、寬帶語音編碼和高寬帶語音編碼。

目前應(yīng)用得最多的是普通話帶語音編碼。標(biāo)準(zhǔn)的話路頻帶(話帶)語音信號是0.3kHz~3.4kHz，再加上少量的保護帶寬，則一般意義上所說的一路標(biāo)準(zhǔn)話路頻帶寬度就為4kHz。由于人類發(fā)聲的頻率范圍主要集中在1kHz~3kHz左右，因此這種設(shè)定對于傳遞語音的主要信息是可以接受的。根據(jù)奈奎斯特準(zhǔn)則，帶寬為4kHz的模擬信號變成數(shù)字信號時，采樣頻率應(yīng)為8kHz才能在還原時不會出現(xiàn)頻譜重疊。因此，通常所說的語音編碼一般都指的是這種對話帶范圍內(nèi)的語音信號經(jīng)8kHz采樣后的數(shù)字語音信號進行的有損壓縮過程。

寬帶語音編碼可以用于電視會議系統(tǒng)等對語音要求較高的應(yīng)用領(lǐng)域中。寬帶語音信號帶寬在7kHz左右，采樣率一般在20kHz左右。國際電信聯(lián)盟(ITU-T)第16工作組于2002年1月公布的自適應(yīng)多速率寬帶(AMR-WB)語音編碼器的標(biāo)準(zhǔn)為G.722.2協(xié)議，其語音信號帶寬為50Hz~7000Hz，采樣率為16kHz，屬于寬帶語音編碼的一種。AMR-WB語音編碼器已被第三代伙伴計劃(3GPP)選定為全球移動通信系統(tǒng)(GSM)和第三代寬帶碼分多址(WCDMA)通信系統(tǒng)的語音編碼器，并應(yīng)用于因特網(wǎng)協(xié)議(IP)電話、第三代移動通信、綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)寬帶電話、ISDN可視電話和電視會議等領(lǐng)域。這標(biāo)志著無線和有線業(yè)務(wù)第一次采用同樣的語音編碼器。

另外，還有對更高帶寬的語音信號的編碼，這就是高寬帶語音編碼。它不僅僅是對話音信號的處理，而且還將人耳聽力范圍內(nèi)的音頻信號(帶寬在20kHz左右)進行壓縮，此時的采樣率一般都在50kHz左右。這一研究領(lǐng)域的應(yīng)用范圍也十分廣泛，比如在電影、高保真音響、電腦音樂及藝術(shù)創(chuàng)作等方面的應(yīng)用。該技術(shù)的應(yīng)用為人類進入多媒體信息社會提供了更為豐富的聲音資源。

欲具體了解各類多媒體信息（音視頻）壓縮編碼技術(shù)的請進入。

2、按語音編碼方法分類

語音信號是一種時變的準(zhǔn)周期信號，它可以近似地被看做由許多振幅和相位都隨時間變化的正弦波構(gòu)成的信號，因此可以用語音的抽樣波形來描述語音信號，同時也可以用語音的參數(shù)特征來描述語音信號。人們根據(jù)描述語音信號的不同方法將語音編碼分為3類：波形編碼、參數(shù)編碼和混合編碼。這種按語音編碼方法進行的分類也是最傳統(tǒng)和最常用的一種分類方法，目前被大多數(shù)相關(guān)學(xué)者所采用。其特點介紹詳見下表2。

表2：按語音編碼方法進行分類的各方法特點

常用的波形編碼方式包括脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)差分脈碼調(diào)制(AD-PCM)，自適應(yīng)預(yù)測編碼(APC)和自適應(yīng)變換編碼(ATC)等。共振峰聲碼器和線性預(yù)測聲碼器都是典型的參數(shù)編碼器。多脈沖激勵線性預(yù)測編碼(MPLPC)、規(guī)則脈沖激勵線性預(yù)測編碼(RPE- LPC)和碼激勵線性預(yù)測(CELP)編碼等都屬于混合編碼。

欲詳細(xì)了解各類語音編碼方法的技術(shù)原理介紹的請進入。

3、按語音編碼處理域分類

語音信號是一種典型的非平穩(wěn)信號，但由于語音的形成過程是與發(fā)音器官的運動密切相關(guān)的，這種物理運動比起聲音振動速度來講要緩慢得多，因此語音信號常常可假定為短時平穩(wěn)信號，即在l0ms~30ms這樣的時間段內(nèi)，語音信號的某些物理特征參量可近似地看做是不變的。這就決定了語音信號可以進行時域處理。同時語音信號的短時平穩(wěn)性決定了語音頻譜在l0ms~30ms這樣短的時間段中也是平穩(wěn)的，因此也可以對語音信號進行頻譜分析，即頻域處理。

人們根據(jù)語音信號處理域的不同將語音編碼分為兩類：時域編碼和頻域編碼(變換域編碼)。顧名思義，時域編碼就是對語音信號在時間域內(nèi)進行相關(guān)處理并進行壓縮編碼；頻域編碼就是將語音信號由時間域變換到頻域內(nèi)進行相關(guān)處理并進行壓縮編碼。利用語音信號本身的性質(zhì)和人類的聽覺特性，可以確定時域編碼和頻域編碼的分類關(guān)系，如圖3所示。

圖3：時域編碼和頻域編碼的分類關(guān)系圖

4、按語音編碼速率分類

按語音編碼速率分類是根據(jù)語音信號進行壓縮編碼后進行傳輸或存儲所需要的數(shù)據(jù)速率(比特率)進行的一種語音編碼分類方法。據(jù)此方法可以大致將語音編碼分為3種：高速率(32Kb/s以上)語音編碼、中速率(4.8Kb/s~32Kb/s)語音編碼和低速率(4.8Kb/s以下)語音編碼，如圖4所示。另外，也有學(xué)者按編碼速率將語音編碼分為5種，詳見下表4。表4和圖4的分類方法沒有本質(zhì)的區(qū)別，只是此方法分得更為詳細(xì)而已。

圖4：語音編碼速率劃分圖（3種）表4：語音編碼速率劃分表（5種）

從圖4可以看出，編碼速率分類和編碼方法分類基本上是對應(yīng)的。波形編碼方法通常稱為高速率編碼，其比特率一般都在32Kb/s以上；參數(shù)編碼方法通常稱為低速率編碼，其比特率一般都在4.8Kb/s以下；介于中間的編碼方法屬于中速率語音編碼，也就是混合編碼方法。當(dāng)然，編碼速率分類和編碼方法分類的對應(yīng)并不是絕對的，這種對應(yīng)是一個相對的概念，有時它們相互之間存在著交叉關(guān)系。

欲具體了解按語音編碼速率分類的國際標(biāo)準(zhǔn)編碼技術(shù)性能的請進入。

欲更多了解幾種低速率語音編碼器的合成語音質(zhì)量的主觀和客觀評價指標(biāo)的請進入。

5、按編碼所使用的主要技術(shù)的分類

按照編碼所使用的主要技術(shù)，可以將語音編碼劃分為線性預(yù)測編碼、自適應(yīng)編碼、矢量編碼和變換域編碼等。其特點詳見下表5。應(yīng)該指出，廣義來說，子帶編碼等頻域編碼也是一種變換域編碼，但其變換通常并非采用正交變換，因此，一般不把它們歸為變換域編碼。而變換域編碼中的DFT變換編碼也可稱為頻域編碼，但其變換屬于正交變換，故一般仍將其歸為變換域編碼。

表5：按編碼所使用的主要技術(shù)進行分類的各方法特點

6、按編碼算法是否依賴于某種模型假定的分類

按照編碼算法是否依賴于某種模型的假定，可以將語音編碼劃分為基于模型的編碼和不基于模型的編碼兩大類。有的文獻資料又稱之為模型編碼和非模型編碼。

不基于模型的編碼或非模型編碼，主要是指波形編碼(包括變換編碼)。這類編碼是以波形逼近為原則，直接對時域波形或在變換域進行編碼。其重建語音的質(zhì)量好，但是編碼所需速率較高。基于模型的編碼是指那些以某種模型的假定為基礎(chǔ)的編碼。這里的模型假定包括語音產(chǎn)生模型和聽覺模型兩方面。基于語音產(chǎn)生模型的編碼有很多種，通道聲碼器、同態(tài)聲碼器、相位聲碼器、共振峰聲碼器、基于全極點聲道模型的線性預(yù)測聲碼器(LPC)和許多由LPC改進而得到的混合編碼方法，都是基于模型的編碼。

7、按被編碼信號的屬性的分類

按照被編碼信號的屬性可分為語音編碼和聲頻編碼。所謂聲頻編碼，是指那些非語音的聲音信號的編碼，例如各種樂器發(fā)出的音樂聲、鳥叫聲、流水聲等的編碼。聲頻編碼又稱為音頻編碼，是語音編碼的一個重要分支。

8、按編碼速率是否固定的分類

按照編碼速率是否固定，可以將語音編碼分為固定速率語音編碼和變速率語音編碼兩類。在語音編碼過程中，始終保持輸出數(shù)據(jù)速率固定的稱為定速率語音編碼。PCM、ADPCM、MPELP、CELP等大多數(shù)語音編碼都是定速率語音編碼。在語音編碼過程中，根據(jù)輸入信號的不同情況而改變輸出數(shù)據(jù)速率的稱為變速率語音編碼。第三代移動通信中使用的QCELP、EVRC等，就是變速率語音編碼。

9、按編碼出現(xiàn)和應(yīng)用時間以及技術(shù)發(fā)展情況的分類

按照編碼出現(xiàn)和應(yīng)用的時間以及技術(shù)發(fā)展情況，可以將語音編碼分為經(jīng)典語音編碼和現(xiàn)代語音編碼兩類。20世紀(jì)70年代末以前出現(xiàn)和應(yīng)用的語音編碼，其技術(shù)發(fā)展已經(jīng)相當(dāng)成熟和完善，例如PCM，稱為經(jīng)典的語音編碼。20世紀(jì)80年代以后出現(xiàn)和應(yīng)用、目前在技術(shù)上仍在繼續(xù)發(fā)展和完善的語音編碼，例如CELP、QCELP等，稱為現(xiàn)代語音編碼。

欲進一步了解語音編碼知識的請進入：語音信號的特征；語音編碼的相關(guān)特性；語音編碼標(biāo)準(zhǔn)介紹

附錄

本文的所有附表與附圖2017-10-16