自從1937年A.H.Reeves提出脈沖編碼調(diào)制(PCM)編碼以來,語音編碼技術(shù)就開創(chuàng)了語音數(shù)字化通信的歷程。近年來,隨著通信技術(shù)的發(fā)展和人類社會信息化進程的加快,語音編碼技術(shù)也正在迅速地發(fā)展,各種語音編碼的新技術(shù)和新算法更是層出不窮,這里匯集了31種語音壓縮編碼方式(或算法)的中英文對照詳見下表0。因此,對語音編碼算法進行合理地分類,可以讓大家從整體上把握語音編碼技術(shù)的各個發(fā)展領(lǐng)域。根據(jù)對語音信號不同的處理角度,語音編碼可有下述9種不同的分類方法。
表0:語音壓縮編碼方式的中英文對照表(31種)
欲更多了解各類已標(biāo)準(zhǔn)化的語音及音頻編碼技術(shù)的性能比較的請進入。
1、按語音信號帶寬分類
按語音信號帶寬分類是根據(jù)語音信號本身在頻域內(nèi)所占的頻譜寬度進行的一種語音編碼分類方法,據(jù)此方法可以將語音編碼分為3種:普通話帶語音編碼、寬帶語音編碼和高寬帶語音編碼。
目前應(yīng)用得最多的是普通話帶語音編碼。標(biāo)準(zhǔn)的話路頻帶(話帶)語音信號是0.3kHz~3.4kHz,再加上少量的保護帶寬,則一般意義上所說的一路標(biāo)準(zhǔn)話路頻帶寬度就為4kHz。由于人類發(fā)聲的頻率范圍主要集中在1kHz~3kHz左右,因此這種設(shè)定對于傳遞語音的主要信息是可以接受的。根據(jù)奈奎斯特準(zhǔn)則,帶寬為4kHz的模擬信號變成數(shù)字信號時,采樣頻率應(yīng)為8kHz才能在還原時不會出現(xiàn)頻譜重疊。因此,通常所說的語音編碼一般都指的是這種對話帶范圍內(nèi)的語音信號經(jīng)8kHz采樣后的數(shù)字語音信號進行的有損壓縮過程。
寬帶語音編碼可以用于電視會議系統(tǒng)等對語音要求較高的應(yīng)用領(lǐng)域中。寬帶語音信號帶寬在7kHz左右,采樣率一般在20kHz左右。國際電信聯(lián)盟(ITU-T)第16工作組于2002年1月公布的自適應(yīng)多速率寬帶(AMR-WB)語音編碼器的標(biāo)準(zhǔn)為G.722.2協(xié)議,其語音信號帶寬為50Hz~7000Hz,采樣率為16kHz,屬于寬帶語音編碼的一種。AMR-WB語音編碼器已被第三代伙伴計劃(3GPP)選定為全球移動通信系統(tǒng)(GSM)和第三代寬帶碼分多址(WCDMA)通信系統(tǒng)的語音編碼器,并應(yīng)用于因特網(wǎng)協(xié)議(IP)電話、第三代移動通信、綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)寬帶電話、ISDN可視電話和電視會議等領(lǐng)域。這標(biāo)志著無線和有線業(yè)務(wù)第一次采用同樣的語音編碼器。
另外,還有對更高帶寬的語音信號的編碼,這就是高寬帶語音編碼。它不僅僅是對話音信號的處理,而且還將人耳聽力范圍內(nèi)的音頻信號(帶寬在20kHz左右)進行壓縮,此時的采樣率一般都在50kHz左右。這一研究領(lǐng)域的應(yīng)用范圍也十分廣泛,比如在電影、高保真音響、電腦音樂及藝術(shù)創(chuàng)作等方面的應(yīng)用。該技術(shù)的應(yīng)用為人類進入多媒體信息社會提供了更為豐富的聲音資源。
欲具體了解各類多媒體信息(音視頻)壓縮編碼技術(shù)的請進入。
2、按語音編碼方法分類
語音信號是一種時變的準(zhǔn)周期信號,它可以近似地被看做由許多振幅和相位都隨時間變化的正弦波構(gòu)成的信號,因此可以用語音的抽樣波形來描述語音信號,同時也可以用語音的參數(shù)特征來描述語音信號。人們根據(jù)描述語音信號的不同方法將語音編碼分為3類:波形編碼、參數(shù)編碼和混合編碼。這種按語音編碼方法進行的分類也是最傳統(tǒng)和最常用的一種分類方法,目前被大多數(shù)相關(guān)學(xué)者所采用。其特點介紹詳見下表2。
表2:按語音編碼方法進行分類的各方法特點
常用的波形編碼方式包括脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)差分脈碼調(diào)制(AD-PCM),自適應(yīng)預(yù)測編碼(APC)和自適應(yīng)變換編碼(ATC)等。共振峰聲碼器和線性預(yù)測聲碼器都是典型的參數(shù)編碼器。多脈沖激勵線性預(yù)測編碼(MPLPC)、規(guī)則脈沖激勵線性預(yù)測編碼(RPE- LPC)和碼激勵線性預(yù)測(CELP)編碼等都屬于混合編碼。
欲詳細(xì)了解各類語音編碼方法的技術(shù)原理介紹的請進入。
3、按語音編碼處理域分類
語音信號是一種典型的非平穩(wěn)信號,但由于語音的形成過程是與發(fā)音器官的運動密切相關(guān)的,這種物理運動比起聲音振動速度來講要緩慢得多,因此語音信號常常可假定為短時平穩(wěn)信號,即在l0ms~30ms這樣的時間段內(nèi),語音信號的某些物理特征參量可近似地看做是不變的。這就決定了語音信號可以進行時域處理。同時語音信號的短時平穩(wěn)性決定了語音頻譜在l0ms~30ms這樣短的時間段中也是平穩(wěn)的,因此也可以對語音信號進行頻譜分析,即頻域處理。
人們根據(jù)語音信號處理域的不同將語音編碼分為兩類:時域編碼和頻域編碼(變換域編碼)。顧名思義,時域編碼就是對語音信號在時間域內(nèi)進行相關(guān)處理并進行壓縮編碼;頻域編碼就是將語音信號由時間域變換到頻域內(nèi)進行相關(guān)處理并進行壓縮編碼。利用語音信號本身的性質(zhì)和人類的聽覺特性,可以確定時域編碼和頻域編碼的分類關(guān)系,如圖3所示。
圖3:時域編碼和頻域編碼的分類關(guān)系圖
4、按語音編碼速率分類
按語音編碼速率分類是根據(jù)語音信號進行壓縮編碼后進行傳輸或存儲所需要的數(shù)據(jù)速率(比特率)進行的一種語音編碼分類方法。據(jù)此方法可以大致將語音編碼分為3種:高速率(32Kb/s以上)語音編碼、中速率(4.8Kb/s~32Kb/s)語音編碼和低速率(4.8Kb/s以下)語音編碼,如圖4所示。另外,也有學(xué)者按編碼速率將語音編碼分為5種,詳見下表4。表4和圖4的分類方法沒有本質(zhì)的區(qū)別,只是此方法分得更為詳細(xì)而已。
圖4:語音編碼速率劃分圖(3種) 表4:語音編碼速率劃分表(5種)
從圖4可以看出,編碼速率分類和編碼方法分類基本上是對應(yīng)的。波形編碼方法通常稱為高速率編碼,其比特率一般都在32Kb/s以上;參數(shù)編碼方法通常稱為低速率編碼,其比特率一般都在4.8Kb/s以下;介于中間的編碼方法屬于中速率語音編碼,也就是混合編碼方法。當(dāng)然,編碼速率分類和編碼方法分類的對應(yīng)并不是絕對的,這種對應(yīng)是一個相對的概念,有時它們相互之間存在著交叉關(guān)系。
欲具體了解按語音編碼速率分類的國際標(biāo)準(zhǔn)編碼技術(shù)性能的請進入。
欲更多了解幾種低速率語音編碼器的合成語音質(zhì)量的主觀和客觀評價指標(biāo)的請進入。
5、按編碼所使用的主要技術(shù)的分類
按照編碼所使用的主要技術(shù),可以將語音編碼劃分為線性預(yù)測編碼、自適應(yīng)編碼、矢量編碼和變換域編碼等。其特點詳見下表5。應(yīng)該指出,廣義來說,子帶編碼等頻域編碼也是一種變換域編碼,但其變換通常并非采用正交變換,因此,一般不把它們歸為變換域編碼。而變換域編碼中的DFT變換編碼也可稱為頻域編碼,但其變換屬于正交變換,故一般仍將其歸為變換域編碼。
表5:按編碼所使用的主要技術(shù)進行分類的各方法特點
6、按編碼算法是否依賴于某種模型假定的分類
按照編碼算法是否依賴于某種模型的假定,可以將語音編碼劃分為基于模型的編碼和不基于模型的編碼兩大類。有的文獻資料又稱之為模型編碼和非模型編碼。
不基于模型的編碼或非模型編碼,主要是指波形編碼(包括變換編碼)。這類編碼是以波形逼近為原則,直接對時域波形或在變換域進行編碼。其重建語音的質(zhì)量好,但是編碼所需速率較高。基于模型的編碼是指那些以某種模型的假定為基礎(chǔ)的編碼。這里的模型假定包括語音產(chǎn)生模型和聽覺模型兩方面。基于語音產(chǎn)生模型的編碼有很多種,通道聲碼器、同態(tài)聲碼器、相位聲碼器、共振峰聲碼器、基于全極點聲道模型的線性預(yù)測聲碼器(LPC)和許多由LPC改進而得到的混合編碼方法,都是基于模型的編碼。
7、按被編碼信號的屬性的分類
按照被編碼信號的屬性可分為語音編碼和聲頻編碼。所謂聲頻編碼,是指那些非語音的聲音信號的編碼,例如各種樂器發(fā)出的音樂聲、鳥叫聲、流水聲等的編碼。聲頻編碼又稱為音頻編碼,是語音編碼的一個重要分支。
8、按編碼速率是否固定的分類
按照編碼速率是否固定,可以將語音編碼分為固定速率語音編碼和變速率語音編碼兩類。在語音編碼過程中,始終保持輸出數(shù)據(jù)速率固定的稱為定速率語音編碼。PCM、ADPCM、MPELP、CELP等大多數(shù)語音編碼都是定速率語音編碼。在語音編碼過程中,根據(jù)輸入信號的不同情況而改變輸出數(shù)據(jù)速率的稱為變速率語音編碼。第三代移動通信中使用的QCELP、EVRC等,就是變速率語音編碼。
9、按編碼出現(xiàn)和應(yīng)用時間以及技術(shù)發(fā)展情況的分類
按照編碼出現(xiàn)和應(yīng)用的時間以及技術(shù)發(fā)展情況,可以將語音編碼分為經(jīng)典語音編碼和現(xiàn)代語音編碼兩類。20世紀(jì)70年代末以前出現(xiàn)和應(yīng)用的語音編碼,其技術(shù)發(fā)展已經(jīng)相當(dāng)成熟和完善,例如PCM,稱為經(jīng)典的語音編碼。20世紀(jì)80年代以后出現(xiàn)和應(yīng)用、目前在技術(shù)上仍在繼續(xù)發(fā)展和完善的語音編碼,例如CELP、QCELP等,稱為現(xiàn)代語音編碼。
欲進一步了解語音編碼知識的請進入:語音信號的特征;語音編碼的相關(guān)特性;語音編碼標(biāo)準(zhǔn)介紹