基于ARM的MPEG4視頻解碼器

1 引言

本文旨在研究基于ARM微處理器的MPEG-4視頻解碼技術(shù)，主要應(yīng)用在手持移動(dòng)設(shè)備中。利用嵌入式系統(tǒng)實(shí)現(xiàn)MPEG-4視頻解碼，處理器的選擇是關(guān)鍵。在嵌入式系統(tǒng)中常用的RISC處理器是ARM核，主要是因?yàn)樗哂畜w積小，功耗低，成本低，性價(jià)比高的特點(diǎn)，這對于移動(dòng)應(yīng)用領(lǐng)域非常重要。ARM7系列微處理器為低功耗的32位RISC處理器，最適合于對價(jià)位和功耗要求較高的消費(fèi)類應(yīng)用。本解碼器定位于低分辨率和低幀率的應(yīng)用場合，因此選擇在ARM7TDMI核上實(shí)現(xiàn)解碼功能。要實(shí)現(xiàn)更高幀率和分辨率的解碼，可將軟件直接應(yīng)用在更高端的處理器上。

2 MPEG-4視頻解碼算法的優(yōu)化與實(shí)現(xiàn)

MPEG-4標(biāo)準(zhǔn)可以劃分為一套子標(biāo)準(zhǔn)，標(biāo)準(zhǔn)的每一部分都有各自最適合的應(yīng)用場合。MPEG-4 SVP就是一種特殊的、簡單的MPEG-4實(shí)現(xiàn)，SVP代表Simple Visual Profile。這部分是專門針對手持式產(chǎn)品中無線視頻傳輸應(yīng)用場合而制定的。由于本解碼器應(yīng)用在手持移動(dòng)設(shè)備視頻解碼的場合，因此選用MPEG-4 SVP作為解碼算法。

本文選用ARM7TDMI作為核心處理器進(jìn)行MPEG-4視頻解碼器的開發(fā)。在實(shí)際開發(fā)過程中，針對ARM7TDMI的結(jié)構(gòu)和MPEG-4的算法特點(diǎn)，做了大量優(yōu)化工作，保證了解碼的精度，大幅度提高了解碼的速度。解碼器的具體功能如表1所列。

表1 基于ARM7TDMI的MPEG-4視頻解碼器功能表

2.1 解碼器算法

解碼過程實(shí)際上就是從視頻編碼碼流中恢復(fù)出VOP數(shù)據(jù)的過程。圖1描述了一個(gè)視頻解碼過程。解碼器主要包含兩部分：運(yùn)動(dòng)解碼和紋理解碼。I幀中只含有紋理信息，因此只須解碼紋理信息即可恢復(fù)I幀。而P幀中不僅包含紋理信息，還包含運(yùn)動(dòng)信息，所以須解碼運(yùn)動(dòng)信息，獲得運(yùn)動(dòng)矢量并進(jìn)行運(yùn)動(dòng)補(bǔ)償。另外，還須進(jìn)行紋理解碼獲得殘差值，將這兩部分組合起來才能重建P幀。

圖1 MPEG4 SVP的解碼過程

解碼器的實(shí)現(xiàn)主要是提供一個(gè)簡單的接口函數(shù)，供解碼時(shí)調(diào)用。該接口函數(shù)根據(jù)解碼的不同需要和不同階段提供了5個(gè)入口。5個(gè)接口函數(shù)中： 4個(gè)供初始化、預(yù)處理及后續(xù)處理時(shí)調(diào)用；剩余1個(gè)是幀解碼的實(shí)現(xiàn)函數(shù)。圖2為幀解碼主程序的流程圖。

圖2 幀解碼主程序的流程圖。

解碼過程的計(jì)算主要集中在如下幾個(gè)模塊：IDCT、運(yùn)動(dòng)補(bǔ)償MC、逆量化、逆掃描、逆預(yù)測以及變長解碼VLD。表2給出了優(yōu)化前解碼過程的特征信息。

從表2中可以看出，上述運(yùn)算模塊在解碼過程中占有很大比例。對以上各模塊進(jìn)行優(yōu)化的效果將直接反映在解碼器的實(shí)時(shí)效率上。

表2 優(yōu)化前解碼過程的特征信息

2.2 ARM平臺下算法的優(yōu)化

ARM結(jié)構(gòu)是基于RISC原理的，指令集和相關(guān)的解碼機(jī)制都比CISC要簡單得多。它能高效地輸出指令，快速送出實(shí)時(shí)中斷響應(yīng)；它還進(jìn)行了管道設(shè)置，處理和存儲(chǔ)系統(tǒng)的所有部分可以持續(xù)地運(yùn)轉(zhuǎn)。在典型的情況下，當(dāng)一條指令被執(zhí)行時(shí)，其后續(xù)指令正在被解碼；而第三條指令便從存儲(chǔ)器中取出。ARM7TDMI并不具有指令或數(shù)據(jù)的高速緩存，主要被用于控制核心，而非數(shù)據(jù)處理。但通過對其特性的靈活運(yùn)用，可以使其非常容易地應(yīng)用于視頻解碼過程。對MPEG4視頻解碼器的算法優(yōu)化主要從以下幾方面入手：

（1）算法的優(yōu)化
這里是指高級C語言轉(zhuǎn)化算法以簡化計(jì)算量, 用******算法實(shí)現(xiàn)解碼中的各模塊。

① IDCT算法的選擇
IDCT運(yùn)行次數(shù)多，運(yùn)算量很大，其變換的快慢直接影響解碼的速度。本文采用一種稱為AAN的快速算法。其一維8點(diǎn)的DCT變換通過16點(diǎn)DFT來實(shí)現(xiàn)，而16點(diǎn)DFT又可通過FFT實(shí)現(xiàn)；二維8×8的DCT運(yùn)算僅需80次乘法和464次加法操作，大大減小了這部分的運(yùn)算量。用AAN算法實(shí)現(xiàn)IDCT運(yùn)算時(shí)，實(shí)際上是用IDFT取代IDCT，所以首先要得到DFT系數(shù)。方法是逆量化后直接將DCT系數(shù)分別乘以尺度因子，也就是說將尺度變換與逆量化結(jié)合。

② 除法運(yùn)算的消除
一個(gè)除法操作須花費(fèi)60～120個(gè)周期進(jìn)行處理,而一個(gè)乘法操作最多需要4個(gè)周期。在除法可以被乘法代替而不喪失準(zhǔn)確性的計(jì)算中,這樣做是非常有好處的。在反向DC系數(shù)預(yù)測過程中,DC系數(shù)重構(gòu)后,立即對其進(jìn)行逆量化,從而消除除法運(yùn)算。

③ 存儲(chǔ)訪問的減少
在任何實(shí)現(xiàn)中盡可能減少存儲(chǔ)訪問都是非常有價(jià)值的。由于ARM7TDMI內(nèi)沒有緩存，每次訪問都是對外部存儲(chǔ)器進(jìn)行的，所以這樣做尤為重要。通過在任何可能的地方結(jié)合解碼過程，訪問的次數(shù)即可減少。I幀中反向DC系數(shù)預(yù)測與DC系數(shù)逆量化的結(jié)合、逆掃描與變長解碼的結(jié)合，以及逆量化與IDCT的結(jié)合，P幀中變長解碼、逆掃描與反量化的結(jié)合，對于每個(gè)非零系數(shù)只需一次讀入和一次存儲(chǔ)。同時(shí)，像素重建也在IDCT之后立即進(jìn)行。這樣對每個(gè)系數(shù)來說，又減少了一次讀入和存儲(chǔ)。

（2）根據(jù)ARM7TDMI芯片結(jié)構(gòu)的優(yōu)化
這里的優(yōu)化主要體現(xiàn)在節(jié)約寄存器資源。任何一種芯片的寄存器資源都是有限的，ARM7TDMI的通用寄存器總數(shù)為31個(gè)，對于小規(guī)模應(yīng)用程序是足夠了，但在MPEG4解碼過程中往往會(huì)用到較多的寄存器，所以仍須節(jié)儉。方法如下：其一，在可能的情況下盡量少用寄存器，比如可對一個(gè)寄存器多次使用。其二，根據(jù)具體情況選擇最優(yōu)的變量類型，在局部變量中，使用int類型效率最高；而對于全局變量，使用short類型，則可減小Flash的使用量。

（3）匯編/結(jié)構(gòu)層的優(yōu)化
盡管編譯器可以產(chǎn)生匯編代碼，但為了使代碼效率更高，根據(jù)ARM7TDMI的特性對模塊IDCT、IQ、VLD、DC/AC預(yù)測和MC進(jìn)行手工匯編編碼。下面詳細(xì)闡述不同的優(yōu)化方法及其所使用的模塊。

① 內(nèi)部循環(huán)的解開
循環(huán)的解開其實(shí)也是為了增強(qiáng)程序中的并行處理能力。對于解循環(huán)，不能在解開的循環(huán)中保留線性過程，即指令在執(zhí)行過程中的結(jié)果不能作為后續(xù)指令的輸入數(shù)據(jù)；否則也就失去了并行處理能力，解循環(huán)也就失去了意義。
② 乘法和除法盡量用移位運(yùn)算來完成
對于2的冪次乘法或除法使用移位將會(huì)提高不少效率，一條除法指令使用的周期數(shù)遠(yuǎn)遠(yuǎn)多于移位指令。
③ 盡可能將循環(huán)內(nèi)部的負(fù)荷放到循環(huán)外面
這點(diǎn)很重要，因?yàn)樵S多循環(huán)內(nèi)部包括一條或幾條運(yùn)算語句，這些語句將被重復(fù)運(yùn)算，因此如果事先設(shè)定一個(gè)變量，然后賦上那幾條運(yùn)算語句的值，并替換到循環(huán)外部，則會(huì)極大地節(jié)省芯片資源，特別是對于循環(huán)中含有除法運(yùn)算的情況。在逆量化循環(huán)運(yùn)算中，存在著大量冗余計(jì)算，原因在于逆量化運(yùn)算中參數(shù)的重復(fù)計(jì)算，而對于每幀解碼VOP，這些參數(shù)是唯一的。因此，可將這些參數(shù)的計(jì)算放到逆量化循環(huán)外面，則每幀只須計(jì)算一次。這樣即可節(jié)約大量的指令周期。
④ 功能參數(shù)的優(yōu)化數(shù)量
在ARM編譯的過程中，子程序的參數(shù)是通過寄存器R0～R3來傳遞的。如果所傳遞的參數(shù)多于4個(gè)，那么超出的參數(shù)將被壓入棧內(nèi)；當(dāng)它們在函數(shù)中被第一次訪問時(shí)，便會(huì)從棧中彈出。通過把參數(shù)的數(shù)量減少到4個(gè)或者少于4個(gè)，則可直接使用，而無需任何的調(diào)入，因?yàn)檫@些值都可從寄存器中獲得。
⑤ 利用LDM和STM減少存儲(chǔ)器的訪問
批量加載/存儲(chǔ)指令可以實(shí)現(xiàn)在一組寄存器和一塊連續(xù)的內(nèi)存單元之間傳輸數(shù)據(jù)。LDM為加載多個(gè)寄存器；STM為存儲(chǔ)多個(gè)寄存器。這種特性非常有用，因?yàn)榕c單字加載/存儲(chǔ)相比，它在執(zhí)行周期上花費(fèi)更少。因此它在IDCT中得到了有效的利用，用于同一時(shí)刻取出一行的所有系數(shù)。同樣在運(yùn)動(dòng)補(bǔ)償過程中，一組數(shù)據(jù)字在指令的一次執(zhí)行中獲得，并且暫時(shí)存儲(chǔ)在多個(gè)寄存器中以便日后使用。
⑥ 指令的有條件執(zhí)行
有條件執(zhí)行的特性被ARM7TDMI的所有算法和數(shù)據(jù)移位指令支持。這是一項(xiàng)可選的特性。它在指令被執(zhí)行時(shí)設(shè)置標(biāo)記。有條件執(zhí)行通常用于循環(huán)退出條件和飽和條件，可以節(jié)省退出循環(huán)中的一個(gè)指令CMP。對于循環(huán)次數(shù)很多的情況，即使是一個(gè)指令的減少也有很大的好處。在變長解碼中就很好地利用了這種特性。
⑦ 一種用于運(yùn)動(dòng)補(bǔ)償?shù)挠行?yōu)化方法
解碼過程中處理的像素是8位。如果運(yùn)動(dòng)補(bǔ)償是在字節(jié)或像素的基礎(chǔ)上執(zhí)行，那么字節(jié)加載和存儲(chǔ)將被使用，它是存儲(chǔ)器訪問中代價(jià)最高的操作。因?yàn)锳RM7TDMI是32位微處理器，存儲(chǔ)器可以按字讀取數(shù)據(jù)，因此設(shè)計(jì)出一種有效的運(yùn)動(dòng)補(bǔ)償方法，即在字?jǐn)?shù)據(jù)的基礎(chǔ)上進(jìn)行操作。利用這種方法，便可以用一種非常有效的方式同時(shí)對4像素進(jìn)行運(yùn)動(dòng)補(bǔ)償。
下面以水平方向的半像素補(bǔ)償為例，講述補(bǔ)償?shù)倪^程。補(bǔ)償?shù)脑砣鐖D3所示。

首先讀入一個(gè)字到寄存器中，從低到高的數(shù)據(jù)依次對應(yīng)的是像素0、像素1、像素2和像素3；然后將讀碼流指針增加1字節(jié)，再讀取下一個(gè)字到另一寄存器中，從低到高的數(shù)據(jù)依次對應(yīng)的為像素1、像素2、像素3和像素4。示意圖如圖4所示。

圖3 半像素內(nèi)插示意圖圖4 4像素補(bǔ)償原理示意圖

半像素補(bǔ)償可由x=(A+B+1-rounding_control)/2來實(shí)現(xiàn)。式中： A和B為參考幀中兩個(gè)相鄰的像素?cái)?shù)據(jù)；rounding_control可取0或1。

按照補(bǔ)償公式對上述兩個(gè)寄存器進(jìn)行相加移位操作，但是對應(yīng)像素兩兩相加時(shí)可能會(huì)產(chǎn)生進(jìn)位。為了解決這個(gè)問題，須設(shè)置保護(hù)位，具體方法如下：

將上述兩個(gè)寄存器中的任意一個(gè)（如寄存器1）與0xFEFEFEFF相“與”，則寄存器1中像素1、2、3的最低位被清0，即將后一字節(jié)的最低位設(shè)置為前一字節(jié)的保護(hù)位。而對于第3字節(jié)，因?yàn)榧拇嫫鞅旧韼в羞M(jìn)位狀態(tài)標(biāo)志，所以無需另外設(shè)置。

•如果rounding_control為0，則將寄存器2與0x01010101相加，然后再和0xFEFEFEFF相“與”，設(shè)置進(jìn)位保護(hù)位；如果rounding_control為1，則直接將寄存器2和0xFEFEFEFF相“與”。
•將以上兩步的結(jié)果相加，判斷進(jìn)位狀態(tài)標(biāo)志。若有進(jìn)位，則將相加結(jié)果的最高位，即寄存器的第31位置1，最后右移1位。所得結(jié)果即補(bǔ)償后的4個(gè)像素值。
在同時(shí)對4像素進(jìn)行補(bǔ)償?shù)倪^程中，只有當(dāng)相鄰兩像素的最高位都為1時(shí)，才會(huì)有進(jìn)位產(chǎn)生。使用這種補(bǔ)償方法其實(shí)犧牲了部分精度，但這里只是使所影響的像素值增加了1，所以影響并不大，而且可以使補(bǔ)償速度大大提升。同時(shí)對4像素進(jìn)行補(bǔ)償?shù)倪^程中，寄存器加載需要3個(gè)周期，存儲(chǔ)需要2個(gè)周期，共有兩次加載和一次存儲(chǔ)操作，中間的加法和移位操作需要6個(gè)指令周期，共需14個(gè)周期。如果對上面4個(gè)像素分別進(jìn)行補(bǔ)償，則需5次加載操作和4次存儲(chǔ)操作，共23個(gè)周期，另外中間計(jì)算還需12個(gè)周期，所以共需35個(gè)周期?？梢?，犧牲部分精度換取補(bǔ)償速度是很值得的。

對于垂直方向和水平垂直方向的半像素補(bǔ)償，其原理與水平方向相同。

3 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析

通過優(yōu)化，MPEG4的解碼性能有了較大的提升。在ADS1.2環(huán)境下分別對各模塊進(jìn)行C算法優(yōu)化和ARM代碼優(yōu)化，結(jié)果如表3所列。按調(diào)用一次模塊函數(shù)所需周期數(shù)進(jìn)行統(tǒng)計(jì)。

表3 仿真器上各模塊單獨(dú)統(tǒng)計(jì)（使用QCIF格式圖像news）

這些模塊是解碼過程中經(jīng)常會(huì)調(diào)用的函數(shù)，因此，這些函數(shù)的優(yōu)化將使解碼速度有明顯的提高。

表4比較了不同序列的15幀QCIF格式視頻解碼優(yōu)化前后所需的帶寬。這些圖像具有不同的復(fù)雜度，因而結(jié)果也不一樣。

表4 對不同序列的優(yōu)化結(jié)果（15fps QCIF格式）

注： ① 為標(biāo)準(zhǔn)視頻測試序列。

解碼速度基本取決于圖像畫面的運(yùn)動(dòng)情況和顏色是否豐富。從上面的數(shù)據(jù)可以看出對于不同的序列，其解碼速度也不同。news、salesman和miss_am之所以很快，是因?yàn)閳D像背景靜止，只有肩部和頭部有運(yùn)動(dòng)，所以P幀的編碼數(shù)據(jù)量較少，解碼速度較高。另外，如果圖像很簡單（單調(diào)），其能量集中到DC系數(shù)（直流分量）上，交流系數(shù)會(huì)出現(xiàn)多個(gè)零，因此變長解碼速度就會(huì)較高,從而節(jié)約了解碼時(shí)間。

從仿真速度分析

1 2 下一頁

<< 基于NOR FLASH存儲(chǔ)器的嵌入式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)嵌入式系統(tǒng)開發(fā)面臨的問題與集成開發(fā)環(huán)境的應(yīng)用 >>

久久久久久久麻豆,中日韩av在线,麻豆av在线免费,中文字幕二区三区,欧美日韩视频一区二区,亚洲欧美日韩在线一区,国产无毒不卡

基于ARM的MPEG4視頻解碼器