基于ARM的MPEG4視頻解碼器
本文旨在研究基于ARM微處理器的MPEG-4視頻解碼技術(shù),主要應(yīng)用在手持移動(dòng)設(shè)備中。利用嵌入式系統(tǒng)實(shí)現(xiàn)MPEG-4視頻解碼,處理器的選擇是關(guān)鍵。在嵌入式系統(tǒng)中常用的RISC處理器是ARM核,主要是因?yàn)樗哂畜w積小,功耗低,成本低,性價(jià)比高的特點(diǎn),這對于移動(dòng)應(yīng)用領(lǐng)域非常重要。ARM7系列微處理器為低功耗的32位RISC處理器,最適合于對價(jià)位和功耗要求較高的消費(fèi)類應(yīng)用。本解碼器定位于低分辨率和低幀率的應(yīng)用場合,因此選擇在ARM7TDMI核上實(shí)現(xiàn)解碼功能。要實(shí)現(xiàn)更高幀率和分辨率的解碼,可將軟件直接應(yīng)用在更高端的處理器上。 2 MPEG-4視頻解碼算法的優(yōu)化與實(shí)現(xiàn) MPEG-4標(biāo)準(zhǔn)可以劃分為一套子標(biāo)準(zhǔn),標(biāo)準(zhǔn)的每一部分都有各自最適合的應(yīng)用場合。MPEG-4 SVP就是一種特殊的、簡單的MPEG-4實(shí)現(xiàn),SVP代表Simple Visual Profile。這部分是專門針對手持式產(chǎn)品中無線視頻傳輸應(yīng)用場合而制定的。由于本解碼器應(yīng)用在手持移動(dòng)設(shè)備視頻解碼的場合,因此選用MPEG-4 SVP作為解碼算法。 本文選用ARM7TDMI作為核心處理器進(jìn)行MPEG-4視頻解碼器的開發(fā)。在實(shí)際開發(fā)過程中,針對ARM7TDMI的結(jié)構(gòu)和MPEG-4的算法特點(diǎn),做了大量優(yōu)化工作,保證了解碼的精度,大幅度提高了解碼的速度。解碼器的具體功能如表1所列。 表1 基于ARM7TDMI的MPEG-4視頻解碼器功能表 2.1 解碼器算法 解碼過程實(shí)際上就是從視頻編碼碼流中恢復(fù)出VOP數(shù)據(jù)的過程。圖1描述了一個(gè)視頻解碼過程。解碼器主要包含兩部分: 運(yùn)動(dòng)解碼和紋理解碼。I幀中只含有紋理信息,因此只須解碼紋理信息即可恢復(fù)I幀。而P幀中不僅包含紋理信息,還包含運(yùn)動(dòng)信息,所以須解碼運(yùn)動(dòng)信息,獲得運(yùn)動(dòng)矢量并進(jìn)行運(yùn)動(dòng)補(bǔ)償。另外,還須進(jìn)行紋理解碼獲得殘差值,將這兩部分組合起來才能重建P幀。 圖1 MPEG4 SVP的解碼過程 解碼器的實(shí)現(xiàn)主要是提供一個(gè)簡單的接口函數(shù),供解碼時(shí)調(diào)用。該接口函數(shù)根據(jù)解碼的不同需要和不同階段提供了5個(gè)入口。5個(gè)接口函數(shù)中: 4個(gè)供初始化、預(yù)處理及后續(xù)處理時(shí)調(diào)用;剩余1個(gè)是幀解碼的實(shí)現(xiàn)函數(shù)。圖2為幀解碼主程序的流程圖。 圖2 幀解碼主程序的流程圖。 解碼過程的計(jì)算主要集中在如下幾個(gè)模塊:IDCT、運(yùn)動(dòng)補(bǔ)償MC、逆量化、逆掃描、逆預(yù)測以及變長解碼VLD。表2給出了優(yōu)化前解碼過程的特征信息。 從表2中可以看出,上述運(yùn)算模塊在解碼過程中占有很大比例。對以上各模塊進(jìn)行優(yōu)化的效果將直接反映在解碼器的實(shí)時(shí)效率上。 表2 優(yōu)化前解碼過程的特征信息 2.2 ARM平臺下算法的優(yōu)化 ARM結(jié)構(gòu)是基于RISC原理的,指令集和相關(guān)的解碼機(jī)制都比CISC要簡單得多。它能高效地輸出指令,快速送出實(shí)時(shí)中斷響應(yīng);它還進(jìn)行了管道設(shè)置,處理和存儲(chǔ)系統(tǒng)的所有部分可以持續(xù)地運(yùn)轉(zhuǎn)。在典型的情況下,當(dāng)一條指令被執(zhí)行時(shí),其后續(xù)指令正在被解碼;而第三條指令便從存儲(chǔ)器中取出。ARM7TDMI并不具有指令或數(shù)據(jù)的高速緩存,主要被用于控制核心,而非數(shù)據(jù)處理。但通過對其特性的靈活運(yùn)用,可以使其非常容易地應(yīng)用于視頻解碼過程。對MPEG4視頻解碼器的算法優(yōu)化主要從以下幾方面入手: (1) 算法的優(yōu)化 ① IDCT算法的選擇 ② 除法運(yùn)算的消除 ③ 存儲(chǔ)訪問的減少 (2) 根據(jù)ARM7TDMI芯片結(jié)構(gòu)的優(yōu)化 (3) 匯編/結(jié)構(gòu)層的優(yōu)化 ① 內(nèi)部循環(huán)的解開 首先讀入一個(gè)字到寄存器中,從低到高的數(shù)據(jù)依次對應(yīng)的是像素0、像素1、像素2和像素3;然后將讀碼流指針增加1字節(jié),再讀取下一個(gè)字到另一寄存器中,從低到高的數(shù)據(jù)依次對應(yīng)的為像素1、像素2、像素3和像素4。示意圖如圖4所示。 圖3 半像素內(nèi)插示意圖 圖4 4像素補(bǔ)償原理示意圖 半像素補(bǔ)償可由x=(A+B+1-rounding_control)/2來實(shí)現(xiàn)。式中: A和B為參考幀中兩個(gè)相鄰的像素?cái)?shù)據(jù);rounding_control可取0或1。 按照補(bǔ)償公式對上述兩個(gè)寄存器進(jìn)行相加移位操作,但是對應(yīng)像素兩兩相加時(shí)可能會(huì)產(chǎn)生進(jìn)位。為了解決這個(gè)問題,須設(shè)置保護(hù)位,具體方法如下: 將上述兩個(gè)寄存器中的任意一個(gè)(如寄存器1)與0xFEFEFEFF相“與”,則寄存器1中像素1、2、3的最低位被清0,即將后一字節(jié)的最低位設(shè)置為前一字節(jié)的保護(hù)位。而對于第3字節(jié),因?yàn)榧拇嫫鞅旧韼в羞M(jìn)位狀態(tài)標(biāo)志,所以無需另外設(shè)置。 •如果rounding_control為0,則將寄存器2與0x01010101相加,然后再和0xFEFEFEFF相“與”,設(shè)置進(jìn)位保護(hù)位;如果rounding_control為1,則直接將寄存器2和0xFEFEFEFF相“與”。 對于垂直方向和水平垂直方向的半像素補(bǔ)償,其原理與水平方向相同。 3 實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析 通過優(yōu)化,MPEG4的解碼性能有了較大的提升。在ADS1.2環(huán)境下分別對各模塊進(jìn)行C算法優(yōu)化和ARM代碼優(yōu)化,結(jié)果如表3所列。按調(diào)用一次模塊函數(shù)所需周期數(shù)進(jìn)行統(tǒng)計(jì)。 表3 仿真器上各模塊單獨(dú)統(tǒng)計(jì)(使用QCIF格式圖像news) 這些模塊是解碼過程中經(jīng)常會(huì)調(diào)用的函數(shù),因此,這些函數(shù)的優(yōu)化將使解碼速度有明顯的提高。 表4比較了不同序列的15幀QCIF格式視頻解碼優(yōu)化前后所需的帶寬。這些圖像具有不同的復(fù)雜度,因而結(jié)果也不一樣。 表4 對不同序列的優(yōu)化結(jié)果(15fps QCIF格式) 注: ① 為標(biāo)準(zhǔn)視頻測試序列。 解碼速度基本取決于圖像畫面的運(yùn)動(dòng)情況和顏色是否豐富。從上面的數(shù)據(jù)可以看出對于不同的序列,其解碼速度也不同。news、salesman和miss_am之所以很快,是因?yàn)閳D像背景靜止,只有肩部和頭部有運(yùn)動(dòng),所以P幀的編碼數(shù)據(jù)量較少,解碼速度較高。另外,如果圖像很簡單(單調(diào)),其能量集中到DC系數(shù)(直流分量)上,交流系數(shù)會(huì)出現(xiàn)多個(gè)零,因此變長解碼速度就會(huì)較高,從而節(jié)約了解碼時(shí)間。 從仿真速度分析 |