O266player視頻播放示意圖

2021年1月,O266dec新增main10 profile移動(dòng)端解碼器,進(jìn)一步促進(jìn)了H.266/VVC標(biāo)準(zhǔn)生態(tài)建設(shè)。它以全面的模塊性能優(yōu)化和出色的并行結(jié)構(gòu)設(shè)計(jì),能夠達(dá)到266標(biāo)準(zhǔn)在移動(dòng)端的單核1080p或多核4K碼流的實(shí)時(shí)解碼,未來(lái)將廣泛應(yīng)用于面向移動(dòng)端的視頻點(diǎn)播、視頻直播、音視頻通信、視頻智能生產(chǎn)、短視頻、VR/AR等各個(gè)領(lǐng)域,服務(wù)于騰訊內(nèi)外部相關(guān)業(yè)務(wù)。

O266player能夠?qū)崿F(xiàn)清晰流暢的視頻播放,得益于O266dec優(yōu)秀的視頻解碼架構(gòu),通過(guò)多維度的并行處理,從而達(dá)到大幅利用多核多線(xiàn)程技術(shù)的目的,使其解碼性能指標(biāo)大幅提升。O266dec的并行解碼架構(gòu)主要包括以下四個(gè)方面:

第一, 幀層級(jí)并行:獨(dú)立并行解碼幀內(nèi)預(yù)測(cè)幀,以及沒(méi)有相互依賴(lài)性的幀間預(yù)測(cè)幀;同時(shí)不同幀之間的熵解碼和像素處理也可以并行。

第二, CTU層級(jí)并行:利用Wavefront技術(shù)可以實(shí)現(xiàn)不同CTU行之間的CTU級(jí)的并行解碼。

第三, 模塊層級(jí)并行:針對(duì)像素的操作,如運(yùn)動(dòng)矢量推導(dǎo)、預(yù)測(cè)、反量化、反變換和重建等,以及環(huán)路濾波操作可以并行處理。

第四, 亞CTU層級(jí)并行:所有幀間預(yù)測(cè)CU都可以并行解碼,并最大程度的利用SIMD指令。

為了能夠在移動(dòng)端支持H.266/VVC解碼,騰訊多媒體實(shí)驗(yàn)室在O266dec上增加了許多移動(dòng)端相關(guān)優(yōu)化,使得其解碼器性能在移動(dòng)端得到大幅提升。

例如,自適應(yīng)環(huán)路濾波器(Adaptive Loop Filter,ALF)作為H.266/VVC解碼器中復(fù)雜度最大,優(yōu)化難度最高的模塊,是騰訊在移動(dòng)端平臺(tái)上優(yōu)化的重點(diǎn),該模塊在整個(gè)解碼過(guò)程中的復(fù)雜度占比如圖所示。

2222.jpg

優(yōu)化前各模塊解碼復(fù)雜度占比圖

從圖中可以看出ALF模塊占整個(gè)解碼復(fù)雜度的60%以上,復(fù)雜度占比遠(yuǎn)超其他模塊,同時(shí)它的優(yōu)化復(fù)雜度也是最高的,流程上的簡(jiǎn)化以及提升并行性都是比較困難的,因此是所有模塊中優(yōu)化優(yōu)先級(jí)最高的。為提升移動(dòng)端ALF解碼速度,團(tuán)隊(duì)對(duì)整個(gè)ALF流程進(jìn)行整理與分類(lèi),并充分結(jié)合移動(dòng)端SIMD對(duì)ALF濾波模塊進(jìn)行優(yōu)化,使得解碼器速度得到大幅提升,解碼速度是原始代碼的2倍以上。

除去ALF模塊之外,對(duì)于同樣復(fù)雜度較高的插值(Interpolation)模塊,團(tuán)隊(duì)也對(duì)其進(jìn)行了細(xì)致優(yōu)化。插值模塊也是H.266/VVC解碼器中計(jì)算量比較大的一個(gè)模塊,其涵蓋的多種多樣的濾波器是整個(gè)模塊的優(yōu)化重點(diǎn)。團(tuán)隊(duì)對(duì)濾波器參數(shù)特點(diǎn)進(jìn)行了充分的分析,并將其根據(jù)參數(shù)類(lèi)型以及輸出結(jié)果進(jìn)行分類(lèi)與邏輯優(yōu)化,在結(jié)合移動(dòng)端SIMD的基礎(chǔ)上,使得解碼速度得到明顯提升。

除去一些通用模塊,團(tuán)隊(duì)對(duì)于針對(duì)B幀等其他編碼工具集模塊都著手進(jìn)行了優(yōu)化,優(yōu)化范圍與內(nèi)容相對(duì)比較全面。例如雙向光流(Bi-directional optical flow,BDOF)模塊,它是一個(gè)用于4×4子塊級(jí)別上優(yōu)化CU的雙向預(yù)測(cè)信號(hào),經(jīng)過(guò)團(tuán)隊(duì)的細(xì)致優(yōu)化,這一模塊的解碼速度也獲得了進(jìn)一步提升。

此外團(tuán)隊(duì)對(duì)于其他重要模塊也都進(jìn)行了深度優(yōu)化,優(yōu)化完成后各模塊性能占比餅圖如下圖所示。

3333.jpg

移動(dòng)端優(yōu)化完成后各模塊復(fù)雜度占比示意圖

以iOS端A14處理器為測(cè)試平臺(tái),O266dec移動(dòng)端性能如下:

在單線(xiàn)程下,O266dec在采用RA(RadomAccess)配置時(shí), 對(duì)于2K標(biāo)準(zhǔn)序列,可完全滿(mǎn)足30fps實(shí)時(shí)解碼的需求;對(duì)于2K SCC(Screen Content Coding)序列可充分滿(mǎn)足60fps以上的實(shí)時(shí)解碼需求。

在多線(xiàn)程下,O266dec在采用RA(RadomAccess)配置時(shí), 4K標(biāo)準(zhǔn)序列在6線(xiàn)程下的解碼速度可以達(dá)到30幀左右,可以實(shí)現(xiàn)266在移動(dòng)端的實(shí)時(shí)解碼。

同時(shí),騰訊自研的解碼器也已經(jīng)集成在了O266player的iOS端應(yīng)用上,在移動(dòng)端播放H.266解碼畫(huà)面清晰流暢,能夠充分滿(mǎn)足H.266/VVC實(shí)時(shí)解碼的需求,性能優(yōu)勢(shì)十分明顯。

面向移動(dòng)端的O266dec是國(guó)內(nèi)首個(gè)H.266/VVC標(biāo)準(zhǔn)在移動(dòng)端的實(shí)際應(yīng)用,是騰訊視頻編解碼技術(shù)進(jìn)展的又一個(gè)重要里程碑。未來(lái)騰訊多媒體實(shí)驗(yàn)室將持續(xù)優(yōu)化和完善解碼器,將最新技術(shù)輸出至行業(yè),助力多媒體生態(tài)技術(shù)的發(fā)展以及數(shù)字化產(chǎn)業(yè)的建設(shè)。

來(lái)源:理不清網(wǎng)

分享到

zhangnn

相關(guān)推薦