超分算法在業(yè)內(nèi)已經(jīng)不是新詞,在介紹聲網(wǎng)的多倍實(shí)時超分前,先來看看目前行業(yè)主流的超分算法都有哪些?超分算法主要分為非實(shí)時與實(shí)時處理兩種類型。我們經(jīng)常會看到某某視頻網(wǎng)站將一些年代久遠(yuǎn)、低分辨率、低清晰度的老視頻轉(zhuǎn)換成當(dāng)前主流的720p、1080p、2k 的高分辨率視頻,這種是在線視頻行業(yè)比較主流的基于云端服務(wù)器處理的“非實(shí)時超分算法”,這類超分適用的場景是追求更高分辨率、更清晰的視頻觀看體驗(yàn),對處理速度的實(shí)時性沒有要求,并且算力充足,可以讓年代久遠(yuǎn)的視頻,煥發(fā)新的活力。但非實(shí)時超分算法計(jì)算量普遍比較大,只能適用于對實(shí)時性沒有要求的場景。
在實(shí)時互動的場景中,就需要用到實(shí)時處理的超分算法,這其中主要包含云端、終端處理兩種方式,在云端服務(wù)器實(shí)時處理的超分算法計(jì)算量比第一種非實(shí)時的小,在超分效果和處理速度做了權(quán)衡,保證較好的超分效果的同時,可以滿足服務(wù)器上實(shí)時處理的要求。但弊端也非常明顯,由于需要在 GPU (圖形處理器)服務(wù)器上部署,并且一臺服務(wù)器只能同時處理有限路視頻,當(dāng)處理大量并發(fā)的實(shí)時視頻流時,則需要部署大量的 GPU 服務(wù)器,這種算法的使用成本比較高,而終端的超分算法可以很好的解決這個問題。
終端超分算法可在用戶的終端進(jìn)行視頻播放時,對視頻畫面進(jìn)行實(shí)時后處理,從而在提升視頻觀看畫面主觀視覺效果的同時不增加企業(yè)傳輸帶寬成本。目前業(yè)內(nèi)很多主流的終端實(shí)時超分算法更集中在PC端,PC端的設(shè)備相對可以提供更強(qiáng)的算力,實(shí)現(xiàn)高性能的視頻畫質(zhì)實(shí)時增強(qiáng)。但當(dāng)下隨著實(shí)時互動場景的爆發(fā),很多 RTE 場景集中在移動端,在移動終端用戶的設(shè)備性能參差不齊,這就要求移動端實(shí)時超分的復(fù)雜度必須極低,這樣才能在大部分移動設(shè)備中做到實(shí)時處理。如何在超低計(jì)算量的情況下還保持較好的視頻超分效果,這成為了實(shí)時超分領(lǐng)域內(nèi)的難點(diǎn)。
業(yè)內(nèi)首個! 可運(yùn)行于移動端的多倍實(shí)時超分算法
針對移動端的實(shí)時超分難點(diǎn),聲網(wǎng)人工智能算法團(tuán)隊(duì)經(jīng)過持續(xù)的技術(shù)鉆研,正式推出了業(yè)內(nèi)首個基于移動端實(shí)時處理的多倍超分算法,該算法的優(yōu)勢是成本低、功耗小,不需要部署 GPU 服務(wù)器,僅依靠移動端設(shè)備自身的CPU、GPU 或 NPU 來實(shí)時超分,以較小的算法計(jì)算量實(shí)現(xiàn)視頻分辨率的多倍超分,有效增強(qiáng)了視頻的畫質(zhì),并降低視頻傳輸?shù)某杀尽?/p>
由于移動端的算力有限,并且對算法的功耗、模型大小要求十分苛刻,這類算法的研發(fā)難度是極具挑戰(zhàn)性的,既要保持較好超分效果,也要滿足移動端實(shí)時處理的要求。傳統(tǒng)超分的技術(shù)原理可以簡單理解為插值+銳化,插值是將低分辨圖像放大為高分辨率圖像,銳化是使圖像邊緣更清晰的一種圖像處理方法,插值法和銳化方法,都是人工基于觀察、總結(jié)和試驗(yàn)出來的方法,存在一定的局限性,常常出現(xiàn)圖像放大后出現(xiàn)模糊、銳化過度的現(xiàn)象。
而聲網(wǎng)移動端實(shí)時超分的技術(shù)原理是基于深度學(xué)習(xí)算法進(jìn)行豐富的視頻數(shù)據(jù)訓(xùn)練,從大量的低分辨圖像和高分辨圖像對,有監(jiān)督地學(xué)習(xí)低分辨到高分辨率的映射關(guān)系,實(shí)現(xiàn)圖像放大后,細(xì)節(jié)豐富、畫面清晰的效果,其超分效果、自適應(yīng)能力明顯優(yōu)于傳統(tǒng)的超分方法。
為了更直觀的展示聲網(wǎng)實(shí)時超分算法的應(yīng)用效果,一段視頻demo展示了在采集端 360p 分辨率的視頻經(jīng)過聲網(wǎng)多倍超分到 1080p 后的效果。
聲網(wǎng)多倍實(shí)時超分算法的核心優(yōu)勢:
移動端最高支持3倍實(shí)時超分:聲網(wǎng)多倍超分算法可以做到在移動端實(shí)時處理,支持2倍與3倍超分,例如360p 兩倍超分720p,240p 3倍超分 720p,360p 3倍超分 1080p,并且經(jīng)過測試,與行業(yè)其他超分算法相比,在同等計(jì)算量的條件下,聲網(wǎng)的實(shí)時超分效果與畫質(zhì)表現(xiàn)更勝一籌。
覆蓋機(jī)型廣,中低端機(jī)型也能實(shí)時處理:聲網(wǎng)多倍超分算法在移動端的機(jī)型覆蓋非常廣,iOS 可覆蓋iPhone6s 及以上機(jī)型,能夠覆蓋95%以上的 iOS 視頻用戶;Android 覆蓋所有中高端機(jī)以及部分低端機(jī),能夠覆蓋85%以上的安卓用戶。
CPU 消耗、SDK 內(nèi)存消耗低:聲網(wǎng)多倍超分算法對移動端設(shè)備的性能消耗占比極低,有著出色的能耗表現(xiàn),例如在移動端 360p 超分至 720p,超分的模型跑在設(shè)備的 GPU上,幾乎不會增加CPU 消耗,單幀處理耗時平均在 10ms以內(nèi)。在1對1視頻通話場景中,360p/15fps 的視頻開啟2倍或3倍超分后,SDK 的內(nèi)存消耗只增加10%左右。
聲網(wǎng)實(shí)時超分算法目前適用的場景主要分為三種:
IoT平臺的實(shí)時互動場景:在智能硬件終端對音視頻SDK的功耗要求非常高,一旦視頻通話的視頻傳輸太占功耗,就會造成硬件的續(xù)航時間下降,發(fā)燙發(fā)熱等,對此,聲網(wǎng)實(shí)時超分可以將硬件設(shè)備端的720p 視頻以360p 進(jìn)行采集,并通過360p 進(jìn)行傳輸,在接收端將接收到的360p視頻增強(qiáng)到720p,不僅保證了智能硬件終端的視頻畫質(zhì),還降低了SDK功耗,增加了硬件的續(xù)航時間。
帶寬受限的實(shí)時互動場景:在很多實(shí)時互動場景中由于網(wǎng)絡(luò)帶寬受限,無法傳輸高分辨率的視頻,可通過聲網(wǎng)實(shí)時超分進(jìn)行降分辨率傳輸,將帶寬受限的影響降到最低,最終在接收端進(jìn)行恢復(fù)原視頻的畫質(zhì)。
視頻首幀出圖清晰:在視頻通話開啟時,用戶都會希望第一眼映入眼簾的畫面就很清晰,但在一些實(shí)時互動場景中,為了快速出圖,剛出來的視頻畫面是低分辨率,過一會才會變成清晰,從視頻小流切到大流。通過聲網(wǎng)實(shí)時超分可以在視頻小流階段就對視頻畫質(zhì)進(jìn)行放大增強(qiáng),從而實(shí)現(xiàn)首幀的畫面達(dá)到清晰,同時首幀出圖的時延也不會受到影響。
如何評價實(shí)時超分算法的實(shí)現(xiàn)效果?
介紹完聲網(wǎng)實(shí)時超分的特點(diǎn)、優(yōu)勢以及應(yīng)用場景,很多人可能想問最后如何去衡量實(shí)時超分的效果?這里就要說到上一期聲網(wǎng) VQA 的技術(shù)解析文章,聲網(wǎng) VQA 利用深度學(xué)習(xí)算法實(shí)現(xiàn)對實(shí)時互動場景接收端視頻畫質(zhì)主觀體驗(yàn) MOS 分的評估,解除了傳統(tǒng)主觀畫質(zhì)評估對人力評分的高度依賴,從而極大提高視頻畫質(zhì)評估的效率,使實(shí)時的視頻質(zhì)量評估成為可能。
目前聲網(wǎng)多倍超分已跟多個客戶進(jìn)行了集成,并得到客戶高度認(rèn)可。