金山云高級(jí)技術(shù)總監(jiān)韓博在大會(huì)發(fā)表主題演講

AI內(nèi)容服務(wù)隨5G同行

5G網(wǎng)絡(luò)是信息基礎(chǔ)設(shè)施又一次全面升級(jí),能為跨領(lǐng)域、全方位、多層次的產(chǎn)業(yè)深度融合提供堅(jiān)實(shí)支撐。韓博表示,5G將促進(jìn)數(shù)字內(nèi)容制作、分發(fā)、呈現(xiàn)的全產(chǎn)業(yè)鏈升級(jí)。AI內(nèi)容服務(wù)作為貫穿視頻內(nèi)容生產(chǎn)全過(guò)程的重要“參與者”,已做好了迎接5G時(shí)代到來(lái)的準(zhǔn)備。

以金山云金睛為例,它基于金山云強(qiáng)大的云計(jì)算基礎(chǔ)資源能力和海量數(shù)據(jù)積累,專注于圖像識(shí)別、語(yǔ)音識(shí)別、多模態(tài)視頻分析、文本識(shí)別、人臉識(shí)別、行人車輛識(shí)別等人工智能領(lǐng)域的研究,提供跨行業(yè)、多場(chǎng)景的AI解決方案。在AI內(nèi)容服務(wù)方面,已覆蓋內(nèi)容生產(chǎn)、內(nèi)容風(fēng)控、內(nèi)容分發(fā)全環(huán)節(jié)。

“我們的生活不僅是一系列的靜態(tài)快照,而是隨著時(shí)間變化在現(xiàn)實(shí)世界動(dòng)態(tài)發(fā)生事件,視頻內(nèi)容更是如此。內(nèi)容趨勢(shì)的變遷,同時(shí)也會(huì)推動(dòng)人工智能技術(shù)的演進(jìn)?;诖?,金山云金睛在單模態(tài)識(shí)別的基礎(chǔ)上,升級(jí)為多模態(tài)融合理解,以應(yīng)對(duì)5G時(shí)代低延時(shí)、高速率、龐大體量的AI內(nèi)容服務(wù)需求?!表n博介紹道。

多模態(tài)融合理解帶來(lái)認(rèn)知升級(jí)

多模態(tài),簡(jiǎn)單來(lái)說(shuō)是相對(duì)于單一的視覺(jué)、語(yǔ)音、OCR識(shí)別等,將多個(gè)模態(tài)的信息結(jié)合起來(lái),也就是視頻中的音視圖文內(nèi)容進(jìn)行綜合判定、理解。相比傳統(tǒng)單一的交互模式,多模態(tài)融合技術(shù)。表達(dá)效率和表達(dá)的信息完整度更高,是智能交互的發(fā)展趨勢(shì)。

韓博介紹,多模態(tài)融合理解技術(shù)可以對(duì)視頻內(nèi)容進(jìn)行精準(zhǔn)的場(chǎng)景識(shí)別、對(duì)象跟蹤、行為理解、圖文聯(lián)想等。比如基于單模態(tài)的圖像識(shí)別很難判斷出直播過(guò)程中,主播是在抽煙,還是在吃棒棒糖。但是基于多模態(tài)的視頻理解,我們可以通過(guò)將連貫主播的行為動(dòng)作進(jìn)行分析,判斷是否有點(diǎn)煙行為,是否有吐煙行為,從而準(zhǔn)確的判斷主播是否在抽煙。

除此之外,在視頻內(nèi)容的生產(chǎn)過(guò)程中,多模態(tài)融合理解技術(shù)優(yōu)勢(shì)明顯。例如自動(dòng)進(jìn)行語(yǔ)音轉(zhuǎn)寫,并且放到指定位置;實(shí)現(xiàn)智能BGM功能,根據(jù)視頻內(nèi)容自動(dòng)推薦背景音樂(lè);支持視頻特效功能,對(duì)應(yīng)視頻場(chǎng)景或者動(dòng)作,給出視頻特效等。

相對(duì)于 AI 目前所展示出在圖像和語(yǔ)音領(lǐng)域的單一感知能力,視頻理解更加復(fù)雜,也更加困難,這體現(xiàn)在理解視頻是二者的疊加,實(shí)現(xiàn)多模態(tài)融合理解的背后,需要技術(shù)的突破。韓博在現(xiàn)場(chǎng)重點(diǎn)介紹了金山云金睛在多模態(tài)理解技術(shù)上的突破——AI算法團(tuán)隊(duì)通過(guò)訓(xùn)練超千萬(wàn)個(gè)高質(zhì)量的短視頻,得到的具有很強(qiáng)的泛化能力的內(nèi)容理解模型和金山云金睛專利時(shí)序算法。

多模態(tài)融合理解必須全面捕捉視頻內(nèi)容中的時(shí)序信息。金山云內(nèi)容理解模型通過(guò)三維時(shí)空卷積(3D conv)和三維時(shí)空卷積長(zhǎng)短時(shí)注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM and Attention)來(lái)精細(xì)捕捉視頻單幀圖片的局部與整體時(shí)空信息。受人腦注意力機(jī)制的啟發(fā),引入“時(shí)空注意力機(jī)制”,使得模型可以聚焦關(guān)鍵幀、關(guān)鍵位置的信息,降低無(wú)關(guān)幀對(duì)模型性能的影響。整個(gè)模型不需要任何人工干預(yù),輸入原始視頻,就可以得到最終的預(yù)測(cè)結(jié)果,整個(gè)模型精度高、速度快。

金山云金睛內(nèi)容識(shí)別已經(jīng)全面運(yùn)用多模態(tài)視頻識(shí)別技術(shù)進(jìn)行視頻內(nèi)容處理,可以更加精準(zhǔn)的理解視頻內(nèi)容,幫助內(nèi)容平臺(tái)快速、精準(zhǔn)審核視頻內(nèi)容,以及對(duì)視頻進(jìn)行精準(zhǔn)的標(biāo)簽分類和特征提取,用于內(nèi)容推薦和分發(fā)。為平臺(tái)優(yōu)質(zhì)內(nèi)容產(chǎn)出、打通作者和用戶間壁壘,實(shí)現(xiàn)平臺(tái)差異化布局夯實(shí)了技術(shù)基礎(chǔ)。

分享到

songjy

相關(guān)推薦