6月8日記者獲悉,ICPR2022多模態(tài)字幕識別比賽(Multimodal Subtitle Recognition簡稱MSR競賽)日前正式結(jié)束,共有376位來自各大高校和企業(yè)的選手參賽。
網(wǎng)易浙大華科聯(lián)合團隊、好未來、Yidun AI Lab獲賽道一前三名,網(wǎng)易、大搜車、Yidun AI Lab獲賽道二前三名,Yidun AI Lab、中科院自動化所、好未來獲賽道三前三名。
作為國內(nèi)首個多模態(tài)字幕識別大賽,本次競賽由騰訊 OCR & ASR Oteam 聯(lián)合華南理工、華中科技大學(xué)、聯(lián)想等依托于計算機國際學(xué)術(shù)頂會ICPR舉辦。大賽從多模態(tài)角度出發(fā),創(chuàng)新性地提出從畫面和語音聯(lián)合的字幕識別框架,希望推動字幕識別技術(shù)的準(zhǔn)確性和應(yīng)用性的進一步提升,彌補該技術(shù)領(lǐng)域的空白,并為學(xué)術(shù)界和業(yè)界創(chuàng)造交流機會。
在日常生活中,人們認知世界的過程總是多模態(tài)的。個體對場景進行感知時會接收到多種信號,如視覺、聽覺、嗅覺等。因此,多模態(tài)機器學(xué)習(xí)方法更貼近人類認識世界的形式,也是人工智能技術(shù)取得進一步進展的基石。比如通過對視頻、音頻、文本等多種模態(tài)數(shù)據(jù)進行聯(lián)合解析,模型可以更充分的理解廣告內(nèi)容,優(yōu)化廣告內(nèi)容和提升廣告投放效果。
觀眾在觀看視頻時,往往會接收到兩類信號,即視覺和聽覺,通過這兩類信號,觀眾可快速且準(zhǔn)確判斷視頻字幕的內(nèi)容。 然而,受限于各種原因,字幕識別技術(shù)目前大多基于單個模態(tài),僅利用單模態(tài)信息,視頻字幕提取的準(zhǔn)確性較差。例如,音頻對背景噪聲和口音變化很敏感,有些方言或諧音詞難以準(zhǔn)確識別,但是如果加入視覺信息,那么上述問題可以很容易得到解決。
騰訊ASR&OCR Oteam首次提出在字幕識別技術(shù)中引入了多模態(tài)技術(shù),彌補了這一技術(shù)在業(yè)內(nèi)的空白。
在賽道一“使用含有音頻字幕標(biāo)注的數(shù)據(jù),來訓(xùn)練視覺模態(tài)的字幕識別系統(tǒng)”中,字幕標(biāo)簽由騰訊 ASR Oteam提供。來自網(wǎng)易、浙大、華科聯(lián)合團隊Jingquntang etal設(shè)置的冠軍方案模型主要分為三個部分:文字檢測、文字識別以及字幕提取部分。由于字幕標(biāo)注信息是跨模態(tài)的弱監(jiān)督標(biāo)注數(shù)據(jù),因此文本識別模塊難以訓(xùn)練。為了解決該問題,冠軍方案使用構(gòu)造數(shù)據(jù)的方式來解決該問題。首先,該方案使用文本檢測模塊檢測視頻幀中的文本并將文本進行抹除。接著,該方案將音頻提供的字幕信息與抹除文字后的幀生成新的視頻幀。該方案使用生成數(shù)據(jù)對文本識別模塊進行訓(xùn)練。字幕提取模塊對比前后幀的字幕內(nèi)容、IoU信息、和文本框位置提取字幕。
在賽道二“使用含有視覺模態(tài)字幕標(biāo)注的數(shù)據(jù),來訓(xùn)練音頻字幕識別系統(tǒng)”中,騰訊OCR Oteam提供了字幕標(biāo)簽。來自網(wǎng)易的nickyang etal隊伍設(shè)置的冠軍方案,同時訓(xùn)練了若干個ASR模型,并將所有模型的輸出融合為最終結(jié)果。在數(shù)據(jù)預(yù)處理部分,對于含有字幕標(biāo)注的訓(xùn)練集,冠軍方案通過構(gòu)建解碼圖,并應(yīng)用簡單的卷積網(wǎng)絡(luò)計算語句置信度,得到文本標(biāo)注信息;對于不含字幕標(biāo)注的訓(xùn)練集,冠軍方案使用微調(diào)的wav2vec2.0模型得到文本的語言特征,再使用預(yù)訓(xùn)練的語言模型和Kaldi解碼器得到文本標(biāo)注信息。然后,在模型訓(xùn)練部分,該方案分別使用了混合模型和端到端的Wenet模型共同訓(xùn)練,并通過循環(huán)往復(fù)的方式得到更優(yōu)的訓(xùn)練集標(biāo)注,進行更新迭代,從而得到了最優(yōu)的文本識別結(jié)果。
相比于賽道一、二,賽道三“旨在融合視覺和音頻兩個模態(tài)的信息來設(shè)計字幕識別系統(tǒng)”的系統(tǒng)設(shè)計則更加復(fù)雜,騰訊 ASR和OCR Oteam 打造了語音和畫面聯(lián)合字幕識別的算法框架。來自GrowthEase Yidun AI Lab的robindu etal隊伍設(shè)置的冠軍方案中主要包含三個模塊:視覺模態(tài)的字幕提取器,音頻模態(tài)的字幕提取器,融合模塊將兩個模態(tài)結(jié)果進行融合。其中,前兩個模塊主要是基于OCR、ASR系統(tǒng)開發(fā)的。
模型首先判斷視頻是否含有兩個模態(tài)的字幕信息。若預(yù)測視頻只包含單個模態(tài)的字幕信息,則字幕結(jié)果只取單模態(tài)的字幕信息。如果兩個模態(tài)的字幕信息,則進一步使用融合模塊來融合兩個模態(tài)的結(jié)果。兩個模態(tài)的字幕信息在時間上可能存在偏移,例如,在音頻內(nèi)某些談話內(nèi)容已經(jīng)開始,而視覺字幕仍停留在講話者的前一句內(nèi)容。為了解決該問題,即將視頻中所有字幕能按序拼接,該方案設(shè)計了拆分模塊。該模塊將兩個模態(tài)中相同和不同的字幕文本進行拆分。在兩個相同的字幕文本部分,針對某條視覺字幕可能會在多個幀中存在。對于不同幀的背景干擾導(dǎo)致同一字幕的識別結(jié)果不同這一問題,融合模塊中的過濾模塊旨在挑選視覺字幕中OCR識別效果最好的,同時移除識別效果不好的。最后,將不同的部分和相同的部分字幕文本使用填充模塊進行拼接。
作為騰訊開源協(xié)同小組,騰訊ASR和OCR Oteam通過對內(nèi)部優(yōu)勢技術(shù)的整合和開源,構(gòu)造了貼合各類業(yè)界場景的完整、先進、魯棒的模型庫和算法框架。后續(xù)將會對業(yè)界開放基礎(chǔ)算法框架,同時也尋求學(xué)術(shù)和工業(yè)界在該問題的先進算法和技術(shù),攜手共建更優(yōu)的多模態(tài)字幕識別解決方案。