Task 1a上的隊伍排名

image.png

Task 1b上的隊伍排名

DCASE 比賽是由倫敦瑪麗女王大學(xué)(Queen Mary University of London)在2013年首次發(fā)起的聲學(xué)場景識別挑戰(zhàn),后續(xù)由坦佩雷理工大學(xué)(Tamper University of Technology)持續(xù)發(fā)起,近些年引起了國內(nèi)外眾多尖端聲學(xué)研究界的廣泛關(guān)注,包括谷歌、紐約大學(xué)等。

本次DCASE 2020比賽,共設(shè)置六個任務(wù),包括聲學(xué)場景識別、異常機器聲音的非監(jiān)督識別、聲學(xué)事件檢測、聲學(xué)事件分離、城市聲音標(biāo)記和自動為音頻生成標(biāo)題紀要,吸引了包括亞馬遜、英特爾、高通驍龍等國際公司和清華大學(xué)、新加坡南洋理工大學(xué)、香港中文大學(xué)等頂級高校的共138 個隊伍、473個有效系統(tǒng)參賽。

其中,多媒體實驗室所參加的聲學(xué)場景識別任務(wù) (Task 1),共有47支隊伍與179個提交系統(tǒng)參與,是所有任務(wù)中參賽隊伍最多、提交系統(tǒng)最多、競爭程序最激烈的任務(wù)。清華大學(xué)、北京大學(xué)(深圳)、新加坡南洋理工大學(xué)等國內(nèi)外頂級高校,以及高通人工智能研究院(首爾)、 美國 Intel 研究院(加利福尼亞)等知名通信、科技公司均在其中。

Task 1包含了兩個子任務(wù),子任務(wù)task 1a的聲學(xué)場景識別系統(tǒng)要求識別不同終端設(shè)備,比如手機、ipad或其它錄音設(shè)備采集的音頻,識別成不同的類別。如下圖(左)所示,將不同設(shè)備不同場景采集的信號正確分類成“地鐵站”、“公園”和“公共廣場”。采用不同設(shè)備來評估場景識別系統(tǒng)就是為了驗證系統(tǒng)對多種設(shè)備的魯棒性。子任務(wù)task 1b的聲學(xué)場景識別系統(tǒng)限制性的將模型大小壓縮在500k以內(nèi),在此條件下,需要場景識別系統(tǒng)盡可能高效的識別“室內(nèi)”、“室外”、“交通”這三種常見的聲學(xué)大場景。 這里對聲學(xué)模型大小提出要求的初衷就是為了更好地將現(xiàn)有科學(xué)研究方法迅速轉(zhuǎn)換成可以真正意義的落地產(chǎn)品,以克服設(shè)備上運行深度學(xué)習(xí)網(wǎng)絡(luò)高CPU消耗的難題。

image.png
image.png

本次聲學(xué)場景識別任務(wù),涵蓋機場、室內(nèi)購物、地鐵站臺、街道行人、公共廣場等10個通用聲學(xué)場景。在現(xiàn)實生活中,這些通用聲學(xué)場景,通常同時存在多個聲音,并且會被環(huán)境噪聲干擾。此次任務(wù),通過研究來識別真實場景的聲音場景和聲音事件,對于讓聲音場景識別應(yīng)用落地具有重要意義。

聲學(xué)場景識別就是利用機器學(xué)習(xí)模仿人腦,對周邊的環(huán)境進行有效及時的判斷。隨著深度學(xué)習(xí)的高度演化,聲學(xué)場景識別的正確率有了飛躍提升。高識別率的場景識別系統(tǒng)則更進一步擴大其在生活中的應(yīng)用場景。如智能“嬰兒哭聲”監(jiān)控,可以有效幫助父母及時照看突然驚醒孩子,“槍聲場景檢測”可以應(yīng)用在各類安防設(shè)備上,“鳥類啼叫場景”檢測可以有效監(jiān)測自然界生態(tài)的變化,“馬路上警笛場景”檢測可提醒路行人及車輛讓出交通空間,“地鐵”場景檢測和“睡眠質(zhì)量監(jiān)測”等。

image.png

現(xiàn)實生活中的聲學(xué)場景識別應(yīng)用

實際上,DCASE2020的聲學(xué)場景識別任務(wù),與多媒體實驗室自研的音視頻實時通信產(chǎn)品——“騰訊會議”中的聲學(xué)場景識別落地應(yīng)用最為貼近。基于領(lǐng)先的騰訊天籟音頻解決方案,騰訊會議可以讓不同地點、場景、設(shè)備終端同時遠程接入,讓遠程在線溝通可行高效。但由于不同入會者處的場景環(huán)境千變?nèi)f化,或在安靜辦公室,或在嘈雜的公共場所,不同場景需要對音頻流進行不同處理。如會議入會方檢測到街道環(huán)境,需要對風(fēng)聲和交通噪音進行處理;如在開重要會議,如果某參會方所處嘈雜聲學(xué)場景并忘記關(guān)閉麥克風(fēng),系統(tǒng)可提醒主持人或自動禁止嘈雜端麥克風(fēng);如檢測到音樂場景,則不啟動降噪算法,保證音樂可以高質(zhì)量的傳輸?shù)綄Χ?;如檢測到漏回聲場景,特別是一些移動端設(shè)備大音量外放聲音時,可以開啟殘留回聲消除算法。

image.png

實時音視頻通信中的聲學(xué)場景識別應(yīng)用

作為騰訊頂級的科技實驗室之一,騰訊多媒體實驗室將繼續(xù)致力于端到端實時語音通信、音頻引擎、音頻處理、音頻場景事件檢測識別等業(yè)界領(lǐng)先的人人通信基礎(chǔ)理論,加大在關(guān)鍵技術(shù)和應(yīng)用系統(tǒng)的研究和開發(fā)的投入,提供基于云和客戶端的多種行業(yè)解決方案,讓聲學(xué)場景識別更廣泛落地應(yīng)用。

分享到

songjy

相關(guān)推薦