久久99久国产精品66,色噜AV,亚洲成年

Task 1a上的隊伍排名

Task 1b上的隊伍排名

DCASE 比賽是由倫敦瑪麗女王大學（Queen Mary University of London）在2013年首次發(fā)起的聲學場景識別挑戰(zhàn)，后續(xù)由坦佩雷理工大學(Tamper University of Technology)持續(xù)發(fā)起，近些年引起了國內(nèi)外眾多尖端聲學研究界的廣泛關注，包括谷歌、紐約大學等。

本次DCASE 2020比賽，共設置六個任務，包括聲學場景識別、異常機器聲音的非監(jiān)督識別、聲學事件檢測、聲學事件分離、城市聲音標記和自動為音頻生成標題紀要，吸引了包括亞馬遜、英特爾、高通驍龍等國際公司和清華大學、新加坡南洋理工大學、香港中文大學等頂級高校的共138 個隊伍、473個有效系統(tǒng)參賽。

其中，多媒體實驗室所參加的聲學場景識別任務 (Task 1)，共有47支隊伍與179個提交系統(tǒng)參與，是所有任務中參賽隊伍最多、提交系統(tǒng)最多、競爭程序最激烈的任務。清華大學、北京大學(深圳)、新加坡南洋理工大學等國內(nèi)外頂級高校，以及高通人工智能研究院(首爾)、美國 Intel 研究院(加利福尼亞)等知名通信、科技公司均在其中。

Task 1包含了兩個子任務，子任務task 1a的聲學場景識別系統(tǒng)要求識別不同終端設備，比如手機、ipad或其它錄音設備采集的音頻，識別成不同的類別。如下圖（左）所示，將不同設備不同場景采集的信號正確分類成“地鐵站”、“公園”和“公共廣場”。采用不同設備來評估場景識別系統(tǒng)就是為了驗證系統(tǒng)對多種設備的魯棒性。子任務task 1b的聲學場景識別系統(tǒng)限制性的將模型大小壓縮在500k以內(nèi)，在此條件下，需要場景識別系統(tǒng)盡可能高效的識別“室內(nèi)”、“室外”、“交通”這三種常見的聲學大場景。這里對聲學模型大小提出要求的初衷就是為了更好地將現(xiàn)有科學研究方法迅速轉(zhuǎn)換成可以真正意義的落地產(chǎn)品，以克服設備上運行深度學習網(wǎng)絡高CPU消耗的難題。

本次聲學場景識別任務，涵蓋機場、室內(nèi)購物、地鐵站臺、街道行人、公共廣場等10個通用聲學場景。在現(xiàn)實生活中，這些通用聲學場景，通常同時存在多個聲音，并且會被環(huán)境噪聲干擾。此次任務，通過研究來識別真實場景的聲音場景和聲音事件，對于讓聲音場景識別應用落地具有重要意義。

聲學場景識別就是利用機器學習模仿人腦，對周邊的環(huán)境進行有效及時的判斷。隨著深度學習的高度演化，聲學場景識別的正確率有了飛躍提升。高識別率的場景識別系統(tǒng)則更進一步擴大其在生活中的應用場景。如智能“嬰兒哭聲”監(jiān)控，可以有效幫助父母及時照看突然驚醒孩子，“槍聲場景檢測”可以應用在各類安防設備上，“鳥類啼叫場景”檢測可以有效監(jiān)測自然界生態(tài)的變化，“馬路上警笛場景”檢測可提醒路行人及車輛讓出交通空間，“地鐵”場景檢測和“睡眠質(zhì)量監(jiān)測”等。

現(xiàn)實生活中的聲學場景識別應用

實際上，DCASE2020的聲學場景識別任務，與多媒體實驗室自研的音視頻實時通信產(chǎn)品——“騰訊會議”中的聲學場景識別落地應用最為貼近?；陬I先的騰訊天籟音頻解決方案，騰訊會議可以讓不同地點、場景、設備終端同時遠程接入，讓遠程在線溝通可行高效。但由于不同入會者處的場景環(huán)境千變?nèi)f化，或在安靜辦公室，或在嘈雜的公共場所，不同場景需要對音頻流進行不同處理。如會議入會方檢測到街道環(huán)境，需要對風聲和交通噪音進行處理；如在開重要會議，如果某參會方所處嘈雜聲學場景并忘記關閉麥克風，系統(tǒng)可提醒主持人或自動禁止嘈雜端麥克風；如檢測到音樂場景，則不啟動降噪算法，保證音樂可以高質(zhì)量的傳輸?shù)綄Χ?；如檢測到漏回聲場景，特別是一些移動端設備大音量外放聲音時，可以開啟殘留回聲消除算法。

實時音視頻通信中的聲學場景識別應用

作為騰訊頂級的科技實驗室之一，騰訊多媒體實驗室將繼續(xù)致力于端到端實時語音通信、音頻引擎、音頻處理、音頻場景事件檢測識別等業(yè)界領先的人人通信基礎理論，加大在關鍵技術(shù)和應用系統(tǒng)的研究和開發(fā)的投入，提供基于云和客戶端的多種行業(yè)解決方案，讓聲學場景識別更廣泛落地應用。

分享到

近期文章

熱門標簽

songjy

相關推薦