本屆大會同時在線上和線下(新加坡)舉辦。“云知聲-上師大自然人機交互”聯(lián)合實驗室提出的語音分離-DPCCN和目標(biāo)語音分離-sDPCCN技術(shù)論文被收錄且在線上會議平臺展示了相關(guān)算法細節(jié),代表了云知聲在語音信號處理領(lǐng)域的底層技術(shù)的創(chuàng)新,與國際學(xué)術(shù)界對云知聲技術(shù)創(chuàng)新的認可。
此外,這已經(jīng)不是云知聲在語音信號處理方向第一次獲得國際認可,早在2020年已經(jīng)收獲ICASSP DNS國際評測第四,2021獲得Interspeech 2021 DNS 第二,Interspeech 2021 AEC Challenge 第二等多項榮譽。
此次被錄取的論文主要利用語音分離的技術(shù)突破來處理雞尾酒會問題,涉及語音識別、降噪等諸多方向。
雞尾酒會問題:在復(fù)雜場景下,人類可以輕易地關(guān)注于自身感興趣的語音,但是對于機器來說卻顯得尤為困難,這種現(xiàn)象被稱為雞尾酒會問題。
在本次論文中,聯(lián)合實驗室團隊從時頻域的角度出發(fā),提出了一種基于U-Net結(jié)構(gòu)的語音分離模型DPCCN(Densely-connectedPyramidComplexConvolutionalNetwork),并在DPCCN基礎(chǔ)上,設(shè)計了一個特殊的目標(biāo)說話人聲紋編碼模塊來對目標(biāo)說話人的注冊語音進行聲紋信息提取,從而監(jiān)督DPCCN分離網(wǎng)絡(luò)提取出相應(yīng)的目標(biāo)說話人語音sDPCCN。在業(yè)界公開帶噪帶混響的LibriSpeech數(shù)據(jù)集合上,實驗結(jié)果顯示所提出的DPCCN方法顯著超過了目前業(yè)界主流技術(shù)。
另外,目前大多數(shù)主流的目標(biāo)語音提取系統(tǒng)都是受監(jiān)督學(xué)習(xí)驅(qū)動的,它們對訓(xùn)練數(shù)據(jù)有著很強的依賴。由于源域和目標(biāo)域的聲學(xué)特性之間存在著一定程度的不匹配,域內(nèi)和跨域條件下的目標(biāo)語音提取之間通常有著巨大的性能差異。因此,論文還提出了一種Mixture-Remix機制(Fig2所示)來提高跨域條件下的目標(biāo)語音提取性能。
在Libri2Mix和Aishell2Mix構(gòu)建的英文-中文跨域目標(biāo)語音分離任務(wù)上,文中提出的Mixture-Remix機制不管在sDPCCN還是經(jīng)典的TD-SpeakerBeam(TSB)結(jié)構(gòu)上都體現(xiàn)出了顯著效果。
在此之前,云知聲就已經(jīng)在語音識別,降噪領(lǐng)域有了諸多建樹,并將相關(guān)技術(shù)在多個領(lǐng)域、多個項目、多個產(chǎn)品中落地。比如云知聲的遠場陣列處理技術(shù)已被廣泛應(yīng)用于多種智能家電,(如智能音箱、智能空調(diào)、智能抽油煙機);智慧交通設(shè)備(如8mic大陣列地鐵問詢機、購票機),三代共6款專用AI語音芯片(截至目前,已達到千萬級出貨)等產(chǎn)品。
其中智慧交通的相關(guān)產(chǎn)品與設(shè)備已在上海、廣州、徐州、深圳、合肥、三亞、蘇州、昆明、無錫、南寧等全國10余個城市、20余條地鐵線路的200余個地鐵站落地,其中包括云知聲傾力打造的全國首個智慧軌交標(biāo)桿示范站——廣州地鐵廣州塔(“小蠻腰”)站,以及無人地鐵示范線路——深圳地鐵20號線等。
另外,針對低功耗可穿戴設(shè)備,云知聲基于深度學(xué)習(xí)技術(shù)構(gòu)建了近場降噪技術(shù),語音質(zhì)量客觀指標(biāo)SNR、PESQ、STOI已處于國際領(lǐng)先水平,在目前大火的智能AR工業(yè)眼鏡,藍牙智能眼鏡等產(chǎn)品中都有它的身影。
未來,云知聲將不斷探索科技新高度,促進AI系統(tǒng)的“智力”提升,讓后者更好地應(yīng)用于千行百業(yè),為用戶締造更加出色的智能體驗。