測(cè)試證明,相比帶寬濾波網(wǎng)絡(luò),這種輕量的模型能得到更好的實(shí)時(shí)單通道語(yǔ)音增強(qiáng)效果,可提升20%的語(yǔ)音質(zhì)量,并減少約70%的網(wǎng)絡(luò)模型大小,大幅降低推理的復(fù)雜度,可應(yīng)用于在噪雜的辦公室、大會(huì)議室等復(fù)雜場(chǎng)景中提升語(yǔ)音質(zhì)量。
值得一提的是,該研究也驗(yàn)證了僅用一個(gè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多項(xiàng)語(yǔ)音增強(qiáng)任務(wù)的可行性。過(guò)去,在音頻鏈路中部署過(guò)多不同神經(jīng)網(wǎng)絡(luò)模型,會(huì)導(dǎo)致消耗過(guò)多的運(yùn)算資源,而采用一個(gè)模型,將有效緩解神經(jīng)網(wǎng)絡(luò)在落地過(guò)程中遇到的難點(diǎn)。
據(jù)介紹,釘釘蜂鳴鳥(niǎo)音頻實(shí)驗(yàn)室提出的關(guān)于「兼容指向型麥克風(fēng)的波達(dá)方向與距離的聯(lián)合估計(jì)框架」的論文一并入選INTERSPEECH,該框架是用于提升聲源定位的精度和效果。
實(shí)驗(yàn)室研究人員表示:“波達(dá)方向與距離估計(jì)對(duì)于聲源定位技術(shù)是相當(dāng)關(guān)鍵的信息。我們提出的算法首先對(duì)聲音信號(hào)傳播進(jìn)行建模,融合不同傳感器/麥克風(fēng)類型(全向和指向型),再利用稀疏貝葉斯學(xué)習(xí)框架準(zhǔn)確地聯(lián)合判斷出波達(dá)方向與距離信息,可應(yīng)用于多聲源定位?!?/p>
實(shí)驗(yàn)證明,在雙聲源場(chǎng)景下,當(dāng)信噪比(signal-to-noise ratio SNR)達(dá)到8dB,波達(dá)方向估計(jì)誤差即能控制在1度以內(nèi),距離估計(jì)誤差能控制在0.1米之內(nèi)。
釘釘蜂鳴鳥(niǎo)音頻實(shí)驗(yàn)室旨在用傳統(tǒng)信號(hào)處理結(jié)合深度學(xué)習(xí)算法,來(lái)解決實(shí)時(shí)語(yǔ)音通信碰到的復(fù)雜問(wèn)題,提升釘釘會(huì)議、直播以及合作會(huì)議硬件的產(chǎn)品體驗(yàn),并探索下一代音視頻形態(tài)。其重點(diǎn)研究方向包括音頻3A算法、單通道/多通道語(yǔ)音增強(qiáng)、聲源定位等。