聲網(wǎng) AI 降噪:兼顧強(qiáng)降噪與高保真,實(shí)現(xiàn)遠(yuǎn)場(chǎng)去混響  

相比于傳統(tǒng)的一些降噪算法,聲網(wǎng) AI 降噪的效果有巨大提升,可以一次性解決上百種突發(fā)性噪聲,比如在會(huì)議場(chǎng)景可能經(jīng)常會(huì)遇到敲鍵盤,裝修、背景討論等噪聲;居家辦公可能會(huì)遇到小孩哭叫、廚房做飯等噪聲,這些噪聲通通可以抑制干凈。

聲網(wǎng) AI 降噪在強(qiáng)降噪的同時(shí)還能兼顧高保真,即使在多人同時(shí)說(shuō)話的場(chǎng)景下,做到在抑制噪聲的同時(shí)不對(duì)說(shuō)話人語(yǔ)音產(chǎn)生損傷,使每個(gè)人的聲音都聽(tīng)得清晰。還實(shí)現(xiàn)了在不增加額外運(yùn)算量的前提下,對(duì)遠(yuǎn)場(chǎng)語(yǔ)音具有明顯的混響抑制能力,如果你在一個(gè)房間里面離麥克風(fēng)比較遠(yuǎn),這時(shí)候?qū)Ψ铰?tīng)你的聲音是模糊的,使用了聲網(wǎng)的 AI 降噪算法,可以使對(duì)端也能清晰地聽(tīng)到你的聲音。

此外,聲網(wǎng)自研的 AI 推理引擎還可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平臺(tái)以低精度損傷、高性能、低功耗方式運(yùn)行,使用戶的設(shè)備不卡不燙。

通過(guò)聲網(wǎng) AI 降噪音頻Demo 可更直觀的體驗(yàn)聲網(wǎng) AI 降噪帶來(lái)的遠(yuǎn)場(chǎng)去混響和噪聲抑制能力,Demo中依次展示敲擊鍵盤音、辦公室噪聲等典型非穩(wěn)態(tài)噪聲以及室內(nèi)去混響的效果,因?yàn)檫@是AI降噪相對(duì)于傳統(tǒng)降噪所具有的核心價(jià)值;

行業(yè)同類降噪算法對(duì)比:聲網(wǎng) AI 降噪更優(yōu)概率超過(guò)47%

在聲網(wǎng)推出 AI降噪前,行業(yè)已存在一些降噪算法,但大多數(shù)傳統(tǒng)的語(yǔ)音降噪算法是基于嚴(yán)密的數(shù)學(xué)推導(dǎo)而來(lái)的,其中存在一些嚴(yán)格的假設(shè)條件,實(shí)際上很多時(shí)候這些假設(shè)條件并不都是成立的。例如傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲(噪聲功率起伏比較平緩)這類符合假設(shè)條件的情況效果較好,在處理非穩(wěn)態(tài)噪聲這類不符合假設(shè)條件的情況,降噪效果會(huì)有明顯回退。而隨著深度學(xué)習(xí)的發(fā)展,當(dāng)前基于數(shù)據(jù)驅(qū)動(dòng)的 AI 語(yǔ)音降噪算法發(fā)展迅猛,它們相較于傳統(tǒng)的語(yǔ)音降噪算法的一大優(yōu)勢(shì)是不依賴于任何假設(shè)條件,處理非穩(wěn)態(tài)噪聲效果顯著。

此外,隨著算力持續(xù)增長(zhǎng),基于大數(shù)據(jù)訓(xùn)練的 AI 語(yǔ)音降噪算法具有強(qiáng)大的擬合能力和魯棒性(系統(tǒng)性能的健壯性),使實(shí)時(shí) AI 語(yǔ)音降噪算法商業(yè)化落地成為可能。

于是,聲網(wǎng)的 AI 降噪算法融合了傳統(tǒng)語(yǔ)音降噪算法與AI語(yǔ)音降噪算法的各自優(yōu)勢(shì),通過(guò)采用兼顧強(qiáng)降噪和高保真的損失函數(shù)、自研的 AI 推理引擎等一系列技術(shù)手段,同時(shí)實(shí)現(xiàn)了優(yōu)秀的噪聲抑制和遠(yuǎn)場(chǎng)去混響功能,可以很好的應(yīng)用在視頻會(huì)議、語(yǔ)聊房、遠(yuǎn)程問(wèn)診等實(shí)時(shí)互動(dòng)場(chǎng)景中。

此外,為了更清晰的了解聲網(wǎng) AI 降噪在用戶端的體驗(yàn)評(píng)價(jià),聲網(wǎng)還選取了一些行業(yè)同類的降噪算法進(jìn)行效果對(duì)比,在由真實(shí)數(shù)據(jù)組成的大規(guī)模測(cè)試集上,和行業(yè)標(biāo)桿國(guó)際友商 A 和友商 B 對(duì)比,聲網(wǎng)均取得了最高的 MOS 分?jǐn)?shù)(平均主觀意見(jiàn)分)。參與測(cè)試的人員,在體驗(yàn)后給出的推薦評(píng)分中,聲網(wǎng)明顯占優(yōu);聲網(wǎng)優(yōu)于友商 A 和友商 B 的概率分別是 47.4067% 和 48.1341%,聲網(wǎng)輸給友商 A 和友商 B 的概率分別是 31.4674% 和 30.7717%,聲網(wǎng)和友商 A 和友商 B 打平的概率分別是 21.1259% 和 21.0942%。

目前聲網(wǎng) WebSDK AI 降噪插件和 Native SDK AI 降噪動(dòng)態(tài)庫(kù)已跟多個(gè)客戶進(jìn)行了集成,得到了客戶的高度認(rèn)可;聲網(wǎng)也將持續(xù)提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以與 Web SDK v4.10.0 及以上配合使用,同時(shí)也推出了基于最新 AI 降噪算法的 AI 降噪動(dòng)態(tài)庫(kù)可以與 Native SDK v3.7.0 及以上配合使用。

分享到

xiesc

相關(guān)推薦