隨著移動辦公的普及,視頻會議成為了人們?nèi)粘9ぷ魃钪胁豢苫蛉钡墓ぞ摺H欢?,當人們在嘈雜的咖啡廳、機場等開會時,常常受到環(huán)境噪聲、背景人聲的干擾。因此,降噪技術在不同場景下的應用與研究也愈發(fā)得到重視,特別是干擾人聲的消除,因人聲之間的特征相似度高于人聲與環(huán)境噪聲的特征相似度,處理難度更大,也成為了困擾業(yè)界和學術界的共同難題。
為此,天籟實驗室首創(chuàng)性研發(fā)了個性化語音增強技術,率先應用在了騰訊會議上。它能模擬人類聽覺注意機制,構建起一個能夠在多人會話和復雜的背景噪音中、只關注目標說話人聲音的自動化系統(tǒng),仿佛一個“會找主人的麥克風”,能夠在環(huán)境噪聲消除的基礎上,進一步消除周圍人聲的干擾,凸顯主講人的聲音信號。
該項技術,已在ICASSP DNS 2022深度學習降噪挑戰(zhàn)賽中,榮獲全頻帶實時個性化語音增強track 2比賽總分第一,并在音質(zhì)和識別率兩個核心單項指標上都分別達到了最好的水平。
作為當前國際上該領域規(guī)模最大、影響力最廣泛的比賽之一,第四屆DNS深度學習降噪挑戰(zhàn)賽在前幾屆環(huán)境噪聲消除基礎上,增加了難度更大的干擾人聲消除賽道,并首次發(fā)起了全頻帶實時個性化語音增強的挑戰(zhàn)賽,天籟實驗室則是在眾多參賽隊伍中脫穎而出,成功獲得總分第一名。
作為騰訊會議旗下的頂尖實時音頻處理團隊,天籟實驗室一直致力于打造下一代實時音頻通信端到端解決方案,適應不同應用場景和終端設備,為用戶提供高清、純凈、流暢的音頻通信體驗。
此前,基于上千小時的語音噪聲數(shù)據(jù),該方案通過深度學習和AI算法,已經(jīng)成功消除300多種環(huán)境噪聲,并已成功應用在騰訊會議上。為了進一步解決會議室場景下雙工通信的挑戰(zhàn),天籟實驗室在業(yè)界首發(fā)推出了騰訊天籟inside音頻解決方案,它基于軟硬一體的聲學硬件設計,獨創(chuàng)了行業(yè)領先的多麥音頻算法,通過麥克風陣列和多模態(tài)深度學習技術相融合,首次結合房間聲場感知,采集和空間聲場重建技術,開創(chuàng)性地實現(xiàn)遠距離拾音、智能降噪、通透雙講。該方案已經(jīng)和newline、MAXHUB、海信商顯等多個行業(yè)領先的硬件廠商合作,為其打造會議室里的“順風耳”。
未來,天籟實驗室將持續(xù)打磨技術、產(chǎn)品,為廣大用戶提供“聽得清、聽得真”的音頻體驗,共創(chuàng)數(shù)字時代的美好未來。