(Photo by Sergey)

受疫情影響,遠(yuǎn)程協(xié)同辦公軟件市場爆發(fā),騰訊會議上線兩個月內(nèi)日活超千萬,在如此高并發(fā)流量沖擊下,騰訊會議保持了清晰流暢的語音服務(wù)。近日,騰訊多媒體實驗室高級總監(jiān)商世東接受LiveVideoStack專訪,圍繞騰訊會議及其背后的故事進(jìn)行了分享。

以下為采訪實錄:

1. 選擇

離開杜比從來都不是一個困難的決定

剛剛畢業(yè)的時候,我在摩托羅拉做音頻方面的工作,一做就是將近十年的時間。2010年,我去了杜比實驗室,算起來是國內(nèi)入職杜比研發(fā)團(tuán)隊的第二個員工。當(dāng)時負(fù)責(zé)整個杜比中國的工程團(tuán)隊,差不多有五六十個人的規(guī)模。后來我又去了杜比澳大利亞,再后來,也就是2019年1月,我加入了騰訊多媒體實驗室,在音頻技術(shù)中心負(fù)責(zé)整個音頻團(tuán)隊的建設(shè)、產(chǎn)品的技術(shù)路線規(guī)劃、技術(shù)的交互以及負(fù)責(zé)對多個產(chǎn)品,包括騰訊會議在內(nèi)的端到端的音頻體驗,現(xiàn)在團(tuán)隊(音頻)大概有20個人。

對我來說,首先,在杜比這樣的業(yè)界領(lǐng)先公司工作,我學(xué)習(xí)到了很多,國際化的視野、前瞻性的技術(shù)布局、完整的思維體系、團(tuán)隊建設(shè)等等,這些都是讓我終身獲益的東西。

但離開杜比并不是一個非常困難的決定,這其中大環(huán)境、小環(huán)境的原因都有一些。我后來回顧了一下,最重要的原因還是在于杜比的主要業(yè)務(wù)是在傳統(tǒng)領(lǐng)域,成長速度不盡人意。作為一家主要做技術(shù)授權(quán)業(yè)務(wù)的公司,它沒有最終面對消費(fèi)者的產(chǎn)品,相對而言公司規(guī)模也比較小,對整個生態(tài)的影響有限,很難有一個全面的把握。

換一種說法,這其中有很多的東西是個人想要但是平臺無法給與的,個人成長容易碰到天花板,想要向上突破的時候,公司已經(jīng)不能給自己提供這樣的平臺了。就這方面而言的話,在騰訊,天花板幾乎不存在,在這里,只要有能力、有潛力、有愿望,個人擁有持續(xù)不斷的提升空間,并且可以在這個無限上升的空間里做到最好,這對我來說是非常重要的一點(diǎn)。

在騰訊面臨的用戶數(shù)量,以前在杜比的時候是想都不敢想的。現(xiàn)在一天會有千萬級DAU的產(chǎn)品,可以看到自己開發(fā)的產(chǎn)品在整個市場上遇到各種意想不到的困難、挑戰(zhàn)、問題以及機(jī)會。

現(xiàn)在我們很大一部分的精力放在騰訊會議上,通過種種技術(shù)對用戶使用場景進(jìn)行分析并通過統(tǒng)計數(shù)據(jù)的上報、分析,了解用戶可能遇到的問題并快速加以解決。

2. 改變

需要更多的思考與更確定的答案

(Photo by Sergey)

以前我們做視頻會議,考慮會議中的語音質(zhì)量提升和評估的出發(fā)點(diǎn)都是要求對標(biāo)或者超越電話(典型的比如電話話筒終端),這個是典型的雙人通話場景,但是現(xiàn)在我們也發(fā)現(xiàn)視頻會議大量的場景都是圍繞多人的、多地的聯(lián)合辦公場景。以前基于電信行業(yè)終端(電話話筒為主要語音設(shè)備)定義的完整的語音質(zhì)量體系需要重新審視和演進(jìn)來滿足現(xiàn)在用戶的需求。簡單地說,會議軟件是從模仿打電話的體驗開始的,雖然從使用方式、使用場景、使用時間等等角度來看,多樣性已經(jīng)遠(yuǎn)遠(yuǎn)超過了電話。而且,僅僅倆人打電話是不夠的,我們要一個小組打電話,光打電話還不夠,還要分享視頻、分享屏幕、圖片和文檔。從國際標(biāo)準(zhǔn),比如ITU-T的演進(jìn)路線圖來看,制訂的通話標(biāo)準(zhǔn),也不斷的從雙人通話向多人、跨地區(qū)的實時、強(qiáng)交互場景演進(jìn)。

會議當(dāng)中關(guān)鍵的語音體驗簡單的來說,可以從三個維度來衡量,語音通信的可懂度,語音自然度/保真度和語音舒適度。從這三方面來說,在多人會議中面臨的挑戰(zhàn)明顯要多于雙人。

比如多人通話采集設(shè)備的多樣性。兩個人的時候當(dāng)然很好協(xié)調(diào),人多了以后采集設(shè)備如何配置,以及采集的音質(zhì)、采樣率、比特率;在多人場景里面音頻編解碼的接入配置,到底是寬帶還是超寬帶,最簡單的辦法就是所有的配置都按照最好的來,但是這樣對系統(tǒng)資源的占用是最高的。同時因為對系統(tǒng)資源的占用最高,會帶來總體體驗的下降。

那么如何動態(tài)來在多種因素中平衡,保證多人語音通信的綜合體驗在三個維度上有最優(yōu)的均衡,就變成一個很有挑戰(zhàn)性的課題。

同時,不同場景的網(wǎng)絡(luò)環(huán)境也不一樣。你的網(wǎng)絡(luò)、我的網(wǎng)絡(luò),可能還有第三個、第四個人的網(wǎng)絡(luò),有的人使用有線網(wǎng)絡(luò)、有的則是WiFi,有的是4G,帶寬差異巨大,網(wǎng)絡(luò)QoS也參差不齊,這時候如何有效的探測網(wǎng)絡(luò)實際帶寬,進(jìn)而高效的進(jìn)行流控管理,在多人場景下的復(fù)雜度遠(yuǎn)遠(yuǎn)高于雙人。

所以,綜上所述,一旦開始考慮多人參會的因素,你會發(fā)現(xiàn),在兩人通話的情形下討論的音質(zhì)體驗、QoS、QoE等等問題,現(xiàn)在要重新思考答案。這在國際上當(dāng)前也是很熱的領(lǐng)域,大家也都在探索答案。

對于整個視頻會議體驗來說,或者對于用戶體驗來說,這不是一個單一的因素或者指標(biāo)就可以決定的。之前我們有針對網(wǎng)絡(luò)規(guī)劃的常見QoS三個指標(biāo),丟包,抖動和延遲,這些東西都是必要條件,但是不是充分條件。決定一個用戶體驗的是很多方面的因素,比如從音頻角度來說,從我們做音頻的角度來說,用的最多的就是上面說到的三個維度:語音可懂度、自然度、舒適度。

首先是聽得懂你說的話,這是可懂度。如果音量很低,卡頓很嚴(yán)重,或者回聲,或者很嘈雜,或者嘯叫發(fā)生,那我基本就無法聽了,那視頻會議通話中反應(yīng)比較多的卡頓來說,我們通過深度學(xué)習(xí)技術(shù)來解決網(wǎng)絡(luò)丟包的問題。

IP網(wǎng)絡(luò)上面?zhèn)鬏數(shù)臅r候常常會發(fā)生丟包的現(xiàn)象,以前處理丟包的技術(shù)比較簡單粗暴,比如直接拿后面一幀填補(bǔ)一下或者前一幀內(nèi)容直接復(fù)制。但是現(xiàn)在我們通過機(jī)器學(xué)習(xí)的方法,可以很準(zhǔn)確的預(yù)測丟掉的那個音節(jié)的部分內(nèi)容,在用戶體驗上則并沒有感知。

但是光聽得懂肯定不行,你肯定不可能只滿足于聽得懂。

比如聽機(jī)器人說話,那聽得懂是沒有問題的,但自然度方面就不會太好,這里面就涉及很多音質(zhì)的東西,不僅是延遲、卡頓,抖動,這些是網(wǎng)絡(luò)的指標(biāo)。自然度對于用戶來說更多是一個感知問題,我們用音色是否明亮、是否均衡、是否豐滿,等等多項指標(biāo)來衡量。當(dāng)我們在語音處理中不可避免需要非線性處理的時候,我們就可以通過上述的指標(biāo)來保證語音的感知自然度。

在語音舒適度維度方面,我們的終極目標(biāo)是視頻會議語音通話的體驗要盡可能的接近真實場景下的人和人間距1米時的通話體驗,要達(dá)到這樣的目標(biāo),我們還有很長的一段路要走。目前可以想象到哪些困難我們需要克服,除了網(wǎng)絡(luò)QoS三要素外,如何盡可能真實的仿真出所處的聲學(xué)場景和對話形式,對于目標(biāo)的達(dá)成至關(guān)重要,我們的技術(shù)演進(jìn)路線圖也是朝著這個方向在努力。

3. 趕車

咖啡與信念缺一不可

(Photo by Sergey)

今年的需求(疫情)爆發(fā)了以后,我們整個團(tuán)隊一直加班加點(diǎn),針對以前很多沒有覆蓋到的場景、沒有碰到過的用戶需求,陸陸續(xù)續(xù)開發(fā)了更多的技術(shù)和功能。比如,我們發(fā)現(xiàn)很多老師給學(xué)生上課時需要聲音共享,而且這是一個非常剛性的需求。以前我們在辦公室很少有聲音共享,屏幕共享就可以了,所以我們在Windows(大部分老師都是用電腦進(jìn)行教學(xué)直播互動)上提供了很多音頻共享的功能。

比如我們可以在學(xué)生把麥克風(fēng)禁麥后還講話的時候提醒學(xué)生,我們通過信號處理的技術(shù),可以把學(xué)生講話的聲音有效的從環(huán)境背景聲分離處理,從而實現(xiàn)關(guān)麥講話提醒這個功能。

另外,用戶激增后,我們也看到了不同用戶的終端設(shè)備差異性導(dǎo)致的產(chǎn)品行為的不一致。舉個例子,用戶開關(guān)麥克風(fēng)的過程當(dāng)中需要整個設(shè)備驅(qū)動進(jìn)行重啟。設(shè)備驅(qū)動重啟的過程中,大部分設(shè)備都沒有問題,但是某些設(shè)備確會導(dǎo)致關(guān)麥的時候揚(yáng)聲器無聲,一秒兩秒的無聲用傳統(tǒng)的質(zhì)量評估手段是看不出來的,但對用戶體驗有很大的影響。所有這樣的問題被發(fā)現(xiàn)后,快速迭代的能力就非常關(guān)鍵。

在這個過程中,對產(chǎn)品的思考更多時候是一個信念問題,當(dāng)有這么多人使用這款產(chǎn)品時,我們是帶有使命感在工作的。我們更多是希望早一點(diǎn)把需求解決、把功能做出來,早一點(diǎn)優(yōu)化用戶的體驗。

所以大家常常是咬著牙,加班加點(diǎn),周末也不休息。在聲音共享這個功能上線的時候,我記得我們有一個同學(xué)一晚上調(diào)bug調(diào)到了兩三點(diǎn),我們當(dāng)時想到底還要不要跟著這次產(chǎn)品更新一起發(fā)布新功能,還是說再挺一下,堅持把這最后一個問題解決掉。

因為產(chǎn)品的發(fā)布時間已經(jīng)確定,如果這次趕不上,那意味著老師和學(xué)生們第二天上課時又沒有聲音,上課的效率和體驗都會受到比很大的影響, 所以我們的同學(xué)那天就趕了一整個晚上,在這期間咖啡就沒停過。

最后,終于在凌晨5點(diǎn)多鐘的時候,問題解決了,最后還做了全面的自測,確保沒有問題,第二天我們真的就硬是趕上了新版本發(fā)布的這趟車。

這個聲音共享功能發(fā)布了以后,我們非常非常開心,就是那種很單純的喜悅,希望上網(wǎng)課的老師們都趕緊升級到新版本,這樣他們再給學(xué)生分享視頻的時候,聲音的分享就再也不成問題了。

聲音是傳遞信息非常重要的媒介,所以我們的想法很簡單,就是這個東西能夠越早做出來越好。

4.  出海

VooV Meeting的師、敵、友

(Photo by Sergey)

最近,Zoom是一個非常值得關(guān)注的對象。Zoom對我們來說,是云視頻會議的先行者。因為它們在這個行業(yè)進(jìn)入比較早,做得比較久,對用戶需求、行為的理解也比較深刻,有很多值得我們學(xué)習(xí)的地方。其實我也蠻喜歡微軟Teams的產(chǎn)品,它也有一些自己獨(dú)到的地方。它從Skype時代開始演進(jìn),有比較多的積累。而且微軟對底層技術(shù)有長期的投入,很多先進(jìn)的思想一直在引領(lǐng)這個行業(yè)的進(jìn)步。

因為我們做視頻會議的時間相對比較短,有這樣一些先行者給我們先進(jìn)的思路,包括用戶的支持、合作伙伴、硬件合作伙伴合作模式等等,都是值得借鑒的。

騰訊會議海外版本VooV Meeting也同樣是我們在支持,畢竟底層技術(shù)都是一樣的。

從音頻角度來說,海外用戶跟國內(nèi)用戶的訴求大體上一樣,但也有一些不一樣的地方。比如國內(nèi)開會的時候,整個網(wǎng)絡(luò)架構(gòu)都是比較均勻的,尤其是我們看到北上廣這些城市,他們本身的網(wǎng)絡(luò)條件是不錯的,延遲也處于比較好的狀況。

到了海外,我們的服務(wù)器部署不像在國內(nèi)這么完善,我們需要知道哪些地方的服務(wù)器部署是不足的。海外也不需要像國內(nèi)這樣面面俱到的部署,很多地域人口密度很低,比如美國的用戶可能比較集中在東西海岸,那么就需要針對東西海岸加強(qiáng)部署,在后臺的調(diào)度也要加以注意。

國內(nèi)的話,我們的信息獲得比較全面,流量高發(fā)的城市地區(qū)我們都有掌握,但海外這些需求和信息要如何獲得,這就是一個問題。你怎么知道到底哪些城市在哪些時候會有一個峰值的需求?這必須要有一個對全網(wǎng)質(zhì)量的評估和監(jiān)控,這樣才能近乎實時地知道用戶的需求出現(xiàn)在什么地方,從而可以有針對性的、非常靈活快捷地進(jìn)行相應(yīng)的部署。

從具體使用技術(shù)的角度來說,國內(nèi)外的用戶使用視頻會議的習(xí)慣也有些區(qū)別,國外可能習(xí)慣用PSTN電話的接入方式,國內(nèi)則是IP來接入。國外很多用戶傾向于使用固定電話或者移動電話接入體驗,因為傳統(tǒng)電話網(wǎng)絡(luò)PSTN跟我們的IP網(wǎng)絡(luò)是屬于不同的運(yùn)營商網(wǎng)絡(luò),他們的運(yùn)營商網(wǎng)絡(luò)到我們的網(wǎng)絡(luò)里面要經(jīng)過很多網(wǎng)關(guān)、路由,針對這種情況怎么優(yōu)化體驗是我們要加以考慮的,這方面的開發(fā)技術(shù)比如說頻譜擴(kuò)展,比如PSTN專門的降噪,諸如此類的需求可以有針對性的加以開發(fā)。

5.  硬件

1+1>2

(Photo by Sergey)

國內(nèi)有非常不錯的硬件制造商,深圳就有很多了。我們和這些硬件制造商合作的時候,怎么互相之間博采眾長,產(chǎn)生一加一大于二的效果,這里面其實有很多合作的空間。騰訊會議在很多場景里面是要跟不同的合作伙伴聯(lián)合打造一個比較好的會議體驗的,而這些合作伙伴在他們的相關(guān)領(lǐng)域里面,像硬件領(lǐng)域、網(wǎng)絡(luò)領(lǐng)域的未來發(fā)展是怎樣的,有什么有前景的趨勢,哪些變化在醞釀當(dāng)中、又會什么時候發(fā)生,都是我們要持續(xù)關(guān)注的問題。比如,我們看到麥克風(fēng)不斷有新技術(shù)材料出來,那相關(guān)制造商的路線規(guī)劃是什么,某些技術(shù)難點(diǎn)突破了以后會對視頻會議云通信的產(chǎn)品有怎樣的影響,這些都需要你擁有很好的前瞻性。

另外,我們一直比較關(guān)注相關(guān)的領(lǐng)域。比如,5G時代整個接入網(wǎng)絡(luò)帶寬上去了,那我們就思考當(dāng)接入帶寬不再成為瓶頸以后,可以在哪些用戶體驗上做進(jìn)一步的優(yōu)化。

像之前提到的教學(xué)場景,老師們可能有些高品質(zhì)的音頻需要傳輸,不僅僅是語音,還有基于音樂的特定場景。比如老師給學(xué)生放一段視頻,視頻里面可能不僅僅有對話,還會有高品質(zhì)的音樂。那么對于音樂來講,面臨的挑戰(zhàn)是不一樣的。音樂的內(nèi)容特征、頻譜、碼率需求,從音質(zhì)體驗的角度來說比語音要求要高。

這樣的訴求在3G、4G網(wǎng)絡(luò)視頻會議下由于帶寬的限制、網(wǎng)絡(luò)的擁塞可能不得不放棄,但在5G的時候就會提上日程,要研究如何在新的場景下滿足用戶更多的需求,從而去優(yōu)化他們的體驗。

另外,基于AI的技術(shù),我們也看到音頻視頻兩者多模態(tài)可以更好的結(jié)合起來,能夠大大往前走一步,給用戶更好的綜合體驗。同時,計算能力上來以后,你會發(fā)現(xiàn)很多事情做起來受限于當(dāng)時的設(shè)備,而現(xiàn)在慢慢都成為了可能,我們在思考怎么把這些事情一步一步做起來。我們現(xiàn)在和硬件廠商的很多合作,已經(jīng)在緊鑼密鼓地開展了。騰訊會議本身可以提供很好的音視頻處理、傳輸、編解碼技術(shù),我們的硬件合作伙伴也有一些他們專有的硬件上面的特色功能。

第一步,我們之間要先相互打通。直接打通第一步以后,我們要思考怎么把自己的技術(shù)和對方的優(yōu)勢結(jié)合,這里面有很多工作可以做。

舉個例子,用戶的設(shè)備跟我們騰訊會議軟件,不管是通過有線網(wǎng)絡(luò)還是USB進(jìn)行連接,以前在用戶設(shè)備上受限于運(yùn)算能力做不到的事情,現(xiàn)在就可以做到了。因為通常我們講的會議電話這樣的產(chǎn)品,它的運(yùn)算能力、內(nèi)存總是受限的,很多基于AI的算法做不到。

但是騰訊會議的APP跑在我們通用的、運(yùn)算能力強(qiáng)大的設(shè)備里面(像電腦)就不存在這樣的限制,尤其是和云結(jié)合起來后。一旦和硬件廠商打通以后,雙方找到彼此之間的配合點(diǎn),以前做不到的事情現(xiàn)在都成為可能,典型的例子比如會議內(nèi)容轉(zhuǎn)錄、整理會議紀(jì)要等等。

像一些傳統(tǒng)的視頻會議方案提供商,它本身是一個閉環(huán),它的解決方案里,軟件硬件全都是它自己的,不存在運(yùn)營多樣化的挑戰(zhàn)問題,因為每個鏈條它都自己把握,這樣質(zhì)量有保證。但是相對而言,他們的完整解決方案的價位也比較高,兼容性也會是很大的問題。

騰訊會議的話,要跟所有設(shè)備商都可以接入,面臨著保證可靠性、穩(wěn)定性、安全性的挑戰(zhàn),因為不同的廠商的產(chǎn)品要在它的性能范圍之內(nèi)互相協(xié)同,無縫連接。

在安全性方面,我不是專家,但從開發(fā)SDK的角度來說,我們對于用戶本身的信息肯定是不做收集的。對于用戶談話,比如交流的具體內(nèi)容,我們也不會做任何收集,只是用算法對這些內(nèi)容的統(tǒng)計信息進(jìn)行收集,包括通話過程當(dāng)中的質(zhì)量,比如是否失真、嘈雜、有卡頓等等,這些都是從技術(shù)方面統(tǒng)計的信息。

因為我們需要對這些技術(shù)指標(biāo)進(jìn)行評估,比如我發(fā)現(xiàn)你那邊頻繁出現(xiàn)卡頓現(xiàn)象,那么我希望能夠知道你在什么時候、為什么發(fā)生了卡頓,如果發(fā)生卡頓的原因是技術(shù)網(wǎng)絡(luò)架構(gòu),或者是應(yīng)用本身消耗了太多的CPU導(dǎo)致的,我們就可以更有針對性地進(jìn)行優(yōu)化,從而給予用戶更好的體驗。

6.  問題

Everything matters

(Photo by Sergey)

接下來我們要解決的問題,更多的會是更具挑戰(zhàn)性的多方會議場景下面的問題。因為現(xiàn)在的用戶場景非常多,多樣化場景下,不同的場景里面用戶對聲音的需求是不一樣的。這就說回到用戶場景的問題,當(dāng)下的場景相對以前確實有很大的變化。以前騰訊會議的用戶場景沒有(也沒有想到)現(xiàn)在這么多?,F(xiàn)在你可以在家里面、在辦公室里面、小型會議室里面、大型會議室里面開會,甚至各種直播場景都是以前沒有想過的。在各種場景里面,你的架構(gòu)、相應(yīng)的技術(shù)應(yīng)該如何規(guī)劃、配合,在不同的場景里側(cè)重點(diǎn)又是什么,不同的人都有不一樣的理解。

我們這方面做得比較細(xì),要根據(jù)用戶不同的場景去考量。比如開信息傳達(dá)的大會的場景,對于這種絕大部分時間都是信息單向傳輸?shù)那闆r,延遲可能就不是那么重要了,重要的是聲音的可懂度和自然度,要保證用戶在長時間傾聽的條件下,避免聽覺疲勞和注意力分散。

而在小規(guī)模小組討論的場景下,大家都是是熟人,交互非常激烈,你一句我一句,這時候?qū)崟r交互的需求會非常強(qiáng),需要很低的延時,除了對于可懂度和語音自然度的正常要求外,對于聲音的舒適度要求盡可能模仿面對面的溝通,要求很高。我們會考慮在這樣的場景下,需要哪些新技術(shù),如何在多種限定條件下權(quán)衡,來達(dá)到一個最好的綜合體驗和容忍度,。

另外就是基于視頻會議的主場景,還有哪些衍生的需求,比如會議內(nèi)容轉(zhuǎn)錄、同聲傳譯,以及和智能音箱的結(jié)合、如何通過語音助手來喚醒和交互……這些以前在傳統(tǒng)的視頻會議產(chǎn)品中見不到的功能,現(xiàn)在隨著相關(guān)市場產(chǎn)品、技術(shù)的成熟,都可以進(jìn)一步融合起來,在協(xié)同辦公這樣的一個大背景下,共同來提升效率。

諸如此類,在當(dāng)下和未來,我們都會碰到不一樣的挑戰(zhàn),你要問哪個最重要,我沒有辦法回答,因為用戶A和用戶B的需求對我來說同樣重要。同時,我們也會用數(shù)據(jù)來說話,數(shù)據(jù)告訴我們用戶的需求在哪里,我們就去開發(fā)哪里;如果目前還沒能滿足這部分的需求,那我們就把它丟到map里,以后的每一天都要想辦法去滿足它。

騰訊多媒體實驗室簡介:

作為騰訊旗下頂尖的音視頻通信和處理研發(fā)團(tuán)隊,騰訊多媒體實驗室專注于實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標(biāo)準(zhǔn)、計算機(jī)視覺圖像處理、端到端音視頻質(zhì)量評測。在實時音視頻通信和處理技術(shù)、音視頻國際標(biāo)準(zhǔn)等領(lǐng)域積累了完整的解決方案和領(lǐng)先的技術(shù)水平。

本文來源于: LiveVideoStack

分享到

songjy

相關(guān)推薦