“十幾年前就聽說春晚要加直播字幕,最后因為種種原因沒能如愿。過去一家人在電視前守夜,看到有趣的小品相聲都會哈哈大笑,而我只能第二天獨自看帶字幕的重播,然后一個人傻樂……現(xiàn)在有了無障礙字幕直播間,我終于可以和家人朋友一起感受比賽帶來的歡樂了?!卑@喜地說。

突破層層技術關,火山語音讓字幕更準更快更好

曾經(jīng)讓阿濤記掛多年的“春晚直播加字幕”,其實背后需要攻克相當復雜的技術難關。

以本次世界杯無障礙字幕直播間為例,世界杯賽場風云變幻,解說的口音和語速更是差異萬分,為了讓同傳字幕不受其影響,火山語音團隊基于RNN-T框架,通過大量訓練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,推出了自研端到端的流式語音識別系統(tǒng)來解決,不但有效規(guī)避了傳統(tǒng)的語音識別系統(tǒng)中涉及的大量人工流程,同時還做到了系統(tǒng)復雜度簡化很多,構(gòu)建起來更加容易,效果還會更好。

實踐顯示,優(yōu)化后的模型不僅對口音和復雜場景展現(xiàn)出更強的魯棒性,而且對領域詞匯的識別能力以及推理速度,字幕上屏速度也得到了大幅度提升。對此阿濤表示,無障礙字幕功能的聲音、畫面雖然官方說整體會延遲30s,但實際與直播延遲的時間并不大,觀感舒適度大大提高。

長期以來,噪音都是影響語音識別精準度的重要因素之一。“賽場上經(jīng)常會出現(xiàn)的觀眾吶喊聲,特別容易被誤識別為’嗯、啊、哈’的語氣詞;背景音樂和觀眾聲則會降低解說員聲音的清晰度,對識別模型造成了較大挑戰(zhàn)?!睘閼獙@類問題,火山語音團隊通過從足球比賽音頻中提取出這些噪聲片段,在模型中顯式地建模噪聲,將噪聲誤出字的比例下降了95%;同時通過數(shù)據(jù)增強方式提高聲學模型在足球場景下的魯棒性,即在有背景音的情況下也能清晰識別人聲,實現(xiàn)更好的流式字幕效果。

“在世界杯這樣的全球大型賽事中,大量的專業(yè)術語以及外籍教練與運動員的人名,會為語音識別帶來不小的困難,但也成為提升同傳字幕專業(yè)度的關鍵。”通常的做法其實是收集相關場景的語音識別訓練集,但收集的過程耗費時間太長且成本較高;而且面對大量文本語料,如何利用這些純文本來優(yōu)化領域識別效果,也是個不小的問題。

對此火山語音團隊率先整理了大量與足球相關以及與世界杯相關的語料,在這些語料的基礎上訓練語言模型,通過語言模型干預的方式,提高了模型在足球領域的適配性。由于端到端模型本身也隱含語言模型信息,直接與外部語言模型進行融合往往效果不佳,所以團隊根據(jù) RNN-T 的建模方式,通過解耦聲學模型和語言模型,顯式建模內(nèi)部語言模型,調(diào)整內(nèi)部語言模型和外部語言模型的權(quán)重,以此實現(xiàn)最佳的融合效果。

“對于教練與運動員人名識別難的問題,我們從足球相關語料中自動挖掘?qū)S忻~、球隊和球員名稱等術語,通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合’匹配走圖+Backoff權(quán)重償還’的方式對熱詞進行干預,有效利用該熱詞專項技術優(yōu)化后,這些術語的召回從 64% 提升到 76%。”團隊總結(jié)道。

經(jīng)過反復實踐與驗證,為追求更優(yōu)效果,團隊又進一步對人名熱詞干預做了擴大FST干預備選以及對熱詞區(qū)分稀疏熱詞和普通熱詞,然后對兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理的優(yōu)化,帶來人名的召回率從76%提升到84%的效果。此外還聯(lián)合火山語音音頻合成團隊的同學,采用TTS技術合成術語音頻,并加入聲學模型訓練中,將這些術語的召回率進一步提高到90%,字幕效果更佳。

一直以來,火山語音團隊的語音識別技術都不斷追求更快、更準、更穩(wěn)定且更強悍的目標,不久之前還榮獲了國家語音及圖像識別產(chǎn)品質(zhì)量檢驗檢測中心頒發(fā)的語音識別增強級檢驗檢測證書,充分表明其語音識別技術能力已達行業(yè)領先水平。

就像很多前沿機構(gòu)預測的一樣,可靠快速的語音識別能力或?qū)⒊蔀槲磥砻總€人日常生活中不可缺少的一部分,技術將索引視頻,以及更多類型的媒體內(nèi)容,甚至成為每一個音頻和視頻都實現(xiàn)可訪問以及可操作的關鍵,或許無障礙字幕直播間就意味著這種“開始”。

語音識別技術發(fā)展已見成熟,交互以及視頻領域應用熱度高

如何讓人與機器順暢溝通,是人類長期以來不斷探索的重要內(nèi)容之一,而智能語音技術作為讓機器能夠聽懂人類語音并擁有自然交互性的科學,早在上世紀80年代就已闖入人類視野。歷經(jīng)2010年之前的起步期、2011-2015的變革期,以及2016至今的落地期,準確率不斷逼近人類水平,以智能語音助手、智能音箱為代表的技術與產(chǎn)品大力發(fā)展起來。業(yè)界普遍認為,由于語音交互提供了更自然、更便利、更高效的溝通形式,未來很大程度上會成為最主要的人機交互形式而存在。作為智能語音陣營中的關鍵技術,語音識別技術近年來也是突飛猛進,走出實驗室并走進人們的日常生活中,現(xiàn)如今無論是智能家居、智慧出行,視頻創(chuàng)作還是智慧辦公等場景,它都已不可或缺。

值得提及,在大家習以為常的辦公場景中,從早期解放雙手呼之欲出的語音輸入,到首次與辦公場景緊密結(jié)合的語音助手,再到發(fā)展至今被爭相使用的語音字幕,語音識別歷經(jīng)的創(chuàng)新不斷。談及語音字幕,兩種類型的具體應用場景其實是普遍存在的:一種是會議進行中將語音實時轉(zhuǎn)為文字,不僅可以實時查看原語言的字幕,也可以實時查看翻譯后的字幕;另一種是會議結(jié)束之后通過語音轉(zhuǎn)寫出會議紀要,以此降低會后文字整理難度。但究其本質(zhì),無論是語音輸入還是語音助手,抑或是現(xiàn)在流行的語音字幕,歸根結(jié)底都是以提升辦公效率為目標,火山語音團隊也正是基于此將更多精力投入辦公方向,希望通過更具優(yōu)勢的語音識別技術努力優(yōu)化“千言轉(zhuǎn)文字,一字勝千言”的效果。

基于此團隊上線了實時字幕解決方案,不僅可以幫助參會人更好理解會議內(nèi)容并回顧結(jié)論,還能通過“識別+翻譯”的同傳方案高效完成跨國、跨語言的溝通和交流。尤其是方案的會議轉(zhuǎn)寫能力,不但可以準確記錄參會人的討論內(nèi)容,還能根據(jù)說話人特征進行自動歸類和整理,通常1小時的會議只需2-3分鐘即可輸出會議記錄,方便快捷。整體來說,為了更好提升會議的智能化程度以及效率,火山語音團隊率先克服語音識別任務、下游任務及會議等方向的挑戰(zhàn),進行了諸多升級與創(chuàng)新。

現(xiàn)如今從“看”到“拍”,短視頻已然成為全民時尚,正在當下視聽化、碎片化、快節(jié)奏的網(wǎng)絡時代中快速崛起。據(jù)相關數(shù)據(jù)顯示,截止到2022年第二季度數(shù)據(jù),我國短視頻用戶規(guī)模達9.62億人,可見越來越多人已經(jīng)開始投身到短視頻創(chuàng)作中來。對此火山語音團隊緊跟時下火熱的視頻創(chuàng)作風潮,及時推出了智能字幕解決方案,一改傳統(tǒng)字幕10分鐘視頻3小時制作的耗時費力。不僅能在幾秒鐘內(nèi)自動生成精準的語音識別結(jié)果,還能兼容多種口音、語種和方言,緊跟商用語音識別技術多語音的發(fā)展趨勢,甚至針對創(chuàng)作常見的配樂和歌曲場景開發(fā)了歌曲識別的亮點功能,大大降低了創(chuàng)作門檻,提升了創(chuàng)作的智能化。目前,火山語音的語音識別技術已廣泛應用于視頻娛樂、辦公會議、硬件交互、智能客服等諸多行業(yè),提供了優(yōu)質(zhì)有前景的語音識別解決方案。

長期以來,火山語音面向字節(jié)跳動各大業(yè)務線提供行業(yè)優(yōu)質(zhì)的 AI 語音技術能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對外提供服務。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,涵蓋音視頻、有聲閱讀、語音交互、游戲、廣告等多種應用場景,為抖音、剪映、飛書、番茄小說、PICO 等核心業(yè)務提供了領先的語音能力??梢钥闯?,火山語音團隊在智能語音道路上不斷探索創(chuàng)新,將前沿科技與業(yè)務場景高效結(jié)合,以實現(xiàn)更大的用戶價值與可能性,不止字幕,也將不止步于字幕。

分享到

songjy

相關推薦