值得提及的是,在將該模型遷移到移動端的過程中,面臨的重大問題聚焦在嵌入式詞表表征矩陣過大。針對該問題,火山語音團隊依照重要性,對于高維度詞表進行壓縮,有效縮減詞表尺寸至20倍以下,保證效果損失可控的同時使其能在低計算及存儲資源的移動端設備上運行?!搬槍υ贫税l(fā)音轉寫模型在移動端的壓縮比較受限,性能與模型尺寸高度相關,火山語音重新設計了一款新的低資源轉寫模型,引入專家先驗同時采用并行結構設計,最終可以在云端效果接近的同時,模型尺寸縮減10倍以上,已應用到離線TTS模型中。”修昊總結道。

針對具體場景下的優(yōu)化提效,以語音識別為例。通常,語音識別的準確率在部分理想場景中可以高達98%,但由于很多實際場景表現(xiàn)復雜,識別效果就會伴隨大幅降低,尤其在會議場景中,由于一些英文詞會被識別成發(fā)音相近的中文,從而導致準確率大幅下降?;鹕秸Z音語音識別方向算法研究員李志進一步表示:“在具體場景中解決中英文混合識別問題時,其實盲目加大模型或者增加訓練數(shù)據(jù)量并不能根本解決問題,而是要貼合實際場景,針對性增加中英混合的數(shù)據(jù),并人工仿真出部分數(shù)據(jù);另外在模型設計上也需要針對兩種語言混說的情況,設計具備編碼開關能力的編碼器來提升模型建模能力,并保證當只有中文的情況下還能保障效果不變才可以?!笨梢?,無論是數(shù)據(jù)還是模型的改良,都要基于場景來擇優(yōu)路線才行。

02 降低AI成本:從算法到工程缺一不可,且須持之以恒

“降低AI成本是一個端到端長鏈條的工作,整個過程中算法、工程以及相關的專業(yè)人員需要緊密配合才能將成本壓縮極致?!?這是火山語音工程團隊研發(fā)工程師小L長期經(jīng)驗的總結。

具體來說,在整體鏈路中,數(shù)據(jù)成本降低的關鍵在于如何采用組合拳有效減少帶標數(shù)據(jù)的生產(chǎn)成本。小L表示,目前看通過更好的模型結構方案直接降低訓練所需要的帶標數(shù)據(jù)量,或者經(jīng)過大規(guī)模預訓練模型附加少量數(shù)據(jù)微調等手段都是減少帶標數(shù)據(jù)量的常見方案。此外還涉及到通過引入AI輔助、平臺化、自動化等方式來提升單位人力標注效率,例如通過音頻消重、裁剪靜音片段、加入輔助文本、平臺化自動流轉任務、標注和校驗流程設計和自動化等方式,也可以顯著提升標注效率,降低單位標注數(shù)據(jù)成本。

“在訓練環(huán)節(jié),除了需要考慮生產(chǎn)模型本身花費的計算資源外,實踐中還需考慮算法人員在得到這樣一個生產(chǎn)可用的模型,過程中所使用的計算資源開銷,因此如何提升算法人員訓練出可上線模型的過程效率,并降低生產(chǎn)模型本身的計算成本,是這個過程中的關鍵問題。”火山語音工程團隊研發(fā)工程師張工補充道。關于這個問題的解決,火山語音工程團隊提出可以使用容器化的方式來支持算法實驗,比方說通過排隊等策略控制資源的總開銷;使用 AutoML 等手段加速模型結構、參數(shù)搜索的過程;通過高性能 I/O、分布式通信優(yōu)化、計算通信并行、高性能算子等加速模型訓練過程等;還可以通過平臺化方案,讓運營人員能夠直接調優(yōu)和訓練模型,降低投入并節(jié)省人力成本。

談及重要的推理階段,小L表示,“由于AI服務屬于計算密集型,要把硬件資源利用到極致才是降低單位服務能力成本的重點,所以可以通過把計算offload到用戶側設備(例如手機),在設備上運行全部/部分的模型推理,來節(jié)省云端的服務成本和中間的帶寬成本?!袄绮捎迷诮K端側直接運行離線 ASR、TTS 等方式,使用專用的 AI 芯片、計算硬件等,可以極大降低單位服務能力的成本;還可以通過端云異構統(tǒng)一框架,提高AI原子能力迭代效率,對于基于不同硬件和指令集做深度的算子優(yōu)化,都是降低成本的可行辦法?!?/p>

火山語音,長期以來面向字節(jié)跳動各大業(yè)務線以及火山引擎ToB行業(yè)與創(chuàng)新場景,提供全球領先的AI語音技術能力以及卓越的全棧語音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇技術論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico等業(yè)務提供了領先的語音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設備等多樣化場景,通過火山引擎開放給外部企業(yè)。

分享到

songjy

相關推薦