論文鏈接:
https://arxiv.org/abs/2301.12661
項目鏈接:
https://text-to-audio.github.io
短短兩天,Demo視頻在Twitter上獲得了45K的播放量。
2023年除夕后,以“Make-An-Audio”、 MusicLM等大量音頻合成文章涌現(xiàn),48小時內(nèi)已經(jīng)有4篇突破性的進展。
廣大網(wǎng)友們紛紛表示,AIGC音效合成將會改變電影、短視頻制作的未來。
更有群眾發(fā)出這樣的感嘆:“audio is all you need……”
這樣的聽覺效果,難道你不愛嗎?
研究團隊已公布部分音頻生成結(jié)果在工作的主頁上:
https://text-to-audio.github.io,該模型除了可以一鍵生成大片音效以外,還可以做音頻修復(fù)、圖片生成音頻以及視頻配音等多種任務(wù)。
這款“網(wǎng)紅”模型的內(nèi)在技術(shù)原理究竟是?
深度解析“網(wǎng)紅”模型的神奇內(nèi)在,我們還要回到音頻-自然語言對數(shù)據(jù)稀少的客觀問題上,對此浙大北大聯(lián)合火山語音團隊共同提出了Distill-then-Reprogram文本增強策略,即使用教師模型獲得音頻的自然語言描述,再通過隨機重組獲得具有動態(tài)性的訓(xùn)練樣本。
具體來說,在Distill環(huán)節(jié)中,使用音頻轉(zhuǎn)文本與音頻-文本檢索模型,找到語言缺失(Language-Free)音頻的自然語言描述候選(Candidate),通過計算候選文本與音頻的匹配相似度,在閾值下取得最佳結(jié)果作為音頻的描述。該方法具有強泛化性,且真實自然語言避免了測試階段的域外文本?!霸赗eprogram環(huán)節(jié)中,我們從額外的事件數(shù)據(jù)集中隨機采樣,并與當前訓(xùn)練樣本相結(jié)合,得到全新的概念組合與描述,以擴增模型對不同事件組合的魯棒性?!毖芯繄F隊表示。
如上圖所示,自監(jiān)督學(xué)習已經(jīng)成功將圖片遷移到音頻頻譜,利用了頻譜自編碼器以解決長音頻序列問題,并基于Latent Diffusion生成模型完成對自監(jiān)督表征的預(yù)測,避免了直接預(yù)測長時波形。
此外在研究中團隊還探索了強大的文本條件策略,包括對比式Contrastive Language-Audio Pretraining (CLAP)以及語言模型(LLM) T5, BERT等,驗證了CLAP文本表征的有效與計算友好性。同時還首次使用CLAP Score來評估生成的音頻,可以用于衡量文本和生成場景之間的一致性;使用主、客觀相結(jié)合的評估方式,在benchmark數(shù)據(jù)集測試中驗證了模型的有效性,展示了模型出色的零次樣本學(xué)習(Zero-Shot)泛化性等。
神奇模型的應(yīng)用前景知多少?
總體來看,Make-An-Audio模型實現(xiàn)了高質(zhì)量、高可控性的音頻合成,并提出了“No Modality Left Behind”,對文本條件音頻模型進行微調(diào)(finetune),即能解鎖對任意模態(tài)輸入的音頻合成(audio/image/video)。
在視覺指導(dǎo)的音頻合成上,Make-An-Audio以CLIP文本編碼器為條件,利用其圖像-文本聯(lián)合空間,能夠直接以圖像編碼為條件合成音頻。
可以預(yù)見的是,音頻合成AIGC將會在未來電影配音、短視頻創(chuàng)作等領(lǐng)域發(fā)揮重要作用,而借助Make-An-Audio等模型,或許在未來人人都有可能成為專業(yè)的音效師,都可以憑借文字、視頻、圖像在任意時間、任意地點,合成出栩栩如生的音頻、音效。但現(xiàn)階段Make-An-Audio也并不是完美無缺的,可能由于豐富的數(shù)據(jù)來源以及不可避免的樣本質(zhì)量問題,訓(xùn)練過程中難免會產(chǎn)生副作用,例如生成不符合文字內(nèi)容的音頻或有害的音頻,所以哪怕Make-An-Audio在技術(shù)上被定位是“輔助藝術(shù)家生成”,但也可能出現(xiàn)創(chuàng)意內(nèi)容被濫用的潛在風險,但可以肯定的一點,AIGC領(lǐng)域的進展確實令人驚喜。
火山語音,長期以來面向字節(jié)跳動各大業(yè)務(wù)線提供全球優(yōu)勢的AI語音技術(shù)能力以及全棧語音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。目前其語音識別和語音合成已經(jīng)覆蓋了多種語言和方言,多篇技術(shù)論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico等業(yè)務(wù)提供了領(lǐng)先的語音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場景,通過火山引擎開放給外部企業(yè)。