圖片來(lái)自英偉達(dá)
現(xiàn)今有多家廠商,包括谷歌、Meta推出可生成短曲、音效、或修改現(xiàn)有音樂(lè)的AI模型,英偉達(dá)發(fā)布的Fugatto可依據(jù)用戶輸入的文字,或上傳的音頻文件,生成或修改音樂(lè)、人聲或聲音的元素組合。例如它可以根據(jù)使用者文字提示生成音樂(lè)片段、在現(xiàn)有歌曲加入一種樂(lè)器聲音(或移除),或是改變?nèi)寺暻徽{(diào)或是情感,甚至發(fā)展出全新的表現(xiàn)方式。
Fugatto全名是“Foundational Generative Audio Transformer Opus 1”,是一個(gè)基礎(chǔ)生成式transformer模型,為英偉達(dá)在之前語(yǔ)音模型、音頻編碼及音頻理解等基礎(chǔ)上的研發(fā)成果。模型本身包含25億參數(shù),是在32顆H100 GPU的DGX系統(tǒng),在一年多期間,以數(shù)百萬(wàn)音頻樣本及文字資料訓(xùn)練而成。
Fugatto訓(xùn)練團(tuán)隊(duì)遍布印度、巴西、中國(guó)、韓國(guó)和約旦。英偉達(dá)指出,研究團(tuán)隊(duì)使用多面向策略產(chǎn)生資料和指令,以確保模型能勝任多種不同任務(wù),他們也審視現(xiàn)有數(shù)據(jù)集,找出數(shù)據(jù)間的新關(guān)聯(lián)性,在不需額外新數(shù)據(jù)集情況下,使模型學(xué)習(xí)到新任務(wù)且獲得高準(zhǔn)確性。
例如Fugatto使用名為ComposableART的技術(shù),把原本個(gè)別使用的指令組合起來(lái),像是組合多個(gè)指令,例如用戶可要求它用悲傷情緒說(shuō)一段法語(yǔ),還允許插入不同指令的功能,方便使用者微調(diào),像是腔調(diào)濃重或是悲傷程度。
英偉達(dá)還貼出了一段影片,展現(xiàn)Fugatto可為電影創(chuàng)造出震撼的配音。
Fugatto還具備時(shí)序插入(temporal interpolation)能力,可生成隨時(shí)間改變的聲音,像是暴風(fēng)雨中由近而遠(yuǎn)傳遞的雷聲,也提供聲音地景的微調(diào)功能。此外,有別于其他多數(shù)模型只能重建模型團(tuán)隊(duì)輸入的訓(xùn)練資料,F(xiàn)ugatto還讓使用者新創(chuàng)造全新的聲音地景,像是風(fēng)雨過(guò)后隨著鳥(niǎo)鳴來(lái)到的清晨。
目前很多企業(yè)都在積極開(kāi)發(fā)生成音樂(lè)、人聲及音效的AI技術(shù)。ElevenLabs、DeepMind都在開(kāi)發(fā)助力影片配音的技術(shù)、Meta去年公布可同時(shí)接受文字和音頻輸入的AudioBox。OpenAI也在今年早些時(shí)候也公布了以15秒樣本生成人聲的模型。