久久亚洲国产精品影院,欧美一级黑人AAAAAAA做受,午夜性刺激在线视频免费

圖片來自英偉達

現(xiàn)今有多家廠商，包括谷歌、Meta推出可生成短曲、音效、或修改現(xiàn)有音樂的AI模型，英偉達發(fā)布的Fugatto可依據(jù)用戶輸入的文字，或上傳的音頻文件，生成或修改音樂、人聲或聲音的元素組合。例如它可以根據(jù)使用者文字提示生成音樂片段、在現(xiàn)有歌曲加入一種樂器聲音（或移除），或是改變?nèi)寺暻徽{(diào)或是情感，甚至發(fā)展出全新的表現(xiàn)方式。

Fugatto全名是“Foundational Generative Audio Transformer Opus 1”，是一個基礎(chǔ)生成式transformer模型，為英偉達在之前語音模型、音頻編碼及音頻理解等基礎(chǔ)上的研發(fā)成果。模型本身包含25億參數(shù)，是在32顆H100 GPU的DGX系統(tǒng)，在一年多期間，以數(shù)百萬音頻樣本及文字資料訓(xùn)練而成。

Fugatto訓(xùn)練團隊遍布印度、巴西、中國、韓國和約旦。英偉達指出，研究團隊使用多面向策略產(chǎn)生資料和指令，以確保模型能勝任多種不同任務(wù)，他們也審視現(xiàn)有數(shù)據(jù)集，找出數(shù)據(jù)間的新關(guān)聯(lián)性，在不需額外新數(shù)據(jù)集情況下，使模型學(xué)習(xí)到新任務(wù)且獲得高準(zhǔn)確性。

例如Fugatto使用名為ComposableART的技術(shù)，把原本個別使用的指令組合起來，像是組合多個指令，例如用戶可要求它用悲傷情緒說一段法語，還允許插入不同指令的功能，方便使用者微調(diào)，像是腔調(diào)濃重或是悲傷程度。

英偉達還貼出了一段影片，展現(xiàn)Fugatto可為電影創(chuàng)造出震撼的配音。

Fugatto還具備時序插入（temporal interpolation）能力，可生成隨時間改變的聲音，像是暴風(fēng)雨中由近而遠(yuǎn)傳遞的雷聲，也提供聲音地景的微調(diào)功能。此外，有別于其他多數(shù)模型只能重建模型團隊輸入的訓(xùn)練資料，F(xiàn)ugatto還讓使用者新創(chuàng)造全新的聲音地景，像是風(fēng)雨過后隨著鳥鳴來到的清晨。

目前很多企業(yè)都在積極開發(fā)生成音樂、人聲及音效的AI技術(shù)。ElevenLabs、DeepMind都在開發(fā)助力影片配音的技術(shù)、Meta去年公布可同時接受文字和音頻輸入的AudioBox。OpenAI也在今年早些時候也公布了以15秒樣本生成人聲的模型。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門標(biāo)簽