這是一套類似Sora的DiT大模型架構(gòu),采用LLM+Diffusion的核心模塊組成。

其中,用戶輸入的參考音樂會(huì)被拆解為不同的Music Patches,由Large-scale Transformer負(fù)責(zé)譜曲,來學(xué)習(xí)Music Patches的上下文依賴關(guān)系,同時(shí)完成音樂可控性。

同時(shí),Diffusion Transformer將負(fù)責(zé)大模型的“演唱”部分,通過LDM(Latent Diffusion Model)擴(kuò)散模型讓Music Patches被還原成成44.1KHz的高品質(zhì)立體聲的音頻。

昆侖萬維這套高效、靈活且具有情感表達(dá)能力的音樂生成模型架構(gòu),填補(bǔ)了音頻生成+人聲Song這兩技術(shù)領(lǐng)域的空白,堪稱AI音樂生成領(lǐng)域的一大技術(shù)飛躍,也讓昆侖萬維公開「天工SkyMusic」技術(shù)原理圖的舉措更讓人敬佩,它不僅打破了行業(yè)內(nèi)的封閉狀態(tài),更為更是為整個(gè)產(chǎn)業(yè)鋪墊了一條可復(fù)現(xiàn)的技術(shù)路徑,大大降低整個(gè)AI音樂生成產(chǎn)業(yè)的研發(fā)風(fēng)險(xiǎn)。

AI音樂破曉:「天工SkyMusic」的中國式突破

從「天工SkyMusic」的技術(shù)分析中我們可以看到,昆侖萬維在研發(fā)過程中克服了諸多技術(shù)難題,為我們打造出一個(gè)真正意義上,能高效創(chuàng)作高品質(zhì)音樂的AI音樂生成大模型。在這里,我們可以生成時(shí)長80秒,采樣率44.1KHz的雙聲道立體聲歌曲,還可以通過歌詞控制歌曲的情緒變化,精確區(qū)分不同音樂結(jié)構(gòu)間的情感起伏,也可完成各種復(fù)雜歌唱技巧。

而且較之國外同類產(chǎn)品,「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發(fā)音純正清晰,無明顯機(jī)械痕跡,效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達(dá)更為出色,也在表達(dá)中國文化特有的意境與情感內(nèi)涵時(shí),更加貼合國人的審美習(xí)慣與情感認(rèn)同,形成獨(dú)有的差異化優(yōu)勢(shì)。

情感AGI待放:天工SkyMusic」引領(lǐng)情感創(chuàng)作變革

「天工SkyMusic」作為昆侖萬維 “All in AGI和AIGC”戰(zhàn)略下在音樂領(lǐng)域的先鋒之作,填補(bǔ)了傳統(tǒng)AGI側(cè)重于智力拓展而忽視情感維度的空白,標(biāo)志著昆侖萬維在情感AGI研究中取得的重大突破。

如今,「天工SkyMusic」不僅降低音樂創(chuàng)作門檻,讓更多普通用戶能夠借助這款全民音樂創(chuàng)作工具的力量,更好地通過音樂這一媒介,表達(dá)自己的情感和創(chuàng)意。未來,隨著昆侖萬維在情感AGI技術(shù)上不斷的突破,「天工SkyMusic」將具備更多令人驚嘆的創(chuàng)作能力,亦有望成為輔助專業(yè)音樂創(chuàng)作者的利器。

分享到

zhupb

相關(guān)推薦