阿里開源音頻生成模型ThinkSound

視頻生成音頻(V2A)技術(shù)是多媒體編輯和視頻內(nèi)容創(chuàng)作領(lǐng)域最重要的技術(shù)之一,但該技術(shù)的發(fā)展速度仍存在諸多技術(shù)挑戰(zhàn),例如業(yè)界現(xiàn)有的V2A技術(shù)仍缺乏對視覺對應聲學細節(jié)的深入理解,導致生成的音頻較為通用,甚至與關(guān)鍵視覺事件錯位,難以滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的嚴格要求。

為了解決現(xiàn)有視頻轉(zhuǎn)音頻技術(shù)難以捕捉畫面中動態(tài)細節(jié)和時序的難題,通義團隊首次將思維鏈推理引入多模態(tài)大模型,可以模仿人類音效師的多階段創(chuàng)作流程,實現(xiàn)對視覺事件與相應聲音之間深度關(guān)聯(lián)的精準建模,例如先分析視覺動態(tài)、再推斷聲學屬性,最后按照時間順序合成與環(huán)境相符的音效。不僅如此,該團隊還構(gòu)建了首個帶思維鏈標注的音頻數(shù)據(jù)集AudioCoT,該數(shù)據(jù)集融合了2531.8小時的多源異構(gòu)數(shù)據(jù),讓模型在音頻生成與編輯任務(wù)時做到“知其然、知其所以然”。

在開源的VGGSound測試集上,ThinkSound的核心指標相比MMAudio、V2A-Mappe、V-AURA等現(xiàn)有主流方法均實現(xiàn)了15%以上的提升。例如,在openl3空間中Fréchet 距離(FD)上,ThinkSound 相比 MMAudio的43.26 降至34.56(越低越好),接近真實音頻分布的相似度提高了20%以上;在代表模型對聲音事件類別和特征判別精準度的KLPaSST 和 KLPaNNs兩項指標上分別取得了1.52和1.32的成績,均為同類模型最佳。

在開源的VGGSound測試集上,ThinkSound多項核心指標位居第一

在MovieGen Audio Bench測試集上,ThinkSound的表現(xiàn)大幅領(lǐng)先Meta推出的音頻生成模型Movie Gen Audio,展現(xiàn)了模型在影視音效、音頻后期、游戲與虛擬現(xiàn)實音效生成等領(lǐng)域的應用潛力。

ThinkSound大幅領(lǐng)先Meta旗下Movie Gen Audio

目前,通義實驗室已推出語音生成大模型 Cosyvoice、端到端音頻多模態(tài)大模型MinMo等模型,全面覆蓋語音合成、音頻生成、音頻理解等場景。

開源地址:
https://github.com/liuhuadai/ThinkSound
https://huggingface.co/liuhuadai/ThinkSound
https://www.modelscope.cn/studios/AudioGeneral/ThinkSound

分享到

xiesc

相關(guān)推薦