研究者們對如何將文本及其他條件整合到DiT架構中進行了廣泛的探索。例如,PixArt-Alpha通過采用跨注意力機制,實現(xiàn)了文本與圖像的有效結合;SD3則將文本與噪聲塊巧妙結合,并通過MMDiT模塊實施了自注意力機制。然而,盡管這些研究取得了一定的成果,但純文本驅(qū)動的視頻生成(T2V)在創(chuàng)建連貫且逼真的視頻方面,仍然面臨著諸多挑戰(zhàn)。

為了克服這些挑戰(zhàn),業(yè)界提出了文本-圖像到視頻(TI2V)的任務。這一任務通過引入初始圖像幀作為參考,為視頻生成提供了更加明確的約束條件,使得生成的視頻在內(nèi)容和形式上更加符合人們的期望。

當前,該領域仍面臨著諸多挑戰(zhàn)。如何有效地將圖像條件融入DiT架構,如何在保證模型穩(wěn)定性的同時提高大規(guī)模訓練效率,都是亟待解決的問題。

在此背景下,研究者提出了一種新的框架——STIV(可擴展的文本與圖像條件視頻生成),以期為視頻生成的研究提供一種系統(tǒng)的方法。STIV框架的目標是通過整合圖像條件和文本條件,構建一個既可以完成T2V任務,又能處理TI2V任務的統(tǒng)一模型,從而為視頻生成的多樣化和精確性提供支持。通過對不同架構和策略的系統(tǒng)性分析,STIV框架旨在提高生成視頻的質(zhì)量和一致性。

STIV框架解讀

STIV框架專注于可擴展的文本與圖像條件視頻生成。其基礎模型架構基于PixArt,利用凍結VAE轉(zhuǎn)換輸入幀為時空潛在嵌入,并由可學習的DiT塊處理。文本處理采用T5 tokenizer和CLIP文本編碼器。

模型采用分解的時空注意力機制,先對空間標記執(zhí)行空間自注意力,再對時間標記執(zhí)行時間自注意力,有助于預加載T2I模型權重并保持視頻信息處理。

STIV使用原始圖像分辨率等元信息作為微觀條件,通過正弦嵌入層和MLP投影到d維嵌入空間,與擴散時間步和文本標記嵌入相加形成單例條件,用于生成Transformer層的參數(shù)。

模型采用旋轉(zhuǎn)位置嵌入(RoPE)增強處理相對時空關系的能力,分別對空間和時間注意力應用二維和一維RoPE。

訓練目標采用流動匹配,定義源分布與目標分布間的條件最優(yōu)傳輸,通過求解逆向時序SDE從高斯噪聲中生成圖像。

在訓練時,STIV通過替換無噪聲圖像條件潛在表示實現(xiàn)圖像條件整合,提升模型靈活性,支持T2V和TI2V生成,以及視頻預測和幀插值。

結合聯(lián)合圖像-文本條件下的分類器無關引導(JIT-CFG)和圖像條件隨機丟棄,STIV實現(xiàn)多任務學習并緩解過擬合問題,提高生成質(zhì)量。

STIV框架通過獨特策略和結構,高效靈活地應對多種視頻生成任務,為后續(xù)研究提供思路與基礎。

STIV的模型特點

01

支持多模態(tài)條件輸入

TIV模型不僅支持文本條件的輸入,還可以接收圖像作為生成的參考,這為復雜的多模態(tài)生成任務提供了強有力的支持。

02

創(chuàng)新的架構設計

STIV基于PixArt-Alpha架構,通過凍結的變分自編碼器(VAE)將輸入幀轉(zhuǎn)換為時空潛變量,并使用可學習的DiT塊進行處理。

模型采用了分解時空注意力的方法,分別處理空間和時間維度的特征,從而在降低計算復雜度的同時,實現(xiàn)了高效的信息處理。

03

聯(lián)合圖像-文本無分類器引導(JIT-CFG)

這一技術突破通過同時利用文本和圖像條件,在視頻生成過程中實現(xiàn)了更高的準確性和質(zhì)量。

實驗證明,圖像條件隨機丟棄結合JIT-CFG不僅能自然地實現(xiàn)多任務訓練,還有效解決了高分辨率視頻生成模型訓練的“靜止”問題。

04

高效穩(wěn)定的訓練技術

STIV在穩(wěn)定性和訓練效率方面也進行了多項創(chuàng)新。

通過適當?shù)募夹g手段,大大降低了內(nèi)存需求,使得更大規(guī)模模型的訓練成為可能。

采用了漸進式訓練策略,首先訓練一個文本到圖像(T2I)模型,用以初始化文本到視頻(T2V)模型;隨后,T2V模型用于初始化STIV模型。

多視角生成

多視角生成旨在從給定的輸入圖像創(chuàng)建新視角。這項任務對視角一致性要求較高,依賴于良好預訓練的視頻生成模型。通過將視頻生成模型適配為多視角生成,可以驗證預訓練是否有效捕獲了3D信息,從而提升生成效果。

當使用某些新視角相機的定義,并以初始幀為給定圖像,預測接下來的新視角幀。通過訓練一個TI2V模型并調(diào)整分辨率和訓練步數(shù),實現(xiàn)了與現(xiàn)有方法相當?shù)谋憩F(xiàn),同時驗證了時空注意力機制在保持3D一致性方面的有效性。

長視頻生成

該公司開發(fā)了一種高效生成長視頻的分層框架,包括兩種模式的訓練:(1) 關鍵幀預測,學習以較大時間間隔采樣的幀;(2) 插值幀生成,通過學習連續(xù)幀,并將首尾幀作為條件。在采樣階段,首先使用關鍵幀預測模式生成關鍵幀,再通過插值模式生成中間幀,從而實現(xiàn)長視頻生成。

未來及其應用前景

一、影視制作

高效視頻生成:STIV模型憑借其強大的生成能力,能夠迅速將詳盡的文本描述和豐富的圖像素材轉(zhuǎn)化為細膩且高質(zhì)量的視頻片段。這一特性不僅縮短了影視制作周期,還極大地提升了制作效率,使得影視作品能夠更快地從策劃走向觀眾。

創(chuàng)意視頻制作:創(chuàng)作者在構思視頻內(nèi)容時,可以充分利用STIV模型的靈活性,通過組合不同的文本描述和圖像素材,輕松生成充滿個性和創(chuàng)意的視頻內(nèi)容。這種創(chuàng)作方式不僅拓寬了視頻內(nèi)容的邊界,還為創(chuàng)作者提供了更多元化的表達手段。

二、廣告創(chuàng)意

廣告視頻制作:在廣告行業(yè)中,STIV模型能夠精準捕捉廣告文案的精髓,并結合相關圖像素材,快速生成富有感染力和吸引力的視頻廣告。這不僅降低了廣告制作成本,還提高了廣告的傳播效率和市場響應速度。

個性化廣告定制:STIV模型能夠根據(jù)廣告目標受眾的喜好、興趣和行為特點,調(diào)整輸入條件和參數(shù),生成符合其個性化需求的廣告視頻。這種定制化的廣告內(nèi)容不僅提高了廣告的投放效果,還增強了受眾對廣告品牌的認同感和忠誠度。

三、教育培訓

教學視頻制作:教育機構在利用STIV模型制作教學視頻時,可以將復雜的文本和圖像內(nèi)容轉(zhuǎn)化為直觀且易于理解的視頻形式。這種教學方式不僅提高了學生的學習興趣和參與度,還提升了教學效果和學生的學習成績。

虛擬實驗模擬:在理工科教學中,STIV模型能夠生成逼真的虛擬實驗模擬視頻,幫助學生更好地理解實驗過程和原理。這種虛擬實驗不僅避免了傳統(tǒng)實驗中的安全隱患,還為學生提供了更多動手實踐的機會和平臺。

四、智能監(jiān)控

視頻預測:STIV模型能夠根據(jù)已有的圖像和視頻內(nèi)容,預測未來的視頻幀,從而實現(xiàn)對監(jiān)控視頻的智能分析和預警。這種預測能力不僅提高了監(jiān)控系統(tǒng)的智能化水平,還為安全防范提供了有力支持。

異常行為檢測:通過訓練STIV模型識別異常行為模式,監(jiān)控系統(tǒng)能夠在實時視頻中自動檢測并標記出異常行為。這種智能化檢測方式不僅提高了異常行為發(fā)現(xiàn)的準確性和及時性,還為相關部門提供了更多處理異常事件的決策依據(jù)。

五、游戲開發(fā)

游戲視頻內(nèi)容創(chuàng)作:游戲開發(fā)者可以利用STIV模型生成流暢且具有敘事性的游戲視頻內(nèi)容,為游戲宣傳和推廣提供有力支持。這種視頻內(nèi)容不僅吸引了更多玩家的關注和興趣,還提高了游戲的知名度和影響力。

游戲場景生成:STIV模型能夠根據(jù)游戲文案和圖像素材生成逼真的游戲場景視頻。這些場景視頻不僅為游戲開發(fā)提供了豐富的視覺素材,還為玩家提供了更加沉浸式的游戲體驗。

六、社交媒體

短視頻創(chuàng)作:在社交媒體短視頻創(chuàng)作火熱的今天,STIV模型為內(nèi)容創(chuàng)作者提供了新的創(chuàng)作工具和平臺。這種工具不僅簡化了視頻制作流程,還提高了視頻創(chuàng)作的效率和質(zhì)量。

個性化視頻推薦:通過分析用戶的喜好和行為數(shù)據(jù),STIV模型能夠精準生成符合用戶需求的個性化視頻推薦列表。這種推薦方式不僅提高了用戶的觀看體驗和滿意度,還為社交媒體平臺帶來了更多流量和收益。

寫在最后

蘋果的STIV模型無疑標志著視頻生成AI領域的一次具有里程碑意義的重大進步。它不僅在技術上實現(xiàn)了突破,更以其卓越的生成能力和廣泛靈活的應用前景,預示著未來視頻創(chuàng)作領域即將邁入一個嶄新的多模態(tài)創(chuàng)作時代。STIV模型的出現(xiàn),意味著創(chuàng)作者們將擁有更為強大的工具來探索和實踐他們的創(chuàng)意理念。

對于廣大的創(chuàng)作者而言,STIV模型的潛力無疑是巨大的。它能夠快速將文本描述和圖像素材轉(zhuǎn)化為高質(zhì)量的視頻內(nèi)容,這一特性將極大地提升創(chuàng)作效率,使創(chuàng)作者們能夠更加專注于創(chuàng)意本身,而無需在繁瑣的技術細節(jié)上花費過多時間。借助STIV的強大功能,創(chuàng)作者們將能夠更加高效地實現(xiàn)他們的創(chuàng)作目標,無論是制作一部引人入勝的短片,還是打造一部震撼人心的長篇巨制,都將變得更加輕松和便捷。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關推薦