來(lái)自中國(guó)的視頻生成模型,再一次震驚了全球大模型圈。生數(shù)科技推出的Vidu 1.5,成為世界首個(gè)支持多主體一致性的多模態(tài)模型!

國(guó)產(chǎn)地表最強(qiáng)視頻模型震驚歪果仁

早在9號(hào),Vidu就在官方賬號(hào)上預(yù)熱了此次發(fā)布,同步放出一段案例,案例中上傳一張 黑人男子照片、鎧甲圖、城市街景,Vidu1.5便將這三者元素完美的融合到一個(gè)視頻中,實(shí)現(xiàn)“男子穿著鎧甲走在街道”上的畫(huà)面。從效果看,Vidu 1.5賦予了視頻模型前所未有的控制能力,通過(guò)圖片輸入來(lái)實(shí)現(xiàn)精準(zhǔn)控制和編輯!

上線后,有海外用戶(hù)評(píng)價(jià),這直接把Runway、LumaAI等一眾視頻模型都一鍋端了,其他視頻模型都實(shí)現(xiàn)不了的能力,Vidu竟然給攻破了,甚至在語(yǔ)義理解甚至比圖像模型王者M(jìn)idjorney還強(qiáng)。

更有海外用戶(hù)更是直呼“改變了游戲規(guī)則”,未來(lái)“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

地表最強(qiáng)!「多主體一致性」難題被攻克

技術(shù)迎來(lái)重大突破

當(dāng)前在視頻生成領(lǐng)域,一個(gè)亟待解決的挑戰(zhàn)就是「一致性控制」問(wèn)題。即在不同生成的視頻之間,模型往往難以確保主體(如人物角色或物體)的外觀、特征和風(fēng)格保持一致。

特別是在處理包含多個(gè)角色或物體的場(chǎng)景時(shí),現(xiàn)有模型還無(wú)法做到對(duì)多個(gè)主體同時(shí)進(jìn)行控制,例如,主體間的特征容易產(chǎn)生混淆,主體間的互動(dòng)也難以保持自然連貫。

不過(guò),這一“世紀(jì)難題”如今被國(guó)產(chǎn)視頻模型攻克了!

國(guó)產(chǎn)視頻模型Vidu上新1.5版本,全新上線「多圖參考」功能,通過(guò)上傳一至三張參考圖,實(shí)現(xiàn)對(duì)單主體100%的精確控制,同時(shí)實(shí)現(xiàn)多主體交互控制、主體與場(chǎng)景融合控制,能夠無(wú)縫集成人物、道具和場(chǎng)景。

Vidu自最初上線以來(lái),就一直致力于解決視頻模型中「一致性」的核心難題:早在7月底全球上線的時(shí)候,Vidu 就推出「角色一致性」功能,用戶(hù)可上傳自定義的角色圖,然后指定該角色在任意場(chǎng)景中做出任意動(dòng)作;

在9月初,Vidu全球首發(fā)了「主體參照」功能,允許用戶(hù)上傳任意主體的一張圖片,通過(guò)描述詞任意切換場(chǎng)景。這次 Vidu 1.5 則是進(jìn)一步深化了在「一致性」方面的領(lǐng)先布局和深厚優(yōu)勢(shì)。

對(duì)于單主體而言,通過(guò)上傳特定主體的不同角度或不同景別下的圖片,Vidu 1.5 能實(shí)現(xiàn)100%精準(zhǔn)控制。

比如下面的復(fù)古美女,造型極具復(fù)雜度,但無(wú)論在何種景別、視角下,甚至是特寫(xiě)鏡頭中,角色的形象都能始終保持高度一致。通常視頻模型在生成側(cè)面、背面等刁鉆視角的畫(huà)面時(shí),往往靠模型“自行腦補(bǔ)”,這過(guò)程中就容易出現(xiàn)各種不滿足用戶(hù)預(yù)期的畫(huà)面,Vidu 1.5完全避免了這一問(wèn)題,能夠保證不同視角下主體信息的準(zhǔn)確。

多主體一致性,三張圖穩(wěn)定輸出

接下來(lái),才是Vidu真正放大招的時(shí)候了。現(xiàn)在,任何人可以在「多圖參考」功能中選擇上傳多個(gè)主體。它既可以是人物角色,也可以是人物+道具物體、環(huán)境背景等等,即便是「多主體」Vidu 1.5也能做到一致性控制。

主體+場(chǎng)景:任意地點(diǎn)想做什么就做什么

上傳主體和場(chǎng)景圖,就可以實(shí)現(xiàn)主體和場(chǎng)景的無(wú)縫融合。

例如,我們讓馬斯克穿上東北大花襖騎著電動(dòng)車(chē)在游樂(lè)園逛。

無(wú)微調(diào)大一統(tǒng)架構(gòu)

以前的視頻模型如果想實(shí)現(xiàn)一致性生成能力,都不得不對(duì)每個(gè)場(chǎng)景設(shè)計(jì)相應(yīng)的模型進(jìn)行微調(diào)。它們并不能像語(yǔ)言模型一樣,通過(guò)上下文學(xué)習(xí),基于少量的示例或提示,快速適應(yīng)新任務(wù)。

生數(shù)科技卻探索出了一條完全與眾不同的路。

秉承通用性的理念,Vidu有和LLM一致的設(shè)計(jì)哲學(xué):

設(shè)計(jì)哲學(xué)一致外,在架構(gòu)復(fù)雜性、數(shù)據(jù)多樣性、生成效率等方面,多模態(tài)大模型門(mén)檻更高,在此挑戰(zhàn)下,Vidu在世界范圍內(nèi)率先推動(dòng)多模態(tài)大模型產(chǎn)生智能涌現(xiàn),如OpenAI引領(lǐng)LLM的進(jìn)步和創(chuàng)新。

省去“煉丹”環(huán)節(jié),一款“LoRA終結(jié)器”

上述突破性的工作源自于Vidu 1.5背后基礎(chǔ)模型能力的全面提升,而非業(yè)界主流的LoRA微調(diào)方案,無(wú)需專(zhuān)門(mén)的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、微調(diào)訓(xùn)練環(huán)節(jié),一鍵直出高一致性視頻。

此前LoRA微調(diào)一直是業(yè)界解決一致性問(wèn)題的主流方案。LoRA(Low-Rank Adaptation)方案,即在預(yù)訓(xùn)練模型的基礎(chǔ)上,用特定主體的多段視頻進(jìn)行微調(diào),讓模型理解該主體的特征,從而能生成該主體在不同角度、光線和場(chǎng)景下的形象,保證其在若干次不同生成時(shí)的一致性。

比如創(chuàng)作一只卡通狗的形象,想生成連續(xù)一致的視頻畫(huà)面,但模型在預(yù)訓(xùn)練過(guò)程中并沒(méi)有學(xué)習(xí)過(guò)該形象,所以需要拿卡通狗的多段視頻,讓模型進(jìn)一步訓(xùn)練,直到認(rèn)識(shí)這只卡通狗長(zhǎng)什么樣。

但通常LoRA需要20~100段的視頻,數(shù)據(jù)構(gòu)造繁瑣,且需要一定的訓(xùn)練時(shí)間,通常需要數(shù)個(gè)小時(shí)甚至更久的時(shí)間,成本是單次視頻生成的成百上千倍。

此外,LoRA微調(diào)模型容易產(chǎn)生過(guò)擬合,即在理解主體特征的同時(shí),也會(huì)遺忘大量原先的知識(shí)。這導(dǎo)致對(duì)于動(dòng)態(tài)的表情或肢體動(dòng)作的變化,很難做到有效控制,容易產(chǎn)生僵硬或不自然的效果。在復(fù)雜動(dòng)作或大幅度變換時(shí),微調(diào)模型也無(wú)法很好地捕捉細(xì)節(jié),導(dǎo)致主體特征不夠精準(zhǔn)。

因此,LoRA主要適用于大多數(shù)簡(jiǎn)單情形下的主體一致性需求,但對(duì)于高復(fù)雜的主體或問(wèn)題場(chǎng)景,需要更多的微調(diào)數(shù)據(jù)和更復(fù)雜的模型微調(diào)策略。

而Vidu 1.5基于通用模型能力的提升,僅靠三張圖就實(shí)現(xiàn)高可控的穩(wěn)定輸出,直接省去“煉丹”環(huán)節(jié),堪稱(chēng)是“ LoRA終結(jié)器”。

結(jié)語(yǔ)

總的來(lái)說(shuō),Vidu1.5視覺(jué)模型是一個(gè)功能強(qiáng)大的視頻生成工具,它不僅提高了視頻生成的效率和質(zhì)量,還推動(dòng)了視覺(jué)智能的發(fā)展。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的拓展,Vidu1.5有望在未來(lái)發(fā)揮更大的作用。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦