谷歌可謂是向OpenAI發(fā)起了新一輪的強(qiáng)勁挑戰(zhàn)。新問世的Veo 2,憑借其卓越表現(xiàn),已贏得了眾多用戶的青睞,他們紛紛表示該模型“已超越Sora”。

作為谷歌當(dāng)前最尖端的視頻生成模型,Veo 2在捕捉現(xiàn)實(shí)世界的物理運(yùn)動(dòng)及細(xì)微差別方面展現(xiàn)出了非凡的實(shí)力,同時(shí),它還深度理解了電影攝影的精髓(如鏡頭類型與效果),并支持最高可達(dá)4K的分辨率,為用戶帶來了前所未有的視覺盛宴。

沒有對(duì)比就沒有傷害

讓我們通過一個(gè)實(shí)例來說明,當(dāng)我們使用相同的提示“一雙巧手在木制砧板上熟練地切著一個(gè)熟透的西紅柿”來生成一個(gè)切西紅柿的視頻時(shí),會(huì)觀察到怎樣的差異。

在Veo 2的呈現(xiàn)中,西紅柿?xí)S著刀刃的前后移動(dòng)而自然地滾動(dòng),其被切割后的橫斷面清晰可見,細(xì)節(jié)逼真。盡管切片略顯厚實(shí),但每一片的厚度都保持了一致性,且能夠整齊地疊放在一起,展現(xiàn)出了高度的真實(shí)感和精細(xì)度。

相比之下,Sora的表現(xiàn)則顯得有些令人啼笑皆非。它似乎完全忽略了西紅柿的存在,而是對(duì)著手指瘋狂地?fù)]刀,仿佛是在進(jìn)行一場(chǎng)毫無意義的動(dòng)作表演。結(jié)果,即便“切”了半天,西紅柿依然完好無損地留在那里,絲毫未損,這與我們的預(yù)期大相徑庭。

Veo 2強(qiáng)勢(shì)升級(jí),4K電影級(jí)畫質(zhì)

設(shè)想一下,僅憑簡(jiǎn)短的文字描述,就能輕松生成分辨率高達(dá)4K、時(shí)長(zhǎng)可觀的精致視頻。Veo 2正是這樣一項(xiàng)具有顛覆性的創(chuàng)新技術(shù)。它能夠響應(yīng)從簡(jiǎn)單到復(fù)雜的各種指令,并在物理模擬的過程中,呈現(xiàn)出令人贊嘆的生成質(zhì)量。

如今,使用Veo 2就如同與一位電影攝影師進(jìn)行溝通一般自然。你無需再耗費(fèi)精力去討論技術(shù)參數(shù),或是去猜測(cè)那些復(fù)雜的標(biāo)題,只需用日常習(xí)慣的術(shù)語,清晰地表達(dá)出自己想要的內(nèi)容,Veo 2就能為你呈現(xiàn)出理想中的視頻效果。

另外,我們還可以進(jìn)行更精確的相機(jī)控制,比如下圖就是一個(gè)包含第一人稱視角、轉(zhuǎn)移焦點(diǎn)的提示。可以看到,車內(nèi)的皮革內(nèi)飾、車速表等高頻細(xì)節(jié),給人留下極其深刻的印象。

更加令人稱奇的是Veo 2對(duì)于專業(yè)攝影術(shù)語的精準(zhǔn)把握。只需在指令中鍵入“18mm lens”,Veo 2便能立刻理解并創(chuàng)建出廣角鏡頭的拍攝效果;同樣,若是在指令中加入“淺景深”,它便能巧妙地模糊背景,使主體更加突出。

不僅如此,Veo 2在生成視頻時(shí)極少出現(xiàn)“幻覺”現(xiàn)象,比如AI視頻中常見的多指問題。以沃頓商學(xué)院教授Ethan Mollick實(shí)測(cè)Sora的案例為例,在一段展示水獺在飛機(jī)上使用WiFi的畫面中,Sora竟錯(cuò)誤地給水獺加上了人類的手,這一詭異現(xiàn)象在Veo 2上則極少發(fā)生。

看看Veo 2在雙手細(xì)節(jié)的生成,堪稱極致。

當(dāng)然,Veo 2生成的視頻,并非沒有破綻。它在創(chuàng)建逼真、充滿活力或復(fù)雜的視頻,以及在復(fù)雜的運(yùn)動(dòng)場(chǎng)景中,難以保持一致性。

通過人類評(píng)估,Veo 2模型在與幾大頂尖視頻模型的對(duì)比中,脫穎而出。它不僅僅是簡(jiǎn)單地生成視頻,更是對(duì)現(xiàn)實(shí)世界物理規(guī)律、人類動(dòng)作,表情方面得到了極致的理解。

測(cè)試統(tǒng)一在720p分辨率下進(jìn)行,其中Veo生成8秒視頻,VideoGen生成10秒視頻,其他模型則生成5秒視頻。評(píng)分者觀看了所有視頻的完整長(zhǎng)度。
注意看,對(duì)比測(cè)試對(duì)象中也出現(xiàn)了國(guó)產(chǎn)AI視頻模型(可靈AI、Minimax)以及最新發(fā)布的Sora Turbo。
所有比較均在720p分辨率下進(jìn)行。Veo的視頻樣本長(zhǎng)度為8秒,VideoGen的為10秒,其他模型的為5秒。評(píng)分者將看到完整視頻長(zhǎng)度。

盡管Veo 2取得了顯著進(jìn)步,但在生成真實(shí)、動(dòng)態(tài)或復(fù)雜場(chǎng)景的視頻時(shí),仍面臨著保持場(chǎng)景連貫性的挑戰(zhàn)。DeepMind表示將持續(xù)優(yōu)化這些領(lǐng)域的性能。

DeepMind產(chǎn)品副總裁Eli Collins對(duì)媒體表示,隨著模型逐漸具備規(guī)?;褂玫臏?zhǔn)備,谷歌將通過其Vertex AI開發(fā)者平臺(tái)提供Veo 2。

“未來幾個(gè)月,我們將根據(jù)用戶反饋持續(xù)迭代,并尋求將Veo 2的更新能力整合到谷歌生態(tài)系統(tǒng)中的相關(guān)應(yīng)用中……我們預(yù)計(jì)明年會(huì)分享更多的更新內(nèi)容。”

Imagen 3也實(shí)現(xiàn)重大突破

新版本不僅支持創(chuàng)作多種藝術(shù)風(fēng)格(包括現(xiàn)實(shí)主義、幻想、肖像等),能夠更精確地將文字描述轉(zhuǎn)化為圖像,以及生成更明亮、構(gòu)圖更協(xié)調(diào)的視覺作品。

Imagen 3模型在圖像構(gòu)圖和細(xì)節(jié)準(zhǔn)確性方面得到了增強(qiáng),支持從寫實(shí)到抽象的各種風(fēng)格,能夠生成更豐富的紋理,并更加忠實(shí)地回應(yīng)用戶提示。

目前,Imagen 3已經(jīng)通過谷歌實(shí)驗(yàn)室的ImageFX工具在100多個(gè)國(guó)家上線,全球用戶可以試驗(yàn)其尖端功能。

此外,谷歌還推出了Whisk,這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。用戶可以輸入圖像,生成詳細(xì)的文字描述、重新混合風(fēng)格,或設(shè)計(jì)個(gè)性化作品,如數(shù)字玩偶或搪瓷徽章。

谷歌介紹,Whisk結(jié)合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會(huì)自動(dòng)為用戶的圖像生成詳細(xì)的文字描述,并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場(chǎng)景和風(fēng)格。

寫在最后

谷歌還推出了名為Whisk的新工具,它結(jié)合了Imagen 3和Gemini視覺分析能力。Whisk可以讓用戶上傳圖像并自動(dòng)生成詳細(xì)的文字描述、重新混合風(fēng)格或設(shè)計(jì)個(gè)性化作品,如數(shù)字玩偶或徽章。通過Gemini模型,Whisk能理解圖像內(nèi)容并生成與之相匹配的文字描述,進(jìn)一步豐富了創(chuàng)作和個(gè)性化的可能性。

谷歌推出的Veo 2視頻生成工具和Imagen 3圖像生成模型在AI創(chuàng)作領(lǐng)域具有重大意義。這些更新不僅提升了視頻和圖像生成的質(zhì)量和真實(shí)感,還為創(chuàng)作者提供了更多定制化和個(gè)性化的選項(xiàng)。隨著這些模型的不斷迭代和廣泛應(yīng)用,預(yù)計(jì)將對(duì)創(chuàng)意工作流程和各行各業(yè)產(chǎn)生深遠(yuǎn)影響。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦