久久精品女人天堂av麻豆,日韩国产亚洲欧美中国v

谷歌可謂是向OpenAI發(fā)起了新一輪的強(qiáng)勁挑戰(zhàn)。新問(wèn)世的Veo 2，憑借其卓越表現(xiàn)，已贏得了眾多用戶的青睞，他們紛紛表示該模型“已超越Sora”。

作為谷歌當(dāng)前最尖端的視頻生成模型，Veo 2在捕捉現(xiàn)實(shí)世界的物理運(yùn)動(dòng)及細(xì)微差別方面展現(xiàn)出了非凡的實(shí)力，同時(shí)，它還深度理解了電影攝影的精髓（如鏡頭類(lèi)型與效果），并支持最高可達(dá)4K的分辨率，為用戶帶來(lái)了前所未有的視覺(jué)盛宴。

沒(méi)有對(duì)比就沒(méi)有傷害

讓我們通過(guò)一個(gè)實(shí)例來(lái)說(shuō)明，當(dāng)我們使用相同的提示“一雙巧手在木制砧板上熟練地切著一個(gè)熟透的西紅柿”來(lái)生成一個(gè)切西紅柿的視頻時(shí)，會(huì)觀察到怎樣的差異。

在Veo 2的呈現(xiàn)中，西紅柿?xí)S著刀刃的前后移動(dòng)而自然地滾動(dòng)，其被切割后的橫斷面清晰可見(jiàn)，細(xì)節(jié)逼真。盡管切片略顯厚實(shí)，但每一片的厚度都保持了一致性，且能夠整齊地疊放在一起，展現(xiàn)出了高度的真實(shí)感和精細(xì)度。

相比之下，Sora的表現(xiàn)則顯得有些令人啼笑皆非。它似乎完全忽略了西紅柿的存在，而是對(duì)著手指瘋狂地?fù)]刀，仿佛是在進(jìn)行一場(chǎng)毫無(wú)意義的動(dòng)作表演。結(jié)果，即便“切”了半天，西紅柿依然完好無(wú)損地留在那里，絲毫未損，這與我們的預(yù)期大相徑庭。

Veo 2強(qiáng)勢(shì)升級(jí)，4K電影級(jí)畫(huà)質(zhì)

設(shè)想一下，僅憑簡(jiǎn)短的文字描述，就能輕松生成分辨率高達(dá)4K、時(shí)長(zhǎng)可觀的精致視頻。Veo 2正是這樣一項(xiàng)具有顛覆性的創(chuàng)新技術(shù)。它能夠響應(yīng)從簡(jiǎn)單到復(fù)雜的各種指令，并在物理模擬的過(guò)程中，呈現(xiàn)出令人贊嘆的生成質(zhì)量。

如今，使用Veo 2就如同與一位電影攝影師進(jìn)行溝通一般自然。你無(wú)需再耗費(fèi)精力去討論技術(shù)參數(shù)，或是去猜測(cè)那些復(fù)雜的標(biāo)題，只需用日常習(xí)慣的術(shù)語(yǔ)，清晰地表達(dá)出自己想要的內(nèi)容，Veo 2就能為你呈現(xiàn)出理想中的視頻效果。

另外，我們還可以進(jìn)行更精確的相機(jī)控制，比如下圖就是一個(gè)包含第一人稱(chēng)視角、轉(zhuǎn)移焦點(diǎn)的提示?？梢钥吹?，車(chē)內(nèi)的皮革內(nèi)飾、車(chē)速表等高頻細(xì)節(jié)，給人留下極其深刻的印象。

更加令人稱(chēng)奇的是Veo 2對(duì)于專(zhuān)業(yè)攝影術(shù)語(yǔ)的精準(zhǔn)把握。只需在指令中鍵入“18mm lens”，Veo 2便能立刻理解并創(chuàng)建出廣角鏡頭的拍攝效果；同樣，若是在指令中加入“淺景深”，它便能巧妙地模糊背景，使主體更加突出。

不僅如此，Veo 2在生成視頻時(shí)極少出現(xiàn)“幻覺(jué)”現(xiàn)象，比如AI視頻中常見(jiàn)的多指問(wèn)題。以沃頓商學(xué)院教授Ethan Mollick實(shí)測(cè)Sora的案例為例，在一段展示水獺在飛機(jī)上使用WiFi的畫(huà)面中，Sora竟錯(cuò)誤地給水獺加上了人類(lèi)的手，這一詭異現(xiàn)象在Veo 2上則極少發(fā)生。

看看Veo 2在雙手細(xì)節(jié)的生成，堪稱(chēng)極致。

當(dāng)然，Veo 2生成的視頻，并非沒(méi)有破綻。它在創(chuàng)建逼真、充滿活力或復(fù)雜的視頻，以及在復(fù)雜的運(yùn)動(dòng)場(chǎng)景中，難以保持一致性。

通過(guò)人類(lèi)評(píng)估，Veo 2模型在與幾大頂尖視頻模型的對(duì)比中，脫穎而出。它不僅僅是簡(jiǎn)單地生成視頻，更是對(duì)現(xiàn)實(shí)世界物理規(guī)律、人類(lèi)動(dòng)作，表情方面得到了極致的理解。

測(cè)試統(tǒng)一在720p分辨率下進(jìn)行，其中Veo生成8秒視頻，VideoGen生成10秒視頻，其他模型則生成5秒視頻。評(píng)分者觀看了所有視頻的完整長(zhǎng)度。
注意看，對(duì)比測(cè)試對(duì)象中也出現(xiàn)了國(guó)產(chǎn)AI視頻模型（可靈AI、Minimax）以及最新發(fā)布的Sora Turbo。
所有比較均在720p分辨率下進(jìn)行。Veo的視頻樣本長(zhǎng)度為8秒，VideoGen的為10秒，其他模型的為5秒。評(píng)分者將看到完整視頻長(zhǎng)度。

盡管Veo 2取得了顯著進(jìn)步，但在生成真實(shí)、動(dòng)態(tài)或復(fù)雜場(chǎng)景的視頻時(shí)，仍面臨著保持場(chǎng)景連貫性的挑戰(zhàn)。DeepMind表示將持續(xù)優(yōu)化這些領(lǐng)域的性能。

DeepMind產(chǎn)品副總裁Eli Collins對(duì)媒體表示，隨著模型逐漸具備規(guī)?；褂玫臏?zhǔn)備，谷歌將通過(guò)其Vertex AI開(kāi)發(fā)者平臺(tái)提供Veo 2。

“未來(lái)幾個(gè)月，我們將根據(jù)用戶反饋持續(xù)迭代，并尋求將Veo 2的更新能力整合到谷歌生態(tài)系統(tǒng)中的相關(guān)應(yīng)用中……我們預(yù)計(jì)明年會(huì)分享更多的更新內(nèi)容?！?/p>

Imagen 3也實(shí)現(xiàn)重大突破

新版本不僅支持創(chuàng)作多種藝術(shù)風(fēng)格（包括現(xiàn)實(shí)主義、幻想、肖像等），能夠更精確地將文字描述轉(zhuǎn)化為圖像，以及生成更明亮、構(gòu)圖更協(xié)調(diào)的視覺(jué)作品。

Imagen 3模型在圖像構(gòu)圖和細(xì)節(jié)準(zhǔn)確性方面得到了增強(qiáng)，支持從寫(xiě)實(shí)到抽象的各種風(fēng)格，能夠生成更豐富的紋理，并更加忠實(shí)地回應(yīng)用戶提示。

目前，Imagen 3已經(jīng)通過(guò)谷歌實(shí)驗(yàn)室的ImageFX工具在100多個(gè)國(guó)家上線，全球用戶可以試驗(yàn)其尖端功能。

此外，谷歌還推出了Whisk，這是一款結(jié)合了Imagen 3和Gemini視覺(jué)分析能力的創(chuàng)意工具。用戶可以輸入圖像，生成詳細(xì)的文字描述、重新混合風(fēng)格，或設(shè)計(jì)個(gè)性化作品，如數(shù)字玩偶或搪瓷徽章。

谷歌介紹，Whisk結(jié)合了Imagen 3模型和Gemini的視覺(jué)理解與描述能力。Gemini模型會(huì)自動(dòng)為用戶的圖像生成詳細(xì)的文字描述，并將這些描述傳遞給Imagen 3。這一過(guò)程讓用戶能夠以有趣的新方式重新混合主題、場(chǎng)景和風(fēng)格。

寫(xiě)在最后

谷歌還推出了名為Whisk的新工具，它結(jié)合了Imagen 3和Gemini視覺(jué)分析能力。Whisk可以讓用戶上傳圖像并自動(dòng)生成詳細(xì)的文字描述、重新混合風(fēng)格或設(shè)計(jì)個(gè)性化作品，如數(shù)字玩偶或徽章。通過(guò)Gemini模型，Whisk能理解圖像內(nèi)容并生成與之相匹配的文字描述，進(jìn)一步豐富了創(chuàng)作和個(gè)性化的可能性。

谷歌推出的Veo 2視頻生成工具和Imagen 3圖像生成模型在AI創(chuàng)作領(lǐng)域具有重大意義。這些更新不僅提升了視頻和圖像生成的質(zhì)量和真實(shí)感，還為創(chuàng)作者提供了更多定制化和個(gè)性化的選項(xiàng)。隨著這些模型的不斷迭代和廣泛應(yīng)用，預(yù)計(jì)將對(duì)創(chuàng)意工作流程和各行各業(yè)產(chǎn)生深遠(yuǎn)影響。（文/宋雨涵）

分享到

OpenAI 谷歌

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽