Sora制作的視頻中,一名女子準備吹滅生日蛋糕上的蠟燭
 (圖片來源OpenAI,CNET截圖)

文生視頻已成為生成式人工智能領(lǐng)域新一輪軍備競賽。OpenAI、谷歌、微軟等公司都在不斷發(fā)力。

Sora主要的優(yōu)勢在于以往文生視頻軟件是在2D平面上操作圖形元素,視頻將多個真實圖片做成組合,而Sora可以像人一樣理解真實世界和邏輯,模擬出真實的物理世界。

Sora可以理解很長的提示詞,這在一定程度上要歸功于OpenAI過去在Dall-E和GPT模型上的工作,2023年熱門 AI 圖像生成器的這是其熱門 AI 圖像生成器Dall-E3升級到最新版本,引起大眾的關(guān)注。而Sora借用了Dall-E3的重現(xiàn)技術(shù),這項技術(shù)可以為視覺訓(xùn)練數(shù)據(jù)生成高精準度的描述性文字說明。該模型還可以從靜止圖像生成視頻,擴展現(xiàn)有視頻或填充缺失的幀。

當然Sora也有弱點,比如難以準確地描述復(fù)雜場景的物理現(xiàn)象,難以理解因果關(guān)系,例如被人咬過的餅干上可能沒有咬痕。OpenAI沒有透露Sora何時候能被廣泛使用,但表示希望首先采取“幾個重要的安全措施”,包括滿足OpenAI現(xiàn)有的安全標準,禁止極端暴力、虛假信息、保護名人肖像和個人IP等。

360創(chuàng)始人周鴻祎表示,Sora意味著AGI(通用人工智能)實現(xiàn)或?qū)?0年縮短到一至兩年。

通用人工智能(AGI)是一種更高級的人工智能形式,更接近類人智能,具有執(zhí)行更廣泛任務(wù)的能力。無疑,Sora模型展現(xiàn)出了對真實世界的理解和模擬能力。OpenAI開發(fā)的這款模型能夠理解視頻中的復(fù)雜場景和動態(tài),這種能力是AGI發(fā)展中的一個關(guān)鍵組成部分,涉及到機器對環(huán)境的感知和反應(yīng)。而Sora在視頻制作方面的能力可能會對相關(guān)行業(yè)產(chǎn)生顛覆性影響,這種影響力可能會激發(fā)更多的創(chuàng)新和應(yīng)用,從而推動整個人工智能領(lǐng)域的發(fā)展。

大模型的開發(fā)將對直播電商、影視制作、宣傳片制作等場景滲透,也會影響到相關(guān)行業(yè)的教育市場,刺激國內(nèi)文生視頻大模型技術(shù)的開發(fā)。對于很多人擔心的Sora打擊影視工業(yè)的問題,周鴻祎表示,視頻主題、腳本、分鏡頭的策劃、臺詞的配合這些都還需要人來提供創(chuàng)意,機器需要人給出提示詞,簡而言之,Sora可以成為創(chuàng)作工具,但不是取代。

分享到

nina

相關(guān)推薦