(機翻版Prompt:一位時髦的女士穿行在東京的街頭,街道兩旁是溫暖的霓虹燈和動態(tài)的城市標(biāo)識。她身穿黑色皮夾克、一條長紅裙和黑靴,手拿黑色錢包。她佩戴著太陽鏡和紅色口紅,自信而隨意地走著。街道潮濕且能反射光,營造出彩色燈光的鏡像效果。許多行人來來往往。)
另外,我看到這個視頻甚至有兩段運鏡,一個是遠(yuǎn)景,一個鏡頭拉的很近的特寫,甚至能看見女生臉上的痘痘。
打開OpenAI的官網(wǎng),我找到了一些介紹內(nèi)容,我把我的學(xué)習(xí)和理解的內(nèi)容寫在這里。
OpenAI在官網(wǎng)介紹中提到,他們幫AI理解和模擬物理世界的運動,他們的目標(biāo)是用這個模型,來解決需要與現(xiàn)實世界交互時會碰到的各種問題,比如,自動駕駛汽車就算一種。
簡單說,AI模型能更好地理解現(xiàn)實世界,能理解現(xiàn)實世界的人物和物體的運動方式,如果這種東西被用在智能駕駛領(lǐng)域,應(yīng)該會很有前景。
Sora作為一個文生視頻模型,能生成最多1分鐘時長的視頻,這并不神奇,現(xiàn)在Runway早就可以做到。只不過,Sora輸出的視頻質(zhì)量很高,同時,能緊跟著提示詞里輸入的內(nèi)容來生成。
目前,Sora還沒有完全對外公開可用,只是面向安全測試人員還有部分視覺藝術(shù)家、設(shè)計師和電影制作人訪問來體驗這個模型,先看看專業(yè)人士的意見。
Sora擁有生成包含眾多角色、特定動作類型及主題與背景精確細(xì)節(jié)的復(fù)雜場景的能力。該模型不僅能理解用戶在提示中的請求,還能洞察這些元素在物理世界中的實際存在方式。從而讓人物和物體的動作更流程和自然。
Sora對語言有深刻的理解,能夠準(zhǔn)確地理解提示詞,并生成引人入勝的角色。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭,準(zhǔn)確地保持角色和視覺風(fēng)格的連貫性。
現(xiàn)在的Sora模型也有明顯不足。
它在模擬復(fù)雜場景的物理特性上會有問題,可能不能很好地理解特定因果關(guān)系。例如,一個人可能會咬一口餅干,但餅干可能看不到咬過的痕跡。模型也可能搞錯空間細(xì)節(jié),例如,將左和右搞混。
在將Sora整合到OpenAI的產(chǎn)品中之前,OpenAI會邀請安全專家對模型進行對抗性測試,幫助處理錯誤信息、仇恨內(nèi)容和偏見等問題。
OpenAI還在開發(fā)工具,幫助檢測誤導(dǎo)性內(nèi)容,比如一個檢測分類器,能夠識別出一個視頻是由Sora生成的。未來,如果正式對外部署這一模型,還會在視頻中包含C2PA元數(shù)據(jù)。
C2PA是由內(nèi)容真實性和來源聯(lián)盟(C2PA)定義的一種標(biāo)準(zhǔn),旨在提高數(shù)字內(nèi)容(如照片、視頻和文檔)的透明度和可信度。通過在內(nèi)容中嵌入C2PA元數(shù)據(jù),可以提供關(guān)于該內(nèi)容創(chuàng)作和修改歷史的詳細(xì)信息,包括內(nèi)容是如何、何時以及由誰創(chuàng)建或更改的。
這有助于驗證內(nèi)容的真實性,打擊深度偽造和誤導(dǎo)性信息,為用戶提供關(guān)于數(shù)字內(nèi)容來源和完整性的可靠信息。
出于安全和負(fù)責(zé)人方面的考慮,OpenAI把給DALL·E 3準(zhǔn)備的安全手段也都會用在Sora模型上。
他們會阻止包含有極端暴力、性內(nèi)容、仇恨等不合適的內(nèi)容請求。同時,還會準(zhǔn)備檢查視頻幀的服務(wù),以確保生成的視頻內(nèi)容符合相關(guān)政策。
盡管OpenAI做了很多工作來確保AI技術(shù)的安全,但還是無法完全預(yù)見技術(shù)潛在風(fēng)險。因此,他們強調(diào)與社會各界合作并從實際應(yīng)用中進行摸索,在推進AI技術(shù)發(fā)展的同時,也逐步提高系統(tǒng)的安全性。
稍微談一點技術(shù)細(xì)節(jié)部分。
Sora是一種(Diffusion)擴散模型,基本原理上,它通過從一個靜態(tài)噪聲的視頻開始,在隨后多個步驟中逐漸去除噪聲,從而生成視頻。
看起來就跟Stable Diffusion、Disco Diffusion一樣。
Sora能夠一次性生成一整個視頻,或者給已有視頻添加新的時長。通過讓模型一次性預(yù)見多幀,Sora解決了一個極具挑戰(zhàn)性的問題,即使主體暫時離開視野,也能保持不變,有很好的一致性。
與很多GPT模型一樣,Sora也采用了Transformer架構(gòu),從而獲得了更強的可擴展性。
在Sora模型中,視頻和圖像被表示為一系列更小的數(shù)據(jù)單元,稱為“補丁”(patches),每個補丁都類似于GPT中的一個“令牌”(token)。通過將數(shù)據(jù)的表示方式進行統(tǒng)一,Sora可以在更廣泛的視覺數(shù)據(jù)上進行訓(xùn)練,這些數(shù)據(jù)包括不同的持續(xù)時間、分辨率和縱橫比。
Sora模型是在DALL·E和GPT模型的基礎(chǔ)上而構(gòu)建的。它采用了DALL·E 3中的重新標(biāo)注技術(shù),它可以為視覺訓(xùn)練數(shù)據(jù)生成高質(zhì)量的數(shù)據(jù)標(biāo)注。因此,模型能夠很好地遵從用戶輸入的文本指令。
Sora模型不僅能夠用文本生成視頻,還能夠用已有的靜態(tài)圖來生成視頻,準(zhǔn)確地將圖片變成動畫,圖片中的細(xì)節(jié)也都會處理的很好。此外,模型還能夠延長已有視頻的內(nèi)容,還能自動填補缺失的幀。
在OpenAI看來,Sora是那些能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),這一能力將是實現(xiàn)通用人工智能(AGI)的一個重要里程碑。
OpenAI公布了在視頻數(shù)據(jù)上訓(xùn)練大規(guī)模生成式模型的方法,具體內(nèi)容可以查看如下鏈接:
https://openai.com/research/video-generation-models-as-world-simulators
這部分介紹中,OpenAI直接將視頻生成模型看做是世界模擬器(Video generation models as world simulators)。
想想也是,如果讓AI模型來理解這個世界的一些規(guī)律,如果能給模型輸入足夠的數(shù)據(jù),那么,AI的世界就能演繹真實的世界。
如果AI模型能理解世界更多規(guī)律,包括物理、化學(xué)、數(shù)學(xué)、醫(yī)藥等自然科學(xué)方面的規(guī)律,如果能給模型輸入足夠多的數(shù)據(jù),那該是一種什么樣的未來?