隨著模型的發(fā)布,業(yè)內(nèi)圍繞技術(shù)的猜想隨即展開。有人認為Sora創(chuàng)新的模型架構(gòu)為大模型的發(fā)展開辟了新道路,也有人認為Sora的推出讓通用人工智能到來的日期大大提前,還有市場人士表示Sora的爆紅與OpenAI高超的營銷密不可分??梢灶A見的是,Sora的橫空出世,無疑將促使人工智能引領(lǐng)新一輪行業(yè)變革。

還有業(yè)內(nèi)人士指出,AI視頻生成的難點在于,一方面視頻是連續(xù)的多幀圖像,并且要有邏輯性,并非簡單的圖片組合;另一方面是帶來模型復雜度提升、計算難度和成本的提升。此外,文生視頻需要大量的“文本-視頻”配對數(shù)據(jù),而目前缺乏多樣化的數(shù)據(jù)集,且數(shù)據(jù)標注的工作量較大。因而此前視頻大多為5-15秒,而Sora將視頻時長提升至1分鐘,支持生成多個鏡頭,同時基本維持了角色和視覺風格的一致性,并能在一定程度上“理解”現(xiàn)實世界。

在Sora的技術(shù)報告中,完全沒有討論訓練來源和構(gòu)建,這可能意味著數(shù)據(jù)很可能是Sora成功的最關(guān)鍵因素。很多人好奇Sora的數(shù)據(jù)來自哪里,當前的猜測有:游戲引擎、電影、紀錄片、電影長鏡頭等。例如,PyTorch創(chuàng)始人Soumith Chintala從視頻推測Sora是由游戲引擎驅(qū)動的,并為游戲引擎生成組件和參數(shù)。紐約大學助理教授謝賽寧推測,整個Sora模型可能有30億個參數(shù)。

文生視頻模型需要大量的視頻數(shù)據(jù)進行訓練,包含各種場景、人物、動作、物品等,以幫助模型學習視頻的生成規(guī)律和運動軌跡等重要元素。在訓練數(shù)據(jù)層面,云測數(shù)據(jù)認為數(shù)據(jù)標注的質(zhì)量與效率、行業(yè)知識經(jīng)驗豐富程度和數(shù)據(jù)的隱私安全,是發(fā)揮著訓練數(shù)據(jù)價值的重要維度,影響著模型的效果。

有科技大咖指出,Sora可能使用了虛幻引擎5合成的游戲視頻訓練數(shù)據(jù),從視頻的色彩、細節(jié)來看這個判斷有一定的可信度。這樣看來OpenAI手里已經(jīng)掌握了一批高質(zhì)量視頻訓練數(shù)據(jù),同時找到了新的高效數(shù)據(jù)合成方法。此外,在訓練方法、模型架構(gòu)、算力需求等方面,Sora也進行了創(chuàng)新,將ChatGPT、DALL·E 3等模型融合在一起。

目前Sora的訓練數(shù)據(jù)源是業(yè)界普遍的關(guān)注重點,但OpenAI一如既往遵循“ClosedAI”原則,并沒有透露相關(guān)信息。

分享到

崔歡歡

相關(guān)推薦