Sora引發(fā)整個技術(shù)圈對多模態(tài)大模型的關(guān)注。除采用DiT模型架構(gòu)外,學(xué)習(xí)了大量高質(zhì)量數(shù)據(jù),無疑也是Sora效果驚人的秘訣。阿里通義實驗室資深算法專家李雅亮表示,“數(shù)據(jù)決定了機(jī)器學(xué)習(xí)任務(wù)的天花板,只有‘投喂’的數(shù)據(jù)質(zhì)量高、顆粒度細(xì)、數(shù)量多,模型訓(xùn)練才能走出‘垃圾進(jìn),垃圾出’的困境。”

不過,類Sora模型的數(shù)據(jù)處理挑戰(zhàn)極大。主流大數(shù)據(jù)框架并非為多模態(tài)數(shù)據(jù)設(shè)計,而視頻處理難度較圖文又大幅攀升,現(xiàn)有工具難以應(yīng)對。因此,“ModelScope-Sora開源計劃”首先上架了由阿里通義實驗室研發(fā)的多模態(tài)數(shù)據(jù)處理系統(tǒng)Data-Juicer,它可對龐雜的多模態(tài)數(shù)據(jù)去粗取精,“榨出”更高質(zhì)量、更豐富、更易“消化”的數(shù)據(jù)。

Data-Juicer支持文本、圖片、音頻、視頻,內(nèi)置篩選、映射、去重、格式化輸出、美學(xué)打分等上百種高效算子,開發(fā)者可以像玩樂高一樣自由組合。就像精于剪輯的導(dǎo)演,Data-Juicer能根據(jù)指定動作自動剪出視頻片段,還能增強(qiáng)分辨率、調(diào)整寬高比、去除文本段,或通過計算光流判斷視頻動靜,只保留精彩瞬間。此外,它還可自動打標(biāo),對光線變化、環(huán)境氛圍都能精細(xì)捕捉并生成文字描述。

魔搭開源的Data-Juicer流程示意圖

李雅亮介紹,魔搭社區(qū)還推出了基于Data-Juicer的沙盒實驗室。研發(fā)人員可以先在迷你數(shù)據(jù)集和模型上快速迭代,找到最合適的配方。

然后,在Data-Juicer的數(shù)據(jù)加工流水線上,開發(fā)者可以使用阿里云PAI來調(diào)用集群和GPU進(jìn)行大規(guī)模數(shù)據(jù)處理,后續(xù)還可在PAI上一站式完成模型的訓(xùn)練、推理。

魔搭“ModelScope-Sora計劃”同步開源了基礎(chǔ)類Sora模型。華東師范大學(xué)段忠杰博士聯(lián)合魔搭社區(qū),實現(xiàn)了DiT架構(gòu)的視頻生成擴(kuò)散模型lite-Sora,并在小規(guī)模數(shù)據(jù)集上初步訓(xùn)練,得到能生成大幅度運動視頻的實驗?zāi)P?。該模型正進(jìn)一步深度訓(xùn)練,最終目標(biāo)是完成對Sora的復(fù)現(xiàn)。

魔搭開源的lite-Sora模型架構(gòu)圖

接下來,魔搭社區(qū)還將舉辦“ModelScope-Sora挑戰(zhàn)賽”, 鼓勵更多開發(fā)者打造并開源自己的類Sora模型,共同加速中國多模態(tài)大模型的發(fā)展。同時,魔搭將助力構(gòu)建開放的中文高質(zhì)量多模態(tài)數(shù)據(jù)集。作為國內(nèi)規(guī)模最大、最活躍的AI開源模型社區(qū),阿里云魔搭目前已匯聚3000多款優(yōu)質(zhì)模型及上千數(shù)據(jù)集,為超過400萬開發(fā)者提供模型及免費算力服務(wù)。

魔搭“ModelScope-Sora開源計劃”鏈接:
https://www.modelscope.cn/brand/view/MultiModality

分享到

xiesc

相關(guān)推薦