V-JEPA 2模型參數(shù)規(guī)模達(dá)12億,它基于聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)搭建而成。此前,Meta已經(jīng)通過(guò)相關(guān)實(shí)踐驗(yàn)證,JEPA架構(gòu)在處理圖像、3D點(diǎn)云等多種模態(tài)的數(shù)據(jù)時(shí),展現(xiàn)出了卓越的性能。

此次全新發(fā)布的V-JEPA 2,是在去年推出的首個(gè)基于視頻訓(xùn)練的模型VJEPA基礎(chǔ)上進(jìn)行升級(jí)的。升級(jí)后的V-JEPA 2在動(dòng)作預(yù)測(cè)以及世界建模能力方面得到了進(jìn)一步提升,這使得機(jī)器人借助與陌生物體和環(huán)境的交互,能夠更順利地完成各項(xiàng)任務(wù)。

V-JEPA 2 技術(shù)解析

此次發(fā)布的V-JEPA 2模型,是在去年首個(gè)基于視頻訓(xùn)練的V-JEPA模型基礎(chǔ)上升級(jí)而來(lái)。它進(jìn)一步增強(qiáng)了動(dòng)作預(yù)測(cè)和世界建模能力,讓機(jī)器人能夠通過(guò)與陌生物體及環(huán)境交互來(lái)完成任務(wù)。V-JEPA 2與語(yǔ)言建模相結(jié)合,可提供出色的運(yùn)動(dòng)理解能力和領(lǐng)先的視覺推理能力,還能預(yù)測(cè)世界的發(fā)展態(tài)勢(shì)。

在訓(xùn)練方式上,Meta采用基于視頻的自監(jiān)督學(xué)習(xí)方法訓(xùn)練V-JEPA 2,無(wú)需額外人工注釋即可在視頻上開展訓(xùn)練。該模型擁有12億參數(shù),主要基于視頻進(jìn)行訓(xùn)練,運(yùn)用自監(jiān)督學(xué)習(xí)策略。它包含編碼器和預(yù)測(cè)器兩個(gè)核心組件:編碼器接收原始視頻并輸出嵌入,以捕捉觀察世界狀態(tài)的有用語(yǔ)義信息;預(yù)測(cè)器則接收視頻嵌入和關(guān)于預(yù)測(cè)內(nèi)容的額外上下文,輸出預(yù)測(cè)的嵌入。

V-JEPA 2的訓(xùn)練過(guò)程分為兩個(gè)階段。在第一個(gè)預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)使用了超過(guò)100萬(wàn)小時(shí)的視頻和100萬(wàn)張圖像。這些豐富的視覺數(shù)據(jù)助力模型學(xué)習(xí)了大量關(guān)于世界運(yùn)行的知識(shí),包括人們與物體的互動(dòng)方式、物體在環(huán)境中的運(yùn)動(dòng)規(guī)律,以及物體間的相互作用。僅在預(yù)訓(xùn)練階段后,模型就展現(xiàn)出了與理解和預(yù)測(cè)相關(guān)的關(guān)鍵能力。例如,在凍結(jié)編碼器和預(yù)測(cè)器特征的基礎(chǔ)上訓(xùn)練注意力讀出模型后,V-JEPA 2在Epic-Kitchens-100動(dòng)作預(yù)測(cè)任務(wù)中創(chuàng)造了新的最高紀(jì)錄。該任務(wù)要求根據(jù)以自我為中心的視頻預(yù)測(cè)未來(lái)1秒將執(zhí)行的動(dòng)作(由名詞和動(dòng)詞組成)。

在訓(xùn)練的第二階段,Meta專注于利用機(jī)器人數(shù)據(jù)提升模型的規(guī)劃能力。他們向預(yù)測(cè)器提供動(dòng)作信息,將這些數(shù)據(jù)整合到JEPA訓(xùn)練流程中。使用額外數(shù)據(jù)訓(xùn)練后,預(yù)測(cè)器學(xué)會(huì)了在預(yù)測(cè)時(shí)考慮具體動(dòng)作,并可用于控制。令人驚喜的是,這一階段并不需要大量機(jī)器人數(shù)據(jù)。Meta的技術(shù)報(bào)告顯示,僅使用62小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,就足以生成一個(gè)可用于規(guī)劃和控制的模型。

除了發(fā)布模型,Meta同時(shí)推出了三個(gè)全新基準(zhǔn)測(cè)試,為物理推理能力評(píng)估設(shè)立新標(biāo)準(zhǔn):

1、IntPhys 2:用于測(cè)試模型在復(fù)雜合成環(huán)境中的直觀物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種基于最小視頻對(duì)的、感知捷徑的物理理解視頻問(wèn)答基準(zhǔn)測(cè)試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面向視頻模型的物理基礎(chǔ)因果推理基準(zhǔn)測(cè)試(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

2

預(yù)測(cè)革命

通往AGI的岔路口

V-JEPA的發(fā)布遠(yuǎn)不止技術(shù)迭代,它代表著智能進(jìn)化的分水嶺:

由此可見:

Meta路線:以預(yù)測(cè)驅(qū)動(dòng)的自監(jiān)督世界模型為核心,通過(guò)物理常識(shí)理解實(shí)現(xiàn)類人推理

OpenAI/英偉達(dá)路線:依賴海量標(biāo)注數(shù)據(jù)的生成式模型,強(qiáng)調(diào)統(tǒng)計(jì)匹配而非因果建模

這一分歧觸及AI哲學(xué)的本源問(wèn)題:智能究竟是模式的復(fù)制,還是知識(shí)的創(chuàng)建?當(dāng)生成模型追求像素級(jí)的逼真復(fù)刻時(shí),預(yù)測(cè)模型已在建構(gòu)抽象層面的物理規(guī)律認(rèn)知。LeCun斷言:“五年內(nèi)將無(wú)人使用純LLM路線。”隨著多模態(tài)JEPA架構(gòu)擴(kuò)展和分層預(yù)測(cè)框架落地,從靜態(tài)數(shù)據(jù)擬合走向動(dòng)態(tài)世界理解的認(rèn)知革命已然啟動(dòng)。

AGI的終極形態(tài),正在從“回答已知”轉(zhuǎn)向“預(yù)測(cè)未知”,而這正是人類智能的本質(zhì)內(nèi)核。預(yù)測(cè)學(xué)習(xí)開啟的不僅是技術(shù)突破,更是對(duì)智能本身的重構(gòu)——機(jī)器終將在對(duì)世界的想象與推演中,走向真正的理解。

戰(zhàn)略布局,Meta的AI生態(tài)野心

此次發(fā)布恰逢Meta在AI領(lǐng)域的密集布局。昨日有消息曝出,Meta豪擲148億美元收購(gòu)Scale AI 49%股份,同時(shí)成立新AI實(shí)驗(yàn)室并招攬28歲華裔天才少年。

這一系列動(dòng)作明確指向構(gòu)建完整AI生態(tài)的戰(zhàn)略目標(biāo)。LeCun親自站臺(tái)講解技術(shù)愿景,頗有為Meta招兵買馬“打廣告”的意味。

Meta的開源策略也在此次發(fā)布中延續(xù)。從Llama系列大語(yǔ)言模型到如今的V-JEPA 2,Meta堅(jiān)持通過(guò)開源擴(kuò)大影響力,同時(shí)吸引全球開發(fā)者共建生態(tài)。

扎克伯格的超級(jí)智能助手愿景正通過(guò)這些技術(shù)逐步落地。在印度農(nóng)村的試驗(yàn)中,農(nóng)民已能通過(guò)智能眼鏡識(shí)別作物病害、查詢天氣并判斷收割時(shí)機(jī),使用本地語(yǔ)言與AI交互。

結(jié)語(yǔ):

關(guān)于世界模型,Meta后續(xù)將開展多方向的深度探索。

當(dāng)前,V-JEPA 2僅具備在單一時(shí)間尺度上進(jìn)行學(xué)習(xí)和預(yù)測(cè)的能力,然而在現(xiàn)實(shí)場(chǎng)景中,眾多任務(wù)都要求跨越多個(gè)時(shí)間尺度進(jìn)行規(guī)劃。Meta后續(xù)會(huì)把研究重點(diǎn)放在分層JEPA模型上,力求讓該模型能夠在不同的時(shí)間和空間尺度下開展學(xué)習(xí)、推理以及規(guī)劃工作。

另外,開發(fā)多模態(tài)JEPA模型也是Meta的一個(gè)重要研究方向。多模態(tài)JEPA模型不僅能借助視覺進(jìn)行預(yù)測(cè),還能整合聽覺、觸覺等多種感知能力,從而實(shí)現(xiàn)對(duì)世界更全面、深入的理解。

分享到

lixiangjing

算力豹主編

相關(guān)推薦