與ChatGPT自然語言處理模型不同,Cosmos WFM模型轉(zhuǎn)為基于物理交互的高質(zhì)量生成模擬工業(yè)、駕駛環(huán)境而建,它可以根據(jù)文本、圖像和視頻等輸入組合、根據(jù)機器人傳感器或運動數(shù)據(jù)生成符合物理學定律的視頻,如仿真工業(yè)環(huán)境(例如倉庫或工廠)和駕駛環(huán)境(包括各種路況)等。
據(jù)了解,如果要構(gòu)建一個物理 AI 模型,通常需要數(shù) PB(petabytes)視頻數(shù)據(jù),需要花費數(shù)萬小時計算來處理、整理和標記這些數(shù)據(jù)。Cosmos借助Tokenize r、NeMo和CUDA加速數(shù)據(jù)處理管線等一系列功能,降低物理 AI 模型的建設(shè)門檻。其中,先進的可視化 tokenizer,可將圖像和視頻轉(zhuǎn)換成 token。與當前領(lǐng)先的 tokenizer 相比,其總壓縮率提高了 8 倍,處理速度提高了 12 倍;而NeMo 框架用于高效模型訓練、定制和優(yōu)化;加速數(shù)據(jù)處理管線,使開發(fā)者能夠使用 NVIDIA Blackwell 平臺在 14 天內(nèi)處理、整理和標記 2000 萬小時的視頻。
在 CES 主題演講中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛展示了物理AI開發(fā)者如何使用 Cosmos模型,包括用于:
●視頻搜索和理解:使開發(fā)者能夠從視頻數(shù)據(jù)中輕松找到特定的訓練場景,例如雪天路況或倉庫擁堵等。
●基于物理學的逼真合成數(shù)據(jù)生成:使用 Cosmos 模型從NVIDIA Omniverse? 平臺上開發(fā)的可控 3D 場景中生成逼真視頻。
●物理 AI 模型開發(fā)和評估:在基礎(chǔ)模型上構(gòu)建自定義模型,使用 Cosmos 進行強化學習以改進模型,或者測試模型在特定仿真場景中的表現(xiàn)。
●預測與“多元宇宙”模擬:使用 Cosmos 和 Omniverse 生成 AI 模型所有未來可能實現(xiàn)的結(jié)果,以便幫助其選擇最佳和最準確的路徑。
目前Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領(lǐng)先機器人和汽車公司以及共享出行巨頭 Uber等。NVDIA將以開放模型許可證的方式提供Cosmos 模型,開發(fā)者可以在 NVIDIA API 目錄中預覽首批模型,也可以從 NVIDIA NGC 目錄或 Hugging Face 下載整個系列的模型和微調(diào)框架。