拉斯維加斯—CES—太平洋時間 2025 年 1 月6日—NVIDIA 今日宣布推出 NVIDIA Cosmos?,該平臺由先進的生成式世界基礎(chǔ)模型、高級 tokenizer、護欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機器人等物理 AI系統(tǒng)的發(fā)展。
物理 AI 模型的開發(fā)成本很高并且需要大量真實數(shù)據(jù)和測試。Cosmos 世界基礎(chǔ)模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評估其現(xiàn)有的模型。他們還可以通過微調(diào) Cosmos WFM 構(gòu)建自定義模型。
為了加速機器人和自動駕駛汽車行業(yè)的工作,Cosmos 模型將以開放模型許可證的方式提供。開發(fā)者可以在 NVIDIA API 目錄中預(yù)覽首批模型,也可以從 NVIDIA NGC? 目錄或 Hugging Face 下載整個系列的模型和微調(diào)框架。
Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領(lǐng)先機器人和汽車公司以及共享出行巨頭 Uber。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“機器人技術(shù)的 ChatGPT 時刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型是推動機器人和自動駕駛汽車開發(fā)的基礎(chǔ),但并非所有開發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識和資源。我們創(chuàng)建 Cosmos 是為了普及物理 AI,讓每一位開發(fā)者都能接觸到通用機器人技術(shù)?!?/p>
開放世界基礎(chǔ)模型將加速下一輪 AI 熱潮
借助 NVIDIA Cosmos 的開放模型套件,開發(fā)者可以根據(jù)目標應(yīng)用的需要,使用數(shù)據(jù)集定制自動駕駛汽車旅行視頻、機器人在倉庫中的移動軌跡等 WFM。
Cosmos WFM 專為物理 AI 的研發(fā)而構(gòu)建,可以根據(jù)文本、圖像和視頻等輸入組合以及機器人傳感器或運動數(shù)據(jù)生成基于物理學(xué)的視頻。這些模型為實現(xiàn)基于物理學(xué)的交互、物體恒存性以及生成高質(zhì)量的仿真工業(yè)環(huán)境(例如倉庫或工廠)和駕駛環(huán)境(包括各種路況)而構(gòu)建。
在 CES 主題演講中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛展示了物理AI開發(fā)者如何使用 Cosmos模型,包括用于:
l 視頻搜索和理解:使開發(fā)者能夠從視頻數(shù)據(jù)中輕松找到特定的訓(xùn)練場景,例如雪天路況或倉庫擁堵等。
l 基于物理學(xué)的逼真合成數(shù)據(jù)生成:使用 Cosmos 模型從NVIDIA Omniverse? 平臺上開發(fā)的可控 3D 場景中生成逼真視頻。
l 物理 AI 模型開發(fā)和評估:在基礎(chǔ)模型上構(gòu)建自定義模型,使用 Cosmos 進行強化學(xué)習(xí)以改進模型,或者測試模型在特定仿真場景中的表現(xiàn)。
l 預(yù)測與“多元宇宙”模擬:使用 Cosmos 和 Omniverse 生成 AI 模型所有未來可能實現(xiàn)的結(jié)果,以便幫助其選擇最佳和最準確的路徑。
先進的世界模型開發(fā)工具
構(gòu)建物理 AI 模型需要數(shù) PB(petabytes)的視頻數(shù)據(jù)以及數(shù)萬小時的計算來處理、整理和標記這些數(shù)據(jù)。為了幫助節(jié)省在數(shù)據(jù)整理、訓(xùn)練和模型定制方面的巨大成本,Cosmos 提供了以下功能:
l NVIDIA NeMo? Curator 驅(qū)動的 NVIDIA AI 和 CUDA? 加速數(shù)據(jù)處理管線,使開發(fā)者能夠使用 NVIDIA Blackwell 平臺在 14 天內(nèi)處理、整理和標記 2000 萬小時的視頻,而如果單純使用 CPU 則需要 3 年以上。
l NVIDIA Cosmos Tokenizer 是先進的可視化 tokenizer,可將圖像和視頻轉(zhuǎn)換成 token。與當前領(lǐng)先的 tokenizer 相比,其總壓縮率提高了 8 倍,處理速度提高了 12 倍。
l NVIDIA NeMo 框架可用于高效的模型訓(xùn)練、定制和優(yōu)化。
全球各大物理 AI 行業(yè)紛紛采用 Cosmos
物理 AI 行業(yè)的領(lǐng)先者已開始使用 Cosmos 技術(shù)。
AI 和人形機器人公司 1X 使用 Cosmos Tokenizer 推出了 1X World Model Challenge 數(shù)據(jù)集。小鵬汽車將使用 Cosmos 加快其人形機器人的開發(fā)。Hillbot 和 Skild AI 正在使用 Cosmos 加速其通用機器人的開發(fā)。
Agility 首席技術(shù)官 Pras Velagapudi 表示:“數(shù)據(jù)的稀缺性和可變性是在機器人環(huán)境中成功學(xué)習(xí)的主要挑戰(zhàn)。借助 Cosmos 的文本、圖像和視頻到世界的能力,我們能夠在各種任務(wù)中生成和增強逼真的場景并利用這些場景訓(xùn)練模型,而不需要采集那么多昂貴的真實數(shù)據(jù)?!?/p>
交通運輸領(lǐng)域的領(lǐng)先企業(yè)也在使用 Cosmos 構(gòu)建適用于自動駕駛汽車的物理AI:
l Waabi 是一家從自動駕駛汽車開始致力于開發(fā)物理世界生成式 AI 的先驅(qū)。該公司正在評估 Cosmos 在自動駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應(yīng)用。
l Wayve 是一家致力于開發(fā)自動駕駛 AI 基礎(chǔ)模型的公司。該公司正在評估使用 Cosmos 搜索用于提高安全性和驗證的極端駕駛場景。
l 自動駕駛汽車工具鏈提供商 Foretellix 將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API 大規(guī)模評估和生成高保真測試場景與訓(xùn)練數(shù)據(jù)。
l 全球共享出行巨頭 Uber 正在與 NVIDIA 合作,共同加速自動駕駛汽車的發(fā)展。Uber 豐富的駕駛數(shù)據(jù)集在與 Cosmos 平臺和 NVIDIA DGX Cloud? 的功能結(jié)合后,能夠幫助自動駕駛汽車合作伙伴更加高效地構(gòu)建更強大的 AI 模型。
Uber 首席執(zhí)行官 Dara Khosrowshahi 表示:“生成式 AI 將驅(qū)動未來的移動出行,而這需要豐富的數(shù)據(jù)和非常強大的算力。相信在 NVIDIA 的助力下,我們能夠幫助行業(yè)更快開發(fā)出安全、可擴展的自動駕駛解決方案?!?/p>
開發(fā)開放、安全和負責(zé)任的 AI
NVIDIA Cosmos 根據(jù) NVIDIA 的可信 AI 原則開發(fā)而成,該原則將優(yōu)先考慮隱私、安全、保障、透明和減少不必要的偏見。
可信 AI 對于促進開發(fā)者社區(qū)創(chuàng)新和維護用戶信任至關(guān)重要。NVIDIA 致力于實現(xiàn)安全、可信的 AI,這與全球的各個 AI 安全倡議相吻合。
Cosmos 開放平臺加入了專為減少有害文字和圖像而設(shè)計的護欄,并提供了一個增強文字提示準確性的工具。使用 NVIDIA API 目錄上的 Cosmos 自回歸模型和擴散模型生成的視頻會帶有隱形水印,可識別 AI 生成的內(nèi)容,這有助于減少錯誤信息和錯誤歸屬的可能性。
NVIDIA 鼓勵開發(fā)者采用可信 AI 實踐,并進一步改進其應(yīng)用的護欄和水印解決方案。
供貨情況
Cosmos WFM 現(xiàn)在可以通過 NVIDIA在 Hugging Face 和 NVIDIA NGC 目錄上的開放模型許可證獲得,并且很快將以經(jīng)過全面優(yōu)化的 NVIDIA NIM 微服務(wù)形式提供。
開發(fā)者可以使用 NVIDIA NeMo Curator 加速視頻處理,并使用 NVIDIA NeMo 定制自己的世界模型。然后,他們可以通過 NVIDIA DGX Cloud 快速、簡單地部署這些模型,并獲得 NVIDIA AI Enterprise 軟件平臺提供的企業(yè)支持。
NVIDIA 還宣布推出全新 NVIDIA Llama Nemotron 大語言模型和 NVIDIA Cosmos Nemotron 視覺語言模型。開發(fā)者可將這些模型用于醫(yī)療、金融服務(wù)、制造等領(lǐng)域的企業(yè) AI 用例。
關(guān)于NVIDIA
NVIDIA (NASDAQ: NVDA) 是加速計算領(lǐng)域的全球領(lǐng)導(dǎo)者。