“AI 訓(xùn)練根本不需要文件系統(tǒng)……更具體地說,沒有人需要一個僅僅是文件系統(tǒng)的系統(tǒng)。當(dāng) HPC 存儲行業(yè)向世界宣稱并行文件系統(tǒng)對 AI 至關(guān)重要時,客戶實際上已經(jīng)開始在訓(xùn)練環(huán)境中部署 S3 檢查點和 S3 數(shù)據(jù)加載器(這些也可以異步工作)?!?/p>
隨后,Blocks & Files的Chris Mellor撰文,分享了向 Denworth 提出的一些問題。
Blocks & Files:請問為什么英偉達、 X.ai都在用DDN的文件存儲?在 AI 訓(xùn)練中使用文件系統(tǒng)?
Jeff Denworth:這不是“非此即彼”的問題,而是一個進化的過程。過去,所有 AI 訓(xùn)練框架都需要 POSIX/文件接口。只有那些開發(fā)自己框架的公司才會考慮使用對象存儲,而這些公司都是行業(yè)頂尖的佼佼者。
并不是說文件系統(tǒng)已經(jīng)被淘汰,而是說如今需要多協(xié)議支持,否則單一文件系統(tǒng)將導(dǎo)致極差的投資回報??蚣艿难葸M速度比客戶的投資決策更快。如今,客戶正在開始過渡,我們經(jīng)常聽到他們表示很喜歡在同一數(shù)據(jù)上同時支持多種訪問模式的能力。
別忘了,英偉達也收購了一家對象存儲公司(SwiftStack),這已經(jīng)說明了很多問題。
Blocks & Files:有沒有大模型完全基于對象存儲系統(tǒng)中的數(shù)據(jù)進行訓(xùn)練?
Jeff Denworth:是的。據(jù)我所知,VAST S3 被 CoreWeave 獨家用于訓(xùn)練一個非常重要的模型,此外我們還有一些頂級客戶正在進行實驗。Azure Blob 也被用于訓(xùn)練某個重要模型。英偉達正在使用 S3 兼容存儲來訓(xùn)練一個重要模型。
Blocks & Files:VAST 構(gòu)建了一個專注于 AI 的軟件?!猇AST Data Platform,但 OpenAI和其他生成式 AI公司已經(jīng)證明,你只需要一個向量數(shù)據(jù)庫和文件系統(tǒng),就可以構(gòu)建出智能聊天機器人。這是否意味著 VAST 的軟件棧是多余的?
Jeff Denworth:集成一個解決方案是可行的,但這并不意味著它是“實際可行或高效的”。
VAST 通過打破傳統(tǒng)存儲的權(quán)衡,提供了最佳的 AI 數(shù)據(jù)檢索方式。大多數(shù)企業(yè)處理的只是GB 級數(shù)據(jù),而我們設(shè)想的是AI 嵌入式模型能夠?qū)崟r理解所有數(shù)據(jù)的時間性和相關(guān)性,數(shù)據(jù)被分塊并向量化,達到萬億級向量規(guī)模,且無論向量空間大小,搜索時間始終保持恒定——這只有我們的架構(gòu)能做到。
一個每秒可處理數(shù)十萬到百萬級文件,并實時索引數(shù)據(jù)的系統(tǒng),所有數(shù)據(jù)更新即時傳播到索引,確保企業(yè)永遠不會看到陳舊數(shù)據(jù)。而且,該系統(tǒng)不需要昂貴的基于內(nèi)存的索引,要實現(xiàn)這一切,你需要DASE(解耦存儲架構(gòu),Disaggregated Storage Architecture)。
最后,底層數(shù)據(jù)源必須既可擴展,又符合企業(yè)級需求。目前除了 VAST,我不確定還有其他選擇。
Blocks & Files:ChatGPT 這樣的技術(shù)是否讓 VAST 的軟件棧變得不再必要?
Jeff Denworth:完全相反!“智能體應(yīng)用”的崛起——即企業(yè)將計算放入 GPU 運行時間中——進一步增加了對我們技術(shù)的需求。我希望你們在思考這個問題時,不要只把 AI 和 RAG(檢索增強生成)看作是聊天機器人。
未來的商業(yè)速度不會取決于人類處理數(shù)據(jù)的速度。英偉達計劃在未來幾年內(nèi)部署 1 億個 AI 代理,來增強 5 萬名員工的能力,這些代理將共同協(xié)作,處理復(fù)雜的業(yè)務(wù)任務(wù)。你不認為這會突破傳統(tǒng)存儲和數(shù)據(jù)庫系統(tǒng)的極限嗎?
我看到的未來與你所看到的可能完全不同。一切都會圍繞規(guī)模、GPU 計算時間,以及處理前所未有數(shù)據(jù)量的能力展開。Anthropic 的 Dario Amodei 也曾表示,未來計算需求將擴大100 倍。
Blocks & Files:VAST 近年來一直處于高度創(chuàng)新期,從零開始開發(fā)存儲技術(shù),并構(gòu)建了類似“思考機器”的軟件棧。這一創(chuàng)新期是否已經(jīng)結(jié)束,未來是否只剩下漸進式的技術(shù)改進和業(yè)務(wù)流程優(yōu)化?
Jeff Denworth:我可以自信地說,我們擁有業(yè)內(nèi)最具創(chuàng)造力、最具雄心的團隊。每一次客戶交流都會給我們帶來未來 10 年的新靈感……而且,我們很幸運,能與全球最聰明的客戶合作。
如果有人認為我們已經(jīng)滿足現(xiàn)狀、失去進取心,那將是一個危險的假設(shè)。我不會在郵件中詳述我們的愿景,因為這對我們雙方都沒有幫助。但下次見面時,我們可以聊更多關(guān)于未來的事情。