這讓我們開始思考AI訓(xùn)練中文件系統(tǒng)的必要性以及VAST的發(fā)展方向,因此我們向丹沃斯提出了一些問題。
Blocks & Files:為什么像DDN這樣的文件系統(tǒng)供應(yīng)商被Nvidia用于其自身的存儲(chǔ),獲得了SuperPOD認(rèn)證,以及被X用于其Colossus AI集群,還有許多其他客戶用于AI應(yīng)用?同樣的觀點(diǎn)也適用于NetApp、Pure和WEKA。顯然,許多客戶,包括Nvidia,都在使用文件系統(tǒng)(無論是平行的還是非平行的)進(jìn)行AI訓(xùn)練。這是為什么?
杰夫·丹沃斯(Jeff Denworth):這不是非黑即白的問題,而是逐步演進(jìn)的。歷史上,所有AI訓(xùn)練框架都需要POSIX/文件接口。只有開發(fā)自己框架的公司才會(huì)考慮使用對(duì)象存儲(chǔ),而這種情況僅限于頂尖的公司。
格倫·洛克伍德(Glenn Lockwood)在這里闡述了一個(gè)例子。
許多客戶仍在使用文件系統(tǒng)……我的觀點(diǎn)并不是它們沒有被使用,而是如今你需要多協(xié)議支持,否則僅靠文件系統(tǒng)的解決方案會(huì)導(dǎo)致非常糟糕的投資保護(hù)。框架的演變速度比客戶的投資決策更快??蛻衄F(xiàn)在開始進(jìn)行轉(zhuǎn)變,我們經(jīng)常聽到他們表示,他們喜歡能夠在同一數(shù)據(jù)上同時(shí)以兩種模式工作。
別忘了,Nvidia還收購(gòu)了一家對(duì)象存儲(chǔ)公司(SwiftStack)。這說明了很多問題。
Blocks & Files:是否有大型語(yǔ)言模型(LLM)僅使用直接來自對(duì)象存儲(chǔ)系統(tǒng)的數(shù)據(jù)進(jìn)行訓(xùn)練?這種能力肯定只是最近才隨著Cloudian、MinIO、Nvidia和Scality等公司在對(duì)象數(shù)據(jù)存儲(chǔ)方面的GPUDirect類訪問設(shè)施的進(jìn)步而出現(xiàn)的?
杰夫·丹沃斯(Jeff Denworth):是的。在我所知的全球排名前十的模型中:
Blocks & Files:VAST構(gòu)建了一個(gè)專注于AI的軟件棧,即VAST數(shù)據(jù)平臺(tái),包括基礎(chǔ)數(shù)據(jù)存儲(chǔ)、其數(shù)據(jù)目錄(DataCatalog)、數(shù)據(jù)庫(kù)(DataBase)、數(shù)據(jù)空間(DataSpace)和數(shù)據(jù)引擎(DataEngine),以實(shí)現(xiàn)其“思考機(jī)器”愿景,我們認(rèn)為這些是必要的軟件層。然而,OpenAI的ChatGPT和其他生成式AI模型開發(fā)者已經(jīng)證明,你可以擁有智能聊天機(jī)器人而無需這些軟件。給他們一個(gè)向量數(shù)據(jù)庫(kù)和文件系統(tǒng),他們就可以完成任務(wù)??纯碊DN、IBM、NetApp、Pure和WEKA,它們都獲得了Nvidia SuperPOD認(rèn)證。
杰夫·丹沃斯(Jeff Denworth):總是有可能集成一個(gè)解決方案;這并不意味著它是實(shí)用的或高效的。
VAST……打破了規(guī)模、事務(wù)性、安全性等方面的權(quán)衡,以提供(在我看來)AI檢索的最佳可能方法。大多數(shù)組織處理GB級(jí)數(shù)據(jù)集,認(rèn)為他們有一個(gè)好的解決方案。我們?cè)O(shè)想的是一個(gè)世界,AI嵌入模型可以理解所有數(shù)據(jù)的時(shí)效性和相關(guān)性,因?yàn)閿?shù)據(jù)正在被分塊和向量化……所有數(shù)據(jù)都將被向量化,數(shù)萬億個(gè)向量需要在恒定時(shí)間內(nèi)可搜索,無論向量空間的大小……只有我們的架構(gòu)才能做到這一點(diǎn)。
一個(gè)能夠管理每秒數(shù)十萬到數(shù)百萬個(gè)文件的攝取、實(shí)時(shí)處理和索引的系統(tǒng)……以及立即將所有數(shù)據(jù)更新傳播到索引,以便企業(yè)永遠(yuǎn)不會(huì)看到過時(shí)的數(shù)據(jù)。一個(gè)不需要昂貴的基于內(nèi)存的索引的系統(tǒng),因?yàn)閭鹘y(tǒng)的分區(qū)方法是低效的。你需要DASE(分離式存儲(chǔ)架構(gòu))來實(shí)現(xiàn)所有這些。
最后……底層數(shù)據(jù)源需要是可擴(kuò)展的且企業(yè)級(jí)的……我不確定你還能從哪里得到這些,除了VAST。
Blocks & Files:ChatGPT風(fēng)格的技術(shù)是否否定了VAST軟件棧的需求?
杰夫·丹沃斯(Jeff Denworth):恰恰相反。代理應(yīng)用的興起,組織在GPU時(shí)間內(nèi)的計(jì)算增加了對(duì)我們技術(shù)的需求。在你考慮這個(gè)問題時(shí),我建議你停止將AI和RAG(檢索增強(qiáng)生成)僅僅視為聊天機(jī)器人……未來商業(yè)的速度將不是由人類處理數(shù)據(jù)的速度決定的。Nvidia計(jì)劃在未來幾年內(nèi)部署1億個(gè)代理來增強(qiáng)其5萬名員工的工作——所有這些代理將共同處理復(fù)雜的商業(yè)任務(wù)。你不認(rèn)為這將推動(dòng)傳統(tǒng)存儲(chǔ)和數(shù)據(jù)庫(kù)系統(tǒng)的邊界嗎?
我認(rèn)為我看到的未來與你看到的非常不同。一切都將關(guān)乎規(guī)模、GPU時(shí)間和處理前所未有的數(shù)據(jù)量以思考難題的能力。你看到我的博客了嗎?
星際之門(Stargate)的宣布將是眾多公告中的第一個(gè)。Dario Amodei在Anthropic也宣布了計(jì)算能力需要擴(kuò)大100倍。這不僅僅是用于訓(xùn)練。系統(tǒng)二/長(zhǎng)期思考將改變世界與數(shù)據(jù)的關(guān)系,并促使對(duì)更大數(shù)據(jù)量的需求。
Blocks & Files:VAST從零開始開發(fā)原始存儲(chǔ)技術(shù),然后是類似思考機(jī)器的軟件棧。這個(gè)技術(shù)創(chuàng)意時(shí)期現(xiàn)在是否已經(jīng)結(jié)束,從現(xiàn)在開始只有漸進(jìn)的技術(shù)進(jìn)步和業(yè)務(wù)流程的發(fā)展?未來的愿景是什么?
杰夫·丹沃斯(Jeff Denworth):我可以自信地說,我們擁有業(yè)務(wù)中最富有創(chuàng)造力和最雄心勃勃的團(tuán)隊(duì)。每一次客戶互動(dòng)都為我們提供了未來十年的更多靈感……我們很幸運(yùn)能夠與世界上最聰明的客戶合作。假設(shè)我們已經(jīng)變得自滿、安逸和滿足,這將是一個(gè)危險(xiǎn)的假設(shè)。
我不打算通過電子郵件來闡述我們的愿景,因?yàn)槲也徽J(rèn)為這對(duì)我們雙方都有任何好處,但也許下次我們見面時(shí)可以更多地談?wù)勎磥怼?/p>
Blocks & Files:你的陣列可以在C節(jié)點(diǎn)上運(yùn)行應(yīng)用程序軟件,提供計(jì)算存儲(chǔ)。這是否類似于將陣列變成該應(yīng)用程序的服務(wù)器直接附加存儲(chǔ)(DAS),從而否定了共享存儲(chǔ)資源的基本目的?
杰夫·丹沃斯(Jeff Denworth):跨機(jī)器共享數(shù)據(jù)訪問是我們所做的事情的核心。現(xiàn)代機(jī)器需要實(shí)時(shí)訪問PB到EB級(jí)數(shù)據(jù),以獲得全局?jǐn)?shù)據(jù)理解。你不能將這些數(shù)據(jù)固定在任何一臺(tái)主機(jī)上。這些功能在哪里以及如何運(yùn)行只是一個(gè)打包練習(xí)……我們喜歡效率,所以我們可以盡可能地整合……但DAS與我們的思維方式完全相反。分離式存儲(chǔ)不僅可能,我們已經(jīng)向世界證明,這是一種非常實(shí)用的方法,可以達(dá)到極端水平的數(shù)據(jù)訪問和數(shù)據(jù)處理并行性。
Blocks & Files:你如何確定計(jì)算存儲(chǔ)陣列中的計(jì)算資源大???
杰夫·丹沃斯(Jeff Denworth):我們每天都在學(xué)習(xí)更多關(guān)于如何確定大小的知識(shí)。比如I/O負(fù)載、查詢負(fù)載、功能速度、事件通知活動(dòng)、QoS管理、RAS(可靠性、可用性和可維護(hù)性)等等。