現(xiàn)在反方來了,Hammerspace營銷高級(jí)副總裁Molly Presley還有AI和HPC領(lǐng)域數(shù)據(jù)基礎(chǔ)設(shè)施提供商VDURA的首席執(zhí)行官Ken Claffey都反對(duì)。VDURA為超級(jí)計(jì)算、機(jī)構(gòu)和企業(yè)高性能計(jì)算(HPC)提供并行文件系統(tǒng)。Ken Claffey認(rèn)為,將AI訓(xùn)練和推理市場(chǎng)中的文件與對(duì)象數(shù)據(jù)訪問問題視為非此即彼是錯(cuò)誤的。

并且在Blocks & Files采訪中,Ken Claffey討論了這一話題。

1、是什么讓你開始思考這個(gè)問題的?

Ken Claffey: VAST Data的Jeff Denworth最近提出”沒有人需要文件系統(tǒng)用于AI訓(xùn)練”的觀點(diǎn),S3基礎(chǔ)的對(duì)象存儲(chǔ)才是未來。雖然AI工作負(fù)載確實(shí)在不斷發(fā)展,但斷言文件系統(tǒng)已過時(shí)的說法最多只能說是誤導(dǎo)性的。

2、你認(rèn)為AI存儲(chǔ)的實(shí)際需求是什么,并行文件系統(tǒng)在大規(guī)模高性能AI訓(xùn)練中的作用是什么?

Ken Claffey:在VDURA,我們并不認(rèn)為AI存儲(chǔ)是一個(gè)在文件和對(duì)象之間二選一的問題。我們的架構(gòu)以高性能對(duì)象存儲(chǔ)為核心,前端是一個(gè)完全并行的文件系統(tǒng)。這意味著用戶可以兼得兩者的優(yōu)點(diǎn):對(duì)象存儲(chǔ)的可擴(kuò)展性和持久性,以及AI訓(xùn)練所需的高性能訪問。

隨著最新v11版本的發(fā)布,我們進(jìn)一步通過整合高性能分布式鍵值存儲(chǔ)來增強(qiáng)平臺(tái)。這一新增功能優(yōu)化了元數(shù)據(jù)操作,實(shí)現(xiàn)了超快速索引,進(jìn)一步增強(qiáng)了AI和HPC工作負(fù)載的性能。

此外,VDURA提供了一個(gè)高性能S3接口,允許通過文件和對(duì)象協(xié)議無縫訪問相同的文件和數(shù)據(jù)。這確保了企業(yè)在擴(kuò)展AI基礎(chǔ)設(shè)施時(shí)的最大靈活性和投資保護(hù)。

3、對(duì)象存儲(chǔ)在這里的作用。

Ken Claffey: 微軟Azure的Glenn Lockwood最近指出,大規(guī)模AI語言模型越來越多地使用對(duì)象存儲(chǔ)進(jìn)行訓(xùn)練,而非文件存儲(chǔ)。他的觀點(diǎn)與日益向基于對(duì)象的架構(gòu)轉(zhuǎn)變的趨勢(shì)相一致,但在得出結(jié)論之前,重要的是要審視AI模型訓(xùn)練工作流程的細(xì)節(jié)。

Lockwood概述了AI模型訓(xùn)練的四個(gè)主要階段:數(shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署與推理。雖然Lockwood斷言并行文件系統(tǒng)對(duì)于這些工作負(fù)載并非必需,但他的論點(diǎn)主要圍繞成本效益而非原始性能。對(duì)象存儲(chǔ)因其規(guī)模和成本效益,非常適合用于數(shù)據(jù)攝取和準(zhǔn)備。然而,對(duì)于模型訓(xùn)練和實(shí)時(shí)推理,像VDURA這樣的混合方法提供了最佳的解決方案。

4、如何看待英偉達(dá)在這個(gè)問題上的觀點(diǎn)?

Ken Claffey: 隨著英偉達(dá)發(fā)布新一代GPU和DGX平臺(tái),他們繼續(xù)強(qiáng)調(diào)高性能存儲(chǔ)需求。根據(jù)英偉達(dá)自己的DGX指導(dǎo)方針,領(lǐng)先的AI平臺(tái)推薦的存儲(chǔ)配置是:“高性能、彈性、POSIX風(fēng)格的文件系統(tǒng),針對(duì)多節(jié)點(diǎn)上的多線程讀寫操作進(jìn)行了優(yōu)化。”而且英偉達(dá)從未指出AI訓(xùn)練應(yīng)完全依賴對(duì)象存儲(chǔ)。事實(shí)上,他們自己的高性能AI架構(gòu)是圍繞為分布式節(jié)點(diǎn)設(shè)計(jì)的文件系統(tǒng)構(gòu)建的,這些文件系統(tǒng)適用于多線程、高吞吐量訪問。

5、檢查點(diǎn)是否鼓勵(lì)使用對(duì)象存儲(chǔ)?

Ken Claffey:Denworth引用英偉達(dá)的“S3檢查點(diǎn)”作為AI訓(xùn)練轉(zhuǎn)向?qū)ο蟠鎯?chǔ)的證據(jù)。然而,他故意忽略了英偉達(dá)的一個(gè)關(guān)鍵細(xì)節(jié)。即異步特性目前不會(huì)檢查之前的異步保存是否完成,因此即使當(dāng)前保存失敗,也可能會(huì)刪除舊的檢查點(diǎn)?!?/p>

這在實(shí)踐中意味著什么?使用異步檢查點(diǎn)可能會(huì)導(dǎo)致恢復(fù)點(diǎn)更早。大大降低了檢查點(diǎn)的可靠性,增加了丟失訓(xùn)練進(jìn)度的風(fēng)險(xiǎn)。并行文件系統(tǒng)經(jīng)過數(shù)十年的優(yōu)化,用于同步、一致的檢查點(diǎn),其價(jià)值不容小覷。

6、如何優(yōu)化VDURA存儲(chǔ)?

Ken Claffey:VDURA構(gòu)建了一個(gè)整合了以下內(nèi)容的解決方案:高性能對(duì)象存儲(chǔ)用于高效處理大規(guī)模數(shù)據(jù)攝取和歸檔;完全并行的文件系統(tǒng)前端,用于優(yōu)化AI模型訓(xùn)練的低延遲、高帶寬訪問;分布式鍵值存儲(chǔ),用于加速元數(shù)據(jù)查找、向量索引和推理;高性能S3接口,確保AI工作流程中的多協(xié)議訪問。這種架構(gòu)既解決了Lockwood的擔(dān)憂,又滿足了對(duì)性能和可擴(kuò)展性要求最高的企業(yè)的需求。雖然對(duì)象存儲(chǔ)發(fā)揮了關(guān)鍵作用,但完全否定并行文件系統(tǒng)忽略了大規(guī)模AI訓(xùn)練的實(shí)際需求。

7、如何看待AI存儲(chǔ)的未來?

Ken Claffey: Denworth和Lockwood都為對(duì)象存儲(chǔ)提出了有力的論點(diǎn),但他們淡化了AI訓(xùn)練中性能關(guān)鍵的方面。AI存儲(chǔ)的未來是混合的:

并行文件系統(tǒng)為訓(xùn)練提供了必要的速度和效率。

對(duì)象存儲(chǔ)對(duì)于存檔、共享和檢索工作負(fù)載很有用。

多協(xié)議解決方案彌合了差距,但這并不意味著文件系統(tǒng)已經(jīng)過時(shí)——遠(yuǎn)非如此。

高性能分布式鍵值存儲(chǔ)增強(qiáng)了元數(shù)據(jù)管理和索引,進(jìn)一步優(yōu)化了人工智能工作流程。

VDURA的方法認(rèn)識(shí)到這一現(xiàn)實(shí):以高性能對(duì)象存儲(chǔ)為核心,全并行文件系統(tǒng)前端,集成鍵值存儲(chǔ),以及高性能S3接口——所有這些協(xié)同工作,為人工智能和高性能計(jì)算工作負(fù)載提供無與倫比的效率。與WEKA聲稱僅對(duì)象存儲(chǔ)就是未來這個(gè)觀點(diǎn)不同,我們認(rèn)識(shí)到大規(guī)模人工智能訓(xùn)練需要所有存儲(chǔ)范式的最佳組合。

大規(guī)模部署人工智能的企業(yè)需要一個(gè)真正滿足性能要求的存儲(chǔ)基礎(chǔ)設(shè)施,而不僅僅是理論上的靈活性。雖然對(duì)象存儲(chǔ)發(fā)揮著作用,但并行文件系統(tǒng)仍然是高性能人工智能基礎(chǔ)設(shè)施的支柱,提供當(dāng)今人工智能工作負(fù)載所需的速度、一致性和規(guī)模。

行業(yè)并沒有遠(yuǎn)離文件系統(tǒng) —— 它正在發(fā)展以采用最佳的技術(shù)組合。問題不是 “文件還是對(duì)象”,而是 “我們?nèi)绾巫詈玫貎?yōu)化存儲(chǔ)?”

分享到

崔歡歡

相關(guān)推薦