AI給存儲帶來的挑戰(zhàn)

首先是AI帶來的數(shù)據(jù)規(guī)模挑戰(zhàn)。生成式AI模型的參數(shù)規(guī)模通常非常龐大,為了提高模型的實際表現(xiàn),經(jīng)常需要需要準(zhǔn)備大量訓(xùn)練數(shù)據(jù)。因此,存儲系統(tǒng)要處理的數(shù)據(jù)量會越來越多,需要存儲系統(tǒng)有足夠的擴展性。

與此同時,如今高性能GPU不僅價格昂貴而且供應(yīng)有限,如果不能將大量數(shù)據(jù)及時快速地傳輸給GPU,則會浪費寶貴的GPU資源,這對存儲性能有了更高要求。當(dāng)有了高性能的存儲后,訓(xùn)練期間創(chuàng)建Ckeckpoint和從Ckeckpoint的速度也會大幅提高,也很有價值。

此外,AI還帶來的功耗和空間管理挑戰(zhàn)。來自Meta和斯坦福大學(xué)的研究表明,存儲組件可能占服務(wù)器總能耗的35%,而高密度存儲解決方案不僅能減少所需的服務(wù)器數(shù)量和機架空間,同時,還能直接減少了維持設(shè)備運行所需的能源以及散熱供電。

AI在邊緣場景中落地的挑戰(zhàn)。在去中心化的趨勢下,如果全把數(shù)據(jù)傳回數(shù)據(jù)中心處理則會帶來很高的成本,所以,數(shù)據(jù)的處理需要在更靠近數(shù)據(jù)源的復(fù)雜環(huán)境中進行,需要用盡可能少的空間和電力資源進行處理。

理論上來講,閃存因為有非常高的性能表現(xiàn),更少的空間占用,較高的存儲密度和較低的功耗需求,在應(yīng)對上述挑戰(zhàn)中有不小優(yōu)勢。

在Solidigm看來,對于人工智能全流程場景,從數(shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、Checkpoint創(chuàng)建和恢復(fù),以及推理場景,SSD相較于傳統(tǒng)的磁盤存儲都有明顯優(yōu)勢,充分可以證明SSD對于AI的重要性。

Solidigm可以幫助企業(yè)構(gòu)建具有大型數(shù)據(jù)集的AI存儲解決方案

過去幾年以來,Solidigm繼承自英特爾以來在企業(yè)級市場的積累,在市場上打造具有密度優(yōu)勢的SSD產(chǎn)品。作為最早在市場上力推QLC SSD的廠商,Solidigm在去年發(fā)布了61.44TB超大容量的SSD——D5-P5336,將業(yè)內(nèi)存儲密度提高到了新的水平。

Solidigm并非一味讓客戶接受QLC SSD,而是積極用CSAL讓QLC發(fā)揮容量、密度和成本優(yōu)勢,配合高性能的SLC SSD作為寫入緩沖區(qū),將寫入負載轉(zhuǎn)換為對QLC更友好的順序?qū)懭?,減少寫放大的同時,也優(yōu)化了存儲性能,最后提供高密度、高容量和高性能的存儲。

值得注意的是,CSAL(云存儲加速層)是Solidigm與Intel等合作伙伴聯(lián)合開發(fā)的。最早是收費的產(chǎn)品方案,現(xiàn)在是開源的免費方案。據(jù)倪錦峰介紹,CSAL目前已經(jīng)被成百上千家客戶所使用,甚至一些第三方SSD廠商也在使用這一方案。

如今,CSAL在AI場景也派上了用場。

Solidigm D7-5810是去年新發(fā)布的SLC固態(tài)盤,Solidigm D5-P5336是剛才提到的基于QLC的最高61.44TB的固態(tài)盤,兩者搭配構(gòu)建的CSAL方案在順序?qū)懞碗S機讀上的性能非常有優(yōu)勢,可以最大化XPU的利用率。

當(dāng)然,用戶也可以選擇性能和成本比較平衡的方案,選擇采用TLC介質(zhì)的D7-P5520或者D5-P5430,雖然在提高XPU利用率方面不如此前的方案,但在p99隨機讀延遲上的表現(xiàn)有明顯提升。

如果用戶最在意的是成本,則可以索性選擇單盤最大容量高達61.44TB的D5-P5336,5年TCO成本表現(xiàn)最佳,但在提高XPU利用率方面的表現(xiàn)會比較差。

Solidigm在企業(yè)級SSD市場有非常完備的布局,既有強調(diào)性能和耐久性的SLC固態(tài)盤,也有強調(diào)大容量高密度優(yōu)勢的QLC固態(tài)盤,也有中間態(tài)的TLC,這使得用戶可以根據(jù)需求靈活選擇,構(gòu)建適合大型數(shù)據(jù)集AI的存儲解決方案。

AI正在推動QLC閃存存儲普及

倪錦峰注意到,QLC在AI場景中的應(yīng)用越來越多。過去幾年中,倪錦峰的團隊一直在打造用SSD替代磁盤的方案,但一直進展緩慢。這倒不是因為擔(dān)心QLC耐久性的問題,因為QLC固態(tài)盤的大容量可以彌補擦寫次數(shù)上的不足?,F(xiàn)在隨著AI技術(shù)浪潮的到來,QLC的方案備受青睞,很多用戶都在積極采用大容量QLC SSD,特別是在北美市場上。

相比之下,國內(nèi)用戶目前主要的關(guān)注點還在于GPU上。一方面是因為一些人還沒意識到SSD的重要性。另一方面,因為實際的軟件和硬件環(huán)境缺少對于大容量SSD的支持,使得國內(nèi)整體對于大容量存儲方案的采用相對落后。

之所以北美市場先知先覺地采用大容量QLC SSD,說到底還是應(yīng)用需求在推動的。隨著如今GPU性能越來越高,單臺服務(wù)器的功耗上限迅速攀升,為了減少功耗壓力,很多用戶都會積極嘗試功耗更低的閃存方案。倪錦峰預(yù)計,中國用戶在未來一段時間也會逐漸意識到這一點。

從2023年年底到2024年年初,SSD漲價的趨勢已經(jīng)越發(fā)明顯。業(yè)內(nèi)專家表示,結(jié)合當(dāng)前公開信息可以預(yù)測,在未來幾個季度,SSD還會繼續(xù)漲價,未來甚至?xí)媾R供應(yīng)不足的情況。隨著越來越多用戶意識到SSD在AI場景中的作用,這一情況可能更甚。

在國內(nèi)市場,Solidigm也接觸到了一些因為AI場景而升級閃存存儲的案例,比如金山云用SSD加速金山云對象存儲的案例。

金山辦公在WPS辦公軟件中加入了一些AI功能,為了提高響應(yīng)速度,金山云對對象存儲進行了升級。在Solidigm的幫助下,金山云對象存儲從原本的硬盤加Cache的方案升級為純QLC SSD的配置,升級后,將加載40TB原始數(shù)據(jù)集的時間從535分鐘(約9小時)縮短到了11分鐘。

隨著AI應(yīng)用越來越多,企業(yè)會面臨數(shù)據(jù)存儲方面的挑戰(zhàn),而這些挑戰(zhàn)大多都可以選擇用閃存方案來應(yīng)對,也講推動QLC閃存的普及。

分享到

zhupb

相關(guān)推薦