將容量從61TB提升到了122TB并不是簡單的疊加。Solidigm亞太區(qū)銷售副總裁倪錦峰表示,這一容量需要將一整張晶圓上的所有存儲芯片封裝進一塊SSD,對SSD架構設計、芯片制造、封裝測試以及可靠性驗證都提出了更高要求。

SSD廠商生產(chǎn)這么大容量的硬盤,任何環(huán)節(jié)的疏漏就可能影響幾周的產(chǎn)能,造成巨大損失。對用戶而言,任何小小的質(zhì)量問題,都可能會對數(shù)據(jù)中心的故障切換和數(shù)據(jù)重建帶來巨大挑戰(zhàn)。因此,確保產(chǎn)品的高可靠性非常重要。

為什么迫切需要這么大的企業(yè)級SSD?

作為全球一線SSD大廠,Solidigm無需炫技來證明自己,之所以做這么大容量,是因為有非常迫切的實際需求,需求正是來自于AI技術浪潮。很多人可能想不到,大容量SSD甚至在一定程度上關系到AI能否正常落地。

AI在全球范圍內(nèi)掀起了新一輪算力基礎設施的建設浪潮,數(shù)據(jù)中心里有了更多帶有AI加速器的服務器,這些服務器給數(shù)據(jù)中心的電力供應和機房空間都帶來了很大壓力,為了緩解壓力,很多數(shù)據(jù)中心都在用大容量SSD替換HDD硬盤。

具體而言,是用高密度的QLC SSD替代原來TLC和HDD混合存儲方案。QLC SSD較低的能耗需求為AI服務器騰出了寶貴的電力預算。在一些地區(qū),數(shù)據(jù)中心建設計劃因為供電不足而被擱置,QLC SSD在電力有限的場景下就顯得更為重要。

與此同時,高密度的QLC還能大幅減少機房空間占用。減少機房空間占用就意味著能存下原本存不下的數(shù)據(jù)。Digital Realty在歐洲的一項調(diào)查證實,缺乏足夠的存儲空間來存放AI所需的海量數(shù)據(jù)集,被企業(yè)列為影響AI落地的頭號挑戰(zhàn)。

Ocient是一家數(shù)據(jù)分析解決方案服務商,原來搭建一套4.41PB的存儲系統(tǒng)大概需要10個機架的HDD存儲,最大功耗超過202千瓦。而采用基于Solidigm QLC SSD的高密度存儲方案后,機架位減少了70%以上,功耗降低了77%以上。

簡而言之一句話,大容量QLC SSD在節(jié)省電力預算和節(jié)省空間占用方面的價值,給AI技術戰(zhàn)略的實施帶來了影響。非常多的企業(yè)迫切需要大容量SSD,以致于61.44TB的Solidigm D5-P5536成為市場上的香餑餑。

SSD可以針對AI工作負載進行優(yōu)化

SSD除了可以緩解數(shù)據(jù)中心供電和空間壓力以外,還能針對AI工作負載的數(shù)據(jù)存儲需求提供非常有價值的優(yōu)化。

上圖展示的是AI計算集群在不同階段的數(shù)據(jù)存儲需求。數(shù)據(jù)攝取階段需要較高的順序?qū)懭胄阅埽鴼w檔階段則對隨機寫入性能要求高。此時,大容量的Solidigm D5-P5336 QLC SSD都能很好地勝任。

在模型訓練階段,此時的GPU需要計算大量的用于訓練的數(shù)據(jù)局,需要存儲快速把數(shù)據(jù)給到GPU。如果隨機寫入性能不足,GPU就會有很多閑置時間,昂貴的GPU一旦閑置就意味著巨大浪費。

而且,訓練過程中經(jīng)常會出錯而導致中斷,為了避免從頭再訓練,通常都會創(chuàng)建很多Check-point(檢查點,存檔點)來保存計算的中間結(jié)果。如果創(chuàng)建檢查點以及從檢查點恢復的速度比較慢的話,也會讓GPU多很多閑置狀態(tài)。

倪錦峰表示,當需要較高性能,而對于容量要求不高時,基于PCIe 5.0的Solidigm PS1010/PS1030(TLC),基于PCIe 4.0的Solidigm D7-P5520(TLC),或者基于PCIe 4.0的Solidigm D5-P5430(QLC)都是很好的選擇。

其中,Solidigm PS1010/PS1030是去年發(fā)布的主打性能的SSD,這款產(chǎn)品容易被忽視的優(yōu)勢其實是能效。實測數(shù)據(jù)顯示,D7-PS1010在大多數(shù)AI負載下的性能/功耗比明顯優(yōu)于行業(yè)競品,能為AI存儲提供更強的性能和更低的能耗。

倪錦峰介紹稱,隨著AI計算性能不斷提升,存儲性能面臨挑戰(zhàn),部分國內(nèi)廠商已經(jīng)不滿足于只是把SSD用作緩存層。大容量QLC SSD提供了更具成本效益的解決方案,隨著存儲層級的演進,QLC SSD 有望在AI時代發(fā)揮更大作用。

2025年1月發(fā)布的DeepSeek-R1模型推動了大模型技術的普及,該模型能以極低的成本進行本地部署推理,還能利用RAG技術構建本地知識庫,這對高性能和大容量存儲 提出了更高要求,也為SSD在今年的發(fā)展提供了更充足的信心。

Solidigm正在引領QLC替代HDD的技術變革浪潮

作為一家有晶圓原廠的專業(yè)企業(yè)級SSD廠商,Solidigm有基于SLC的高性能、高耐久性的SSD,也有豐富的高性能大容量TLC和QLC硬盤。Solidigm從2018年就率先開始在市場上推QLC產(chǎn)品,目前已累計出貨超過100EB的QLC產(chǎn)品。

2024年,倪錦峰就曾提到,部分用戶先一步采用大容量的QLC SSD來替代HDD方案。因此,2024年也被稱為QLC替代HDD的元年。而現(xiàn)在,大量互聯(lián)網(wǎng)大廠都在大力探索落地HDD替代方案,越來越多創(chuàng)新方案也在采用QLC。

INONET是一家來自德國的工業(yè)計算機(IPC)研發(fā)和制造企業(yè),在ADAS領域推出 InoNet QuickTray解決方案,這是一個可快速更換的數(shù)據(jù)存儲托架,主要用于汽車行業(yè)的高速車載數(shù)據(jù)記錄和后續(xù)分析。

通過使用30TB的Solidigm QLC SSD替換傳統(tǒng)HDD,延長了測試車輛的行駛時間,能夠收集更多數(shù)據(jù),減少返回維修站的頻率,從而降低停機時間。此外,Solidigm SSD具備卓越的抗震耐沖擊能力,即使在復雜道路條件下依然能穩(wěn)定運行。

倫敦動物學會 (ZSL) 發(fā)現(xiàn),城市化導致刺猬等野生動物的生存空間受限,使得刺猬種群發(fā)展面臨挑戰(zhàn)。為保護這些動物,ZSL部署了攝像系統(tǒng),每天采集超過1500萬張圖片,并利用AI進行數(shù)據(jù)分析。然而,龐大的數(shù)據(jù)量讓原有計算和存儲系統(tǒng)不堪重負。

為此,ZSL與PEAK:AIO聯(lián)手,采用61.44TB的D5-P5336打造了高密度AI存儲,同時結(jié)合英偉達DGX AI計算平臺。在ZSL倫敦動物園的邊緣數(shù)據(jù)中心提供了1.2 PB存儲,還將圖像預處理時間從3分鐘縮短至30秒,極大提升了研究效率。

正??萍际且患曳掌骱痛鎯τ布_發(fā)商,該公司使用了Solidigm大容量QLC SSD打造了一套畜牧業(yè)生物基因數(shù)據(jù)存儲解決方案,解決了傳統(tǒng)分布式存儲痛點,很好地滿足了研究所構建單一、大容量數(shù)據(jù)湖的需求。

結(jié)束語

Solidigm以其創(chuàng)新的122TB企業(yè)級SSD再次證明了其在QLC技術和企業(yè)級存儲領域的領先地位。

面對AI時代對數(shù)據(jù)存儲的迫切需求,Solidigm不僅提供了更大容量的解決方案,更通過技術優(yōu)化,為AI工作負載提供了強大的性能支撐。

可以預見,隨著QLC替代HDD的趨勢加速,Solidigm將在未來的數(shù)據(jù)中心和AI基礎設施建設中扮演越來越重要的角色。

分享到

zhupb

相關推薦