Solidigm(思得)亞太區(qū)應用工程部總監(jiān) 翁昀

2025年3月27日,在2025人工智能基礎設施峰會上,Solidigm(思得)亞太區(qū)應用工程部總監(jiān) 翁昀 分析了AI工作流對于存儲的具體需求,也介紹了AI數據中心層面面臨的挑戰(zhàn),這兩方面都推動了對更大容量QLC SSD的迫切需求。

AI工作流為什么需要更大容量的SSD

翁昀詳細分析了AI的典型工作流程,從最開始的數據采集、數據準備、模型訓練,再到推理、以及最后的數據歸檔,每個環(huán)節(jié)都需要存儲的全力支持。

數據采集階段要從后端的存儲,比如從對象存儲中把原始數據先讀出來,這一過程可能涉及PB級別的順序寫入操作,對存儲的寫入速度要求很高。而在數據準備階段,雖然數據規(guī)模變成了TB級別,但對順序讀取性能的要求非常高。

訓練階段雖然涉及的數據規(guī)模更小了,但這一環(huán)節(jié)更為復雜和關鍵。除了要進行模型訓練,還要頻繁創(chuàng)建和恢復檢查點(Checkpoint),還要驗證模型質量,還可能需要量化來優(yōu)化模型性能。

這一環(huán)節(jié)涉及的數據進一步縮小到了GB級別,但是讀寫方式發(fā)生了變化。對于隨機讀的性能要求很高,在隨機讀場景中,SSD相較于HDD硬盤的優(yōu)勢非常明顯。HDD硬盤IOPS大概200,而SSD可以輕松做到百萬IOPS。

推理過程涉及的數據提升到了TB級,此時最需要的是隨機讀取的性能,這仍是SSD的強項。最后在歸檔時,對隨機寫入性能要求會比較高,從性能角度來講,SSD優(yōu)勢依然非常明顯。

從上述AI流程中可以看到,各個階段對于存儲性能的要求都比較高,而SSD的性能優(yōu)勢都非常明顯。但這只能說明AI需要SSD的存儲性能,還不能說明為什么需要大容量的SSD。

人們都說,更強的算力、更大的參數規(guī)模以及更大的訓練數據量是提升AI模型性能的三條主要路徑。翁昀分享了來自MIT的數據,為了提升模型表現,數據集的規(guī)模正在爆炸性增長,如果SSD的容量不跟著增長,只增加更多機架是不行的。

AI數據中心為什么需要更大容量的企業(yè)級SSD?

在AI迅猛發(fā)展的今天,電力已成為數據中心擴展的關鍵瓶頸。一些國家和地區(qū)甚至由于電力預算不足,導致數據中心建設項目被擱置。

有一種說法,AI算力的極限,最終不是由算力芯片性能決定的,而是由能提供多少電力來決定的。在這樣的背景下,SSD,特別是大容量SSD,成為緩解供電壓力的重要手段。

大容量SSD通過提升存儲密度來緩解供電壓力。比如,Solidigm的QLC SSD已經從單盤61TB提升到了122TB,存儲密度的提升,意味著在相同的容量下,所需的機架空間和耗電量都將顯著減少,不僅可以緩解數據中心供電壓力,還能節(jié)省機架空間。

與此同時,SSD還能通過提高GPU的利用率,提升現有數據中心計算資源的價值。SSD具備更高吞吐性能,能緩解I/O瓶頸,及時為GPU提供充足的數據。在GPU資源緊張的背景下,SSD能幫助GPU充分發(fā)揮其價值。

Ocient是一家數據分析解決方案服務商,原來該公司基于HDD硬盤打造了4.41PB的大數據存儲系統,最大功耗超過200千瓦。而當使用了Solidigm的大容量固態(tài)盤后,機架數減少到了3個,功耗降低了77%以上,三年可節(jié)省高達160萬美元的能源開支。

翁昀提到,雖然不同地區(qū)的能源瓶頸問題的程度會有差異,時間上可能有先后,但是各地區(qū)的能源、資源總是有限的,不可能無限制地往上增長。但大容量SSD為數據中心帶來的價值是不會被磨滅的。

大容量QLC SSD在AI時代非常受歡迎

顯而易見的事實是,AI火的這兩年SSD容量在迅猛提升,去年一度出現了大容量SSD因供不應求出現大幅漲價的情況。Solidigm是最早推出61TB以及122TB的企業(yè)級SSD廠商,隨后,市場上出現了多款提供這一容量規(guī)格的SSD,足見需求之大。

可以說,QLC SSD在AI時代迎來了絕佳的發(fā)展機遇。通過全面替代傳統的 TLC+HDD的存儲架構,不僅簡化了存儲層級,還能有效降低機架數量、減少存儲電力消耗,提升計算能力,打破了HDD面臨AI場景時的諸多問題。

翁昀以Solidigm的產品組合為例,詳細介紹了在AI工作流當中具體需要什么樣的企業(yè)級SSD,能清晰看出大容量QLC在其中的重要作用。

在數據攝取和歸檔階段階段,涉及的數據量比較大,且對性能要求也比較高。翁昀認為,Solidigm D5-P5336就非常合適,它基于QLC提供了最高122TB的容量,是傳統大容量盤的4倍。

而在數據準備、訓練、檢查點以及推理階段,對容量密度要求不高,但對讀寫性能有較高要求。翁昀認為,基于TLC的Gen5接口的Solidigm D7-PS1010和Solidigm D7-P5520,或者基于QLC的Solidigm D5-5430也能很好地滿足需求。

Solidigm D7-PS1010和PS1030是去年發(fā)布的性能型SSD,DWPD分別為1和3,支持E3.S和U.2多種規(guī)格。相較于Gen4平臺,不僅在性能方面實現“兩位數級”全面增長,在功耗比上也具備明顯優(yōu)勢,已成為AI高性能計算平臺中不可或缺的核心部件之一。

剛剛提到的122TB的QLC盤就是Solidigm D5-P5336,它在U.2尺寸放入了一整塊晶元的產能,要做到這點對于生產良率和質量控制都極為嚴苛。Solidigm作為第一家做QLC的企業(yè)級SSD廠商,憑借在QLC技術領域的深厚積累才做到了這點。

Solidigm大容量QLC在行業(yè)的幾個典型用例

德國IPC制造商INONET發(fā)布了針對ADAS數據記錄與分析的InoNet QuickTray快速更換存儲托架。該方案用Solidigm 31TB QLC SSD取代HDD,核心優(yōu)勢在于:延長測試車行駛時間、增加數據收集量、減少返站頻率和停機時間。同時,SSD的高抗震性確保了車輛在各種路況下數據記錄的穩(wěn)定性。

倫敦動物學會 (ZSL) 為應對城市化對刺猬等野生動物造成的生存挑戰(zhàn),利用攝像頭和 AI進行監(jiān)測,但每天超1500萬張的圖像數據量使系統不堪重負。為此,ZSL與 PEAK:AIO合作,部署了結合61TB D5-P5336硬盤和英偉達DGX平臺的方案。該方案在ZSL倫敦動物園提供了1.2PB存儲,并將圖像預處理時間從3分鐘縮短至 30 秒,顯著加速了ZSL的保護研究工作。

正??萍际且患曳掌骱痛鎯τ布_發(fā)商,該公司使用了Solidigm大容量QLC SSD打造了一套畜牧業(yè)生物基因數據存儲解決方案,解決了傳統分布式存儲痛點,很好地滿足了研究所構建單一、大容量數據湖的需求。

分享到

zhupb

相關推薦