AI推動(dòng)閃存存儲(chǔ)技術(shù)快速發(fā)展
這讓我們見識(shí)到,SSD技術(shù)正在快速發(fā)展當(dāng)中。前不久,有外媒進(jìn)入了xAI這個(gè)擁有10萬(wàn)塊英偉達(dá)H100的數(shù)據(jù)中心。我們注意到,這座數(shù)據(jù)中心的存儲(chǔ)設(shè)備已經(jīng)全部使用了NVMe固態(tài)硬盤,閃存已經(jīng)成了AI數(shù)據(jù)中心的默認(rèn)配置。
最近,Solidigm亞太區(qū)銷售副總裁倪錦峰在采訪中提到,從今年4月開始,市場(chǎng)對(duì)大容量SSD的需求開始崛起,直到現(xiàn)在,大容量SSD在市場(chǎng)上非常受歡迎。這讓Solidigm看到了很多希望和挑戰(zhàn)。
倪錦峰認(rèn)為,AI加快了存儲(chǔ)技術(shù)的創(chuàng)新步伐。一方面,用戶需要SSD的性能將數(shù)據(jù)更及時(shí)地給到GPU,減少GPU浪費(fèi)。另一方面,AI數(shù)據(jù)中心需要SSD來(lái)優(yōu)化電力和空間占用。最后,為了應(yīng)對(duì)更大的數(shù)據(jù)規(guī)模,迫切需要更大容量的SSD。
具體到AI場(chǎng)景中,在數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和推理等階段,最好使用帶有Gen 5.0接口的Solidigm D7-PS1010,或者Solidigm D7-P5520這樣的TLC盤,或者Solidigm D5-P5430這樣,具有較高性能的QLC盤。
而在數(shù)據(jù)攝取與存儲(chǔ)階段,可以使用像Solidigm D5-P5336這樣主打大容量的QLC固態(tài)盤。Solidigm D5-P5336去年率先把容量做到了61.44TB,據(jù)了解,截止到目前,Solidigm QLC SSD出貨量已經(jīng)超過(guò)100EB,足見用戶對(duì)于大容量盤的認(rèn)可。
現(xiàn)在,Solidigm又把容量做到了122.88TB,并采用了PCIe 4.0的接口,作為一款支持16K IU的SSD,Solidigm D5-P5336能夠在更低成本和更少資源占用的情況下管理超大容量。同時(shí),針對(duì)數(shù)據(jù)密集型工作負(fù)載優(yōu)化的性能,可更好地滿足多種存儲(chǔ)需求。
122TB的Solidigm D5-P5336來(lái)了,它帶來(lái)了什么變化
61.44TB的企業(yè)級(jí)SSD容量翻倍,帶來(lái)了什么呢?與傳統(tǒng)基于HDD的JBOD和基于TLC SSD的JBOF相比,全部采用122TB的Solidigm D5-P5336企業(yè)級(jí)SSD的話,在空間占用上減少了4到8倍,可大幅減少機(jī)房空間占用。
如果以硬盤本身占用的空間來(lái)計(jì)算,同樣要提供122TB的存儲(chǔ)容量,如果用30TB的HDD,則需要4塊,算上長(zhǎng)寬高的物理空間,實(shí)際會(huì)占用的空間是一塊Solidigm D5-P5336的15倍。
122TB Solidigm D5-P5336雖然容量翻倍,但功耗數(shù)值并沒(méi)有什么變化,也就意味著每TB的能耗又一次大幅下降。在方案總體容量不變的情況下,它的總功耗和散熱需求,與此前相比還會(huì)相應(yīng)降低。
如此一來(lái),122TB Solidigm D5-P5336就能為GPU騰出更多能源。如上圖所示,如果采用TLC加HDD的方案,存儲(chǔ)部分將占用20%的能耗,如果是純TLC方案就是8%,如果是純QLC方案就只有3%左右,節(jié)省出來(lái)的電可以支持更多GPU的部署。
倪錦峰提到,越來(lái)越多的用戶對(duì)全QLC方案的接受度提高,而如果現(xiàn)在用QLC替代現(xiàn)在常見的TLC加HDD的方案,在存儲(chǔ)機(jī)架空間、電力成本和維護(hù)成本方面都會(huì)帶來(lái)非常多的節(jié)省。
倪錦峰表示,用大容量QLC來(lái)替換HDD是一片新的藍(lán)海市場(chǎng)。相比幾年前用16TB或者32TB的QLC來(lái)替換TLC,現(xiàn)在如果用QLC來(lái)替換HDD,受益規(guī)模會(huì)大很多。
有數(shù)據(jù)顯示,全球范圍內(nèi),目前SSD在數(shù)據(jù)存儲(chǔ)領(lǐng)域的占比大概只有10%+。如果通過(guò)創(chuàng)新的QLC技術(shù)來(lái)解決存儲(chǔ)在可靠性、性能、空間利用、能耗方面的問(wèn)題,替換掉其中一部分的HDD,那么SSD的規(guī)模就可以迅速提升上去。
把61TB的SSD翻倍成122TB,說(shuō)容易也不容易
Solidigm能成為第一家把容量做到122TB的企業(yè)級(jí)SSD廠商,也并不意外。這不僅用到了Solidigm掌握的Floating Gate浮柵技術(shù),還利用了Solidigm D5-5336系列已被廣泛驗(yàn)證的技術(shù),對(duì)于Solidigm來(lái)說(shuō),把容量翻番其實(shí)相對(duì)容易很多。
但實(shí)際上,122TB的SSD需要將整片晶圓的800多個(gè)die封裝到一個(gè)SSD中,這不僅成本極高,對(duì)質(zhì)量要求也極高,任何微小的組件缺陷都可能報(bào)廢整塊盤,難度其實(shí)很高。Solidigm通過(guò)更嚴(yán)格的原材料和生產(chǎn)管控,確保大容量SSD的高質(zhì)量和高可靠性。
自2018年以來(lái),Solidigm一直在推動(dòng)QLC技術(shù)的發(fā)展。盡管從實(shí)際使用來(lái)說(shuō),QLC SSD本身的寫入壽命已不成問(wèn)題,因?yàn)楹芏嘤脩魧?shí)際寫入數(shù)據(jù)的頻次比想象中低很多,但還是有擔(dān)心的聲音不絕于耳。
這次,Solidigm表示,在大多數(shù)工作負(fù)載場(chǎng)景中,122TB SSD可滿足五年內(nèi)隨意寫入的耐用性要求,打消了用戶對(duì)于壽命的顧慮。而且,這不是因?yàn)镻CIe 4.0的限制,即使是換成PCIe 5.0也一樣不用擔(dān)心壽命問(wèn)題。
如今QLC的接受度已經(jīng)大大提高。有數(shù)據(jù)顯示,到2024年,Solidigm QLC SSD的累計(jì)出貨量已突破100EB。從Solidigm方面的數(shù)據(jù)來(lái)看,財(cái)富500強(qiáng)的前五名,還有70%以上的OEM AI存儲(chǔ)廠商,都在大規(guī)模使用Solidigm QLC SSD產(chǎn)品。
這些數(shù)據(jù)不僅足以證明QLC值得信賴,也能說(shuō)明Solidigm的QLC產(chǎn)品本身足夠可靠,能夠放心用在滿足絕大部分AI的工作負(fù)載需求。特別在AIGC領(lǐng)域,Solidigm的QLC產(chǎn)品得到了不同地區(qū)算力服務(wù)提供商的廣泛采納,容量從32TB、61TB都有。
目前看來(lái),大容量盤已成為很多AI數(shù)據(jù)中心的主要選擇,隨著Solidigm的122TB SSD的發(fā)布以及后續(xù)大面積鋪貨,大容量固態(tài)盤將在AI數(shù)據(jù)中心領(lǐng)域進(jìn)一步發(fā)揮重要作用,也將改變整個(gè)閃存技術(shù)業(yè)態(tài),屬于QLC的時(shí)代終于來(lái)了。