AI的場景大致分為模型訓練和推理兩大部分。其中,訓練主要在數(shù)據(jù)中心內(nèi)部完成,涉及的主要操作包括數(shù)據(jù)攝?。↖ngest)、Checkpoint創(chuàng)建等。
當然,需要歸檔的數(shù)據(jù)也都存放在資源充裕的數(shù)據(jù)中心里。而推理既可以在數(shù)據(jù)中心內(nèi)部完成,也可以在近邊緣和遠邊緣端完成。
數(shù)據(jù)準備的過程主要發(fā)生在數(shù)據(jù)中心和近邊緣端,也會有少部分發(fā)生在遠邊緣端??梢哉f,幾乎所有場景中都離不開存儲的支持,都需要存儲具有處理大量數(shù)據(jù)的能力,都需要有盡可能高的讀寫性能。
此時,閃存存儲的優(yōu)勢就非常明顯。
閃存在人工智能場景上的優(yōu)勢
閃存的性能和容量密度優(yōu)勢,可以用更少的設備提供更高性能和更大容量,這樣就可以減少空間占用,簡化管理的復雜度。同時,配合它在減少能耗方面的優(yōu)勢,決定了它更適合用在近邊緣和遠邊緣端,不在那么依賴于數(shù)據(jù)中心的資源。
翁昀非常細致地介紹了SSD,具體而言是Solidigm D5-P5430在人工智能應用領域的相較于機械硬盤的諸多優(yōu)勢。
比如,數(shù)據(jù)攝取階段主要看重順序?qū)懶阅?,而D5-P5430能提供十倍于機械硬盤的順序?qū)懶阅?。在?shù)據(jù)準備階段主要看重順序讀性能,D5-P5430甚至可以提供高達23倍的性能。訓練階段看中的隨機讀性能上,D5-P5430的優(yōu)勢達到了4500倍,看來,訓練階段閃存盤是必選項。
Checkpoint是機器學習模型訓練階段的關鍵技術之一,它會保留訓練的中間結果,為了訓練能順利完成,經(jīng)常需要創(chuàng)建Checkpoint。為了提高創(chuàng)建速度,就需要存儲提供更高的順序?qū)懶阅?,而如果要用Checkpoint進行恢復的話,則需要存儲提供更高的順序讀性能。
此外,為了更好地在包括近邊緣和遠邊緣端等更多場景進行推理,閃存盤也是必選項,因為推理階段對于隨機讀性能的要求比較高。在對比中,D5-P5430的性能大概達到了機械硬盤的4500倍。
如剛才所說,AI的各個場景中都需要更高性能的存儲。說到底,如果沒有高性能的存儲給訓練及時提供數(shù)據(jù),那么AI加速器的利用率會有明顯降低,會造成浪費。如果沒有高性能的存儲給推理場景及時提供數(shù)據(jù),則會直接影響推理的性能表現(xiàn)。
AI對存儲提出的最直接的需求就是更高的性能,同樣重要的還有更大的存儲容量,這兩點它對于未來處理更大規(guī)模的訓練數(shù)據(jù)集非常重要。
Solidigm有多種方案可滿足AI對于性能和容量的要求
為了做到這兩點,Solidigm推薦用戶使用CSAL(Cloud storage accelerate layer云存儲加速層)這一開源軟件來構建存儲方案。CSAL是一個開源項目,它使用高性能SSD作為快速緩存和寫入緩沖區(qū),優(yōu)化對NAND的寫入,減少寫入放大并提升性能。
既然是開源的方案,誰都可以用CSAL。Solidigm推薦用戶使用基于SLC的D7-P5810來構建緩存和緩沖區(qū),因為SLC的性能更高,更耐擦寫。同時,使用基于QLC的D5-P5336來用作容量層,利用QLC大容量和低成本的優(yōu)勢。
Solidigm這套基于CSAL的方案,既可以提供更高的性能,同時,也能提供更高的容量。對于AI場景而言,它可以為AI加速器提供充足的數(shù)據(jù)供應,極大提升XPU的利用率。
此外,對于需要相對均衡的讀寫性能的用戶而言,Solidigm推薦使用Solidigm D7-P5520或者D5-P5430這樣的方案。而對于對成本比較敏感的用戶而言,Solidigm推薦用戶使用基于QLC的Solidigm D5-P5336,它可以提供單盤高達61.44TB的數(shù)據(jù)和更高的性價比。
D5-P5336是Solidigm在2023年發(fā)布的產(chǎn)品,是當時市場上最大容量的企業(yè)級SSD之一,在構建10PB級別超大容量AI數(shù)據(jù)平臺時,相對于機械硬盤有非常大的優(yōu)勢。
同樣是構建10PB的存儲資源,如果還是用原來的機械硬盤,則需要1786塊3.5英寸的硬盤,而如果換成D5-P5336則只需要343塊盤,數(shù)量相差了5.2倍。與此同時,需要的服務器和機架數(shù)量直接縮減了9倍。
直接對比五年下來的能耗成本,發(fā)現(xiàn)基于D5-P5336的方案,電費直接縮減了4.3倍,而整體的TCO也降低了46%,將近一半。無論如何,這都是一套優(yōu)勢非常明顯的解決方案。
為了提高AI訓練數(shù)據(jù)的準備速度,金山云對后端對象存儲KS3進行了升級。在Solidigm閃存技術的幫助下,從原本的硬盤加Cache的方案升級為純SSD的配置。升級后,加載40TB原始數(shù)據(jù)集的時間從535分鐘(約9小時)縮短到了11分鐘。
結束語
在AI場景中,閃存存儲在多個方面都表現(xiàn)出了壓倒性的優(yōu)勢,除了初期購置成本略高,剩下的全是優(yōu)勢。無論是在性能、容量密度、功耗方面,還是在空間節(jié)省、架構簡化、提高XPU利用率等方面都有無可比擬的優(yōu)勢。
對于真正關心生成式AI技術架構的朋友來說,應該會意識到,生成式AI來了,我們需要很多更大容量的SSD。AI時代,大容量SSD正當時!