對此,新華三集團高級副總裁、云與計算存儲產品線總裁徐潤安在專訪中表示,新華三構建了完整的產品和解決方案體系——數(shù)據(jù)×AI,調度×AI,算力×AI,存儲×AI,綠色×AI,通過五大×AI切入點與N種產品方案相結合,幫助用戶實現(xiàn)AI與基礎架構及業(yè)務的深度融合。

“我們的關注點主要是新華三如何高效管理和分配計算資源,存儲怎樣加速大模型訓練,不同系列AI服務器的應用場景選擇?!?/p>

調度×AI中的傲飛算力調度平臺

作為新華三的創(chuàng)新能力之一,傲飛算力調度平臺是提升算力資源利用率的關鍵工具,現(xiàn)在新發(fā)布的是3.0版本,從最初的1.0用于高效科學計算,2.0面向混合智算+科學計算,到了3.0正式對外支持智算中心平臺的建設。通過智能調度算法,實現(xiàn)高效的計算資源管理,尤其在多元異構環(huán)境下。而且無論是本地數(shù)據(jù)中心還是云端資源,傲飛平臺都能實現(xiàn)快速分配和靈活調度,確保資源的最佳利用率。

在集群模式上,傲飛平臺可以通過小集群的形式進行擴展,每個集群由1臺、3臺或5臺設備組成,靈活應對資源擴展需求,隨著企業(yè)資源規(guī)模的增加,集群不斷擴展實現(xiàn),實現(xiàn)大規(guī)模分配和調度支持客戶應用。

在實踐方面,新華三在去年發(fā)布了私域大模型百業(yè)靈犀,正式發(fā)布前,傲飛平臺已經(jīng)進行了超萬個計算節(jié)點的測試,每臺R5300服務器上可以配置8個GPU卡(每個計算節(jié)點包含8個GPU卡),即傲飛平臺已經(jīng)具備支持和優(yōu)化萬卡規(guī)模的能力,能夠設計和驗證與之匹配的方案。

徐潤安還指出,管理萬卡更主要的是業(yè)務拉通,具體流程包括接收客戶任務后,進行初步的大數(shù)據(jù)分析;根據(jù)任務需求,進行模型的訓練或微調;對模型進行評估,最終部署完成客戶提交的任務,新華三通過結合硬件資源管理和業(yè)務流程優(yōu)化,覆蓋整個任務的生命周期,確保每個環(huán)節(jié)的高效運作。

未來,新華三將繼續(xù)優(yōu)化和整合傲飛的平臺功能,以應對更復雜的計算需求和更廣泛的應用場景。傲飛的能力還基于新華三的硬件基礎,對各家GPU供應商的產品性能和特點都有認知,還有對算子的能力,GPU哪些算力能力比較強,能否進一步往下層調度,這些都有助于傲飛平臺甚至更多新華三產品的迭代。以后計算和存儲資源都將越來越多集中到云上,實現(xiàn)資源的透明化管理,更要持續(xù)關注調度平臺的能力。

算力×AI中,訓練和推理不一定做選擇題

算力方面,新華三推出面向智算中心的多元異構算力平臺H3C UniServer R5300/R5500 G7系列服務器和算網(wǎng)融合的H3C UniServer E3300 G6邊緣AI服務器。不同系列AI服務器,面向用戶的多樣化行業(yè)場景該怎么選擇呢,會按照訓練和推理區(qū)分嗎?

新華三集團云與計算存儲產品線副總裁劉宏程表示,基于GPU形態(tài)和互連方式會有不同的兩種產品,適用不同的應用場景。但隨著國內GPU廠商的快速發(fā)展,訓練和推理的界限逐漸模糊,高端的OAM模塊雖然主要用于訓練,但其功能亦逐漸延伸至訓練后的少數(shù)場景,并預示著未來向推理形態(tài)的轉型,我們定位主要用于未來推理場景的?;诂F(xiàn)在國內GPU廠家而言,有一部分也會用于訓練方式實現(xiàn)。過去在G5和G6系列服務器中,R5500系列主要用于訓練,R5300系列主要用于推理,現(xiàn)在這種區(qū)分已經(jīng)不再明顯。

隨著GPU異構生態(tài)的蓬勃發(fā)展和廠家數(shù)量的增長,傳統(tǒng)上可能傾向于選擇OAM模塊或R5500服務器來應對需求。然而,近期一些大型智算中心項目開始創(chuàng)新性地采用R5300服務器進行訓練,這一變革不僅滿足了推理需求,還顯著提升了訓練后的推理效率。因此,R5300平臺正逐漸承擔起更多訓練任務,并有望在未來支持更大規(guī)模的推理工作,展現(xiàn)了其廣泛的適用性和強大的潛力。

我們知道,訓練階段是建立模型的基礎,從去年到今年,隨著大模型市場的逐漸成熟,推理的需求增長也頗為迅猛,達到訓練需求的十倍甚至百倍。R5300服務器平臺能夠同時滿足訓練和推理的需求,體現(xiàn)同一平臺的多功能性。

新發(fā)布的G7系列服務器是相較于G6平臺的全面升級。目前,新華三G7系列多元異構服務器重點面向運營商、政府和金融行業(yè),未來,將擴大覆蓋所有行業(yè),包括互聯(lián)網(wǎng)和企業(yè)應用,以滿足更廣泛的市場需求。

存儲×AI中,推出Polaris新一代AI存儲系列

在存儲方面,新華三推出的新一代AI存儲——Polaris系列,將Storage For AI和AI In Storage兩大思路融合為一。整體來說,Storage For AI是通過全閃介質、數(shù)據(jù)池化和AI智能管理特性滿足AI業(yè)務負載對存儲設備的性能和功能需求,AI In Storage則是融入AI技術在智能運維、智能加速、智能助手等工具,大幅降低存儲設備在運維、管理、排障、規(guī)劃、配置、優(yōu)化等方面的工作量和成本。

新華三集團存儲產品線首席產品經(jīng)理關天舒表示:數(shù)據(jù)存儲是AI大模型數(shù)據(jù)收集、預處理、訓練、推理的關鍵一環(huán),決定了能保存的數(shù)據(jù)容量、訓練及推理的數(shù)據(jù)讀取效率、數(shù)據(jù)的可靠性等。新華三下一代AI存儲——Polaris系列通過軟硬件協(xié)同創(chuàng)新為大模型訓練提供超強的存儲性能,實現(xiàn)checkpoint秒級寫入;滿足智算千萬小文件并發(fā)和TB級帶寬需求?;贏I技術的加持,智能預測存儲集群容量使用趨勢、提供擴容和業(yè)務調整建議,通過智能分層算法實現(xiàn)冷熱數(shù)據(jù)分層存儲,提高用戶命中率和熱數(shù)據(jù)讀取性能;同時,基于大預言模型提供智能運維助手,根據(jù)業(yè)務負載動態(tài)調整CPU、硬盤功耗,極大地簡化了用戶運維難度,實現(xiàn)便捷、高效的管理體驗。。

最后

新華三通過深化和加速“AI for ALL”戰(zhàn)略,充分發(fā)揮其在算力和聯(lián)接領域的核心優(yōu)勢,推動AI技術在各行業(yè)的廣泛應用。無論是通過傲飛算力調度平臺優(yōu)化資源利用,還是通過存算融合加速大模型訓練,實現(xiàn)AI服務器的多功能性,新華三正在引領AI時代的技術革新和行業(yè)變革。

分享到

崔歡歡

相關推薦