天翼云科技有限公司 國際業(yè)務(wù)事業(yè)部存儲產(chǎn)品線專家 肖夏敏
國云筑基,智算建設(shè)新挑戰(zhàn)
近年來,天翼云準確把握人工智能發(fā)展機遇,全力打造智算云能力體系,在智算資源方面,規(guī)劃并建設(shè)全國“2+3+7+X”公共智算云池。不過,在智算基礎(chǔ)設(shè)施建設(shè)過程中,天翼云也遇到了諸多挑戰(zhàn)。
架構(gòu)挑戰(zhàn)方面,GPU算力的顯著差異和分階段建設(shè)需求,使得硬件組合變得復(fù)雜,資源調(diào)度管理面臨困難。計算挑戰(zhàn)方面,為了滿足巨大的算力需求,必須構(gòu)建大規(guī)模的GPU服務(wù)器集群,這對計算存儲底座性能提出了極高要求。
網(wǎng)絡(luò)挑戰(zhàn)方面,隨著智算集群的擴展,對高帶寬互聯(lián)的需求日益增長,對通信質(zhì)量、時延和穩(wěn)定性的要求也更為嚴格。存儲挑戰(zhàn)方面,在智算場景中,大模型訓(xùn)練需要高效的數(shù)據(jù)加載和存儲能力,對存儲系統(tǒng)的性能和容量提出了前所未有的挑戰(zhàn)。對此,天翼云以存儲資源盤活系統(tǒng)HBlock,應(yīng)對AI時代存儲新挑戰(zhàn)。
創(chuàng)新自研,智算存儲新范式
HBlock是輕量級存儲集群控制器,采用純軟件用戶態(tài)設(shè)計,兼容異構(gòu)非對稱環(huán)境,實現(xiàn)與其他應(yīng)用的混合部署,充分利用其綠色、輕量、靈活、共生的特性,打造高可用、高可靠、高性能、高利用的存儲底座。
HBlock是業(yè)界唯一支持在線直接下載安裝的分布式存儲產(chǎn)品,一小時內(nèi)即可完成集群搭建和客戶端掛載,支持使用異構(gòu)通用服務(wù)器靈活調(diào)整存儲集群規(guī)模,充分發(fā)揮存量硬件的潛力。
HBlock的立體容災(zāi)機制,可確保數(shù)據(jù)副本存儲在不同的故障域,即使單個故障域整體損壞,卷數(shù)據(jù)仍然可讀寫;支持通過其他故障域進行快速數(shù)據(jù)重建,確保故障后數(shù)據(jù)快速恢復(fù);單個故障域可寫入多個副本,進一步加強數(shù)據(jù)可靠性。
HBlock的多存儲池機制,可將通用服務(wù)器性能提升到極限,卷讀寫時可將數(shù)據(jù)先寫入SSD組成的高速緩存池中,最終無感存入普通硬盤組成的普通存儲池中。在用戶有少量SSD和大量HDD資源的場景下,可以為用戶提供SSD的寫入體驗和HDD的存儲規(guī)模。
HBlock的多存儲池機制
HBlock可以與并行文件系統(tǒng)混合部署在同一臺服務(wù)器上,以最少的節(jié)點提供高帶寬存儲服務(wù),助力AI場景落地,主備秒級切換,任何情況都能確保業(yè)務(wù)不斷。用戶使用少量通用服務(wù)器即可構(gòu)建高階存儲集群,平替高端磁盤陣列,降低智算池建設(shè)成本。
由此,HBlock建立了自主可控的新型智算存儲底座,軟件完全自研,硬件兼容各種國產(chǎn)服務(wù)器,以各種獨創(chuàng)自研技術(shù),為智算時代發(fā)展中的各類挑戰(zhàn)提供了創(chuàng)新解題思路。
降本增效,智存共生新時代
經(jīng)過多年的積累和實踐,天翼云HBlock已為金融、政務(wù)、教育等多個行業(yè)提供高效穩(wěn)定的存儲支持。
以某公司的智算資源池項目為例,在原本作為計算節(jié)點的GPU服務(wù)器中部署HBlock,將其轉(zhuǎn)為存儲服務(wù)器,支持各種異構(gòu)國產(chǎn)化通用服務(wù)器彈性擴容,同時和并行文件服務(wù)(HPFS)混合部署,快速完成智算資源池擴容。該方案精簡了智算池整體節(jié)點數(shù)量,實現(xiàn)降本增效的同時,還助推“雙碳”目標落地。
某公司智算資源池項目架構(gòu)圖
隨著數(shù)字化轉(zhuǎn)型的持續(xù)深入,各組織單位的數(shù)據(jù)量不斷擴大,綠色存儲技術(shù)的價值也將持續(xù)凸顯。未來,天翼云HBlock將持續(xù)在更多領(lǐng)域中落地,進一步為智算基礎(chǔ)設(shè)施建設(shè)、行業(yè)智能化升級筑牢存儲底座,讓企業(yè)輕裝前行,揚帆遠航。