近日,元腦“算力工廠”首次亮相。元腦算力工廠采用預(yù)制化AIDC解決方案,通過預(yù)制化、模塊化的創(chuàng)新基建模式,將同等規(guī)模智算中心的建設(shè)周期從18個(gè)月縮減至4個(gè)月,工期縮短了近80%,實(shí)現(xiàn)智算中心的快速交付,滿足業(yè)務(wù)快速上線需求;智算中心部署了高密智算算力倉(cāng),包括50kW負(fù)載的風(fēng)冷機(jī)柜和130kW負(fù)載的液冷機(jī)柜,實(shí)現(xiàn)智算中心的高密部署與綠色節(jié)能。
一、數(shù)據(jù)中心的進(jìn)化之路與智算新挑戰(zhàn)
浪潮信息服務(wù)器產(chǎn)品線行銷總監(jiān)周相峰告訴記者,從早期以主機(jī)托管為主的計(jì)算中心時(shí)代,到綜合IT托管的信息中心時(shí)代,再到云數(shù)據(jù)中心時(shí)代,如今已步入以智算為主的算力中心時(shí)代。在這個(gè)過程中,算力需求的結(jié)構(gòu)發(fā)生了顯著變化,智能算力占比不斷攀升。然而,傳統(tǒng)數(shù)據(jù)中心建設(shè)周期長(zhǎng),規(guī)劃時(shí)缺乏以算力為核心的考量,已難以滿足智算中心快速發(fā)展的需求。
傳統(tǒng)數(shù)據(jù)中心的建設(shè)需要經(jīng)過設(shè)計(jì)、土建、機(jī)電安裝、調(diào)試等多個(gè)階段,從規(guī)劃建設(shè)到使用,整個(gè)數(shù)據(jù)中心的生命周期是15年,而建設(shè)周期大概需要三到五年。但是當(dāng)前算力技術(shù)迭代非??欤酒瑒?chuàng)新周期基本實(shí)現(xiàn)每年迭代,應(yīng)用創(chuàng)新周期更是壓縮至數(shù)月甚至數(shù)周。如果沿用傳統(tǒng)建設(shè)模式,不僅很難做到第一時(shí)間升級(jí)新一代技術(shù),更無(wú)法及時(shí)實(shí)現(xiàn)業(yè)務(wù)的智能化升級(jí),數(shù)據(jù)中心會(huì)面臨建成即落后,現(xiàn)實(shí)算力需求超預(yù)期卻難擴(kuò)容的窘境。
隨著智算中心的興起,一系列新的挑戰(zhàn)接踵而至。國(guó)家對(duì)碳達(dá)峰和碳中和的政策要求日益嚴(yán)格,數(shù)據(jù)中心的高耗電量成為亟待解決的問題。例如,2025年數(shù)據(jù)中心的電力消耗占全民用電的4.05%且呈上升趨勢(shì),北京、上海等地對(duì)數(shù)據(jù)中心的PUE值提出了嚴(yán)格要求,大于1.7的甚至可能被關(guān)停。此外,東數(shù)西算工程的推進(jìn),對(duì)數(shù)據(jù)中心的布局和能源利用提出了新的要求,如何在能源豐富的西部地區(qū)建設(shè)數(shù)據(jù)中心,并解決電力遠(yuǎn)距離傳輸?shù)某杀竞蛽p耗問題,成為關(guān)鍵課題。在散熱技術(shù)方面,隨著熱源增加和能耗增大,從傳統(tǒng)風(fēng)冷到冷板、浸沒式液冷技術(shù)的不斷演進(jìn),節(jié)能成為數(shù)據(jù)中心技術(shù)發(fā)展的核心方向。
二、算力工廠:預(yù)制化AIDC創(chuàng)新解決方案
面對(duì)這些挑戰(zhàn),浪潮信息推出了預(yù)制化AIDC解決方案。該方案有三種形式:一體式的AIO一體化集裝箱數(shù)據(jù)中心,適用于小規(guī)模需求,通水通電通網(wǎng)即可使用,部分甚至無(wú)需做地基;臨建式的多箱拼接數(shù)據(jù)中心,規(guī)模在十個(gè)集裝箱以內(nèi);以及類似永久性建筑的AIDC方案。
元腦算力工廠是浪潮信息預(yù)制化AIDC解決方案的完整實(shí)現(xiàn)。浪潮信息人工智能和高性能產(chǎn)品線方案架構(gòu)總監(jiān)楊振宇提到,算力工廠僅用120天就完成了119個(gè)集裝箱的搭建,計(jì)算集群可覆蓋預(yù)訓(xùn)練、訓(xùn)練、推理、微調(diào)等全場(chǎng)景應(yīng)用,全面支撐了全球服務(wù)器大規(guī)模測(cè)試、大模型開發(fā)和智能化轉(zhuǎn)型等業(yè)務(wù)。
元腦算力工廠所采用的先進(jìn)預(yù)制化AIDC解決方案,實(shí)現(xiàn)了智算中心模塊的高度預(yù)制化,所有機(jī)電設(shè)備在工廠預(yù)集成、預(yù)測(cè)試,接入市電、網(wǎng)絡(luò)和水源即可獨(dú)立運(yùn)行,預(yù)制裝配率高達(dá)90%,且集成工作與現(xiàn)場(chǎng)土建工作并行,在極大降低對(duì)場(chǎng)地空間要求的同時(shí),相比傳統(tǒng)土建機(jī)房工期可縮短80%左右,解決了傳統(tǒng)數(shù)據(jù)中心建設(shè)周期長(zhǎng)、無(wú)法滿足業(yè)務(wù)快速上線的問題。
浪潮信息人工智能與高性能產(chǎn)品線副總經(jīng)理張強(qiáng)指出,算力工廠首先確保了服務(wù)器的質(zhì)量和穩(wěn)定性,作為國(guó)內(nèi)首個(gè)預(yù)制化模式的服務(wù)器測(cè)試中心,每年可滿足150萬(wàn)臺(tái)服務(wù)器的測(cè)試需求,支持40類、2000余項(xiàng)測(cè)試內(nèi)容。同時(shí),浪潮信息算力工廠還可支持教科研、生命科學(xué)、氣象、能源、金融、自動(dòng)駕駛、互聯(lián)網(wǎng)等眾多行業(yè)的POC測(cè)試需求,配置100多臺(tái)測(cè)試設(shè)備,可同時(shí)滿足30多個(gè)中等規(guī)模項(xiàng)目的并發(fā)測(cè)試需求,并配備硬件、集群、應(yīng)用等技術(shù)支持團(tuán)隊(duì),已為350多家海內(nèi)外客戶提供測(cè)試支持。
為了解決高密度部署帶來(lái)的散熱和能耗問題,元腦算力工廠將液冷、光伏、儲(chǔ)能、余熱回收等多種綠色技術(shù)有機(jī)結(jié)合,PUE可降至1.1以下,并采用智能管理平臺(tái)實(shí)現(xiàn)IT和機(jī)房設(shè)備的控制聯(lián)動(dòng),更加綠色節(jié)能。例如,光伏發(fā)電技術(shù)能夠直接將太陽(yáng)能轉(zhuǎn)換為電能,為智算中心提供清潔的電力來(lái)源;儲(chǔ)能技術(shù)則允許智算中心在電力需求低時(shí)儲(chǔ)存能量,并在高峰時(shí)段使用儲(chǔ)存的能量,從而平衡電網(wǎng)負(fù)荷并提高能源利用效率。同時(shí),集成冷站采用變頻冷機(jī),冬季和過渡季節(jié)實(shí)現(xiàn)自然冷卻,15℃/21℃中溫冷水制冷,整機(jī)能效比大于等于5.5,結(jié)合余熱利用技術(shù),冬季可覆蓋辦公區(qū)供暖。此外,集裝箱為預(yù)制化鋼結(jié)構(gòu)建筑,材料回收率超80%,施工現(xiàn)場(chǎng)無(wú)粉塵噪音,建筑垃圾少,實(shí)現(xiàn)綠色環(huán)保。
浪潮信息服務(wù)器產(chǎn)品線副總經(jīng)理李金波表示,元腦算力工廠全面遵循了“高密與綠色”的未來(lái)智算中心設(shè)計(jì)理念,算力節(jié)點(diǎn)大量使用高密智算算力倉(cāng),將風(fēng)冷機(jī)柜的負(fù)載上限提升至50kW,液冷機(jī)柜的負(fù)載上限更是高達(dá)130kW。高密智算算力倉(cāng)集計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)于一體,高效融合機(jī)柜、配電、UPS、空調(diào)、監(jiān)控、消防等系統(tǒng),基于標(biāo)準(zhǔn)化、去工程化、運(yùn)行效率最優(yōu)化、管理智能化等原則設(shè)計(jì),具有超高密度部署、綠色節(jié)能、安全可靠等特性。
Scale Up所帶來(lái)的部署密度提升是實(shí)現(xiàn)Scale Out規(guī)模持續(xù)擴(kuò)張的前提和基礎(chǔ),而液冷、智能溫控等先進(jìn)制冷技術(shù)則會(huì)解決Scale Up引發(fā)的散熱問題,二者疊加會(huì)把占地大、能耗高的數(shù)百兆瓦的智算中心壓縮成更加緊湊、更加節(jié)能的智算中心,未來(lái)智算中心的設(shè)計(jì)建造必須要意識(shí)到這一點(diǎn)。
在大模型開發(fā)方面,算力工廠通過Scale Up的創(chuàng)新實(shí)現(xiàn)領(lǐng)先的多元算力供給,在軟件平臺(tái)層面進(jìn)行全棧優(yōu)化,提高集群的算力利用率和韌性,支撐大模型從誕生到迭代的整個(gè)周期。此外,算力工廠還依托自身能力開展智能化轉(zhuǎn)型服務(wù),在研發(fā)、供應(yīng)、生產(chǎn)、營(yíng)銷、服務(wù)等全鏈條環(huán)節(jié)運(yùn)用AI,提升運(yùn)營(yíng)效率,如編程助手借助自研大模型為研發(fā)工程師節(jié)省大量時(shí)間。
三、市場(chǎng)應(yīng)用與客戶反饋
在市場(chǎng)應(yīng)用方面,李金波表示,在高校和科研院所,由于經(jīng)費(fèi)和場(chǎng)地的限制,常采用幾個(gè)集裝箱拼接的模式來(lái)滿足偶發(fā)性的算力需求。這些智算中心功率密度一般在100-200千瓦左右,使用周期與高??蒲许?xiàng)目周期相匹配,到期報(bào)廢后對(duì)場(chǎng)地和投入影響較小。在海外市場(chǎng),由于人力成本高,預(yù)制化智算中心能夠快速部署,滿足當(dāng)?shù)貙?duì)算力的緊急需求。
對(duì)于客戶關(guān)心的方案選擇和成本問題,李金波表示,AIDC解決方案具有高度靈活性,客戶可根據(jù)自身需求選擇不同的模塊和配置,算力倉(cāng)等產(chǎn)品也可單獨(dú)交付。在成本方面,雖然預(yù)制化方案在前期的CAPEX投入可能相對(duì)較高,但從長(zhǎng)期來(lái)看,通過液冷等綠色節(jié)能技術(shù)的應(yīng)用,后期的OPEX能夠顯著降低,在大規(guī)模數(shù)據(jù)中心中,TCO(總體擁有成本)有望實(shí)現(xiàn)最低。
四、技術(shù)創(chuàng)新與產(chǎn)業(yè)發(fā)展趨勢(shì)
在技術(shù)創(chuàng)新上,浪潮信息取得了多項(xiàng)突破。在網(wǎng)絡(luò)方面,針對(duì)大模型訓(xùn)練中的網(wǎng)絡(luò)瓶頸問題,打造端網(wǎng)協(xié)同的X400超級(jí)AI以太網(wǎng)解決方案,將交換機(jī)和網(wǎng)卡緊密耦合,創(chuàng)新自適應(yīng)路由和擁塞控制方法,數(shù)據(jù)傳輸?shù)挠行捖食?5%,通信效率較傳統(tǒng)組網(wǎng)方式提升1.6倍。在算力供給模塊,部署性能強(qiáng)勁的AI服務(wù)器和自研智能套件,實(shí)現(xiàn)超過80%的算力利用率,并通過并行優(yōu)化策略,使千卡集群的拓展性超過99%。此外,元腦企智EPAI平臺(tái)為大模型應(yīng)用落地提供了豐富功能和圖形化界面,降低了開發(fā)難度,幫助企業(yè)加速大模型的落地應(yīng)用。
展望未來(lái),張強(qiáng)認(rèn)為,隨著液冷技術(shù)的普及和算力集群規(guī)模的擴(kuò)大,大規(guī)模預(yù)制化智算中心的市場(chǎng)需求將持續(xù)增長(zhǎng)。在人工智能產(chǎn)業(yè)中,應(yīng)加強(qiáng)長(zhǎng)期創(chuàng)新,避免內(nèi)卷式競(jìng)爭(zhēng),促進(jìn)芯片制造廠商、軟件開發(fā)商和客戶之間的協(xié)同發(fā)展,合理規(guī)劃算力系統(tǒng),提高算力利用率。周相峰則強(qiáng)調(diào),在當(dāng)前智算時(shí)代,預(yù)制化AIDC是最優(yōu)解決方案,隨著技術(shù)的不斷進(jìn)步,未來(lái)還可能會(huì)出現(xiàn)新的技術(shù)和模式對(duì)其進(jìn)行迭代。
浪潮信息的算力工廠和預(yù)制化AIDC解決方案,不僅是應(yīng)對(duì)當(dāng)前智算中心建設(shè)挑戰(zhàn)的創(chuàng)新舉措,更是推動(dòng)人工智能產(chǎn)業(yè)發(fā)展的重要力量。通過技術(shù)創(chuàng)新、靈活的解決方案和對(duì)市場(chǎng)需求的精準(zhǔn)把握,浪潮信息在算力領(lǐng)域持續(xù)深耕,為各行業(yè)的智能化轉(zhuǎn)型提供了堅(jiān)實(shí)的支撐,也為整個(gè)產(chǎn)業(yè)的可持續(xù)發(fā)展指明了方向。算力工廠的模式將成為智算中心建設(shè)的主流。