在浪潮計(jì)算機(jī)看來(lái),算力不僅僅是高端芯片制造問(wèn)題,不僅是高端芯片所面臨的一些前所未有的挑戰(zhàn),諸如摩爾定律、登納德縮放定律、以及阿姆達(dá)爾定律即將失效的問(wèn)題等。

李巖指出:“芯片算力真正釋放給客戶得到應(yīng)用,離不開(kāi)算力平臺(tái)這一關(guān)鍵支撐,上游算力芯片多元化、單芯片高速率、高功耗的發(fā)展趨勢(shì),下游自監(jiān)督、多模態(tài)巨量模型的應(yīng)用需求,給算力平臺(tái)的構(gòu)建帶來(lái)了前所未有的挑戰(zhàn),多元算力基礎(chǔ)設(shè)施建設(shè)已經(jīng)開(kāi)始進(jìn)入深水區(qū)?!?/p>

“與芯片算力相比,算力平臺(tái)不僅是簡(jiǎn)單的系統(tǒng)集成,更是一項(xiàng)涉及10000多個(gè)零部件、50多類專用芯片、30多個(gè)技術(shù)方向、100多種傳輸協(xié)議,從PCB到PCBA再到整機(jī)制造會(huì)用到150余種加工制造工藝,為了確保數(shù)以萬(wàn)計(jì)零件的正確組裝并能最終釋放出系統(tǒng)最大性能,需要對(duì)280多個(gè)關(guān)鍵過(guò)程控制點(diǎn)的質(zhì)量進(jìn)行嚴(yán)格把控,需要管理平臺(tái)對(duì)異構(gòu)算力資源的精細(xì)化管理,由此可以看出,多元算力平臺(tái)的構(gòu)建是一項(xiàng)巨量工程、技術(shù)門(mén)檻高、產(chǎn)業(yè)配套難,算力平臺(tái)是跨越芯片到應(yīng)用之間的鴻溝、高效釋放多元芯片算力的關(guān)鍵?!彼f(shuō)。

從芯片到算力平臺(tái),浪潮計(jì)算機(jī)在這里揭示了一個(gè)簡(jiǎn)單的道理:算力不僅是GPU等芯片能力的問(wèn)題,管理的調(diào)度和協(xié)同管理同樣重要,以AIGC的實(shí)踐為例,AIGC的大模型訓(xùn)練需要強(qiáng)大算力的支撐,需要部署上萬(wàn)片GPU,通過(guò)集群計(jì)算來(lái)滿足需要。但是仔細(xì)觀察GPU使用效率就會(huì)發(fā)現(xiàn),這些GPU并沒(méi)有達(dá)到100%,甚至連50%都沒(méi)有,造成算力、能源的浪費(fèi)??梢哉f(shuō),通過(guò)堆積GPU滿足算力的需求,是一種簡(jiǎn)單粗暴的做法,也是一種相對(duì)簡(jiǎn)單的做法。

如今摩爾定律紅利不在,傳統(tǒng)方法難以為繼,在這種情況下,浪潮計(jì)算機(jī)的新思路更加具有可行性。

所謂算力問(wèn)題,不僅是計(jì)算能力的問(wèn)題,同時(shí)也是能耗和安全等問(wèn)題。以能耗問(wèn)題為例,國(guó)家發(fā)改委相關(guān)數(shù)據(jù)顯示,我國(guó)數(shù)據(jù)中心年用電量已占全社會(huì)用電的2%左右,且仍在快速增長(zhǎng)中。如今,一臺(tái)AI服務(wù)器功率已經(jīng)達(dá)到約為5000w,其使用兩年的電費(fèi),就已經(jīng)和服務(wù)器整機(jī)初始購(gòu)買(mǎi)成本相當(dāng),因此綠色節(jié)能,有效降低運(yùn)營(yíng)成本,不僅社會(huì)責(zé)任問(wèn)題,同時(shí)也是用戶非常關(guān)注的現(xiàn)實(shí)問(wèn)題,也是必須要解決的問(wèn)題。安全的問(wèn)題更是首當(dāng)其沖,如果不能夠?qū)崿F(xiàn)安全可控,沒(méi)有堅(jiān)實(shí)的基礎(chǔ),所謂現(xiàn)代化應(yīng)用無(wú)異于沙地建樓。

對(duì)于算力問(wèn)題而言,計(jì)算、能耗和安全諸要素之間不是彼此孤立的,更多是交織在一起的。以計(jì)算芯片多元異構(gòu)的選擇為例,很多是基于安全和現(xiàn)實(shí)的選擇,芯片本身在性能上存在一定差距,但如果能夠在資源效率做到揚(yáng)長(zhǎng)避短,從安全性、成本、綠色節(jié)能上考慮,仍然不是為上佳的選擇。

據(jù)張磊透露:算力平臺(tái)中涉及的很多技術(shù),如高密度高速互聯(lián)技術(shù)、動(dòng)態(tài)電壓頻率調(diào)整技術(shù)、智能能效管理技術(shù),以及整機(jī)散熱策略設(shè)計(jì)等技術(shù)等均有助于目標(biāo)的達(dá)成和實(shí)現(xiàn)。以高速互聯(lián)技術(shù)為例,近年來(lái)信號(hào)傳輸速率快速增長(zhǎng),PCIe信號(hào)速率在4.0之后迭代加速:Gen3 -> Gen4 經(jīng)歷7年,Gen4 – > Gen5 ->Gen6 間隔只有2年,當(dāng)前最高SerDes速率已經(jīng)達(dá)到112Gbps,預(yù)計(jì)三年內(nèi)會(huì)實(shí)現(xiàn)翻倍,這對(duì)信號(hào)完整性設(shè)計(jì)帶來(lái)更大挑戰(zhàn);再例如電源管理方面,隨著GPU功耗大幅提升,在12V母線架構(gòu)下,母線電流將接近1000A,未來(lái)3~5年,核心部件供電電流將大幅增長(zhǎng),CPU功耗提升到500W,供電電流(TDC)將達(dá)到330A,這給電源完整性(Power Integrity)設(shè)計(jì)帶來(lái)更大挑戰(zhàn)。

為應(yīng)對(duì)多元算力基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn),浪潮計(jì)算機(jī)提早布局基礎(chǔ)技術(shù)研究方向,持續(xù)攻關(guān)并完成了多項(xiàng)前沿技術(shù)的探索和成果轉(zhuǎn)化。首先是在高密度高速互聯(lián)技術(shù)方面,浪潮計(jì)算機(jī)開(kāi)展高精度有限元3D建模仿真技術(shù)研究,挑戰(zhàn)高速信號(hào)設(shè)計(jì)極限,在相同損耗等級(jí)的PCB板材條件下實(shí)現(xiàn)了更高的信號(hào)傳輸距離;在工業(yè)化大批量制造條件下, 40層以上高密度高速PCB互連實(shí)現(xiàn)了56Gpbs以上的速率;其次在高功率服務(wù)器系統(tǒng)散熱技術(shù)上,通過(guò)采用新型金屬相變導(dǎo)熱材料,在4U空間內(nèi)實(shí)現(xiàn)了8卡 500W GPU風(fēng)冷的散熱;其定向浸沒(méi)冷卻技術(shù),則實(shí)現(xiàn)了700W以上高功耗芯片的散熱;其創(chuàng)新的風(fēng)冷液冷混合綠色節(jié)能技術(shù),實(shí)現(xiàn)了400W以上中高功耗芯片冷卻,;采用虹吸散熱,波導(dǎo)散熱等提升傳統(tǒng)風(fēng)冷設(shè)計(jì)效率,提升散熱效率50%以上,數(shù)據(jù)中心電力費(fèi)用每年減少5%以上;采用動(dòng)態(tài)節(jié)能管理技術(shù),實(shí)時(shí)調(diào)整電源激活數(shù)量,保證電源50%高效負(fù)載,實(shí)現(xiàn)整機(jī)功耗效率更大化。此外,在面向服務(wù)器系統(tǒng)可靠性設(shè)計(jì)方面,建立了涵蓋元器件膨脹系數(shù)、運(yùn)行溫度等十余個(gè)加速失效因子模型,驗(yàn)證了加速因子(Af)與生命周期(Nf)之間關(guān)系。

為了滿足企業(yè)系統(tǒng)對(duì)于可靠性的需求,浪潮計(jì)算機(jī)以整機(jī)系統(tǒng)為中心,研究整機(jī)可靠性設(shè)計(jì),可管理設(shè)計(jì),易維護(hù)設(shè)計(jì)技術(shù),提升整機(jī)穩(wěn)定性、可靠性。以可靠性設(shè)計(jì)為例,基于底層寄存器級(jí)故障監(jiān)控機(jī)制研發(fā)的底層閾值和漏斗技術(shù),可以識(shí)別系統(tǒng)潛在的風(fēng)險(xiǎn);其功耗封頂技術(shù),則解決了某些異構(gòu)處理器芯片,功耗管理不完善的問(wèn)題;其創(chuàng)新NVMe熱插拔技術(shù),則彌補(bǔ)了部分處理器功能的不足。其研發(fā)的開(kāi)發(fā)平臺(tái)測(cè)試治具、32G高速總線仿真、400A級(jí)電源完整性技術(shù)等都填補(bǔ)了國(guó)內(nèi)異構(gòu)處理器的空白;浪潮計(jì)算機(jī)提供的在線升級(jí)工具、無(wú)人值守安裝以及硬件錯(cuò)誤信息識(shí)別,則讓易維護(hù)設(shè)計(jì)運(yùn)維如虎添翼。

浪潮計(jì)算機(jī)算力平臺(tái)的技術(shù)積累為解決算力問(wèn)題創(chuàng)造了條件,通過(guò)開(kāi)辟了解決問(wèn)題新的思路。

浪潮計(jì)算機(jī)推出的整機(jī)柜服務(wù)器堪稱算力平臺(tái)的優(yōu)秀之作。

浪潮整機(jī)柜服務(wù)器實(shí)現(xiàn)機(jī)柜與節(jié)點(diǎn)解耦,實(shí)現(xiàn)面向通用服務(wù)器機(jī)型的兼容,用戶能夠按需部署,靈活便捷;實(shí)現(xiàn)跨平臺(tái)、跨技術(shù)路線的統(tǒng)一納管,屏蔽異構(gòu)差異,無(wú)感遷移;浪潮整機(jī)柜服務(wù)器采用整柜集中供電,電源池化結(jié)合動(dòng)態(tài)節(jié)能調(diào)節(jié)技術(shù),如此,可以顯著降低數(shù)據(jù)中心電力消耗,讓數(shù)據(jù)中心建設(shè) “更靈活、更高效、更綠色”。

總之,GPU等高端芯片制造不是問(wèn)題的全部,“更好用、更可靠”終端和服務(wù)器才是算力問(wèn)題的終極體現(xiàn),從這個(gè)意義上來(lái)說(shuō),“更好用、更可靠”的算力,就可以是一道“選擇”題!

對(duì)此,你選擇對(duì)了嗎?

分享到

songjy

相關(guān)推薦