E級(jí)計(jì)算機(jī)含義是每秒10的18次方科學(xué)計(jì)算的能力,也就是要完成1exaflop/s的浮點(diǎn)運(yùn)算能力。最新發(fā)布的HPCTop 500排行榜中,排名第一的Summit超級(jí)計(jì)算機(jī)的計(jì)算能力達(dá)到了148.6PFlop/s,距離E級(jí)計(jì)算也不過(guò)是一步之遙。

看似近在咫尺,但實(shí)現(xiàn)E級(jí)計(jì)算機(jī)遠(yuǎn)沒(méi)有那么樂(lè)觀。

眾所周知,E級(jí)計(jì)算有5大難題:功耗墻、訪存墻、通信墻、可靠性以及并行計(jì)算可擴(kuò)展性,任何一個(gè)都足以讓E級(jí)計(jì)算夭折。

盡管如此,技術(shù)進(jìn)步也為E級(jí)計(jì)算設(shè)計(jì)提供了可能,以日本Fugaku(POST-K)為例,除了向量處理器之外,更高帶寬的HBM內(nèi)存,也就是3D內(nèi)存產(chǎn)品,就成為了仰仗的利器。與之相比,歐洲非常重視開(kāi)源處理器架構(gòu)RISC-V以及由Atos公司牽頭自研的歐洲處理器,歐洲在新的計(jì)算模型、語(yǔ)言、算法,以及大規(guī)模數(shù)據(jù)模擬方面雄厚積累,也是他們的優(yōu)勢(shì)。美國(guó)方面,投資18億美元研制3臺(tái)E級(jí)計(jì)算機(jī)同時(shí),另投入18億美元用于研發(fā)應(yīng)用,一句話,八仙過(guò)海,各顯其能。

在如此緊迫的局勢(shì)面前,中國(guó)的超級(jí)計(jì)算計(jì)從安處?

作為國(guó)內(nèi)高性能計(jì)算的領(lǐng)頭企業(yè),聯(lián)想給出了自己的答案:融合計(jì)算。

那么,什么是融合計(jì)算?E級(jí)計(jì)算又融合了什么?在此,給出了E級(jí)計(jì)算超級(jí)計(jì)算機(jī)的2種實(shí)現(xiàn)方式:僅為E級(jí)計(jì)算設(shè)計(jì)而設(shè)計(jì),以及EveryScale設(shè)計(jì)方式。

所謂EveryScale重點(diǎn)強(qiáng)調(diào)的是采用開(kāi)放的技術(shù)設(shè)計(jì),利用現(xiàn)有科技技術(shù)的進(jìn)步,積小勝為大勝,尋求突破。

以網(wǎng)絡(luò)通信為例,HDR的共享I/O為每個(gè)高性能計(jì)算節(jié)點(diǎn)提供了100GB帶寬的連接;溫水冷卻技術(shù)為散熱,能耗比提供了堅(jiān)實(shí)的技術(shù)支撐。據(jù)透露,為了突破數(shù)據(jù)訪存墻,聯(lián)想針對(duì)NVMe SSD、SCM等新一代存儲(chǔ)介質(zhì)進(jìn)行極致優(yōu)化設(shè)計(jì),構(gòu)建了面向下一代可橫向擴(kuò)展的分布式存儲(chǔ)新產(chǎn)品NFDS。

更能夠體現(xiàn)開(kāi)放技術(shù)設(shè)計(jì)思路的是HPC與AI、大數(shù)據(jù)技術(shù)的融合。

與以往不同的是,這里的融合不僅僅強(qiáng)調(diào)AI、大數(shù)據(jù)應(yīng)用需要高性能計(jì)算,新的融合計(jì)算也強(qiáng)調(diào)AI、大數(shù)據(jù)分析對(duì)于HPC設(shè)計(jì)的反哺。

以目前Top 500排行第一的Summit為例,他們?cè)O(shè)計(jì)了一個(gè)神經(jīng)網(wǎng)絡(luò)模型,通過(guò)訓(xùn)練作為數(shù)據(jù)仿真的代理,能夠在極短時(shí)間內(nèi)評(píng)估模型參數(shù),指導(dǎo)高性能計(jì)算仿真應(yīng)用。

有數(shù)據(jù)表明。傳統(tǒng)HPC 500萬(wàn)次仿真,30億CPU小時(shí)的計(jì)算,經(jīng)過(guò)AI仿真,被成功壓縮為6萬(wàn)次,計(jì)算效率大大提升。

此外,以AI應(yīng)用為核心的智能化運(yùn)維,對(duì)于超級(jí)計(jì)算機(jī)設(shè)計(jì)同樣至關(guān)重要。

眾所周知,Top500排行的超級(jí)計(jì)算機(jī),大多采用了Cluster集群技術(shù),借助計(jì)算節(jié)點(diǎn)堆疊來(lái)提升計(jì)算能力。如今PFlop/s級(jí)別的超級(jí)計(jì)算機(jī),計(jì)算核心多達(dá)上百萬(wàn),如果全部采用CPU實(shí)現(xiàn),大約需要多達(dá)數(shù)萬(wàn)臺(tái)x86服務(wù)器。我們假設(shè)服務(wù)器可靠性是萬(wàn)分之一,那么,由萬(wàn)臺(tái)節(jié)點(diǎn)構(gòu)建的Cluster集群,技術(shù)難度可見(jiàn)一斑。x86服務(wù)器可靠性將是一個(gè)主要瓶頸。

AI、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析技術(shù)的使用,讓我們能夠未卜先知,準(zhǔn)確控制和處理故障節(jié)點(diǎn),這就為更大規(guī)模Cluster創(chuàng)造了條件,這也是AI融合計(jì)算的精髓。

融合計(jì)算不僅體現(xiàn)在硬件,也體現(xiàn)在軟件。

LiCO能夠幫助用戶管理好他們的AI系統(tǒng)。

融合計(jì)算不僅是技術(shù)的融合,也是行業(yè)應(yīng)用的融合,這也是聯(lián)想堅(jiān)持采用開(kāi)放技術(shù)的重要原因。

E級(jí)計(jì)算并不是拿來(lái)看的,也是要拿來(lái)的用。在剛剛結(jié)束的世界超算大會(huì)(ISC 2019)上,聯(lián)想以173套的成績(jī)?cè)俅蜗s聯(lián)HPC TOP500榜單全球第一,不僅印證了聯(lián)想是全球最大HPC提供商的地位,也說(shuō)明聯(lián)想HPC真正做到了與行業(yè)的深度融合。

聯(lián)想將繼續(xù)以“全球化+中國(guó)特色”作為業(yè)務(wù)戰(zhàn)略,充分發(fā)揮自身優(yōu)勢(shì),構(gòu)建高度安全、可信的信息產(chǎn)業(yè)基礎(chǔ)設(shè)施,推動(dòng)中國(guó)企業(yè)實(shí)現(xiàn)技術(shù)升級(jí)與產(chǎn)品創(chuàng)新,這才是我們需要的。可以預(yù)見(jiàn),以融合計(jì)算為基石,E級(jí)計(jì)算的夢(mèng)想并不遙遠(yuǎn)!

分享到

songjy

相關(guān)推薦