最近,一個大新聞震驚了整個IT界。
SC20(2020年超級計算機大會)期間,新一期的IO500榜單正式發(fā)布,鵬程實驗室的“鵬程云腦II”拿下了總榜第一以及10節(jié)點第一,分數(shù)分別達到了7043.99分和1129.75分。
而最振奮的是7043.99分直接領(lǐng)先第二名Intel 1792.98分數(shù)倍,不可謂不恐怖。以清華鄭緯民院士為首的團隊打造了Madfs文件系統(tǒng),通過一系列的創(chuàng)新,把IO500推到了一個新高度。
這次事件讓高性能計算熱度再一次攀升,已經(jīng)出了HPC圈,波及整個IT圈。有人有疑惑了,HPC用的存儲很牛嗎,和我們常用的存儲有什么區(qū)別?
如果你是一個ITer,那么你一定知道高端存儲,用在金融 、醫(yī)療HIS等核心業(yè)務系統(tǒng)。如果把高端存儲比喻成企業(yè)存儲產(chǎn)業(yè)的珠穆朗瑪峰,那么在海量數(shù)據(jù)存儲產(chǎn)業(yè)里,HPC存儲則是當之無愧皇冠上的明珠。
為什么HPC存儲這么牛?讓我們帶著問題來挖一挖。
什么是HPC?
HPC是High Performance Computing,即高性能計算,它是一種數(shù)據(jù)分析的應用場景。顧名思義,它通過聚合大量的計算和存儲單元對數(shù)據(jù)進行分析,從而解決復雜的問題。簡單點說,它就是最強大腦,可以快速運算找出復雜問題的答案。
為什么HPC如此重要?
HPC貌似很神秘,但它并非一個新東西。HPC已廣泛應用的我們的生產(chǎn)生活中,只是我們普通人并未察覺:
天氣預報是我們?nèi)粘I钪薪佑|最多的,當我們通過衛(wèi)星、傳感器搜集大量的氣象數(shù)據(jù)后,就要結(jié)合歷史數(shù)據(jù)通過HPC來進行大量的計算,對未來數(shù)天的天氣變化進行預測。
好萊塢科幻片大家都愛看,我們平常在電影院看的各種科幻大片有著極其復雜特效和視覺沖擊,其實每一幀特效畫面的背后都是HPC在支撐著渲染過程。
汽車設計中有一個碰撞模擬環(huán)節(jié),如果沒有HPC,車廠就必須用真車進行真實的碰撞,耗時耗力。而通過HPC我們可以模擬汽車碰撞過程中的各種數(shù)據(jù),反向改進汽車的安全性,無需真實的碰撞,大大節(jié)省車輛研發(fā)成本,也縮短研發(fā)周期。
當然,除了這些外,基因測序、油氣勘探、芯片制造、宇宙探測等諸多場景都離不開HPC,是不是有一種被HPC包圍的感覺?
其實HPC技術(shù)的進步與科技進步相互促進、相得益彰。
HPC技術(shù)的進步,讓計算的效率與日俱增,相同的投資,可以在更短的時間內(nèi)分析更多的數(shù)據(jù),推動相關(guān)應用和行業(yè)的科技進步;反之,科技的進步,會產(chǎn)生更多的數(shù)據(jù)給高性能計算,挖掘更多的數(shù)據(jù)價值。
因此,HPC真的很重要!
HPC的前世今生
HPC如此重要,那它是怎么一步一步走上神壇的呢?
下面我們一起來回顧一下HPC產(chǎn)業(yè)的發(fā)展歷程,看時代更迭、嘆滄桑變幻。HPC的發(fā)展大致可以分為四個階段:史前時代、向量機時代、并行計算時代和集群時代。
一、史前時代:算力時代的黎明
1946年,美國賓夕法尼亞大學摩爾電子工程學院打造了第一臺真正意義上的電子計算機ENIAC(Electronic Numerical Integrator And Computer),標志著我們進入了算力時代。
1955年,晶體管計算機TRADIC(TRAnisitor DIital Computer)在貝爾實驗室悄然誕生。而后,IBM、CDC等一批的公司先后入局,新世界的大門即將開啟。
1957年,CDC控制數(shù)據(jù)公司(Control Data Corporation)進入超級計算機領(lǐng)域,并于1963年發(fā)布了CDC6600,成為世界上公認的第一臺商業(yè)超級計算機。
超級計算機的誕生,為高性能計算的誕生奠定了基礎,但這個時代的超級計算機主要還是用于國防與科研,讓人高不可攀。
二、向量機時代:群雄逐鹿
還是CDC公司,1974年推出了CDC STAR-100,它在CDC6600結(jié)構(gòu)的基礎上添加了向量處理指令,以提高對于數(shù)學計算任務的處理能力,成為了業(yè)界首個使用向量處理器的計算機,并推出后續(xù)改進版本Cyber-205,一時成為耀眼明星。
1972年,CDC公司創(chuàng)始人離開公司,并創(chuàng)建了Cray Research公司,研究超級計算機,并于1975年發(fā)布了Cray-1超級計算機。它采用了集成電路,可提供100MFLOPS的浮點運算能力,成為業(yè)界公認最成功的向量流水計算機。之后,Cray X-MP并行向量機問世,向量機進入并行計算新階段。
80年代,日立、富士通和NEC等公司先后入局,高性能計算進入群雄逐鹿的時代。向量機在世界范圍內(nèi)影響越來越大,也吸引了更多用戶的目光,加快了商業(yè)化的進程。不過,向量機時代超級計算機主要依賴政府的支持,性能是第一優(yōu)先級。隨著超級計算機進行商業(yè)領(lǐng)域,成本訴求愈加強烈,而這也敲響了向量機時代的喪鐘。
三、并行計算時代:短暫又絢爛的春天
向量機發(fā)展的鼎盛時期,大規(guī)模集成電路已開始廣泛應用,微處理器出現(xiàn)并按照摩爾定律快速發(fā)展,讓中小企業(yè)、甚至個人都能享受到計算的紅利。這時,基于商業(yè)化為微處理器來構(gòu)建高性能計算機成為了可能,MPP架構(gòu)開始風靡。
思維機器、nCube、KSR、Intel、IBM等一系列公司加入了戰(zhàn)局,單個超級計算機的浮點運算能力達到數(shù)十GFLOPS。并行計算一定時間內(nèi)滿足了大量商業(yè)計算的需求,迎來了春天。
四、集群時代:獨領(lǐng)風騷二十年
八九十年代,旺盛的商業(yè)計算需求推著高性能計算產(chǎn)業(yè)往前走,人們卻發(fā)現(xiàn)基于Scale Up的架構(gòu)設計的并行計算機在面對以更高速度增長的算力需求時變得捉襟見肘。
正在這時,IT產(chǎn)業(yè)也步入了百花齊放的時代:以太網(wǎng)迅速發(fā)展,基于網(wǎng)絡將計算節(jié)點連接起來的技術(shù)開始出現(xiàn);Linux獲得成千上萬開發(fā)者的青睞,迅速發(fā)展。
1994年,名為Wiglaf的第一臺Beowulf集群在美國NASA Goddard航天中心誕生了,它把16臺微機通過10M網(wǎng)絡互連。在后續(xù)兩三年的改進型中,總性能達到了2GFLOPS。同一時間,加州大學伯克利分校的NOW問世,算力超過10GFLOPS。
基于集群計算的高性能計算機在Top500中的比例越來越高,高性能計算進入集群時代。從榜單來看,x86芯片在2000年左右的份額還不到1%,幾乎所有的系統(tǒng)都是基于RISC架構(gòu)的POWER、SPARC或是Alpha處理器。但是,到2011年, x86架構(gòu)的份額已經(jīng)達到了80%以上,彈指十年間,以英特爾為代表的X86芯片從當初的名不見經(jīng)傳變成了影響市場格局的霸主,一步步地將PA-RISC、Alpha、MIPS等擠出了這個計算機領(lǐng)域的高端俱樂部。
集群計算時代進入x86的壟斷階段。x86平臺本身的開放性和標準性,讓高性能計算系統(tǒng)的軟件開發(fā)變得更加容易,開發(fā)成本也更低。集群系統(tǒng)因為X86平臺而更容易搭建,其建設時間和復雜程度都是原有的MPP系統(tǒng)所不能比擬的。
多樣性算力新時代,存儲走向前臺
進入聯(lián)接和數(shù)字化的時代,數(shù)據(jù)量呈指數(shù)級增長,越來越多的企業(yè)和機構(gòu)開始逐步認識到,割裂的數(shù)據(jù)分析機制,將會成為未來制約數(shù)據(jù)價值變現(xiàn)的主要瓶頸,將AI、大數(shù)據(jù)等數(shù)據(jù)分析手段和成熟的HPC能力結(jié)合,讓數(shù)據(jù)價值更高效得以實現(xiàn)才是未來。作為HPC、AI、大數(shù)據(jù)融合的HPDA(High Performance Data Analytics)技術(shù)成為了新興趨勢,也是HPC產(chǎn)業(yè)增長的全新動力。
圖 Hyperion Research關(guān)于HPC存儲市場增長驅(qū)動力的調(diào)研
第三方報告顯示,2017到2023年HPDA類應用的年化增速將達到15.4%,HPC-based AI類應用的年化增速更將達到29.5%,遠高于傳統(tǒng)HPC的7.8%。這些都將對存儲帶來新的挑戰(zhàn),驅(qū)動HPC產(chǎn)業(yè)升級換代。HPDA需求主要來自HPC數(shù)據(jù)密集型應用的高速增長,這部分業(yè)務除了應用于傳統(tǒng)的HPC模擬和空間算法外,越來越多地滲透商業(yè)智能、金融、個性化醫(yī)療、科研等涉及數(shù)據(jù)挖掘的場景,如金融的反欺詐、氣候建模、基因組分析等。
HPDA大行其道的同時,也伴隨著ARM、GPU、FPGA等算力逐步崛起,x86壟斷地位變得岌岌可危,集群計算進入多樣性算力的階段。
高性能計算中,計算、存儲、網(wǎng)絡三大部件不可或缺。長久以來,追求更高的算力一直是產(chǎn)業(yè)的主要創(chuàng)新方向,因此在過去的三十年,算力在各方的推動下高速提升。如今,多樣性算力給高性能計算提供了更多更豐富的計算資源選項,打破了算力瓶頸。而存力的演進已經(jīng)趕不上算力的高速增長的步伐,成了高性能計算的短板,也影響著算力更好的發(fā)揮。高性能計算的重心開始從以計算為核心,向以數(shù)據(jù)為中心的計算演進,集群計算進入海量數(shù)據(jù)的新階段。
早期的HPC對于存儲的需求主要集中在匹配算力的大吞吐量上,隨著大數(shù)據(jù)、AI等復雜負載的出現(xiàn),存儲的重要性進一步凸顯。首先是數(shù)據(jù)量從PB級向EB級演進,存儲的成本占比越來越高,如何利用分級、糾刪碼、重刪壓縮等技術(shù)降低存儲成本,對于HPC整體成本的優(yōu)化至關(guān)重要;另外,隨著計算量的增大,對計算過程穩(wěn)定性的要求進一步凸顯,一旦在大規(guī)模運算的過程中存儲出現(xiàn)問題,除了過程數(shù)據(jù)丟失需要重啟計算任務,甚至可能帶來寶貴的原始數(shù)據(jù)丟失,而HPC存儲處理的是企業(yè)的核心業(yè)務數(shù)據(jù),如油藏數(shù)據(jù)、氣象數(shù)據(jù)、車輛設計數(shù)據(jù),這些海量的數(shù)據(jù)往往來之不易,非常寶貴。因此存儲將引領(lǐng)HPC產(chǎn)業(yè)下一波的創(chuàng)新方向。
可以說,HPC對于存儲的擴展性、性能和穩(wěn)定性需求,是所有非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域最為苛刻的,所以是海量存儲產(chǎn)業(yè)當之無愧皇冠上的明珠。
寫在最后
根據(jù)IDC統(tǒng)計,全球67%的高性能計算中心已經(jīng)在使用大數(shù)據(jù)相關(guān)技術(shù),30%的HPC計算機時資源用在了數(shù)據(jù)分析上,傳統(tǒng)HPC走向HPDA的趨勢已非常明朗,產(chǎn)業(yè)的各方是否已經(jīng)做好了充足的準備迎接新的時代?當下數(shù)據(jù)密集型HPC的應用,已經(jīng)讓我們隱約看到了帶給存儲產(chǎn)業(yè)的挑戰(zhàn),如支持混合負載并行訪問、多協(xié)議融合訪問、EB級超高擴展性、極致TCO等,未來存儲產(chǎn)業(yè)如何肩負起起HPC下一跳演進的使命,我們不妨拭目以待。