圖1 英特爾的首席服務(wù)器平臺(tái)架構(gòu)師Faye A Briggs博士

“為了更加逼真的模擬現(xiàn)實(shí)生活中的問題,英特爾的目標(biāo)是在2018年創(chuàng)造出世界第一臺(tái)ExaFlops(10的18次方)計(jì)算機(jī),功耗在20-40MW之間。”Faye表示,要實(shí)現(xiàn)這一目標(biāo),還有許多問題需要解決,需要在微處理器、內(nèi)存、能耗、可靠性和彈性、并行計(jì)算和互連等方面的技術(shù)有很大的突破。

百億億次浮點(diǎn)運(yùn)算面臨的五大挑戰(zhàn)

計(jì)算性能:核數(shù)和IPC是主要的性能提升因素,但是對(duì)于高性能計(jì)算來說,內(nèi)存帶寬也是顯著因素之一。

內(nèi)存:內(nèi)存方面的技術(shù)挑戰(zhàn)包括Byte/Flop比、成本/面積、功耗和并行程度等方面。

能耗:隨著計(jì)算能力的不斷增強(qiáng),能耗已經(jīng)成為高性能計(jì)算的首要問題。對(duì)于百億億次的浮點(diǎn)運(yùn)算目標(biāo)而言,能耗問題更是不言而喻。對(duì)于超級(jí)計(jì)算機(jī)的能耗而言,通常使用pJ/Op指標(biāo)來衡量,也就是說每單位浮點(diǎn)運(yùn)算所需要的能耗,數(shù)量越小,表示HPC系統(tǒng)的能耗越理想。要實(shí)現(xiàn)百億億次超級(jí)計(jì)算系統(tǒng),能耗指標(biāo)需要降低到10pJ/Op,這是當(dāng)前情況的30—60分之一。

可靠性和彈性:高性能計(jì)算的可靠性一直以來都是一個(gè)最根本的問題,這也是高性能計(jì)算的應(yīng)用對(duì)于計(jì)算平臺(tái)所提出來的需求。如何增加DRAM的芯片數(shù)量?如何降低每插槽每年的失效次數(shù),以確保在插槽數(shù)不斷增加的情況下整個(gè)系統(tǒng)的可靠性?這些都是百億億次運(yùn)算所需要考慮的問題。

并行軟件:當(dāng)然,在強(qiáng)大的計(jì)算能力,歸根結(jié)底是為了滿足人類的需求,這必須要通過高性能計(jì)算的軟件來實(shí)現(xiàn)。隨著計(jì)算架構(gòu)的不斷擴(kuò)大,如何編寫出MIC架構(gòu)下的并行軟件?如何保證之前的基于至強(qiáng)平臺(tái)的軟件能夠在MIC架構(gòu)上運(yùn)行?這也是一個(gè)需要解決的問題。

英特爾百億億次的思路展望

事實(shí)上,在上述挑戰(zhàn)中,性能與能耗是一個(gè)天生的矛盾體。百億億次以為這性能的提升,而如何在性能提升的同時(shí),這才是解決問題的關(guān)鍵。在課程中,F(xiàn)aye介紹了他的一些新的想法,解決上述的挑戰(zhàn)。

多層內(nèi)存技術(shù):對(duì)于高性能計(jì)算來說,內(nèi)存帶寬也是顯著因素之一。GDDR已經(jīng)顯得力不從心,需要一種全新的內(nèi)存架構(gòu)來解決性能與能耗之間的矛盾。英特爾提出多層內(nèi)存技術(shù)(如下圖所示),這或許是未來內(nèi)存技術(shù)發(fā)展的一個(gè)新的方向。

Cache:對(duì)于多數(shù)HPC應(yīng)用來說,大Cache能夠帶來性能的提升,還能避免內(nèi)存到Cache的頻繁訪問,從而降低能耗。MPKI(Miss Per Thousand Instructions,每千條指令指令的未命中次數(shù))分析表示:當(dāng)Cache大小在1MB-4MB的時(shí)候,MPKI值最小。并且,統(tǒng)計(jì)學(xué)的結(jié)果顯示,L2 Cache的命中率為11%的時(shí)候,達(dá)到最優(yōu)值。

基于MIC架構(gòu)的兩大開發(fā)工具集:英特爾提供了Parallel Studio和Cluster Studio兩個(gè)開發(fā)工具集(如下圖所示),分別用于編寫基于MIC架構(gòu)的優(yōu)化的程序和分布式的程序。

Faye表示,只有上述問題全部得到解決,才能真正邁向百億億次架構(gòu)。英特爾究竟能否按照預(yù)期,在2018年實(shí)現(xiàn)百億億次運(yùn)算?讓我們拭目以待吧。

分享到

tangrong

相關(guān)推薦