千萬億次的概念
實(shí)際上我們在談千萬億次超級計(jì)算機(jī)時(shí)必須要區(qū)分三點(diǎn):一是系統(tǒng)理論峰值計(jì)算速度千萬億次;二是通常意義下全球TOP500排名中 Linpack測試峰值Pflops; 三是在實(shí)際應(yīng)用中持續(xù)應(yīng)用性能Pflops。我們在談到千萬億次計(jì)算時(shí)更多的是指在實(shí)際應(yīng)用中持續(xù)應(yīng)用性能超過千萬億次每秒。
TOP500中幾年來第1名和第500名均保持6~8年的時(shí)間,也就是說當(dāng)今的第1名在6~8年后則排名到第500名,而8~10年后微處理器芯片就可達(dá)到本年度TOP第500名的浮點(diǎn)性能。當(dāng)前,全球高性能計(jì)算機(jī)學(xué)術(shù)界及產(chǎn)業(yè)界都期待并預(yù)測2010年6月第一臺Linpack測試峰值千萬億次(Petaflops)計(jì)算機(jī)的出現(xiàn),并期待8年后,也就是2018年,千萬億次超級計(jì)算時(shí)代的真正到來,也就是說千萬億次將是全球TOP500排行榜的入門門檻。
超級計(jì)算機(jī)一直是各國關(guān)鍵技術(shù)裝備之一,廣泛應(yīng)用于國防、信息安全、石油勘探、氣象預(yù)報(bào)、生物制藥、工程仿真、科學(xué)計(jì)算、商業(yè)計(jì)算等領(lǐng)域,是各國戰(zhàn)略競爭的制高點(diǎn)。當(dāng)前,全球各國都投入了巨大的人力物力進(jìn)行研究。
第28次全球TOP500超級計(jì)算機(jī)系統(tǒng)排行榜地域分布,我們可看到,全球最快性能TOP500超級計(jì)算機(jī)大部分在美洲,歐洲和亞洲最快 TOP500超級計(jì)算機(jī)之和也不敵美國。近年歐洲超級計(jì)算機(jī)比例有所下降,美洲則有所增長。歐洲和亞洲已勢均力敵,其占有量英國和德國占有優(yōu)勢。在亞洲超級計(jì)算機(jī)占有量日本占優(yōu)勢,中國和印度正在奮力直追,但與美日相比,仍有較大差距。
各國的千萬億次之路
當(dāng)前全球共有四個(gè)國家發(fā)布了千萬億次超級計(jì)算機(jī)系統(tǒng)研發(fā)計(jì)劃。
1.美國
DARPA HPCS(美國國防部預(yù)先研究計(jì)局,High Productivity Computing Systems program)項(xiàng)目目標(biāo)就是開發(fā)高生產(chǎn)率千萬億次超級計(jì)算機(jī)系統(tǒng),當(dāng)前該項(xiàng)目已從大規(guī)模研究階段轉(zhuǎn)向最后階段–2010年前完成兩臺千萬億次高生產(chǎn)率超級計(jì)算機(jī)系統(tǒng)的研制和開發(fā)。IBM PERCS系統(tǒng)和Cray的"適應(yīng)性超級計(jì)算"(Adaptive Supercomputing) Cascade 系統(tǒng)分別獲得2.5億美元和2.44億美元資助,用以研制并產(chǎn)品化可擴(kuò)展至4Pflops的超級計(jì)算機(jī)。該項(xiàng)目千萬億次超級計(jì)算機(jī)系統(tǒng)每秒千兆位 (GUPS)更新(系統(tǒng)對存儲器的隨機(jī)更新速度)將達(dá)到8000-64000GUPS,將是當(dāng)前GUPS最高記錄保持者–IBM藍(lán)色基因(IBM Blue Gene/L)的200~1800倍。
IBM PERCS系統(tǒng)基于Power7微處理器、AIX操作系統(tǒng)、通用并行文件系統(tǒng)(GPFS)、IBM并行計(jì)算環(huán)境及互聯(lián)和存儲子系統(tǒng)進(jìn)行開發(fā)。在該系統(tǒng)中IBM同時(shí)計(jì)劃開發(fā)高效用軟件和開發(fā)工具,以提高開發(fā)人員的生產(chǎn)率。
Cray Cascade 系統(tǒng)本質(zhì)上是一個(gè)能在單系統(tǒng)中提供包括標(biāo)量、FPGA和混合矢量/超級多線程(MMT)處理器板卡的機(jī)箱內(nèi)集群(cluster-in-a-box)。在該系統(tǒng)中,Cray將設(shè)計(jì)一款基于其XD1系統(tǒng)的FPGA加速板卡。Cascade系統(tǒng)將開發(fā)編譯器軟件以處理多種涉及標(biāo)量、矢量或MMT應(yīng)用的混合任務(wù)。在未來四年中,Cray將基于Cascade系統(tǒng)研發(fā)商品化的千萬億次超級計(jì)算機(jī),如為美國國家橡樹嶺實(shí)驗(yàn)室 (ORNL)開發(fā)代號為"Baker"的超級計(jì)算機(jī)系統(tǒng)。"Baker"超級計(jì)算機(jī)預(yù)計(jì)采用四路雙核AMD Opteron處理器(24000個(gè)處理器),基于Cray專用SeaStar 3D互連網(wǎng)絡(luò)實(shí)現(xiàn)和AMD HyperTransport總線互聯(lián)。
2006年9月,IBM發(fā)布了代號為"RoadRunner"的千萬億次超級計(jì)算機(jī)研發(fā)計(jì)劃,這臺代號為"Roadrunner"的千萬億次超級計(jì)算機(jī)計(jì)劃于2008年部署在美國洛斯阿拉莫斯國家實(shí)驗(yàn)室(LANL),采用基于AMD Opteron的"IBM System x3755服務(wù)器"與基于Cell BE的"IBM BladeCenter H 系統(tǒng)"來構(gòu)造,以實(shí)現(xiàn)1.6Pflops以上的峰值性能。全系統(tǒng)預(yù)期采用16000顆AMD Opteron CPU 和16000顆八核Cell 處理器芯片,同時(shí)Roadrunner還將采用先進(jìn)的"混合編程(Hybrid Programming)"軟件,以實(shí)現(xiàn)異構(gòu)計(jì)算。在超級計(jì)算機(jī)研發(fā)方面,IBM的目標(biāo)是2010年開發(fā)出峰值性能達(dá)到1Pflops的"藍(lán)色基因/P" 系統(tǒng),2010~2012開發(fā)出峰值性能達(dá)到10Pflops的"藍(lán)色基因/Q"系統(tǒng)。
美國能源部(DOE)和國家科學(xué)基金會(NSF)也都推出了各自的Petaflops系統(tǒng)研制計(jì)劃,NSF的目標(biāo)是在2010年左右實(shí)現(xiàn)持續(xù)性能達(dá)到Pflops規(guī)模的系統(tǒng)。
2.日本
當(dāng)前日本共有五個(gè)千萬億次超級計(jì)算機(jī)研制計(jì)劃: MDGRAPE-3計(jì)劃,2006年6月完成;GRAPE-DR 計(jì)劃,2004年到2008年;Next-Generation Supercomputer Project 計(jì)劃,2006年到2012年完成;富士通公司(Fujitsu)3Petaflops超級計(jì)算機(jī)系統(tǒng)研制計(jì)劃,2005到2011年完成;地球模擬器的升級計(jì)劃。
從某些方面來說,日本已憑借其MDGrape-3高度并行專用超級計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)了Pflops計(jì)算能力。Grape計(jì)劃開始于十幾年前,最終在2006年6月完成。其目的是為天文模擬以及后來的分子動力學(xué)模擬提供高精度N-體計(jì)算,由日本物理與化學(xué)研究所牽頭。
與此同時(shí),富士通公司與日本九州大學(xué)合作期望能在2011年實(shí)現(xiàn)3Pflops超級計(jì)算機(jī)系統(tǒng)。該系統(tǒng)基于光交換(opto- switching)技術(shù),采用100Gflops處理器,一塊處理芯片上具有8個(gè)處理器。"地球模擬器"計(jì)算機(jī)升級后也預(yù)期將達(dá)到16Pflops性能,該系統(tǒng)將采用兩種計(jì)算模式:粗略計(jì)算和精確計(jì)算以實(shí)現(xiàn)更高的并行計(jì)算效率。
3.法國
法國Bull公司也計(jì)劃在2013年開發(fā)出千萬億次超級計(jì)算機(jī)系統(tǒng),用于一項(xiàng)法國軍事項(xiàng)目。
4.中國
根據(jù)《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要》、《國家"十一五"科學(xué)和技術(shù)發(fā)展規(guī)劃》和《863計(jì)劃"十一五"發(fā)展綱要》,我國設(shè)立了"高效能計(jì)算機(jī)及網(wǎng)格服務(wù)環(huán)境"重大項(xiàng)目,曙光公司和中科院計(jì)算所已獲該重大專項(xiàng)基金支持,將在2008年6月完成應(yīng)用于科學(xué)工程計(jì)算、網(wǎng)絡(luò)信息服務(wù)和數(shù)據(jù)庫應(yīng)用的100萬億次超級計(jì)算機(jī)系統(tǒng),并在2010年最終實(shí)現(xiàn)中國的千萬億次超級計(jì)算機(jī)系統(tǒng)。
挑戰(zhàn)依然嚴(yán)峻
如果用刀片服務(wù)器在理論上來構(gòu)建千萬億次超級計(jì)算機(jī)系統(tǒng),我們?nèi)舨捎?4位2.4GHz 四核處理器(每個(gè)核2個(gè)CPU),每顆CPU實(shí)現(xiàn)38.4Gflops的計(jì)算性能,那么我們需要26200顆四核 64位2.4GHz CPU。如果每個(gè)刀片服務(wù)器采用7U10片的架構(gòu),每個(gè)計(jì)算刀片采用雙路SMP,我們需要采用1310個(gè)刀片服務(wù)器、220個(gè)標(biāo)準(zhǔn)42U機(jī)柜,才能實(shí)現(xiàn)1Petaflops的峰值計(jì)算性能。整個(gè)系統(tǒng)預(yù)期重250噸,功耗在400兆瓦以上。
這只是理論峰值的構(gòu)建,具體在構(gòu)建中,我們將面臨諸多的問題:操作系統(tǒng)、編譯軟件、并行計(jì)算環(huán)境等系統(tǒng)和應(yīng)用軟件的擴(kuò)展性問題,如何支持 26200顆CPU的擴(kuò)展; 網(wǎng)絡(luò)互聯(lián)問題,我們需采用什么樣的網(wǎng)絡(luò)來降低如此大規(guī)模系統(tǒng)通信之間的延遲; 高效率并行算法的挑戰(zhàn),在千萬億次超級計(jì)算機(jī)系統(tǒng)中由于求解問題和系統(tǒng)規(guī)模的擴(kuò)大,我們需要并行度和并行效率更高的算法;同時(shí)我們也面臨系統(tǒng)高可靠性和散熱、功耗、占地面積的挑戰(zhàn),具體如下所述:
1.擴(kuò)展性問題
在一個(gè)十萬億次量級的高性能計(jì)算機(jī)系統(tǒng)中,當(dāng)前千兆以太網(wǎng)、萬兆以太網(wǎng)、InfiniBand、 Myrinet、Quadrics等商業(yè)化網(wǎng)絡(luò)均可為應(yīng)用開發(fā)者提供完整的網(wǎng)絡(luò)互聯(lián)。在一個(gè)胖樹拓?fù)浣Y(jié)構(gòu)中,用戶不必過于關(guān)注延時(shí),但當(dāng)系統(tǒng)規(guī)模擴(kuò)展超過 2萬個(gè)處理器時(shí),就必須采用低度(low-degree)互連或網(wǎng)格(grid)互連,胖樹結(jié)構(gòu)不適用于這樣的規(guī)模,延時(shí)將變成一個(gè)非常重要的問題。千萬億次計(jì)算機(jī)系統(tǒng)如何提供大規(guī)??蓴U(kuò)展低延遲交換互聯(lián)?
與此同時(shí),今天,基本上沒有系統(tǒng)軟件和應(yīng)用軟件能擴(kuò)展到這樣一個(gè)處理器的規(guī)模。當(dāng)前最快性能超級計(jì)算機(jī)擁有超過6000顆處理器,未來的千萬億次計(jì)算機(jī)系統(tǒng),其復(fù)雜性將遠(yuǎn)遠(yuǎn)超過這一規(guī)模,我們迫切需要重新設(shè)計(jì)軟件與硬件編程模型,以適應(yīng)系統(tǒng)的大規(guī)模擴(kuò)展和求解問題的大規(guī)模擴(kuò)展,并確保其高效性和高并行度。
2.可靠性問題
當(dāng)千萬億次超級計(jì)算機(jī)系統(tǒng)擴(kuò)展到成萬或十萬顆之多CPU以及幾百TB內(nèi)存時(shí),我們?nèi)绾伪U嫌布到y(tǒng)的可靠性,同時(shí)在這樣大規(guī)模的系統(tǒng)運(yùn)行中,軟件錯(cuò)誤也很難避免。
我們必須設(shè)計(jì)系統(tǒng)級的故障隔離、故障恢復(fù)機(jī)制,從而有效減少系統(tǒng)的平均無故障時(shí)間,也就是說,系統(tǒng)必須具備容錯(cuò)計(jì)算的能力。當(dāng)前從軟件層面實(shí)現(xiàn)系統(tǒng)相關(guān)故障的隔離和應(yīng)用遷移是可行的辦法之一。
3. 功耗挑戰(zhàn)
功耗已經(jīng)成為制約千萬億次超級計(jì)算機(jī)系統(tǒng)研發(fā)的主要因素之一,當(dāng)前每個(gè)節(jié)點(diǎn)功耗在300到1500瓦之間,而一個(gè)機(jī)柜功耗在20到30千瓦左右。當(dāng)今全球百萬億次超級計(jì)算機(jī)系統(tǒng)功耗在1500千瓦到8000千瓦之間,2010年一臺持續(xù)千萬億次超級計(jì)算機(jī)系統(tǒng)可能需要消耗20兆瓦或更高的功耗,其每年的電費(fèi)開銷也將高達(dá)1億元人民幣以上。當(dāng)前全球也只有少數(shù)幾個(gè)實(shí)驗(yàn)室能滿足這樣的能耗要求。
同時(shí)能源的價(jià)格也在飛速增長,未來2010年千萬億次超級計(jì)算機(jī)系統(tǒng)的能源消耗預(yù)期將遠(yuǎn)高于以上估算。我們可能會采取比如水冷或節(jié)能型芯片、FPGA(現(xiàn)場可編程門陣列)等技術(shù),但不能從根本上解決能耗問題。
4.均衡性挑戰(zhàn)
千萬億次超級計(jì)算機(jī)系統(tǒng)其均衡性設(shè)計(jì)面臨諸多挑戰(zhàn):
其一,存儲器性能與處理器性能差距的越來越大以及本地帶寬及延遲和全局帶寬及延遲的不一致性導(dǎo)致存儲器供數(shù)能力與處理器計(jì)算能力的不協(xié)調(diào),我們也稱之為存儲器墻(Memory wall)。
其二,確保系統(tǒng)從I/O輸入到I/O輸出均保持均衡的帶寬設(shè)計(jì),在有著2萬顆或更多顆處理器的千萬億次超級計(jì)算機(jī)系統(tǒng)中保持這種I/O均衡設(shè)計(jì)并非易事。
其三,千萬億次超級計(jì)算機(jī)生態(tài)鏈的均衡發(fā)展挑戰(zhàn)。持續(xù)應(yīng)用性能千萬億次超級計(jì)算機(jī)發(fā)展涉及到芯片、操作系統(tǒng)、編譯器、并行計(jì)算環(huán)境、上層應(yīng)用軟件、算法、存儲系統(tǒng)、交換系統(tǒng)等產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的均衡發(fā)展,也涉及到技術(shù)、資金、人才、產(chǎn)業(yè)界、學(xué)術(shù)界等諸多環(huán)節(jié)的均衡發(fā)展與協(xié)調(diào)配合。