【圖1】NVIDIA公司Tesla事業(yè)部的CTO Steve Scott

Steve Scott去年8月份加入NVIDIA公司,也是NVIDIA 全新Kepler架構(gòu)的總設(shè)計師,之前在克雷公司供職 19 年之久,在其中后六年里擔任高級副總裁兼首席技術(shù)官,負責確立克雷公司的技術(shù)方向以及制定系統(tǒng)架構(gòu)發(fā)展路線圖。他持有 27 項美國專利,這些專利涵蓋了互聯(lián)網(wǎng)絡(luò)、處理器微架構(gòu)、高速緩存一致性、同步化機制以及可擴展并行架構(gòu)等領(lǐng)域。

高性能計算架構(gòu)未來走向混合

對于高性能計算中心來說,功耗是首當其沖需要考慮的因素。Steve談到,雖然電路的每瓦特性能雖然仍在提升,但現(xiàn)在的提升速度是每年將近 20%,而過去每年近 70%。這意味著,隨著每一代芯片的發(fā)展,CPU的加速和存儲器速度的提升將使得能耗問題越來越嚴重。因此,從能耗的角度來看,要在21世紀二十年代末實現(xiàn)百億億次級 (Exascale) 計算,必須要在架構(gòu)有所突破。

此外,從HPC軟件和應用程序的發(fā)展來看,未來絕大多數(shù)的HPC軟件和程序,都需要很好的單線程的計算能力、大容量的緩存,同時加上海量的并行計算能力。

Steve認為,無論是從能耗與性能發(fā)展的矛盾來看,還是從HPC軟件發(fā)展的需求來看,未來的高性能計算必將走向混合計算的架構(gòu)。NVIDIA的GPU+CPU混合架構(gòu)、Intel的MIC+Xeon混合架構(gòu)、AMD的Fusion等都是混合架構(gòu)的典型代表。

【圖2】NVIDIA GPU+CPU混合計算架構(gòu)

Steve介紹道,在NVIDIA的混合架構(gòu)中,充分利用了GPU在能耗、并行計算方面的優(yōu)勢。為了改善應用的每瓦特性能,NVIDIA將大部分工作轉(zhuǎn)到了專為吞吐量而優(yōu)化的核心上來,僅使用快速 (但效率較低) 的 CPU 核心來處理常駐的串行工作。因為一個核心無法做到既針對節(jié)能而優(yōu)化又針對快速的單線程性能而優(yōu)化,所以混合型架構(gòu)讓我們能夠把精力集中在使 GPU 核心越來越節(jié)能上來,同時依賴 CPU 核心實現(xiàn)極高的串行性能。

Tesla三面修煉 誓破百億億次大關(guān)

作為NVIDIA在高性能計算領(lǐng)域的主打產(chǎn)品,Tesla從2007年6月開始推出至今,五年多的時間,Tesla的定位也從個人高性能計算領(lǐng)域不斷轉(zhuǎn)向企業(yè)高性能計算領(lǐng)域。Steve在采訪中重點強調(diào),Tesla未來將在優(yōu)化能效(Power Efficiency)、簡化編程和提升程序可移植性(Ease of Programming and portability)、應用領(lǐng)域覆蓋(Application Space Coverage)等三個方面不斷加強,最終突破百億億次級計算的大關(guān)。

在能效方面,GPU+CPU的架構(gòu)當然具有得天獨厚的優(yōu)勢。Steve介紹道,為了改善應用的每瓦特性能,NVIDIA將大部分工作轉(zhuǎn)到了專為吞吐量而優(yōu)化的核心上來,僅使用快速 (但效率較低) 的 CPU 核心來處理常駐的串行工作。因為一個核心無法做到既針對節(jié)能而優(yōu)化又針對快速的單線程性能而優(yōu)化,所以混合型架構(gòu)讓我們能夠把精力集中在使 GPU 核心越來越節(jié)能上來,同時依賴 CPU 核心實現(xiàn)極高的串行性能。同時,GPU本身的每瓦性能比也在不斷提升,Kepler GPU的每瓦性能比,相比Fermi提供了2倍左右,而將于2014年發(fā)布的Maxwell相對Fermi更是提高了6倍。

【圖2】Tesla未來的三大目標

談到混合架構(gòu),編程是一個不可避免的問題。架構(gòu)再好,如果應用程序說無法充分利用架構(gòu)的優(yōu)勢,那一切都只是空談,基于混合架構(gòu)的編程也是當前混合架構(gòu)發(fā)展所面臨的最大的難點之一。

Tesla的第二個目標就是簡化編程并提升程序的可移植性。對于NVIDIA而言,如何幫助用戶實現(xiàn)更加簡單地在GPU+CPU架構(gòu)上進行編程,這是需要重點考慮的。

Steve在采訪中介紹道,NVIDIA提供了CUDA框架和對OpenACC并行運算的程序標準,讓全球的開發(fā)人員享受利用GPU運算所帶來的好處。Steve還強調(diào),CUDA和OpenACC各有所長,分別適用于不同的編程場景,NVIDIA未來將同時支持CUDA和OpenACC。

CUDA(Compute Unified Device Architecture)比較適合從零開始去寫一個程序,用戶可以基于CUDA使用任何語言編寫應用程序。最新的CUDA 5也在10月份正式發(fā)布,NVIDIA在官方新聞稿中表示,CUDA 5可以讓開發(fā)人員充分發(fā)揮NVIDIA GPU的加速性能,提供了對最新“開普勒”家族的完整支持。

而OpenACC則比較適合已經(jīng)做完的程序。對于現(xiàn)有的程序,如果需要利用到GPU加速能力,可以無需重新編程,通過標記的方式就可以利用到GPU的性能,但性能提升可能不如使用CUDA提升得那么明顯。

此外,Steve對記者表示,NVIDIA在全球有很多OpenACC的合作伙伴,提供OpenACC的編譯器。事實上,OpenACC的程序不只是支持GPU,像X86多核架構(gòu)也都是支持的,未來這些OpenACC的第三方的編譯器也將會支持英特爾MIC架構(gòu)、AMD的解決方案等等,這些廠商也將會支持這種標記型的語言。

Tesla的第三個發(fā)展目標就是應用領(lǐng)域的覆蓋,從圖形計算領(lǐng)域走向通用計算領(lǐng)域也是GPU始終追求的目標。

總之,NVIDIA希望通過Tesla來幫助用戶真正突破百億億次計算的大關(guān)。值得一提的是,可能在本月(11月)的SC12大會上公布的超級計算機TOP500中奪冠的泰坦(Titan)超級計算機,就是使用NVIDIA Tesla K20 Kepler加速器與AMD的皓龍?zhí)幚砥飨嘟Y(jié)合,達到了20 PetaFLOPS的計算能力。Titan由2009年最快的超級計算機Jaguar升級而來。Titan的處理器核數(shù)僅高出Jaguar 30%,但借助圖形處理器的幫助,能在相同的200個機柜空間內(nèi)提升十倍的指令周期,耗電量從原本的7 megawat增長至9 megawat,電源效率為原本的5倍,預計一年電費為一千萬美元。

“NVIDIA(英偉達)的GPU加速技術(shù)并不僅僅是提供一個產(chǎn)品而已,而是一個正確的解決方案,同時也是一個商業(yè)的模式,給合作伙伴非常好的支持。這是一個可持續(xù)的商業(yè)模式。”Steve表示。

通往百億億次的道路不是一帆風順的,異構(gòu)計算的出現(xiàn)為百億億次級計算提供了新的思路,而GPU+CPU的模式在能耗、并行性能方面具有天然的優(yōu)勢,它究竟能否幫助用戶最先攻破抵達百億億次級計算的大關(guān),并享受到百億億次級計算的超強計算能力?這就要看NVIDIA和整個生態(tài)系統(tǒng)的修煉成果了。

分享到

tangrong

相關(guān)推薦