本文作者:Steven Collins,英特爾數(shù)據(jù)中心性能總監(jiān)
傳統(tǒng)觀念通常認(rèn)為”越多越好”——更多時間、更多金錢,在高速公路上行駛時發(fā)動機(jī)馬力更大——這些都是人們喜聞樂見的。但重要的是,要從整體角度來判斷”更多”是否總是意味著”最好”。
數(shù)據(jù)中心工作人員和研究人員,特別是那些從事高性能計算(HPC)的人員,對技術(shù)的要求最高。對于他們而言,可支配的性能越高,解決世界上最嚴(yán)峻的那些挑戰(zhàn)——天氣模擬、藥物發(fā)明,再到提高安全性——時就能加快探索發(fā)現(xiàn)的過程。
正如增加開會人數(shù)并不就一定意味著提高工作效率一樣,”更多的處理器核心”也并不一定能保證”更高的性能”。性能涉及很多因素,而不僅僅是一個單獨(dú)的向量。更多處理器核心可以增加計算能力,但是整體系統(tǒng)或工作負(fù)載性能還取決于其它因素,包括:
· 每個處理器核心的性能
· 利用特定指令進(jìn)行軟件優(yōu)化
· 確保向核心提供反饋的內(nèi)存帶寬
· 部署集群級擴(kuò)展
針對高性能計算而優(yōu)化的性能
為了滿足高性能計算永無止境的需求以及對更高應(yīng)用性能的需求,英特爾于2019年4月推出英特爾至強(qiáng)鉑金9200處理器系列。至強(qiáng)鉑金9200主要針對要求最嚴(yán)苛的計算和內(nèi)存帶寬負(fù)載。使用高性能至強(qiáng)可擴(kuò)展核心,它不僅通過兩倍的核心數(shù)量提高了計算密度,而且使內(nèi)存帶寬增加了一倍1,進(jìn)而可以讓幾乎所有的高性能計算軟件都獲得性能提升。英特爾至強(qiáng)鉑金9200處理器擁有最高的兩路每架機(jī)的基于英特爾架構(gòu)的每秒浮點(diǎn)運(yùn)算次數(shù),以及所有英特爾至強(qiáng)平臺中最高的DDR4本地帶寬。至強(qiáng)鉑金9282在現(xiàn)實(shí)世界廣泛應(yīng)用的高性能計算工作負(fù)載上提供業(yè)界領(lǐng)先的性能。
簡單回顧下,至強(qiáng)鉑金9200在一個封裝中包含兩個至強(qiáng)裸片,每個插槽有4個UPI,以確保2S系統(tǒng)中任意兩個裸片之間只有一個躍點(diǎn)。同時,至強(qiáng)鉑金9200提供多個SKU,每處理器核數(shù)從32核到56核不等,,散熱設(shè)計功耗范圍也跨越250W-400W。每個處理器有12個DDR4內(nèi)存通道。此外,至強(qiáng)鉑金9200是集成解決方案的一部分,能夠支持英特爾服務(wù)器系統(tǒng)S9200WK數(shù)據(jù)中心模塊的高性能計算。這能夠讓系統(tǒng)提供商輕松為終端客戶配置一個定制解決方案,并且盡可能把采用新處理器的工作量降至最低。
高性能計算涉及領(lǐng)域廣泛,根據(jù)工作負(fù)載有不同的計算需求。在制造業(yè)、生命科學(xué)、金融服務(wù)和地球科學(xué)等領(lǐng)先的現(xiàn)實(shí)世界高性能計算領(lǐng)域中,56核至強(qiáng)鉑金9282處理器的性能表現(xiàn)比AMD Rome 架構(gòu)64核處理器優(yōu)異8%-84%(幾何平均值高31%)。
以上展示的某些應(yīng)用程序和結(jié)果是幾個特定工作負(fù)載的幾何平均值,所有這些負(fù)載都具有不同的特性和敏感性。深入了解這些工作負(fù)載的細(xì)節(jié)可以了解更多性能。例如,至強(qiáng)鉑金9282在14個ANSYS Fluent負(fù)載上比AMD Rome7742領(lǐng)先13%。在14個不同的計算流體動力學(xué)模擬上,至強(qiáng)處理器的領(lǐng)先優(yōu)勢從低于幾何平均值2%到高于平均值36%不等。
特定應(yīng)用的性能對不同的屬性非常敏感。例如,AVX-512是對英特爾指令集架構(gòu)(ISA)的512位擴(kuò)展,可用于至強(qiáng)鉑金9200以及其它英特爾至強(qiáng)可擴(kuò)展處理器。AVX-512增加了矢量寬度,使應(yīng)用在每個時間周期可以進(jìn)行更多的浮點(diǎn)運(yùn)算。許多諸如VASP、NAMD、GROMACS、LAMMPS和FSI的HPC應(yīng)用充分利用AVX-512,并獲得明顯的性能提升。一部分HPC應(yīng)用受計算能力限制,一部分HPC應(yīng)用受內(nèi)存限制,還有一些在這兩方面都會受限。面對現(xiàn)有瓶頸,單純提高算力或內(nèi)存帶寬可能無法帶來更高性能。至強(qiáng)鉑金9200不僅通過更多內(nèi)核提高了計算能力,還通過更多通道增加了內(nèi)存帶寬,并且納入AVX-512擴(kuò)展,為軟件開發(fā)者帶來便利。1
以更低TCO獲得更高性能
更高的應(yīng)用性能自然具備更高的價值,但為高性能所花費(fèi)的成本也不容忽視。集群級總體擁有成本(TCO)是一個由多個元素組成的函數(shù),其中涉及每個節(jié)點(diǎn)的性能,完成一項(xiàng)工作所需的節(jié)點(diǎn)數(shù),連接節(jié)點(diǎn)的結(jié)構(gòu)成本、交換機(jī)成本及布線成本,含空間和電力等的運(yùn)營成本,以及軟件。
通常來看,較高的節(jié)點(diǎn)性能會使總體擁有成本更低,這是因?yàn)檫_(dá)到固定性能水平所需的節(jié)點(diǎn)數(shù)更少。隨著至強(qiáng)鉑金 9200性能提高,所需的節(jié)點(diǎn)更少,從而降低了節(jié)點(diǎn)購買成本,也降低了架構(gòu)、交換和布線成本。至強(qiáng)鉑金9200系列的散熱設(shè)計功耗(250W-400W)比AMD Rome7742處理器(225W)更高,確實(shí)會更耗電,提高電力成本,但是這些成本能被更少的節(jié)點(diǎn)數(shù)量需求所抵消。對于任何高性能計算用戶來說,總體擁有成本都是一個復(fù)雜的問題,通常會因特定的應(yīng)用、基礎(chǔ)設(shè)施和成本結(jié)構(gòu)而不同。就像性能一樣,我們認(rèn)為,必須以性能作為主要驅(qū)動因素,對總體擁有成本進(jìn)行整體評估。
選擇合適的處理器為高性能計算系統(tǒng)提供動力,需要考慮許多因素。雖然增加處理器內(nèi)核數(shù)量可能提高某些應(yīng)用的計算能力,但是整體性能和總體擁有成本是由多個屬性決定的。更多的處理器核心并不總能帶來更高的性能和更好的總體擁有成本。幾十年來,英特爾始終與高性能計算生態(tài)合作伙伴密切合作,以確保其擁有合適的平臺,能夠最大化滿足系統(tǒng)需求。放眼全球最強(qiáng)大的500強(qiáng),其中使用英特爾處理器系統(tǒng)的數(shù)量就可以清晰印證這一事實(shí)。
行業(yè)應(yīng)用情況
客戶之所以選擇英特爾便在于至強(qiáng)平臺所提供的巨大價值,英特爾至強(qiáng)鉑金9200也不例外。生態(tài)系統(tǒng)合作伙伴包括源訊、HPE/Cray、聯(lián)想、浪潮、曙光、新華三和Penguin Computing。HPE最近發(fā)布了采用英特爾至強(qiáng)鉑金9200處理器的Apollo 20服務(wù)器,該處理器主要針對數(shù)據(jù)密集型行業(yè),包括石油天然氣、金融、制造和生命科學(xué)。Penguin Computing目前正在勞倫斯利弗莫爾國家實(shí)驗(yàn)室構(gòu)建一個基于至強(qiáng)鉑金9200的系統(tǒng),我可以高興地告訴大家,該系統(tǒng)將在2019年超級計算機(jī)大會(SC’19)上亮相;HLRN(德國北部超級計算聯(lián)盟)也在今年4月宣布 ,它們已經(jīng)為其下一代超級計算機(jī)選定至強(qiáng)鉑金9200,以期顯著提高計算能力和效率。