Intel發(fā)布Sandy Bridge微架構(gòu)32nm至強(qiáng)處理器
按照英特爾著名的Tick-Tock戰(zhàn)略,新一代的至強(qiáng)E5-2600系列還是沿用了之前單路至強(qiáng)E3所采用的SandyBridge架構(gòu),但是因?yàn)镋5是面向雙路應(yīng)用的產(chǎn)品,所以在命名上叫做“SandyBridge-EP”。作為英特爾的主力產(chǎn)品,至強(qiáng)E5依然采用的是32nm工藝,這一點(diǎn)是肯定的,因?yàn)楦鸵?guī)格的22nm IvyBridge處理器要到下半年才能上市,至于服務(wù)器版的上市時(shí)間更要拖后一些。由此判斷,至強(qiáng)E5是今年英特爾在服務(wù)器市場中的主打型號(hào),它的新出現(xiàn)必然是要取代2年前發(fā)布的Westmere-EP產(chǎn)品(也就是我們說的至強(qiáng)5600系列)。
等待了這么久,我們將要為大家介紹的是至強(qiáng)E5-2600系列的最新特點(diǎn)。但是在介紹之前,我們希望大家能夠有點(diǎn)時(shí)間稍微熟悉一下SandyBridge架構(gòu)的特征,這樣可以更好的理解E5-2600系列在雙路應(yīng)用中的特性,及英特爾在實(shí)現(xiàn)多處理器互聯(lián)互通中的努力。以下兩個(gè)文章都是針對(duì)SandyBridge架構(gòu)進(jìn)行的詳細(xì)介紹。
Intel至強(qiáng)Sandy Bridge處理器首發(fā)評(píng)測
不看不知道 一句話解讀SNB平臺(tái)4大革新
如果你能夠很好的理解至強(qiáng)E3的SandyBridge架構(gòu),那么你可以將至強(qiáng)E5-2600看作是E3的雙路或者威力加強(qiáng)版。我們先來看看下面這個(gè)架構(gòu)圖,圖中標(biāo)紅的部分代表了E5-2600系列的革新之處。
至強(qiáng)E5-2600處理器架構(gòu)介紹
圖中為我們傳達(dá)了4個(gè)重要的信息——8核心、第二條QPI通道、DDR3高頻內(nèi)存的支持、PCI-E 3.0互聯(lián)互通。下面我們就一一來解釋這4個(gè)要素。
8核心處理器——在上一代的Westmere-EP處理器中,某些高端的型號(hào)采用的是6核心架構(gòu),這也是英特爾在雙路處理器中提供的頂級(jí)核心數(shù)量。當(dāng)然借助于超線程的支持,這個(gè)核心數(shù)量的數(shù)字可以翻一番,但是從物理的角度來說英特爾在E5-2600之前一直是以6核心的產(chǎn)品擔(dān)當(dāng)重任。
如今發(fā)展到了E5-2600系列,處理器的核心增加到了8個(gè)。這個(gè)不僅僅是簡單的數(shù)量提升,要知道在同樣適用SandyBridge架構(gòu)的E3處理器中,核心數(shù)量只有4個(gè)。更多的物理核心可以提供更好的計(jì)算性能,當(dāng)然對(duì)于時(shí)下流行的虛擬化來說,多核心的優(yōu)勢更為明顯(這也是為什么AMD要推出16個(gè)物理核心的Bulldozer)。
第二條QPI通道——同樣對(duì)比上一代的Westmere-EP處理器,英特爾自從在Nehalem-EP中增加了QPI這個(gè)概念之后,一直都是提供了單一的通道(可以雙向傳輸)。而這次在E5-2600中,通道的數(shù)量增加到了2條,而且?guī)捯蔡嵘搅?GT/s,之前是6.4GT/s。換句話說,同樣是基于SandyBridge架構(gòu),雙路的產(chǎn)品比單路產(chǎn)品增加了更多的處理器互通功能,這會(huì)使得兩個(gè)或多個(gè)處理器之前的協(xié)調(diào)更為順暢,言外之意就是性能也會(huì)隨之提升。
DDR3高頻內(nèi)存的支持——從Nehalem-EP開始,英特爾支持三通道的DDR3內(nèi)存,那時(shí)候的頻率還是1066MHz。到了Westmere-EP這代,三通道的內(nèi)存支持沒有變,但是頻率提升到了1333MHz。如今,至強(qiáng)E5-2600這代產(chǎn)品出現(xiàn)了變化。首先是對(duì)于內(nèi)存頻率的支持達(dá)到了1600MHz,這還不是最重要的——至強(qiáng)E5-2600系列支持4通道內(nèi)存,最大內(nèi)存插槽數(shù)量也從原來的18條增加到了24條。從數(shù)量來說,3*6和4*6的看起來是多了不少,但是能夠?qū)崿F(xiàn)的通道組數(shù)量是相同的。當(dāng)然,在這一代的內(nèi)存上也有了明顯的變化,這一點(diǎn)我們隨后會(huì)提到。
PCI-E 3.0互聯(lián)——英特爾在至強(qiáng)E5處理器中增加了對(duì)于PCI-E 3.0規(guī)范的支持,但是這一代的主板還僅能提供PCI-E 2.0的接口。在可以預(yù)見的下一代IvyBridge處理器中,英特爾將全面支持PCI-E 3.0規(guī)格。這部分我們?cè)诤竺鏁?huì)有詳細(xì)的解釋,這里先給大家留下一個(gè)印象。
剛剛我們看過了至強(qiáng)E5-2600系列處理器的新改進(jìn),這還遠(yuǎn)遠(yuǎn)不夠。我們需要了解的是E5-2600處理器是如何運(yùn)行的,具體來說就是如何與其他的設(shè)備相溝通。這部分我們來看看下面的一張圖。
至強(qiáng)E5-2600處理器是如何運(yùn)行的
首先來解釋一個(gè)名詞——Romley。Romley是本次至強(qiáng)E5處理器的平臺(tái)名稱,是圍繞著至強(qiáng)E5處理器而開發(fā)的芯片組、主板以及相關(guān)技術(shù)組成的解決方案平臺(tái)。因此,這里我們就可以看到這個(gè)平臺(tái)在運(yùn)行中的一些特性。
基本上處理器部分包括了我們剛剛介紹的內(nèi)容,我們可以從圖示中清楚的看到處理器所提供的40條PCI-E 3.0通道之外,在第二顆處理器上還有1條PCI-E 2.0的通道(黃色部分),第一顆處理器有粉色部分都與芯片組相連。
另外我們看到了兩個(gè)英特爾一直力推的內(nèi)容,Node Manager節(jié)點(diǎn)管理器和Data Center Manager數(shù)據(jù)中心管理軟件。今年開始DELL在自家的服務(wù)器軟件中使用節(jié)點(diǎn)管理器功能,這也是為數(shù)不多使用這個(gè)功能的廠商。
剛剛我們看到的還是以處理器為主,包括如何與外部互通的內(nèi)容。那么處理器內(nèi)部是如何通信的呢?這里我們就不得不提及它的核內(nèi)與核外架構(gòu)。
至強(qiáng)E5-2600處理器核內(nèi)與核外架構(gòu)
這里我們又看到了“圓環(huán)套圓環(huán)”的設(shè)計(jì),也就是從SandyBridge開始的環(huán)形總線。與至強(qiáng)E3所提供的類似,這次的環(huán)形總線還是分為內(nèi)外兩條,在核心數(shù)量上增加到了8個(gè)。圖中剪刀的部分就是至強(qiáng)E5相比E3來說增加的4個(gè)核心。
和E3處理器類似,Ring Bus環(huán)形總線更能夠較好的展示出Sandy Bridge的真實(shí)性能。通過上圖大家可以看到,Ring Bus環(huán)形總線連接各個(gè)CPU核心、LLC緩存(L3緩存)、融合進(jìn)去的GPU以及System Agent(系統(tǒng)北橋)等部分。
Ring Bus環(huán)形總線由四條獨(dú)立的環(huán)組成,分別是數(shù)據(jù)環(huán)Data Ring、請(qǐng)求環(huán)Request Ring、響應(yīng)環(huán)Acknowledge Ring和偵聽環(huán)Snoop Ring。借助于環(huán)形總線,CPU與GPU可以共享LLC緩存,將大幅度提升GPU性能。
在這個(gè)環(huán)形總線上,分布著多個(gè)Ring Stop,也就是俗稱的“站臺(tái)”。這個(gè)“站臺(tái)”在每個(gè)CPU/LLC塊上具有兩個(gè)連接點(diǎn)。環(huán)形總線的存在,可以大大減少核心訪問三級(jí)緩存的周期。在以往的產(chǎn)品中,多個(gè)核心共享一個(gè)三級(jí)緩存,需要訪問的話必須先經(jīng)過流水線發(fā)送請(qǐng)求,在進(jìn)行優(yōu)先級(jí)排序之后才能進(jìn)行。新的環(huán)形總線將三級(jí)緩存分割成了若干部分,借助于每個(gè)站臺(tái),核心可以快速的訪問LLC。
在至強(qiáng)E5中,還沿用了SandyBridge架構(gòu)的256位指令集。這部分其實(shí)在單路至強(qiáng)E3中就已經(jīng)談過,相比原來的128位指令集來說,256位指令集在性能上更為出色。有關(guān)這部分的內(nèi)容我們可以看看E3處理器中是如何介紹的。
256bit指令集,讓好事變得更好
Sandy Bridge的AVX將向量化寬度擴(kuò)展到了256位,原有的16個(gè)128位XMM寄存器擴(kuò)充為256位的YMM寄存 器,可以同時(shí)處理8個(gè)單精度浮點(diǎn)數(shù)和4個(gè)雙精度浮點(diǎn)數(shù)。換句話說,Sandy Bridge的浮點(diǎn)吞吐能力可以達(dá)到前代的兩倍。不過現(xiàn)在,AVX的256位向量還僅僅能夠支持浮點(diǎn)運(yùn)算。不過AVX的特別之處在于,它可以應(yīng)用128位的SIMD整數(shù)和SIMD浮點(diǎn)路徑。
AVX指令集是和Sandy Bridge微架構(gòu)緊密結(jié)合的,因此,微架構(gòu)的浮點(diǎn)寄存器也要從128位擴(kuò)展到256位,此外,Load單元也要適應(yīng)一次載入256位的能力,Sandy Bridge沒有直接擴(kuò)展原有Load單元的位寬,而是通過增加了一個(gè)Load單元來達(dá)到256bit Load的能力。
在進(jìn)行新性能擴(kuò)展的同時(shí),AVX指令集的出現(xiàn)對(duì)于原有的X86指令集也進(jìn)行了優(yōu)化與重新組合——這主要源于AVX指令集新的操作碼編碼方式。AVX指令集的編碼方式叫做VEX(Vector Extension),其主要用途是縮短指令長度,降低無謂的代碼冗余,并且也降低了對(duì)解碼器的壓力,實(shí)現(xiàn)的方式也很特別——壓縮各式各樣的Prefix前綴,集中到一個(gè)比較固定的字段中,從而達(dá)到了精簡指令集的目的。
剛剛我們?cè)诮榻BE5-2600的時(shí)候,曾經(jīng)提到過它的2個(gè)重大改進(jìn),就是雙QPI通道和PCI-E 3.0支持。下面,我們就來詳細(xì)介紹一下這兩部分內(nèi)容是怎么回事兒。
雙QPI通道示意圖
這里我們看到的是兩個(gè)QPI管理模塊。通過這兩個(gè)模塊,我們可以看到數(shù)據(jù)實(shí)現(xiàn)了同時(shí)互通,QPI具備了20條通道,同時(shí)可以動(dòng)態(tài)分配10條通道。QPI通過環(huán)形總線與外界互通,達(dá)到了傳輸指令和數(shù)據(jù)的目的。
PCI-E 3.0示意圖
我們可以看到,處理器的核外結(jié)構(gòu)部分提供了PCI-E 3.0的功能,而相比上一代的PCI-E 2.0來說,它可以實(shí)現(xiàn)帶寬數(shù)量的雙倍提升,從4GT/s提升到8GT/s。更重要的是,這些通道之間可以隨意組合,我們看到在PCI-E 3.0提供的40個(gè)通道中,每16個(gè)通道可以實(shí)現(xiàn)2個(gè)X8或者4個(gè)X4功能,這樣對(duì)于有效分配帶寬非常有幫助,因?yàn)椴⒎撬械脑O(shè)備都需要X16通道才能支持。
由此看來,PCI-E 3.0提供了一種靈活的模式,大大增加了帶寬的利用率。同時(shí)我們?cè)谶@里也看到了PCI-E 2.0的身影,作為低速通道,它更大的作用的我實(shí)現(xiàn)一種補(bǔ)充,而且也只有X4一種規(guī)格。
剛剛我們介紹了許多處理器相關(guān)的內(nèi)容,現(xiàn)在我們將視角轉(zhuǎn)移到芯片組上來,看看SandyBridge的芯片組有哪些變化。這次至強(qiáng)E5-2600搭載的芯片組名稱為C600。
Intel C600芯片組示意圖
我們來看看C600芯片組的支持設(shè)備圖。首先我們發(fā)現(xiàn),它通過PCI-E 2.0與處理器相連,這一點(diǎn)我們?cè)趧偛诺?頁的時(shí)候已經(jīng)提到了。其次就是我們看到了PCI-E 2.0的字樣,同樣這也是作為PCI-E 3.0的補(bǔ)充而存在的。但究竟你所連接的設(shè)備是使用了PCI-E 3.0還是2.0,比如說你連接了一塊SAS卡,這個(gè)只能依據(jù)主板型號(hào)的不同而判定了。
除了上面介紹的2內(nèi)容之外,還有一個(gè)內(nèi)容也是要注意的。在磁盤方面,C600芯片組提供了SATA接口下3Gbps和6Gbps兩種磁盤的支持,但是板載的SAS接口卻只能支持到最大8個(gè)3Gbps接口。如今許多SAS磁盤都是基于6Gbps接口的,也就是說用戶需要使用額外的陣列卡才行。
Intel提供的官方主板設(shè)計(jì)圖
從這個(gè)圖上我們可以更好的落實(shí)剛剛說到的C600芯片組功能。值得一提的是這種雙處理器并排的設(shè)計(jì),這是Intel所一直強(qiáng)調(diào)的,因?yàn)檫@樣才能保證在數(shù)據(jù)中心的環(huán)境中,兩款處理器收到的散熱效果相同。以往的前后設(shè)計(jì)做不到這一點(diǎn),因此也被Intel全面的廢棄了。
雖然沒有提供SAS 6Gbps的支持,但是本次發(fā)布的E5-2600系列在磁盤方面也有獨(dú)到之處。它有一個(gè)名為Data Direct I/O的特色技術(shù)(以下簡稱為DDIO),這項(xiàng)技術(shù)可以幫助處理器更快速、更智能的選擇最短路線來讀寫數(shù)據(jù),從而提升I/O性能。
通過進(jìn)出兩個(gè)方向的對(duì)比,我們驚奇的發(fā)現(xiàn)如今數(shù)據(jù)的讀寫已經(jīng)不需要像以前那樣經(jīng)過內(nèi)存才能完成。從LLC可以直接傳輸?shù)胶诵闹?,這樣就節(jié)省了繁瑣的操作步驟,提供了更短的相應(yīng)時(shí)間。之前需要4-5步的操作如今可以簡化到3步完成,流水線少了一環(huán),自然也更加快捷。
如今節(jié)能是大家都在談?wù)摰脑掝},而且數(shù)據(jù)中心應(yīng)用的能耗是巨大的,因此在這一代的至強(qiáng)E5-2600系列中特別談到了如何節(jié)能的問題。我們先來看看Intel自己有什么兼顧性能和節(jié)能的解決辦法。
動(dòng)態(tài)調(diào)整性能
在E5-2600系列中,英特爾提出了一個(gè)觀點(diǎn),就是如何使得兼顧性能的同時(shí)保證節(jié)能。這里有一個(gè)動(dòng)態(tài)開關(guān)的概念。我們看到圖中的3條線,綠色代表了最佳性能、藍(lán)色代表了均衡性能(提供動(dòng)態(tài)開關(guān)),而黃色代表了均衡性能(不提供動(dòng)態(tài)開關(guān))。
在開啟了動(dòng)態(tài)開關(guān)之后,我們會(huì)發(fā)現(xiàn)之前處于下風(fēng)的均衡性能會(huì)有一個(gè)明顯的提升,其吞吐量最終與最佳性能重合了。也就是說動(dòng)態(tài)開關(guān)可以保證服務(wù)器即便在非最高性能運(yùn)行的情況下,還可以實(shí)現(xiàn)高可用性,這在之前是沒有的,也是一個(gè)新的突破。
LR內(nèi)存運(yùn)行示意圖
另外一個(gè)是又第三方內(nèi)存廠商提供的。如今在強(qiáng)調(diào)虛擬化的同時(shí),用戶也在不斷增加內(nèi)存,這勢必對(duì)服務(wù)器來說也是不小的能耗負(fù)擔(dān)。LR內(nèi)存的出現(xiàn)就是為了解決這一問題,它本身是低能耗的內(nèi)存,而且相比傳統(tǒng)的R-ECC內(nèi)存來說我們可以明顯的看到它通過一個(gè)緩存芯片實(shí)現(xiàn)了更快速的數(shù)據(jù)讀寫方式,這也是它性能提升的原因所在。
LR內(nèi)存
提升了性能而又降低了功耗,這似乎是LR內(nèi)存最大的作用。事實(shí)上,LR內(nèi)存還可以實(shí)現(xiàn)非常大的存儲(chǔ)容量,在雙路平臺(tái)中它可以實(shí)現(xiàn)最大384GB的容量,四路平臺(tái)中這個(gè)數(shù)據(jù)將翻倍,達(dá)到768GB。
如今三星就已經(jīng)推出了這種規(guī)格的內(nèi)存,但是價(jià)位如何還是要等待市場的檢驗(yàn)。
終于到了該揭曉一切內(nèi)容的時(shí)候了。我們之前談了那么多E5-2600的特征,無非都是紙上談兵,畢竟大家沒有親眼看到這款處理器。現(xiàn)在我們就將介紹Intel送測的工程樣機(jī),它所搭載的正是目前高端的E5-2690處理器,我們一起來先睹為快吧。
Intel送測工程樣機(jī)正面
Intel送測工程樣機(jī)背面
Intel送測工程樣機(jī)
前置接口
我們本次拿到的是Intel送測工程樣機(jī),因此在造型上與零售的服務(wù)器相比還有一定差距。這款機(jī)器是雙路2U設(shè)計(jì),使用了2.5英寸硬盤。但是我們測試的時(shí)候發(fā)現(xiàn)只有內(nèi)置的一塊SSD 710可以使用,因此前置的硬盤就沒用到。
機(jī)身內(nèi)部設(shè)計(jì)
5個(gè)散熱風(fēng)扇
我們看到機(jī)身內(nèi)部設(shè)計(jì)非常寬敞,也正是我們剛剛介紹的那款S2600GZ主板。它一共提供了24條DDR3內(nèi)存插槽,包括了板載4個(gè)千兆網(wǎng)絡(luò)接口和外接的2個(gè)萬兆網(wǎng)絡(luò)接口。
讓我們激動(dòng)不已的至強(qiáng)E5-2690處理器終于要登場了。
LGA2011接口
至強(qiáng)E5-2690處理器,主頻為2.9GHz,工程樣品
CPU-Z識(shí)別信息
我們使用了最新版的CPU-z 1.59來識(shí)別這款處理器,顯示為至強(qiáng)E5-2690處理器,主頻為2.9GHz,三級(jí)緩存為20MB,采用了32nm工藝,8核心16線程。TDP為135W,是E5系列處理器中最高的。
服務(wù)器所使用的是三星8GB DDR3 1600內(nèi)存,共16根,總?cè)萘繛?28GB
測試平臺(tái)使用的硬盤,SSD 710企業(yè)級(jí)產(chǎn)品,200GB容量
服務(wù)器使用的萬兆網(wǎng)卡,來自Intel的82599芯片
服務(wù)器提供的電源,最大功率為750W,兩塊做了冗余
基本上,我們對(duì)于Intel送測工程樣機(jī)的介紹就到這里了。下面我們將通過與上一代Westmere-EP處理器的對(duì)比,看看至強(qiáng)E5-2690處理器的優(yōu)勢在哪,也從側(cè)面印證一下剛剛我們介紹的那些新功能是否有突破。
服務(wù)器平臺(tái)信息
|
||
產(chǎn)品名稱 |
至強(qiáng)E5-2690 |
至強(qiáng)X5680 |
平臺(tái)類型 | Intel Sandy Bridge-EP | Intel 32nm Westmere-EP |
處理器子系統(tǒng) | ||
---|---|---|
處理器型號(hào) | 至強(qiáng)E5-2690 | 至強(qiáng)X5680 |
處理器架構(gòu) | Intel 32nm Sandy Bridge-EP | Intel 32nm Westmere-EP |
代號(hào) | Sandy Bridge-EP | Westmere-EP |
處理器封裝 | Socket 2011 LGA | Socket 1366 LGA |
核心/線程數(shù)量 | 8/16 | 6/12 |
主頻 | 2.9GHz | 2.4GHz |
處理器指令集 |
MMX,SSE,SSE2,SSE3, |
MMX,SSE,SSE2,SSE3, |
外部總線 |
DMI 8.0GT/S |
DMI 6.40GT/s |
L1 Code Cache | 8× 32KB 8路集合關(guān)聯(lián) | 6x 32KB 8路集合關(guān)聯(lián) |
L1 Data Cache | 8× 32KB 4路集合關(guān)聯(lián) | 6x 32KB 4路集合關(guān)聯(lián) |
L2 Cache | 8× 256KB 8路集合關(guān)聯(lián) | 6x 256KB 8路集合關(guān)聯(lián) |
L3 Cache | 20MB 20路集合關(guān)聯(lián) | 12MB 16路集合關(guān)聯(lián) |
服務(wù)器主板 | ||
型號(hào)主板 | Intel | ASUS Z8PS-D12-1U |
主板芯片組 | Intel C600 | Intel 5520 |
北橋芯片特性 | 2×QPI VT-d Gen 2 |
2×QPI VT-d Gen 2 |
子系統(tǒng)內(nèi)存 | ||
控制器內(nèi)存 | 每CPU集成三通道R-ECC DDR3 1600 | 每CPU集成三通道R-ECC DDR3 1333 |
內(nèi)存類型 | 8GB LR-ECC DDR3 1600 SDRAM ×16條 | 4GB R-ECC DDR3 1333 SDRAM x6 |
軟件環(huán)境 | ||
操作系統(tǒng) | Microsoft Windows Server 2008 Enterprise R2 x64 | Microsoft Windows Server 2008 Enterprise R2 x64 |
從規(guī)格上我們可以看出幾個(gè)變化。首先是至強(qiáng)E5-2690處理器的主頻只有2.9GHz,而對(duì)比的產(chǎn)品X5680有3.3GHz,這會(huì)對(duì)測試成績有一定影響,畢竟主頻還是很關(guān)鍵的。其次就是在三級(jí)緩存方面,E5-2680的緩存為20MB,而上一代的X5680只有12MB,差距還是挺大的。其他兩者都差不多,我們也選擇了同樣的軟件系統(tǒng),看看兩者之間的性能差異。
對(duì)于性能方面的考察,我們主要分為子系統(tǒng)測試和應(yīng)用性能測試。在子系統(tǒng)測試中我們按處理器、以及磁盤等各個(gè)子系統(tǒng)進(jìn)行了分項(xiàng)測試,當(dāng)然各子系統(tǒng)的測試成績也是相輔相成,也需要其它子系統(tǒng)的支持,并非是完全獨(dú)立的,只是對(duì)考察的子系統(tǒng)有所偏重而已。
處理器子系統(tǒng)測試
對(duì)服務(wù)器處理器子系統(tǒng)的考察,我們主要采用的是業(yè)界公認(rèn)的SPEC 2006測試,該項(xiàng)測試通過對(duì)數(shù)十個(gè)典型應(yīng)用程序的運(yùn)行,來測試系統(tǒng)處理器子系統(tǒng)在應(yīng)用中的整、浮點(diǎn)運(yùn)算效率。SPEC 2006測試具有很好的開放性,因此在業(yè)界為廣大用戶所接受,可以利用這一公開的測試結(jié)果進(jìn)行系統(tǒng)間運(yùn)算性能的比較。CPUCPU
此外SiSoftware Sandra也有測試子項(xiàng)可用于處理器運(yùn)算性能測試,其結(jié)果通常以每秒完成的指令數(shù)來表現(xiàn)。也可以用作不同處理器間運(yùn)算效率的比較。
SPEC CPU 2006 v1.1
SPEC是標(biāo)準(zhǔn)性能評(píng)估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計(jì)算機(jī)廠商、系統(tǒng)集成商、大學(xué)、研究機(jī)構(gòu)、咨詢等多家公司組成的非營利性組織,這個(gè)組織的目標(biāo)是建立、維護(hù)一套用于評(píng)估計(jì)算機(jī)系統(tǒng)的標(biāo)準(zhǔn)。
SPEC CPU 2006是SPEC組織推出的CPU子系統(tǒng)評(píng)估軟件最新版,我們之前使用的是SPEC CPU 2000。和上一個(gè)版本一樣,SPEC CPU 2006包括了CINT2006和CFP2006兩個(gè)子項(xiàng)目,前者用于測量和對(duì)比整數(shù)性能,后者則用于測量和對(duì)比浮點(diǎn)性能,SPEC CPU 2006中對(duì)SPEC CPU 2000中的一些測試進(jìn)行了升級(jí),并拋棄/加入了一些測試,因此兩個(gè)版本測試得分并沒有可比較性。
SPEC CPU測試中,測試系統(tǒng)的處理器、子系統(tǒng)和使用到的編譯器(SPEC CPU提供的是源代碼,并且允許測試用戶進(jìn)行一定的編譯優(yōu)化)都會(huì)影響最終的測試性能,而I/O(磁盤)、網(wǎng)絡(luò)、和圖形子系統(tǒng)對(duì)于SPEC CPU2006的影響非常的小。操作系統(tǒng)內(nèi)存
SPECfp測試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instance),測量系統(tǒng)執(zhí)行計(jì)算密集型浮點(diǎn)操作的能力,比如CAD/CAM、科學(xué)計(jì)算等方面應(yīng)用可以參考這個(gè)結(jié)果。SPECint測試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instances),然后測試系統(tǒng)同時(shí)執(zhí)行多個(gè)計(jì)算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫服務(wù)器、電子郵件服務(wù)器和Web服務(wù)器等基于整數(shù)應(yīng)用的多處理器系統(tǒng)的性能。
我們?cè)诒粶y服務(wù)器中安裝了Intel C++ 11.1.034 Compiler、Intel Fortran 11.1.034 Compiler這兩款SPEC CPU 2006必需的編譯器,通過最新出現(xiàn)的QxS編譯參數(shù),Intel Compiler 10版本開始支持對(duì)Intel SSE4指令集進(jìn)行優(yōu)化(假如只支持SSE3,則使用QxT編譯參數(shù))。我們另外安裝了Microsoft Visual Studio 2005 SP1提供必要的庫文件。按照SPEC的要求我們根據(jù)自己的情況編輯了新的Config文件,使用了較多的編譯選項(xiàng)。我們根據(jù)被測系統(tǒng)選擇實(shí)際可同時(shí)處理的線程數(shù)量,最后得到SPEC rate base測試結(jié)果(基于base標(biāo)準(zhǔn)編譯,SPEC base rate測試代表系統(tǒng)同時(shí)處理多個(gè)任務(wù)的能力)。
和其它測試部件不同,SPEC CPU 2006需要大量的系統(tǒng)物理內(nèi)存,我們的SPEC測試在64位的Windows Server 2008 R2 下完成,對(duì)于每個(gè)運(yùn)算核心,最低配置1.5GB內(nèi)存。
內(nèi)存子系統(tǒng)測試
對(duì)于內(nèi)存子系統(tǒng)的考察,也是利用SiSoftware Sandra來實(shí)現(xiàn),在該軟件中有相應(yīng)組件可進(jìn)行內(nèi)存帶寬、內(nèi)存延遲等方面的測試。
SiSoftware Sandra v2012
SiSoftware Sandra是一款可運(yùn)行在32bit和64bit Windows上的分析軟件,這款軟件可以對(duì)于系統(tǒng)進(jìn)行方便、快捷的基準(zhǔn)測試,還可以用于查看系統(tǒng)的軟件、硬件等信息。從2007開始,Sandra的Arithmetic benchmarks增加了對(duì)SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了對(duì)于SSE4的支持,另外還升級(jí)了File System benchmark和Removable Storage benchmark兩個(gè)子項(xiàng)目。對(duì)于新的硬件的支持當(dāng)然也是該軟件每次升級(jí)的重要內(nèi)容之一,SiSoftware Sandra 2012對(duì)NUMA架構(gòu)以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外測試項(xiàng)目和測試結(jié)果也有了略微的變化。SiSoftware Sandra所有的基準(zhǔn)測試都針對(duì)SMP和SMT進(jìn)行了優(yōu)化,最高可支持32/64路平臺(tái)。操作系統(tǒng)
之前在介紹處理器規(guī)格的時(shí)候,我們看到了部分CPU-z軟件的截圖,現(xiàn)在我們來一起了解一下軟件給出的系統(tǒng)詳細(xì)信息。
E5-2690處理器介紹,剛剛講過了
處理器緩存介紹,三級(jí)緩存增加到了20MB,上一代的Westmere是12MB
主板信息,顯然軟件還是有點(diǎn)問題,認(rèn)出的是X79,這是消費(fèi)類的主板型號(hào)(后面倒是有C600的字樣)
內(nèi)存識(shí)別,這里可以看到系統(tǒng)的128GB內(nèi)存,而且很明顯的看到四通道的字樣
24條內(nèi)存插槽
AIDA64是一款測試軟硬件系統(tǒng)信息的工具,它可以詳細(xì)的顯示出PC的每一個(gè)方面的信息。AIDA64不僅提供了諸如協(xié)助超頻,硬件偵錯(cuò),壓力測試和傳感器監(jiān)測等多種功能,而且還可以對(duì)處理器,系統(tǒng)內(nèi)存和磁盤驅(qū)動(dòng)器的性能進(jìn)行全面評(píng)估。
測試的顯示器屏幕太小了,沒有完整的32個(gè)處理器核心(包括超線程)圖片
內(nèi)存的識(shí)別也有些問題,比實(shí)際的小了點(diǎn),軟件誤差,哎呀
SiSoftware Sandra軟件我們常用的處理器計(jì)算性能測試軟件。在至強(qiáng)E3新出現(xiàn)的時(shí)候,我們將這款軟件升級(jí)到了2011版本。而如今,這款軟件最新的版本是2012,也只有此版本可以更好的支持至強(qiáng)E5處理器。雖然是Lite版本,但是對(duì)于我們的測試來說并無大礙。
SiSoftware Sandra Pro Business 2012 | ||||
產(chǎn)品名稱 | Xeon E5-2690 | Xeon X5680 | ||
平臺(tái)類型 | 雙路Intel SandyBridge-EP | 雙路Intel Westmere-EP | ||
Processor Arithmetic Benchmark 處理器算術(shù)運(yùn)算測試 |
||||
總計(jì)本地功效 | 408.69GOPS | 249.2GOPS | ||
總計(jì)本地功效對(duì)比速度 | 107.81MOPS/MHz | 74.75MOPS/MHz | ||
Dhrystone iSSE4.2 | 520.5GIPS | 291.36GIPS | ||
Dhrystone iSSE4.2 vs SPEED | 137.3MIPS/MHz | 87.39MIPS/MHz | ||
Whetstone iSSE3 | 320.9GFLOPS | 207GFLOPS | ||
Dhrystone iSSE3 vs SPEED | 84.65MFLOPS/MHz | 62.1MFLOPS/MHz | ||
Processor Multi-Media Benchmark 處理器多媒體測試 |
||||
總計(jì)多媒體功效 | 651.27 MPixel/s | – | ||
總計(jì)多媒體功效對(duì)比速度 | 171.79kPixels/s/MHz | – | ||
Multi-Media Int x16 iSSE4.1 | 746.66 MPixel/s | 534.13MPixel/s | ||
Multi-Media Int x16 iSSE4.1 vs SPEED | 196.96 kPixel/s/MHz | 160.21kPixel/s/MHz | ||
Multi-Media Float x8 iSSE2 | 568.07 MPixel/s | 397.47MPixel/s | ||
Multi-Media Float x8 iSSE2 vs SPEED | 149.86kPixels/s/MHz | 119.22kPixels/s/MHz | ||
Multi-Media Double x4 iSSE2 | 312.62 MPixel/s | 216.17MPixel/s | ||
Multi-Media Double x4 iSSE2 vs SPEED | 82.47 kPixels/s/MHz | 64.84kPixels/s/MHz | ||
Multi-Core Efficiency Benchmark 處理器效能測試 |
||||
內(nèi)聯(lián)核帶寬 | 72.58 GB/s | 84GB/s | ||
內(nèi)聯(lián)核帶寬對(duì)比速度 | 19.61 MB/s/MHz | 25.79MB/s/MHz | ||
內(nèi)聯(lián)核延遲(越小越好) | 117.1ns | 16ns | ||
內(nèi)聯(lián)核延遲對(duì)比速度(越小越好) | 0.31 ns/MHz | 0.00ns/MHz | ||
.NET Arithmetic Benchmark .NET算術(shù)運(yùn)算測試 |
||||
總計(jì) .NET 功效 | 69.42 GOPS | – | ||
總計(jì) .NET 功效對(duì)比速度 | 18.31 MOPS/MHz | – | ||
Dhrystone .NET | 27.84 GIPS | 37GIPS | ||
Dhrystone .NET vs SPEED | 7.34 MIPS/MHz | 24.06MIPS/MHz | ||
Whetstone .NET | 173.1 GFLOPS | 123.43GFLOPS | ||
Whetstone .NET vs SPEED | 45.66 MFLOPS/MHz | 37.02MFLOPS/MHz | ||
.NET Multi-Media Benchmark .NET多媒體測試 |
||||
總計(jì)多媒體.NET功效 | 114 MPixel/s | – | ||
總計(jì)多媒體.NET功效對(duì)比速度 | 31.74 kPixels/s/MHz | – | ||
多媒體整數(shù) x1 .NET | 126.14 MPixel/s | 100.36MPixel/s | ||
多媒體整數(shù)x1 .NET vs SPEED | 35.13 kPixels/s/MHz | 30.10kPixels/s/MHz | ||
多媒體浮點(diǎn)數(shù) x1 .NET | 51.47 MPixel/s | 42.42MPixel/s | ||
多媒體浮點(diǎn)數(shù) x1 .NET vs SPEED | 14.33 kPixels/s/MHz | 12.72kPixels/s/MHz | ||
多媒體雙精度 x1 .NET | 103 MPixel/s | 78.48MPixel/s | ||
多媒體雙精度 x1 .NET vs SPEED | 28.67 kPixels/s/MHz | 23.54kPixels/s/MHz |
結(jié)果真是讓人大吃一驚。在運(yùn)算性能上E5-2690以壓倒式的優(yōu)勢取得領(lǐng)先,成績甚至是上一代產(chǎn)品的一倍以上。當(dāng)然這僅僅是指計(jì)算性能,在多媒體方面,成績則病沒有那么夸張,但是據(jù)大多數(shù)項(xiàng)目都有40%以上的優(yōu)勢,這個(gè)成績是我們必須肯定的,也就是說新架構(gòu)的確帶來了不同的效果。
看過了計(jì)算性能,我們?cè)賮砜磧?nèi)存與緩存的性能。內(nèi)存方面我們知道,除了處理器內(nèi)部的改進(jìn)之外,就是內(nèi)存升級(jí)到了4通道,支持DDR3 1600;緩存方面就是從8MB提升到了20MB。這些提升有多大的變化?看看就知道了。
Memory Bandwidth Benchmark 內(nèi)存帶寬測試 |
||
總體內(nèi)存性能 | 34.31GB/s | - |
總體內(nèi)存性能對(duì)比速度 | 21.96MB/sMHz | - |
整數(shù) B/F iSSE2 內(nèi)存帶寬 | 31.54GB/s | 35.2GB/s |
整數(shù) B/F iSSE2 內(nèi)存帶寬對(duì)比速度 | 20.19MB/sMHz | - |
浮點(diǎn)數(shù) B/F iSSE2 內(nèi)存帶寬 | 37.33GB/s | 35.18GB/s |
浮點(diǎn)數(shù) B/F iSSE2 內(nèi)存帶寬對(duì)比速度 | 23.89MB/sMHz | - |
Memory Latency Benchmark 內(nèi)存延遲測試 |
||
內(nèi)存延遲(越小越好) | 87.8ns | 82ns |
內(nèi)存延遲對(duì)比速度 (越小越好) | 0.05s/MHz | - |
速度因素 (越小越好) | 81.90 | 64.60 |
內(nèi)部數(shù)據(jù)高速緩存 | 3.1clocks | 4clocks |
二級(jí)板載高速緩存 | 9.3clocks | 10clocks |
三級(jí)板載高速緩存 | 41.5clocks | 60clocks |
Cache and Memory Benchmark 緩存及內(nèi)存測試 |
||
緩存/內(nèi)存帶寬 | 509.48 GB/s | 195.6GB/s |
緩存/內(nèi)存帶寬對(duì)比速度 | 137.62MB/s/MHz | 60.07MB/s/MHz |
速度因素(越小越好) | 30.90 | 35.20 |
內(nèi)部數(shù)據(jù)高速緩存 | 1.51TB/s | 744.49GB/s |
二級(jí)板載高速緩存 | 1TB/s | 611GB/s |
三級(jí)板載高速緩存 | 517.84GB/s | - |
內(nèi)存部分總體看起來與上一代的差別不大,只是借助于緩存的優(yōu)勢的確能夠降低一些延遲,另外緩存的測試成績也有了近一倍的提升。
CineBench是基于Cinem4D工業(yè)三維設(shè)計(jì)軟件引擎的測試軟件,用來測試對(duì)象在進(jìn)行三維設(shè)計(jì)時(shí)的性能,它可以同時(shí)測試處理器子系統(tǒng)、內(nèi)存子系統(tǒng)以及顯示子系統(tǒng),我們的平臺(tái)偏向于服務(wù)器多一些,因此就只有前兩個(gè)的成績具有意義。和大多數(shù)工業(yè)設(shè)計(jì)軟件一樣,CineBench可以完善地支持多核/多處理器,它的顯示子系統(tǒng)測試基于OpenGL。
值得一提的是,原來的CineBench R10已經(jīng)不能再適應(yīng)如今的測試需要,因?yàn)镽10只能支持24個(gè)處理器核心。如今的核心數(shù)量為32個(gè)(算上超線程),所以只有R11.5能夠支持最多48個(gè)核心。
Westmere-EP測試成績
SandyBridge-EP測試成績
測試成績不可同日而語。在至強(qiáng)X5680中,單核心成績只有1.02,這次提升到了1.50;多核心成績?yōu)?4.58,這次提升到了24.70。不過MP成績沒有太多的變化,這是又架構(gòu)來決定的。總體說來,提升幅度在50%以上,性能很可觀。
SPEC是標(biāo)準(zhǔn)性能評(píng)估公司(Standard Performance Evaluation Corporation)的簡稱。SPEC是由計(jì)算機(jī)廠商、系統(tǒng)集成商、大學(xué)、研究機(jī)構(gòu)、咨詢等多家公司組成的非營利性組織,這個(gè)組織的目標(biāo)是建立、維護(hù)一套用于評(píng)估計(jì)算機(jī)系統(tǒng)的標(biāo)準(zhǔn)。
SPEC 2006是SPEC組織推出的一套子系統(tǒng)評(píng)估軟件,它包括CINT2006和CFP2006兩個(gè)子項(xiàng)目,前者用于測量和對(duì)比整數(shù)性能,而后者則用于測量和對(duì)比浮點(diǎn)性能。計(jì)算系統(tǒng)中的處理器、和編譯器都會(huì)影響最終的測試性能,而I/O(磁盤)、網(wǎng)絡(luò)、和圖形子系統(tǒng)對(duì)于SPEC CPU2006的影響比較小。操作系統(tǒng)內(nèi)存CPUCPU
SPECfp測試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instance),測量系統(tǒng)執(zhí)行計(jì)算密集型浮點(diǎn)操作的能力,比如CAD/CAM、DCC以及科學(xué)計(jì)算等方面應(yīng)用可以參考這個(gè)結(jié)果。SPECint測試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instances),然后測試系統(tǒng)同時(shí)執(zhí)行多個(gè)計(jì)算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫、電子郵件和Web服務(wù)器等基于整數(shù)應(yīng)用的多處理器系統(tǒng)的性能。服務(wù)器服務(wù)器
為了運(yùn)行SPEC CPU 2006測試,我們統(tǒng)一安裝了Windows Server 2008 Enterprise x64 Edition SP1,在主流的x64處理器下,原生64應(yīng)用要比32位下快。我們還安裝了Visual Studio 2005 SP1、 C++/Fortran Compiler 10.0.025編譯器,對(duì)于支持SSE3指令集的處理器,我們使用了QxO編譯指令進(jìn)行了優(yōu)化。編譯時(shí)未使用SmartHeap商業(yè)優(yōu)化庫。Intel操作系統(tǒng)
SPEC測試代表了絕大多CPU密集型的運(yùn)算,包括編程語言、壓縮、人工智能、基因序列搜索、視頻壓縮及各種力學(xué)的計(jì)算等,包含了多種科學(xué)計(jì)算,可以用來衡量系統(tǒng)執(zhí)行這些任務(wù)的快慢。SPEC base測試包括浮點(diǎn)(fp)與整數(shù)運(yùn)算(int)兩部分。
整數(shù)運(yùn)算主要包含編譯、壓縮、人工智能、視頻壓縮轉(zhuǎn)換、XML處理等,此外,各種日常操作也主要是基于整數(shù)操作。SPEC CPU 2006的整數(shù)運(yùn)算包含了400.perlbench PERL編程語言、401.bzip2 壓縮、403.gcc C編譯器、429.mcf 組合優(yōu)化、445.gobmk 人工智能:圍棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:國際象棋、462.libquantum 物理:計(jì)算、464.h264ref 視頻壓縮、471.omnetpp 離散事件仿真、473.astar 尋路算法、483.xalancbmk XML處理共12項(xiàng)。量子
SPEC CPU 2006整數(shù)測試成績
浮點(diǎn)運(yùn)算包括的全部都是科學(xué)運(yùn)算,科學(xué)運(yùn)算需要用到大量的高精度浮點(diǎn)數(shù)據(jù),如410.bwaves 流體力學(xué)、416.gamess 化學(xué)、433.milc 量子力學(xué)、434.zeusmp 物理:計(jì)算流體力學(xué)、435.gromacs 生物化學(xué)/分子力學(xué)、436.cactusADM 物理:廣義相對(duì)論、437.leslie3d 流體力學(xué)、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 線形編程、優(yōu)化、453.povray 影像光線追蹤、454.calculix 結(jié)構(gòu)力學(xué)、459.GemsFDTD 計(jì)算電磁學(xué)、465.tonto 量子化學(xué)、470.lbm 流體力學(xué)、481.wrf 天氣預(yù)報(bào)、482.sphinx3 語音識(shí)別共17項(xiàng)測試。量子
SPEC CPU 2006浮點(diǎn)運(yùn)算測試成績
首先說明一個(gè)問題,就是我們對(duì)比所使用的至強(qiáng)X5680處理器是一款主頻在3.33GHz的產(chǎn)品,而對(duì)比的E5-2690主頻只有2.9GHz。我們知道,在SPEC CPU測試中,主頻會(huì)起到很大的作用,因此有必要說明一下。
即便主頻占優(yōu),但是我們看到在整數(shù)運(yùn)算中X5680全面落敗,多數(shù)項(xiàng)目落后在60%以上,部分項(xiàng)目只有E5-2690的30-40%。這也從側(cè)面說明了E5-2690在架構(gòu)上的先進(jìn)性,即便不依靠主頻還是可以取勝。浮點(diǎn)運(yùn)算的成績中,X5680憑借主頻取得了部分項(xiàng)目的領(lǐng)先優(yōu)勢,但是整體還是不敵E5-2690,差距還是很明顯的。
我們利用Aitek AWE2101數(shù)字功率計(jì)和配套的軟件測試了整個(gè)服務(wù)器平臺(tái)在幾種不同的狀態(tài)下的功耗,AWE2101是一個(gè)高精度的數(shù)字功耗測試儀,主要包括如下項(xiàng)目:
P1:連接但不開機(jī)狀態(tài)電源
P2:系統(tǒng)啟動(dòng)完畢,5分鐘內(nèi)無動(dòng)作,但不休眠
P3:系統(tǒng)啟動(dòng)完畢,處理器滿載、磁盤以最大吞吐量工作
5位數(shù)字精度
在圖上我們終于看到了至強(qiáng)X5680的領(lǐng)先狀態(tài),只是這種領(lǐng)先并非是好事情,這里的成績應(yīng)該是越低越好。同時(shí)需要說明的是,至強(qiáng)X5680的TDP為130W,而E5-2690的TDP為135W,還要高出一點(diǎn)點(diǎn)。但是實(shí)際測試的成績,在空載方面兩者差不多,但是峰值功率有了非常明顯的差距。測試顯示,至強(qiáng)E5-2690平臺(tái)相比上一代要節(jié)約最大20%以上的能耗,這個(gè)數(shù)字非常驚人。
測試到了這里,也就接近尾聲了。對(duì)于英特爾這款剛剛推出的E5-2600系列處理器來說,這個(gè)測試僅僅是一個(gè)開始,未來我們將會(huì)看到來自各個(gè)服務(wù)器廠商的產(chǎn)品,到那時(shí)我們將更為深入的了解到E5-2600的點(diǎn)點(diǎn)滴滴。
從更新?lián)Q代的角度來說,E5-2600無疑是一款成功的服務(wù)器。在進(jìn)行了架構(gòu)革新之后,它的身上已經(jīng)完全看不到Westmere的影子,取而代之的是全新的SandyBridge系列。而相比小兄弟E3處理器來說,至強(qiáng)E5更重要的是在雙路互聯(lián)上發(fā)生了變化,這種變化為處理器提供了新的動(dòng)力。當(dāng)然,核心數(shù)量的增加也是必須的,它也是衡量處理器能力的一個(gè)重要硬件指標(biāo)。
從對(duì)比上我們可以看出,至強(qiáng)E5-2690相比上一代的X5680來說在性能上有了明顯的進(jìn)步,這些進(jìn)步帶來的提升是巨大的,部分項(xiàng)目翻了幾番,普通的項(xiàng)目也有60%以上的提升。對(duì)于應(yīng)用來說,更快速的相應(yīng)時(shí)間、更強(qiáng)大的動(dòng)力性能和更低的功耗則是我們希望看到的,英特爾的確給了我們這些新的驚喜。
至強(qiáng)E5,他來了,這或許是英特爾2012年為我們提供的最好的一份禮物。如果將英特爾比作一個(gè)大人,將新推出的E5-2690比作嬰兒的話,我就會(huì)說——僅以此文,獻(xiàn)給那剛剛出生的孩子,祝你健康成長。