圖示八:XML Mark 1.1性能
請(qǐng)大家注意,底部得分使用正方形標(biāo)記,頂部得分使用三角形標(biāo)記。
說來奇怪,使用Harpertown處理器的IPC數(shù)值在XML Mark 1.1基準(zhǔn)測試中沒有變化。頻率差異再次成為問題的關(guān)鍵。不幸的是使用XML Mark 1.1基準(zhǔn)測試,我們無法在不同的時(shí)鐘頻率下對(duì)兩種相同的處理器進(jìn)行任何比較,以此來幫助我們推斷出Harpertown處理器IPC數(shù)值的優(yōu)勢所在。
而調(diào)整對(duì)性能的影響也不大。頂部測試的結(jié)論顯示Clovertown處理器和Harpertown處理器在所有的工作負(fù)載水平上的性能表現(xiàn)都提高了10%以上。10%是個(gè)不小的進(jìn)步,但是仍然比我們預(yù)想的要低。典型代表就是JIT編譯技術(shù)能將性能提高到20-25%,甚至更多。
SPECjbb2005
SPECjbb2005基準(zhǔn)測試,我們也采用的是包含了Harpertown處理器最優(yōu)化的最新64位BEA JRockit 5.0 R27.4通用版。此次基準(zhǔn)在兩種不同的配置下運(yùn)行來反饋工作狀態(tài)下不同的水平情況。我們將這兩個(gè)設(shè)置取名為"底部(Base)"和"頂部(Peak)",這是來自SPEC CPU基準(zhǔn)的兩個(gè)通用術(shù)語。底部配置反映的是調(diào)整的最小數(shù)量,只設(shè)置堆棧的體積;頂部配置代表的是JVM軟件標(biāo)記的最好的可能性。在這兩種情況下,硬件預(yù)取被激活,由于與軟件預(yù)取發(fā)生沖突有可能會(huì)降低性能。我們認(rèn)為這種方法能更準(zhǔn)確的體現(xiàn)出實(shí)踐中的真實(shí)情況。一名出色的Java工程師能夠?qū)κ褂媚橇忻钚羞M(jìn)行轉(zhuǎn)換做出指導(dǎo)和掌控,不過熟知BIOS(基本輸入輸出系統(tǒng))最優(yōu)化的開發(fā)者并不多。這兩列命令行顯示如下:
Base: -Xms3650 -mx3650
Peak: -Xms3650m -Xmx3650m -Xns3000m -XXaggressive -XXlazyunlocking -Xlargepages -Xgc:genpar -XXtlasize:min=4k,preferred=1024k -XXcallprofiling
JRockit的最新版如果在4GB下堆棧有限的情況下,可以自動(dòng)啟用32位指示器,因此最大限度的堆棧體積能達(dá)到3650MB。在任何情況下,我們都只用到一個(gè)JVM,因?yàn)樗钅荏w現(xiàn)實(shí)踐中的真實(shí)情況。不過多重JVM通常性能會(huì)更高,它要求將JVM的每個(gè)實(shí)例綁定在一起放入一臺(tái)特殊的處理器或者內(nèi)存池中–這對(duì)于小型數(shù)據(jù)處理服務(wù)器并不適用。
圖示九:SPECjbb200性能
請(qǐng)大家注意,底部得分使用正方形標(biāo)記,頂部得分使用三角形標(biāo)記。
SPECjbb2005是我們所有用到的基準(zhǔn)中最為大家所公認(rèn),也是最具商業(yè)意義的基準(zhǔn),但是理解起來會(huì)比較困難。它不象SPEC CPU,在性能方面編譯技術(shù)的影響就沒有多少爭議。舉例來說,從2.33兆赫茲的Clovertown處理器到3兆赫茲的Harpertown處理器性能的提高是一樣的,都是25%,與處理器的基礎(chǔ)配置到較高的JVM的設(shè)置變化類似。如果兩個(gè)變化合二為一,在性能就能獲得55%的提升。
在這種情況下,時(shí)鐘頻率的得分就不是太有用了。我們對(duì)Harpertown處理器測試的IPC數(shù)值看起來要比Clovertown處理器要低5%左右,這很容易讓人誤解。在Harpertown處理器中更多的高速緩存和更快的總線都能在相同的頻率和平均內(nèi)存延遲衰減中提升IPC數(shù)值。
確實(shí)存在這樣的矛盾,因?yàn)镠arpertown處理器和Clovertown是在不同頻率下運(yùn)行的。通過對(duì)3兆赫茲和2.66兆赫茲Clovertown處理器SPECjbb2005正式數(shù)據(jù)的對(duì)比,我們會(huì)發(fā)現(xiàn)Clovertown處理器時(shí)鐘頻率提升12%,性能卻只增加了5%,從而IPC數(shù)值減少了7%來彌補(bǔ)這種差距。我們推算如果3兆赫茲的Clovertown處理器比2.33兆赫茲的Clovertown處理器性能提升12%,那么相應(yīng)的時(shí)鐘頻率就要提高28%。這就意味著當(dāng)時(shí)鐘頻率從2.33兆赫茲提高到3兆赫茲時(shí),Clovertown處理器的IPC是指就得降低14%左右。綜合所有的信息,我們可以發(fā)現(xiàn)3兆赫茲的Harpertown處理器的IPC數(shù)值確實(shí)比3兆赫茲的Clovertown處理器高出了10%到15%左右。
結(jié)論
使用Seaburg芯片集的Harpertown處理器與上一代65納米處理器相比確實(shí)有令人矚目的改進(jìn)。英特爾公司的設(shè)計(jì)團(tuán)隊(duì)還在對(duì)這個(gè)體系架構(gòu)進(jìn)行更加全面的評(píng)估,大家會(huì)看到時(shí)鐘頻率的進(jìn)步和IPC數(shù)值的提升(5%到20%之間)。更快的前端總線也會(huì)對(duì)處理大量的高性能計(jì)算工作負(fù)載方面發(fā)揮更大作用–而這個(gè)領(lǐng)域在過去的很多年中對(duì)于英特爾公司都是相對(duì)薄弱的。
在本輪測試中我們沒有對(duì)Harpertown處理器的能耗進(jìn)行測算,不過來自其他站點(diǎn)的測試結(jié)果已經(jīng)足夠讓人側(cè)目了。一臺(tái)滿負(fù)荷運(yùn)行的3兆赫茲Harpertown處理器消耗的能量與2.33兆赫茲的Clovertown處理器大致相同,但性能卻顯著提高。在待機(jī)狀態(tài)下的表現(xiàn)則更為出色,3兆赫茲的Harpertown處理器與低能耗的2兆赫茲Clovertown處理器相比,能耗類似。這還不足以彌補(bǔ)FB-DIMM方面的能耗,但是卻對(duì)從功效方面縮小與AMD公司的DDR2系統(tǒng)的差距有所幫助。
Stoakley服務(wù)器平臺(tái)在工作站和高性能計(jì)算方面也有許多關(guān)鍵性的改進(jìn),諸如雙重圖形顯卡,10GB以太網(wǎng)等。再結(jié)合功耗和性能方面的進(jìn)步,看起來英特爾公司可以在工作站和高性能計(jì)算市場(曾經(jīng)是AMD公司的優(yōu)勢陣地)上充滿自信的闊步前進(jìn)了。在服務(wù)器領(lǐng)域,英特爾公司的Harpertown處理器性能也領(lǐng)先于AMD公司的巴塞羅那處理器。當(dāng)然,以上的所有分析只是Harpertown處理器的一個(gè)預(yù)覽。我們拭目以待幾天后正式數(shù)據(jù)的出臺(tái)。
關(guān)注:45納米四核Harpertown處理器性能預(yù)覽(1)
關(guān)注:45納米四核Harpertown處理器性能預(yù)覽(2)