Nehalem處理器和Penryn處理器一樣是采用45納米制程工藝的全新體系架構(gòu)。是繼Core 2的成功發(fā)布后的一次完美演繹。英特爾公司在推出新款處理器前之前的半年時間里,就將消息告知他們的合作伙伴來為新款芯片開發(fā)主板做好準(zhǔn)備。英特爾的Northwood, Prescott, Conroe, Penryn和目前的Nehalem一系列的處理器都是這么做的。值此首個Core 2預(yù)覽推出兩周年之際,您是否對Nehalem處理器預(yù)覽充滿期待呢?
插槽
英特爾的Nehalem處理器不僅有集成內(nèi)存控制器,而且是首款具有3個64位DDR3內(nèi)存信道和1366針LGA接口的版本:
左圖為LGA-1366,右圖為LGA-775
插槽由于散熱器所占面積的原因尺寸明顯比LGA-775要大。用戶無法重復(fù)使用LGA-775的散熱器,必須用帶有安裝孔的散熱器代替。我們的看法是LGA-775上的推針機(jī)械裝置安裝在Nehalem處理器上是不合適的。
有了尺寸更大的插槽和更多的針腳,中央處理器自身的尺寸顯然也增大了。以下是Nehalem處理器與Core 2 Duo E8500的對比:
左圖為Nehalem,右圖為Penryn
顯然英特爾計劃在將來能推出4信道的Nehalem處理器,但不幸的是他們似乎會在主流版本的處理器上使用尺寸更小的插槽。有可能英特爾將選擇在桌面系統(tǒng)市場上主打單路系統(tǒng),為Skulltrail處理器這樣的高端產(chǎn)品保留LGA-1366,但具體戰(zhàn)略尚不清楚。
超線程的回歸
Nehalem處理器的設(shè)計最高可擴(kuò)展到每個芯片上8個核心,每個核心都能同時執(zhí)行2個線程–不錯,這就是超線程的回歸。因此我們的四核Nehalem處理器在Windows Vista操作系統(tǒng)下就以8個邏輯核心的面目出現(xiàn)了:
值得注意的是和之前的超線程執(zhí)行一樣,這不是執(zhí)行資源的翻倍,只是簡單的允許兩條指令線程同時沿著他們的傳遞途徑來更好的利用閑置的執(zhí)行單元。8個物理核心的執(zhí)行速度顯然能夠更快,但是8個邏輯核心(即4個物理核心)也是提高性能和功效的好辦法。
我們對基準(zhǔn)的1個實(shí)例和2個實(shí)例的編譯時間進(jìn)行了測算。以下的圖標(biāo)顯示了工作負(fù)載翻倍的情況下編譯時間的增長變化:
主頻速度為2.66GHz的Core 2 Quad Q9450(Penryn)處理器在執(zhí)行雙倍工作負(fù)載時所花費(fèi)的時間為127秒,而主頻為2.66GHz的Nehalem處理器則只需49秒就能完成。2.66GHz的四核Nehalem處理器性能是主頻為3.2GHz的8核Skulltrail處理器的20%,但我們敢保證四核Nehalem處理器的同等時鐘頻率與8核Skulltrail處理器是一樣的。真實(shí)性能參數(shù)如下:
QuickPath總線技術(shù)
Nehalem體系架構(gòu)最明顯的變化在于內(nèi)存子系統(tǒng)。Nehalem處理器采用分級存儲器體系,每個核心都由小型快速的獨(dú)立L1和L2高速緩存組成,整個處理器共享一個單獨(dú)的L3高速緩沖存儲器。
Nehalem處理器的L1高速緩存盡管表面上看與Penryn處理器并沒有什么不同,但在延遲上有所改進(jìn);現(xiàn)在每個核心只有256K的L2高速緩存,因此只需要11個循環(huán)周期就能完成高速緩存的訪問(Penryn處理器與Conroe相比在訪問L2高速緩存時增加了額外的時鐘周期) 。
2.66GHz的L3高速緩存讓人印象非常深刻,只需39個循環(huán)周期就能完成訪問。L3高速緩存的內(nèi)存容量達(dá)到8M,尺寸是Phenom處理器的L3高速緩存的4倍,訪問速度也更快。在我們的測試中Phenom的L3高速緩存用了大概43個循環(huán)周期完成內(nèi)存訪問,但是主頻速度卻比Nehalem處理器要低,為2.0GHz。
英特爾公司在Nehalem處理器的高速緩存上做了很多努力,諸如多信道的on-die DDR3內(nèi)存控制器就是最明顯的變化。AMD自2003年以來就在它的K8微處理器上開始采用集成內(nèi)存控制器,而英特爾公司多年來一直拒絕采用同樣的做法。
隨著主頻速度的不斷提升,內(nèi)存之間的差距在逐漸縮小。我們可以看到Nehalem處理器的設(shè)計就是淡化了獨(dú)立中央處理器核心和高速主存之間的不同,
2.66GHz系統(tǒng)的主板需要內(nèi)存帶寬和延遲數(shù)據(jù)的支持,這些數(shù)據(jù)有時候會比較離譜。幸好我們還有主頻為2.93GHz的系統(tǒng)平臺能進(jìn)行測試。我們采用Everest Ultimate 4.50來采集Nehalem處理器的內(nèi)存帶寬和延遲數(shù)據(jù)。
值得注意的是這些數(shù)字取自DDR3-1066(在Core 2系統(tǒng)上的雙信道和Nehalem處理器的3信道):
Nehalem處理器需要Penryn處理器2/3的時間完成內(nèi)存請求,雖然我們沒有時間來對Phenom處理器的讀取數(shù)據(jù)進(jìn)行比較,但我相信Nehalem處理器的DDR3內(nèi)存控制器比Phenom的DDR2控制器速度要快。3個DDR3信道的內(nèi)存帶寬顯然也更大,測算帶寬提高了7%。目前我們還沒有內(nèi)存帶寬的具體數(shù)字。
英特爾設(shè)法改進(jìn)高速緩存的結(jié)構(gòu)并引進(jìn)內(nèi)存控制器,盡管四年前AMD公司就已經(jīng)開始采用這種架構(gòu),但英特爾無疑在這兩面取得了顯著的進(jìn)步。
能耗
Nehalem處理器像Penryn一樣采用的是45納米制程工藝,我們預(yù)測Nehalem處理器的能耗比Penryn要高,如果英特爾公司的目標(biāo)是每個微體系架構(gòu)性能提升1%,而能耗不超過1%的話,這個結(jié)論也是可能的:即性能如果提升20-50%,系統(tǒng)能耗總量上升10%。
結(jié)論
我們預(yù)測Nehalem處理器的整體性能將比Penryn處理器提升20-30%,看起來英特爾也是按照這種既定軌道在實(shí)施的。主頻速度為2.66GHz的Nehalem處理器速度已經(jīng)超過了目前市場上速度最快的3.2GHz Penryn處理器。這些基準(zhǔn)性能參數(shù)都是在早期的系統(tǒng)平臺上完成的,而Nehalem處理器要到今年第四季度才會正式推出。
另外值得一提的是這些測試中沒有一項是真正以Nehalem處理器的集成內(nèi)存控制器為重點(diǎn)的。當(dāng)AMD公司已經(jīng)著手從IMC轉(zhuǎn)移時,我們看到多數(shù)應(yīng)用軟件的性能都立即提升了20%。筆者猜想無法從超線程中受益的應(yīng)用軟件至少也能從IMC受益。在此我們只能對Nehalem 處理器的性能做淺嘗輒止的分析,對超線程和低延遲的優(yōu)勢拭目以待。
6年前筆者在與英特爾首席信息官帕特.基辛格談及這個問題時,基辛格曾經(jīng)表示線程是他們關(guān)注的重點(diǎn)。英特爾也在應(yīng)用超線程技術(shù),基辛格認(rèn)為這對于未來的微處理器是非常必要的。