他現(xiàn)在正在聚精會神的演講,但是相信我,他不是油腔滑調(diào)的人。因為他就是Intel下一代Nehalem處理器的架構(gòu)設(shè)計師。

從下面這張Intel最為知名的tick-tock“嘀嗒”路線圖中,我們就可以看到,Nehalem處理器就是目前Intel最新一代的微架構(gòu)處理器產(chǎn)品線。

這是一代全新的體系架構(gòu),至少它比Penryn處理器要新。不過它仍然是基于45nm制造工藝技術(shù)的處理器。在制程方面出次登場的Nehalem與Penryn是一樣的。在下一年,我們就能看到32nm制造工藝版本的Nehalem處理器,而屆時它的研發(fā)代號也另叫作Westmere。另外更新的一代研發(fā)代號Sandy Bridge將采用全新的架構(gòu),同樣也是使用32nm制程。但是今天我們要講述的主角就是——Nehalem。

最近Intel正式發(fā)布了Nehalem核心的處理器LOGO標識,那就是傳說中的Intel Core i7微處理器。我們詢問了Intel方面的人,為什么這款處理器會叫這個名字。我們得到了Intel方面人員積極的回應(yīng),Intel僅僅是發(fā)布了一個龐大陣容的產(chǎn)品線,但是并沒有具體的處理器規(guī)格和型號。因此盡管這款處理器叫做Core i7,但是我仍然喜歡稱它為Nehalem,在整篇文章中,我也會一直這樣稱呼它。

第一印象:Nehalem概述

首先,讓我們來看看這個圖表。

這是Nehalem內(nèi)部的一個單獨的處理核心,請注意,你在市場中絕對不會買到這樣的產(chǎn)品,因為它只是處理器其中的一個處理核心,它并不包含內(nèi)存控制器,L3高速緩存,還有Intel為多核心處理器所設(shè)計的許多部件。這張圖表繪制的相當精確全面,這是Nehalem處理器中完整的執(zhí)行核心,它絕對不是1/3的處理核心,它包括亂序執(zhí)行單元和完整的邏輯電路。有了這些部分,才算是一個完整的高級處理核心?,F(xiàn)在你可以明白為什么說嵌入式的Intel Atom處理器算是一個高級的處理核心了吧。

Nehalem中單獨的處理核心,并不是由大規(guī)模的高速緩存組成的。大概僅有1/3的芯片面積用來做L1和L2的高速緩存。另外1/3用來部署亂序執(zhí)行單元引擎和其他零碎的部件。最后1/3的面積用來實現(xiàn)解碼單元的功能,分支預(yù)測邏輯判定功能,內(nèi)存的排序和頁處理功能。

除了單獨的處理核心之外,Intel還未所有的處理核心設(shè)計了8MB超大L3高速緩存。它可以很顯著的改善各個核心之間的負載平衡。

在上面這張圖表中,我們可以看到完整的Nehalem四個處理核心。同時也能在下面看到超大容量的L3高速緩存,I/O控制單元,內(nèi)存控制器電路和傳說中的QPI互聯(lián)總線。在桌面級別的Nehalem處理器,將會有1條QPI鏈接,即QPI 0。而在服務(wù)器和工作站級別的Nehalem處理器,將會有2條QPI鏈接,即QPI 0和QPI 1。

Nehalem架構(gòu)采用的是高可升級性和模塊化的設(shè)計。因此你會看到雙核心和四核心的版本,在2009年甚至?xí)吹?核心的版本。

甚至某些版本的Nehalem處理器還將包含一個圖形核心。它將不屬于Nehalem內(nèi)部的處理核心,很快我們就會看到這個版本的處理器。要說明的是,這顆圖形核心并不是基于Larrabee架構(gòu),它很有可能只是沿用了當前的G45顯示核心架構(gòu)。

 

全新架構(gòu):不是另一個Conroe

如果拿Pentium 4和Conroe來做比較那么他們之間的差別就像是黑夜與白天之間那么明顯。P4所采用的NetBurst架構(gòu)純粹就是為了追求時鐘速度的極限。而Conroe則剛好相反,只追求時鐘周期執(zhí)行效率。他們在架構(gòu)設(shè)計思想方面,有本質(zhì)的不同。Pentium 4需要做極大的軟件方面優(yōu)化,才能更進一步提高硬件的物理效能,此后Intel從中吸取了這個教訓(xùn),不在期望通過編譯器和代碼優(yōu)化來提高硬件的性能。他們在重新設(shè)計新一代處理器架構(gòu)的時候,采用了模塊化的設(shè)計思想。

Conroe是Intel第一顆包含了4路前端的處理器。這顆處理器可以進行解碼、重命名,并且在同一個時鐘周期可以執(zhí)行4個內(nèi)部微指令。不過事實上Conroe的實際處理效能可能達不到這個程度。

在Conroe中,Intel推出了宏指令的概念,它可以將2個x86指令“融合”在一起進行解碼、執(zhí)行和退出操作。這2個指令融合之后,就會被視為是一條指令。這項技術(shù)在某些情況下會極大的加速指令的處理效能。

Nehalem中近一步添加了更多的指令融合機制,同時也支持目前所有Core2中的宏指令技術(shù)。

 

另外在Nehalem中還加入了64bit指令的融合機制。在過去僅僅可以融合32bit的指令,現(xiàn)在64bit的指令融合也可以得以實現(xiàn)。在處理64bit代碼的時候,我們可以看到明顯的性能改善。

殺死分支:改善循環(huán)監(jiān)測機制

在Core 2中特有一種叫做LSD流循環(huán)檢測機制。它通過一個邏輯點檢測處理器執(zhí)行效能,查看在軟件中各種循環(huán)語句的結(jié)構(gòu)。它可以停止分支預(yù)測,可以停止那些潛在的不正確的預(yù)測分支,同時也能簡單而有效的停止指令流中的指令。

分支預(yù)測和指令取回的硬件都可以被停止。在LSD單元中可以停止Core2處理器正在運行的18條指令。并且簡單的從指令流中踢出他們。此后他們會再次被送到解碼單元,提前完成一次循環(huán)?;蛘呔蛯⑦@些指令廢棄。

 

在Nehalem中LSD被遷移到解碼單元中,并且被放置在解碼單元中的微指令高速緩存中。在一個循環(huán)中,分支預(yù)測,指令取回和解碼硬件都可以通過訪問高速緩存來找到LSD,那么LSD能發(fā)揮作用的同時也能進一步降低功耗。并且LSD能在重訂緩沖區(qū)中直接對指令流進行操作。在Nehalem處理器中,LSD能夠緩沖28個微指令,在實際的工作中,會比Core 2處理更多的分支指令。

兩級預(yù)測:Nehalem中的分支預(yù)測改進

上文已經(jīng)談到了許多Nehalem中的改善,在Nehalem中分支預(yù)測單元方面的改善顯得比較溫和,不過這對于Intel本已經(jīng)十分強大的分支預(yù)測來說,這些改進可算是相當難得了。

現(xiàn)在的Nehalem已經(jīng)有了第二級分支預(yù)測單元,雖然它的速度相對較慢一些,不過它能檢索到更大的程序分支歷史記錄,無論他們是否已經(jīng)被踢出。在L2高速緩存中的分支預(yù)測單元具備非常大的代碼容積。Intel采用數(shù)據(jù)庫應(yīng)用軟件做了一些實際的演示范例。得益于分支預(yù)測的精確性,應(yīng)用程序的處理效能有顯著的增加。

在Nehalem中,重命名堆棧返回緩沖器也是一項非常重大的改進。在上一代Penryn處理器中,處理管線中無法預(yù)測的部分會導(dǎo)致數(shù)據(jù)遷移結(jié)果在返回堆棧中的錯誤。由于要保持數(shù)據(jù)結(jié)構(gòu)的完整性,處理器在處理內(nèi)存數(shù)據(jù)的時候都將交由一個函數(shù)來完成工作。返回堆棧會通過重命名的方式來防止堆棧錯誤。因此這種調(diào)用和返回的操作都會一對一對的匹配進行。在Nehalem中你會看到如果發(fā)生分支預(yù)測的時候,數(shù)據(jù)總能被正確的輸出。

對于應(yīng)用程序來說,這是非常重要的改進。Nehalem的設(shè)計在服務(wù)器領(lǐng)域內(nèi)修復(fù)了這些缺點。早在這次秋季IDF之前,關(guān)于Nehalem在服務(wù)器領(lǐng)域的性能表現(xiàn)就已經(jīng)成為了業(yè)界的焦點。當Nehalem被應(yīng)用在桌面臺式機市場的時候,同時也激發(fā)了服務(wù)器領(lǐng)域的設(shè)計。

而這些改進已經(jīng)成為了Nehalem整個架構(gòu)設(shè)計的一部分。Nehalem的體系架構(gòu)要追溯到Pentium-M處理器和Centrino平臺。而這次在服務(wù)器領(lǐng)域的技術(shù)進步,也激發(fā)了臺式機和移動領(lǐng)域芯片的革命。

如果說對Nehalem最大的期望是什么,那么小編我說就是不要重蹈Pentium 4的覆轍,不要為了再追求時鐘頻率而犧牲了性能,增大了處理器的發(fā)熱量。

Nehalem和Atom的設(shè)計都是Intel有史以來重大的突破,將功耗/性能之比提高到了一個前所未有的地步。如果Nehalem和Atom的功耗增加了1%,那么相應(yīng)的他們的性能要增加到2%。否則如果功耗的提升與性能的提升曲線保持平行,那么Intel還會走上速度至上的死路。

 

數(shù)量加大:執(zhí)行引擎的改善

Nehalem中的執(zhí)行引擎與Penryn相比并沒有較大的變化,處理管線的前端已經(jīng)足夠?qū)拸V,可以吞下足夠多的數(shù)據(jù)。因此下面我們就來談?wù)勌幚砉芫€架構(gòu)后端的執(zhí)行部分。

在芯片內(nèi)部,Intel顯然沒有增加數(shù)據(jù)結(jié)構(gòu)的尺寸,但是對于處理單元的個數(shù)有所增加。在Conroe/Merom/Penryn中僅有96個uop,而在Nehalem中增加到128個。

 

而預(yù)留執(zhí)行單元也從以前的32個uop增加到36個。并且它的裝載和存儲緩沖區(qū)也分別從以前的32/20增加到現(xiàn)在的48/32個登錄入口。

雖然Nehalem相對于Conroe/Penryn來說在這方面不會有較大的改進,但是各項參數(shù)的配置設(shè)計都要算是最為匹配的。小

更加完善:TLB單元和獨立高速緩存鏈接

在計算機的發(fā)展史上,可以說應(yīng)用軟件促進了硬件的發(fā)展。而在微處理器發(fā)展史上,服務(wù)器應(yīng)用軟件推動了處理器中TLB單元尺寸和性能的發(fā)展。在Nehalem中不僅僅增加TLB單元的尺寸,同時也增加了第二級統(tǒng)一的TLB單元,他們可以處理代碼和數(shù)據(jù)。

另一個潛在的重大修正是Nehalem具備更快的獨立高速緩存鏈接。在應(yīng)用程序中,可能有許多大型尺寸的SSE內(nèi)存操作,他們的長度能達到16-bytes (128-bits)。對于這些數(shù)據(jù)的裝載/存儲操作都會有2個步驟,第一步操作是劃分出16-byte的界限,第二步操作將數(shù)據(jù)拆解。

當編譯器在執(zhí)行拆解操作的時候,如果內(nèi)存的存取沒有16-byte個字長,那么它將不能被正常操作。在所有的Core 2處理器中,拆解操作都將會花費很多時鐘周期,拖累整個處理流水線的運作。

問題是許多編譯器不能保證數(shù)據(jù)在拆解的時候長度恰好符合要求,并且默認的操作通常都會出現(xiàn)這些問題。

在Nehalem中,Intel大幅減少了拆解操作的出現(xiàn)幾率,同時如果在使用拆解操作的時候,不會對處理流水線的性能產(chǎn)生重大的影響。編譯器現(xiàn)在可以自由的使用拆解操作了。

早先的Core 2架構(gòu)中在拆解操作方面可是吃盡了苦頭。程序員需要額外編寫代碼來指定拆解目標解決執(zhí)行效能的問題。在Nehalem中有一個區(qū)域可以實現(xiàn)重新再優(yōu)化/再編譯功能,這樣會在拆解操作的時候加快速度。

在Nehalem中,也重點改進了線程并行處理的性能表現(xiàn),我們會在下一頁詳細說明這個技術(shù)點。

又見又見:Hyper Threading超線程

小編我曾經(jīng)問過Intel的一位高級工程師,在微處理器行業(yè)中什么是最讓你感到興奮的技術(shù)?他就回答出一個字:線程!不過在Pentium 4處理器上,我們并沒有體驗到Hyper Threading超線程的強大,總被DIY發(fā)燒友抨擊為騙人的玩意。

Hyper Threading是Intel在市場營銷時所使用的名稱,從技術(shù)層面上講它應(yīng)該叫做SMT同時多線程技術(shù)。在同一個時刻處理器可以同時取回2條指令。而操作系統(tǒng)就會將基于HT技術(shù)的處理器識別為多個處理器,一般單核心的處理器會被識別為2個處理器,因為處理器可以同時發(fā)送2條線程指令。

我們回到Nehalem處理器,看看它的Hyper Threading有哪些新花招??偟膩碚f,它將比Pentium 4具備更高的執(zhí)行效能,具體有以下幾個原因:

1、Nehalem擁有更大的內(nèi)存帶寬和更大的高速緩存,這要比傳統(tǒng)的Pentium 4強上許多。因此,它將會為處理核心提供更充足的數(shù)據(jù),具備更好的分支預(yù)測性能。

2、Nehalem比Pentium 4具備更為優(yōu)秀的體系架構(gòu),每個核心都具備使用多線程的能力。

正如史上第一顆Pentium 4不具備超線程技術(shù)一樣,Nehalem架構(gòu)的處理器,也沒有特指繼承了以前的超線程技術(shù)。Intel這樣做的主要原因是要讓Nehalem的核心架構(gòu)看起來更加簡單,而且現(xiàn)在很多簡單的應(yīng)用程序也都開始支持一般的超線程技術(shù)。

你可以從下面的圖表中看到開啟和關(guān)閉超線程特性時,Nehalem處理器的性能表現(xiàn)。

Nehalem中的超線程設(shè)計,與Atom相類似。植入超線程功能僅僅占用了很小一部分芯片面積。要實現(xiàn)超線程技術(shù),僅僅需要加入一些寄存器,重命名返回緩沖器,更長的TLB指令載入頁。只要簡單的加入這些組件,就可以實現(xiàn)該功能了。當開啟超線程時,其余的數(shù)據(jù)結(jié)構(gòu)會被拆分,從新分配?;蛘邥毁Y源管理器動態(tài)的決定他們要被分配到哪個處理器核心去。

開啟超線程特性后,Nehalem處理器的性能會大幅加強。在許多應(yīng)用程序中,性能的提升都非常明顯。它的性能提升幅度要遠遠高于Pentium 4處理器。

現(xiàn)在各位讀者也許能夠猜到,為什么Intel會大幅增加Nehalem處理器的各種緩沖區(qū)的容量了吧。為的就是讓緩沖區(qū)能夠存儲更多的指令,這些指令將會被拆分為2個線程,同時執(zhí)行。同時,處理流水線的前端,也被設(shè)計的非常寬廣,他們可以一次吞入更多的指令,為更多的指令進行解碼,這樣就能喂飽后面的超線程與多核心單元。在處理流水線中,可以傳輸更多的內(nèi)部微指令,執(zhí)行更多的微指令操作,同時也可以給分支預(yù)測更多的歷史記錄,讓亂序執(zhí)行的效率大幅增加。

 

深入分析:高速緩存的層級架構(gòu)

我們又談到了Nehalem的高速緩存層次,這次我們來對它整個層級架構(gòu)做一個詳細的介紹。

 

Nehalem的高速緩存層級架構(gòu)有點類似于AMD的Phenom,它具備3個級別的高速緩存層次。L1高速緩存具備64KB,其中32KB數(shù)據(jù)和32KB指令。每一個處理核心具備256KB的L2高速緩存,這些都是處理核心所獨占的,處理核心之間的L2高速緩存不會共享。最后L3高速緩存的容量高達8MB,所有處理核心都可以共享L3內(nèi)的數(shù)據(jù)。

Nehalem中的L1高速緩存的容量雖然與Penryn核心相同,但是它更慢一些,Penryn僅有3個周期,而Nehalem會有4個周期。Intel聲稱,降低L1的速度有利于更好地控制處理器的時鐘速度,特別是在Nehalem這樣極其復(fù)雜的芯片中。根據(jù)Intel所估計提高Nehalem的L1的潛伏期,會造成處理器整體效能下降2~3%。

同時L2高速緩存的性能也會有所閹割。在Penryn中兩個核心之間可以共享6MB容量的L2高速緩存。Nehalem雖然為每個處理核心配備了獨立的L2高速緩存,但是其容量驟降為256KB。

從Pentium 4開始起,Intel還沒有為處理器制定出容量如此小的L2高速緩存。Intel指出,小容量L2的速度將會更快,數(shù)據(jù)從L2中裝載和輸出僅需10個潛伏期就可以達成。

由此L2充當了L3的高速緩沖區(qū),不過也并不是所有的核心都可以自由的訪問L3,它們也需要提前發(fā)出訪問L3的請求。
所有的核心都可以共享L3高速緩存中的數(shù)據(jù),并且Core i7處理器具備高達8MB的容量,這對于多核心處理器來說,是非常有必要的。通過共享L3中的數(shù)據(jù),支持多線程的應(yīng)用程序就可以支配所有處理核心協(xié)作完成所需的運算。可以說Nehalem的高速緩存層級架構(gòu)沿用了Intel一貫的包容風(fēng)格,在過去Intel設(shè)計緩存架構(gòu)的時候一直使用著這種思想。Nehalem中的L3高速緩存包含L1和L2中的所有數(shù)據(jù)。這樣的好處是如果處理器在L3中尋找所需的數(shù)據(jù),并且沒有找到的話,它就知道數(shù)據(jù)不在這里,同時也不在任何的L1和L2高速緩存中。這樣它就會從更低級的內(nèi)存中尋找數(shù)據(jù)。這樣的機制不僅會加快處理的效能同時也能減少功耗。

高速緩存也包含了對于核心數(shù)據(jù)處理流量的偵測機制。隨著處理器中處理核心的不斷增加,將很難控制他們的處理任務(wù)量。介于Nehalem被設(shè)計為4核心的處理器,流量偵測機制也被加強了。

從T6到T8:改善緩存功耗管理

在今年秋季的IDF大會上,Intel介紹了在Nehalem中應(yīng)用的一項新的功耗節(jié)能技術(shù)——8T(8晶體管)SRAM單元設(shè)計。所有核心中的L1和L2高速緩存都采用了這項技術(shù),而L3高速緩存并沒有使用這項技術(shù)。當Intel在Nehalem上應(yīng)用8T設(shè)計時,能減少它的操作電壓,進而可以減少Nehalem的功耗。這樣的設(shè)計與Intel在Atom的L1高速緩存上的設(shè)計比較類似。
為了降低Atom上L1的功耗,Intel使用小型信號數(shù)組來代替開關(guān)寄存器文件單元。這是L1的寫入和讀取端口。現(xiàn)在高速緩存具備更大尺寸的單元,每個單元有8個晶體管構(gòu)成。因此也相應(yīng)的增加了L1的芯片面積和針腳數(shù)量。從Intel官方發(fā)布的芯片內(nèi)部結(jié)構(gòu)圖來看他具有更大的數(shù)據(jù)高速緩存,不過為了降低功耗,它從32KB閹割成了24KB。這是Atom緩存架構(gòu)中最為獨特的方面,當Intel第一次公布這條消息的時候,所有人都在驚詫,為什么Atom的L1中數(shù)據(jù)和指令緩存是非對等的。通過這樣的設(shè)計,Atom可以進一步降低工作時候的驅(qū)動電壓。

Atom的小信號數(shù)組采用的是6T單元的設(shè)計,因此它的操作電壓可以降低到最小。換句話說,使用最微弱的電壓就能保存L1中的數(shù)據(jù)。在L2中Intel使用了6T單元的小信號數(shù)組,并帶有ECC奇偶校驗。架構(gòu)設(shè)計師的初衷就是要盡可能的不去使用較大的晶體管單元,從而進一步降低工作電壓。

Intel指出,在Nehalem的核心緩存中,從以前的6T SRAM轉(zhuǎn)換到了8T SRAM。這僅僅是Nehalem中的L1和L2高速緩存。這是因為在Nehalem中的每個處理核心,其L2的容量已經(jīng)非常小了,僅有256KB。Intel聲稱,從6T到8T的轉(zhuǎn)換過程中,付出了沉重的代價,激增的晶體管數(shù)量相當于Nehalem的8MB L3高速緩存的33%。

偷師無愧:整合內(nèi)存控制器

在Nehalem中還整合了內(nèi)存控制器。Intel第一次將內(nèi)存控制器由主板芯片組中轉(zhuǎn)移到了處理器的核心內(nèi)。同時我們也應(yīng)該注意到,這個獨特的內(nèi)存控制器是一個貨真價實的3通道DDR3內(nèi)存控制器。這也就意味著你要在主板上同時插上3條DDR3內(nèi)存,才能實現(xiàn)3通道的帶寬。我想這一定把內(nèi)存廠商給樂壞了。今后內(nèi)存廠商肯定會為Nehalem平臺,推出3通道內(nèi)存套裝產(chǎn)品。桌面級的Nehalem處理器會有2個內(nèi)存控制器,而更高級的服務(wù)器級別會有3個內(nèi)存控制器。

3通道DDR3內(nèi)存技術(shù)的出現(xiàn),使得Nehalem擁有了足夠大的內(nèi)存帶寬。這絕對有助于喂飽饑渴的處理核心。不過內(nèi)存帶寬的增加帶來的副作用就是使得Nehalem的預(yù)取單元的工作更加忙碌。
下面我們來談?wù)劮?wù)器級別的Nehalem處理器的詳情。事實上由于Core 2處理性能的突飛猛進,使得在許多企業(yè)級別的應(yīng)用中數(shù)據(jù)的預(yù)取機制幾乎沒有發(fā)揮出來。很多企業(yè)及的應(yīng)用軟件都會對系統(tǒng)的帶寬造成很高的資源占用率。通過預(yù)取機制,我們可以更好的平衡帶寬負載。
在Nehalem中的預(yù)取機制的權(quán)限非常大,在系統(tǒng)內(nèi)沒有足夠的可用帶寬時,它可以劫殺一部分資源占用率較高的進程。

傳說中的:QPI總線

當Intel提出了將內(nèi)存控制器集成在處理器核心內(nèi)部的時候,它還需要一個與處理核心之間通信的高速鏈接。因此Quick Path Interconnect (QPI)總線也就由此誕生了。從字面上看去,它比Hyper Transport更有助于提升系統(tǒng)的效能。

QPI每一個鏈接都是全雙工的,每一個鏈接支持6.4GT/s的帶寬。每一個2-byte寬度的鏈接每個方向可以得到12.8GB的帶寬,由此一個單一的QPI鏈接足以提供25.6GB/s的帶寬。

而更高端的Nehalem處理器將會有2個QPI鏈接,而一般主流階層的Nehalem處理器將只有1個QPI鏈接。

可以說QPI總線,與AMD的HT總線相類似?,F(xiàn)在開發(fā)人員最擔(dān)心的就是NUMA非一致性平臺。在由Nehalem組成的多處理器系統(tǒng)中,每一個處理器都將有自己的本地內(nèi)存,并且應(yīng)用程序需要保證處理器能找到與之相對應(yīng)的內(nèi)存。

在這個領(lǐng)域中,AMD早期的IMC和HT都對Intel今天的處理器設(shè)計有很大的參考價值。在服務(wù)器領(lǐng)域針對應(yīng)用軟件,AMD完整了大部分的架構(gòu)設(shè)計工作,這對于Nehalem來說也有著非常多的借鑒價值。

繼續(xù)擴充:新的SSE指令集

與Penryn相比,Intel擴展了SSE4指令集,在Nehalem設(shè)計的初期版本為SSE 4.1,現(xiàn)在Intel又加入了幾條更新的指令,目前Intel將它叫做SSE 4.2。

未來Intel的擴展指令集架構(gòu)中還將加入更為先進的高級矢量擴展指令(AVX),由此處理器就可以支持256bit位寬矢量處理。AVX指令可以作為一種中間媒介讓SSE指令和未來的Larrabee圖形核心進行指令通信。小編我猜想,未來Intel可能有意將Nehalem與Larrabee的指令集合并。

 

有新玩意:功耗管理的增強

在今年的秋季IDF上,最熱門的焦點就是Nehalem處理器的功耗管理技術(shù)。
在這方面Nehalem處理器的設(shè)計徹底顛覆了以往的微處理器。在傳統(tǒng)的處理器中,一般都是用動態(tài)多米諾邏輯電路來進行功耗管理,諸如Pentium 4處理器和IBM的Cell處理器,都是用這種方式驅(qū)動時鐘速度。而在Nehalem處理器中,Intel移除了動態(tài)多米諾邏輯電路,轉(zhuǎn)而使用完全靜態(tài)的CMOS設(shè)計。

在Nehalem處理器中,為了實現(xiàn)功耗管理電路就花費了超過1百萬個晶體管。在這里,處理器內(nèi)部的功耗管理電路被稱作PCU功耗控制單元。這1百萬顆晶體管,相當于1顆486處理器的級數(shù)。同時PCU自身帶有固件,并且它帶有溫度、電流、功耗管理,還有具備操作系統(tǒng)調(diào)用功能。

在Nehalem處理器中,每一個處理核心都帶有自己的PLL同步邏輯單元。每一個核心的時鐘頻率都是獨立的。這一點與AMD的Phenom處理器相類似。另外還有更相似的地方,每一個處理核心都是有自己獨特的核心電壓。而Nehalem和Phenom之間最大的差別就是Intel使用了完整的功耗門電路。

在此期間,Intel的架構(gòu)工程師與制造商進行了非常緊密的合作。Intel說服了制造商,采用一種非常獨特的材料,這種功耗門電路連接著電壓電源與處理器核心,同時它自己也在處理核心之中。

 

這樣的好處是Intel仍然使用一個單一的核心電壓,而在深度睡眠的時候,個別的處理核心幾乎可以完全被關(guān)閉。目前在Intel和AMD的多核心處理器中,所有的處理核心都具備相同的核心電壓。這就意味著活躍的處理核心與不活躍的處理核心都要消耗相同的功耗。

在Nehalem處理器中,功耗門電路總能保持一個以上的核心處于被激活的工作狀態(tài),它的電壓將維持正常的水平。其他的處理核心會根據(jù)任務(wù)量的大小,或開啟或完全關(guān)閉。

功耗管理另一項突破就是超快的切換速度。集成在處理器內(nèi)部的功耗管理單元可以快速的發(fā)出“開啟核心/關(guān)閉核心”的信號。一旦處理核心處于空閑,功耗管理單元就會立刻將之關(guān)閉。其開啟和關(guān)閉的切換速度在百萬分之一秒。

上文中我們提到了PCU單元可以監(jiān)控操作系統(tǒng)的性能,并且向其發(fā)出命令請求。因此它可以非常智能的決定系統(tǒng)的運行狀態(tài),是在高性能模式,還是在節(jié)電模式。

在一般的情況下,諸如Vista這樣的操作系統(tǒng)在運行一個應(yīng)用程序的時候,都會采用高等級節(jié)電模式,由此來保證CPU具備較低的功耗狀態(tài)。無視操作系統(tǒng)的決斷,PCU都可以控制處理器工作的形態(tài)。

自動超頻:Turbo模式

這項新的特性,事實上已經(jīng)應(yīng)用在移動版本的Penryn處理器上了。當時Intel的設(shè)想是一個雙核心的Penryn處理器運行一個單線程的程序,一顆核心就可以搞定,另一顆核心就會完全閑置。而整個芯片的功耗就會降低。Intel最善于做的事情,就是提升芯片的時鐘速度。當只有一個核心在運行的時候,它的時鐘頻率就會被提升。不幸的是,Penryn處理器中的Turbo mode模式很少有用武之地。現(xiàn)在的電腦使用時,很少有人會只開啟一個應(yīng)用程序,一般我們在上網(wǎng)的時候,都會開QQ,開瀏覽器,P2P下載。在Vista這樣的操作系統(tǒng)中,更有大量的進程在前后臺運行著。很多任務(wù)都會交替著在兩個處理核心之間運行。

Turbo模式還存在著另一個問題,當你的計算機只運行了一個單一線程的程序,那么Vista會產(chǎn)生額外的線程,保持你的移動版Penryn處理器不進入到Turbo模式。

所有的Nehalem處理器在以Turbo模式運行的時候,如果所有核心都處在激活狀態(tài)時,每個時鐘提升步進是133MHz。同時PCU功耗控制單元還要進行偵測,保證TDP不會超過額定的范圍。如果偵測到的TDP數(shù)值足夠低,或者有其他的核心處在空閑的狀態(tài)。那么Nehalem事實上還會將處理器的時鐘頻率提升到一個更高的步進。那么這就意味著它會將時鐘頻率提升256MHz。很顯然,這次Intel對自家的Turbo模式非常有信心。

在未來Intel還將發(fā)布具備更為高級的“Turbo模式”Nehalem處理器。并且你可以期盼時鐘頻率會自動提升到一個新的高度。這個Turbo模式的點子,想必是Intel受到了超頻愛好者的啟發(fā),給那些希望提高處理器性能,同時又不肯自己動手超頻的消費者的絕佳禮物。不過如果消費者不喜歡Turbo模式,也不必擔(dān)心,完全可以通過軟件設(shè)置來禁用該模式。

 

深度分析:Nehalem處理器的速度與性能

在本屆IDF大會上,Intel并沒有確切透露未來的Nehalem處理器產(chǎn)品的時鐘速度與售價。不過這也是廣大消費者最為關(guān)心的事情。

預(yù)計Core i7處理器產(chǎn)品線最初將會有三種頻率。一個是2.66GHz,一個是2.93GHz,一個是3.2GHz。所有處理器都會采用相同的8MB L3高速緩存,并且全部都是4核心處理器。同時Intel徹底拋棄了FSB系統(tǒng)總線,轉(zhuǎn)而采用更為先進的QPI總線,所有QPI總線的時鐘頻率皆是133MHz。

 

 

 

 

通過Turbo模式,每個Nehalem處理器至少都會提高2個步進,即256MHz的頻率。并且這還是非常保守的估計,預(yù)計實際的處理器產(chǎn)品會有更大的超頻潛力。我們最期待的還是2.66GHz的產(chǎn)品,希望Intel盡快將它的價格拉下來。

預(yù)計Nehalem處理器的性能將會有較大的突破,這我們已經(jīng)從Intel的各種應(yīng)用演示中看到了端倪。對于性能提升最為明顯的就要數(shù)服務(wù)器應(yīng)用了,不過毫無疑問具備如此強大的多核心多線程處理能力,也將為桌面應(yīng)用程序帶來前所未有的效能提升。尤其是視頻編碼,3D渲染部分。有興趣的讀者可以翻看我們小熊在線處理器頻道早先關(guān)于Nehalem的文章。

如果你的應(yīng)用程序并沒有針對多線程,多核心進行優(yōu)化,那么它至少也會有1%~15%的性能提升

寫在最后:想說愛你不容易

Nehalem的關(guān)鍵特性介紹是今年IDF大會的重點。各位讀者再耐心等上幾個月,相信我們很快就會在市場的貨架上看到它的身影。不過需要注意的是,你需要一個全新的主板,才能與之搭配,并且內(nèi)存也要升級到DDR3才可以與之配合。但是相信Nehalem處理器給你帶來前所未有的性能體驗,將不會令你失望。

Intel的工程師在設(shè)計Nehalem的初期就深刻的了解到Intel處理器在服務(wù)器領(lǐng)域的弱點。由此,Intel發(fā)布的第一款服務(wù)器級別的Nehalem處理器就面向高端階層,四核心,雙QPI總線,三通道內(nèi)存。如此華麗的配置讓我們想起了AMD的Barcelona巴塞羅那處理器。AMD面向服務(wù)器市場階層,目標就是提供高可靠性,高性能的平臺。

得益于最近幾年內(nèi)桌面級別的多核心處理器的發(fā)展,Nehalem的技術(shù)已經(jīng)進化的相對成熟而完善,同時它也應(yīng)對了目前服務(wù)器應(yīng)用軟件發(fā)展的趨勢。

事實上,Intel最大的革新并不是Nehalem,而是在處理器設(shè)計思想上的革命。以前為了提高處理器的性能,只是簡單粗暴的增加處理器的時鐘頻率?,F(xiàn)在為了提高處理器的效能,采用了多核心,多線程的思想,進一步提高處理器的執(zhí)行效率,而不是運行頻率。通過這樣的思想,我們看到了超低功耗的Atom處理器?,F(xiàn)在Intel繼續(xù)延續(xù)著這種思想,我們亦迎來了Nehalem。

雖然Nehalem小荷才露尖尖角,但是已經(jīng)注定將成為Core 2完美的繼任者。此時我們就在深思另一個問題,下一步,Intel將會拿出怎樣的處理器產(chǎn)品來催動整個處理器和半導(dǎo)體行業(yè)的發(fā)展呢?目前Nehalem大部分性能提升都得益于HT超線程技術(shù)和各種部件帶寬的增加。我們要想知道Intel下一個“嘀嗒”將會拿出怎樣的產(chǎn)品,我們至少還要等上2年時間。Intel的一位工程師告訴小編,如果想要提升性能其實比較簡單,只要在處理器中集成內(nèi)存控制器就ok了。那么未來呢?Intel還會怎么作呢?這將是值得我們不斷尋找的答案。

而在2009年,Intel的重點將放在Larrabee獨立顯示核心上。Nehalem的繼任者Sandy Bridge也將在2010年到來,這也是我們值得期待的一款處理器。在那個時候Nehalem將會成為服務(wù)器市場的主打產(chǎn)品,而在桌面市場中,Conroe依舊會成為最為普及的處理器。

讓我們擔(dān)心的,并不僅僅是Nehalem處理器的價格。為了一顆性能強大的處理器,消費者不得不升級整個系統(tǒng)。主板和內(nèi)存,都需要更換。這對于消費者來說,將是最為痛苦的抉擇。相信最初阻止消費者升級到Nehalem處理器的敵人,并不是處理器自身的價格,而是那張升級整個電腦平臺的預(yù)算單結(jié)尾處一長串數(shù)字。

Nehalem處理器將在今年年底正式發(fā)布,具體的處理器評測報告,屆時也會在第一時間放出。

分享到

zhaohang

相關(guān)推薦