四路+酷睿架構(gòu)
相比Netburst架構(gòu),酷睿架構(gòu)優(yōu)勢明顯。此前,英特爾已經(jīng)成功推出了Xeon DP 5100/5300家族,全新的酷睿架構(gòu)設(shè)計(jì)使之表現(xiàn)非凡,在兩路服務(wù)器市場可謂出盡風(fēng)頭。
然而,面對競爭對手咄咄逼人的氣勢,Intel終于決心動用“終極武器”。全新的Tigerton 4核處理器終于浮出水面,這也是Intel在服務(wù)器領(lǐng)域的第一款4路酷睿架構(gòu)產(chǎn)品。這款全新產(chǎn)品的命名依然是Xeon MP處理器,只是改用全新酷睿架構(gòu)之后內(nèi)核變?yōu)門igerton,產(chǎn)品型號為Xeon 7300 MP。
Tigerton 4核處理器由兩個(gè)原生雙核組合封裝而成,全面采用內(nèi)部總線傳輸數(shù)據(jù)并共享二級緩存,因此雙核心效率也大幅度提高。在兩個(gè)雙核心之間,其連接技術(shù)也有所改進(jìn),進(jìn)一步降低了不同核心之間的延遲,而且前端總線的提高對于充分發(fā)揮四核心技術(shù)也有較大的幫助。Intel還在發(fā)布現(xiàn)場演示了一個(gè)圖像渲染過程。演示先是在單獨(dú)一個(gè)核心上進(jìn)行,然后再讓16個(gè)核心同時(shí)渲染。在經(jīng)過多線程處理優(yōu)化的POV-Ray中效果顯著,16核心的成績甚至達(dá)到了單核心成績的16倍以上。
不過,功耗和發(fā)熱量依然是困擾當(dāng)前高端處理器的難題。Tigerton的TDP功耗最高達(dá)到150W(主頻為2.93GHz)。平心而論,作為4路處理器,Tigerton的TDP功耗已經(jīng)算是控制得非常不錯(cuò)的。惟一的遺憾便是45nm工藝沒能得到應(yīng)用,或許這也是Intel在今年下半年的重點(diǎn)任務(wù)之一。
專用連接通道
自從在移動計(jì)算領(lǐng)域推出迅馳之后,Intel的平臺化運(yùn)作概念越來越強(qiáng)。與Tigerton處理器搭配的芯片組代號為Clarksboro,它們一起構(gòu)成了 全新四核英特爾至強(qiáng)7300系列服務(wù)器處理器平臺。新平臺放棄了目前Tulsa級別服務(wù)器的雙獨(dú)立總線架構(gòu),改為在每顆4核芯片與芯片組之間使用專用連接通道。以往,雙獨(dú)立總線架構(gòu)要求每兩顆處理器共享芯片組連接,因而帶寬不足,容易形成訪問瓶頸,專用連接架構(gòu)則會有效改善這一弊端。
事實(shí)上,我們也可以把專用連接通道理解為4個(gè)獨(dú)立4核處理器在這個(gè)平臺里使用的點(diǎn)對點(diǎn)技術(shù)。換一句話說就是,Clarksboro芯片組解決了前一代基于英特爾 Xeon CPU多核心系統(tǒng)最主要的瓶頸:共享前端總線。不過,略微讓人有些失望的是,英特爾并未在Tigerton處理器上啟用已經(jīng)技術(shù)成熟的1333MHz前端總線,而Clarksboro芯片組又完全能夠支持1333MHz前端總線。之所以放棄1333MHz前端總線,很大一部分原因是點(diǎn)對點(diǎn)的專用連接通道已經(jīng)基本解決了16個(gè)內(nèi)核的前端總線帶寬。此外,在內(nèi)存頻率及成本搭配方面,當(dāng)前1066MHz前端總線也顯得相得益彰,不會讓用戶被迫使用高頻率內(nèi)存。
Snoop Filter
英特爾除了在 全新四核至強(qiáng)7300系列服務(wù)器處理器平臺上積極鼓勵更大的緩存體系之外,還在節(jié)點(diǎn)內(nèi)部通信量使用了探聽過濾器(Snoop Filter)。
進(jìn)一步提升CPU與系統(tǒng)內(nèi)存互聯(lián)的有效性也是多路服務(wù)器必須面對的平臺,因此Snoop Filter也是一種特別的緩沖器,其中包含有處理器所有的數(shù)據(jù)信息。由于使用了MESI協(xié)議用于確保基于多核心處理器平臺緩存的一致性,因此該平臺的每一塊處理器必須時(shí)刻注意另一塊處理器的總線情況,而使用Snoop Filter將有助于減少處理器的總線發(fā)生數(shù)據(jù)堵塞情況的發(fā)生。
當(dāng)出現(xiàn)高速緩存未中時(shí),Snoop Filter將增加到發(fā)起CPU的總線上。隨后,Snoop Filter攔截探聽,并確定是否必須將探聽傳遞到4核中的另一個(gè)總線線段上。如果讀取請求上同一總線上的另一個(gè)處理器上得到滿足,則取消探聽過濾器訪問;如果沒有得到滿足,Snoop Filter訪問的結(jié)果將確定是否進(jìn)行下一個(gè)操作。當(dāng)然,也有可能在讀取請求過程中丟失了探聽過濾器,此時(shí)就直接從內(nèi)存返回?cái)?shù)據(jù),進(jìn)入下一個(gè)循環(huán)。與以往使用簡單的轉(zhuǎn)發(fā)器相比,探聽過濾器在4路系統(tǒng)上可以提升10%~15%的性能,而面對16內(nèi)核的全新四核英特爾至強(qiáng)7300系列服務(wù)器處理器平臺,其性能提升幅度將會更加明顯。
FB-DIMM引人矚目
在 全新四核英特爾至強(qiáng)7300系列服務(wù)器處理器平臺中,英特爾終于啟用了FB-DIMM內(nèi)存,配合DDR2 667模式實(shí)現(xiàn)比較理想的性能表現(xiàn)。雖說采用多路并行的內(nèi)存架構(gòu)設(shè)計(jì)可以有效地提升內(nèi)存帶寬,但受目前DDR2內(nèi)存自身架構(gòu)的制約,要實(shí)現(xiàn)類似4路并行設(shè)計(jì)是有相當(dāng)難度的。因?yàn)槟壳暗膬?nèi)存主要是采用傳統(tǒng)的64位并行設(shè)計(jì),即北橋芯片的內(nèi)存控制器與內(nèi)存模塊之間均通過64位的并行總線來數(shù)據(jù)交換,但此類并行總線設(shè)計(jì)有一個(gè)最大的缺點(diǎn),即相鄰線路很容易受到干擾,這可是服務(wù)器領(lǐng)域的大忌。
相反,在FB-DIMM結(jié)構(gòu)中,每個(gè)DIMM上的緩沖區(qū)是相互串聯(lián)的,之間為點(diǎn)對點(diǎn)的連接方式,數(shù)據(jù)會在經(jīng)過第一個(gè)緩沖區(qū)后傳向下一個(gè)緩沖區(qū)。這樣,緩沖區(qū)與內(nèi)存控制器之間的連接阻抗就能始終保持穩(wěn)定,從而有助于容量與頻率的提升。此外,在內(nèi)存控制器與FB-DIMM緩沖芯片內(nèi)都有專門的發(fā)送和接收控制單元,數(shù)據(jù)讀出和寫入操作可以在一個(gè)周期內(nèi)同時(shí)進(jìn)行,相互不干擾,這相當(dāng)于將內(nèi)存系統(tǒng)的延遲時(shí)間縮短了一半,對性能提升有著不可低估的作用。
在今年第一季度,英特爾表示傳統(tǒng)Tulsa處理器占4路服務(wù)器處理器產(chǎn)量的85%。這個(gè)比例要在第二季度提高到97%以上。然而,當(dāng)Tigerton處理器在第三季度推出的時(shí)候,Tulsa處理器的比例將下降到85%,Tigerton處理器的比例將占其余的15%。在今年第四季度,Tulsa處理器的比例將進(jìn)一步下降到45%,而Tigerton處理器的比例將提高到55%,成為主要的4路服務(wù)器處理器。