AMD全球副總裁兼商用事業(yè)部總經(jīng)理Paul Struhsaker揭曉全球首款16核x86處理器的細節(jié)

AMD高級副總裁,首席信息官Mike Wolfe介紹AMD云計算策略

作為AMD多年以來潛心研發(fā)的產(chǎn)品,推土機這一代新架構具備了諸多行業(yè)領先性的特征,而其代表性的雙核心模塊化架構更是業(yè)內(nèi)首創(chuàng)。正如發(fā)布會中, AMD全球副總裁兼商用事業(yè)部總經(jīng)理Paul Struhsaker所說的那樣:“我們的行業(yè)正處于一個新的接合點,虛擬化已經(jīng)帶來更加可靠的整合,而企業(yè)正尋求通過云計算實現(xiàn)更高的靈活性和效率。我們?yōu)榇嗽O計了全新的AMD皓龍?zhí)幚砥?,最值得期待的新服務器產(chǎn)品和架構已經(jīng)到來,新一代AMD皓龍?zhí)幚砥饕宰钊娴漠a(chǎn)品線,帶來性能、可擴展性和能效的完美平衡?;诖?,領先的OEM廠商可以為云計算、企業(yè)用戶和高性能計算(HPC)客戶提供一整套解決方案。”

云技術之“芯” 新皓龍規(guī)格及特性解析

新一代AMD Bulldozer介紹

本次發(fā)布的皓龍系列分為‘Interlagos’(英特拉格斯)和‘Valencia’(巴倫西亞)兩個型號,其中Interlagos是面向雙路及四路的高端產(chǎn)品,而Valencia則是面向雙路的產(chǎn)品。本次,我們接到的服務器基于皓龍6274處理器,使用高端配置更能夠體現(xiàn)出推土機的實際性能。至于皓龍6200系列究竟有哪些革新?大家請繼續(xù)往下看。

AMD的“Bulldozer”是在K10之后推出的全新一代處理器架構,對AMD來說,這是自K7以來AMD處理器架構的一次根本性變革,在核心架構及功能性商都較K10有較大的改變。相對于目前AMD主流處理器的架構,Bulldozer核心最大的亮點就是引入了模塊化設計,這讓處理器在功能更加靈活的基礎上更容易控制成本。

前世今生,皓龍Bulldozer最新細節(jié)曝光

皓龍推土機架構圖

皓龍Bulldozer架構細節(jié)分析皓龍Bulldozer架構細節(jié)分析皓龍Bulldozer架構細節(jié)分析皓龍Bulldozer架構細節(jié)分析

Up to 8 Compute Units (CUs) with 2 cores per CU——在新一代的皓龍推土機架構中,每兩個核心組成一個單獨的計算單元(Compute Unit),最多有8個這樣的CU模塊出現(xiàn),也就是說皓龍推土機最高可以具備16個核心。這是一個獨創(chuàng)的設計,有了CU,無論是雙核、四核、八核甚至更多核心都可以信手拈來。

同時,處理器使用四種不同的緩存加速指令執(zhí)行和數(shù)據(jù)加工:L1指令緩存,L1數(shù)據(jù)緩存,計算單位共享二級緩存,共享L3緩存芯片(平臺支持)。

除此之外,推土機架構的皓龍?zhí)幚砥靼幌盗斜U项A測數(shù)據(jù)緩存與128位端口。這是一個寫入緩存,支持多達128個字節(jié)負荷周期。它分為16組,每組16個字節(jié)寬。此外,該級緩存是保護單個位錯誤并使用奇偶校驗。有一個硬件預取器,所帶來的數(shù)據(jù)到數(shù)據(jù)緩存避免錯過。L1數(shù)據(jù)緩存有一個沖程load-to-use延遲數(shù)據(jù)緩存。

推土機架構中的另一個新元素就是采用了基于集群的多線程技術。推土機的內(nèi)核模塊是一個可以同時運行兩個線程的處理組件,兩個內(nèi)核可以執(zhí)行兩個完全不會相互干擾的線程。

推土機架構多線程技術

盡管雙核、多線程和推土機在線程并行執(zhí)行方面是相同的,但是內(nèi)核的分區(qū)卻截然不同。多線程就是在一個單個的處理核心內(nèi)同時運行多個工作線程的技術,和CMP芯片多處理器技術不同,后者是通過集成多個處理內(nèi)核的方式讓系統(tǒng)的處理能力提升,現(xiàn)在主流的多核處理器都是用了CMP技術,而像Pentium 4、Core i7這樣的處理器帶的“超線程技術”則屬于多線程技術,而推土機是基于集群化多線程架構,Cluster-Based Multi-threading:CMT,也稱多簇式多線程技術。

推土機架構多線程技術

加載存儲單元

推土機架構皓龍的加載存儲單元掌管著數(shù)據(jù)的出入。每個計算單元或每個核心中有兩個加載存儲單元(建成LS單元)。有24個項目存儲隊列這隊列緩沖區(qū)存儲的數(shù)據(jù),直到它被寫入數(shù)據(jù)緩存。

相對于傳統(tǒng)超線程或雙核技術,推土機這種設計集群化架構的理念是讓雙核模塊在多線程運算中更高效。推土機每一個模塊中加入了額外的執(zhí)行單元,每一個模塊都具備可以將一個大任務細分為多個并行任務的能力,這些生產(chǎn)線可以按需要任意整合,不會對整個裝配線的效能造成影響。因此CMT技術的效能要高于傳統(tǒng)的多線程方案。

事實上,相比全新的架構和多線程技術,推土機架構皓龍在HT總線及內(nèi)存設計上延續(xù)了上一代馬尼庫爾所支持的DDR3內(nèi)存,只是HT總線提升至3.1規(guī)范,而內(nèi)存控制器最多可以支持四通道DDR3。

推土機架構皓龍HT總線及內(nèi)存設計

HT總線之路

正如我們之前提到的,HT技術自2003年皓龍出世時推出,只是那時還處于HT1.0的階段。從代號“上海”的核心開始,AMD處理器正式支持到HT3.0,但是因為那時候AMD還在使用第三方的平臺,而平臺芯片組的更新過于緩慢,所以直到伊斯坦布爾我們也沒有看到HT3.0的實際作用。本次,推土機架構皓龍的發(fā)布將采用HT3.1總線。相比上一代HT 3.0總線的2.6GHz來說,HT 3.1可提供最高每位6.4GT/s的數(shù)據(jù)傳輸率,32-bit帶寬可達51.2GB/s,相比上一代HT總線有很大提升。

推土機架構皓龍HT總線及內(nèi)存設計

內(nèi)存方面,DDR3已經(jīng)很早就被采用了,這次只是將內(nèi)存頻率由DDR3 1333MHz升級到1866MHz,這主要是帶來了內(nèi)存帶寬的提升。不過在實際應用中,因為英特爾還停留在采用DDR3 1600MHz的頻率,所以推土機支持的1866MHz能否快速被采用還不得而知。

有一個值得注意的地方是,推土機架構皓龍?zhí)峁┝塑浖A讀取。軟件預取可以隱藏內(nèi)存延遲,但不能提高總內(nèi)存帶寬。多回路有限的內(nèi)存帶寬,而不是處理器速度,如圖所示。在這種情況下,最好的軟件預取可以做的是確保足夠的內(nèi)存請求“飛行”,并保持內(nèi)存系統(tǒng)所有時間都處于繁忙狀態(tài)。

介紹了皓龍6200系列這么多的特點,相信大家已經(jīng)迫不及待的想看到實物和測試成績了。先別急,我們先來看看本次AMD送測的樣機外觀。這是一臺雙路1U的產(chǎn)品,我們看看它的外部設計。

AMD推土機服務器拆解AMD推土機服務器拆解AMD推土機服務器拆解AMD推土機服務器拆解AMD推土機服務器拆解

外觀上看起來這臺服務器與我們之前測試的產(chǎn)品并沒有太多的差異,打開之后發(fā)現(xiàn)其內(nèi)部是別有洞天。

AMD推土機服務器拆解

推土機服務器內(nèi)部構造

AMD推土機服務器拆解

這下面就隱藏了我們盼望已久的Bulldozer處理器

AMD推土機服務器拆解

服務器的散熱做得也不錯,4個風扇高速運行

AMD推土機服務器拆解AMD推土機服務器拆解

這個就是皓龍6274處理器了,讓我們擦干凈它外面的硅脂

AMD推土機服務器拆解

皓龍6274處理器

AMD皓龍6274推土機服務器拆解

皓龍6274看起來的造型與上一代的馬尼庫爾差不多,因為具備了16個物理核心,所以看起來體積比一般的處理器要大許多。皓龍6274是最新皓龍6200系列的高端型號,同樣采用了G34的接口,主頻為2.2GHz,HyperTransport頻率為3.1GHz,三級緩存為16MB,ACP功耗為115W。

AMD推土機服務器拆解AMD推土機服務器拆解

被測服務器內(nèi)部配備8根三星DDR3 1600內(nèi)存條,每根容量8GB,系統(tǒng)總?cè)萘繛?4GB,每處理器占有32GB內(nèi)存。

AMD推土機服務器拆解AMD推土機服務器拆解

如此強悍的平臺,供電系統(tǒng)也要相當完善才行。被測服務器使用了2塊電源做冗余,單塊電源的最大功率為750W,足夠雙路平臺應用了。至此,我們對于AMD這臺送測樣機的拆解就結(jié)束了。下面我們將進入具體的測試環(huán)節(jié),看看AMD推土機架構處理器的新改變帶來了哪些性能提升。

我們剛剛了解了推土機架構皓龍?zhí)幚砥鞯囊恍┨匦浴淖兏锏慕嵌葋碚f,推土機架構皓龍的確有著深刻的改進,雙核心模塊這一概念出現(xiàn)了,不僅僅在推土機當中,我們堅信在未來AMD的產(chǎn)品中也必將延續(xù)這一概念。

新的改進肯定會帶來新的性能,就好比主頻或制程的變化會對處理器有較大影響一樣。下面我們通過與AMD以往處理器的對比,看看推土機架構究竟有哪些優(yōu)勢。

在測試處理器之前,按照管理我們先通過CPU-Z來看看處理器的信息,方便我們更好的理解處理器實物。

皓龍6274處理器軟件信息

處理器信息,這里就不多介紹了。只是在三級緩存方面,皓龍6274官方信息顯示的是16MB,但是軟件顯示只有12MB。這是為什么呢?其實在12核心Opteron Magny-Cours中我們就遇到過這樣的問題,這其實是當我們開啟HT Assist功能的時候,被HT Assist占用了,屬于軟件識別的問題,并不影響使用。

皓龍6274處理器軟件信息皓龍6274處理器軟件信息皓龍6274處理器軟件信息皓龍6274處理器軟件信息

本次測試的雙路皓龍6274服務器一共提供了32個物理核心,看起來密密麻麻的一片。與競爭對手的超線程技術不同,這些物理核心都是實實在在存在的,那么對于多核心應用,比如虛擬化來說更具備優(yōu)勢。

皓龍6274處理器軟件信息

剛剛介紹了許多皓龍6274處理器的內(nèi)容,下面我們就要正式進入測試了。本次測試我們選取了上一代12核心的皓龍6174作為對比,它們正好是前后兩代對應的產(chǎn)品,因此更能夠看出性能的差異化。

SPECjbb2005 (Java 服務器 基準)是評估服務器端JAVA性能的SPEC測試工具。和以前的SPECjbb2000一樣,SPECjbb2005通過模擬三層C/S系統(tǒng)(主要是中間層)來評估服務器端JAVA的性能。該測試軟件運行JVM(Java虛擬機)、JIT (Just-In-Time)編譯器、碎片收集、線程以及操作系統(tǒng) 的其他任務。它也測量CPU、Cache、內(nèi)存和 SMP的性能。SPECjbb2005通過提供面向?qū)ο蠓绞竭\行的、新的增強的工作負載,來反映真實應用系統(tǒng)的情況。另外,SPECjbb2005也引入了一些新的特性,如XML處理和BigDecimal計算,以保證測試結(jié)果能更確切地反映當前的實際應用。

SPECjbb2005測試成績分析

新皓龍6274的性能在這個項目中也表現(xiàn)得很充分,相比上一代的皓龍6174來說在性能上有了40%以上的提升。雖然看起來并沒有剛剛的提升那么多,但是這個測試與系統(tǒng)所使用的Java工具也有關系,而且40%的幅度并不小,足以說明新皓龍在架構及工藝上的改變。

SPEC 2006是SPEC組織推出的一套子系統(tǒng)評估軟件,它包括CINT2006和CFP2006兩個子項目,前者用于測量和對比整數(shù)性能,而后者則用于測量和對比浮點性能。計算系統(tǒng)中的處理器、和編譯器都會影響最終的測試性能,而I/O(磁盤)、網(wǎng)絡、和圖形子系統(tǒng)對于SPEC CPU2006的影響比較小。

SPEC CPU 2006性能測試

SPEC CPU是我們經(jīng)常使用的項目,相信大家對此也比較熟悉。這個測試主要是考察處理器的計算能力,分為整數(shù)和浮點兩種。通過對比我們發(fā)現(xiàn),SPECint中皓龍6274有大約15%的性能提升,而在SPECfp中的提升要多一些,達到了45%。因為SPEC CPU是一款測試處理器計算性能的軟件,浮點運算中的成績更高說明處理器在指令集方面有了更多的革新。

SPECpower_ssj2008是一個利用標準Java的JDK計算整體服務器性能,并根據(jù)其11個不同工作負載區(qū)域段的功耗得出服務器的工作負載/能耗比的測試方式,這更像是一個性價比–SPECpower_ssj2008的測試方式是:以一個服務器最大的workload為100%指標,每10%的workload降低為一個區(qū)域段,對比在每個不同的workload區(qū)域段之內(nèi)的能耗,因此,這并不是一個通常意義上的性能/能耗比。

SPECpower_ssj2008測試成績SPECpower_ssj2008測試成績

能耗也是大家關心的問題,特別是針對云計算時代,大型數(shù)據(jù)中心如何節(jié)能是目前行業(yè)內(nèi)的難點。這里的測試主要是針對能效展開的,可以看到皓龍6200相比以往的產(chǎn)品在能耗上有大幅度降低,對應的就是能耗比提升了許多,兩者的差距大約為30%。

本次AMD發(fā)布的皓龍6200可謂是時隔4年之后的又一重大舉措。4年前,AMD在北京發(fā)布了皓龍Barcelona四核處理器,從而掀開了處理器多核心時代的新篇章。這次發(fā)布的皓龍Interlagos和Valencia更是采用了全新的工藝,它們的出現(xiàn)使得皓龍系列跨入了一個新的時代,也必將引起議論新的升級風潮。

AMD皓龍6200引領服務器升級風潮

皓龍6274處理器

從測試中我們可以明顯看出,皓龍6200具備了強大的運算性能,在與競爭對手的比較中占據(jù)優(yōu)勢,而且性能提升幅度巨大,相比上一代產(chǎn)品出現(xiàn)了革命性的改變。多核心加新架構帶給皓龍6200廣闊的發(fā)展空間,對于雙路或者四路服務器采購來說,皓龍6200平臺毋庸置疑是最具性價比的產(chǎn)品,也是高性能、高可靠性計算的最佳選擇。

分享到

tangrong

相關推薦