2010年AMD整合平臺(tái)之后推出的馬爾庫(kù)尼芯片,是第一批皓龍6000平臺(tái)的芯片產(chǎn)品,今年還會(huì)升級(jí)到16核/12核的“英特拉格斯”(Interlagos),采用更先進(jìn)的32nm制造工藝和全新的“推土機(jī)”(Bulldozer)架構(gòu),仍使用Socket G34封裝接口,保持平臺(tái)的一致性和通用性。

該系列芯片主要面向主流的雙路和高附加值四路服務(wù)器市場(chǎng),其采用了45nm工藝,與上一代的“Istanbul”相同,具有8核心和12核心的版本,核心數(shù)量相比上代增加一倍。緩存容量加倍,集成了12MB L3緩存,比“Istanbul”多一倍。而且,8/12核心的皓龍6000提供了強(qiáng)大的浮點(diǎn)運(yùn)算能力,更為適合高性能計(jì)算環(huán)境。

從目前來看,AMD主要銷售的皓龍6000芯片有著以下幾個(gè)技術(shù)關(guān)鍵點(diǎn),因而可以應(yīng)對(duì)多路服務(wù)器用戶的需求,以求完成用戶在關(guān)鍵業(yè)務(wù)上的應(yīng)用。

*每插槽6個(gè)核心為虛擬化、數(shù)據(jù)庫(kù)和Web服務(wù)等多線程環(huán)境提供了更高的性能和每瓦性能(與以前各代產(chǎn)品相比)*超傳輸技術(shù)輔助(HT輔助) 降低了處理器之間的緩存探查(cache probe)流量,可加快4路和8路服務(wù)器查詢的速度,提高數(shù)據(jù)庫(kù)、虛擬化等緩存敏感型應(yīng)用和計(jì)算密集型應(yīng)用的性能。

*超傳輸3.0 技術(shù)(HT3)將相互連接的速度從HT1的2GT/秒,提高到HT3的最高4.8GT/秒,有助于提高整個(gè)系統(tǒng)的平衡和可擴(kuò)展性,支持高性能計(jì)算機(jī)(HPC)、數(shù)據(jù)庫(kù)和Web服務(wù)等計(jì)算環(huán)境的擴(kuò)展。

*AMD-P電源管理特性套件特性 AMD皓龍?zhí)幚砥靼巳譇MD-P電源管理特性,其中包括AMD PowerNow技術(shù)、 AMD CoolCore技術(shù)以及雙動(dòng)態(tài)電源管理™,這些創(chuàng)新有助于降低能耗和成本,使得基于AMD皓龍™處理器的服務(wù)器無論在任何地方都能躋身“最環(huán)保”的產(chǎn)品之列。

* AMD-Vi 支持I/O級(jí)的虛擬化,可為虛擬機(jī)(VM)提供對(duì)設(shè)備的直接控制(需要SR5690/SR5670芯片組)。該技術(shù)通過將設(shè)備直接分配給客戶操作系統(tǒng),提高性能,并可改善隔離能力,提高虛擬機(jī)的安全性。

另外,根據(jù)當(dāng)時(shí)AMD發(fā)布馬爾庫(kù)尼芯片時(shí)所發(fā)表的資料來看,該芯片在功效節(jié)省方面有著出色的表現(xiàn):

在下圖中,我們可以看出全新的馬爾庫(kù)尼雖然相比前代產(chǎn)品增加了核心數(shù)量,但是在能效上卻與之前的功耗保持不變甚至更低,這些都得益于AMD在CPU電源節(jié)能上的先進(jìn)技術(shù)。

詳解過AMD皓龍6000系列芯片的第一代產(chǎn)品后,我們來看下AMD即將在今年年底正式發(fā)布的“Bulldozer(推土機(jī))”處理器架構(gòu)的一些情況。該架構(gòu)將采用32nm SOI 制程工藝,全面取代現(xiàn)有的45nm芯片制程,定位于高性能PC和服務(wù)器市場(chǎng)。

?該架構(gòu)將兩個(gè)整數(shù)單元與一個(gè)共享的浮點(diǎn)運(yùn)算單元相結(jié)合,加大了整體浮點(diǎn)運(yùn)算的速度。

?該圖展示了雙線程的工作原理,其整數(shù)單元獨(dú)立在外,可以更好的完成多線程任務(wù)。

?推土機(jī)芯片架構(gòu)的資源共享結(jié)構(gòu),同時(shí)保證兩個(gè)整數(shù)運(yùn)算單元的前提下,加入的浮點(diǎn)運(yùn)算單元?jiǎng)t與解碼等操作進(jìn)行資源共享,而且還加入了動(dòng)態(tài)切換共享與專用組件的功能,可以令芯片根據(jù)任務(wù)的不同,來使用資源。

?另外,在年初的“推土機(jī)”芯片的預(yù)展介紹中,我們獲得了更加詳細(xì)的技術(shù)細(xì)節(jié)。

在Bulldozer模塊中為起到提高核密度的目的,AMD把某些組件進(jìn)行共享,而為了保持甚至是提高性能,把另外一部分保持分離。共享部分包括獲取解碼 并在浮點(diǎn)運(yùn)算排成器、二級(jí)緩存方面共享,這樣使得晶圓尺寸更小,從而容納更多核。在整個(gè)架構(gòu)中,為避免產(chǎn)生瓶頸,仍然維持整數(shù)預(yù)算調(diào)度器的獨(dú)立性。

推土機(jī)的新功能——全核心加速技術(shù)

根據(jù)年初發(fā)布會(huì)中,AMD服務(wù)器產(chǎn)品市場(chǎng)總監(jiān)John Fruehe先生介紹稱:“Turbo Core主要是指對(duì)于一些沒有完全消耗到最大程度的工作負(fù)載,去加快時(shí)鐘速度。在多種不同工作負(fù)載上,使用了Turbo Core可以最大增加500兆赫茲的性能。最重要的一點(diǎn),Turbo Core加速指的是所有核的加速,和有些核加速技術(shù)明顯不同,以往的核加速技術(shù)可能需要關(guān)閉一些核,只對(duì)部分核進(jìn)行加速。采用Turbo Core技術(shù),最多可以使所有核增速500兆赫茲,如果再關(guān)閉一些核運(yùn)轉(zhuǎn)的情況下,加速將會(huì)超過500兆赫茲。同時(shí)我們還對(duì)內(nèi)存控制器進(jìn)行了進(jìn)一步優(yōu)化, 從而提高內(nèi)存的吞吐量。8年前AMD首家推出集成內(nèi)存控制器,根據(jù)AMD在這一領(lǐng)域的經(jīng)驗(yàn)和非常好的技術(shù),我們又在這一代產(chǎn)品中全面提升了內(nèi)存控制器的性 能。首先我們對(duì)內(nèi)存控制器在效率方面進(jìn)行了針對(duì)性的重新設(shè)計(jì)和完善,因此實(shí)現(xiàn)30%的內(nèi)存性能提升。在提升30%性能基礎(chǔ)上,我們讓內(nèi)存支持1600兆, 所以可以獲得額外20%的性能。兩項(xiàng)加起來,可以實(shí)現(xiàn)內(nèi)存控制器50%吞吐量提升。”

Turbo Core技術(shù)介紹

除了每個(gè)核心獨(dú)享4個(gè)整數(shù)計(jì)算管線,在浮點(diǎn)運(yùn)算上,“推土機(jī)”采用了“FlexFP”技術(shù),兩個(gè)核心共享一個(gè)浮點(diǎn)調(diào)度器和兩個(gè)128位FMAC乘法累加器, 可以進(jìn)行組合,每個(gè)時(shí)鐘周期可以完成兩次64位雙精度計(jì)算或4次32位單精度計(jì)算。如果一個(gè)核心沒有進(jìn)行浮點(diǎn)運(yùn)算,那么另一個(gè)核心可以占用這兩個(gè)128位 的FMAC,在一個(gè)時(shí)鐘周期完成4次雙精度運(yùn)算或8次單精度計(jì)算,AMD將其命名為 AVX模式。這種技術(shù)保證了“推土機(jī)”的浮點(diǎn)運(yùn)算能力,在高性能計(jì)算中并不會(huì)因?yàn)椤肮蚕怼倍鵂奚阅堋?/p>

分享到

zhabin

相關(guān)推薦