本文的標(biāo)題是“即將到來(lái)的多核革命:希望、風(fēng)險(xiǎn)及影響”,顧名思義,既可以看作是對(duì)如今多核處理器的意義做出解釋,也可以看作試圖從多種不同角度讓人了解多核處理器的作用的一種期望。我們更傾向于后一種方式,因?yàn)殡S著時(shí)間的推移,多核處理器將在計(jì)算行業(yè)的轉(zhuǎn)型中扮演不同的重要角色。
本文旨在深入討論微處理器設(shè)計(jì)領(lǐng)域中“平衡”與“優(yōu)化”的含義。章節(jié)1介紹了術(shù)語(yǔ)表。
接下來(lái)的章節(jié)將按時(shí)間順序排列,展示隨著時(shí)間的推移,微處理器設(shè)計(jì)中“平衡”與“優(yōu)化”復(fù)雜度的逐步提高。
章節(jié)2回顧了“我們?yōu)楹伍_(kāi)始設(shè)計(jì)多核處理器?”。
章節(jié)3討論了與多核處理器相關(guān)的系統(tǒng)與軟件設(shè)計(jì)領(lǐng)域的發(fā)展情況。
章節(jié)4根據(jù)目前趨勢(shì)預(yù)測(cè)未來(lái)的復(fù)雜度。
在文章結(jié)尾,我們還預(yù)測(cè)了日漸成熟的多核處理器技術(shù)的未來(lái)發(fā)展。
1. 背景
1.1. 核心概念
在試圖介紹多核計(jì)算發(fā)展之前,我們有必要先在術(shù)語(yǔ)和目標(biāo)方面達(dá)成共識(shí)。令人訝異的是,這一領(lǐng)域中的很多常用詞匯用在計(jì)算產(chǎn)品的生產(chǎn)方、采購(gòu)方和用戶方,涵義迥然不同。若針對(duì)這些不同的涵義進(jìn)行研究,將顯著增加復(fù)雜度和權(quán)衡取舍的難度,而它們對(duì)于工程設(shè)計(jì)流程卻是至關(guān)重要的。
1.1.1. 平衡
對(duì)于“平衡”,韋氏在線辭典共列出了 12 個(gè)定義,其中與本文關(guān)系最為密切的定義有兩個(gè)。
第5項(xiàng)
a:由于在垂直軸的兩端分布等量的重量而產(chǎn)生的穩(wěn)定性。
b:在對(duì)比、對(duì)立或交互元素間的均衡性。
c:賬目?jī)啥说目傊迪嗟取?
第6項(xiàng)
a:在美學(xué)意義上多個(gè)元素的完美整合
在計(jì)算機(jī)系統(tǒng)中,人們對(duì)于“平衡”的理解多是這兩種概念。前者是定量、分析性的,但卻試圖迅速將這一定義結(jié)合到各種復(fù)雜因素之中。計(jì)算機(jī)系統(tǒng)應(yīng)該在哪些屬性上體現(xiàn)出“對(duì)稱分布”?我們認(rèn)為,這些重要的屬性包括:成本、價(jià)格、功耗、物理尺寸、可靠性以及眾多相對(duì)獨(dú)立的性能屬性的任意主體。在選擇哪些屬性實(shí)現(xiàn)“平衡”,或如何將多種屬性比較整合成單一的“平衡”標(biāo)準(zhǔn)時(shí),將不會(huì)存在顯而易見(jiàn)的“正確答案”。
當(dāng)考慮計(jì)算機(jī)系統(tǒng)的多維設(shè)計(jì)/配置空間時(shí),“平衡”的美學(xué)定義帶有設(shè)計(jì)者強(qiáng)烈的個(gè)人色彩,但應(yīng)用到工程和業(yè)務(wù)空間上時(shí),如果忽略定量因素,則會(huì)使整個(gè) “平衡”概念失去效用。
這些標(biāo)準(zhǔn)定義的缺乏表明了一種不容忽視的微妙關(guān)系。在本文中,我們很高興能夠繼續(xù)使用“平衡”一詞,但需要指出,在清晰定義的定量環(huán)境中(包括如何將它們組成單一的優(yōu)化問(wèn)題),該詞只具有數(shù)量含義。
1.1.2. 優(yōu)化
對(duì)于“優(yōu)化”,韋氏在線辭典中僅列出 1 個(gè)定義:
使事物(例如一個(gè)設(shè)計(jì)、系統(tǒng)或決策)盡可能完美、起作用或有效的一種行動(dòng)、流程或方法;具體指參與其中的數(shù)學(xué)程序(例如找到函數(shù)的最大值)。
對(duì)于此術(shù)語(yǔ),計(jì)算機(jī)用戶最常見(jiàn)的使用錯(cuò)誤,是錯(cuò)誤地將編譯器理解為“優(yōu)化器”,在此情況下,往往只將“優(yōu)化”用作“改進(jìn)”的同義詞。雖然詞意相近,但優(yōu)化(在其數(shù)學(xué)含義中)指的是在存在約束的條件下(也可能只是由目標(biāo)功能自身產(chǎn)生的約束限制),將特定的目標(biāo)功能最小化或最大化。與之對(duì)照,“改進(jìn)”是指“使事物變得更好”,并不具有“優(yōu)化”概念中至關(guān)重要的“權(quán)衡”的意義。
計(jì)算機(jī)系統(tǒng)設(shè)計(jì)中的優(yōu)化是指,選擇使特定目標(biāo)功能最大化或最小化的參數(shù),同時(shí),還通常為其他目標(biāo)功能提供“次級(jí)優(yōu)化”解決方案。在普遍使用的目標(biāo)功能中,有很多參數(shù)相互矛盾,例如,低成本與高性能、低功耗與高性能等。設(shè)計(jì)參數(shù)一旦相互抵觸,就將根據(jù)具體目標(biāo)功能的量化公式找到“最優(yōu)”設(shè)計(jì)點(diǎn)??例如明確要求,提升10%的性能(或把功耗降低 10%)對(duì)其他設(shè)計(jì)目標(biāo)會(huì)產(chǎn)生怎樣的影響?
1.2. 方法
為撰寫(xiě)本文,我們將使用一個(gè)帶有調(diào)整后的系數(shù),并最適應(yīng)SPEC_fp2000和SPECfp_rate2000基準(zhǔn)測(cè)試大型子集(截至2006年 3 月)的分析模型,估算多種配置選項(xiàng)的性能影響。
該分析模型包括508個(gè)SPEC_fp2000結(jié)果730個(gè)SPECfp_rate2000結(jié)果。另有233個(gè)結(jié)果被排除在分析之外,因?yàn)樗鼈兪褂昧讼冗M(jìn)的編譯器優(yōu)化或特殊的硬件配置,而這都會(huì)導(dǎo)致其與大部分結(jié)果進(jìn)行比較毫無(wú)意義。
前面已經(jīng)對(duì)該性能模型進(jìn)行了介紹,但是,此處對(duì)其進(jìn)行了擴(kuò)展以納入更完整的數(shù)據(jù)集,并已經(jīng)將它應(yīng)用到每個(gè)SPEC_fp2000基準(zhǔn)測(cè)試結(jié)果的14 個(gè)測(cè)試項(xiàng)目和幾何平均值中。雖然該模型沒(méi)有捕捉這些基準(zhǔn)測(cè)試的某些性能特征細(xì)節(jié),但它對(duì)大量結(jié)果進(jìn)行最小二乘法,能夠大幅度減少與單個(gè)結(jié)果相關(guān)的隨機(jī)“干擾”,并提供很高的平臺(tái)獨(dú)立性。
簡(jiǎn)而言之,該模型假定每個(gè)基準(zhǔn)測(cè)試的執(zhí)行時(shí)間為“CPU 時(shí)間”和“內(nèi)存時(shí)間”之和。其中,內(nèi)存子系統(tǒng)完成的“工作”數(shù)量是緩存規(guī)模的簡(jiǎn)單函數(shù),從“大型”緩存(其中“大型”也是該模型的一個(gè)參數(shù))最大值線性減少到無(wú)緩存的最小值,對(duì)大于大型規(guī)模的緩存,內(nèi)存工作量恒定不變。假定 CPU 工作的完成率與芯片采用 64 位 IEEE 算法的峰值浮點(diǎn)性能成正比,而內(nèi)存工作的完成率與系統(tǒng)在 171.swim(基礎(chǔ))基準(zhǔn)測(cè)試上的性能成正比。此前的研究已經(jīng)顯示,在 171.swim 基準(zhǔn)測(cè)試上的性能和使用 STREAM 基準(zhǔn)測(cè)試直接測(cè)量的持續(xù)內(nèi)存性能之間有很強(qiáng)的聯(lián)系。
該模型的模擬結(jié)果與測(cè)量結(jié)果有很強(qiáng)的相關(guān)性,75% 的測(cè)量結(jié)果都具有15%的模擬映射。這指出,基礎(chǔ)的模型假設(shè)與這些系統(tǒng)在這些基準(zhǔn)測(cè)試上的實(shí)際性能特征一致。雖然模型中存在某些體系性錯(cuò)誤,但模型與觀察結(jié)果之間的差異并非都來(lái)自于硬件假定的過(guò)度簡(jiǎn)化,很多差異也可能來(lái)自于編譯器、編譯器選項(xiàng)、操作系統(tǒng)和基準(zhǔn)配置方面的差異??偟膩?lái)說(shuō),該模型足夠健壯,可以作為說(shuō)明微處理器系統(tǒng)中性能和性能價(jià)格比靈敏度的基礎(chǔ)。
1.3. 假設(shè)與建模
為進(jìn)行性能和性能價(jià)格比分析,我們將假定:
雙插槽“裸”系統(tǒng)(帶有磁盤(pán)、內(nèi)存和網(wǎng)絡(luò)接口,但沒(méi)有 CPU)成本為 1,500 美元。
基本CPU 配置為 2.4 GHz 單核處理器,配備 1 MB L2 緩存,成本為 300 美元。
Die設(shè)定為CPU 核心和L2 緩存約各占一半,其他片上功能限制在Chip全部區(qū)域的小區(qū)間中。
“小型芯片”配置為 2.8 GHz 單核心處理器,配備 1 MB L2 緩存,成本為 150 美元。
“大緩存”配置為 2.8 GHz 單核心處理器,配備 3 MB L2 緩存,成本為 300 美元。
“多核”配置為 2.0 GHz 雙核心處理器,每個(gè)核心配備 1MB L2 緩存,成本為 300 美元。
2. 多核心芯片最初的開(kāi)發(fā)
多核心處理器最初的開(kāi)發(fā)在很大程度上要?dú)w功于 CMOS 光刻印刷工藝的持續(xù)進(jìn)步。眾所周知,隨著CPU 核心的尺寸/帶寬的不斷提升,很快就會(huì)造成投資回報(bào)的遞減。所以當(dāng)核心的尺寸工藝收縮到一個(gè)小尺度上后,出于對(duì)Die經(jīng)濟(jì)可行性的考慮,制造商通常有如下選擇:
• 生產(chǎn)更小的芯片
• 增加大量緩存
• 增加更多核心
增加更多內(nèi)存帶寬的選擇顯然會(huì)增加大量處理器芯片之外的成本,包括修改主板(如許多PCB層的改動(dòng))、增加DIMM插槽等。由于這些額外成本和插槽不兼容的問(wèn)題,增加更多內(nèi)存帶寬將被單獨(dú)考慮,與涉及Die尺寸的選項(xiàng)不相關(guān)。
圖 1 和圖 2 顯示了一些與這三個(gè)選項(xiàng)相關(guān)的性能和性能價(jià)格比指標(biāo),假定光刻印刷面積縮減30%(即區(qū)域縮減50%),支持單核心頻率提高17%,但需要雙核心頻率降低17%(以保持相同的功耗水平)。
注意,SPECfp_rate2000基準(zhǔn)測(cè)試包含14個(gè)獨(dú)立的測(cè)試,它們均單獨(dú)建模。這些可以總結(jié)為:最小提速、中值提速、幾何平均數(shù)提速和最大提速。對(duì)于雙核心處理器選項(xiàng),要同時(shí)估算單核心 (uni) 和雙核心 (mp) 提速。
圖 1:針對(duì)三種系統(tǒng)配置進(jìn)行SPECfp_rate2000 性能評(píng)估(基于章節(jié) 1 中描述的分析模型),假定光刻面積縮減30%(區(qū)域縮減50%),相應(yīng)地,單核心芯片頻率提高 17%,雙核心芯片頻率降低 17%。小型芯片的尺寸為參考芯片的½,同時(shí),大緩存和雙核版本擴(kuò)展到與參考芯片相同的尺寸,且電源需求與參考芯片相同。注意,大緩存情況下的最大提速為+156%,但由于此處的圖形范圍限制而被截?cái)囡@示。
圖 2:針對(duì)三種系統(tǒng)配置的SPECfp_rate2000/價(jià)格評(píng)估(基于章節(jié) 1 中描述的分析模型),假定光刻面積縮減30%(區(qū)域縮減50%),相應(yīng)地,單核心芯片頻率提高 17%,雙核心芯片頻率降低 17%。
依次觀察這三種選擇:
2.1. 生產(chǎn)更小的芯片
顯然,量產(chǎn)那些時(shí)鐘頻率僅滿足基本需求的更小/更便宜的芯片,在為客戶提升性能和性能價(jià)格比方面價(jià)值不大。在此例中,處理器價(jià)格的下降可以將系統(tǒng)整體成本降低 14%(1,800 美元比 2,100 美元),而 17% 的頻率提高可以在性能方面帶來(lái) 0% 到 14% 的提升,中間和幾何平均數(shù)提升為 8%-9%(圖 1)。這兩種因素的結(jié)合可以提供 17% 到 33% 的性能價(jià)格比提升,其中間和幾何平均數(shù)性能價(jià)格比提升為 27%-28%。
2.2. 增加大量片上緩存
與其他選擇相比,增加大量緩存為所有工作負(fù)載帶來(lái)的提升變化范圍更大。在此例中,將 L2 緩存從 1 MB 提高到 3 MB 可以帶來(lái) 0% 到 127% 的性能提升,其中值提升為 0%,幾何平均數(shù)提升為 11.8%。
17%的CPU頻率提升與緩存規(guī)模提升相結(jié)合可以帶來(lái)更多收益,二者結(jié)合的性能提升為0%到156%,中值提升為11.5%,幾何平均數(shù)提升為22.5%。
在此情況下,假定芯片的成本與參考系統(tǒng)相同,則性能價(jià)格比的提升比率與純性能提升比率相同。
2.3. 增加CPU 核心
增加核心可以廣泛提升各種工作負(fù)載的吞吐量,并需要付出不大的頻率降低(17%)以滿足功耗/冷卻限制。在此,我們假設(shè)50%的區(qū)域縮減使我們能夠容納2個(gè)CPU核心,每個(gè)都配備與參考芯片相同的L2緩存且成本相同。在運(yùn)行單一進(jìn)程時(shí),性能比參考平臺(tái)低 0% 到 15%,中間和幾何平均數(shù)性能變化為 -10% 到 -11%。
如果我們可以使用第二個(gè)核心運(yùn)行第二個(gè)代碼副本,則系統(tǒng)的吞吐量可以提高 0% 到 最大的54%,中間和幾何平均數(shù)提速為 29% 到 32%。
在這種情況下,假定芯片的成本與參考系統(tǒng)相同,則性能價(jià)格比的提升比率與純性能提升比率相同。
2.4. 討論
上面三個(gè)實(shí)例提供了大量令人困擾的獨(dú)立性能和性價(jià)比指標(biāo)??70 個(gè)相對(duì)值。就算將SPEC基準(zhǔn)測(cè)試的14 個(gè)性能值減少到3個(gè)(最小、幾何平均數(shù)、最大),仍然給我們留下了9個(gè)性能值和12 個(gè)性價(jià)比值(其中9個(gè)與性能值相同)。將這些值結(jié)合為1個(gè)指標(biāo),用以制定合理的設(shè)計(jì)決策并不是一項(xiàng)輕而易舉的事。
這三個(gè)選項(xiàng)都具有明顯的優(yōu)勢(shì)和不足:
設(shè)計(jì)選項(xiàng) 主要優(yōu)勢(shì) 主要缺點(diǎn)
小芯片 降低價(jià)格 最弱的提升幅度
大緩存 在少數(shù)代碼上有巨大的性能提高 最弱的中間和幾何平均數(shù)性價(jià)比提升
雙核心 最強(qiáng)的中間和幾何平均數(shù)吞吐量提升 降低了單處理器性能
找到這六項(xiàng)主要優(yōu)勢(shì)或主要缺點(diǎn)中的哪些會(huì)對(duì)哪些客戶構(gòu)成關(guān)鍵決策因素,相對(duì)簡(jiǎn)單。而上述信息的利用、推廣,以及用其來(lái)支持公司的商業(yè)模型就要復(fù)雜得多。
當(dāng)然,設(shè)計(jì)決策必須支持公司投資的商業(yè)模式。即使是看起來(lái)最簡(jiǎn)單的目標(biāo)“賺錢(qián)”在細(xì)節(jié)檢查上也會(huì)一片混亂??梢詫⑸虡I(yè)模型設(shè)計(jì)為取得最佳短期收入、短期利潤(rùn)、長(zhǎng)期收入、長(zhǎng)期利潤(rùn)、市場(chǎng)“轟動(dòng)”或“良好愿望”,也可以設(shè)計(jì)為實(shí)現(xiàn)具體市場(chǎng)份額目標(biāo)或盡量向競(jìng)爭(zhēng)對(duì)手施加財(cái)務(wù)壓力。真實(shí)的市場(chǎng)模型是這些目標(biāo)的復(fù)雜結(jié)合,不幸的是,對(duì)于“純粹”的設(shè)計(jì)優(yōu)化流程,不同的商業(yè)目標(biāo)可以改變各種性能和性能價(jià)格比指標(biāo)的相對(duì)重要程度。
2.5. 補(bǔ)充說(shuō)明
在所有這些情況中,性能的變化取決于基準(zhǔn)系統(tǒng)上內(nèi)存性能與 CPU 性能的比率。隨著可用帶寬的提高,大緩存的優(yōu)勢(shì)將遞減,而更多 CPU 核心的優(yōu)勢(shì)將提高。與此相反,相對(duì)較低的內(nèi)存帶寬會(huì)使大緩存更為關(guān)鍵,而明顯降低增加CPU核心帶來(lái)的吞吐量提升。
對(duì)于對(duì)緩存有利的SPECint_rate2000基準(zhǔn)測(cè)試,以2.2 GHz運(yùn)行的IBM e326服務(wù)器上的結(jié)果顯示:在SPECint_rate2000上,每芯片上同頻率核心數(shù)量的翻倍可以將吞吐量提高65%到100%(幾何平均數(shù)提升 = 95%)。
3. 當(dāng)前和短期問(wèn)題
3.1. 功耗問(wèn)題
功耗與性能一樣,比我們最初假設(shè)的情況更加多元化。在基于高性能微處理器的系統(tǒng)環(huán)境中,“功耗問(wèn)題”包括:
• 通過(guò)眾多超細(xì)針腳/焊點(diǎn)傳送到芯片的大量電流。(注意:即使在同樣的功耗水平下,隨著電壓下降,電流上升,針腳/焊點(diǎn)內(nèi)的熱阻也將升高。)
• 消除大量熱量,以防止Die溫度超過(guò)閾值,明顯縮短產(chǎn)品壽命。
• “熱點(diǎn)”問(wèn)題:芯片局部區(qū)域中的功耗密度過(guò)高可能將導(dǎo)致局部故障。(注意:若為了保持同樣的功耗水平,將晶圓上的處理器內(nèi)核尺寸減少一半,同時(shí)提高頻率,則內(nèi)核中的功耗密度將提高一倍。)
• 為提供這些服務(wù),需要提供大量電力??包括電力成本和用電升級(jí)成本。
• 消除保有這些服務(wù)器的設(shè)施所產(chǎn)生的大量熱量??包括電力成本和機(jī)房冷卻系統(tǒng)升級(jí)成本。
• 消除處理器芯片造成的大量熱空氣,這些熱空氣同樣影響其他熱敏組件(如內(nèi)存、硬盤(pán)等)。
由此可以看出,功耗問(wèn)題實(shí)際上至少與5、6個(gè)相互關(guān)聯(lián)而性質(zhì)截然不同的技術(shù)和經(jīng)濟(jì)問(wèn)題有關(guān)。
3.2. 吞吐量Vs.功耗/核心Vs.核心數(shù)量
針對(duì)以同樣的功耗水平提高性能這一問(wèn)題,我們著重討論一下如何使用越來(lái)越多的核心提供更高的吞吐量。
如果參數(shù)保持不變,功耗通常以 CPU 時(shí)鐘頻率的平方或立方倍率增長(zhǎng)。但是,性能的增長(zhǎng)速度是低于頻率的線性增長(zhǎng)速度的。對(duì)于能夠利用多線程的工作負(fù)載來(lái)說(shuō),多核心能夠顯著提高每瓦吞吐量。但是,正如之前所見(jiàn),這種吞吐量的增長(zhǎng)除了等待光刻工藝的提高,使我們能夠在一個(gè)芯片上放置更多核心之外,我們還可以創(chuàng)建更小的 CPU核心,使其外形更小巧,效能更高。就在前不久這種技術(shù)還很少見(jiàn)(除了 Sun T1 處理器芯片),這是因?yàn)槲覀兗僭O(shè)單線程性能太重要了,不能犧牲它。
我們將在“長(zhǎng)期預(yù)測(cè)”章節(jié)繼續(xù)討論這一問(wèn)題,但是,之前描述的性能模型的直接應(yīng)用說(shuō)明,只要 CPU 內(nèi)核功耗下降的速度大于峰值吞吐量的速度,則通過(guò)無(wú)限數(shù)量的極小快速核心,即可獲得最佳吞吐量。顯而易見(jiàn),這種系統(tǒng)的單線程性能將非常低,從而直接影響對(duì)單一指標(biāo)值的優(yōu)化。為了解決這一問(wèn)題,一種方法是可以定義一個(gè)可接受的最低單線程性能,然后對(duì)芯片進(jìn)行優(yōu)化,在面積和大功耗的限制條件下,盡可能加入更多的核心。
還有一種方法是將核心數(shù)量限制到一個(gè)合理的數(shù)量。在此處使用的單一吞吐量模型中,我們忽略了通信與同步這一因素。若用戶希望在單一的并行/線程應(yīng)用中使用更多的核心,將需要某種通信/同步,而且對(duì)于固定工作負(fù)載,還必須要保證通信/同步的開(kāi)銷將隨著作業(yè)中使用的 CPU 核心數(shù)量而單向增長(zhǎng)。
由此產(chǎn)生了對(duì) Amdahl 定律的簡(jiǎn)單修改:
其中,T 為解決問(wèn)題所需的總時(shí)間,Ts 是完成串行(非重疊性)工作所需的時(shí)間,Tp 是完成所有可并行工作所需的時(shí)間,N 是并行工作使用的處理器數(shù)量,To 是結(jié)合實(shí)施該應(yīng)用所需的通信與同步,每個(gè)處理器的開(kāi)銷。最后這一條件說(shuō)明,隨著處理器的增多,開(kāi)銷也將提高,而這是傳統(tǒng)的 Amdahl 定律公式中所沒(méi)有的。
在標(biāo)準(zhǔn)模型(沒(méi)有開(kāi)銷)中,解決問(wèn)題所需的總時(shí)間隨著 N 函數(shù)單調(diào)遞減,逐漸接近 Ts。在修改后的公式中,可以明顯看出,隨著 N 的增加,由于出現(xiàn)通信開(kāi)銷,解決問(wèn)題所需的總時(shí)間將開(kāi)始增加。在上述的簡(jiǎn)單示例中,可以根據(jù)以下公式定義完全并行的應(yīng)用 (Ts=0) 所需處理器的最優(yōu)數(shù)量:
由此,舉例來(lái)說(shuō),若 To 是 Tp 的 1%,則可以使用 10 個(gè)處理器獲得最大性能。是否將此作為一個(gè)重要設(shè)計(jì)點(diǎn),將取決于其他性能與性能價(jià)格比指標(biāo)的相對(duì)重要性。
3.3. 市場(chǎng)問(wèn)題
即將推出的多核芯片與 RISC SMP極其相似 ?? 在過(guò)去的 10 年中,RISC SMP 市場(chǎng)的硬件收入超過(guò) 2400 億美元。
與 1990 年代中期的 RISC SMP 一樣,這些多核心處理器具備易于使用、內(nèi)置緩存、共享內(nèi)存的特性,不同的是,多核心處理器是在單一芯片中實(shí)現(xiàn)這些特性。
1995 年前后,SGI POWER Challenge 是中端市場(chǎng)中最暢銷的 HPC 服務(wù)器 ?? 筆者之一(McCalpin)當(dāng)年就曾花費(fèi)近 40 萬(wàn)美元購(gòu)買(mǎi)了一個(gè)配備 8 個(gè) CPU 的系統(tǒng)。在 1996 到 1997 年,CPU 主頻為 90 MHz (11 ns),主內(nèi)存延遲接近 1000 ns,或 90 個(gè)時(shí)鐘周期。2007 年,四核 AMD 處理器的頻率超過(guò) 2 GHz (0.5 ns),主內(nèi)存延遲約為 55 ns,或者 110 個(gè)時(shí)鐘周期。這些比例都驚人的相似。
SGI要在Power Challenge上提供充足的內(nèi)存帶寬是一項(xiàng)艱巨的“挑戰(zhàn)”(這里的雙關(guān)令人遺憾)。一個(gè)配備 8 個(gè) CPU 的SGI POWER Challenge 的最高浮點(diǎn)性能為 2.88 GFLOPS,最高內(nèi)存帶寬達(dá)到 1.2 GB/s,約為 0.42 字節(jié)/FLOP。而AMD即將推出四核Barcelona處理器的最高浮點(diǎn)性能約為 32 GFLOPS、最高內(nèi)存帶寬達(dá)到約 12.8 GB/s,也是大約 0.4 字節(jié)/FLOP的比例。
到1996 年,UNIX 服務(wù)器市場(chǎng)的硬件收入超過(guò) 220 億美元,而到 2000 年,該收入提高到近 330 億美元。之后,該市場(chǎng)一直在萎縮,2006 年,已下滑至 180 億美元左右。
以下 3 個(gè)因素共同導(dǎo)致了市場(chǎng)萎縮:
• 越來(lái)越難以保持最初使UNIX服務(wù)器獲得成功的系統(tǒng)平衡,
• 大規(guī)模RISC SMP 難以和小型RISC SMP一樣,能不斷降低CPU的平均價(jià)格,
• AMD推出了基于 IA32 架構(gòu)、價(jià)格更便宜的服務(wù)器,進(jìn)而令基于AMD64 架構(gòu)的產(chǎn)品在2003年快速推出。
對(duì)這三個(gè)因素的詳細(xì)分析也很耐人尋味。
3.3.1. 打破系統(tǒng)平衡
如上所述,最初,RISC SMP 主內(nèi)存延遲在 100 個(gè)CPU時(shí)鐘范圍內(nèi),帶寬范圍接近 0.4 字節(jié)/FLOP。該延遲在很大程度上不受 CPU 數(shù)量的限制,同時(shí),可以通過(guò)配置不同數(shù)量的處理器,調(diào)整每個(gè)處理器的帶寬。
在應(yīng)用領(lǐng)域和每個(gè)處理器帶寬間,始終存在著明確的系統(tǒng)相關(guān)性,即“緩存友好”型應(yīng)用領(lǐng)域采用滿處理器負(fù)荷裝入SMP,而“高帶寬”領(lǐng)域配置更少的處理器或堅(jiān)持使用單處理器系統(tǒng)。
到 2000 年,RISC SMP 中的主內(nèi)存延遲已經(jīng)降低了三分之一,而同時(shí)CPU 頻率也已經(jīng)提高了 3 到 6 倍。隨著單一系統(tǒng)總線轉(zhuǎn)變?yōu)槎喾NNUMA結(jié)構(gòu),每個(gè)處理器的帶寬也變得更為復(fù)雜。
3.3.2. 價(jià)格趨勢(shì)
1990年代后期,服務(wù)器廠商獲得了長(zhǎng)足的進(jìn)步,能夠使在1990年代初極為成功的系統(tǒng)保持令人滿意的系統(tǒng)平衡屬性。雖然這獲得了高度成功,但是卻在經(jīng)濟(jì)方面代價(jià)不菲。其兩大成本來(lái)源是:要為這些系統(tǒng)提供片外 SRAM 緩存和監(jiān)聽(tīng)系統(tǒng)總線,以便實(shí)現(xiàn)緩存一致性。對(duì)于這些系統(tǒng)來(lái)說(shuō),大量片外 SRAM 緩存對(duì)于這些系統(tǒng)忍受相對(duì)較高的內(nèi)存延遲,并降低對(duì)于共享地址和數(shù)據(jù)總線的帶寬需求至關(guān)重要。當(dāng)英特爾停止使用標(biāo)準(zhǔn)的片外 SRAM 緩存時(shí),整個(gè)市場(chǎng)停滯不前,而 SRAM 的性價(jià)比也無(wú)法追隨其他電子組件的下降趨勢(shì)。2000 年,一個(gè)大容量片外SRAM緩存的成本要比處理器的成本高好幾倍。
但是,對(duì)于小型 SMP 來(lái)說(shuō),減少共享內(nèi)存和地址總線也就意味著縮短延遲并提高每個(gè)處理器的帶寬,從而可以使用更小的片外SRAM緩存。隨著小RISC SMP與大RISC SMP間的價(jià)格/處理器差距進(jìn)一步拉大,客戶也日益轉(zhuǎn)向采用小SMP集群取代大SMP。
3.3.3. “殺手級(jí)”微處理器
到 2000 年初,日益商品化、高產(chǎn)量的x86架構(gòu)的服務(wù)器與基于專用 RISC 架構(gòu)的服務(wù)器相比,已具有絕對(duì)的性能優(yōu)勢(shì),且高產(chǎn)量服務(wù)器能夠提供更優(yōu)越的性價(jià)比。轉(zhuǎn)向小型RISC SMP 的趨勢(shì)使得向小型x86 SMP 的遷移也更為簡(jiǎn)單。
2003 年,隨著基于 AMD64 架構(gòu)處理器的推出,提供了更高的性能和真64 位尋址能力及整數(shù)算法,這一趨勢(shì)獲得了極大的發(fā)展動(dòng)力。英特爾緊隨AMD之后推出了 EM64T 架構(gòu),從而在幾年內(nèi),導(dǎo)致了一次聲勢(shì)浩大的將絕大多數(shù) x86 服務(wù)器業(yè)務(wù)從 32 位遷移至 64 位硬件的無(wú)縫遷移。
這些趨勢(shì)并不能說(shuō)明客戶對(duì) SMP 缺乏興趣。他們確實(shí)有興趣,但是,這些趨勢(shì)可以說(shuō)明,眾多客戶都對(duì)大型 SMP 系統(tǒng)所提供功能的價(jià)格較為敏感。由于價(jià)格差異巨大,市場(chǎng)自然會(huì)找到如何使用價(jià)格更便宜硬件的途徑。
正如RISC SMP市場(chǎng)最終產(chǎn)生了大量進(jìn)行并行處理編碼的ISV(在企業(yè)與技術(shù)計(jì)算方面)一樣,多核心x86處理器也將推動(dòng)更多大型軟件的并行化,并顯著降低目前小型服務(wù)器的價(jià)格。
與1990年代的 RISC SMP 市場(chǎng)不同,如今的多核心處理器不會(huì)依賴于片外 SRAM 緩存,可對(duì)其進(jìn)行配置以避免產(chǎn)生成本高昂的芯片到芯片的相干性流量(可以通過(guò)監(jiān)聽(tīng)過(guò)濾器,也可以簡(jiǎn)單地使用單芯片服務(wù)器,例如Sun T1/Niagara)。也許除了移動(dòng)/低功耗設(shè)備之外,沒(méi)有任何一個(gè)通用CPU的競(jìng)爭(zhēng)者能夠明確地以更低的價(jià)格提供更高的 x86 性能。
4. 長(zhǎng)期預(yù)測(cè)
4.1. SoC(SMP on a Chip)
在1990年代中后期,RISC SMP 市場(chǎng)的主流是 4、8 和 16 路 SMP。這種“利潤(rùn)最豐厚”的市場(chǎng),提供了額外的CPU能力來(lái)證明應(yīng)用并行化的效果,而不會(huì)產(chǎn)生讓人無(wú)法接受的成本開(kāi)銷,也不會(huì)為應(yīng)用提供過(guò)多無(wú)法有效利用的處理器。
目前的趨勢(shì)是,數(shù)年內(nèi)將能夠在單一芯片上實(shí)現(xiàn)類似的 SMP尺寸,從而據(jù)此做出多方面的預(yù)測(cè):
• 在1990年代,RISC SMP 打開(kāi)了 UNIX 服務(wù)器市場(chǎng),多核芯片能否以與之相同的方式打開(kāi)并行代碼的新市場(chǎng)?
• 為了有效利用多核處理器芯片,是否需要在架構(gòu)或編程模式上進(jìn)行根本性改變?或并行應(yīng)用能否憑借自身的力量發(fā)展,還是需要架構(gòu)方面的增強(qiáng)(如transactional memory)?
• 提高單一芯片的核心/線程數(shù)量,是否能夠消除絕大多數(shù)用戶對(duì)于更大型 SMP系統(tǒng)的需求?
即使對(duì)于單插槽或雙插槽系統(tǒng),每個(gè)芯片上核心數(shù)量的提高,將會(huì)使用戶混合運(yùn)行多線程和單線程作業(yè)(這些作業(yè)不會(huì)使用全部 CPU 核心),更像最近10年中的大型SMP服務(wù)器,而不是傳統(tǒng)的使用模式。即使是在這些小系統(tǒng)中,核心數(shù)量的日益增多也可以擴(kuò)展虛擬化的采用,支持多個(gè)客戶操作系統(tǒng)使用各自專用的核心,但競(jìng)爭(zhēng)使用內(nèi)存空間、內(nèi)存帶寬、共享緩存及其他共享資源。
4.2. 設(shè)計(jì)空間的爆炸式增長(zhǎng)
在本文開(kāi)頭的簡(jiǎn)單示例,已經(jīng)討論了在定義適當(dāng)?shù)奈⑻幚砥餍酒笜?biāo)參數(shù)時(shí)的復(fù)雜性和相當(dāng)有限的自由度(例如,一或兩個(gè)核心加上小容量或大容量緩存)。AMD最初銷售的雙核處理器基于90納米的工藝技術(shù),年中即將推出的四核Barcelona將基于 65 納米工藝技術(shù)。采用 45 納米技術(shù),AMD能夠?qū)?nèi)核數(shù)量再翻一倍(8 個(gè)內(nèi)核);而采用32 納米技術(shù),AMD則將能夠?qū)?nèi)核數(shù)量再翻一倍(16 個(gè)內(nèi)核),同樣22 納米技術(shù)還能夠令A(yù)MD將內(nèi)核數(shù)量再翻一倍(32 個(gè)內(nèi)核),而這一切都是切實(shí)可行的。
最近的研究表明,無(wú)論從設(shè)計(jì)或應(yīng)用性能的角度來(lái)看,CMP 設(shè)計(jì)空間都是多維的。但問(wèn)題是,性能與性價(jià)比指標(biāo)的定義已經(jīng)發(fā)展出了很多層次的自由度。若每個(gè)應(yīng)用都擁有不同的單線程性能、多線程性能、單線程性價(jià)比和多線程性價(jià)比設(shè)計(jì)點(diǎn),將更難以做出決定。而且,CPU產(chǎn)量與不斷增加的獨(dú)立“最優(yōu)”設(shè)計(jì)點(diǎn),也將成為芯片產(chǎn)業(yè)即將面臨的主要挑戰(zhàn)。
4.3. 異構(gòu)化
顯而易見(jiàn),假設(shè)不同的資源的成本不同,同類多核芯片不能面向不同工作負(fù)載進(jìn)行優(yōu)化。若將設(shè)計(jì)空間擴(kuò)大加入異構(gòu)處理器核心,則可增加很多新的自由度。內(nèi)核間可能不同的參數(shù)包括:
• 基本 ISA
• ISA 擴(kuò)展
• 緩存容量
• 頻率
• Issue寬度
• 亂序功能
這一額外的自由度令同質(zhì)化的多核設(shè)計(jì)產(chǎn)生了無(wú)數(shù)的新可能性,既令人興奮又令人畏懼。
當(dāng)然,多核心處理器將不限于僅包含 CPU。既然三維圖形處理卡已經(jīng)廣泛整合到移動(dòng)、客戶端和工作站系統(tǒng)中,那么將圖形處理單元(或圖形處理單元的一部分)集成到處理器芯片上應(yīng)該是自然而然的(詳情請(qǐng)參閱 AMD 已發(fā)布的“Fusion”計(jì)劃)。其他類型的異構(gòu)架構(gòu)也將成為未來(lái)合乎邏輯的選擇,但目前來(lái)看,好像還沒(méi)有哪個(gè)AMD的競(jìng)爭(zhēng)對(duì)手進(jìn)行過(guò)具有大規(guī)模處理器生產(chǎn)意義上的異構(gòu)化嘗試。
4.4. 核心過(guò)多?
雖然片內(nèi)集成4 到 8 個(gè) CPU核心的短期展望著實(shí)令人興奮,但是,從更長(zhǎng)期的角度來(lái)看,片內(nèi)集成32、64、128、256個(gè)核心也將帶來(lái)其他挑戰(zhàn)。
1990年代末,在 RISC SMP 市場(chǎng)的鼎盛時(shí)期,大型(8 路到 64 路)系統(tǒng)成本昂貴,且?guī)缀跏冀K共享使用。單個(gè)用戶基本不用擔(dān)心找不到足夠多的工作使 CPU保持忙碌。與之相反,即將推出的多核心處理器芯片將是價(jià)格適中的商業(yè)化產(chǎn)品。個(gè)人將能夠輕松地負(fù)擔(dān)多個(gè)CPU,超過(guò)以往“任務(wù)并行化”所需要的CPU數(shù)量。例如,在 2004 年,一臺(tái)基于 AMD 或英特爾單核心處理器的高配置雙插槽服務(wù)器售價(jià)為 5,000 到 6,000 美元,擁有5萬(wàn)美元預(yù)算的科研人員/工程師,可以購(gòu)買(mǎi)大約 8 臺(tái)服務(wù)器(16 個(gè)內(nèi)核)以及足夠的存儲(chǔ)與網(wǎng)絡(luò)設(shè)備。自 2000 年開(kāi)始,這類系統(tǒng)的數(shù)量劇增,很多用戶發(fā)現(xiàn)在小型集群上,運(yùn)行獨(dú)立串行作業(yè)時(shí),或僅在一個(gè)服務(wù)器內(nèi)進(jìn)行并行作業(yè)(使用 OpenMP 或明確的線程)時(shí),可以充分使用這些小集群的資源。
若廠商提供近乎同樣的價(jià)格,則使用相同的預(yù)算,采用16核的處理器將總共獲得256 個(gè)核心??蒲腥藛T/工程師用戶基本不會(huì)有數(shù)量如此巨大的獨(dú)立作業(yè)(通常,通過(guò)參數(shù)檢查、敏感度分析或整體統(tǒng)計(jì)產(chǎn)生),也不會(huì)考慮改進(jìn)此吞吐量,以提高單一作業(yè)性能。
更進(jìn)一步的設(shè)想,若使用 5萬(wàn)美元能采購(gòu)128核的芯片,將獲得 2048 個(gè)線程,這將使絕大多數(shù)用戶編程和使用計(jì)算機(jī)的方式發(fā)生根本性變革。因此,多核心處理器開(kāi)發(fā)人員的任務(wù)很艱巨,他們必須簡(jiǎn)化多核心處理器的開(kāi)發(fā),以提高單一作業(yè)的效率。并且,如果多核用戶能夠提前于自己的競(jìng)爭(zhēng)對(duì)手,率先開(kāi)發(fā)出此并行機(jī)制,則該用戶將獲得更多的競(jìng)爭(zhēng)優(yōu)勢(shì)。
4.5. 帶寬情況如何?
相對(duì)處理器的性能增長(zhǎng)速度,內(nèi)存帶寬的提升速度相對(duì)要低的多。通過(guò)提高管線能力,DRAM 技術(shù)已從根本上改進(jìn)了自身性能,但這種方法也已經(jīng)接近其實(shí)際極限了。驅(qū)動(dòng)DRAM命令與數(shù)據(jù)、消化來(lái)自 DRAM 的數(shù)據(jù)、發(fā)送/接收數(shù)據(jù)以及探測(cè)/監(jiān)控往返于其他芯片間的流量等產(chǎn)生的功耗,正日益成為大量電力消耗的主要原因。
如果一個(gè)CPU最大浮點(diǎn)性能只支持小于 0.5 GB/s 的主內(nèi)存帶寬,則其在市場(chǎng)中獲得成功的幾率將明顯降低。舉例來(lái)說(shuō),若希望使用 8 個(gè)核心,且每個(gè)核心每個(gè)周期可以以 3 GH 頻率速度進(jìn)行 4 次浮點(diǎn)操作,則毫無(wú)疑問(wèn),100 GFLOPS(峰值)芯片也非遙不可及,而只能算是合理的中期預(yù)期。
另一方面,每個(gè)處理器芯片要保持 50 GB/s 的內(nèi)存帶寬,成本也極為昂貴。即使使用 DDR2/3 DRAM 技術(shù),提供 1600 MHz(每個(gè) 64 位通道 12.8 GB/s)的數(shù)據(jù)傳輸率,則實(shí)際上,要保持所期望的內(nèi)存帶寬水平也將需要很多通道(102.4 GB/s 峰值帶寬大概需要 8 個(gè)通道),這就意味著至少需要 8 個(gè) DIMM,并需要丟棄類似 40 個(gè)出色的緩存,以實(shí)現(xiàn) 50% 的利用率。(若內(nèi)存延遲為 50 ns,則 102.4 GB/s 的延遲帶寬為 5120 字節(jié),或每 64 個(gè)字節(jié)延遲 80 個(gè)緩存線。所以,共需要約 40 個(gè)并發(fā)緩存線傳輸,以保持 50 GB/s 的目標(biāo)帶寬。)
5. 總結(jié)與結(jié)論
本文的文字與圖例說(shuō)明,在多核心處理器帶來(lái)的巨大機(jī)會(huì)和挑戰(zhàn)面前,我們才剛剛開(kāi)始。AMD最初的前進(jìn)步伐一直受到技術(shù)的限制,只能對(duì)系統(tǒng)的整體平衡做有限的提升,但是,技術(shù)的發(fā)展趨勢(shì)使AMD清楚地看到,未來(lái)工藝技術(shù)所提供的靈活性將給業(yè)界帶來(lái)大量機(jī)會(huì),使AMD能夠設(shè)計(jì)出在功耗、性能和成本特性方面有顯著提高的基于微處理器的系統(tǒng)(例如Barcelona和Fusion)。
對(duì)于計(jì)算產(chǎn)業(yè)而言,通過(guò)生產(chǎn)標(biāo)準(zhǔn)化的產(chǎn)品來(lái)保持高產(chǎn)量,通過(guò)創(chuàng)建種類豐富的產(chǎn)品來(lái)提高性能、每瓦性能和性能價(jià)格比之間的相互牽制,將成為整個(gè)行業(yè)的主要挑戰(zhàn)。即使我們?cè)噲D保持適度數(shù)量的“快速”核心,工藝技術(shù)也將支持我們提供超過(guò)用戶當(dāng)前的有效使用能力的核心。這將需要整個(gè)產(chǎn)業(yè)、學(xué)術(shù)界和計(jì)算機(jī)用戶共同合作,開(kāi)發(fā)出新的方法,能夠利用多核心完成“日?!睉?yīng)用,利用片上通信的物理位置實(shí)現(xiàn)前所未有的、耦合更為緊密的并行機(jī)制。
資料:加速系數(shù)與Amdahl定律
衡量多處理器系統(tǒng)的性能時(shí),通常要用到的一個(gè)指標(biāo)叫做加速系數(shù),定義如下:
S(p) = 使用單處理器執(zhí)行時(shí)間(最好的順序算法)/ 使用具有p個(gè)處理器所需執(zhí)行時(shí)間
Amdahl定律的傳統(tǒng)方程式表示方式:
S(p) = p / (1 + (p-1)*f)
其中 S(p)表示加速系數(shù)
p表示處理器的個(gè)數(shù)
f表示串行部分所占整個(gè)程序執(zhí)行時(shí)間的比例
當(dāng)f = 5%, p = 20時(shí), S(p) = 10.256左右
當(dāng)f = 5%, p = 100時(shí), S(p) = 16.8左右
關(guān)于作者:
http://home.austin.rr.com/mccalpin/
第一作者曾在SGI和IBM工作,從事過(guò)Power家族的研發(fā),也是Stream內(nèi)存帶寬基準(zhǔn)測(cè)試的發(fā)明人,被同行昵稱為“帶寬博士”。曾多次代表IBM就Power接受媒體采訪。
http://www.alliacense.com/Licensing_Charles_Moore_Biography.aspx
第二作者是多核心編程語(yǔ)言的發(fā)明人,具有數(shù)十年的業(yè)內(nèi)經(jīng)驗(yàn)。就職于AMD之前曾在多家公司任技術(shù)部門(mén)要職。
第叁作者是AMD的CTO,他的簡(jiǎn)歷我正在找Dennis要呢:)
本文主要觀點(diǎn)
1. 背景
a) 核心概念
i. 平衡
在設(shè)計(jì)計(jì)算機(jī)系統(tǒng)時(shí),設(shè)計(jì)者需要考慮成本、價(jià)格、功耗、物理尺寸、可靠性以及眾多相對(duì)獨(dú)立的屬性的最佳平衡。
ii. 優(yōu)化
計(jì)算機(jī)系統(tǒng)設(shè)計(jì)中的優(yōu)化是指,選擇使特定目標(biāo)功能最大化或最小化的參數(shù),同時(shí),還通常為其他目標(biāo)功能提供“次級(jí)優(yōu)化”解決方案。
b) 方法
通過(guò)對(duì)508個(gè)SPEC_fp2000結(jié)果730個(gè)SPECfp_rate2000結(jié)果進(jìn)行函數(shù)建模,進(jìn)行定量分析。
c) 假設(shè)與建模
為進(jìn)行性能和性能價(jià)格比分析,我們將假定:
雙插槽“裸”系統(tǒng)(帶有磁盤(pán)、內(nèi)存和網(wǎng)絡(luò)接口,但沒(méi)有 CPU)成本為 1,500 美元。
基本CPU 配置為 2.4 GHz 單核處理器,配備 1 MB L2 緩存,成本為 300 美元。
2. 多核芯片的研發(fā)
a) 生產(chǎn)更小的芯片
量產(chǎn)那些時(shí)鐘頻率僅滿足基本需求的更小/更便宜的芯片,在為客戶提升性能和性能價(jià)格比方面價(jià)值不大
b) 增加大量片上緩存
增加大量緩存為所有工作負(fù)載帶來(lái)的提升幅度更大。在此例中,將 L2 緩存從 1 MB 提高到 3 MB 可以帶來(lái) 0% 到 127% 的性能提升。
c) 增加CPU 核心
增加核心可以廣泛提升各種工作負(fù)載的吞吐量,并需要付出不大的頻率降低(17%)以滿足功耗/冷卻限制。
d) 三種參數(shù)的優(yōu)劣
設(shè)計(jì)選項(xiàng) 主要優(yōu)勢(shì) 主要缺點(diǎn)
小芯片 降低價(jià)格 最弱的提升幅度
大緩存 在少數(shù)代碼上有巨大的性能提高 最弱的中間和幾何平均數(shù)性價(jià)比提升
雙核心 最強(qiáng)的中間和幾何平均數(shù)吞吐量提升 降低了單處理器性能
3. 當(dāng)前和短期問(wèn)題
a) 功耗問(wèn)題
如何解決與多個(gè)領(lǐng)域相關(guān)的CPU功耗問(wèn)題?
b) 功耗與吞吐量及核心和核心數(shù)量的矛盾
只要 CPU 內(nèi)核功耗下降的速度大于峰值吞吐量下降的速度,則通過(guò)無(wú)限數(shù)量的極小快速核心,即可獲得最佳吞吐量。顯而易見(jiàn),這種系統(tǒng)的單線程性能將非常低,從而直接影響對(duì)單一指標(biāo)值的優(yōu)化。為了解決這一問(wèn)題,一種方法是可以定義一個(gè)可接受的最低單線程性能,然后對(duì)芯片進(jìn)行優(yōu)化,在面積和大功耗的限制條件下,盡可能加入更多的核心。這方面的例子如Sun的UltraSPARC T1 。
如果考慮到核心之間通信/同步的挑戰(zhàn),那么無(wú)限制的增加核心并不是惟一的途徑。還有一種方法是將核心數(shù)量限制到一個(gè)合理的數(shù)量。綜合運(yùn)用多種手段提升性能。
c) 市場(chǎng)挑戰(zhàn)
UNIX的麻煩
i. 越來(lái)越難以保持最初使UNIX服務(wù)器獲得成功的系統(tǒng)平衡
ii. 大規(guī)模RISC SMP 難以和小型RISC SMP一樣,能不斷降低CPU的平均價(jià)格
iii. AMD推出了基于 IA32 架構(gòu)、價(jià)格更便宜的服務(wù)器,進(jìn)而令基于AMD64 架構(gòu)的產(chǎn)品在2003年快速推出
x86-64的機(jī)會(huì)
iv. 2003 年,隨著基于 AMD64 架構(gòu)處理器的推出,提供了更高的性能和真64 位尋址能力及整數(shù)算法,導(dǎo)致了一次聲勢(shì)浩大的將絕大多數(shù) x86 服務(wù)器業(yè)務(wù)從 32 位遷移至 64 位硬件的無(wú)縫遷移。
v. 這一趨勢(shì)可以說(shuō)明,眾多客戶都對(duì)大型 SMP 系統(tǒng)所提供功能的價(jià)格較為敏感。
vi. 正如RISC SMP市場(chǎng)最終產(chǎn)生了大量進(jìn)行并行處理編碼的ISV(在企業(yè)與技術(shù)計(jì)算方面)一樣,多核心x86處理器也將推動(dòng)更多大型軟件的并行化,并顯著降低目前小型服務(wù)器的價(jià)格。
4. 長(zhǎng)期預(yù)測(cè)
a) SoC的發(fā)展
即使對(duì)于單插槽或雙插槽系統(tǒng),每個(gè)芯片上核心數(shù)量的提高,將會(huì)使用戶混合運(yùn)行多線程和單線程作業(yè)(這些作業(yè)不會(huì)使用全部 CPU 核心),更像最近10年中的大型SMP服務(wù)器,而不是傳統(tǒng)的使用模式。
即使是在這些小系統(tǒng)中,核心數(shù)量的日益增多也可以擴(kuò)展虛擬化的采用,支持多個(gè)客戶操作系統(tǒng)使用各自專用的核心,但競(jìng)爭(zhēng)使用內(nèi)存空間、內(nèi)存帶寬、共享緩存及其他共享資源。
b) 設(shè)計(jì)空間爆炸式增長(zhǎng)
AMD最初銷售的雙核處理器基于90納米的工藝技術(shù),年中即將推出的四核Barcelona將基于 65 納米工藝技術(shù)。采用 45 納米技術(shù),AMD能夠?qū)?nèi)核數(shù)量再翻一倍(8 個(gè)內(nèi)核);而采用32 納米技術(shù),AMD則將能夠?qū)?nèi)核數(shù)量再翻一倍(16 個(gè)內(nèi)核),同樣22 納米技術(shù)還能夠令A(yù)MD將內(nèi)核數(shù)量再翻一倍(32 個(gè)內(nèi)核),而這一切都是切實(shí)可行的。
c) 異構(gòu)化
多核心處理器將不限于僅包含 CPU。圖形處理單元(或圖形處理單元的一部分)集成到處理器芯片上應(yīng)該是自然而然的。其他類型的異構(gòu)架構(gòu)也將成為未來(lái)合乎邏輯的選擇,但目前還沒(méi)有AMD的競(jìng)爭(zhēng)對(duì)手進(jìn)行過(guò),具有大規(guī)模處理器生產(chǎn)意義上的異構(gòu)化嘗試。
d) 多核心的壓力
多核心處理器開(kāi)發(fā)人員的任務(wù)很艱巨,他們必須簡(jiǎn)化多核心處理器的開(kāi)發(fā),以提高單一作業(yè)的效率。并且,如果多核用戶能夠提前于自己的競(jìng)爭(zhēng)對(duì)手,率先開(kāi)發(fā)出此并行機(jī)制,則該用戶將獲得更多的競(jìng)爭(zhēng)優(yōu)勢(shì)。
e) 內(nèi)存帶寬的挑戰(zhàn)
相對(duì)處理器的性能增長(zhǎng)速度,內(nèi)存帶寬的提升速度相對(duì)要低的多。
5. 總結(jié)與結(jié)論
技術(shù)的發(fā)展趨勢(shì)使AMD清楚地看到,未來(lái)工藝技術(shù)所提供的靈活性將給業(yè)界帶來(lái)大量機(jī)會(huì),使AMD能夠設(shè)計(jì)出在功耗、性能和成本特性方面有顯著提高的基于微處理器的系統(tǒng)(例如Barcelona和Fusion)。
對(duì)于計(jì)算產(chǎn)業(yè)而言,通過(guò)生產(chǎn)標(biāo)準(zhǔn)化的產(chǎn)品來(lái)保持高產(chǎn)量,通過(guò)創(chuàng)建種類豐富的產(chǎn)品來(lái)提高性能、每瓦性能和性能價(jià)格比之間的相互牽制,將成為整個(gè)行業(yè)的主要挑戰(zhàn)。
附:
Phil Hester
AMD公司高級(jí)副總裁兼首席技術(shù)官
Phil Hester是AMD公司高級(jí)副總裁兼首席技術(shù)官,負(fù)責(zé)為AMD的微處理器業(yè)務(wù)制定架構(gòu)和產(chǎn)品方面的策略和規(guī)劃。Hester同時(shí)也是AMD技術(shù)委員會(huì)的主席,負(fù)責(zé)確保產(chǎn)品開(kāi)發(fā)、整合與工藝等各部門(mén)的綜合技術(shù)能力與產(chǎn)品發(fā)展方向一致。
Hester把他30多年的先進(jìn)的系統(tǒng)設(shè)計(jì)和企業(yè)計(jì)算經(jīng)驗(yàn)帶到了AMD。在加入AMD之前,Hester是Sanmina-SCI公司旗下Newisys公司的聯(lián)合創(chuàng)始人,并擔(dān)任首席執(zhí)行官。此前,在IBM公司工作的23年中,他擔(dān)任多個(gè)重要技術(shù)職位的領(lǐng)導(dǎo)和管理職務(wù),并且是IBM企業(yè)技術(shù)委員會(huì)(IBM Corporate Technology Council)的15名成員之一,主持了包括RS/6000在內(nèi)的多個(gè)系統(tǒng)技術(shù)開(kāi)發(fā)項(xiàng)目。
Phil擁有德克薩斯大學(xué)的理學(xué)士和工程學(xué)碩士學(xué)位。