IBM刀片服務(wù)器在降溫散熱上的特色設(shè)計


    現(xiàn)在隨著服務(wù)器的集成密度越來越高,像刀片服務(wù)器和機架服務(wù)器等大量的普及使用,服務(wù)器的散熱受到廠商和用戶的高度重視。對于刀片服務(wù)器來說,高計算力需要多CPU,而CPU本身以及相關(guān)設(shè)備都需要刀片機柜具備強大的散熱降溫能力。IBM是采用類似“中央空調(diào)式”的整體散熱技術(shù),來幫助整個刀片中心進行降溫。IBM刀片中心的散熱系統(tǒng)設(shè)計,是用兩個冗余的風(fēng)扇對放置在刀片中心的14片刀片進行散熱,就像大酒店的中央空調(diào)能夠?qū)Ω鱾€房間同時進行散熱。而且刀片中心的散熱系統(tǒng)采用雙冗余設(shè)計,如同配備了兩套酒店的“中央空調(diào)”。


    相比之下,一些廠商在進行刀片服務(wù)器設(shè)計改良時,會做一些非常簡單的改變??只是簡單地把一個服務(wù)器壓扁,仍然為每個服務(wù)器采用類似“壁掛式空調(diào)”來幫助每個刀片單獨散熱,如同為房間中的每個人配備一個“電風(fēng)扇”。但這樣的設(shè)計可能會帶來兩個問題:一、我們需要一個非常敬業(yè)勤勞的電工每天去檢修每個“壁掛式空調(diào)”、“電扇”是否正常,如果出現(xiàn)問題需要對每個散熱設(shè)備進行更換;二、僅僅保證了刀片服務(wù)器自身,而忽視了機柜空間內(nèi)的空氣流通和整體散熱。


    IBM刀片中心采用整體散熱設(shè)計和雙冗余的高速風(fēng)扇配置,則另辟蹊徑、化繁為簡,保證了機柜散熱上的可靠、高效。不僅如此,IBM設(shè)計的這套雙冗余的“中央空調(diào)”風(fēng)扇還具有“變頻”功能,在平時標準使用的時候,每分鐘150立方英尺的散熱風(fēng)量。當(dāng)它出現(xiàn)溫度預(yù)警、部件故障時,或者一個風(fēng)扇徹底壞掉,另外一個風(fēng)扇會開足馬力進行工作,每分鐘出風(fēng)量可以達到325立方英尺的散熱空氣流動量。如果有人在這個時候站在運行中的IBM刀片中心背面,會發(fā)現(xiàn)風(fēng)量非常大,這個道理和站在酒店中央空調(diào)的主出風(fēng)口一樣。因此,雙冗余的設(shè)計保證了不用擔(dān)心單個風(fēng)扇故障引起的服務(wù)器性能問題。


    在散熱系統(tǒng)中還設(shè)計了回流的主力器,空氣的流動比較順暢。冷空氣從刀片中心前方進入,對熱的兩個部件CPU進行散熱,然后對其次的內(nèi)存、芯片、硬盤、直至這兩個電源的部分,然后由這兩個風(fēng)扇把變熱的空氣從刀片中抽出來。


    IBM刀片服務(wù)器BladeCenter散熱系統(tǒng)詳細圖解


    IBM的刀片服務(wù)器BladeCenter即為一個出色的例子。它可為用戶提供占據(jù)空間更小,電源消耗更小,散熱條件更好的服務(wù)器。特別是它大幅度減少了對電源耗能的需求,自然也減少了系統(tǒng)對于散熱和冷卻的需求。 




   
    1. 電源模塊


    BladeCenter刀片服務(wù)器的底盤具有一對200-240伏的熱交換電源模塊,安裝在電源艙(Power Bays)1和2中,用于給所有刀片服務(wù)器模塊和刀片艙1-6提供電能。此外,BladeCenter服務(wù)器還可以在電源艙3和4中提供第二對電源模塊,從而為刀片艙7-14提供電能。作為熱插拔的子系統(tǒng),電源模塊可以為處理器刀片和其它電子部件提供直流電壓。兩個激活的電源模塊(在電源艙1和3)用于驅(qū)動插滿14個處理器刀片的全配置底板、4個交換機模塊、2個風(fēng)扇以及2個管理模塊。如果要提供全冗余的后備能力,則需要4個電源模塊。


    每一個電源模塊提供了+12V的輸出到刀片服務(wù)器的中間背板(mid-plane)上,BladeCenter刀片服務(wù)器所有的子系統(tǒng)都在該處獲得電源供應(yīng)。兩個+12V的中間背板電源總線可用于冗余,并在冗余電源模塊間對當(dāng)前工作的電源進行輸出負載的共享。


    2. 電源利用率和散熱


    由于BladeCenter服務(wù)器近90%的電源負載都來自于處理器和內(nèi)存上,每個底盤上的CPU使用率便成為決定實際負載中最為關(guān)鍵的因素。在服務(wù)器開機階段所需電量的峰值不會超過CPU在100%使用時刀片服務(wù)器所需的最大能耗??來自CPU的影響遠遠大于其它動態(tài)負載。


    電源需求和導(dǎo)致的散熱取決于多種因素??其中,關(guān)鍵因素為運行溫度、處理器和刀片的數(shù)量和CPU的使用率。


    雖然很多統(tǒng)計數(shù)據(jù)都來自于CPU 100%使用率的基準下,但是大多數(shù)用戶并不需要使他們?nèi)康姆?wù)器運行在這樣的滿載負荷之下。實際上,很多操作系統(tǒng)和應(yīng)用程序在這種情況下,運行效率反而會有所降低。每一個客戶需要對其應(yīng)用程序、操作系統(tǒng)以及IT基礎(chǔ)架構(gòu)進行評估,以確定使用率應(yīng)達到怎樣的程度。目前,IBM已制作一個有關(guān)配置的電子數(shù)據(jù)表格,它可根據(jù)客戶所指定的CPU占用率,計算出所需要的電源負載(基于實際測量結(jié)果)。 
  
    3. 內(nèi)置降溫系統(tǒng)


    IBM BladeCenter服務(wù)器的刀片單元不只是一個電路板。它安裝在堅固的底盤之上并全部被機殼封閉,盡可能地保證了堅固和可靠性;此外,還可以改善空氣流通和確高質(zhì)量的連接。


    冗余的矢量式冷卻系統(tǒng)是一項領(lǐng)先的尖端技術(shù)。無論目前或是以后插入更多強大的處理器時,它可以把空氣從機箱前部帶至后部,確保安插全部刀片的底板達到足夠的冷卻效果。其主要的組成部分是兩個轉(zhuǎn)速達到 325 CFM的熱交換冗余風(fēng)扇、關(guān)鍵位置處的熱量監(jiān)控器以及管理模塊。



    BladeCenter刀片服務(wù)器中的每個刀片HS20都擁有蜂窩結(jié)構(gòu)的前端外觀,使空氣從機架的前端流入;刀片服務(wù)器底板后部強大的雙模塊風(fēng)扇通過促使空氣從刀片的前端到后端流通來提供空氣的動力冷卻。CPU位于刀片的前端位置,從而獲得不斷的干凈的冷空氣。 
  
    兩個彎曲葉輪散熱風(fēng)扇(配有百葉窗回流擋片)為刀片服務(wù)器底盤的所有部件提供了冗余冷卻。室狀蒸汽散熱水槽用來冷卻處理器。所有通過BladeCenter服務(wù)器底盤的空氣估計總量,在0.7英寸H2O靜態(tài)壓差下是325 CFM(立方英尺/分鐘)。由于帶空氣通過系統(tǒng),325CFM包括了20CFM到底板的空氣滲漏。 




   
    風(fēng)扇的速度通過管理模塊來控制, 而管理模塊接收位于關(guān)鍵部位的熱量監(jiān)控器發(fā)來的信號(入口處的空氣溫度,系統(tǒng)設(shè)備溫度等)。如果各個傳感器的溫度級別升高,風(fēng)扇速度將會自動加快。在如下3種情況,兩個風(fēng)扇將都被設(shè)置到最大速度:



    管理模塊故障(或被移除)同時配有的冗余模塊未能工作
   在刀片或模塊上的熱量傳感器發(fā)出熱量警報
   由控制模塊測量的外部環(huán)境氣溫達到35攝氏度 
  
    如果風(fēng)扇發(fā)生故障或被移去,剩下的一個風(fēng)扇會自動提速以維持所需空氣流量直至更換部件被安裝好。如果一個風(fēng)扇失效,其上的4片百葉窗狀擋板將合上以封閉此單元,并通過另一個風(fēng)扇維持有效的空氣流通。此外,通過管理子系統(tǒng)所提供的告警,每個風(fēng)扇會通過LED指示燈在故障發(fā)生時給出提示。


    4. 系統(tǒng)管理器


    每個刀片上整合有一個系統(tǒng)管理處理器,在管理模塊上亦有一個服務(wù)處理器。通過它們之間的智能通訊,BladeCenter的自動系統(tǒng)確保了其高可用性。
  BladeCenter的管理模塊實施熱量監(jiān)控,包括:
   機箱熱量監(jiān)控
   處理器刀片熱量監(jiān)控
   本地或遠程熱量告警
  BladeCenter的管理模塊實施風(fēng)扇狀態(tài)和控制,包括:
   出現(xiàn)和故障檢測
   故障指示器和告警
   基于熱量的轉(zhuǎn)速控制
  BladeCenter服務(wù)器的管理模塊監(jiān)控電源狀態(tài)并對電源模塊進行控制,包括:
   出現(xiàn)和故障檢測
   故障指示器和告警
   電源故障重起控制
  

分享到

多易

相關(guān)推薦