我國(guó)航天部某研究所就通過(guò)一套由32個(gè)節(jié)點(diǎn)構(gòu)成的小規(guī)模集群系統(tǒng),為航天飛機(jī)大氣摩擦阻力的研究項(xiàng)目成功搭建了一個(gè)高性能的并行計(jì)算平臺(tái)。尤其值得關(guān)注的是,這套集群系統(tǒng)的計(jì)算節(jié)點(diǎn)并非傳統(tǒng)的RISC小型機(jī),也不是IBM、HP等廠商的品牌PC服務(wù)器,而是采用了技嘉生產(chǎn)的服務(wù)器準(zhǔn)系統(tǒng)GS-SR168,在高性能、高可靠與高性?xún)r(jià)比之間真正獲得了令用戶(hù)滿(mǎn)意的平衡。
棄RISC小型機(jī),選集群系統(tǒng)
隨著中國(guó)航空航天事業(yè)的快速發(fā)展,尤其是載人航天技術(shù)的巨大成功,我國(guó)科技人員對(duì)空氣動(dòng)力學(xué)的數(shù)值模擬研究提出了越來(lái)越多的需求,常規(guī)的計(jì)算能力遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足復(fù)雜的大型飛行器設(shè)計(jì)所帶來(lái)的巨大需求。
業(yè)內(nèi)人士知道,在航空航天領(lǐng)域的CFD計(jì)算中,研究人員往往需要把飛機(jī)表面分成幾百萬(wàn)甚至幾千萬(wàn)個(gè)離散型的網(wǎng)格點(diǎn),然后通過(guò)高性能計(jì)算平臺(tái)求解方程,得出每個(gè)網(wǎng)格點(diǎn)的溫度、速度、摩擦力等各種參數(shù),并模擬出連續(xù)型的曲線,進(jìn)而為飛機(jī)設(shè)計(jì)提供寶貴的參考資料。對(duì)CFD計(jì)算來(lái)說(shuō),網(wǎng)格點(diǎn)分割得越細(xì)密,計(jì)算量就越大,計(jì)算結(jié)果的精確度也就越好。測(cè)試表明,一個(gè)普通雙路服務(wù)器節(jié)點(diǎn)所能計(jì)算的網(wǎng)格數(shù)不會(huì)超過(guò)100萬(wàn)個(gè),因此,采用大SMP規(guī)模的小型機(jī)或者PC服務(wù)器集群就顯得非常必要了。
“由于課題很大,需要大量計(jì)算,而單機(jī)計(jì)算時(shí)間長(zhǎng),所以需要尋求計(jì)算能力強(qiáng)的硬件設(shè)備?!?該研究所的張老師介紹說(shuō)?!霸?4年9月項(xiàng)目啟動(dòng)初期,我們?cè)?jì)劃是采購(gòu)IBM的小型機(jī),但由于軍工領(lǐng)域采購(gòu)小型機(jī)會(huì)受到美國(guó)政府的政策性限制,操作起來(lái)比較困難,而且小型機(jī)的價(jià)格也相當(dāng)昂貴,而我們的經(jīng)費(fèi)也有限。后來(lái)接觸到正高集群公司的技術(shù)人員,經(jīng)過(guò)交流,我們發(fā)現(xiàn)如果用PC服務(wù)器集群,只需要用1半的成本就能完成同樣的事情?!?
于是,該研究所把目光投向了工業(yè)標(biāo)準(zhǔn)化的高性?xún)r(jià)比LINUX集群。在正高公司的幫助下,2004年11月該研究所采購(gòu)了第一批12臺(tái)技嘉GS-SR168搭建集群,運(yùn)行一年多后,發(fā)現(xiàn)效果不錯(cuò),在今年的二期工程中,又再次采購(gòu)了20臺(tái)GS-SR168。
技嘉GS-SR168服務(wù)器準(zhǔn)系統(tǒng)
用技嘉服務(wù)器搭建高性?xún)r(jià)比集群
由于CFD是一種典型的浮點(diǎn)計(jì)算密集型和內(nèi)存密集型應(yīng)用,其對(duì)高性能計(jì)算機(jī)的要求主要有:
1) 具有很強(qiáng)的計(jì)算能力,尤其是浮點(diǎn)運(yùn)算能力;
2) 有較大容量的內(nèi)存以使前處理和求解時(shí)數(shù)據(jù)能完全駐留在物理內(nèi)存中,經(jīng)驗(yàn)表明,一般每個(gè)CPU至少分配1GB內(nèi)存;
3) 由于CFD是一種穩(wěn)態(tài)計(jì)算,數(shù)據(jù)的讀寫(xiě)不需要隨著時(shí)間變化,只要在計(jì)算完后一次性讀寫(xiě)磁盤(pán)即可,因此采用主流、高性?xún)r(jià)比的SATA硬盤(pán)是比較好的選擇。而且如采用SATA硬盤(pán),在安裝OS時(shí),無(wú)需加載驅(qū)動(dòng),軟件安裝與運(yùn)行會(huì)更加順暢。
4) 要求具有支持高速、低延遲的通訊網(wǎng)絡(luò)。一般而言,100個(gè)節(jié)點(diǎn)以上的CFD集群要求采用性能更好但價(jià)格也更昂貴的Myrinet或Infiband互連網(wǎng)絡(luò),以滿(mǎn)足節(jié)點(diǎn)之間大量頻繁的通訊要求。但對(duì)于幾十個(gè)節(jié)點(diǎn)的小規(guī)模集群,采用主流的千兆以太網(wǎng)既能滿(mǎn)足通訊要求,更重要的是性?xún)r(jià)比非常不錯(cuò),可以大大減少用戶(hù)的采購(gòu)成本。
針對(duì)上述需求,經(jīng)過(guò)充分認(rèn)證和調(diào)研,該項(xiàng)目最終采用了32臺(tái)配置為“雙路英特爾至強(qiáng)3.0GHz 64位處理器、2GB內(nèi)存、80GB SATA硬盤(pán)、雙千兆網(wǎng)卡”的1U機(jī)架式服務(wù)器GS-SR168來(lái)充當(dāng)計(jì)算節(jié)點(diǎn)和管理節(jié)點(diǎn),采用千兆以太網(wǎng)為互連網(wǎng)絡(luò),配備正高集群管理系統(tǒng)(實(shí)現(xiàn)安裝、作業(yè)調(diào)度、TVM、MPI等功能),從而構(gòu)成了一套可以勝任2000-3000萬(wàn)網(wǎng)格點(diǎn)計(jì)算重任的高性?xún)r(jià)比集群系統(tǒng)。系統(tǒng)結(jié)構(gòu)如下圖所示:
基于技嘉SR168的正高集群系統(tǒng)結(jié)構(gòu)
其中,技嘉GS-SR168是一款1U 機(jī)架式服務(wù)器,高度僅為1.68 英寸,甚至比標(biāo)準(zhǔn)1U(1.75 英寸)還薄0.2cm,使服務(wù)器在高密度部署時(shí)各主機(jī)間隔進(jìn)一步加大,有效阻止熱量傳導(dǎo),對(duì)整體系統(tǒng)穩(wěn)定運(yùn)行很有幫助。其產(chǎn)品規(guī)格特點(diǎn)如下表所示:
為什么選用技嘉服務(wù)器準(zhǔn)系統(tǒng)?
尤其值得注意的是,技嘉提供的GS-SR168是一款服務(wù)器準(zhǔn)系統(tǒng)。所謂服務(wù)器準(zhǔn)系統(tǒng),是指一種不標(biāo)配CPU、內(nèi)存和硬盤(pán)的服務(wù)器平臺(tái),而是由代理商或用戶(hù)自己來(lái)選擇處理器、 內(nèi)存和硬盤(pán),但不影響整個(gè)系統(tǒng)的性能和可靠性。
采用這種準(zhǔn)系統(tǒng)主要能帶來(lái)三大好處,一是具有比一般品牌服務(wù)器更好的靈活性,代理商或用戶(hù)可以根據(jù)自己的需求選擇更合適的CPU、內(nèi)存和硬盤(pán);二是性?xún)r(jià)比更高,由于省去了廠商的品牌附加費(fèi),因此,價(jià)格一般要比品牌服務(wù)器低10-20%;三是性能和可靠性能得到保證,跟DIY服務(wù)器不同,服務(wù)器準(zhǔn)系統(tǒng)在出廠前經(jīng)過(guò)了可靠性設(shè)計(jì)和嚴(yán)格的測(cè)試,因此能保證整機(jī)性能和可靠性。眾所周知,作為專(zhuān)業(yè)的服務(wù)器主板制造商,技嘉具有國(guó)際一流的主板和平臺(tái)設(shè)計(jì)、測(cè)試和質(zhì)控技術(shù),因此采用這種服務(wù)器準(zhǔn)系統(tǒng)來(lái)搭建集群,能更好地實(shí)現(xiàn)性能與價(jià)格的良好平衡。
“在前期投標(biāo)過(guò)程中,我們提供了一臺(tái)單機(jī)到用戶(hù)現(xiàn)場(chǎng),安裝了Windows 2000和第三方軟件進(jìn)行了48小時(shí)的加壓測(cè)試,經(jīng)過(guò)比較,測(cè)試結(jié)果與HP、曙光等廠商選測(cè)的機(jī)器結(jié)果相當(dāng),但是價(jià)格更具優(yōu)勢(shì)。”正高集群公司總經(jīng)理胡正安介紹說(shuō),“正是這種性能與成本的良好平衡使用戶(hù)最終選擇了我們?!眱赡甓鄟?lái)的實(shí)際運(yùn)行也充分證明了這一點(diǎn)。在一期項(xiàng)目中,該集群沒(méi)有出現(xiàn)任何故障,這也導(dǎo)致了用戶(hù)的第二次采購(gòu)。
該研究所的張老師證實(shí)說(shuō):“正高集群超強(qiáng)的計(jì)算能力和穩(wěn)定性為計(jì)算課題節(jié)省了大量的時(shí)間,在使用中硬件的穩(wěn)定和軟件的協(xié)調(diào)運(yùn)作都表現(xiàn)出了不錯(cuò)的優(yōu)勢(shì),表現(xiàn)出了很高的性?xún)r(jià)比?!睋?jù)了解,原來(lái)在一個(gè)單機(jī)上要跑1-2個(gè)月的課題,通過(guò)該集群只需要一周到半個(gè)月的時(shí)間,計(jì)算效率提高了數(shù)倍。
盡管高性能計(jì)算用戶(hù)在選購(gòu)硬件平臺(tái)時(shí)一般要考慮很多復(fù)雜因素,如性能、可靠性、成本、服務(wù)、品牌等等,但正高集群之所以能在投標(biāo)過(guò)程中一舉擊敗更具品牌影響力的大廠商,并獲得用戶(hù)的二次采購(gòu),其選用技嘉服務(wù)器準(zhǔn)系統(tǒng)平臺(tái)無(wú)疑起到了非常關(guān)鍵的作用。技嘉GS-SR168既能滿(mǎn)足服務(wù)器的性能和穩(wěn)定性,實(shí)現(xiàn)整體軟硬件的完美搭建,更是幫助用戶(hù)贏得了高性?xún)r(jià)比,對(duì)于資金有限的教育、科研或中小企業(yè)用戶(hù)來(lái)說(shuō),顯然是非常不錯(cuò)的選擇。