曙光CAE高性能計(jì)算平臺(tái)方案示意圖
曙光CAE高性能計(jì)算平臺(tái)方案將TC2600刀片和A950r-F SMP完美組合,可同時(shí)滿足各類應(yīng)用程序需求。曙光刀片式服務(wù)器TC2600是為了突破計(jì)算機(jī)系統(tǒng)規(guī)模增加而效能降低的計(jì)算機(jī)發(fā)展瓶頸而設(shè)計(jì)推出的。它采用超高密的刀片式服務(wù)器架構(gòu),內(nèi)置高效網(wǎng)絡(luò)交換系統(tǒng),減少網(wǎng)絡(luò)延遲;超強(qiáng)的系統(tǒng)處理器擴(kuò)充能力,最大可支持20顆AMD Opteron雙核處理器;優(yōu)秀的散熱設(shè)計(jì),突破1U機(jī)架服務(wù)器空間設(shè)計(jì)極限,實(shí)現(xiàn)了7U 10片的超高密系統(tǒng)設(shè)計(jì);通過系統(tǒng)的整體設(shè)計(jì),減少不必要的功耗,有效降低整體系統(tǒng)功耗;同時(shí)引入了人性化的設(shè)計(jì)理念,處處體現(xiàn)以人為本的設(shè)計(jì)思想,是易管理、易維護(hù)、高可用的新一代服務(wù)器產(chǎn)品。TC2600是曙光人在服務(wù)器領(lǐng)域長(zhǎng)期致力計(jì)算機(jī)技術(shù)研究的又一成功技術(shù)結(jié)晶。
整合高速網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì):曙光TC2600刀片式服務(wù)器內(nèi)部集成20Gb/s高速Infiniband交換網(wǎng)絡(luò),整合了全線速以太網(wǎng)交換機(jī)。同時(shí)可選的IOE擴(kuò)展系統(tǒng)可以使用戶將工業(yè)標(biāo)準(zhǔn)部件如HBA卡、Raid卡以及Infiniband網(wǎng)絡(luò)等集成到刀片服務(wù)器系統(tǒng)中,而不必像購買其他品牌刀片服務(wù)器時(shí)遇到的需要花費(fèi)高額費(fèi)用去購買硬件廠商的專用部件。
整合KVM Over-On-IP系統(tǒng):為減少鍵盤、鼠標(biāo)和顯示器纜線管理的困擾,曙光將KVM Switch技術(shù)整合進(jìn)TC2600服務(wù)器系統(tǒng),可使10個(gè)子系統(tǒng)共享一套設(shè)備,而系統(tǒng)與系統(tǒng)間可透過單一纜線連接,可使多套TC2600服務(wù)器僅以一條纜線共享一套KVM裝置,并可以通過遠(yuǎn)程管理服務(wù)器系統(tǒng)。
高可靠的產(chǎn)品設(shè)計(jì):曙光TC2600刀片式服務(wù)器采用全冗余結(jié)構(gòu)設(shè)計(jì),可以極大的保障電源系統(tǒng)、散熱系統(tǒng)、存儲(chǔ)系統(tǒng)等的高可用性,提高了整體系統(tǒng)的穩(wěn)定性。同時(shí)TC2600還提供對(duì)所有部件監(jiān)控的系統(tǒng)管理機(jī)制,如組件的狀態(tài)是否正常,操作電壓是否正常,系統(tǒng)散熱是否正常,溫度是否偏高等等。
優(yōu)秀的管理軟件:曙光TC2600配備了強(qiáng)大的管理軟件系統(tǒng),并支持基于IPMI的遠(yuǎn)程管理,用戶可以通過RJ45網(wǎng)絡(luò)管理端口連接到曙光TC2600刀片服務(wù)器系統(tǒng)。如下圖所示,界面顯示了每個(gè)TC2600刀片機(jī)箱的主要部件狀態(tài)情況,通過點(diǎn)擊圖標(biāo)便可以查詢每個(gè)部件的詳細(xì)信息。
曙光TC2600刀片管理界面
曙光A950r-F SMP小型機(jī)是基于X86結(jié)構(gòu)的服務(wù)器,在繼承傳統(tǒng)小型機(jī)優(yōu)勢(shì)的同時(shí),有效地解決了傳統(tǒng)小型機(jī)無法克服的如價(jià)格昂貴,可購買CPU數(shù)量有限,無法用于大規(guī)模優(yōu)化設(shè)計(jì)任務(wù),與X86結(jié)構(gòu)集群服務(wù)器操作系統(tǒng)、應(yīng)用軟件無法兼容等弊端。
曙光TC2600刀片服務(wù)器特別適合運(yùn)行Fluent、CFX、Ls-Dyna、Pam-Crash等分布式內(nèi)存應(yīng)用程序,曙光A950r-F SMP小型機(jī)則特別適合運(yùn)行Ansys,Abaqus、Nastran等共享內(nèi)存應(yīng)用程序,且兩者均采用X86-64平臺(tái),屬同構(gòu)系統(tǒng),可共享軟件資源和數(shù)據(jù)存儲(chǔ)空間,資源調(diào)度簡(jiǎn)單,節(jié)點(diǎn)配比可靈活調(diào)整,二者有機(jī)結(jié)合,幾乎可以適用各種應(yīng)用需求,能夠有效降低用戶總體擁有成本。
曙光CAE:成功突破系統(tǒng)IO瓶頸
曙光針對(duì)分布式機(jī)群環(huán)境和SMP計(jì)算環(huán)境設(shè)計(jì)了一整套SAN存儲(chǔ)網(wǎng)絡(luò)和IP SAN存儲(chǔ)網(wǎng)絡(luò)解決方案。
IO節(jié)點(diǎn)采用2臺(tái)A620r-F,配置2顆2000系列雙核AMD處理器和16GB DDR2 內(nèi)存,通過配置4Gb/s的光纖HBA卡連接到SAN存儲(chǔ)網(wǎng)絡(luò)提高IO性能。對(duì)于TC2600刀片機(jī)群系統(tǒng),每個(gè)計(jì)算節(jié)點(diǎn)通過NFS over SDP方式掛載(mount)兩個(gè)IO節(jié)點(diǎn)的存儲(chǔ)空間;對(duì)于兩個(gè)管理登陸節(jié)點(diǎn),同樣通過NFS over SDP方式掛載(mount)兩個(gè)IO節(jié)點(diǎn)的磁盤分區(qū),并將用戶分成兩類后把主目錄放在共享分區(qū)中以減輕文件系統(tǒng)壓力,同樣的,應(yīng)用軟件也分成兩類安裝到兩個(gè)共享分區(qū)中。
對(duì)于SMP計(jì)算節(jié)點(diǎn),由于對(duì)存儲(chǔ)性能要求較高,最好不要采用NFS文件系統(tǒng),而是采用直接接入SAN網(wǎng)絡(luò)的方式。Nastran等結(jié)構(gòu)類計(jì)算程序安裝在兩臺(tái)SMP節(jié)點(diǎn)上,計(jì)算中間數(shù)據(jù)和結(jié)果數(shù)據(jù)存放在本地掛載的SAN空間,實(shí)際作業(yè)調(diào)度時(shí)應(yīng)避免跨節(jié)點(diǎn)執(zhí)行應(yīng)用程序。此外,SMP節(jié)點(diǎn)還需要掛載IO節(jié)點(diǎn)NFS數(shù)據(jù)繼承用戶主目錄信息。
優(yōu)化的網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì),高速計(jì)算的有力保障
根據(jù)上面的分析,我們建議高性能計(jì)算平臺(tái)采用20Gb/s的Infiniband網(wǎng)絡(luò)來構(gòu)建,并將管理IO節(jié)點(diǎn)連入高速網(wǎng)絡(luò),通過采用NFS over Infiniband實(shí)現(xiàn)全部計(jì)算節(jié)點(diǎn)的數(shù)據(jù)共享。
曙光公司與中科院某研究所對(duì)最新版Fluent的性能進(jìn)行了測(cè)試,算例網(wǎng)格單元為90萬左右,采用湍流雙方程模型和PDF燃燒模型,測(cè)試硬件為8個(gè)雙路AMD雙核的節(jié)點(diǎn),網(wǎng)絡(luò)為千兆網(wǎng)和Infiniband網(wǎng)絡(luò)。測(cè)試結(jié)果表明千兆網(wǎng)環(huán)境下16CPU核心內(nèi)可以保持較好的性能加速,而32CPU核心時(shí)由于傳遞的消息量劇增至上萬個(gè)每秒,千兆網(wǎng)絡(luò)已經(jīng)無法繼續(xù)提升性能,而此時(shí)Infiniband網(wǎng)絡(luò)則可以繼續(xù)保持線性加速。
曙光公司和Qlogic公司進(jìn)行了相關(guān)性能測(cè)試,測(cè)試結(jié)果表明基于Infiniband的NFS可以大幅提高IO能力,尤其是并發(fā)的IO能力,進(jìn)而可以提高計(jì)算效率。
DCAS??界面友好,功能強(qiáng)大的管理系統(tǒng)
DCAS是曙光專為百萬億次高性能計(jì)算機(jī)系統(tǒng)開發(fā)集群管理套件,用于對(duì)集群系統(tǒng)進(jìn)行統(tǒng)一管理,包含了新一代的作業(yè)調(diào)度系統(tǒng)??DCJM。它采用基于IE瀏覽器的圖形化方式來實(shí)現(xiàn)對(duì)集群的統(tǒng)一管理,包括系統(tǒng)安裝部署、網(wǎng)絡(luò)配置、作業(yè)管理、安全配置、用戶管理、進(jìn)程以及服務(wù)管理和交互式并行命令執(zhí)行系統(tǒng)等,配置簡(jiǎn)單、使用方便。除了同樣具有較高的可用性和可管理性,可以滿足絕大部分應(yīng)用場(chǎng)合的需要外,DCJM還具有中英文兩種語言可選,更符合國(guó)人的使用習(xí)慣,以及高性價(jià)比的特點(diǎn)。
曙光DCAS操作界面
以上為曙光CAE高性能計(jì)算平臺(tái)的一個(gè)參考解決方案。針對(duì)每一個(gè)用戶,曙光公司將具體分析用戶的實(shí)際需求,包括計(jì)算規(guī)模、用戶數(shù)量、算例大小、模型特點(diǎn)以及上文提到的兩類程序所占的比例等等信息,在該方案的基礎(chǔ)上進(jìn)行合理修改,并進(jìn)行相關(guān)細(xì)節(jié)的設(shè)計(jì),制定出最適合用戶的優(yōu)化方案。