立足實際,戰(zhàn)略合作
網(wǎng)格計算是伴隨著互聯(lián)網(wǎng)而迅速發(fā)展起來的,專門針對復雜科學計算的新型計算模式。通俗的說,這種計算模式就是通過網(wǎng)絡(luò)連接地理上分布的各類高性能計算機、數(shù)據(jù)庫和存儲設(shè)備等閑散資源,對其進行統(tǒng)一調(diào)配,讓其為同一目標而工作。要實現(xiàn)對網(wǎng)絡(luò)閑散資源的統(tǒng)一調(diào)配,必須實現(xiàn)分布式資源、網(wǎng)格軟件平臺和網(wǎng)格應用這三個層面的部署。
分布式資源是整個網(wǎng)格計算的基本載體,由分布在網(wǎng)絡(luò)上的各類資源組成,包括各種硬件設(shè)備和軟件資源。它們可以是異構(gòu)的,也可以運行在不同的操作系統(tǒng)下,網(wǎng)絡(luò)是對他們進行統(tǒng)一調(diào)配、互通的橋梁。網(wǎng)絡(luò)軟件平臺處于分布式資源和網(wǎng)格應用之間。一方面,該平臺起到綜合集成網(wǎng)格中各種資源的作用,提供用戶對資源的透明使用;另一方面,網(wǎng)格軟件平臺還提供了一些支持各種類型應用的常用工具,讓基于網(wǎng)格的應用開發(fā)變得更加容易。網(wǎng)格應用也就是在網(wǎng)格軟件平臺上所能提供的各種功能和服務(wù)。目前,網(wǎng)格應用領(lǐng)域主要有四類:分布式超級計算、分布式儀器系統(tǒng)、數(shù)據(jù)密集型計算和遠程沉浸。此外,網(wǎng)格的信息集成也是一個重要的應用領(lǐng)域。
一個成功的網(wǎng)格系統(tǒng)可整合用戶系統(tǒng)內(nèi)的各類軟、硬件資源,為用戶提供優(yōu)異的計算平臺,提高用戶的資源利用率。同時,用戶還可通過網(wǎng)格系統(tǒng)實現(xiàn)與網(wǎng)絡(luò)中其他用戶的資源互配。這樣的系統(tǒng)平臺,對科研項目繁復,信息化資源配置零散的高校教育系統(tǒng)來說尤其有益。
重慶大學為解決自身科研項目對高性能計算的需求,和奠定其在中國教育網(wǎng)格系統(tǒng)西南節(jié)點的樞紐地位,聯(lián)合國內(nèi)服務(wù)器廠商中的領(lǐng)軍企業(yè)曙光公司,結(jié)成戰(zhàn)略合作關(guān)系,共建高性能計算聯(lián)合實驗室。曙光公司采用曙光4000A高性能計算機機群系統(tǒng),同時配有高性能的存儲系統(tǒng)和軟件操作系統(tǒng),為重慶大學成功搭建了性能優(yōu)異的網(wǎng)格系統(tǒng)。
高端產(chǎn)品,優(yōu)勢網(wǎng)格
曙光公司為重慶大學構(gòu)建的網(wǎng)格計算平臺整體峰值計算能力達到每秒5500億次,其中包括機群服務(wù)器、SMP計算機、外存儲系統(tǒng)、視頻服務(wù)器,和外存儲系統(tǒng)等硬件設(shè)備。為了避免單點故障,I/O節(jié)點采用雙機高可用架構(gòu),同時系統(tǒng)還配備了豐富的網(wǎng)格系統(tǒng)軟件和各種應用軟件。
作為擁有眾多理工學科的綜合性大學,重慶大學不可避免的要利用網(wǎng)格系統(tǒng)做大量的圖象處理、流體力學計算、生物信息運算等大規(guī)模科學計算。這也對網(wǎng)格系統(tǒng)的計算能力提出了極高的要求。曙光公司在整個網(wǎng)格系統(tǒng)中的28個計算節(jié)點,和2個兼任管理節(jié)點和登錄節(jié)點功能的存儲節(jié)點中,配備了具有極高穩(wěn)定性和超強處理能力的2U曙光天闊機架式服務(wù)器A620r-E。各節(jié)點擁有兩個AMD64 Opteron處理器,其先進的架構(gòu)體系和Hyper-Transport技術(shù)具有訪問內(nèi)存帶寬高、延遲低、能力強的優(yōu)勢,在多處理器系統(tǒng)上體現(xiàn)了近乎線性的性能加速比。網(wǎng)格平臺中的高性能節(jié)點機奠定了整個系統(tǒng)高可用性的基礎(chǔ)。
從應用程序的角度出發(fā),為不使管理操作系統(tǒng)與應用程序爭奪帶寬資源,整個網(wǎng)格系統(tǒng)需要有基于共享內(nèi)存體系的平臺,和基于消息傳遞模式的平臺,以提供對這兩種主流程序的支持。曙光公司在網(wǎng)格系統(tǒng)中,節(jié)點間采用雙網(wǎng)共存的網(wǎng)絡(luò)架構(gòu)系統(tǒng)進行連接,計算網(wǎng)絡(luò)和管理網(wǎng)絡(luò)分別由全線速千兆和百兆以太網(wǎng)擔當,計算網(wǎng)和管理網(wǎng)分開的方式大大提高了系統(tǒng)的效率。
伴隨網(wǎng)格系統(tǒng)的成功運行,大規(guī)模計算中所積累的各種各樣的資料和數(shù)據(jù)也會越來越多,整個網(wǎng)格系統(tǒng)需要有一個海量的存儲空間與其適配。曙光公司在重慶大學的網(wǎng)格系統(tǒng)的搭建中特別配備了獨立的外存儲設(shè)備,整個存儲系統(tǒng)采用SAN結(jié)構(gòu),1套曙光DS-2120F光纖盤陣作為外存,配備4塊300G熱插拔硬盤,總存儲容量達到1.2TB。同時,系統(tǒng)中的可選SCSI RAID配置支持在線恢復RAID陣列,個別硬盤出現(xiàn)故障時也可確保數(shù)據(jù)安全。
對重慶大學的師生而言,科學研究是最重要的工作,平時沒有過多的精力來進行硬件和軟件設(shè)備的管理。因此眾多設(shè)備的管理必須非常簡單統(tǒng)一,需要保證系統(tǒng)管理的有序性,高效性,避免管理上的混亂。曙光公司在網(wǎng)格平臺中配置了曙光4000A監(jiān)控/SKVM子系統(tǒng),其是曙光自主研發(fā)的、先進的管理監(jiān)控系統(tǒng),具備布線更加簡單、管理更加方便、使用更加穩(wěn)定的特點。其可配合機群系統(tǒng)及相應軟件提供系統(tǒng)內(nèi)部溫度,直流電源電壓等工作狀態(tài)信息顯示。并自動記錄主機因故障停止工作的時間和日志信息,幫助分析故障原因。其方便的切換功能使得系統(tǒng)管理員在管理整個機群的時候非常方便。
重慶大學作為非贏利機構(gòu)的教育組織,信息化系統(tǒng)的性價比是需要著重考慮的因素?;诖?,曙光公司考慮到使重慶大學的信息化建設(shè)投資達到收益最大化,系統(tǒng)產(chǎn)品均采用標準配置,并可實現(xiàn)平滑升級。比如,作為節(jié)點的曙光天闊A620r-E所配備的雙核Opteron處理器就可平滑升級至四核,為用戶提供更強大的運算能力。由于每個節(jié)點都配置了自適應的多塊千兆網(wǎng)卡,在今后的升級中可以僅僅增加交換機就可以構(gòu)造雙千兆的網(wǎng)絡(luò),增加傳輸帶寬,形成動態(tài)分配系統(tǒng)。并且,由統(tǒng)一標準的中間件構(gòu)成的網(wǎng)格平臺,可完全與各類軟、硬終端產(chǎn)品實現(xiàn)互聯(lián)互通,保證了資源的充分共享。
結(jié)束語
教育網(wǎng)格系統(tǒng)應用的研究、開發(fā)和部署方興未艾,重慶大學的加入必將起到積極的作用。其通過曙光公司精心打造的網(wǎng)格系統(tǒng),整合校園內(nèi)高性能計算資源,消除了信息孤島,充分調(diào)動了各處信息化資源的運算活力,體現(xiàn)了中國一流大學所應具有的信息化實力。