傳統(tǒng)“云”方案的挑戰(zhàn)

但是,如何有效利用云的方式取決于應(yīng)用,對于計(jì)算密集型和I/O密集型的高性能計(jì)算應(yīng)用,傳統(tǒng)的云計(jì)算解決方案往往束手無措,其主要的障礙包括:

1.I/O瓶頸

當(dāng)前許多云架構(gòu)建立在服務(wù)器虛擬化技術(shù)之上。由于虛擬機(jī)的I/O實(shí)現(xiàn)機(jī)制不同,在許多系統(tǒng)平臺(tái)上會(huì)嚴(yán)重影響應(yīng)用的網(wǎng)絡(luò)延遲和訪問帶寬,造成額外的資源需求,降低了整體運(yùn)算性能。對于一些基于MPI的并行程序,其性能甚至可以相差數(shù)倍。

2.數(shù)據(jù)瓶頸

高性能計(jì)算通常需要對大量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訪問,由于云計(jì)算環(huán)境中所提供的計(jì)算平臺(tái)具有多樣性和靈活性的特點(diǎn),需要考慮為不同平臺(tái)提供統(tǒng)一的高速數(shù)據(jù)訪問性能、全局命名空間和多種應(yīng)用訪問協(xié)議支持,同時(shí)支持和計(jì)算資源快速分配相匹配的數(shù)據(jù)管理功能。根據(jù)應(yīng)用需求,存儲(chǔ)容量應(yīng)當(dāng)能夠動(dòng)態(tài)增加或移出,確保信息始終可用。

3.管理瓶頸

傳統(tǒng)的高性能計(jì)算,其資源一般相對固定,通常通過資源和負(fù)載管理軟件來提高資源的利用率,在云計(jì)算環(huán)境中,資源上限遠(yuǎn)大于一般應(yīng)用的需求相比, 如何有效地結(jié)合負(fù)載管理和資源配送,提高總體系統(tǒng)利用率和用戶服務(wù)質(zhì)量,同時(shí)滿足特定應(yīng)用高峰時(shí)間的需求,是構(gòu)建高性能計(jì)算云所必需考慮的問題。

因此,對于高性能計(jì)算中心來說,需要結(jié)合其自身的應(yīng)用特點(diǎn)和云計(jì)算平臺(tái)的優(yōu)勢,通過虛擬化技術(shù)和自動(dòng)化技術(shù),同時(shí)支持物理機(jī)和虛擬機(jī)環(huán)境,實(shí)現(xiàn)硬件資源和軟件資源的統(tǒng)一管理、統(tǒng)一分配、統(tǒng)一部署、統(tǒng)一監(jiān)控和統(tǒng)一備份,打破單個(gè)運(yùn)算對資源的獨(dú)占,提供動(dòng)態(tài)的高性能計(jì)算服務(wù)平臺(tái)。

高性能計(jì)算云的構(gòu)成

高性能計(jì)算云包含以下關(guān)鍵組成技術(shù):

1.統(tǒng)一的用戶和服務(wù)管理平臺(tái)

需要提供統(tǒng)一的云計(jì)算服務(wù)管理門戶,進(jìn)行整體資源管理和服務(wù)流程管理,使平臺(tái)管理員和用戶可以進(jìn)行自助式的各項(xiàng)服務(wù)管理操作,包括資源池的管理,資源管理和監(jiān)控,用戶服務(wù)的開通、停止、變更,用戶管理,資源使用情況統(tǒng)計(jì),服務(wù)申請及狀態(tài)查詢,能耗與節(jié)能策略管理、操作系統(tǒng)鏡像和軟件包管理等等。

根據(jù)高性能計(jì)算應(yīng)用的特點(diǎn),系統(tǒng)應(yīng)提供不同的應(yīng)用模板來支持不同分布式應(yīng)用(如Hadoop,MPI集群)的快速部署,以及服務(wù)器之間的關(guān)聯(lián)關(guān)系,如IP地址的指向,端口的匹配等等。

2.統(tǒng)一資源池管理

在傳統(tǒng)的計(jì)算資源管理模式中,管理員需要考慮每一個(gè)計(jì)算資源、每一個(gè)應(yīng)用系統(tǒng)的配置情況,需要考慮每一個(gè)應(yīng)用系統(tǒng)所需要的各種計(jì)算資源,包括服 務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、應(yīng)用系統(tǒng)等等,這種管理模式的管理成本高,也讓管理員的工作變得非常復(fù)雜,需要人為考慮和干預(yù)的過程非常多,容易造成管理上的失誤。同 時(shí),管理員很難對數(shù)據(jù)中心內(nèi)的計(jì)算資源和應(yīng)用系統(tǒng)進(jìn)行全盤考慮,不利于數(shù)據(jù)中心的整體優(yōu)化。

云在對計(jì)算資源的管理模式上采用池化的辦法,通過服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等虛擬化技術(shù)將計(jì)算資源按照不同的標(biāo)準(zhǔn)組織成不同的資源池。在一個(gè)資源池 內(nèi),可以包括服務(wù)器、存儲(chǔ)空間、網(wǎng)絡(luò)端口等。這樣,在一個(gè)資源池中我們就可以為某一個(gè)應(yīng)用系統(tǒng)提供所需要的所有資源。通過云計(jì)算的自動(dòng)化功能,云計(jì)算的管 理員可以方便、快速地在資源池中定制化地選擇應(yīng)用系統(tǒng)需要的計(jì)算資源配置,并在使用結(jié)束后進(jìn)行快速回收。

3.支持物理機(jī)和虛擬機(jī)環(huán)境的動(dòng)態(tài)部署引擎

為了提供計(jì)算所必需的高性能,需要同時(shí)提供包括虛擬機(jī)和物理機(jī)環(huán)境的快速、動(dòng)態(tài)部署功能,并支持專用的高性能、低時(shí)延計(jì)算網(wǎng)絡(luò),如Infiniband、萬兆以太網(wǎng)等。

在整體方案中,通??梢詣澐忠徊糠仲Y源進(jìn)行虛擬化,從而提供一個(gè)共享的開發(fā)測試環(huán)境給用戶,便于用戶在正式提交作業(yè)之前進(jìn)行程序的調(diào)試和試運(yùn) 行。在一些具體的應(yīng)用場景上,針對一些對性能要求很高的計(jì)算任務(wù),虛擬化帶來的性能開銷不可忽略,因此可以考慮在不虛擬化的情況下進(jìn)行資源的分配和管理。

4.靈活的服務(wù)接口

最終用戶可以通過云計(jì)算管理平臺(tái)獲取自己項(xiàng)目獨(dú)占的計(jì)算資源,包括硬件、應(yīng)用軟件和操作系統(tǒng)等,用戶可以在計(jì)算資源上按照自己的需求進(jìn)行個(gè)性化 調(diào)整。另外,用戶也可以通過云計(jì)算管理平臺(tái)部署的計(jì)算資源上的作業(yè)管理系統(tǒng),以排隊(duì)的方式和其他用戶共享計(jì)算資源,來進(jìn)行作業(yè)的運(yùn)算。

根據(jù)多年的探索和實(shí)踐,IBM正在積極地與行業(yè)領(lǐng)先的獨(dú)立軟件開發(fā)商、企業(yè)以及高校合作,將私有云計(jì)算平臺(tái)擴(kuò)展到高性能計(jì)算領(lǐng)域。通過高性能計(jì)算云管理套件,可以將獨(dú)立的高性能計(jì)算資源連接成一個(gè)私有云,從而幫助用戶更高效地利用他們的高性能計(jì)算資源。其參考架構(gòu)如下圖所示,獨(dú)立的高性能計(jì)算資源連接成一個(gè)私有云。

為實(shí)現(xiàn)更智慧的計(jì)算平臺(tái),需要采用新的方法來設(shè)計(jì)和建設(shè)高性能計(jì)算中心,以便做到專為數(shù)據(jù)設(shè)計(jì),針對任務(wù)進(jìn)行調(diào)優(yōu),并且在云中管理。

分享到

zhabin

相關(guān)推薦