圖2-1 Platform HPC軟件組件圖表
在開(kāi)始任何軟件應(yīng)用之前,所有節(jié)點(diǎn)都要安裝操作系統(tǒng)和應(yīng)用軟件,這個(gè)功能是通過(guò)配置引擎提供的。在這里,用戶創(chuàng)建或者使用一個(gè)預(yù)先設(shè)定的配置模板,這個(gè)模板描述了計(jì)算節(jié)點(diǎn)軟件需要的特性。這個(gè)配置引擎通過(guò)一個(gè)選定的網(wǎng)絡(luò)接收啟動(dòng)請(qǐng)求,給系統(tǒng)安裝相應(yīng)的操作系統(tǒng)和應(yīng)用軟件,安裝完成之后,就可以運(yùn)行系統(tǒng)和目標(biāo)應(yīng)用了。
盡管計(jì)算圖像可以運(yùn)行應(yīng)用軟件,但是對(duì)這些圖像的訪問(wèn)通常是被任務(wù)調(diào)度器(Platform LFS)控制的,它作為一個(gè)工作負(fù)載管理器運(yùn)行。這個(gè)調(diào)度器的功能是確保在計(jì)算節(jié)點(diǎn)上的計(jì)算資源不被序列化的訪問(wèn)過(guò)度消耗。
這個(gè)調(diào)度器的屬性通常是在安裝過(guò)程中定義的,可以配置這個(gè)調(diào)度器,將不同工作負(fù)載分配提交給任務(wù)代理之一(Platform LSF代理),這個(gè)任務(wù)代理在接收到任務(wù)調(diào)度器的請(qǐng)求時(shí)開(kāi)始特定的工作負(fù)載,系統(tǒng)中有多個(gè)任務(wù)代理,每個(gè)操作系統(tǒng)圖像上有一個(gè)。
這個(gè)監(jiān)控和資源代理向配置代理和任務(wù)調(diào)度器返回每個(gè)操作系統(tǒng)圖像的系統(tǒng)狀態(tài)報(bào)告,并提供一個(gè)機(jī)制,在發(fā)生故障的時(shí)候發(fā)出警報(bào),確保任務(wù)只在可用且有資源的操作系統(tǒng)圖像上進(jìn)行調(diào)度。
網(wǎng)絡(luò)門戶則為管理員提供了一個(gè)易于使用的機(jī)制,來(lái)控制和監(jiān)控整個(gè)集群,同時(shí)對(duì)于用戶來(lái)說(shuō),它提供了對(duì)系統(tǒng)易于使用的訪問(wèn),以進(jìn)行任務(wù)提交、管理和報(bào)告。