IBM Platform LSF平臺具備六大附加組件,可選附加組件可擴展 Platform LSF,以提供完整的工作負載管理功能集。

由于IBM Platform LSF平臺具有高擴展性、高性能,并提供追蹤和實時監(jiān)控能力,因此被HPC業(yè)界很多公司使用,和其他的負載管理軟件相比,IBM Platform LSF平臺能帶來明顯的效益增值。此外,它支持如下幾個操作系統和體系架構:

IBM AIX 5、6 and 7 on POWER

HP UX B.11.31 on PA-RISC

HP UX B.11.31 on IA64

Solaris 10 and 11 on Sparc

Solaris 10 and 11 on x86-64

Linux on x86-64 Kernel 2.6 and 3.0

Linux on POWER Kernel 2.6 and 3.0

Microsoft Windows 2003, 2008, XP, and 7 32-bit and 64-bit

Mac OS 10.x

Cray XT

在IBM Platform LSF平臺的背后有一個全球支持的機構,使得這個平臺方案成為可以被依賴的可靠的解決方案,尤其對于商用領域而言。

一個IBM Platform LSF平臺集群可以分成兩組主機,分別是管理主機和計算主機。管理主機為集群提供專業(yè)化的服務,計算主機運行用戶的工作量,如下圖是IBM Platform LSF平臺在集群中的系統環(huán)境下的通信通道。

IBM Platform LSF產品功能解析之一

上圖展示了如下步驟:

1. 提交一份作業(yè)

從LSF客戶端,或者是一個運行bsub命令的服務器上提交一份作業(yè),當提交這份作業(yè)時,如果不指定哪個隊列,這份作業(yè)就會被提交到系統默認的隊列中,作業(yè)在隊列中等待安排,這些作業(yè)處于等待狀態(tài)。

2. 調度作業(yè)

后臺的主進程mbatchd將處理隊列中的作業(yè),在一個預定的時間間隔里將這些作業(yè)按設定的計劃,傳遞給主調度進程mbschd。

主調度進程mbschd評估這份工作時,根據作業(yè)的優(yōu)先權制定調度決策、調度機制和可利用資源。主調度進程選擇最佳的主機,在哪里作業(yè)可以運行,并將它的決策返回給后臺主進程mbatchd。主負載信息管理進程(LIM)收集資源信息,主LIM與mbatchd主進程交流這些信息,反過來mbatchd主進程使用之前交流信息支持調度決定。

3. 分配作業(yè)

Mbatchd主進程一收到Mbschd發(fā)過來的決定,立即分配作業(yè)到主機。

4. 運行作業(yè)

從屬批處理進程(sbatchd),從Mbatchd主進程接到要求,為這份作業(yè)創(chuàng)建一個子Sbatchd和一個執(zhí)行環(huán)境,通過使用一個遠程執(zhí)行服務器開始這個作業(yè)。

5. 返回輸出

當一個作業(yè)完成時,如果這個作業(yè)沒有任何問題,它處于一個完成狀態(tài)。如果有錯誤作業(yè)無法完成,這份作業(yè)處于退出狀態(tài)。Sbatchd傳達作業(yè)信息,包括錯誤提示和給Mbatchd的輸出信息。

6. 給客戶端發(fā)郵件

Mbatchd通過郵件給提交主機反饋作業(yè)輸出信息、作業(yè)錯誤、提示信息、作業(yè)信息。

調度程序的特點

IBM Platform LSF 平臺有一套先進的特點:

公平競爭調度

基于拓撲結構的調度

搶占調度

回填調度

資源預留

并行作業(yè)和串行作業(yè)控制

高級資源預留調度

饑餓作業(yè)調度

許可證調度

服務協議滿足調度

絕對優(yōu)先級調度

應用程序斷點和恢復

作業(yè)array調度

GPU調度

自定義調度器插件

故障容錯

IBM Platform LSF平臺的基礎結構是為關鍵性的組件提供故障容錯而設計的,有助于從一個故障中恢復過來,具體工作調度如下:

1. 主程序

如果一個主程序不能再用,另一個候補主程序接管任務。在主程序和候補主程序必須通過工作目錄共享來協同工作。

2. 節(jié)點和節(jié)點組

當節(jié)點或者節(jié)點組不能工作,不可獲得時,只有在其上運行的作業(yè)受到影響(重新拍發(fā),失敗退出,會根據提交時的設置來反應)。

3.作業(yè)

作業(yè)提交時可以定義為可重新運行模式,這樣當作業(yè)失敗時,可以重新運行。

或者在作業(yè)提交時定義了checkpoint,這樣當作業(yè)重新運行時會從斷點處繼續(xù)運行。

LSF為這些組件提供了故障容錯,一個LSF集群可以在部分網絡故障時將工作網絡隔離運行。容錯取決于系統日志記錄檔,這個記錄檔在系統中記錄了每一步操作。

安全性

不可否認,IBM Platform LSF平臺使用內部的用戶管理機制,也為第三方安全機構的整合提供了安全插件,例如輕量級目錄訪問協議(LDAP)、開放的安全系統認證(Kerberos)、活動目錄(Active Directory)。

對于IBM Platform LSF 平臺集群的安全性,有兩個步驟要求:首先,檢查用戶的密碼是否有效,然后檢查用戶的權限。在IBM Platform LSF平臺上,可以創(chuàng)建一個自定義的可執(zhí)行文件(eauth),可以為用戶、主機和后臺程序提供外圍的身份認證。

在IBM Platform LSF平臺的客戶終端和服務器之間的認證數據流中,這些機制提供了一個安全的轉移數據,通過創(chuàng)建自己的自定義可執(zhí)行文件,可以設定集群的安全要求。

多集群支持

IBM Platform LSF 平臺提供了多集群支持,不同的集群在不同的位置上,可以通過單一的Platform LSF來進行管理。這個方法使負載管理和集群管理變得容易,也使得基礎構架獲得高度可擴展性,多集群使得用戶可獲得更多的資源,提高生產率、資源利用率和性能。

作為強大的工作負載管理平臺,IBM Platform LSF用于要求苛刻的分布式HPC環(huán)境,它提供智能的策略驅動的調度功能,支持利用所有計算基礎架構資源并確保最優(yōu)的應用程序性能。

分享到

lihongliang

相關推薦