IBM Platform LSF平臺具備六大附加組件,可選附加組件可擴展 Platform LSF,以提供完整的工作負載管理功能集。
由于IBM Platform LSF平臺具有高擴展性、高性能,并提供追蹤和實時監(jiān)控能力,因此被HPC業(yè)界很多公司使用,和其他的負載管理軟件相比,IBM Platform LSF平臺能帶來明顯的效益增值。此外,它支持如下幾個操作系統和體系架構:
IBM AIX 5、6 and 7 on POWER
HP UX B.11.31 on PA-RISC
HP UX B.11.31 on IA64
Solaris 10 and 11 on Sparc
Solaris 10 and 11 on x86-64
Linux on x86-64 Kernel 2.6 and 3.0
Linux on POWER Kernel 2.6 and 3.0
Microsoft Windows 2003, 2008, XP, and 7 32-bit and 64-bit
Mac OS 10.x
Cray XT
在IBM Platform LSF平臺的背后有一個全球支持的機構,使得這個平臺方案成為可以被依賴的可靠的解決方案,尤其對于商用領域而言。
一個IBM Platform LSF平臺集群可以分成兩組主機,分別是管理主機和計算主機。管理主機為集群提供專業(yè)化的服務,計算主機運行用戶的工作量,如下圖是IBM Platform LSF平臺在集群中的系統環(huán)境下的通信通道。
上圖展示了如下步驟:
1. 提交一份作業(yè)
從LSF客戶端,或者是一個運行bsub命令的服務器上提交一份作業(yè),當提交這份作業(yè)時,如果不指定哪個隊列,這份作業(yè)就會被提交到系統默認的隊列中,作業(yè)在隊列中等待安排,這些作業(yè)處于等待狀態(tài)。
2. 調度作業(yè)
后臺的主進程mbatchd將處理隊列中的作業(yè),在一個預定的時間間隔里將這些作業(yè)按設定的計劃,傳遞給主調度進程mbschd。
主調度進程mbschd評估這份工作時,根據作業(yè)的優(yōu)先權制定調度決策、調度機制和可利用資源。主調度進程選擇最佳的主機,在哪里作業(yè)可以運行,并將它的決策返回給后臺主進程mbatchd。主負載信息管理進程(LIM)收集資源信息,主LIM與mbatchd主進程交流這些信息,反過來mbatchd主進程使用之前交流信息支持調度決定。
3. 分配作業(yè)
Mbatchd主進程一收到Mbschd發(fā)過來的決定,立即分配作業(yè)到主機。
4. 運行作業(yè)
從屬批處理進程(sbatchd),從Mbatchd主進程接到要求,為這份作業(yè)創(chuàng)建一個子Sbatchd和一個執(zhí)行環(huán)境,通過使用一個遠程執(zhí)行服務器開始這個作業(yè)。
5. 返回輸出
當一個作業(yè)完成時,如果這個作業(yè)沒有任何問題,它處于一個完成狀態(tài)。如果有錯誤作業(yè)無法完成,這份作業(yè)處于退出狀態(tài)。Sbatchd傳達作業(yè)信息,包括錯誤提示和給Mbatchd的輸出信息。
6. 給客戶端發(fā)郵件
Mbatchd通過郵件給提交主機反饋作業(yè)輸出信息、作業(yè)錯誤、提示信息、作業(yè)信息。
調度程序的特點
IBM Platform LSF 平臺有一套先進的特點:
公平競爭調度
基于拓撲結構的調度
搶占調度
回填調度
資源預留
并行作業(yè)和串行作業(yè)控制
高級資源預留調度
饑餓作業(yè)調度
許可證調度
服務協議滿足調度
絕對優(yōu)先級調度
應用程序斷點和恢復
作業(yè)array調度
GPU調度
自定義調度器插件
故障容錯
IBM Platform LSF平臺的基礎結構是為關鍵性的組件提供故障容錯而設計的,有助于從一個故障中恢復過來,具體工作調度如下:
1. 主程序
如果一個主程序不能再用,另一個候補主程序接管任務。在主程序和候補主程序必須通過工作目錄共享來協同工作。
2. 節(jié)點和節(jié)點組
當節(jié)點或者節(jié)點組不能工作,不可獲得時,只有在其上運行的作業(yè)受到影響(重新拍發(fā),失敗退出,會根據提交時的設置來反應)。
3.作業(yè)
作業(yè)提交時可以定義為可重新運行模式,這樣當作業(yè)失敗時,可以重新運行。
或者在作業(yè)提交時定義了checkpoint,這樣當作業(yè)重新運行時會從斷點處繼續(xù)運行。
LSF為這些組件提供了故障容錯,一個LSF集群可以在部分網絡故障時將工作網絡隔離運行。容錯取決于系統日志記錄檔,這個記錄檔在系統中記錄了每一步操作。
安全性
不可否認,IBM Platform LSF平臺使用內部的用戶管理機制,也為第三方安全機構的整合提供了安全插件,例如輕量級目錄訪問協議(LDAP)、開放的安全系統認證(Kerberos)、活動目錄(Active Directory)。
對于IBM Platform LSF 平臺集群的安全性,有兩個步驟要求:首先,檢查用戶的密碼是否有效,然后檢查用戶的權限。在IBM Platform LSF平臺上,可以創(chuàng)建一個自定義的可執(zhí)行文件(eauth),可以為用戶、主機和后臺程序提供外圍的身份認證。
在IBM Platform LSF平臺的客戶終端和服務器之間的認證數據流中,這些機制提供了一個安全的轉移數據,通過創(chuàng)建自己的自定義可執(zhí)行文件,可以設定集群的安全要求。
多集群支持
IBM Platform LSF 平臺提供了多集群支持,不同的集群在不同的位置上,可以通過單一的Platform LSF來進行管理。這個方法使負載管理和集群管理變得容易,也使得基礎構架獲得高度可擴展性,多集群使得用戶可獲得更多的資源,提高生產率、資源利用率和性能。
作為強大的工作負載管理平臺,IBM Platform LSF用于要求苛刻的分布式HPC環(huán)境,它提供智能的策略驅動的調度功能,支持利用所有計算基礎架構資源并確保最優(yōu)的應用程序性能。