良好的可維護(hù)性。Platform LSF支持機(jī)群系統(tǒng)的在線升級(jí)和維護(hù)。系統(tǒng)管理員可以在不影響作業(yè)的運(yùn)行和用戶使用的情況下,替換新的系統(tǒng)服務(wù)程序,進(jìn)行系統(tǒng)在線升級(jí)和維護(hù)。

效果:實(shí)現(xiàn)負(fù)載均衡 管理更便捷

Platform 作業(yè)調(diào)度系統(tǒng)很好地幫助上海超算解決了大型、復(fù)雜作業(yè)的調(diào)度,保證了整個(gè)集群的負(fù)載平衡,提高了作業(yè)運(yùn)行效率,大大降低了作業(yè)運(yùn)行的成本。表現(xiàn)在以下幾個(gè)方面:

保證了負(fù)載均衡,讓每臺(tái)機(jī)器都參與運(yùn)算,提高了整個(gè)集群的使用率。作業(yè)提交后,可以很均衡的提交到集群中的上千個(gè)計(jì)算節(jié)點(diǎn)上,讓上萬個(gè)核都參與運(yùn)算,而不是每次都是一部分機(jī)器參與運(yùn)算。

作業(yè)的運(yùn)行時(shí)間大大降低,降低了運(yùn)行成本,從而提高了系統(tǒng)的吞吐量。例如一個(gè)運(yùn)行10小時(shí)的FLUENT的作業(yè),利用LSF調(diào)度后,一般可以將時(shí)間縮短到8小時(shí),甚至5小時(shí),效率提高了20%~50%。

管理方便。LSF已經(jīng)將2000多臺(tái)計(jì)算節(jié)點(diǎn)分三個(gè)邏輯分區(qū)進(jìn)行了合理的管理,管理員可以很容易地對(duì)每個(gè)邏輯分區(qū)的每個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行實(shí)時(shí)查詢和監(jiān)控。
操作方便。LSF已經(jīng)集成了40多個(gè)應(yīng)用軟件,上海超算的客戶可以很容易的提交他們的作業(yè)、數(shù)據(jù)的上傳和下載,并對(duì)作業(yè)進(jìn)行實(shí)時(shí)監(jiān)控。

上海超算中心魏玉琪經(jīng)理認(rèn)為,Platform LSF是個(gè)很優(yōu)秀的集群調(diào)度軟件,LSF很好的幫助上海超算解決了大型、復(fù)雜作業(yè)的調(diào)度,保證了整個(gè)集群的負(fù)載平衡,讓2萬多個(gè)核都參與運(yùn)算,提高了作業(yè)運(yùn)行效率,大大降低了作業(yè)運(yùn)行的成本。現(xiàn)在上海超算中心的高性能計(jì)算集群系統(tǒng)保持著滿負(fù)荷運(yùn)行,每天有上千個(gè)作業(yè)吞吐量,LSF能很好的將用戶作業(yè)進(jìn)行調(diào)度,并保證了作業(yè)運(yùn)行的穩(wěn)定性、安全性,而且查詢也非常方便,能實(shí)時(shí)地對(duì)作業(yè)進(jìn)行監(jiān)控。Platform幫助上海超算中心將各種應(yīng)用軟件集成到了LSF中,方便了中心的用戶提交作業(yè)。他表示,未來,上海超級(jí)計(jì)算中心將進(jìn)一步提升技術(shù)能力和服務(wù)水平,協(xié)助更多的用戶將先進(jìn)計(jì)算能力轉(zhuǎn)化為科研創(chuàng)新能力,打造國(guó)際一流的超級(jí)計(jì)算中心。

分享到

zhabin

相關(guān)推薦