▲HPC China 2011專題

北京并行科技有限公司(Paratera)CTO陳健作了《從Linpack年代到真實應(yīng)用性能年代》的報告。

陳健談到,雖然人們一提及高性能計算機時,往往會用Linpack測試值來衡量HPC機器的性能,如TOP500排行榜,但實際上用戶對這種衡量標準并不滿意,因為它在高性能計算機的選型、優(yōu)化過程中無法提供有效的參考。憑借在聯(lián)想做了3年方案、在英特爾做了5年調(diào)優(yōu)的經(jīng)驗積累,陳健對用戶真正想要的東西很清楚。

在此次會議上,他介紹了并行科技公司新推出的Paramon應(yīng)用運行特征收集器、Paratune應(yīng)用運行特征分析器等性能監(jiān)控管理工具軟件,并表示其目的是要讓高性能計算機的性能可以“看得見”,讓HPC用戶和從業(yè)人員可以更簡單有效地掌握機器性能,從而快速采取相應(yīng)的對策。

陳健從最終用戶的需求出來,指出了當前高性能計算性能優(yōu)化面臨的幾個重要問題:

一是絕大多數(shù)實際運行的軟件只發(fā)揮硬件很少的計算能力,問題是如何快速準確測量當前軟件發(fā)揮了多少計算能力?

二是軟件優(yōu)化技術(shù)太復(fù)雜、太耗時,問題是如何讓調(diào)優(yōu)普及化,如何用20%的時間挖掘出80%的優(yōu)化空間?

三是高性能計算應(yīng)用為先,需要提供匹配關(guān)鍵應(yīng)用的硬件方案,問題是如何快速確定應(yīng)用對硬件各組件的需求情況?

針對上述問題,北京并行科技有限公司提出了“快速應(yīng)用運行特征分析方法”這一解決方法(包括面向最終用戶的Paramon應(yīng)用運行特征收集器和面向軟硬件廠商開發(fā)人員的Paratune應(yīng)用運行特征分析器),盡可能讓高性能計算機實際運行過程中的所有性能數(shù)據(jù)都能“可視化”,從而幫助用戶更有效地實現(xiàn)系統(tǒng)的選型、配置、調(diào)優(yōu)與管理。

據(jù)介紹,其中,Paramon應(yīng)用運行特征收集器,通過實時監(jiān)控機群管理/登錄節(jié)點、計算節(jié)點、IO節(jié)點等服務(wù)器的處理器、內(nèi)存、網(wǎng)絡(luò)和存儲性能數(shù)據(jù),提供機群系統(tǒng)中應(yīng)用軟件隨時間變化的運行特征。Paramon軟件面向IT管理人員、硬件管理員、機房管理員等用戶角色,通過實時監(jiān)控、采集機群中服務(wù)器的CPU、GPU、內(nèi)存、網(wǎng)絡(luò)和存儲等關(guān)鍵設(shè)備的系統(tǒng)級和微架構(gòu)級性能數(shù)據(jù)(Gflops、Memory Bandwidth、Vectorization、CPI、GIPS),以圖形化的方式直觀顯示,快速反映提供機群系統(tǒng)中應(yīng)用軟件隨時間變化的運行特征,同時了解硬件環(huán)境的運行現(xiàn)狀,快速了解機群中隱含的硬件問題,從而在問題發(fā)生時第一時間給出解決方案。

Paratune應(yīng)用運行特征分析器,則可以分析Paramon生成的.para應(yīng)用運行特征文件,顯示應(yīng)用運行時各節(jié)點中處理器、內(nèi)存、網(wǎng)絡(luò)和磁盤的性能數(shù)據(jù),重構(gòu)機群應(yīng)用運行過程,高效、準確地描述應(yīng)用的運行特征。硬件廠商機群方案設(shè)計人員根據(jù)用戶應(yīng)用運行特征圖,可以清楚的了解應(yīng)用在運行的各個階段,對硬件設(shè)備處理器、內(nèi)存、網(wǎng)絡(luò)和磁盤等各部分的需求情況,基于這樣準確的數(shù)據(jù)分析,方案人員可以提供有針對性、真正符合客戶應(yīng)用需求的HPC機群設(shè)計方案。應(yīng)用軟件優(yōu)化人員根據(jù)用戶應(yīng)用運行特征圖,可以準確了解用戶應(yīng)用程序的運行狀態(tài),了解程序運行熱點段對各種硬件部件的依賴程度,快速定位系統(tǒng)性能瓶頸,找到應(yīng)用優(yōu)化的空間和方向。

陳健表示,目前Paramon應(yīng)用運行特征收集器在全國已經(jīng)安裝了100套,用戶可以在www.paratera.com上直接下載試用。

分享到

zhouxiaoli

相關(guān)推薦