微軟亞太研發(fā)集團(tuán)服務(wù)器與開發(fā)工具事業(yè)部高性能云計(jì)算部門經(jīng)理徐明強(qiáng)博士
IT168:您最近提到了一個(gè)有意思的觀點(diǎn),稱從2010年開始,云計(jì)算是高性能計(jì)算領(lǐng)域繼2003年X86集群大面積普及應(yīng)用以來的第二個(gè)拐點(diǎn)。為什么這么說?
徐明強(qiáng):云計(jì)算可以說是Beowulf集群故事的續(xù)集。集群剛出現(xiàn)的時(shí)候,很多人都說這是一種不實(shí)用的“玩具”,但是在高性能計(jì)算領(lǐng)域,玩具槍往往最終會(huì)變成真槍,看看今天的全球TOP500排行榜,集群系統(tǒng)已經(jīng)占據(jù)了90%的份額。大眾化的集群使得高性能計(jì)算沖破了國家實(shí)驗(yàn)室的封鎖、沖破了先進(jìn)國家的邊界,在世界各地、各行各業(yè)得到了廣泛的應(yīng)用——在今天全球7000萬科學(xué)家和工程師中,已經(jīng)有1500萬人使用上了高性能計(jì)算這個(gè)工具。
▲
不過,今天我們也看到,集群發(fā)展到現(xiàn)在也碰到了瓶頸,它并不能讓讓所有的工程師都能用上高性能計(jì)算。到了2010年,HPC云計(jì)算開始成為新的拐點(diǎn),微軟HPC市場(chǎng)部門做過初步的估計(jì),到2017年,HPC云計(jì)算的節(jié)點(diǎn)總數(shù)將會(huì)達(dá)到40萬個(gè)。我們相信HPC云計(jì)算會(huì)最終實(shí)現(xiàn)讓所有工程師都能以按需分配的方式用上高性能計(jì)算的夢(mèng)想。可以這么說,集群解決了“買得起”高性能計(jì)算機(jī)的問題,而云計(jì)算要解決的是當(dāng)前許多用戶“買得起,卻管理不起或管理不了”的問題。
IT168:為什么這幾年受到業(yè)界熱捧的GPU計(jì)算沒有成為您所定義的第二個(gè)拐點(diǎn)?
徐明強(qiáng):GPU對(duì)HPC市場(chǎng)的推動(dòng)遠(yuǎn)遠(yuǎn)沒有達(dá)到當(dāng)年X86集群的影響力,它更多主要還是針對(duì)一些高端的、定制化的應(yīng)用。從微軟的角度和策略來看,是要想辦法降低高性能計(jì)算的門檻,所以我們認(rèn)為云計(jì)算會(huì)成為這樣一個(gè)拐點(diǎn),讓高性能計(jì)算得到進(jìn)一步的普及。
云計(jì)算推動(dòng)HPC產(chǎn)業(yè)變革
IT168:那么云計(jì)算會(huì)給整個(gè)HPC產(chǎn)業(yè)結(jié)構(gòu)帶來怎樣的沖擊?在傳統(tǒng)的高性能計(jì)算領(lǐng)域,產(chǎn)業(yè)鏈中各個(gè)廠商的價(jià)值定位相對(duì)是比較明確的,硬件、系統(tǒng)軟件、應(yīng)用軟件廠商各施其職,之間的區(qū)隔也比較明顯,多年來形成了相對(duì)固定的一種產(chǎn)業(yè)價(jià)值分工格局。如果轉(zhuǎn)向云計(jì)算,這個(gè)產(chǎn)業(yè)價(jià)值鏈會(huì)發(fā)生什么樣的變化?今天的軟硬件廠商需要做出什么樣的改變才能在未來的競(jìng)爭(zhēng)中存活與發(fā)展?
徐明強(qiáng):在回答這個(gè)問題之前,我們不妨先來看看2010年HPC的產(chǎn)業(yè)結(jié)構(gòu)。2010年整個(gè)全球高性能計(jì)算市場(chǎng)的規(guī)模達(dá)到588億美元,其中應(yīng)用占了三分之一,達(dá)187億美元,其次是服務(wù)器和服務(wù),操作系統(tǒng)在整個(gè)產(chǎn)業(yè)鏈中所占的份額其實(shí)很小。這也說明,操作系統(tǒng)是否免費(fèi),并不會(huì)影響到最終用戶在HPC上的投入。
▲
我們看到,云計(jì)算的普及會(huì)使上述產(chǎn)業(yè)格局發(fā)生翻天覆地的變化,現(xiàn)有的產(chǎn)業(yè)價(jià)值會(huì)轉(zhuǎn)到公有云運(yùn)營商身上,我用一個(gè)通俗的話來講,就是要做“瘦身”手術(shù)。這個(gè)手術(shù)需要開五刀:
第一刀是服務(wù)器,因?yàn)樵七\(yùn)營商采購服務(wù)器往往數(shù)以萬計(jì),這種規(guī)模效應(yīng)會(huì)讓用戶在硬件成本上大幅節(jié)省;
第二刀開在硬件維護(hù)上,因?yàn)橛脩羰褂迷瀑Y源,不必再直接維護(hù)硬件,而運(yùn)營商由于是大量使用標(biāo)準(zhǔn)硬件,維護(hù)成本也會(huì)大大降低;
第三刀是在服務(wù)上,今天高性能計(jì)算系統(tǒng)的搭建實(shí)施還是比較難的,需要系統(tǒng)集成商,這部分價(jià)值也會(huì)轉(zhuǎn)到運(yùn)營商身上;
第四刀就是在微軟這樣的系統(tǒng)軟件廠商身上,因?yàn)橛脩舨槐貑为?dú)購買操作系統(tǒng),部分價(jià)值轉(zhuǎn)到運(yùn)營商;
第五刀在應(yīng)用上,過去ISV的很多投入都是在營銷上面,而在如果在Windows Azure的Marketplace上,它們可以利用云來實(shí)現(xiàn)軟件分發(fā),不用再找代理商或建分支機(jī)構(gòu),也能快速地在全球推廣軟件。
值得注意的是,這種轉(zhuǎn)型并不會(huì)讓整個(gè)市場(chǎng)縮水,但會(huì)給產(chǎn)業(yè)鏈中的不同角色帶來機(jī)遇與挑戰(zhàn)。比如系統(tǒng)集成商會(huì)變成云運(yùn)營商,成為云的Hoster;應(yīng)用代理商則會(huì)變身為高附加值的SaaS服務(wù)商;中間件如作業(yè)調(diào)度器則正在進(jìn)行整合,如Oracle收購SUN ,IBM收購Platform;硬件ODM廠商會(huì)加入OEM的隊(duì)伍,為云運(yùn)營商提供硬件。
IT168:在新的HPC云計(jì)算產(chǎn)業(yè)結(jié)構(gòu)中,微軟又會(huì)扮演怎樣的角色?
徐明強(qiáng):我們要扮演的角色是平臺(tái)服務(wù)商,目前是要為這個(gè)平臺(tái)上的三個(gè)主角提供四類場(chǎng)景服務(wù):
▲
一是幫助應(yīng)用開發(fā)商在Windows Azure Platform上快速啟用云應(yīng)用,跟以Amazon EC2為代表的IaaS相比,Azure 作為PaaS可以為用戶提供更全面、直接、簡(jiǎn)化的服務(wù),用戶不必在購買了虛擬機(jī)之后還要自己去搭建集群、安裝作業(yè)調(diào)度器等;
二是幫助系統(tǒng)集成商使用Azure Appliance向公有云承載運(yùn)營商轉(zhuǎn)型;
三是幫助應(yīng)用廠商借助Windows Azure Marketplace構(gòu)建高效的軟件推廣和分發(fā)渠道,在全球?qū)崿F(xiàn)快速營銷;
四是幫助增值銷售商廠商利用Azure SDK和Billing付費(fèi)系統(tǒng)快速搭建SaaS平臺(tái)。
適合云計(jì)算的HPC應(yīng)用
IT168:我們也注意到業(yè)界對(duì)于高性能計(jì)算能否利用云來實(shí)現(xiàn)其實(shí)還是存在一些爭(zhēng)議,在您看來,什么樣的應(yīng)用適合用云來實(shí)現(xiàn)?
徐明強(qiáng):主要有兩類應(yīng)用,一種是容易并行化的應(yīng)用,比如金融風(fēng)險(xiǎn)分析,要分析利率、匯率、石油價(jià)格等因素對(duì)金融產(chǎn)品定價(jià)的影響,把這些因素排列組合出來,有很多都是可以單獨(dú)并行運(yùn)算的作業(yè),這類應(yīng)用非常適合云計(jì)算。我這周二就在英國碰到一家倫敦的投行,他們要做投資的賠賺分析,希望2小時(shí)之內(nèi)能出結(jié)果,因?yàn)槭袌?chǎng)變化很快,一些突發(fā)事件會(huì)產(chǎn)生影響,越快得到結(jié)果就越好。但是現(xiàn)有的資源無法滿足計(jì)算需求,而他們的應(yīng)用正好是非常容易實(shí)現(xiàn)并行化的應(yīng)用,而且節(jié)點(diǎn)之間的通信比較少,通過從云中申請(qǐng)500個(gè)節(jié)點(diǎn)就得以實(shí)現(xiàn)。
第二種是大數(shù)據(jù)處理分析,一些用戶可以利用云中存儲(chǔ)的數(shù)據(jù)來進(jìn)行并行化分析。我們之前推出過LINQ工具,幫助.NET程序員利用一些非常簡(jiǎn)單的SQL語句來處理數(shù)據(jù),后來的PLINQ(Parallel LINQ)可以在多核機(jī)器上運(yùn)行,現(xiàn)在又推出LINQ to HPC的版本,可以在多機(jī)上擴(kuò)展運(yùn)行,這會(huì)達(dá)到最佳的理想狀態(tài)。因?yàn)橐粋€(gè)節(jié)點(diǎn)再大,I/O終究會(huì)成為瓶頸,而如果擴(kuò)展到多機(jī)集群上,每個(gè)節(jié)點(diǎn)都有自己的I/O能力,會(huì)大大緩解壓力。
值得一提的是,對(duì)于MPI類的應(yīng)用,如果云中沒有Infiniband這種比較好的網(wǎng)絡(luò)設(shè)備,不太適合,延遲問題會(huì)比較嚴(yán)重?;旧?,我們看到金融保險(xiǎn)的商業(yè)處理、渲染都比較適合HPC云計(jì)算,對(duì)于科學(xué)工程計(jì)算來說,使用量上可能相對(duì)少一些。比如,對(duì)于汽車設(shè)計(jì)公司來說,一個(gè)很大的顧慮是在云中計(jì)算能否確保新車型的保密。
IT168:除了這種數(shù)據(jù)安全風(fēng)險(xiǎn),影響HPC云計(jì)算發(fā)展是否還存在其他一些因素,比如性能是否夠用?
徐明強(qiáng):雖然現(xiàn)在單個(gè)虛擬機(jī)的性能可能要比物理機(jī)差一些,但我們可以通過多機(jī)來完成并行的作業(yè)。而且,對(duì)于那些從來沒有用過HPC的用戶,對(duì)易用性的要求比傳統(tǒng)用戶要高。實(shí)際上,有許多ISV都采用工作站客戶端+后臺(tái)計(jì)算服務(wù)的結(jié)構(gòu),來滿足海量低端用戶的需求。所以,高性能計(jì)算的ISV能否成功,已經(jīng)不在于在TOP500中能取得多少份額,而是在于底座的5000萬的用戶。
以微軟的Azure為例,我們?cè)?jīng)做過分析,發(fā)現(xiàn)有20%的機(jī)時(shí)都是用在HPC上,這是一個(gè)非??捎^的量,這也是我們下決心要把HPC移植到Azure平臺(tái)上的原因。比如,我們有一個(gè)ISV僅一天的用量就多達(dá)4000個(gè)核。
IT168:不同的企業(yè)會(huì)使用不同的云計(jì)算服務(wù),有的用公有云,有的用私有云,有的用混合云。那么,微軟HPC公有云與企業(yè)私有云之間可以實(shí)現(xiàn)無縫集成或遷移嗎?
徐明強(qiáng):剛才提到過,到2017年,HPC云計(jì)算的節(jié)點(diǎn)總數(shù)將會(huì)達(dá)到40萬個(gè)。其中三分之二是企業(yè)用戶,非企業(yè)、全新用戶所需的節(jié)點(diǎn)數(shù)占三分之一。這也使得企業(yè)自身私有云與公有云的無縫集成會(huì)變得很重要。目前我們已經(jīng)聯(lián)合上海超算、上汽、泛云科技一起實(shí)現(xiàn)了HPC公有云與私有云的無縫遷移。由于上海超算和上汽的高性能計(jì)算系統(tǒng)都是基于Windows HPC Server,所以集成遷移過程非常順利。
▲