在阿里云看來,IBM當(dāng)年關(guān)于未來世界可能只需要5臺主機(jī)的論斷,只是驗(yàn)證了未來的不可測,阿里云在5年創(chuàng)業(yè)實(shí)踐中摸到了未來的門檻:未來上百億設(shè)備的服務(wù)端、千萬級的客戶都將在強(qiáng)力的云計(jì)算上面,大采用的是大規(guī)模的分布式計(jì)算架構(gòu),橫向擴(kuò)展。
恒生電子已經(jīng)看到了這樣的趨勢,這家98%的基金公司的管理軟件供應(yīng)商,正在致力于在阿里云平臺上為傳統(tǒng)的軟件功能提供一種服務(wù)的交付模式,恒生網(wǎng)絡(luò)事業(yè)部首席架構(gòu)師李文松表示,提供服務(wù)讓公司有機(jī)會獲得更多的中小型客戶,橫向擴(kuò)展模式則可以提供更多的彈性和靈活性,并規(guī)避集中式架構(gòu)面臨的天花板,更好地服務(wù)需求大規(guī)模資源的大客戶。
趨勢不可逆轉(zhuǎn),IBM最新的POWER 8處理器,也已經(jīng)轉(zhuǎn)而支持橫向擴(kuò)展。然而分布式架構(gòu)在最近幾年才獲得較快的發(fā)展,不像傳統(tǒng)縱向擴(kuò)展架構(gòu)那樣久經(jīng)驗(yàn)證,并且具有一整套成熟的故障排除方法論。這意味著用戶采用新架構(gòu)的風(fēng)險(xiǎn)。這一點(diǎn),王文彬自己就有深刻的體會。
王文彬在擔(dān)任淘寶副總裁時(shí),不愿意用阿里云支持其聚石塔項(xiàng)目(電商開放平臺),而是要用原來的淘寶技術(shù)體系,但被負(fù)責(zé)技術(shù)保障的劉振飛“粗暴”地頂回去。而負(fù)責(zé)阿里金融的胡曉明也曾有同樣的想法和同樣的結(jié)果。其實(shí),劉振飛自己最初對其淘寶技術(shù)保障部與阿里云運(yùn)維團(tuán)隊(duì)的合并也不是那么積極,因?yàn)?ldquo;心里沒底”,但馬云做保:未來屬于云計(jì)算和大數(shù)據(jù),新加入的王堅(jiān)知道怎么做。
從IOE到云計(jì)算,從服務(wù)內(nèi)部電商客戶到面向全行業(yè),王堅(jiān)其實(shí)做得很辛苦,首先分布式計(jì)算確實(shí)有很多需要解決的基礎(chǔ)問題。阿里云計(jì)算有限公司資深總監(jiān)唐洪表示,小概率故障成為常態(tài)是飛天遇到的重要技術(shù)挑戰(zhàn)之一。“分布式計(jì)算中,當(dāng)服務(wù)器規(guī)模達(dá)到一定程度時(shí),任何小概率故障都有可能成為常態(tài)。”唐洪說。
這些小概率故障主要包括磁盤的故障、機(jī)器的故障和網(wǎng)絡(luò)的故障等。磁盤方面,以SATA磁盤3%的年故障率計(jì)算,5K機(jī)器每天壞4塊,100K機(jī)器每小時(shí)壞4塊。常見的機(jī)器故障問題有內(nèi)存ECC錯(cuò)誤,根分區(qū)只讀問題等等,如果有5K機(jī)器,每天會壞一臺,100K機(jī)器則是每小時(shí)壞一臺。網(wǎng)絡(luò)也會發(fā)生丟包、時(shí)斷時(shí)連等故障,阿里云集群受影響時(shí)間大約是每年每集群1小時(shí)。
對于企業(yè)業(yè)務(wù)系統(tǒng)來說,這些數(shù)字足以讓我們怵目驚心。但這只是問題之一,唐洪表示,飛天還面臨運(yùn)營中的人為因素、多租戶環(huán)境(提升彈性和成本效益)的性能隔離等挑戰(zhàn)。
“云計(jì)算的本質(zhì)是服務(wù)加上24小時(shí)的運(yùn)維保障,”王文彬說,“這是一個(gè)365天24小時(shí)的共生關(guān)系,這對任何一家公司都是全新的挑戰(zhàn)。我們現(xiàn)在認(rèn)識到這個(gè)挑戰(zhàn),我們還在路上。”
整個(gè)業(yè)界都還在路上。所以,浪潮一手做SmartRack,一手做天梭K1小型機(jī),兩個(gè)市場都獲得不小的成功;IBM力推POWERLinux,卻也無意把AIX完全遷移到Linux環(huán)境。國內(nèi)外的服務(wù)器廠商認(rèn)為,橫向擴(kuò)展和縱向擴(kuò)展面向不同的工作負(fù)載,這與阿里云的觀點(diǎn)截然不同。
阿里云表示,將從三個(gè)方面來改進(jìn)產(chǎn)品:建立更有效的客戶溝通渠道,解決基礎(chǔ)產(chǎn)品的穩(wěn)定性和完善基本開發(fā)者體驗(yàn)。例如,針對小概率故障,阿里云特別開發(fā)了“華佗”系統(tǒng),進(jìn)行快速甄別和自動化處理。
“雖然故障的事實(shí)無法改變,但我們的努力可以創(chuàng)在更少故障的未來!”王文彬引用杜勇《進(jìn)步集》的話說。
要服務(wù)千萬級的客戶,其實(shí)還有上層應(yīng)用的問題。傳統(tǒng)IT系統(tǒng),尤其是關(guān)鍵應(yīng)用,都基于縱向擴(kuò)展架構(gòu)設(shè)計(jì)的,遷移到云,還是意味著遷移的成本和風(fēng)險(xiǎn),所以,阿里云需要更多的努力,才有可能服務(wù)以后的千萬級客戶。不做應(yīng)用的阿里云,多次強(qiáng)調(diào)要服務(wù)好開發(fā)者,王文彬認(rèn)為這也要改進(jìn)。
“我們要建立一個(gè)懂開發(fā)者的產(chǎn)品技術(shù)跟開發(fā)團(tuán)隊(duì),這方面以前我們做的不夠。”王文彬說,以前的平臺思維,使得阿里云團(tuán)隊(duì)不夠理解開發(fā)者的需求。他承諾要與開發(fā)者進(jìn)行更多的互動,從產(chǎn)品、技術(shù)和服務(wù)團(tuán)隊(duì)來做好阿里云。
阿里云不惜自曝其短,雷霆認(rèn)為這有三層含義:第一,我們牛叉的云平臺是一刀一槍拼出來的,把云計(jì)算做成公共服務(wù)是一項(xiàng)巨大的挑戰(zhàn),我們還不完美,但比別家的云更成熟;第二,我們是客戶導(dǎo)向的,對客戶坦誠,不粉飾太平,不做一錘子買賣,而是真正地和開發(fā)者一條心,要打造一個(gè)利益共同體;第三,我們會不惜代價(jià)迎難而上,開發(fā)者可以永久地解除后顧之憂。
自曝挑戰(zhàn),仍是瑕不掩瑜,阿里云飛天5k集群的牛叉是業(yè)界公認(rèn)的,只支持天貓、淘寶、支付寶、阿里小貸等阿里巴巴集團(tuán)業(yè)務(wù)這一項(xiàng),已經(jīng)足以征服客戶,讓他們視為首選的云服務(wù)平臺。李文松表示,在金融行業(yè),目前能夠真正從底層硬件到操作系統(tǒng)、數(shù)據(jù)庫、中間件,到上層應(yīng)用,完整地實(shí)現(xiàn)自主開發(fā)、安全可控的技術(shù),只有阿里巴巴做到了。目前,包括不少的金融客戶已經(jīng)選擇了阿里云。
值得一提的是,目前阿里云沒有銷售團(tuán)隊(duì),沒為營銷花一分錢,靠的是客戶口碑相傳,客戶自動找上門,阿里云只需思考如何去滿足他們的需求,這又是典型的互聯(lián)網(wǎng)思維。道歉的王文彬談到這一點(diǎn)還是很自豪,在他看來,互聯(lián)網(wǎng)基因始終是阿里云不同于巨頭的云的根源之一。但正如前文所述,想要把云變成電一樣的服務(wù),改變世界,阿里云還需要讓飛天更加完善。
愛迪生說,起碼我發(fā)現(xiàn)了1000多種材料不能做燈絲,但他試驗(yàn)6000種材料失敗了9000多次才找到了碳化纖維,而且還可能借鑒了斯旺的成果。所以說,阿里云發(fā)現(xiàn)現(xiàn)有問題、明確目標(biāo)相對簡單,解決問題的難度,可能不亞于開發(fā)飛天那樣的工程。
燈絲的試驗(yàn),失敗只屬于愛迪生,阿里云的責(zé)任更加重大,進(jìn)步的速度與平臺上的客戶的利益息息相關(guān)。但王文彬有信心,明年的開發(fā)者大會上不用再談這些難題。“阿里做的事情哪一件是不難的?我們阿里云內(nèi)部有一句話說,不難要你干什么?所以我們必須面對這些挑戰(zhàn),把這些問題解決。”王文彬說。