CSDN 發(fā)表于:14年10月17日 10:17 [來稿] DOIT.com.cn
阿里集團上市前夕公布的最新27名合伙人名單中,出現(xiàn)了公司副總裁、技術保障部負責人劉振飛的名字。這當然既是對他個人的認可,也是對阿里技術保障部這一幕后英雄團隊貢獻的肯定。阿里集團包括阿里云、天貓、淘寶、支付寶、小貸在內的各項業(yè)務,以及近幾年雙十一、飛天5K等諸多奇跡的背后,這個團隊都發(fā)揮了關鍵性的基礎支撐作用。
然而,不僅外界聽說過阿里技術保障部的人不多,就連我雖然與劉振飛已經相識多年,對他們團隊的具體情況以及與阿里云的淵源也只是一知半解。近日我終于找到一個機會,在杭州和他好好聊了一上午。
阿里技術保障部的故事,要從2009年8月說起。今天的用戶可能難以想象,當時淘寶網非常不穩(wěn)定,動不動就訪問不了,或者要停機維護,搞得領導們很生氣很無奈。以至于當時淘寶的總裁陸兆禧感慨,淘寶2008年全年成交額是999.6億,要是少宕幾次機,就過千億了啊。劉振飛說:“你想,當一個公司的CEO天天在琢磨這種事,就說明技術平臺上真是出大問題了。”9月25日,為了解決淘寶系統(tǒng)的問題,成立淘寶技術保障部,將阿里媽媽和淘寶的運維、數據庫等工作和團隊合并,當時正在北京負責淘寶廣告(阿里媽媽)技術團隊的劉振飛被領導點將,負責組建這支團隊。
阿里集團副總裁、技術保障部負責人劉振飛
劉振飛搬到杭州真正進入角色,已經到了2009年的11月2日,此后很長時間內,他和團隊都處于救火隊的狀態(tài),幾乎每天大概都要處理幾十起緊急情況。但更大的挑戰(zhàn)卻是阿里媽媽和淘寶兩個運維團隊的合并并不那么順利。“你要知道是兩套體系,兩套人合起來,人的觀念不一樣,大家經歷不一樣,習慣不一樣,工具不一樣,什么都不一樣。合起來真是非常痛苦的過程。”劉振飛甚至夸張地說這一經歷給自己留下了不小的心理陰影。
而每年的雙十一對劉振飛團隊的成長幫助巨大。2009年第一個雙十一銷售額只有5000萬,對系統(tǒng)影響不大,連劉振飛也是在活動要結束前半小時收到淘寶商城負責人逍遙子(張勇)的郵件才知道的。一年后的第二個雙十一卻是淘寶技術保障部經歷的一次大挑戰(zhàn)。由于業(yè)務部門事先估算的成交量2.5億偏低(實際達到了9.36億),系統(tǒng)準備不足,整個活動期間都如履薄冰,走在崩潰的邊緣,曾經一度就要實施降級方案,限制部分寶貝圖片的顯示了。所幸,最后系統(tǒng)經受住了考驗。2011年劉振飛決定不再盲從業(yè)務部門的預估,而是從技術角度做足準備。這一年還創(chuàng)立了由各部門技術骨干組成技術保障總指揮部、預先大規(guī)模壓力測試、大量演習和詳細的應急預案等流程和機制,很好地保證了總銷售額從不到10億到52億、191億和362億的逐年飛躍。
2011年還有兩件事兒至關重要。一是6月淘寶一分為四,除淘寶網、淘寶商城(后改名天貓)、一淘三個業(yè)務部門外,還有一個不太為外界注意到的阿里技術與公共服務共享平臺。對此,劉振飛分析,當時的拆分可能是馬云和王堅等集團高層想將公司技術底層統(tǒng)一起來,貫徹One Company戰(zhàn)略的開始。后來,這個共享平臺的技術部分改名為阿里集團技術保障部。
另一件事是劉振飛團隊與阿里云運維的合并。由于上次合并的痛苦回憶,加上當時公司內外對阿里云有很多爭議,劉振飛對這事起初并不積極,拖過了雙十一之后,又有雙十二,眼見著就往春節(jié)后拖了?墒前⒗镌频倪\維負責人道夫很主動,而且提出了很具體的方案,他的那句“這方案你聽完以后,你愛怎么合怎么合”感動了劉振飛。雙方很快達成了一致,合并總體也非常順利。技術保障部發(fā)展到今天,涵蓋業(yè)務運營(包括合作創(chuàng)新、標準化和知識產權),性能與容量(架構、性能、容量、優(yōu)化),系統(tǒng)研發(fā)(網絡平臺、網絡產品、SDN、服務器研發(fā)、無線技術、數據引擎、算法平臺等),供應鏈管理(ODM管理),數據庫(MySQL、OceanBase、SQLServer和RDS),平臺與工具(工具、流程、監(jiān)控、自動化、配置、研發(fā)協(xié)同平臺、硬件管理平臺),平安生產,系統(tǒng)運營和云PE等多個方面,猛將如云,而且同時具有運維的經驗和自主研發(fā)的實力。
劉振飛還透露了一個鮮為人知的細節(jié),因為對阿里云心里沒底,在接手前他私下直接問過馬云本人對阿里云到底是什么態(tài)度,我是全力去干,還是說應付應付就完了。當時馬云是這么回答的:在王堅加入阿里之前,我跟教授(指曾鳴)討論公司的未來,覺得云計算和大數據代表未來,對國家、民族、社會的發(fā)展有長遠的意義,所以我們要干,這是第一點。但是怎么做云計算大數據?我們誰也不知道,F(xiàn)在來了個人叫王堅,他說我知道怎么做,為什么不支持呢?這是第二點。第三點,即使萬一做失敗了,那也沒關系,咱們的人倒下70%,還有30%活著,咱們活下來的人繼續(xù)打掃戰(zhàn)場,換個方向繼續(xù)干,總要把它做出來。
有了老大的這種明確表態(tài),劉振飛心里清楚該怎么做了。“云計算是公司戰(zhàn)略,什么叫戰(zhàn)略?戰(zhàn)略就是公司一定要干,理解了執(zhí)行,不理解你也要執(zhí)行。”
接下來2012年的頭幾個月,他連續(xù)得罪了兩個人。一個是負責阿里金融的孫權(胡曉明)。他們是阿里云的第一個重要內部客戶。但是由于阿里云的產品當時仍不太成熟,問題很多,孫權找到劉振飛,表示不想用阿里云了,要改用淘寶的體系,讓技術保障部來支持。劉振飛本著云計算是公司戰(zhàn)略的精神,拒絕了這一要求。同時,阿里云和技術保障部專門抽調技術骨干組成團隊,駐扎到濱江辦公區(qū)為阿里金融提供貼身服務。最終獲得了他們的認可。
下一個被得罪的,是時任淘寶副總裁的菲青(王文彬)。他為了上聚石塔項目(電商開放平臺),來找劉振飛談技術保障方面的事情,也是不愿意用阿里云,要用淘寶技術體系,同樣吃了閉門羹。“我當時說如果用淘寶體系的話你自己找人去玩兒,要用云計算,我全力頂你。我就是這樣非常粗暴地利用手中職權強迫大家往戰(zhàn)略方向上去走。”劉振飛笑著說。
2012年的雙十一,阿里云支撐聚石塔完成全部訂單20%的處理,成為云計算的一大亮點。集團外部也有CCTV5的網上直播、浙江臺風預警系統(tǒng)等出色的案例。
但阿里云最終真正證明自己,還是2013年的事情。除了依靠阿里云迅速成長為基金業(yè)土豪的余額寶之外,飛天5K項目具有決定性的意義。
事后總結,飛天5K這個項目并非人為規(guī)劃而是逐步發(fā)展出來的,其中有幾個歷史節(jié)點很關鍵。第一個關鍵點就是去IOE,雖然去IOE最開始是王堅提出來的,但與云計算沒有直接關系,可是做著做著就發(fā)現(xiàn)殊途同歸了。去IOE內部的爭議也非常大,但做到最后,大家發(fā)現(xiàn)這是一個有利于國計民生的大事。第二個關鍵點是2010年我們自己研發(fā)的海量關系數據庫OceanBase立項,現(xiàn)在已經成為整個公司的基礎數據庫,包括支付寶交易和賬務系統(tǒng)所用的Oracle,很多應用所用的MySQL,最終都會轉到OceanBase上。第三個關鍵點是2010年的雙十一,技術保障部的組織和雙十一的保障流程建立起來了。然后的關鍵節(jié)點就是飛天5K項目,之后內部通過登月計劃,正在爭先恐后地將原有的數據處理平臺全部遷移到基于飛天5K的ODPS上。最先動手的登月一號是支付寶,已經完成了。接下來的關鍵點還有今年ODPS的對外發(fā)布,外部客戶現(xiàn)在所用的基礎設施和內部支付寶、淘寶所用的,已經是完全一樣的了。
劉振飛說,更長遠地來看,5K這個項目將在阿里巴巴歷史上留下很重的一筆。在此之后,阿里技術團隊內部停止了爭論,原來做兩攤事兒不時競爭的人,兵合一處,并肩作戰(zhàn)。與之對應的,是阿里云的口碑越來越好,網上能見到的吐槽也越來越少。馬云后來說過一句話,他說飛天、ODPS和云OS這三個東西,是我們阿里巴巴要重心打造的重武器或者核武器,這是我們的技術的核心,一定要搞好。
劉振飛透露,最近淘寶系的負責人也向他表示,已經在認真考慮核心系統(tǒng)上云的問題了。內部對云計算達成共識之后,劉振飛和阿里技術保障部基于幾年的實戰(zhàn)經驗,對云計算本身和自己要承擔的責任與面臨的挑戰(zhàn),做了全面思考。關于他們的思考結果和計劃,我們留給下一期。
劉振飛其人
劉振飛這個名字,可能外界并不太熟悉。其實,對于技術圈,尤其是《程序員》雜志的老讀者和CSDN網站的資深網友來說,劉振飛并不陌生。他是河南魯山人,卻有點山東大漢的意思,個子很高,性格直率。1996年獲得北京大學碩士學位,C++程序員出身,曾在微軟Office組任程序經理。早在2004年,他就因BugFree這款開源軟件受到廣泛關注。2005年《程序員》雜志從第1期開始連續(xù)三期刊出了對他的訪談《Bug管理的經驗與實踐》,第8、9期又連載了他撰寫的《網站項目成功管理實踐》。這一系列細論軟件和互聯(lián)網研發(fā)管理經驗的文章廣為流傳,產生了很大影響。2007年和2008年兩屆SD 2.0大會,劉振飛又成為演講嘉賓,這時他已經成為淘寶廣告團隊的技術總監(jiān)。2009年,他受命組建淘寶技術保障部,后發(fā)展為整個阿里集團的基礎技術支撐部門。2014年成為阿里27名合伙人之一。