在我們平時(shí)的運(yùn)維過程中,雖然會(huì)對(duì)常見的故障備有應(yīng)急預(yù)案,也極有可能會(huì)在未知的情況下發(fā)生系統(tǒng)包括數(shù)據(jù)庫都需要重新部署的極端情況,面對(duì)4G時(shí)代的流媒體,網(wǎng)絡(luò)社交,網(wǎng)頁瀏覽等熱點(diǎn)業(yè)務(wù)的急速發(fā)展,業(yè)務(wù)流程越來越復(fù)雜,對(duì)IT系統(tǒng)的依賴性也越來越強(qiáng),IT運(yùn)維質(zhì)量的好壞對(duì)業(yè)務(wù)的影響有至關(guān)重要的作用。本次應(yīng)用性能管理大講堂,來自愛投資、聽云、西山居和京東的運(yùn)維大牛們?yōu)榈綀?chǎng)觀眾帶來一場(chǎng)生動(dòng)的業(yè)務(wù)級(jí)運(yùn)維公開課。
韓世琪:互聯(lián)網(wǎng)金融業(yè)務(wù)運(yùn)維的挑戰(zhàn)與實(shí)踐
“互聯(lián)網(wǎng)+”的概念最近火熱一時(shí),而互聯(lián)網(wǎng)金融更是處于浪潮之巔,本次沙龍首先登場(chǎng)的便是來自愛投資的技術(shù)副總裁韓世琪,他先給大家展示了互聯(lián)網(wǎng)金融現(xiàn)實(shí)中的樣子。
韓世琪說到,需求決定業(yè)務(wù)模式,而業(yè)務(wù)模式、業(yè)務(wù)規(guī)模決定技術(shù)架構(gòu)和運(yùn)維模式,互聯(lián)網(wǎng)金融的特殊性決定了它需要業(yè)務(wù)的敏捷性與安全性完美融合?;ヂ?lián)網(wǎng)金融的本質(zhì)還是金融,傳統(tǒng)的金融行業(yè)在適應(yīng)性上多少會(huì)出現(xiàn)問題,而互聯(lián)網(wǎng)金融的P2P、P2C模式幫助企業(yè)做到金融脫媒的過程,同時(shí)也滿足了個(gè)人投資者的需求。愛投資的模式,用一句話來概括:“線上放貸,線下抵押”,業(yè)務(wù)模式從管錢、管人、管事三個(gè)方面入手。
緊接著韓世琪為我們介紹了愛投資的技術(shù)架構(gòu)。愛投資技術(shù)團(tuán)隊(duì)差不多40人,所以適合中小規(guī)模團(tuán)隊(duì)、支持快速迭代、低成本、穩(wěn)定可靠、開源社區(qū)健康的技術(shù)和架構(gòu)是他們的首選,選擇的原則就是盡量的簡(jiǎn)單,把問題集中解決掉,然后以迭代的方式來做更多的事情。架構(gòu)采取公有云和私有云混合使用,同時(shí)有一些線下的離線處理和數(shù)據(jù)倉庫。APM監(jiān)視方面使用阿里云的云監(jiān)控去監(jiān)控一下硬件方面數(shù)據(jù),運(yùn)維方面則是使用聽云,節(jié)省大量的人力成本。
最后韓世琪為我們分享了業(yè)務(wù)運(yùn)維實(shí)踐經(jīng)驗(yàn)運(yùn)維。他說互聯(lián)網(wǎng)金融行業(yè)的運(yùn)維需要滿足三點(diǎn),第一,要從運(yùn)維的角度為每條產(chǎn)品線的全生命期供給運(yùn)維資源,提供日志查詢和結(jié)果分析的工具;第二,嚴(yán)格控制所有的權(quán)限、成本、性能、風(fēng)險(xiǎn)等方面;第三,制定一定的標(biāo)準(zhǔn)去衡量工作,保證對(duì)用戶以及對(duì)業(yè)務(wù)部門的承諾。
運(yùn)維者的逆襲讓應(yīng)用自我感知性能問題
隨后來自聽云技術(shù)副總裁廖雄杰為我們分享了一些應(yīng)用性能自我感知的經(jīng)驗(yàn)。廖雄杰說到,在我們的工作中,業(yè)務(wù)系統(tǒng)時(shí)不時(shí)出現(xiàn)了性能問題,而常規(guī)的手段是對(duì)系統(tǒng)的監(jiān)控指標(biāo)逐項(xiàng)排查,CPU、內(nèi)存、IO、網(wǎng)絡(luò)延時(shí)、數(shù)據(jù)庫響應(yīng)時(shí)間是否有異常,這些指標(biāo)都是孤立的指標(biāo),與業(yè)務(wù)系統(tǒng)未必關(guān)聯(lián),在應(yīng)對(duì)越來越復(fù)雜的技術(shù)架構(gòu)時(shí),傳統(tǒng)的監(jiān)控手段已經(jīng)很難做到全方位覆蓋,更別提與業(yè)務(wù)進(jìn)行關(guān)聯(lián),我們急需一套系統(tǒng),能自動(dòng)監(jiān)控系統(tǒng)的各項(xiàng)健康指標(biāo),一旦系統(tǒng)出現(xiàn)問題,迅速報(bào)警并給出健康建議。
接著廖雄杰為我們展示了應(yīng)用性能自我感知的關(guān)鍵所在,APM(Application Performance Management)。APM所做的就是對(duì)軟件應(yīng)用的性能和可用性進(jìn)行監(jiān)控和管理,致力于發(fā)現(xiàn)和定位性能瓶頸和故障,以保證應(yīng)用達(dá)到預(yù)期的服務(wù)水平及最終用戶體驗(yàn),并用幾行代碼來演示了APM想做的事情。廖雄杰還說到,要完成這樣的事只需要在幾個(gè)關(guān)鍵的位置嵌碼即可。
最后廖雄杰用幾個(gè)例子為我們演示了應(yīng)用性能自我感知的具體實(shí)現(xiàn)。首先是一個(gè)慢應(yīng)用過程追蹤的例子,我們通過APM可以拿到所有慢應(yīng)用過程的列表,并可以看到所有追蹤的詳細(xì)過程以及時(shí)間占比最高的方法,然后我們就能找到在哪一個(gè)文件,哪一行代碼出現(xiàn)了問題,這僅僅是通過我們的運(yùn)維手段就把直接出現(xiàn)問題的代碼找出來,同理在SQL和API上我們也能實(shí)現(xiàn)同樣的效果,這一切都?xì)w功于APM。
廖雄杰說道不僅是在Server端APM能發(fā)揮如此的功效,在移動(dòng)互聯(lián)網(wǎng)上APM也能大發(fā)神威。對(duì)移動(dòng)互聯(lián)網(wǎng)進(jìn)行監(jiān)控的時(shí)候,最頭疼的一個(gè)問題是終端數(shù)量非常龐大,而且分散在世界各地,APM可以很簡(jiǎn)單的解決的這個(gè)問題,并能很清晰直觀的監(jiān)測(cè)到網(wǎng)絡(luò)請(qǐng)求響應(yīng)、交互性能、錯(cuò)誤、崩潰等不同維度的信息,并定位至代碼級(jí),開發(fā)人員就能很好的解決問題,留住用戶。
劉宇:運(yùn)維自動(dòng)化平臺(tái)實(shí)踐
經(jīng)過現(xiàn)場(chǎng)觀眾與講師Q&A互動(dòng)和短暫的休歇以后,來自金山西山居的架構(gòu)師劉宇開始了講堂下半場(chǎng)的干貨分享。他首先為大家介紹了業(yè)務(wù)運(yùn)維的方向,業(yè)務(wù)運(yùn)維向來是走在公司的第一線,它必須保障業(yè)務(wù)穩(wěn)定性,同時(shí)對(duì)業(yè)務(wù)質(zhì)量進(jìn)行監(jiān)控,處理業(yè)務(wù)投訴,定位和分析問題所在,提升客戶體驗(yàn)以及業(yè)務(wù)性能優(yōu)化,還有業(yè)務(wù)部署、新版本發(fā)布、服務(wù)端變更等等,然而業(yè)務(wù)線繁雜,無規(guī)范、無標(biāo)準(zhǔn),故障難以快速定位,變更發(fā)布周期性長(zhǎng)等問題一直困擾著每一個(gè)運(yùn)維。
不懂業(yè)務(wù)運(yùn)維的人,一定不是好研發(fā),隨后劉宇為大家描繪了運(yùn)維自動(dòng)化規(guī)劃藍(lán)圖,建立一個(gè)運(yùn)維自動(dòng)化的平臺(tái),通過可視化讓研發(fā)和更多一線的運(yùn)維得到提升,讓他們更輕松的應(yīng)對(duì)工作。同時(shí)做好服務(wù)管理,把全線業(yè)務(wù)以及流程根據(jù)規(guī)范集成起來,同時(shí)監(jiān)控配置和命令執(zhí)行,然后用CMDB來監(jiān)管所有的網(wǎng)絡(luò)和服務(wù)器,從而得到一個(gè)完整的自動(dòng)化運(yùn)維平臺(tái)。
最后劉宇分享了他的一些運(yùn)維實(shí)踐經(jīng)驗(yàn),第一,規(guī)范化,包括命名、代碼、研發(fā)、測(cè)試等多方面的規(guī)范;第二,CMDB系統(tǒng)研發(fā),包含數(shù)據(jù)存儲(chǔ)、開放API兩大功能,保持?jǐn)?shù)據(jù)一致性和業(yè)務(wù)之間關(guān)聯(lián)關(guān)系;第三,監(jiān)控系統(tǒng)上線,先快速上線Zabbix并逐步完善業(yè)務(wù)級(jí)監(jiān)控;第四,綜合所有功能,讓運(yùn)維自動(dòng)化平臺(tái)上線。最后劉宇還談到業(yè)務(wù)運(yùn)維如何發(fā)展,需要具有對(duì)系統(tǒng)的全局把握能力,做到隨叫隨到,解決任何問題并記錄未自動(dòng)化事宜提出改進(jìn)。
李志明:京東百億級(jí)業(yè)務(wù)應(yīng)用運(yùn)維的進(jìn)化與發(fā)展
最后一位登場(chǎng)的是京東應(yīng)用運(yùn)維部經(jīng)理李志明,恰逢618購物節(jié)的到來,京東在如此巨大的用戶規(guī)模情況下,業(yè)務(wù)運(yùn)維是怎么進(jìn)行的引起人們好奇。李志明說到,過去京東的運(yùn)維基本都是靠人來驅(qū)動(dòng)的,無論是編譯、打包還是上線都是手工完成,審批過程也極為漫長(zhǎng),隨著業(yè)務(wù)不斷壯大,最后他們決定建立系統(tǒng)和平臺(tái),將人的常規(guī)操作系統(tǒng)化,將人的角色由操作改為決策,建立了四大系統(tǒng):編譯系統(tǒng)、部署系統(tǒng)、日志系統(tǒng)、監(jiān)控系統(tǒng)。
利用這些系統(tǒng)將整個(gè)業(yè)務(wù)平臺(tái)化、自動(dòng)化,去掉最底層人的操作,降低人的作用,通過審計(jì)讓運(yùn)維做到透明化,做好冗余,保證一切實(shí)例的故障、服務(wù)器的故障、交換機(jī)的故障、機(jī)房故障、地震等不可抗拒因素等都有備用,同時(shí)將中間件云化。從業(yè)務(wù)層面上,運(yùn)維需要了解業(yè)務(wù)邏輯、部署結(jié)構(gòu),還要準(zhǔn)備應(yīng)急響應(yīng)方案、災(zāi)難演練以及促銷時(shí)的應(yīng)對(duì)方案。
最后李志明對(duì)業(yè)務(wù)運(yùn)維的未來談了一下自己的看法,他希望所有的研發(fā)人員、運(yùn)維人員的工作最后都在一個(gè)生產(chǎn)環(huán)境運(yùn)維平臺(tái)上進(jìn)行,在保證自動(dòng)化的同時(shí)做好標(biāo)準(zhǔn)化,最終解放研發(fā),提高業(yè)務(wù)連續(xù)性。
至此,第四期聽云應(yīng)用性能管理大講堂落下帷幕,散場(chǎng)后小伙伴們?nèi)耘f意猶未盡,紛紛在講堂微信群里進(jìn)行討論,或發(fā)表自己對(duì)運(yùn)維的看法,或向講師提運(yùn)維方面的問題,講師們也都熱情解答,相信本次大講堂一定能讓大家受益良多,讓我們一起期待下一期的到來吧!
點(diǎn)擊如下鏈接下載講師課件:http://bbs.tingyun.com/forum.php?mod=viewthread&tid=73&extra=page%3D1