?
內(nèi)容摻雜著這位存儲老兵的很多思考,干貨十足,以下內(nèi)容根據(jù)現(xiàn)場速記整理,為便于閱讀有所刪減,未經(jīng)演講人確認(rèn),僅供參考學(xué)習(xí):
?
董唯元是存儲業(yè)內(nèi)資深專家,而現(xiàn)在在先智數(shù)據(jù)現(xiàn)在做的事情有點(diǎn)脫離存儲,但在此之前也曾做過自有品牌的超融合,對超融合有一些感情,而今做的事情更多面向智能運(yùn)維。
?
早在14年的時(shí)候開始做超融合,對超融合了解的比較多,大會上他分享了幾個(gè)關(guān)于架構(gòu)演進(jìn)的感受和看法。
?
從1999年的時(shí)候開始做存儲和基礎(chǔ)架構(gòu)相關(guān)的事情,那個(gè)年代還沒有分布式,那時(shí)候的存儲主要看性能、可靠性,那個(gè)年代討論基礎(chǔ)架構(gòu)解決方案的人經(jīng)常是用戶CIO,由于他還做過一些整體咨詢的工作,所以經(jīng)常跟CIO聊,而現(xiàn)在,他發(fā)現(xiàn)很少有CIO聊基礎(chǔ)架構(gòu)了。他覺得基礎(chǔ)架構(gòu)在用戶眼里的地位有一點(diǎn)邊緣化。
?
?
他還發(fā)現(xiàn),有了云計(jì)算之后,CIO要操心的事突然變得更多了。如圖上所示,以前的IT相對來說比較規(guī)范,各行業(yè)的IT模式都差不多。但現(xiàn)在的IT要關(guān)注的東西特別多,經(jīng)過一段時(shí)間的探討,業(yè)界出現(xiàn)了所謂的雙模概念,傳統(tǒng)IT架構(gòu)不能完全拋棄,同時(shí)大家需要互聯(lián)網(wǎng)化和業(yè)務(wù)敏捷IT,兩者需要融合。
?
云計(jì)算已經(jīng)出現(xiàn)了10多年,而CIO都在想怎么選才能適合自己的業(yè)務(wù),CIO的關(guān)注點(diǎn)原來就存在,只是在新的時(shí)代下又以新的面貌出現(xiàn)了,解決方式就是業(yè)內(nèi)比較認(rèn)可的中臺策略,或者叫平臺化,也有的叫行業(yè)云,命名雖無法統(tǒng)一,但其目標(biāo)就是融合雙模IT,傳統(tǒng)IT靠僵化固話的策略做可靠性,但喪失了敏捷,如果傳統(tǒng)IT追求敏捷對于大部分的傳統(tǒng)業(yè)務(wù)風(fēng)險(xiǎn)又太大,這個(gè)問題需要CIO來決策取舍。
?
可靠性和敏捷性的取舍,董唯元認(rèn)為可以參考汽車行業(yè),汽車的可靠性也非常重要,同時(shí)也需要一定的敏捷能力,需要一些個(gè)性化能力,汽車行業(yè)的做法是讓工廠把標(biāo)準(zhǔn)件做得非常可靠,符合各種規(guī)范流程,同時(shí)也能快速完成拼裝,賣給用戶。
?
對應(yīng)到IT里就是中臺,后端各種資源和服務(wù)都遵守一定的規(guī)范性和可靠性,這就相當(dāng)于汽車行業(yè)的標(biāo)準(zhǔn)可靠零件,然后需要一種面向業(yè)務(wù)的服務(wù)編排能力,這就是汽車組裝環(huán)節(jié),需要的是打通若干環(huán)節(jié)的能力,最后創(chuàng)建一個(gè)業(yè)務(wù)應(yīng)用,這是一種模式。
?
這個(gè)模式比較常見,理論上是成立的,作為咨詢行業(yè)的專家,董唯元發(fā)現(xiàn)有時(shí)候這些理論有時(shí)候是站著說話不腰疼,方法論在這里,但如果要說落地,各種實(shí)際問題就出現(xiàn)了。最大的沖突還來自于敏捷和可靠,這兩個(gè)要求在日常習(xí)慣上就不一樣,相當(dāng)于強(qiáng)行把一群年輕精力旺盛的年輕人和一群老態(tài)龍鐘的老人關(guān)在一起,但想讓這兩撥人互動那就有問題了。
?
傳統(tǒng)企業(yè)企業(yè)要互聯(lián)網(wǎng)化,要敏捷,相當(dāng)于原來坐火車的人現(xiàn)在自己開汽車了,自己把握方向盤自己決定方向,可能性多了N倍,問題了多了N倍。不是所有業(yè)務(wù)都需要互聯(lián)網(wǎng)化和敏捷能力的。當(dāng)可靠和敏捷放在一起做IT運(yùn)維的時(shí)候,流程設(shè)計(jì)、管理模式其實(shí)都是問題,有時(shí)候,技術(shù)只是一小部分問題,重要的還有如何重塑管理流程等等。
現(xiàn)在的IT架構(gòu)中采用云架構(gòu)不一定省錢,而且反而更加費(fèi)錢,其中包括運(yùn)維的原因,互聯(lián)網(wǎng)化之后運(yùn)維不到位,底層沒有打通,管理不到位、資源浪費(fèi)都是問題,很多人會發(fā)現(xiàn),上了云之后運(yùn)維人員的數(shù)量要翻3—5倍。如果原來有2000萬預(yù)算基于傳統(tǒng)IT架構(gòu)搭建,那么可能大概需要兩個(gè)運(yùn)維人員,現(xiàn)在如果有2000萬預(yù)算的話,可以買兩卡車的超融合,運(yùn)維機(jī)柜處理故障等這類運(yùn)維人員的數(shù)量也會有所增長。這是云化之后的最直接感受。公有云也是一樣,資源是否浪費(fèi),利用率如何最后都是成本的問題。
?
當(dāng)系統(tǒng)越來越復(fù)雜,業(yè)務(wù)盤根錯(cuò)節(jié),用戶也很難搞清楚到底該怎么做了。超融合可以說是IT領(lǐng)域的一大創(chuàng)新,而現(xiàn)在,超融合本身不再是基礎(chǔ)設(shè)施領(lǐng)域的熱點(diǎn),如今的熱點(diǎn)是DevOps,微服務(wù)相關(guān)內(nèi)容,要解決的問題其重點(diǎn)在于運(yùn)維管理上,結(jié)合一些咨詢機(jī)構(gòu)的研究董唯元認(rèn)為,未來基礎(chǔ)架構(gòu)領(lǐng)域的核心是用AI做創(chuàng)新,AI可以做預(yù)測性運(yùn)維,可以做服務(wù)編排,這也是我所在的公司先智數(shù)據(jù)做的事情。
先智數(shù)據(jù)用人工智能在運(yùn)維管理方面有很多細(xì)節(jié)的東西,可以讓系統(tǒng)管理員有一個(gè)穿越的能力。現(xiàn)有系統(tǒng)非常復(fù)雜,相互之間又有調(diào)用,能找到過去某個(gè)時(shí)間點(diǎn)發(fā)生的事情的細(xì)節(jié),原景重現(xiàn)可以幫助定位問題。
?
人工智能另一個(gè)能力是預(yù)測未來,如果未來有一些值得注意的事情的話,用戶可以看到未來時(shí)間點(diǎn)上當(dāng)前系統(tǒng)的狀態(tài),比如會發(fā)現(xiàn)一些硬盤故障,未來系統(tǒng)的性能狀態(tài)等等。人力也能做傳統(tǒng)運(yùn)維監(jiān)控,但AI能在各種數(shù)據(jù)指標(biāo)之間建立一些關(guān)系,AI能對所有指標(biāo)進(jìn)行參考,而人智能憑借經(jīng)驗(yàn)來判斷。
?
?
?
先智數(shù)據(jù)的方案可以高精準(zhǔn)度的預(yù)測磁盤的故障,上圖列出了未來一段時(shí)間可能會出現(xiàn)故障的盤。除了硬盤,可以預(yù)測的還有業(yè)務(wù)負(fù)載,物理機(jī)的占用,任何一個(gè)構(gòu)想在當(dāng)前系統(tǒng)里都可以做預(yù)測。
?
預(yù)測能力可以做很多事情,比如可以做容器的調(diào)度,大量容器的快速啟停,在私有云、公有云以及各種資源范圍做調(diào)度控制,還可針對容器的異常狀態(tài)進(jìn)行一些調(diào)整,比如自動回收一些卡死的容器等等,系統(tǒng)在做一些耗費(fèi)資源的故障修復(fù)操作時(shí),會影響到性能,先智數(shù)據(jù)的智能系統(tǒng)還能自動錯(cuò)開業(yè)務(wù)高峰期進(jìn)行這類操作。
?
在可靠性方面,幾十個(gè)節(jié)點(diǎn)的超融合和分布式存儲無需額外關(guān)注太多,但規(guī)劃一千節(jié)點(diǎn)左右的數(shù)據(jù)中心時(shí)就需要多加考慮了,上規(guī)模后一些保護(hù)機(jī)制可能會出問題,比如,一旦一個(gè)集群規(guī)模超過了50個(gè)節(jié)點(diǎn),使用體驗(yàn)會非常差,一般都會限制到30個(gè)節(jié)點(diǎn),有的幾百節(jié)點(diǎn)的超融合容錯(cuò)率其實(shí)很小。
?
?
?
上圖統(tǒng)計(jì)了節(jié)點(diǎn)數(shù)和副本數(shù)對于SDS可靠性的影響,縱軸說的是容錯(cuò)域,越高越好,三副本比二副本可靠性要強(qiáng),橫軸說的是節(jié)點(diǎn)數(shù),節(jié)點(diǎn)少的比節(jié)點(diǎn)多的可靠性要強(qiáng),副本一定的情況下,可靠性的X個(gè)9是一條變化的曲線,從圖中可見,節(jié)點(diǎn)越多容錯(cuò)率,容錯(cuò)能力越低。
?
故障預(yù)測不能改變故障出現(xiàn)的次數(shù),但是故障本身是可以預(yù)測的,預(yù)測到之后就可以提前做準(zhǔn)備來減少故障影響,先智數(shù)據(jù)的故障準(zhǔn)確率可以到90%,有了故障預(yù)測能力之后,可靠性有所很大提升,圖中開始出現(xiàn)7個(gè)9了。
?
以上就是先智數(shù)據(jù)董唯元介紹的主要內(nèi)容。