董唯元,資深存儲技術(shù)專家,國際存儲工業(yè)協(xié)會個人會員,曾任中科院計算所863課題組產(chǎn)品技術(shù)顧問,多年來持續(xù)專注大型數(shù)據(jù)中心的建設與運維工作,曾主持規(guī)劃并建設了數(shù)十個大型數(shù)據(jù)中心系統(tǒng),有傳統(tǒng)模式數(shù)據(jù)中心,也有新型云化業(yè)務平臺?,F(xiàn)任先智數(shù)據(jù)中國區(qū)總經(jīng)理。
以下為演講實錄:
題目叫突破創(chuàng)新“音障”,我之所以取這個名字我覺得我們今天整個的創(chuàng)新,在外行看很熱鬧,在我們?nèi)锏娜丝雌鋵嵱幸恍├щy要解決,尤其是近期來說。可能最近這幾個月,一兩月大家會陸陸續(xù)續(xù)看到原本非常熱的世界頂級的人工智能這些公司出現(xiàn)了一些不那么令人樂觀的變化,當然還有很多大的外部變化。所以現(xiàn)在是有一些困難,這些困難我解讀成“音障”,后面什么意思我會慢慢去把它一條條解釋清楚。
作為做存儲的人,我個人是做了差不多有20年的存儲,存儲這個行業(yè)也基本上,國際存儲工業(yè)協(xié)會就就是在1999年成立的,我基本上可以稍微自夸一點講,我見證過前面存儲非常輝煌的興起的階段,也非常切身的感受了最近將近十年存儲不那么輝煌,甚至是有一點徘徊的這么一些階段。
整個的過程非常有意思,大家如果接觸存儲時間稍微早一點,會記得在2000-2005年之前,那個時候講存儲的技術(shù)關鍵詞特別好。大家覺得忌諱談數(shù)據(jù)詞的,大家data這個詞很low的,data喜歡講niformation,因為那個時候的行業(yè)領頭羊是EMC,EMC當時是如日中天,牛到什么程度呢?2000年是新世紀納斯達克敲鐘的時候,那個敲鐘人是EMC,那的是非常非常風光的一個公司。
EMC的理念,它從來不講data,它雖然做的storage,但它從來不講data,它講的叫information。所以你會看到從存儲行業(yè)作為一個獨立行業(yè)開始,實際上關鍵詞就從數(shù)據(jù)變成信息,倒回去十五年、二十年多年前經(jīng)歷是從數(shù)據(jù)到信息的一個轉(zhuǎn)換。到2006年、2007年之后,甚至2010年的時候,那個時候大家又講大數(shù)據(jù),又講回來,大家又講信息了,覺得信息是一個比較過時的詞,又講data甚至有CDO,出了一個新的職位叫做首席數(shù)據(jù)官,所以你看到又回來了。這個世界蠻有意思,真的是螺旋形在前進,當年我們都不屑一用的詞,但是前面加了“大”字,就是大數(shù)據(jù)。
大數(shù)據(jù)這兩年其實大家家看到很多的評論都已經(jīng)很公開了,就說大數(shù)據(jù)已死,昨天西瓜還寫了一篇文章,就是這個大數(shù)據(jù)又不講了,其實在五年前大家都不講大數(shù)據(jù)。2016年AlphaGo一熱,圍棋這件事直接把人工智能帶出來,大家都認為說人工智能,就是智能化大數(shù)據(jù)又扔到一邊了。
這個是很好玩的一個螺旋。但是未來又是什么?未來的方向在哪兒?這是我們更關心的,除了關心現(xiàn)在之外,我們從業(yè)者更關心的是將來哪天又回到螺旋的另一個方向去,實際上在我看來這個就是整個行業(yè)的發(fā)展,雖然看上去是一個左一下右一下的搖擺,但它里面有內(nèi)在的邏輯。從最早IT從無到有的建設過程,把一些傳統(tǒng)錄到錄像帶上的東西存到磁盤上,這就算是大功一件。
像中石油有一個專門做勘探數(shù)據(jù)處理的叫東方物探公司。東方物探公司所有的勘探數(shù)據(jù),就是模擬地震炸出來的數(shù)據(jù)也是放到磁帶上,那些磁帶占的地方之大,東方物探為它的磁帶建的一個樓,那個的樓的名字就媒體樓,全都是數(shù)據(jù)在里面,全都是放磁帶的,那個樓里面沒有人。
以前的數(shù)據(jù)是這么存放的,后來把它轉(zhuǎn)到硬盤上,轉(zhuǎn)成可以初步的數(shù)字化。所以在IT從無到有的時候,有數(shù)據(jù)其實就是核心了,就已經(jīng)是完成第一階段。到二階段到我說的二十年前,人們發(fā)現(xiàn)我數(shù)據(jù)已經(jīng)足夠很多了,剩下的我從數(shù)據(jù)里面得到我想要的東西,所以強調(diào)是一個數(shù)據(jù)能告訴我一個什么東西,這個時候不是數(shù)據(jù)本身,而是數(shù)據(jù)告訴我的信息,這個詞微妙的差別就在這兒。
當信息多到一定程度的時候,當我們說大數(shù)據(jù)的時候,其實我們在說的并不是數(shù)據(jù)本身,我能擁有多少數(shù)據(jù),我能擁有全北京市的所有道路的交通情況。2008年奧運會之前,北京市整個道路交通監(jiān)控,上了幾個TB的存儲我還參與這個事了。當時是把幾個TB的存儲存下來這個本身不是問題,也不是建設目的,而是說要解決我把整個數(shù)據(jù)再次處理,把它的信息再做抽象再次分析之后能得到的結(jié)論。所以大數(shù)據(jù)實際上是一個我已經(jīng)有足夠多的信息之后做一個規(guī)律的抽取和規(guī)律的總結(jié),到智能化實際上就更進一步升級,就是不僅我能抽取到什么規(guī)律,寫今天我希望能有什么規(guī)律,數(shù)據(jù)能自動告訴我。
智能化給人打開一個新的大門,在沒有深度學習之前,我們所有的知識就來源于這個方面,實踐向老師學習,還有一些觀察等等這樣的一些方面。但是有了深度學習之后,我們又多了一個知識源,我們可以像機器學習。就像以前機器人為什么下圍棋下不過人,是因為人是老師,機器人所有下棋的技巧是跟人學的。后來有了深度學習之后,實際上現(xiàn)在你再看,人是跟機器去學棋,因為機器自己統(tǒng)一規(guī)則和摸索,它發(fā)明了一些它的走法是人類從來沒有的。所以人類相當于通過深度學習,找到了新的知識源,人可以跟機器去學習,這又是一個新的進步。所以未來是什么樣的,應該是一個非常值得期待的一個事。
以往積累得越多,今天發(fā)展速度就越快,以往所有的經(jīng)驗、積累都會幫助你今天,這樣你整個的規(guī)律就是一個指數(shù)型的發(fā)展,說白了這其實就是摩爾定律,大家如果忘了高數(shù)的話,看這個東西覺得暈,但實際上很簡單,左邊這是摩爾定律,你歷史上所有的東西都能幫助到今天,你當然就越來越快的指數(shù)漲上去。
另外一種發(fā)展規(guī)律,你以往的這種積累你有一個中心值,像一側(cè)走得越快,實際上往回拉的力量就越大,實際上就像一個彈簧。為什么經(jīng)濟有周期?經(jīng)濟十年一個小周期,60年一個大周期,經(jīng)濟所有的周期就是因為對中心偏離,一旦一個經(jīng)濟盡速快速發(fā)展階段就會有杠桿,就會去加速,加速超過平均值的話有一個反向的壓力,簫條的一定程度也是這樣,所以整個周期和指數(shù)級這兩種規(guī)律實際上在我們技術(shù)進步和由技術(shù)做推動的經(jīng)濟的大環(huán)境下是兩種因素的交疊,這兩個因素的較爹是個非常有意思的結(jié)果。
最直接的一個結(jié)果就是我們看到技術(shù)的傳播的速度在影響著技術(shù)本身創(chuàng)新的速度。什么意思?可能我需要借用一下回到我題目上“音障”那個詞,借用超音速的原理。我們?nèi)魏我粋€技術(shù)的創(chuàng)新,技術(shù)的創(chuàng)新它必須得傳播給使用技術(shù)的人,它才能發(fā)揮出價值來。我發(fā)明一個新的技術(shù),必須得有別人把它用起來,用我這個新技術(shù)賺到錢了,我才能有發(fā)展。
所以技術(shù)是有傳播速度的,技術(shù)的傳播速度不是分分鐘見效的。我們看到今天有一個新的技術(shù),可能它經(jīng)過一段時間才能傳播到上下游,傳播到其它領域讓別人受益。但如果我自己技術(shù)的更迭速度太快,快到說我發(fā)明了一個新技術(shù),交給您用了,您剛把個新技術(shù)用起來,還沒賺到錢我下一代技術(shù)又出來了,這個時候我是賺不到錢的,你也賺不到錢,新技術(shù)的更迭速度撞到了它的傳播速度上。
新技術(shù)的傳播速度就是新技術(shù)創(chuàng)新速度的上限,這就是我題目上講的“音障”。這個實際上是我們今天看到所有技術(shù)都是好技術(shù),人工智能都是好的技術(shù),但是為什么那么做人工智能非常頂尖的人,他賺不到錢?就是因他發(fā)展太快了,至少其中一個因素是一樣。其實以前就是這個邏輯在,不是今天在有,所以創(chuàng)業(yè)的人經(jīng)常講說“提前半步是英雄,提前一步一步就是先烈”,提前的太早就會死在沙灘上了,這個也被很多創(chuàng)業(yè)的人作為一個規(guī)律,總結(jié)教育大家說創(chuàng)業(yè)要timing,要注意這個時間,太超前的東西是不行的。
我個人不是這么看,我自己也創(chuàng)業(yè)過4次了,我覺得以前是這樣的,很多的老的規(guī)律它有它的道理,因為它有它的時間局限性和時代局限性,因為這個“音障”早晚要突破。今天我們講的叫數(shù)字經(jīng)濟,數(shù)字經(jīng)濟在我理念核心就是主從關系的定位,以前我們說新的技術(shù)是作為輔料,幫助你做什么零售也好,做制造也好,做社區(qū)也好,你有傳統(tǒng)的業(yè)務在,新的技術(shù)去幫助到這個技術(shù),讓這個技術(shù)獲得成長。
如果是傳統(tǒng)的業(yè)主為主,技術(shù)為輔的話,這個“音障”是一定存在的。但我說的突破“音障”是什么概念呢?就是這個主從關系意味,技術(shù)本身成為一個主導,整個其它的業(yè)務是追著技術(shù)的發(fā)展來走,甚至由技術(shù)本身創(chuàng)造自己新的業(yè)務模式,新的生態(tài)模式,到今天我們已經(jīng)能看到看到一些新的互聯(lián)網(wǎng)技術(shù)的更迭所帶來新的業(yè)務的產(chǎn)生,它實際上對傳統(tǒng)沖擊,都不是說我賣蘋果,你也賣蘋果,你把給攻垮了,不是這么簡單。我是賣蘋果的,你可能是賣橘子的,然后你居然就把我給擊垮了,甚至比這個更夸張。做投資的人經(jīng)常講一個詞叫OTT,叫OverTheTop就“過頂傳球”,其實就是說新的技術(shù)所帶領這種業(yè)務的發(fā)展,超過傳統(tǒng)業(yè)務的時候那傳統(tǒng)業(yè)務根本就不知道它的存在,等它發(fā)現(xiàn)已經(jīng)淘汰的時候已經(jīng)來不及了。
前兩天好玩的一個說法,美團為什么收共享單車,做自己的外賣不挺好嗎?但是美團發(fā)現(xiàn)它的外賣發(fā)展瓶頸受共享單車的影響,共享單車發(fā)展起來訂外賣的人會很少,很多想象不到跨領域的沖擊都是挺好玩。所以技術(shù)的領導在經(jīng)濟業(yè)務領域的這種建設和領導力,它一旦建設起來的話才是真正突破了“音障”,這樣所有的業(yè)務會跟隨這個這個東西去走。
當然說得比較虛,在說具體的東西之前,我先解釋一下麥克斯韋妖(Maxwell’s demon)這個事。其實我想說的是信息本身是一種能量,是一種結(jié)結(jié)實實的能量,就跟太陽能一樣,跟煤、石油一樣的東西,信息本身就是能量。這個從物理上面,麥克斯韋兩百多年前就已經(jīng)總結(jié)出來的東西的的東西就是麥克斯韋妖。
我相信很多人都已經(jīng)知道了,一個小盒子里面本來是有溫度均衡的一個氣體,中間有一個隔板,隔板上有一個門,門那站著一個小妖,這個小妖能看清楚哪個分子運動的快,哪個分子運動的慢。然后把他紅色運動快的分子往大家的右邊去放,把運動慢的分子往大家左邊的方向去放。經(jīng)過一段時間之后,右邊半邊盒子平均速度就會越來越高,左邊這個平均速度就越來越低,其實相當于右邊越來越熱,左邊就越來越冷。
我們知道如果一個封閉系統(tǒng),如果從熱心平衡變成了一邊冷一邊熱,實際上一定是有做功,說白了就是空調(diào)。家里邊之所以能比外面涼,是因為你插著電,空調(diào)如果不插是不可能讓屋子里變涼的。
我們就是現(xiàn)在需要一個什么分析,比如說用戶的行為,我做零售的,我想知道哪些用戶喜歡喝酸奶,哪些用戶喜歡喝啤酒,我就去抓來相應的數(shù)據(jù),對著我這個目標做一通分析得出一個結(jié)論,這種方式實際上在今天看來是比較簡單粗暴。就像最原始的使用煤炭的方式或者使用能源的方式。今天我想做頓飯,我就把能燒的東西找過來燒一頓我今天要的這頓飯就完了。
但是在智能時代,我剛才講說,實際上整個信息里面所蘊含能量的轉(zhuǎn)移會非常豐富,所以它不是簡單就把,之所以大數(shù)據(jù)這個理念被淘汰,其實就是因為算數(shù)據(jù)的方式太簡單粗暴,這個能量沒有存儲和轉(zhuǎn)移和再利用的機制在。
我們想我們今天之所以有這種方便,是因為我們有電的這種東西,有各種各樣的手段去發(fā)電,把各種各樣的能源收集起來,以電的方式存儲起來,傳播出去,加各種各樣的用能源的東西直接用電去做。實際上能源以電的方式去傳輸和應用的這種比例就可以應用在智能方面,我們看人工智能就是這樣一個概念,我們用數(shù)據(jù)去訓練一個神經(jīng)網(wǎng)絡,這個神經(jīng)網(wǎng)絡具備的一個能力實際上可以再利用,而且它是可以傳輸、附用的,多個神經(jīng)網(wǎng)絡是可以組合,所以整個方式完全會不一樣,整個體系、生態(tài)都會完全不一樣。
當然,用戶對我們的整個技術(shù)和設備供應商的要求也會越來越高。最早IOE那個年代,用戶只是說我都是先成業(yè)務軟件,我需要找一個地方把它裝上,給我個環(huán)境把它裝上就完了,供應商是更多的提供的是一些基礎資源和基礎環(huán)境。
現(xiàn)在在云時代,云時代理念就變了,不是我有一個現(xiàn)成的軟件裝上運行就完了,實際上我要不不停的寫我的軟件,云這個東西你要給我一個運行我代碼的一個環(huán)境,就是它不光是一個運行環(huán)境,它要包括你整個代碼的管理,甚至是CICD,所以今天我們看到云平臺或今天中臺的理念特別盛行,實際上本質(zhì)上來講把整個用戶的期望值抬升,讓用戶做更小的事情或者是更大的自由。
未來實際上有了智能的介入或者智能的幫助之后,還會有更高的理念,將來可能要求用戶應并不需要自己能寫代碼,但他也很方便、很敏捷地去構(gòu)建自己的業(yè)務。我只要有個idea,我這個idea就可以運行起來,就可以以某種方式執(zhí)行起來,那個時候供應商提供的東西就更多,當然就會有更多智能化的東西在里面。這是過去、今天和遠景我的理解,具體到我們公司現(xiàn)在做的事情,那里面未來可做的事情我相信非常多,我們公司只能挑其中一點點做。
我們做更多實際上是資源管理的事,這是一個漫畫,一家人過,小孩問他爸爸說那個橋頭有個限重10噸,小孩問他爸爸說這個“限重10噸”是怎么測出來的,他爸爸跟他說就是不停開越來越重的卡車來軋這個橋,軋到這個橋塌了就知道它最大的載重是多少了。記住橋當初怎么建的,再把它重新建一遍,最大程度就是10噸,聽起來很可笑。
今天我們的數(shù)據(jù)中心的這個承載,很多時候確實是這樣。尤其是大家做過雙11秒殺這種,你的數(shù)據(jù)中心承載一個這種,誰都不知道多大負載的業(yè)務壓力的時候,就是大家蒙著來,塌了我們再加東西,沒塌就接著跑,就只能這樣。我見過很多,包括移動什么的很多用戶就是這樣面臨它的的承載能力,整個IT系統(tǒng)花了這么多錢建起來了之后,它最大承載能力到底多大,不知道,每一人能說的清楚。甚至有的時候它的瓶頸在哪都說不清楚。有懷疑數(shù)據(jù)庫的時候,我們做過雙11秒殺,有的時候懷疑數(shù)據(jù)庫,懷疑前端的webservic,到最后真正雙11秒殺的那天卡是是卡在F5的負載均衡上面,就是各種各樣的你想不到的地方。
所以整個數(shù)據(jù)中心資源管理有很多需要去做的事,我們是用人工智能做了一些工作,當然我們?nèi)斯ぶ悄茏龅酶嗟氖堑讓拥?,就是資源層的CPU利用率、內(nèi)存利用率這樣一些東西。上層有APM的這種東西我們是跟他配合,跟APM配合,就可以把整個全棧智能化的運維完整的建立起來。
最后的目的,目前來講,我們建一個中臺也好,叫平臺也好,反正是是一個更智能化的平臺,傳統(tǒng)很被動的使用方式和比較僵化的運維方式,甚至有的時候是亡羊補牢的運維的方式變成一個更主動的、更智能的,可能用戶還不知道的時候我們就先知道。我們告訴用戶說你這個系統(tǒng)在下個月會迎來一個可能要塌掉的負載,瓶頸主要在什么地方,在什么地方加什么東西,做這樣的這樣事情。
這只是一部分,實際上未來智能化在數(shù)據(jù)中間的應用會非常廣,我們做是非常簡單的一點。我的介紹就到這里。
(內(nèi)容基于速記整理,如有紕漏,歡迎指正。)
查看大會專題:http://www.gensurebio.cn/subject/FMW19/