▲Etu產(chǎn)品發(fā)布會現(xiàn)場(左起:中科院計(jì)算所、Hadoop China的發(fā)起人查禮博士、精誠云中心暨Etu負(fù)責(zé)人蔣居裕先生、Etu首席顧問兼資深技術(shù)總監(jiān)陳昭宇先生)
初識Etu
提到Etu,大多數(shù)人感到陌生,它是臺灣信息服務(wù)廠商精誠集團(tuán)SYSTEX Corporation旗下的Big Data解決方案品牌。精誠集團(tuán)成立于1997年,是臺灣最大的IT服務(wù)供應(yīng)商,在臺灣、香港、泰國、新加坡、印尼,都有分公司或辦事處,并在上海設(shè)立中 國區(qū)總部,整個亞洲地區(qū)大概有3000名員工。精誠集團(tuán)此次推出的一站式大數(shù)據(jù)解決方案Etu,從軟件、硬件,到整合后的數(shù)據(jù)處理、分析、與未來擴(kuò)充時的 各個場景提供整體解決方案。
▲精誠集團(tuán)SYSTEX Corporation旗下的Big Data解決方案品牌Etu
Etu不做數(shù)據(jù)庫,也不做數(shù)據(jù)倉庫,而是一家做非結(jié)構(gòu)化大數(shù)據(jù)解決方案的廠商。Etu的中文名字是“知意圖”,由“意圖”發(fā)展而來,代表發(fā)現(xiàn)市場 “意圖”,洞悉消費(fèi)者心理需求。Etu負(fù)責(zé)人蔣居裕表示,Etu是亞洲首家以企業(yè)為市場的大數(shù)據(jù)廠商,以Hadoop主流技術(shù)來呈現(xiàn)一體化解決方案,了解 大數(shù)據(jù)背后冰山底下那些數(shù)據(jù)的意圖。在大數(shù)據(jù)分析的年代里,需要把“意圖”放到解決方案中。這里的意圖主要體現(xiàn)在以下三個方面:
一、強(qiáng)化熱點(diǎn)。借助會員或者網(wǎng)民日志分析,得知網(wǎng)頁上最熱門的幾個鏈接,并且需要有針對性的將重要信息要集中在這些位置。
二、個性化郵件:除了發(fā)大家一模一樣內(nèi)容的電子郵件以外,還應(yīng)該發(fā)一些針對個人喜好的郵件。比如某人喜歡小說,就應(yīng)該給這位會員的電子郵件增加一些小說類的內(nèi)容。
三、關(guān)系型推薦。某個會員和另外一群會員行為很像,則可以向相似行為的會員推薦同樣的商業(yè)類型的項(xiàng)目。
談到Etu的品牌故事,蔣居裕介紹到,根據(jù)以往的工作經(jīng)歷,精誠云中心成立后很快決定將大數(shù)據(jù)作為重點(diǎn)發(fā)展領(lǐng)域,源自其對半結(jié)構(gòu)化數(shù)據(jù)的市場需求充 滿信心。考慮到目前大數(shù)據(jù)的處理成本越拉越高,精誠云中心希望將大數(shù)據(jù)主流技術(shù)Hadoop加入到自己的大數(shù)據(jù)解決方案中,于是有了現(xiàn)在的團(tuán)隊(duì),有了 Etu這個品牌。從2011年9月的初步規(guī)劃到今年3月的產(chǎn)品發(fā)布,只有短短半年的時間,蔣居裕認(rèn)為這得益于核心團(tuán)隊(duì)對Hadoop和大數(shù)據(jù)事業(yè)的熱情以及行業(yè)經(jīng)驗(yàn)。
Etu Appliance——何為Hadoop一站式產(chǎn)品?
Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,主要由HDFS、MapReduce和HBase等組件構(gòu)成。中科院計(jì)算所、Hadoop China的發(fā)起人查禮博士表示,Hadoop最適合的就是文本的處理,即非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)處理。文本是最核心的,其他類型的數(shù)據(jù)不是不可以,如多媒體的處理,但并不是很適合。
查禮博士介紹了Hadoop的用途,對于Hadoop目前為止兩個最常用的場景,一個是把它作為一種存儲,相當(dāng)于一種數(shù)據(jù)庫用來存儲非結(jié)構(gòu)化的數(shù) 據(jù)。第二個通過它的處理把數(shù)據(jù)換到數(shù)據(jù)庫里,進(jìn)行商業(yè)智能分析和挖掘。他表示,這種說法沒有問題,但是用來做存儲只用了Hadoop一半的功能,它的特點(diǎn) 是存儲和計(jì)算組合在一起,融合在一起,用在一個方面并不是實(shí)用的典型案例。
▲Etu首席顧問兼資深技術(shù)總監(jiān)陳昭宇先生
Hadoop作為一款開源的分布式計(jì)算框架,因其具有處理大數(shù)據(jù)存儲和處理的能力,得到眾多互聯(lián)網(wǎng)企業(yè)的支持。但是Etu此次推出的“Hadoop一站式產(chǎn)品”是什么呢?它有哪些功能呢?據(jù)Etu首席顧問兼資深技術(shù)總監(jiān)陳昭宇先生介紹,Etu Appliance之所以被稱為“Appliance”,是因?yàn)檫@是款一體機(jī)產(chǎn)品,既不是硬件,也不是軟件,而是軟硬結(jié)合、高度優(yōu)化的設(shè)備。Etu Appliance的用戶不需要具備很高的Hadoop技術(shù),就能夠快速部署,計(jì)算和存儲一體,十分鐘之內(nèi)能夠部署100個節(jié)點(diǎn)。
Etu Appliance的軟件和硬件都針對與Hadoop技術(shù)進(jìn)行優(yōu)化,能夠使Hadoop性能提升4倍,水平擴(kuò)展高達(dá)2000個節(jié)點(diǎn),內(nèi)嵌有一些容錯的機(jī) 制,包括備份,不用害怕數(shù)據(jù)丟失,也可以容忍硬件故障,同時加上管理運(yùn)維的功能。Etu Appliance的架構(gòu)是:最小的層級有一個主節(jié)點(diǎn),兩個工作節(jié)點(diǎn)。數(shù)據(jù)和任務(wù)都是運(yùn)行在工作節(jié)點(diǎn)上的,主節(jié)點(diǎn)負(fù)責(zé)調(diào)度整個集群的資源分配。當(dāng)數(shù)據(jù)量越 來越大,當(dāng)前架構(gòu)和容量無法處理的時候,只需加一個工作節(jié)點(diǎn),在已經(jīng)運(yùn)行的集群不停機(jī)的情況下可以直接擴(kuò)容,最多可以擴(kuò)容2000臺左右的規(guī)模。
▲Etu Appliance展示
Etu負(fù)責(zé)在整個數(shù)據(jù)處理過程中能夠存儲和計(jì)算、分析和結(jié)構(gòu)化數(shù)據(jù),同時它有很多接口可以跟企業(yè)現(xiàn)有的BI工具,甚至是與最熟悉的Excel等工具 做對接。陳昭宇先生表示Etu這個品牌,實(shí)際上是提供一站式大數(shù)據(jù)解決方案的服務(wù),不是只有產(chǎn)品。目前已經(jīng)有針對電子商務(wù)設(shè)計(jì)的應(yīng)用,即精準(zhǔn)推薦應(yīng)用,以 及顧問服務(wù),協(xié)助企業(yè)探索Big Data的商業(yè)價值。
談到為何采用一體機(jī)的形式時,陳昭宇先生表示,企業(yè)寧愿投入更多的人力成本在應(yīng)用上,較少的投入在IT上??墒请S著數(shù)據(jù)庫的規(guī)模越來越大,需要更專 業(yè)的 IT讓這些機(jī)器運(yùn)轉(zhuǎn),所以不只是軟件的問題,也不只是硬件的問題。Hadoop的應(yīng)用價值顯現(xiàn),但是缺少專業(yè)運(yùn)維能力,因此Etu采用一體機(jī)的形式,把企 業(yè)IT風(fēng)險降到最低。相比同樣采用一體機(jī)形式的Oracle,查禮博士認(rèn)為,Etu有更好的靈活性,是專門定制的產(chǎn)品,而Oracle產(chǎn)品的通用性缺乏靈 活度。
小結(jié)
在與三位的互動中,記者了解到Etu Appliance是國內(nèi)首款Hadoop一站式解決方案,以一種較為靈活的方式將Hadoop技術(shù)進(jìn)行普及。相對于Hadoop的開源,Etu Appliance的成本相對較高,對于不熟悉Hadoop技術(shù)的企業(yè)可以買來部署,以最快的方式享受到Hadoop的便利。Hadoop還有很多功能等待被挖掘,并不是Hadoop本身不具備這些能力,而是缺乏相關(guān)工具。
提問:
我問一下查博士,目前為止我跟蹤了Hadoop一段情況,我個人感覺,Hadoop目前為止最常用的場景有兩個,一個是把它作為一種存儲,相當(dāng)于一 種數(shù)據(jù)庫一種存儲一些非結(jié)構(gòu)化的數(shù)據(jù)。第二個,通過它的處理把數(shù)據(jù)換到數(shù)據(jù)庫里,進(jìn)行商業(yè)智能分析和挖掘,您覺得我的理解對嗎?這是Hadoop的主要用 途嗎?
查禮:
應(yīng)該說沒錯,但是我自己的理解,光它拿做存儲只用了它一半的功能。它的特點(diǎn)是存儲和計(jì)算組合在一起,融合在一起,如果用在一個方面都不是一個比較好的實(shí)用的典型案例。
第二個問題,這么用主要是因?yàn)橛幸恍┕δ埽琀adoop目前還提供不了。并不是說它沒有這個能力,是沒有這方面的工具。如果作為一個公司來講要盡快 能夠產(chǎn)生生產(chǎn)力的話,肯定是有這些東西,把它盡量組合在一起。這是它的價值取向。所以說,像Facebook這種做法,我講的是09年的時候的材料,那時 候還沒有很多BI的工具在Hadoop上面,能夠Work,能夠運(yùn)行。主要是因?yàn)檫@個原因,并不是Hadoop本身不具備這個能力。
提問:
在你看來Hadoop這款軟件或者分布式計(jì)算平臺也好,應(yīng)該怎么用?還有其他用途嗎?可以舉幾個例子嗎?
查禮:
我先簡單講一下,最好的用途,因?yàn)樗旧淼钠鹪词莵碜杂贕oogle,所以我自己認(rèn)為它最適合的就是文本的處理,就是非結(jié)構(gòu)化、半結(jié)構(gòu)化的。文本是最核心的,用別的不是不可以,比如做其他的開發(fā),比如多媒體的處理不是不行,但是說實(shí)在的它并不是很適合,目前看起來。
所以我們現(xiàn)在感覺到類似像現(xiàn)在的這種系統(tǒng),逐漸的向?qū)iT化發(fā)展。就是我這個系統(tǒng)夠大可以從上到下的重新構(gòu)建一個,只做這一件事的對應(yīng)的架構(gòu)比如視頻或者多媒體處理,有可能會出現(xiàn)另外一個Hadoop專門做這個事。
可想而知,Google剛出來的目前只做搜索那一件事,Google有上百萬的服務(wù)器,但是它就只做搜索,就做這一件事。這么多臺機(jī)器完全有可能從 硬件、到軟件、到操作系統(tǒng)都可以達(dá)到的系統(tǒng),這是一個很明顯的趨勢。所以我的觀點(diǎn)就是要干好一件事,如果那個事夠大,可以從上到下自己全部去干。
蔣居裕:
我舉一些例子,以電信行業(yè)來講。亞洲地區(qū)目前臺灣、香港、泰國、印尼、新加坡、Etu都已經(jīng)去過這些地方。用我們東西最多的就是電信運(yùn)營商,電信運(yùn) 營商用我們的時候第一個是做IP溯源的工作,就是找出用戶的真實(shí)身份。另外一種是AP溯源,就是不同的應(yīng)用軟件,他要找出企業(yè)里各種不同德應(yīng)用背后的使用 者的動作?,F(xiàn)在有一些安全監(jiān)控軟件有辦法,在應(yīng)用軟件上做的動作寫日志,我們就是負(fù)責(zé)分析處理日志,以便哪個時間點(diǎn)哪個用戶做了哪些應(yīng)用。這些追溯不是主 要來自于安全上的東西,現(xiàn)在因?yàn)?G移動網(wǎng)絡(luò)、上網(wǎng)的行為很多,所以電信商很想在上面有一些價值的提升,所以他想了解他的哪個用戶在哪個時間點(diǎn)最常上哪個 網(wǎng)站,而且是用手持網(wǎng)站。光把這個搞清楚就有很大的理解,他可以根據(jù)用戶的理解跟廣告商合作。
比如金融行業(yè)保險、銀行,他們有很多文件掃描存起來的圖檔,比如一個保險業(yè),一個客戶簽一張保單,保單要掃描存起來,投保期間跟客戶往來行為,都跟 保單有關(guān)的,這些資老都會掃描存起來,這么多用戶日積月累,這些圖檔的數(shù)量會達(dá)到上億,有一個事件檢索的時候要能很快的找出來。這也是一個典型的案例。
比如制造業(yè),尤其是高科技制造,比如臺基電,他們現(xiàn)在也用Hadoop做這樣的事情,因?yàn)閭鹘y(tǒng)上的生產(chǎn)設(shè)備,在生產(chǎn)過程軸會把運(yùn)作的數(shù)據(jù)往外送,傳 統(tǒng)商會用數(shù)據(jù)去接,當(dāng)Oracle撐不住的時候,現(xiàn)在有了Hadoop技術(shù),他們就把這些資料往Hadoop這邊存儲,處理。他們的目的是提高利用率。
提問:
怎么處理呢?
蔣居裕:
這里有一些儀器設(shè)備的參數(shù),這不是我們自己理解的,他們自己的工程師自己知道。我們負(fù)責(zé)的只是讓Hadoop集群運(yùn)作環(huán)境能夠長時間完整無誤。但是至于它在上面做的自成分析是他自己完成的,這個我們沒有辦法介入。
提問:
這對用戶要求太高了,用戶需要了解Hadoop才行。
查禮:
他們所扮演的角色就是打掉中間的這個溝,你不用太知道Hadoop是怎么樣的原理,用戶直接對接他的業(yè)務(wù)就可以。而且原來做數(shù)據(jù)就是兩種形式,一種 是文件,一種是數(shù)據(jù)庫。Hadoop應(yīng)該是給你增加了一種方式,增加了一種存儲數(shù)據(jù)的手段。因?yàn)樵瓉聿还艽蟠笮⌒〉膽?yīng)用后面都接一個數(shù)據(jù),其實(shí)可以想象你 的需求多么的多樣,為什么只有一種技術(shù)在后臺做處理,為什么會這樣?肯定會有一些技術(shù)的變革,適應(yīng)應(yīng)用的需求。
而且目前主要問題是,原來你的數(shù)據(jù)量都很小,所以可以說就這兩個可以處理了,現(xiàn)在數(shù)據(jù)變的特別大,而且每年增長都是翻番的。數(shù)據(jù)庫這樣的東西原來價 值取向就是做成一個很通用的東西,在上面干什么都行。這樣的一個東西不太可能去應(yīng)對這么大的數(shù)據(jù)量,必然會變成各種各樣的系統(tǒng)。這相當(dāng)于是一個東西要變成 很多種東西,每一種新的東西會應(yīng)對一個更極端的處理。
今天講的一個是Hadoop本身,可能Hadoop上面還有很多組成部分,這些組成部分應(yīng)對的場合是不太一樣的。不可能拿這個東西再去應(yīng)對它并不適合的應(yīng)用,這是不太可能的。每一個“小玩意”對應(yīng)的都是很細(xì)的,很小的。
蔣居裕:
我比較愿意強(qiáng)調(diào),從整個世界Hadoop技術(shù)在每個不同地區(qū)采用的狀況來看,在亞洲地區(qū),我覺得現(xiàn)在還不是說我賣一個標(biāo)準(zhǔn)的Hadoop一體機(jī),企 業(yè)就能夠直接用的時候。需要一個解決方案,而且是一站式的,我把原始數(shù)據(jù)接法弄好了,處理完去哪里也接好,企業(yè)可以直接用。他希望我們幫他建新的應(yīng)用,或 者希望存到原本ERP能夠借鑒的數(shù)據(jù)庫都可以。用戶把需求明確,我們把整合的工作都做完,之后就需要增加節(jié)點(diǎn)就可以了。
提問:
現(xiàn)在有解決方案嗎?剛才就介紹了產(chǎn)品本身?
陳昭宇:
我們剛才介紹只有一個產(chǎn)品,但是Etu品牌并不是賣標(biāo)準(zhǔn)化Hadoop的時候,我們有一個精準(zhǔn)的推薦引擎,它有一個特殊的應(yīng)用,是涉及很多中國很多 電子商務(wù)網(wǎng)站,你們在這樣的網(wǎng)站上購物,點(diǎn)了這個,下面會推薦你大概看到的東西,你買過什么,搜索過什么?這樣的東西我們會它變成一個精準(zhǔn)的推薦引擎。電 子商務(wù)網(wǎng)站可以直接把數(shù)據(jù)導(dǎo)進(jìn)一體進(jìn),他需要設(shè)定幾個參數(shù),比如需要關(guān)注用戶的哪些行為,比如點(diǎn)擊、放入購物車、搜索,有一些動作你可以挑選,挑選好之后 這個引擎可以根據(jù)你每天實(shí)時進(jìn)來的數(shù)據(jù),它會每個小時一直幫你計(jì)算,然后選擇一個推薦的列表,再放到產(chǎn)品的一個數(shù)據(jù)庫,讓前臺購物網(wǎng)站可以直接取得這樣的 推薦清單。這跟一般的傳統(tǒng)差別是,很多電商在做推薦的時候是人為的,他做的推薦可能不是你喜歡的,是他想賣你的,但是可能不是用戶真正需要的。所以他們后 來發(fā)現(xiàn)我也推薦了,首頁也到處都放了,可是就是看不到營收的增長,所以利用Hadoop這樣的技術(shù)可以從客戶真實(shí)的流量行為和點(diǎn)擊行為里面知道客戶在找什 么,從而提高營收率。
中國電子商務(wù)網(wǎng)站使用者隨便上,日志量太可怕,一般數(shù)據(jù)處理不了,Hadoop出現(xiàn)以后,很多互聯(lián)網(wǎng)公司發(fā)現(xiàn)這是一個很好的工具,所以才讓這個工作變得可能。
我們在中國以外的地區(qū),在海外,比如說像IP溯源解決方案我們也已經(jīng)都做了,這個工作首先要知道你上的網(wǎng)官和電話號碼內(nèi)部IP地址的介入,另外內(nèi)部 路由戶有內(nèi)部和外部IP的定制,這兩個關(guān)聯(lián)起來,每一家用戶都是一樣,我們可以做成標(biāo)準(zhǔn)的解決方案,花幾個禮拜把這些數(shù)據(jù)導(dǎo)進(jìn)來,基本可以用了。
提問:
為什么咱們采用一體機(jī)的形式為用戶提供數(shù)據(jù)分析?
陳昭宇:
因?yàn)镠adoop,即使是Oracle數(shù)據(jù)庫也有一體機(jī),企業(yè)存在的目的是為了賺錢,為了盈利。所以他寧愿投入最多的人力成本在一些應(yīng)用上,比較少 的愿意投入在IT上??墒菙?shù)據(jù)庫的規(guī)模越來越大,這需要很專業(yè)的IT讓這些機(jī)器可以跑,所以不只是軟件的問題,也不只是硬件的問題。Hadoop以現(xiàn)在來 講,它的應(yīng)用已經(jīng)有人看到了它的價值,可是缺少運(yùn)維,除非互聯(lián)網(wǎng)公司,其他大部分公司都沒有這個能力。所以開始去公司裝就遇到了問題,我們希望用一體機(jī), 看到剛才的示范,裝的一體機(jī)比裝一個Windows還要簡單。我們想替客戶解決的是,當(dāng)你有一個Hadoop的時候,你的機(jī)器壞了怎么辦?你好不容易培訓(xùn) 了一個IT人員能夠裝它,這個人走了怎么辦?一體機(jī)的概念就是所有的邏輯都在這個盒子里面,那個盒子在你家,人走了,你的生意也可以照樣做,就是把企業(yè) IT風(fēng)險降到最低。你保證機(jī)房有電、有網(wǎng)絡(luò)、有冷氣,工作就可以完成。
提問:
因?yàn)楝F(xiàn)在Oracle也在推一體機(jī),去年就熱推,我們今年剛剛進(jìn)入中國市場,跟Oracle之間肯定有一定的競爭,我覺得技術(shù)上大概差不多,會不會說主要的競爭是在價格方面?
第二個往來想問一下蔣總,咱們的中文名是意圖,在中國市場之前也做了很多調(diào)研,從調(diào)查結(jié)果來看,目前中國市場用戶需求集中體現(xiàn)在哪些方面,我們的產(chǎn)品對于解決用戶的問題優(yōu)勢是什么?
蔣居裕:
關(guān)于跟Oracle的競爭,大家可以比較一下價格到底誰家的便宜,我不太想講這個一體機(jī)單價是多少,為什么?我們還是包括解決方案一起在賣這個一體 機(jī)的。所以除非把解決方案直接拿出來蘋果對蘋果這樣去比,然后軟硬件加起來,一臺下來是多少錢,這可能是你要想得到的答案。但是現(xiàn)在我不知道具體實(shí)施什么 解決方案,所以對這個事情我是沒有一個數(shù)字的。
第二個問題,我們進(jìn)軍中國市場對這個地方的調(diào)研,我們現(xiàn)在還是認(rèn)為有幾個行業(yè)特別想要著重的。一個是電信,因?yàn)樗焐陀写髷?shù)據(jù)。第二個是保險和銀行這種金融服務(wù)業(yè)。再一個是電子商務(wù)。我們有一個精準(zhǔn)推薦這樣的應(yīng)用可以直接體現(xiàn)。
還有一個就是廣泛的線上服務(wù)業(yè),就是互聯(lián)網(wǎng)企業(yè)??墒歉魑蛔⒁?,不期望我們Etu Appliance能夠賣到淘寶,賣到騰訊這樣的大型互聯(lián)網(wǎng)公司,這些不是我們的目標(biāo)客戶?;ヂ?lián)網(wǎng)公司里面還是有分技術(shù)能力一級、二級、三級的公司,我們 面對的是可能技術(shù)能力不是第一級的,但是他比較愿意采用外面的解決方案提供商給他一個幫他省力氣,但是能夠增加商業(yè)價值的這一類型的互聯(lián)網(wǎng)公司。
查禮:
Etu和Oracle定位上,從現(xiàn)在介紹來講可能還是不太一樣。Etu這邊取向性比較強(qiáng),可能Oracle產(chǎn)品也就一些相應(yīng)的方案,但是我覺得相比較而言,Etu這邊的的靈活度好一些,畢竟是為這個專門定制的。Oracle這樣的廠商還是通用的,我有一套東西誰都可以用。
蔣居裕:
如果你從硬件規(guī)格來看,也許是我搞錯了,我從讀到的Oracle一體機(jī)資料來看,它是Unix機(jī)器,不是我們一直強(qiáng)調(diào)的X86。
提問:
一體機(jī)這個就不關(guān)鍵了。但是它里面的Hadoop,是和誰合作的?你們的?
陳昭宇:
也是,同一個。
蔣居裕:
但是我要再一次強(qiáng)調(diào),我所知道的Oracle一體機(jī)是“大家伙”?;镜钠鹛鴥r格本身應(yīng)該還是有一定的規(guī)模的。
提問:
它起點(diǎn)會比較高?
蔣居裕:
我們主節(jié)點(diǎn)加上工作節(jié)點(diǎn)就是這兩個。
提問:
我們目標(biāo)就是中小企業(yè)?
蔣居裕:
我們目標(biāo)客戶群是大企業(yè),有大數(shù)據(jù)。但是一開始不想直接做大規(guī)模的部署,只想做一個POC看看有沒有效果,真的有了再擴(kuò)充。我們一次擴(kuò)容都是一個U一個U的可以擴(kuò)容。
提問:
咱們精誠云中心是什么?能簡單介紹一下嗎?
蔣居裕:
精誠也許對于國內(nèi)媒體來講不太熟悉,但是在臺灣它是一個老招牌的IT服務(wù)公司,是臺灣最大的IT服務(wù)供應(yīng),也是一個上市公司。它在臺灣、中國、香 港、泰國、新加坡、印尼,都有分公司或辦公室。所以整個亞洲地區(qū)大概有3000名員工。因?yàn)樵朴?jì)算潮流之下,IT服務(wù)公司一定要想辦法在這個方面有一些琢 磨。所以我們在去年成立了云中心,這個云中心是直接我匯報集團(tuán)老總負(fù)責(zé)。這個云中心有一些自己的解決方案,也有傳統(tǒng)企業(yè)會用的跟云、和云計(jì)算有關(guān)的產(chǎn)品。 我們不能只是銷售代理產(chǎn)品,還是應(yīng)該開發(fā)一些云端的開發(fā)和服務(wù),所以才有這個公司出來,是整個集團(tuán)跟云相關(guān)的策劃單位。
有了這個中心,我們會考慮,我們既有代理的東西,我們還可以開發(fā)一些服務(wù)方案,除了這些我們還可以做什么?根據(jù)我從前的工作經(jīng)歷,Big Data這塊變成了我跟老總討論的很重要的議題。因?yàn)槲覀兙\代理splunk三年的時間,從這邊我們了解到半結(jié)構(gòu)化數(shù)據(jù)看起來有一定的市場需求??墒乾F(xiàn) 在數(shù)據(jù)大到處理起來價格很高,在大數(shù)據(jù)題目里我們是不是可以把Hadoop這個主流技術(shù)放進(jìn)來考慮?所以才有了這個團(tuán)隊(duì),有了Etu這個品牌。我們?nèi)ツ? 月決定要做Big Data這個新的事業(yè),可是今年3月我們就把品牌新的產(chǎn)品上市了,為什么可以這么快?是因?yàn)槲覀冋襾淼膱F(tuán)隊(duì)成員也很多比Hadoop以前就處理大數(shù)據(jù)的經(jīng) 驗(yàn)。這樣我們才有一個很棒的自動部署的機(jī)器,這些都是核心團(tuán)員對Hadoop和Big Data事業(yè)有熱情,所以我們才有可能在很快的時間里把這個產(chǎn)品做出來。其余的已經(jīng)規(guī)劃到明年了。
提問:
數(shù)據(jù)中心有什么標(biāo)準(zhǔn),還是所有的都可以?
陳昭宇:
這個一體機(jī)不需要跟現(xiàn)在的存儲系統(tǒng)做關(guān)聯(lián),因?yàn)樗鞘褂肏adoop技術(shù)。比如說標(biāo)準(zhǔn)是一臺工作節(jié)點(diǎn)是8G,4G放的關(guān)系型數(shù)據(jù),如果4G滿了可以再加一臺,還不夠可以再加一臺,就是這樣擴(kuò)展的。
查禮:
加的不光是處理,還有計(jì)算。
蔣居裕:
是存儲和計(jì)算在同一個實(shí)際的節(jié)點(diǎn)上。
我們其實(shí)可以把數(shù)據(jù)分成三種“溫別”,一般的企業(yè)應(yīng)用ERP、財(cái)會管理的這些應(yīng)用都跟信息交易有關(guān),我們歸類成在線的數(shù)據(jù),這個處理一般的就是Hot Data,因?yàn)樗S時在線。另外一塊是Big Data,就是實(shí)質(zhì)性更高的Hadoop解決上,可以用Big Data解決,如果有一個比如處理量很大,一天解決完就可以,傳統(tǒng)的沒有辦法解決,我們一般叫做“溫Data”,它可以處理三個月、半年或者兩年的數(shù)據(jù),都可以在Hadoop里處理,如果超過兩年的不在Hadoop處理的,可以放到傳統(tǒng)的存儲機(jī)制里去,它只存不計(jì)算。
提問:
咱們從云計(jì)算做大的數(shù)據(jù),現(xiàn)在從大數(shù)據(jù)做Hadoop,我想了解咱們的產(chǎn)品跟云計(jì)算有什么聯(lián)系?
陳昭宇:
云計(jì)算是一個很廣泛的議題,包含很多。因?yàn)楝F(xiàn)在以運(yùn)營商和服務(wù)商來講,提供云的服務(wù)。比如說微博,現(xiàn)在有這么多的用戶,整個后臺系統(tǒng),包括分前端 WEB服務(wù)器,這個很多網(wǎng)站可能會使用虛擬化的方式,很快的可以擴(kuò)展出去,這是云計(jì)算的一環(huán)。這些WEB服務(wù)器應(yīng)用給客戶層,會留下大量的日志,你注冊了 微博他會推薦你新的朋友,這些就是要用Hadoop這樣的技術(shù),把大量的信息采集過來,要放到一個夠大的存儲,夠行的有運(yùn)算能力的地方,然后才可以進(jìn)行離 線分析,結(jié)果出來了才可以回到前端應(yīng)用。Hadoop是大的云計(jì)算議題里需要特別關(guān)注的,包括數(shù)據(jù)處理、數(shù)據(jù)挖掘和資料分析。
蔣居裕:
我們已經(jīng)知道Hadoop技術(shù)起源是來自Google發(fā)表的論文,后來開源,雅虎贊助這個開源的項(xiàng)目。我們必須先定義Google、雅 虎,F(xiàn)acebook這些都是云服務(wù)公司,而且是超級的云服務(wù)公司,Hadoop是來自超級云服務(wù)公司,他們?yōu)榱俗尶蛻趔w驗(yàn)做的更好。大家不會喜歡在雅虎 上面打一個關(guān)健詞做搜索,結(jié)果出來的很慢,他們就是利用Hadoop這樣的技術(shù)讓我們覺得用戶體驗(yàn)不會覺得慢。
回頭,這些行為資料,我們舉例了做關(guān)聯(lián)推薦云服務(wù)的服務(wù),既然這些是來自云服務(wù)的使用行為,轉(zhuǎn)化是告訴你看這個東西以外還可以看什么,所以技術(shù)來自于“云”,要服務(wù)的也是“云”。
提問:
剛才說了加數(shù)據(jù)可以加一臺機(jī)器,如果利用云計(jì)算可以不用在一體機(jī)里加設(shè)備了。
查禮:
比如我是私有云的用戶,你加不加機(jī)器我不知道,我只知道我處理數(shù)據(jù)量的性能提高了。從這個角度來說,技術(shù)上是可以包含這個特性的。
蔣居裕:
因?yàn)檫@個技術(shù)是來自于這些云公司,這些云公司除了處理數(shù)據(jù)之外,像我們知道Google所謂做SASA服務(wù),不管是社區(qū)、郵件、地圖或者是文件,這 些服務(wù)都是給一般的用戶去用。他們都是用X86商用機(jī)器,這么大的數(shù)據(jù)量可能需要100萬臺,每天都會有硬盤死掉,重點(diǎn)是硬盤死掉用戶數(shù)據(jù)會不會丟失?服 務(wù)會不會停下來?不會,因?yàn)樗麄冘浖夹g(shù)很厲害,他們企圖用軟件技術(shù)做到分布,讓硬件出錯的時候數(shù)據(jù)不會丟失,機(jī)器不會停下來,很快的替換,很快的回來。
查禮:
之前容錯是用硬件的方式保證不出錯,但是實(shí)際上比如說背板壞了,再修改,數(shù)據(jù)也全丟了。包括我也聽說過,IBM給銀行做的項(xiàng)目也出現(xiàn)過這樣的問題?,F(xiàn)在技術(shù)發(fā)展一個是Google是用純軟件的方法保證,雖然看起來浪費(fèi)了存一些副本,但實(shí)際上這種方式更好。
陳昭宇:
我前幾天看到一個統(tǒng)計(jì),2009年Hadoop運(yùn)行10個集群,總共2萬臺服務(wù)器,上面共有32.9億個區(qū)塊,其中僅丟失650個區(qū)塊,這650個中僅有19個是完全無法修復(fù)的,所以從數(shù)據(jù)量計(jì)算,它的可靠度達(dá)到99.99999%,這是非常非常高的可信賴度了。
查禮:
它是現(xiàn)在用的方式非常便宜,現(xiàn)在一般互聯(lián)網(wǎng)的方式是兩U計(jì)價服務(wù)器配三塊盤,整個一臺機(jī)器價錢也就是幾萬塊,它用很低的成本能達(dá)到很高的可靠性。這是它的技術(shù)創(chuàng)新的關(guān)鍵。如果說都是錢堆出來的,這就不稀奇了。
蔣居裕:
所以企業(yè)要越來越熟悉這個世界上有另外一種方式在架構(gòu)IT。雖然他們現(xiàn)在不熟悉,我們會慢慢讓他們熟悉。
提問:
因?yàn)镠adoop架構(gòu)現(xiàn)在是主重節(jié)點(diǎn)的架構(gòu),萬一主節(jié)點(diǎn)壞了怎么辦?
陳昭宇:
這是Hadoop目前為止我可以講它唯一的弱點(diǎn),為什么一開始架構(gòu)會這樣設(shè)計(jì)?如果一開始設(shè)計(jì)這個東西的時候Hadoop不是提供在線處理,通常是 處理離線數(shù)據(jù)。所以主節(jié)點(diǎn)上是不保存任何資料,所有資料都放在工作節(jié)點(diǎn)上,主節(jié)點(diǎn)崩潰不表示資料不見了,只要主節(jié)點(diǎn)重新恢復(fù)就可以繼續(xù)應(yīng)用。因?yàn)橹鞴?jié)點(diǎn)不 是做在線分析的,如果主節(jié)點(diǎn)失效一兩個小時他們認(rèn)為可以接受,但是結(jié)構(gòu)比較簡單,所以第一版就開始這樣做。
但是后來狀況慢慢改變,很多人拿它來做運(yùn)營或者在線服務(wù),現(xiàn)在Etu可以再加一臺主節(jié)點(diǎn),它不是動態(tài)負(fù)載均衡,可以兩個主節(jié)點(diǎn)并行。應(yīng)該今年下半年官方版本會有主節(jié)點(diǎn)高可用性的設(shè)計(jì)。我們比Google早一個季度可以提供這樣的應(yīng)用給客戶。
提問:
剛才談到了數(shù)據(jù)量的問題,但是事實(shí)上數(shù)據(jù)量本身不是數(shù)據(jù)庫,對Oracle數(shù)據(jù)庫來講數(shù)據(jù)量不是問題,用大數(shù)據(jù)主要原因我認(rèn)為是數(shù)據(jù)類型太復(fù)雜?
蔣居裕:
我剛才說了三個“V”的PPT,是可以畫三個橢圓的。
陳昭宇:
舉一個簡單的例子,很多電信業(yè)都有非常大的數(shù)據(jù)倉庫,數(shù)據(jù)量不是問題,但是問題是這些數(shù)據(jù)庫的數(shù)據(jù)是重合的,一定是從前端設(shè)備采集進(jìn)來的,經(jīng)過一些 結(jié)構(gòu)化的過程,比如通過一些腳本處理這些數(shù)據(jù)。很多電信公司可能有不同的電信應(yīng)用用的不同的數(shù)據(jù)公司,這些必須要統(tǒng)一,就是極大的問題。有一個問題是數(shù)據(jù) 量及時進(jìn)來,每天錄一次庫,所以報表一天才能看一次,今天看昨天的數(shù)據(jù)。所以如果從數(shù)據(jù)庫觀點(diǎn)來看不是數(shù)據(jù)庫的問題,可是從端到端來看就是有一些問題需要 解決。非結(jié)構(gòu)化或者海量數(shù)據(jù)其實(shí)Hadoop就是一個很適合的工具。
查禮:
數(shù)據(jù)量也是問題。比如GPS-LBS系統(tǒng),GPS系統(tǒng)一秒鐘更新一個數(shù)據(jù),每個人手里都有一個設(shè)備,假設(shè)我有一個應(yīng)用,實(shí)時跟蹤任何一個人的行為, 這個數(shù)據(jù)量非常大。我們做過一個實(shí)驗(yàn),My-SQL數(shù)據(jù)庫,撐到1000萬以上,慢的不得了了。如果GPS數(shù)據(jù)容易達(dá)到這個數(shù)據(jù)量的,每秒鐘發(fā)一個數(shù)據(jù) 的。
另外一個場景,現(xiàn)在數(shù)據(jù)計(jì)算,一個是數(shù)據(jù)大,另外一個要快??觳皇钦f處理速度快,是整個數(shù)據(jù)生產(chǎn)過程,比如說從一天縮短到秒級,這個事我們做不了, 用數(shù)據(jù)庫絕對不可能。因?yàn)槲医裉斓腜PT時間關(guān)系少了一張,就是ETL過程,就是數(shù)據(jù)差距到入庫可以查到時間是一天到兩天,現(xiàn)在改成10秒鐘了。這些都是 新的技術(shù),必須要做一些技術(shù)上的變革才有可能做到時間間隔從天到秒的變革。
蔣居裕:
大數(shù)據(jù)應(yīng)用非常強(qiáng)調(diào)的應(yīng)用場景就是提高客戶滿意度。很多電信運(yùn)營商把傳統(tǒng)的打電話行為數(shù)據(jù)放到數(shù)據(jù)倉庫里,可是因?yàn)檫@個過程越來越多的數(shù)據(jù),客戶有 一個問題,比如現(xiàn)在為什么電話打不通,或者短信發(fā)不出去,打到客服中心,客服中心要一層一層的找客戶的問題出現(xiàn)在哪兒。如果回到處理時間一天才有辦法更新 一次,那客戶會定在那里了,客服會說你的原始還沒有處理,我不知道哪出了事情。有時候企業(yè)想象Hadoop能帶給他什么價值的時候,不用想什么應(yīng)用,光是 把做的環(huán)節(jié)有所提高就是很有價值的。
陳昭宇:
比如電信傳統(tǒng)的帳單計(jì)算過程,比如有一些CDR數(shù)據(jù)進(jìn)來,現(xiàn)在是先算出每一個人的秒數(shù),總通話的秒數(shù),配合什么時段、什么費(fèi)率。現(xiàn)在臺灣最大的運(yùn)營 商,一個用戶分六批算帳,一個月,每算一個要花6到8個小時,我們做的方式是把從CDR這邊進(jìn)來,用Hadoop計(jì)算秒數(shù),我們用了大概是12個節(jié) 點(diǎn),150G的數(shù)據(jù)用了(1.5小時)。
查禮:
現(xiàn)在那么多應(yīng)用,能把他的用戶體驗(yàn)從天提高到小時,已經(jīng)有一大把的事情要做了。比如移動他們自己就有這樣的例子,以前做省一級的經(jīng)分,原來是小型 機(jī),還不能夠用全量數(shù)據(jù),只能采樣數(shù)據(jù),現(xiàn)在不用小型機(jī),用一個PC服務(wù)器,成本比那個小型機(jī)少,用全量數(shù)據(jù),比那個時間還少,這都是Hadoop能夠做 到的。
蔣居裕:
我們針對中國市場是更能凸顯我們的價值了。
回過頭來我們現(xiàn)在定義的用戶方案和用戶對象,他們能不能很快的有知覺,我們跟他講的事情,對他來講,什么時候他可以想要開始做了。
提問:
現(xiàn)在在國內(nèi)有案例嗎?
蔣居裕:
不能說太多。