▲EMC數(shù)據(jù)計算產(chǎn)品部大中華區(qū)總經(jīng)理劉偉光先生

據(jù)劉偉光介紹,他于2011年11月加入EMC公司,負(fù)責(zé)數(shù)據(jù)計算事業(yè)部大中國區(qū)整體的運營。此前曾在Oracle工作將近八年的時間,從系統(tǒng)架構(gòu)師開始起步,后來做到大中國區(qū)企業(yè)架構(gòu)團(tuán)隊的高級經(jīng)理,2010年成為Exadata大中國區(qū)產(chǎn)品事業(yè)部的總監(jiān)。劉偉光所在的EMC數(shù)據(jù)計算產(chǎn)品部門前身是EMC收購的Greenplum公司。Greenplum是分布式數(shù)據(jù)庫的全球領(lǐng)導(dǎo)者,EMC看重它未來的商業(yè)價值,尤其在大數(shù)據(jù)市場的巨大潛力,因此收購Greenplum公司。在全球成立獨立運作的事業(yè)部,即數(shù)據(jù)計算事業(yè)部。劉偉光作為這個事業(yè)部大中國區(qū)的經(jīng)理,主要負(fù)責(zé)這個產(chǎn)品的在中國整體的業(yè)務(wù)推廣,包括銷售、售前、服務(wù)、品牌推廣等一系列工作。

數(shù)據(jù)庫發(fā)展的三個里程碑

談到數(shù)據(jù)庫應(yīng)用的發(fā)展進(jìn)程,劉偉光表示,回溯中國大型企業(yè)IT建設(shè)經(jīng)歷過的十五年,大致有三個里程碑:第一個里程碑是面向交易型的關(guān)系型數(shù)據(jù)庫,90年代末到2000年初是中國IT系統(tǒng)建設(shè)發(fā)展最快、建設(shè)力度最廣、投資最大的幾年。中國IT建設(shè)從一個相對落后的階段,走向一個新的發(fā)展歷程,越來越多的國外企業(yè)進(jìn)入中國。中國IT系統(tǒng)建設(shè),尤其在電信、銀行和政府領(lǐng)域經(jīng)歷了一場大規(guī)模的變革。傳統(tǒng)數(shù)據(jù)庫一般來講都是OLTP,即面向事務(wù)處理和交易的數(shù)據(jù)庫,通常是支持系統(tǒng)的基本業(yè)務(wù)功能操作和企業(yè)最基本的信息化需求,電信行業(yè)建設(shè)計費系統(tǒng)、CRM系統(tǒng)、客服系統(tǒng),銀行行業(yè)建設(shè)前臺核心系統(tǒng),其他行業(yè)建設(shè)基本的客戶管理、營銷系統(tǒng)。這種系統(tǒng)的主要功能是存儲數(shù)據(jù),面向客戶提供一些服務(wù),就如同解決人們生活的溫飽問題,這種數(shù)據(jù)庫就是支持聯(lián)機(jī)事務(wù)處理型的數(shù)據(jù)庫。

第二個里程碑是數(shù)據(jù)倉庫,也可以比喻成IT建設(shè)解決溫飽問題之后更高層次的需求。在這個階段,企業(yè)的IT運營達(dá)到一定的水平,積累了很多經(jīng)驗。企業(yè)發(fā)現(xiàn)數(shù)據(jù)是非常重要的資產(chǎn),但是并沒有將常年積累的數(shù)據(jù)變成指導(dǎo)企業(yè)運營的技術(shù)基礎(chǔ)。在這個階段,很多大型企業(yè)開始建設(shè)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的前身是分析報表系統(tǒng),即把數(shù)據(jù)從數(shù)據(jù)庫中抽取出來形成統(tǒng)計報表,但這個報表通常不會對企業(yè)運營和決策分析做指導(dǎo)。到了數(shù)據(jù)倉庫的階段,數(shù)據(jù)不僅形成報表,還要根據(jù)各種主題、企業(yè)內(nèi)部需求進(jìn)行加工、分析,進(jìn)而形成決策支撐的數(shù)據(jù)來源。經(jīng)過存儲數(shù)據(jù)、挖掘數(shù)據(jù)、加工數(shù)據(jù)、展現(xiàn)數(shù)據(jù)的過程,數(shù)據(jù)產(chǎn)生的結(jié)果成為企業(yè)下一步運營和制定市場策略最重要的技術(shù)輸入。

第三個里程碑是大數(shù)據(jù)。最近幾年云計算如火如荼,云計算和大數(shù)據(jù)在很多層面都是相輔相成的關(guān)系。在這個階段,隨著新技術(shù)的沖擊和技術(shù)手段的推陳出新,以及互聯(lián)網(wǎng)技術(shù)對IT行業(yè)發(fā)展的影響日益顯現(xiàn)。云計算的出現(xiàn)對數(shù)據(jù)倉庫產(chǎn)生巨大的挑戰(zhàn),如何處理傳統(tǒng)關(guān)系型數(shù)據(jù)庫不能處理的數(shù)據(jù),是新技術(shù)面臨的最大挑戰(zhàn)。海量數(shù)據(jù)與大數(shù)據(jù)是不同概念,海量數(shù)據(jù)通常指的是在按照數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計處理之后,存儲到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫當(dāng)中的數(shù)據(jù)集合。大數(shù)據(jù)在數(shù)據(jù)容量上也比海量數(shù)據(jù)更大。另外,大數(shù)據(jù)的數(shù)據(jù)來源非常豐富,數(shù)據(jù)類型更為繁多,其中包括來自互聯(lián)網(wǎng)和傳統(tǒng)企業(yè)的高度信息化后產(chǎn)生的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),以及不斷產(chǎn)生的歷史歸檔數(shù)據(jù),這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)不是現(xiàn)在的技術(shù)能夠快速加載的,而且也不是傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫所能存儲管理和分析的。

大數(shù)據(jù)蘊(yùn)藏商業(yè)價值

現(xiàn)在很多公司都在談?wù)摯髷?shù)據(jù),專家對大數(shù)據(jù)都有著各自的看法,劉偉光認(rèn)為大數(shù)據(jù)主要包括四個特征:第一,大數(shù)據(jù)的數(shù)據(jù)量非常大;第二,大數(shù)據(jù)有非常復(fù)雜的數(shù)據(jù)來源;第三,大數(shù)據(jù)有非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),并不是傳統(tǒng)關(guān)系型數(shù)據(jù)庫能夠處理的數(shù)據(jù)集合;第四,大數(shù)據(jù)的實效比很低,即在單位時間內(nèi)處理數(shù)據(jù)的價值是相對較低,但如果能達(dá)到快速處理和分析單位時間內(nèi)的大數(shù)據(jù),就將產(chǎn)生無法預(yù)期的商業(yè)價值。

盡管大數(shù)據(jù)的實效比很低,往往需要大量計算能力,但是大數(shù)據(jù)蘊(yùn)藏的商業(yè)價值不可小覷,劉偉光非??春么髷?shù)據(jù)的市場發(fā)展前景。首先從商業(yè)價值角度分析,在金融業(yè)領(lǐng)域,通過挖掘和分析客戶的各種交易信息,可以通過決策分析而最大化的提高企業(yè)銷售利潤。從正面角度看,這種方式可以找到高價值的客戶,將相應(yīng)的產(chǎn)品進(jìn)行準(zhǔn)確的營銷;從反面角度看,還可以進(jìn)行反欺詐分析,降低企業(yè)的運營風(fēng)險。

在電信領(lǐng)域,最常見的大數(shù)據(jù)應(yīng)用就是通過對用戶信令數(shù)據(jù)的分析,為漫游用戶發(fā)送歡迎短信。隨著電信行業(yè)大數(shù)據(jù)分析的不斷深入,分析用戶行為數(shù)據(jù)進(jìn)行精確營銷將逐步成為運營商新興業(yè)務(wù)類型。這種精確營銷體現(xiàn)出大數(shù)據(jù)的一個新特征:低價值轉(zhuǎn)換率,就是要在很短的時間內(nèi)分析處理大量數(shù)據(jù),為每個人提供有價值的增值服務(wù),挖掘潛在商機(jī)。除了傳統(tǒng)的電信和金融行業(yè),科研機(jī)構(gòu)在大數(shù)據(jù)領(lǐng)域的應(yīng)用同樣具有廣闊前景,科研機(jī)構(gòu)把塵封的數(shù)據(jù)拿出來利用新的技術(shù)進(jìn)行挖掘分析,解決科研工作中的難題。

EMC Greenplum的大數(shù)據(jù)戰(zhàn)略

目前,EMC已經(jīng)不再只是傳統(tǒng)的硬件廠商,而是通過數(shù)據(jù)存儲,幫助企業(yè)有效的管理內(nèi)部的數(shù)據(jù)資產(chǎn),創(chuàng)造更高的商業(yè)價值。據(jù)劉偉光介紹,EMC一直倡導(dǎo)“數(shù)據(jù)改變商業(yè)模式”的理念,把存儲的數(shù)據(jù)變成一種商業(yè)價值,這就是EMC的大數(shù)據(jù)戰(zhàn)略。具體來說包括三個層次:第一,EMC能夠提供快捷的、高可用的、能夠橫向擴(kuò)展的大數(shù)據(jù)存儲架構(gòu);第二,EMC不僅能夠處理傳統(tǒng)數(shù)據(jù)庫處理的結(jié)構(gòu)化數(shù)據(jù),還能支持半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的存儲管理;第三,數(shù)據(jù)分析。Greenplum承擔(dān)最上層的面向大數(shù)據(jù)的高性能分析。

EMC Greenplum統(tǒng)一分析平臺(UAP)是EMC Greenplum大數(shù)據(jù)戰(zhàn)略中至關(guān)重要的一環(huán)。EMC Greenplum統(tǒng)一分析平臺結(jié)合Greenplum Database 、Greenplum Hadoop、Greenplum DCA、Greenplum Chrous為企業(yè)構(gòu)建高效處理結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析平臺。并且客戶可以以此平臺為基礎(chǔ)利用Greenplum行業(yè)和數(shù)學(xué)統(tǒng)計方面的專家,充分挖掘自身數(shù)據(jù)價值,實現(xiàn)數(shù)據(jù)資產(chǎn)從成本中心到利潤中心的轉(zhuǎn)變,以數(shù)據(jù)驅(qū)動業(yè)務(wù)。其中,Greenplum Chrous在行業(yè)中處于領(lǐng)先地位,它的操作使用習(xí)慣非常類似Facebook、開心網(wǎng)的社交模式。通過Greenplum Chrous可以建立數(shù)據(jù)沙箱,將一定的數(shù)據(jù)變成一個集合,用戶都可以對這個集合利用工具進(jìn)行處理和分析,共享數(shù)據(jù)庫的分析結(jié)果。讓這個數(shù)據(jù)分析和挖掘,不再是專業(yè)人士做的事情,并且增加趣味性,各種角色可以進(jìn)行交互,形成一個數(shù)據(jù)社交圈。

EMC Greenplum統(tǒng)一分析平臺還包括一個重要的方面,就是“數(shù)據(jù)科學(xué)家計劃”,它將人的智慧與技術(shù)產(chǎn)品相結(jié)合。數(shù)據(jù)科學(xué)家不僅需要具有數(shù)據(jù)本身的知識,還要求有一定的數(shù)學(xué)建模能力,同時要懂得企業(yè)內(nèi)部的運轉(zhuǎn)流程。所以數(shù)據(jù)科學(xué)家是能夠靈活利用各種工具去抓取數(shù)據(jù),形成數(shù)據(jù)集合、數(shù)據(jù)沙箱,進(jìn)行快速的實時分析和展現(xiàn)的一種角色,幫助企業(yè)將數(shù)據(jù)變成商業(yè)價值。

真正的數(shù)據(jù)庫云平臺

EMC Greenplum也被稱為數(shù)據(jù)庫云平臺。談到Greenplum與云計算的關(guān)系,劉偉光表示,云計算的技術(shù)架構(gòu)中很重要的一個特征就是“分布式計算”,而Greenplum是一個100%分布式計算的數(shù)據(jù)產(chǎn)品。相比傳統(tǒng)的企業(yè)應(yīng)用環(huán)境,今天的分布式計算將所有應(yīng)用都部署在集群上,這個集群完全采用相對廉價的X86服務(wù)器,搭建一個可以無限擴(kuò)展的平臺。分布式計算只需增加相應(yīng)的節(jié)點,就能滿足業(yè)務(wù)能力增長的需求;當(dāng)任何一個節(jié)點宕掉的時候,其他節(jié)點自動接管業(yè)務(wù)請求。在云計算的實踐當(dāng)中,在數(shù)據(jù)庫層面實現(xiàn)分布式平臺是一個非常重要的一個步驟,它將帶給企業(yè)的技術(shù)變革的重大創(chuàng)新,提供更強(qiáng)有力和可預(yù)見的技術(shù)基礎(chǔ)平臺,EMC Greenplum就是這樣一個真正的數(shù)據(jù)庫云平臺。

EMC Greenplum還采用了很多開源技術(shù),其本身就是基于PostgreSQL開發(fā)的,隨著大數(shù)據(jù)的發(fā)展,Hadoop也成為Greenplum的工具之一。Greenplum Hadoop與開源Hadoop有著很大的區(qū)別,主要體現(xiàn)在兩個方面:其一,Greenplum Hadoop對企業(yè)的高可用性和安全性有很強(qiáng)的保障機(jī)制;其二,傳統(tǒng)企業(yè)希望購買商用Hadoop產(chǎn)品,以延續(xù)使用傳統(tǒng)技術(shù)的習(xí)慣。即使是擁有強(qiáng)大研發(fā)團(tuán)隊的大型互聯(lián)網(wǎng)企業(yè),也希望在某些關(guān)鍵性交易系統(tǒng)中采用商業(yè)Hadoop。另外,Greenplum Database與Greenplum Hadoop兩個產(chǎn)品的結(jié)合度是全世界領(lǐng)先的,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)能夠在這兩個產(chǎn)品之間動態(tài)的切入。EMC的理念是用數(shù)據(jù)庫技術(shù)對Hadoop進(jìn)行操作,讓用戶感知不到數(shù)據(jù)是存儲在數(shù)據(jù)庫還是Hadoop中。外部表是解決這一問題的關(guān)鍵技術(shù),與其他廠商采用中間轉(zhuǎn)換工具的方式不同,外部表可以把Hadoop當(dāng)成Greenplum數(shù)據(jù)庫中的一個表進(jìn)行操作。

小結(jié)

EMC傳統(tǒng)存儲硬件廠商的身份已深入人心,兩年前收購Greenplum的舉動被看作EMC完整大數(shù)據(jù)戰(zhàn)略的重要里程碑。隨著EMC與Greenplum的進(jìn)一步融合,Greenplum在數(shù)據(jù)分析處理上的優(yōu)勢也會日益顯現(xiàn),軟硬結(jié)合的大數(shù)據(jù)戰(zhàn)略將幫助EMC完成由硬件廠商向整體解決方案提供商的轉(zhuǎn)型。由此可見,大數(shù)據(jù)改變的不只是商業(yè)模式。

分享到

wangguang

相關(guān)推薦