Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華
中國企業(yè)的迷失
大數(shù)據(jù)似乎已成為中國企業(yè)超越同行或者打翻身仗的秘密武器。湘鄂情毅然決然剝離經(jīng)營已久的餐飲業(yè)務(wù),試圖在陌生的大數(shù)據(jù)領(lǐng)域東山再起;美的空調(diào)揚言要斥資150億元,基于云、大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)打造智能家居業(yè)務(wù);王健林宣布豪賭50億元,指望借助大數(shù)據(jù)將萬達電商打造成新的帝國;康師傅也希望耗費巨資構(gòu)建大數(shù)據(jù)平臺實現(xiàn)集團食品業(yè)務(wù)的升級……
這一串名單還可以列得更長,但喧囂的背后,卻是大數(shù)據(jù)應(yīng)用的落后。除了互聯(lián)網(wǎng)公司出于自身特質(zhì)具有立足于數(shù)據(jù)價值運營的思維和技術(shù),更多的中國傳統(tǒng)企業(yè)在數(shù)據(jù)的運用方面可謂一塌糊涂,國外的《經(jīng)濟學(xué)人》聲稱:中國的企業(yè)目前遠沒有實現(xiàn)網(wǎng)絡(luò)化和數(shù)字化,更沒有參與云計算和大數(shù)據(jù)分析等趨勢。
客觀地說,傳統(tǒng)企業(yè)經(jīng)過多年的信息化摸索,確實有了一些數(shù)據(jù)的積累,部分企業(yè)也已經(jīng)開始基于數(shù)據(jù)展開營銷工作,但數(shù)據(jù)開放程度低、數(shù)據(jù)共享難、數(shù)據(jù)處理技術(shù)基礎(chǔ)薄弱、大數(shù)據(jù)人才稀缺等,也是不爭的事實,這些制約了國內(nèi)大數(shù)據(jù)的發(fā)展。據(jù)中央財經(jīng)大學(xué)中國經(jīng)濟管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長;我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年達到11.2億元,更是處在初級階段的初階階段。
Teradata的行業(yè)應(yīng)用
作為一家全球大數(shù)據(jù)分析和數(shù)據(jù)倉庫解決方案廠商,Teradata已經(jīng)贏得了超過2,500家客戶的信任,在多個行業(yè)表現(xiàn)卓越,廣為人知的沃爾瑪“啤酒加尿布”的案例,背后其實就是得益于Teradata分析工具的驅(qū)動。Teradata希望將其國外的實踐經(jīng)驗引入中國,幫助中國企業(yè)更好地利用大數(shù)據(jù)創(chuàng)新業(yè)務(wù),同時實現(xiàn)自身的價值??子钊A介紹了Teradata在國外電商、醫(yī)療、高科技制造、零售供應(yīng)鏈等不同行業(yè)的應(yīng)用案例。
在電商領(lǐng)域,Teradata基于收集的電商客戶行為的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),包括客戶的瀏覽、搜索和購買記錄等,以及產(chǎn)品的關(guān)聯(lián)分析,在客戶最喜歡瀏覽的頁面做產(chǎn)品推薦,以實現(xiàn)更好的交易量。這樣的分析過程,傳統(tǒng)的分析方法很難實現(xiàn)。孔宇華表示,其中的一些路徑分析、關(guān)聯(lián)分析,需要用到新的分析方法來實現(xiàn),Teradata Aster平臺里已經(jīng)集成了這個分析方法和展現(xiàn)的工具。
在醫(yī)療行業(yè),Teradata通過數(shù)據(jù)分析幫助美國醫(yī)院實現(xiàn)更好的治療效果。針對同一疾病的不同客戶,按照他們的住院時間、接受的治療、他們所在的地區(qū)等不同參數(shù)進行細致的分區(qū),去驗證最有效的藥物和療程。這樣的分析,讓醫(yī)生可以有效、更好地調(diào)整自己的治療方法,讓不同地區(qū)的醫(yī)院在醫(yī)療方式、醫(yī)保的方法、護理的流程等方面相互借鑒,從而讓醫(yī)療系統(tǒng)更加有效地運作。
在高科技制造業(yè),如高精度芯片的制造,可用比受到不同步驟的不同參數(shù)變動的影響,如氣溫、濕度、不同的物理元素等。Teradata做了一個理想的方案,通過一些統(tǒng)計方式,用根源識別方式的自動化,針對整個流程進行可擴展性大數(shù)據(jù)的分析。通過一些程序自動化,把大量的時間序列進行數(shù)據(jù)簡化,最終簡化到一個數(shù)字代碼,然后進行對比。通過這樣的分析,可以把大量的芯片制造的數(shù)據(jù)放在Teradata的平臺里,去做監(jiān)控、優(yōu)化,然后找出關(guān)鍵的參數(shù),反饋給生產(chǎn)部門去做監(jiān)控。
針對零售行業(yè)供應(yīng)鏈,Teradata通過對全局供應(yīng)鏈數(shù)據(jù)及不同門店客戶消費記錄的整合與分析,配合氣候、天氣等相關(guān)數(shù)據(jù),去預(yù)測每一個商店的產(chǎn)品需求,據(jù)此調(diào)度整個供應(yīng)鏈,以減輕庫存和盈利的壓力,不必要的促銷活動因此得到減少。
Teradata的技術(shù)特色
如前所述,這些應(yīng)用場景都是在一個平臺上實現(xiàn)的,這就要求Teradata不斷改進其技術(shù),以適應(yīng)不同客戶的更多需求。事實上,Teradata正在通過加強自主研發(fā)、吸納開源技術(shù)、并購、在離客戶最近的地方設(shè)立研發(fā)中心和吸引互聯(lián)網(wǎng)人才等方式,加強大數(shù)據(jù)平臺和服務(wù)的實力。
孔宇華介紹,Teradata Aster探索平臺可以匯集不同的數(shù)據(jù)源、結(jié)構(gòu)化的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù),并匯集很多不同的分析方法,如SQL分析方法、MapReduce、關(guān)聯(lián)分析、路徑分析、文字文本的分析,全部結(jié)合在一起,讓數(shù)據(jù)的價值更加容易把控,并且能夠很快地完成數(shù)據(jù)分析的流程,從數(shù)據(jù)獲取、數(shù)據(jù)準備、分析、大數(shù)據(jù)展現(xiàn),都很快地做迭代。
Teradata Aster大數(shù)據(jù)探索平臺
能夠做到這一點,得益于Aster與Hadoop不同的架構(gòu)。Hadoop在HDFS 文件系統(tǒng)之上用MapReduce/YARN做運算引擎,決定了它的局限。而Aster獨特的底層數(shù)據(jù)庫存儲,上面有不同的運算引擎,包括SQL、MapReduce、文本、關(guān)聯(lián)分析、圖分析等,再上面是SQL接口,這使得Aster成為一個分析的“瑞士軍刀”,能以一個SQL界面支持不同的分析工作。孔宇華強調(diào),真正分析的時候,50%-60%會用到SQL,這就提高了編程速度和運算速度。要知道,傳統(tǒng)企業(yè)不可能像互聯(lián)網(wǎng)企業(yè)那樣,有很多既懂編程又懂?dāng)?shù)據(jù)的人。
Teradata Aster新增的一些特性,主要包括一個SNAP Framework框架,Aster File Store文件存儲系統(tǒng)和Teradata Aster R。其中,SNAP可以理解成存儲的存儲系統(tǒng)和分析系統(tǒng)之間的一個框架,上層提供一個統(tǒng)一的SQL接口,用戶可以統(tǒng)一用SQL去訪問。下層除了以前數(shù)據(jù)庫的行存儲之外,加上列存儲,以及一些文件存儲的方式。這就要說Aster File Store,它支持根據(jù)不同文件、不同數(shù)據(jù)的模板的需求而分配,需要分析的時候還可以直接從Hadoop里面去拿數(shù)據(jù)。
最后是Aster和R的整合,增強了Aster的應(yīng)用方式,也規(guī)避了越來越流行的R的一些缺陷。R原本是一個單機的算法,Aster把R的運算引擎壓進去,然后把數(shù)據(jù)整合也壓到Aster平臺里面,把它變成了并行式演算算法。因為Aster本來有一個機制,能把一些R里面的需要并行的算法自動并行。
此外,Teradata最近還收購了兩家公司——Revelytix和Hadapt,旨在在Hadoop上面去更好地做整個大數(shù)據(jù)架構(gòu)。Revelytix有很好的源數(shù)據(jù)管理的技術(shù),在Hadoop上面做R分析的時候,會做很多數(shù)據(jù)的抽樣,這會產(chǎn)生很多版本的數(shù)據(jù),一個數(shù)據(jù)抽樣可能只能做一樣的分析,每次的抽樣都要管理,而Revelytix能夠減少數(shù)據(jù)的重復(fù)。Hadapt則是在Hadoop上面建立一個數(shù)據(jù)倉庫,利用他們的技術(shù)來完善可以Aster上面的一些功能,包括和Hadoop的一些結(jié)合。
事實上,Teradata的統(tǒng)一數(shù)據(jù)架構(gòu),就是會用到Hadoop最實用、最成熟的一些模塊,去做大數(shù)據(jù)的處理平臺,做數(shù)據(jù)的一些轉(zhuǎn)換和收集,通過一個叫做QueryGrid的工具,可以從Teradata或者Aster里面訪問其他的平臺,從而讓客戶可以更好地利用Hadoop和其他的大數(shù)據(jù)平臺更好地整合起來,打破數(shù)據(jù)孤島,做到更好的數(shù)據(jù)共享??子钊A還透露,隨著Storm和Spark開始成熟,實現(xiàn)一些流分析的應(yīng)用,目前Teradata也在做相關(guān)的研究和應(yīng)用。
Teradata的實施心得
CIO們都知道,好的技術(shù)也需要好的實施路徑,才能幫助企業(yè)更好、更快地實現(xiàn)創(chuàng)收。然而企業(yè)的具體業(yè)務(wù)千差萬別,通用的路徑并不存在。“在大數(shù)據(jù)要做創(chuàng)新的時候,很難說我這個題目肯定出一個結(jié)果,創(chuàng)新是一個試錯的過程。”孔宇華指出,大數(shù)據(jù)的分布,極少數(shù)有大價值,大部分有一定的價值,還有一部分沒有價值。
不斷試錯找到大價值,這必然要涉及到系統(tǒng)的搭建、時間的耗費和平臺的投資等。Teradata的出發(fā)點,就是通過平臺、咨詢團隊的經(jīng)驗,從一開始的大數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù),通過淘金的方式把金子淘出來,做一些分析,做數(shù)據(jù)分享。Teradata想要做到的,是在Aster平臺和Hadoop平臺上面,實現(xiàn)“大數(shù)據(jù)從小做起”這個概念,怎么用小量的投資、用很短的時間,去呈現(xiàn)數(shù)據(jù)里面的價值。
除了平臺之外,Teradata認為,大數(shù)據(jù)項目也需要適當(dāng)?shù)娜藛T技能和流程制度。技能其實也和平臺有關(guān),例如Teradata Aster,客戶如果本來有一些SQL或者R的分析人員,可以給他們建立一個比較小的Aster平臺,然后用Hadoop做一些比較簡單的數(shù)據(jù)收集、數(shù)據(jù)存儲的工作,大部分的數(shù)據(jù)挖掘、數(shù)據(jù)價值的發(fā)現(xiàn),在他們比較熟悉的平臺里面去做,不需要另行引進新的專業(yè)人才。
從整個流程方面,Teradata建議,要從業(yè)務(wù)部門開始,定一個哪怕比較模糊的目標,而不是脫離業(yè)務(wù)去搭一個平臺??子钊A表示,有了目標,雖然不知道中間的路怎么走,但能夠大概知道所需要的數(shù)據(jù),這就可以從分析層面不斷試錯,從簡單的數(shù)據(jù)分析、到路徑分析、關(guān)聯(lián)分析,將成果展示給業(yè)務(wù)部門,一般不可能一蹴而就,但把框架搭建起來以后,就可以很快地去調(diào)整每一個部分的內(nèi)容,從而更快地把一個大數(shù)據(jù)項目做好。