Teradata天睿公司大中華區(qū)解決方案總監(jiān) 姜欣
近日,Teradata天睿公司大中華區(qū)解決方案總監(jiān)姜欣向記者展示了最新的UDA全景圖,從而為了解Teradata和把握企業(yè)大數(shù)據(jù)分析提供了參考。
印象中,Teradata天睿公司先后發(fā)布過不同版本的統(tǒng)一數(shù)據(jù)架構(gòu),顯然,最新的UDA最全面地詮釋了企業(yè)大數(shù)據(jù)分析支撐能力的要素。
當(dāng)前,企業(yè)尤其是大中型企業(yè),要真正建立大數(shù)據(jù)分析能力,前提是支撐能力的建設(shè)。何為支撐能力?這包括數(shù)據(jù)采集、儲(chǔ)存、計(jì)算到分析等各個(gè)方面。毋庸置疑,這個(gè)支撐能力建設(shè)的過程,沒有任何一家企業(yè)能一蹴而就。
UDA的價(jià)值,一方面表達(dá)了該領(lǐng)域主流供應(yīng)商對(duì)于企業(yè)大數(shù)據(jù)分析支撐能力的專業(yè)視角,這個(gè)視角也沒有局限于自身的解決方案;另一方面,UDA所隱含的方法論,在目前大數(shù)據(jù)應(yīng)用探索階段具有普適性,從而具有參考價(jià)值。
既是Teradata統(tǒng)一數(shù)據(jù)架構(gòu),也是大數(shù)據(jù)分析路線圖
上圖是Teradata最新的統(tǒng)一數(shù)據(jù)架構(gòu)的全景圖的板塊劃分,它從數(shù)據(jù)架構(gòu)層面,從技術(shù)層面來支撐起“感知型企業(yè)”的五大能力。
所謂感知型企業(yè),它是Teradata在2015年年底總結(jié)出來的一個(gè)概念。意指新型企業(yè)如果想要具有競(jìng)爭(zhēng)力,必須具備五大核心能力:打造敏捷彈性IT平臺(tái);看重行為數(shù)據(jù)分析而不僅僅是交易數(shù)據(jù);強(qiáng)調(diào)不同部門之間的協(xié)同思維;數(shù)據(jù)分析結(jié)果呈現(xiàn)的自助與交互;建立算法模型庫提升決策速度與能力。
姜欣提示,統(tǒng)一數(shù)據(jù)架構(gòu)UDA有幾個(gè)特征。
第一個(gè)特征,UDA不完全是Teradata自己的產(chǎn)品,也就是兼容并包,包含了很多開源的內(nèi)容,比如Spark,甚至是SaaS和SPSS等數(shù)據(jù)挖掘工具,以及數(shù)據(jù)湖,數(shù)據(jù)湖可以基于Hadoop,還可以基于一些低成本的技術(shù)。
第二個(gè)特征,不同的系統(tǒng)和應(yīng)用,整合進(jìn)來不能變成煙囪,還要把它們互相聯(lián)系起來、打通起來,數(shù)據(jù)要互相交互,所以系統(tǒng)之間有很多連接器。這個(gè)連接器,即指Teradata QueryGird。
第三,整合起來之后,還要進(jìn)行很好的管理,比如監(jiān)控、配置,但從運(yùn)維的角度,需要一個(gè)統(tǒng)一監(jiān)控的界面。這個(gè)統(tǒng)一監(jiān)控的界面怎么實(shí)現(xiàn),就是借助基于Web的系統(tǒng)管理解決方案Teradata Viewpoint。
可以看到,UDA涵蓋了六大能力:采集能力、存儲(chǔ)和計(jì)算能力、分析能力、服務(wù)開發(fā)及展現(xiàn)能力、統(tǒng)一管控能力、云化部署能力。
姜欣表示:“只要是企業(yè)想搭建一個(gè)大數(shù)據(jù)平臺(tái),一定是這個(gè)圖的子集,企業(yè)可以選擇適應(yīng)自己的一部分內(nèi)容來建設(shè),或者按照一個(gè)路線圖分步建設(shè)都可以?!?/p>
前文提到,Teradata在不同的發(fā)展階段,先后提出過不同的UDA,那么,最新公布的UDA,新在何處?
這就涉及到UDA中最下面的“云化部署”板塊。
實(shí)現(xiàn)異構(gòu)環(huán)境的無差異化部署
在很多企業(yè),數(shù)據(jù)的產(chǎn)生、采集、存儲(chǔ)和分析不會(huì)只采用一種管理和部署模式,原因在于數(shù)據(jù)、應(yīng)用、工作負(fù)載的彈性運(yùn)營(yíng)與管理需求。正因?yàn)槿绱耍瑪?shù)據(jù)分析解決方案商需要以正確的姿勢(shì)跟上這一需求甚至是走在用戶前面。
如前所述,UDA提供了企業(yè)大數(shù)據(jù)分析能力的六種能力思路:采集、存儲(chǔ)和計(jì)算、分析、服務(wù)開發(fā)及展現(xiàn)、統(tǒng)一管控和云化部署。多年來,Teradata 一直在前五個(gè)部分陸續(xù)部署,已形成相應(yīng)的解決方案,新的Teradata UDA的主要變化,就體現(xiàn)在“云化部署”上,這就是Teradata Everywhere、Teradata無邊界分析等內(nèi)容。
那么,Teradata Everywhere、Teradata無邊界分析又是什么?
先看看Teradata Everywhere,姜欣表示“這是一種部署技術(shù)”?;蛘?,我們把它理解成部署方式可能更合理?
第一,專業(yè)平臺(tái)部署,比如客戶進(jìn)行本地化部署在Teradata 負(fù)載專用平臺(tái)系統(tǒng)一體機(jī)上;
第二,私有云部署,客戶基于X86或者虛擬化的一個(gè)技術(shù),上面再運(yùn)行Teradata Database;
第三,托管云,基于Teradata自己的數(shù)據(jù)中心,提供SaaS或者PaaS服務(wù),用戶按使用付費(fèi);
第四,公有云,支持AWS,今年Q4也可以支持Azure,客戶可以通過公有云直接安裝和部署Teradata Database;
第五,最重要的,這四種部署方式全部都是統(tǒng)一的,能力完全一樣,沒有任何剪裁或者選項(xiàng)。當(dāng)然,這四種部署,它們之間是可以互相打通的。
此前,有資料提出Teradata Everywhere是一種數(shù)據(jù)庫,顯然是一種錯(cuò)誤的認(rèn)識(shí)。
混合云架構(gòu)的無差異化部署,關(guān)鍵的技術(shù)有兩點(diǎn):一是MAPS架構(gòu)本身帶來的彈性便于用戶擴(kuò)展或縮小Database規(guī)模;二是Teradata數(shù)據(jù)庫適配性優(yōu)化器(Adaptive Optimizer),按部署環(huán)境自動(dòng)調(diào)整,從而對(duì)前端的查詢與應(yīng)用提供支持。
這或許是就是“Everywhere”的由來吧,無所不在。
筆者認(rèn)為,實(shí)現(xiàn)異構(gòu)環(huán)境的無差異化彈性部署,對(duì)Teradata來說是戰(zhàn)略性的。但是,對(duì)于用戶而言,即使在混合云環(huán)境下部署或配置完成相應(yīng)的Database,如果要實(shí)現(xiàn)無差異化應(yīng)用,還缺一步。這就是上文提到的Teradata無邊界分析。
實(shí)現(xiàn)統(tǒng)一入口和負(fù)載均衡
無邊界分析,與Teradata Everywhere其實(shí)是同一個(gè)概念下的不同視角。Teradata Everywhere從技術(shù)部署方式上使企業(yè)具備分析的能力;無邊界分析表達(dá)的是怎么用、有哪些典型場(chǎng)景、跨平臺(tái)應(yīng)用到底怎么用,等等。
資料顯示,無邊界分析主要通過兩個(gè)軟件,分別是Teradata QueryGird和Teradata Unity來實(shí)現(xiàn)這種無縫的體驗(yàn)。
如果要簡(jiǎn)單理解,QueryGrid就是一個(gè)統(tǒng)一的查詢?nèi)肟?,?shí)現(xiàn)了不同平臺(tái)環(huán)境的透明化;從體驗(yàn)上講,沒有平臺(tái)差異;從實(shí)現(xiàn)角度,可以說是一個(gè)連接器。具體而言,QueryGrid基于不同平臺(tái),不管是Hadoop、Aster、Teradata或者是其他廠商的平臺(tái),或者是客戶自己寫的SQL,提交命令之后,QueryGrid會(huì)自動(dòng)選擇合適的平臺(tái)去運(yùn)行,而且還可以跨平臺(tái)把數(shù)據(jù)結(jié)果進(jìn)行連接、融合和展現(xiàn)。
而Teradata Unity則幫助不同平臺(tái)實(shí)現(xiàn)工作負(fù)載的自動(dòng)化分配,Unity有四大組件,負(fù)載均衡只是功能之一。但是,Unity是針對(duì)Teradata系統(tǒng)進(jìn)行管理、數(shù)據(jù)加載、數(shù)據(jù)同步、負(fù)載均衡。
針對(duì)無邊界分析,Teradata提煉了三個(gè)主要的應(yīng)用場(chǎng)景,分別是云爆發(fā)、云數(shù)據(jù)實(shí)驗(yàn)室和云容災(zāi)。
首先是云爆發(fā)。比如客戶會(huì)在自己機(jī)房里部署一套本地的一體化設(shè)備,存儲(chǔ)最重要的數(shù)據(jù)、最關(guān)鍵的數(shù)據(jù),比如客戶隱私數(shù)據(jù)等。但是對(duì)那些體量大、價(jià)值密度低的日志、某些非結(jié)構(gòu)化數(shù)據(jù),本地存儲(chǔ)就不經(jīng)濟(jì),所以會(huì)考慮放在云端。這種情況下,兩個(gè)系統(tǒng)要經(jīng)常連接,因此需要把兩個(gè)平臺(tái)看成一個(gè)整體來使用,中間通過Unity的一個(gè)組件Data Mover進(jìn)行數(shù)據(jù)同步。
第二是云數(shù)據(jù)實(shí)驗(yàn)室??蛻魰?huì)把一些歷史數(shù)據(jù)或者一些實(shí)驗(yàn)數(shù)據(jù)放在云端,最重要的數(shù)據(jù)放在機(jī)房。這樣云端就可以按運(yùn)行一些很復(fù)雜的應(yīng)用。但當(dāng)云端需要使用本地機(jī)房數(shù)據(jù)的時(shí)候,就可以通過QueryGrid進(jìn)行連接。
第三是云容災(zāi)。如果客戶需要在云平臺(tái)上進(jìn)行機(jī)房數(shù)據(jù)的備份也就是搭建容災(zāi)系統(tǒng),這就經(jīng)常需要用到數(shù)據(jù)同步或者數(shù)據(jù)備份的功能,這也是通過Data Mover來完成。
以上,就是Teradata統(tǒng)一數(shù)據(jù)架構(gòu)UDA的主要變化。
Teradata的五級(jí)轉(zhuǎn)型
根據(jù)資料,Teradata統(tǒng)一數(shù)據(jù)架構(gòu)UDA包括異常豐富的軟件與硬件組合,如前文所述,其中大部分是在最近5年完成的布局。UDA的軟件包括Viewpoint、Connectors以及Vital Infrastructure;硬件包括數(shù)據(jù)庫專用平臺(tái)和Aster高級(jí)分析產(chǎn)品組合,以及Portfolio for Hadoop組件。
從市場(chǎng)角度看,Teradata將業(yè)務(wù)劃分為美洲區(qū)和國(guó)際集團(tuán)(除美洲區(qū)之外其他區(qū)域),而亞太市場(chǎng)隸屬國(guó)際集團(tuán),其中亞太市場(chǎng)是連續(xù)增長(zhǎng)的,并且,中國(guó)市場(chǎng)據(jù)稱是除了美國(guó)之外的第二大市場(chǎng)。
今年9月,Teradata正式推出敏捷型分析業(yè)務(wù)咨詢服務(wù)(Rapid Analytic Consulting Engagement,RACE),該服務(wù)是一套敏捷、技術(shù)中立的方法論。該服務(wù)的核心稱為“Teradata業(yè)務(wù)價(jià)值框架”。
歷史上,Teradata一直以一體機(jī)為主,“而現(xiàn)在同時(shí)在發(fā)力云和咨詢服務(wù),可以期待業(yè)績(jī)將會(huì)有一個(gè)大的提升。但在同時(shí),數(shù)據(jù)庫只會(huì)加強(qiáng),不會(huì)削弱?!苯勒f。
以上的這個(gè)變化,從Teradata整體上看,是一個(gè)“五級(jí)轉(zhuǎn)型”。
第一,堅(jiān)定地走一體化數(shù)據(jù)分析平臺(tái)的專業(yè)化道路。
第二,向云轉(zhuǎn)型,以及在云生態(tài)下提供咨詢和開發(fā)部署的服務(wù)。
第三,打造分析生態(tài)系統(tǒng),包括統(tǒng)一數(shù)據(jù)架構(gòu)、Unity、QueryGrid,還有Listener數(shù)據(jù)采集工具,以及AppCenter、開源等等。所有配套的這些軟件,整合起來變成一個(gè)大數(shù)據(jù)生態(tài)。
第四,技術(shù)中立做咨詢服務(wù),比如大數(shù)據(jù)戰(zhàn)略規(guī)劃技術(shù),包括RACE,快速迭代、敏捷開發(fā)、數(shù)據(jù)建模,不局限于Teradata平臺(tái)。
第五,客戶至上。
大數(shù)據(jù)分析的挑戰(zhàn)
當(dāng)前,數(shù)據(jù)分析混合云部署對(duì)于很多行業(yè)的關(guān)鍵業(yè)務(wù)或創(chuàng)新業(yè)務(wù)有著戰(zhàn)略性的意義,而這種部署是存在不同的挑戰(zhàn)的。作為數(shù)據(jù)分析領(lǐng)域的老牌廠商,Teradata怎么看這種挑戰(zhàn)呢?
姜欣表示,這種挑戰(zhàn)有幾個(gè)層面:
首先是架構(gòu)如何設(shè)計(jì)。架構(gòu)要考慮技術(shù)架構(gòu)、應(yīng)用架構(gòu)和數(shù)據(jù)架構(gòu)。技術(shù)架構(gòu)牽涉到到底用什么技術(shù)實(shí)現(xiàn)多平臺(tái)的數(shù)據(jù)分析的支撐,是私有云還是混合云,混合
云用哪家公有云,等等。
其次是應(yīng)用??蛻粢紤]哪些應(yīng)用是在數(shù)據(jù)中心部署,哪些應(yīng)用要在云端部署,應(yīng)用負(fù)載怎么平衡。
第三要考慮數(shù)據(jù)架構(gòu)。數(shù)據(jù)到底怎么分布?比如數(shù)據(jù)中心機(jī)房里分布什么數(shù)據(jù),在云端分布什么數(shù)據(jù),它們之間如何進(jìn)行同步,數(shù)據(jù)質(zhì)量如何保證一致性。
第四要考慮管理方面的規(guī)劃。比如牽扯到人員、崗位、流程的變更安排。
第五是一個(gè)比較大的規(guī)劃,業(yè)務(wù)戰(zhàn)略目標(biāo)層面。比如企業(yè)未來發(fā)展到底是不是要?jiǎng)?chuàng)建一些新的模式。從一些大數(shù)據(jù)分析已經(jīng)走過好多年的客戶案例來看,先有一個(gè)業(yè)務(wù)戰(zhàn)略規(guī)劃是非常重要的。