專訪Teradata高管:如何智能化地處理大數(shù)據(jù)
TechTarget中國 發(fā)表于:13年07月23日 17:41 [轉(zhuǎn)載] TT中國
寶立明(Stephen Brobst)是數(shù)據(jù)倉庫公司Teradata的首席技術(shù)官,而Martin Willcox是公司在歐洲、中東和非洲地區(qū)的平臺與解決方案銷售主管。他們近期接受了TechTarget的采訪,并介紹了他們對于2013年大數(shù)據(jù)技術(shù)行業(yè)的看法。第一部分是Martin Willcox的采訪實錄:
SAP認(rèn)為它的內(nèi)存數(shù)據(jù)庫設(shè)備HANA是引領(lǐng)變革的技術(shù)。您如何看待內(nèi)存技術(shù)?
Willcox:人們對這個行業(yè)有兩種看法:SAP認(rèn)為所有數(shù)據(jù)都應(yīng)該保存在內(nèi)存里;其他人認(rèn)為內(nèi)存的單位成本無法適應(yīng)數(shù)據(jù)容量的增長速度,所以將所有數(shù)據(jù)存儲在內(nèi)存里的做法在經(jīng)濟(jì)上是不可行的。按照后一種觀點,您需要在一個經(jīng)典結(jié)構(gòu)上組合不同的存儲機(jī)制。
Teradata也認(rèn)為“不能將所有數(shù)據(jù)存儲在內(nèi)存中”,但是我們與其他供應(yīng)商的區(qū)別是,我們使用一個多元(熱數(shù)據(jù)和冷數(shù)據(jù))模型來自動管理數(shù)據(jù)在層次中的移動。這就是我們所謂的Teradata智能內(nèi)存技術(shù)。
您是如何以智能方式實現(xiàn)‘大數(shù)據(jù)’處理的?
Willcox:有些供應(yīng)商錯誤地認(rèn)為大數(shù)據(jù)是一個同質(zhì)問題。而我們用一個二對二模型將它劃分為兩個坐標(biāo):x軸是數(shù)據(jù)結(jié)構(gòu)——左邊是簡單結(jié)構(gòu),右邊是多重結(jié)構(gòu);在y軸上,下面是基于集合的分析,上面是非傳統(tǒng)分析,如路徑或圖分析。
后者天然是可迭代的。例如,對銷售數(shù)據(jù)執(zhí)行綜合分析:‘與香蕉一起賣得最好的是哪些產(chǎn)品?’就是一個經(jīng)典問題。如果我想問:‘與香蕉和牛奶一起賣得最好的又是哪些產(chǎn)品?’,要在傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)上分析這個問題,代價很高的。
在圖的處理上,我們對于節(jié)點關(guān)系的處理方式也有利于基于集合的分析——社交網(wǎng)絡(luò)的個體就是一個例子,它們可用于確定影響力。
所以,對于新型數(shù)據(jù)執(zhí)行新型分析,才能夠給大數(shù)據(jù)帶來意義。否則,它就只是一個術(shù)語而已。
在過去一年里,您在客戶數(shù)據(jù)庫中發(fā)現(xiàn)了哪些與大數(shù)據(jù)有關(guān)的趨勢?
Willcox:雖然大數(shù)據(jù)庫技術(shù)(如AsterData或Hadoop)在全球范圍內(nèi)蔓延開來,但是大多數(shù)客戶仍在觀望中。
我們的一些電信客戶正在執(zhí)行一些有意思的測試,希望理解網(wǎng)絡(luò)數(shù)據(jù)與客戶數(shù)據(jù)。移動數(shù)據(jù)則是另一個需要更好理解的方面,而AsterData、Hadoop和SQL-H都被應(yīng)用于這個領(lǐng)域。其中,SQL-H支持使用行業(yè)標(biāo)準(zhǔn)SQL對Hadoop分布式文件系統(tǒng)(HDFS)執(zhí)行分析。
眾所周知,在技術(shù)領(lǐng)域,很少人能夠了解自己狹窄專業(yè)領(lǐng)域之外的技術(shù)。整個行業(yè)并沒有很好地向人們說明過去所解決的問題。您會發(fā)現(xiàn)有許多人用新技術(shù)重新實現(xiàn)原有的解決方案。有一些Hadoop支持者應(yīng)該對此承擔(dān)一定的責(zé)任。他們中有一些(并非全部)并不太理解結(jié)構(gòu)化數(shù)據(jù)的管理方式。這里有很多重復(fù)工作。
當(dāng)我向一些新出現(xiàn)的大數(shù)據(jù)技術(shù)供應(yīng)商詢問傳統(tǒng)數(shù)據(jù)倉庫的角色時,他們經(jīng)常會說:‘它們?nèi)匀挥袃r值’。
Willcox:是的,名褒實貶!它仍然是基礎(chǔ)。有一些新技術(shù)很吸引人,但是有一些支持者認(rèn)為它們就像是基于文件且與特殊應(yīng)用程序相關(guān)的數(shù)據(jù)處理方式,有點像上世紀(jì)60~70年代的事情。
這就是我們實現(xiàn)的方式。它會產(chǎn)生很大的數(shù)據(jù)庫冗余性和不一致性。它不適合那些有復(fù)雜數(shù)據(jù)的大型組織,而且這正是我們發(fā)明關(guān)系數(shù)據(jù)庫管理系統(tǒng)的原因所在。我們發(fā)現(xiàn),保證數(shù)據(jù)質(zhì)量和一致性就是將服務(wù)抽象到數(shù)據(jù)庫管理系統(tǒng)層次上,幫助負(fù)責(zé)實現(xiàn)數(shù)據(jù)完整性的所有開發(fā)者解決問題。
在過去30年里,組織方式并沒有發(fā)生變化。那么數(shù)據(jù)質(zhì)量、數(shù)據(jù)一致性、元數(shù)據(jù)管理、體系呢?如果您只是做一個科學(xué)項目,那么可能不會有問題,但是如果您離開學(xué)術(shù)領(lǐng)域,并且需要向監(jiān)管部門匯報,那么您的數(shù)據(jù)和數(shù)據(jù)質(zhì)量就變得非常重要。
有人認(rèn)為,這些新公司將取代二對二結(jié)構(gòu)中左下角部分沿用了30年的工程方法,我認(rèn)為這是不可能的。但是,它們在多結(jié)構(gòu)數(shù)據(jù)和非傳統(tǒng)分析上有一定的作用。
沒有一種技術(shù)能夠覆蓋所有4個方面——這就是為什么我們要提出一種統(tǒng)一的數(shù)據(jù)架構(gòu)。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.