Hadoop
放眼看去,已經(jīng)存在一些直接供程序員和數(shù)據(jù)研究人員使用的早期的工具,如目前已經(jīng)創(chuàng)建了Tableau和R等分析工具的Hadoop連接器。但還有另一個使大數(shù)據(jù)更強(qiáng)大的方式:即減少創(chuàng)建實(shí)驗(yàn)的成本。
一般有兩個使大數(shù)據(jù)更強(qiáng)大的方式:
1、更好的編程語言支持。當(dāng)我們考慮數(shù)據(jù)而不是業(yè)務(wù)邏輯時,如程序中的主要實(shí)體,我們必須創(chuàng)建或重新發(fā)現(xiàn)讓我們專注于數(shù)據(jù)的程序。換句話說就是:盡量寫較短的程序,使之可以清晰地看到我們對數(shù)據(jù)做了什么。而這些抽象本身又會用來為非程序員創(chuàng)建更好的工具。
2、需要對交互更好的支持。如果Hadoop有缺點(diǎn),那一定是其促進(jìn)的面向批處理計(jì)算的特性。但數(shù)據(jù)科學(xué)的這種靈活特性有利于那些需要更多交互的工具。
大數(shù)據(jù)預(yù)言二:流數(shù)據(jù)處理
Hadoop在許多情況下會用到面向批量數(shù)據(jù)的處理,特別是數(shù)據(jù)報(bào)告頻率不需要精確到分鐘時。但批處理并不總是適合,特別是如移動和web客戶端這樣的在線服務(wù)需求,或者如財(cái)務(wù)和廣告這樣需要實(shí)時處理的需求。
在接下來的幾年中,我們將會看到用來處理流或接近實(shí)時的分析與處理的可擴(kuò)展框架與平臺。同樣Hadoop已被證實(shí)可處理大型web應(yīng)用程序,這些平臺會通過大型移動定位、社交需求來推動。
對于一些應(yīng)用程序,網(wǎng)絡(luò)世界不可能存在足夠的空間來存儲由你的事務(wù)產(chǎn)生的每一條數(shù)據(jù):某種程度上你需要決定將一些數(shù)據(jù)忽略。擁有流計(jì)算能力可以使你無需通過map/reduce的存儲-計(jì)算循環(huán)來對數(shù)據(jù)進(jìn)行分析或忽略哪些數(shù)據(jù)。
關(guān)于實(shí)時框架,新出現(xiàn)的競爭者包括Twitter的Storm及Yahoo的S4。
大數(shù)據(jù)預(yù)言三:數(shù)據(jù)市場的崛起
將你的數(shù)據(jù)與其他數(shù)據(jù)集結(jié)合時會變得更有說服力。例如,將天氣情況加入到客戶數(shù)據(jù)中,并發(fā)現(xiàn)在客戶的采購模式中是否存在與天氣相關(guān)的模式。如何獲取這些數(shù)據(jù)集可能讓人頭疼,特別是如果想要在IT部門之外并且需要一定的準(zhǔn)確度時。數(shù)據(jù)市場的價值在于提供一個關(guān)于該數(shù)據(jù)的目錄,并提供一個簡化的、規(guī)范化的方法。微軟將Azure marketplace集成到分析工具中,這一趨勢也預(yù)示著未來訪問數(shù)據(jù)的便利性。
大數(shù)據(jù)預(yù)言四:數(shù)據(jù)工作流與工具的發(fā)展
隨著各數(shù)據(jù)團(tuán)隊(duì)得到各公司的認(rèn)可,我們將期待這些團(tuán)隊(duì)的角色與過程越來越正規(guī)化。一個數(shù)據(jù)團(tuán)隊(duì)要想成功就需要將其整合到公司的業(yè)務(wù)中,而不是僅僅是做一個分析團(tuán)隊(duì)。
軟件開發(fā)者已經(jīng)有豐富的基礎(chǔ)知識,包括wiki與源碼控制,會與工具一起將他們的處理過程與需求公開給企業(yè)。而整合的數(shù)據(jù)團(tuán)隊(duì)會需要他們自己的定制版本來進(jìn)行有效的協(xié)作。例如EMC Greenplum的Chorus,就為數(shù)據(jù)科學(xué)提供了一個社交軟件平臺。另外,使用這些工具會促使組織內(nèi)部對數(shù)據(jù)進(jìn)行處理。
EMC Greenplum的Chorus
數(shù)據(jù)團(tuán)隊(duì)將開始著手發(fā)展可重復(fù)過程,希望其能更快捷。他們做的工作與The Guardian 和New York Times這樣新聞組織的報(bào)紙數(shù)據(jù)團(tuán)隊(duì)的開創(chuàng)性工作相比看起來做得會差一些:因此這些團(tuán)隊(duì)想要將數(shù)據(jù)在短時間內(nèi)變?yōu)樽罱K產(chǎn)品,就必須與記者進(jìn)行緊密的合作。
大數(shù)據(jù)預(yù)言五:增強(qiáng)可視化的需求
可視化會在工作流程中完成兩項(xiàng)工作:說明與研究。商務(wù)人士可能只需要將可視化作為最終結(jié)果即可,而數(shù)據(jù)研究人員則會將可視化作為一種解決問題的途徑,并用其來發(fā)現(xiàn)數(shù)據(jù)集的新特性。
如果一個以數(shù)據(jù)驅(qū)動的組織要培養(yǎng)所有員工對數(shù)據(jù)的感覺,那么在沒有直接編程經(jīng)驗(yàn)或統(tǒng)計(jì)學(xué)技能的員工之中,可視化對培養(yǎng)其數(shù)據(jù)處理能力起著重要的作用。