例如,Gartner對大數(shù)據(jù)的描述不僅在于數(shù)據(jù)量,還包括其類型,速度和復(fù)雜性。分析師馬克·拜爾(Mark Beyer)在去年秋天的有關(guān)極端信息管理研討會發(fā)言,表示公司需要建立現(xiàn)代化的信息管理系統(tǒng),該系統(tǒng)要包含合乎邏輯的數(shù)據(jù)倉庫。

相比將“大數(shù)據(jù)”作為一個事物來談?wù)?,考慮組織如何處理數(shù)據(jù)的各種變化可能更具現(xiàn)實意義。

當然,某些情況下,也有真正的大量數(shù)據(jù)。大型強子對撞機每年產(chǎn)生15 PB的數(shù)據(jù)(15,000 TB級),而即將到來的球面射電望遠鏡項目預(yù)計每天將產(chǎn)生數(shù)EB(一百萬TB)的數(shù)據(jù)。但是,這些項目是比較少見的,更多與高性能計算相關(guān),而非典型的商業(yè)案例。

相比之下,最典型的組織正在處理的數(shù)據(jù)庫,規(guī)模顯著較小,但仍然可以測量為TB和PB級。(這仍然是一個大量數(shù)據(jù)。)這些數(shù)據(jù)可以來自各種來源:跟蹤人們在一個網(wǎng)站或多個網(wǎng)站上做什么,分析社會網(wǎng)絡(luò),或由傳感器產(chǎn)生的數(shù)據(jù)處理。

在談有關(guān)數(shù)據(jù)造成的結(jié)果在最近的改變之前,回顧一下到現(xiàn)在為止這個領(lǐng)域的一些大的趨勢,可能會有所幫助。

數(shù)據(jù)庫——數(shù)據(jù)的集合的歷史,幾乎與數(shù)字式計算機一樣長,特別地,像IBM的大型機系統(tǒng)上運行的IMS產(chǎn)品。早期的數(shù)據(jù)庫是分層的系統(tǒng),但模型改變并成為標準仍然是關(guān)系模型。這些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇題為《大型共享數(shù)據(jù)銀行數(shù)據(jù)的關(guān)系模型》的論文。

今天,每一個大型組織仍在使用的一個或多個這些產(chǎn)品,來存儲他們的交易數(shù)據(jù),如Oracle數(shù)據(jù)庫,IBM的DB2,微軟SQL Server和開源的MySQL(現(xiàn)在仍然是Oracle擁有)。在關(guān)系數(shù)據(jù)庫之上,已建成各種應(yīng)用程序,包括庫存,會計,企業(yè)資源計劃(ERP),客戶關(guān)系管理(CRM),人力資源應(yīng)用,以及數(shù)以千計的大型組織定制應(yīng)用程序。

特別是,作為交易的數(shù)量已變得更為復(fù)雜,往往分布在多個機器,許多企業(yè)已經(jīng)實施聯(lián)機事務(wù)處理系統(tǒng)(OLTP,也稱為面向交易的處理系統(tǒng))。

在過去幾十年,一個大的變化,是商業(yè)智能平臺和數(shù)據(jù)倉庫的出現(xiàn),通常但并不總是一起運行。

數(shù)據(jù)倉庫通常存儲來自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)副本,但這些系統(tǒng)本身并不使用于不間斷的業(yè)務(wù)經(jīng)營。相反,它們被用于保持數(shù)據(jù)的歷史,整合多個系統(tǒng),往往作為分 析應(yīng)用的一個起點。Teradata公司的數(shù)據(jù)倉庫產(chǎn)品可能是最有名的,但近年來,甲骨文的Exadata產(chǎn)品線(并購SUN所得),和IBM公司(包括 其收購Netezza公司的資產(chǎn))已經(jīng)獲得更多的重視,以及純軟件廠商,如Greenplum(現(xiàn)在是EMC的一部分)。

有許多不同種類的業(yè)務(wù)分析應(yīng)用,但可能是最常見的是經(jīng)常被稱為聯(lián)機分析處理系統(tǒng),或OLAP。數(shù)據(jù)在一個多維數(shù)據(jù) “魔方”中配置,“魔方”中關(guān)系數(shù)據(jù)庫(或一系列的數(shù)據(jù)庫或數(shù)據(jù)倉庫)中的數(shù)據(jù)匯聚和連接,然后進行分析。通常情況下,你會看到商業(yè)智能平臺作為“語義層”, 運行在數(shù)據(jù)倉庫“魔方”之上。

最知名的商務(wù)智能平臺是Business Objects(由SAP擁有),COGNOS(IBM所擁有),Hyperion(由Oracle擁有),微軟,MicroStrategy,和SAS。

比德爾介紹,這樣的觀點來自90年代的 “非常大的數(shù)據(jù)庫”和數(shù)據(jù)倉庫,在那里你有一個單獨的數(shù)據(jù)庫的報告,而不是一個交易中使用。

通常情況下,這樣的報告數(shù)據(jù)庫將捕獲匯總的數(shù)據(jù),而不是每一筆交易的數(shù)據(jù),通過分析數(shù)據(jù),你可以有更深入的了解,在您的業(yè)務(wù)將發(fā)生什么。

這種商業(yè)智能建立了一個非常大的市場,它的背后BI的最偉大的例子,如Moneyball所描述的一樣。

這樣的系統(tǒng)通常是由專業(yè)人員執(zhí)行,需要一個合理的配置,但這種情況正在改變。最近讓我印象特別深刻的是,一些分析工具讓典型的業(yè)務(wù)分析師(而非程序員)在企業(yè)數(shù)據(jù)上做快速報告和分析。提供這些工具的廠商包括的Tableau軟件,QlikTech的QlikView,TIBCO Spotfire,所有這些都允許來自多個源的數(shù)據(jù)的快速可視化。

隨著Web和基于傳感器的應(yīng)用的發(fā)展,已收集到的數(shù)據(jù)量快速擴展,超過傳統(tǒng)的數(shù)據(jù)庫的允許,導(dǎo)致了新的方式,通常被稱為“NoSQL”,和基于如 Apache Hadoop這樣的工具。我會在以后的文章更多地談?wù)撨@些,但似乎像每一個企業(yè)的供應(yīng)商,包括一些規(guī)模較小的公司,目前都基于Hadoop的解決方案工作,重要的是還有開源運動。

此外,有一個通常被稱為“非結(jié)構(gòu)化數(shù)據(jù)”的內(nèi)容或信息被日益重視,包括一切從網(wǎng)頁、文本、媒體文件,它們可能不適合傳統(tǒng)的數(shù)據(jù)庫。針對這些內(nèi)容,存在一個新的工具集,涵蓋傳統(tǒng)企業(yè)文件內(nèi)容管理系統(tǒng),像現(xiàn)在EMC的Documentum,IBM的FileNet,Oracle的 Stellent,OpenText,和Microsoft SharePoint和新的非結(jié)構(gòu)化搜索服務(wù)提供商如Autonomy(現(xiàn)在是惠普的一部分)和Endeca(現(xiàn)在屬于甲骨文)等。

總之,有很多不同的數(shù)據(jù)需求,并且許多大型組織將以多重解決方案或多家供應(yīng)商告終。

在接下來的幾篇文章,我要談?wù)撨@些領(lǐng)域,但很顯然,這些都是不同的市場,針對不同的客戶,采用不同的工具——并不存在一些全新的“大數(shù)據(jù)”市場。然而,我同樣清楚,組織將不得不重新考慮他們?nèi)绾问占?,存儲,分析和管理?shù)據(jù),以及他們?nèi)绾螌⑦@些數(shù)據(jù)變成真實的信息的計劃。

分享到

wangzhen

相關(guān)推薦