什么是大數據?
佚名 發(fā)表于:12年09月07日 12:28 [轉載] 硅谷動力
海量數據到大數據的發(fā)展過程是一個從量變到質變的過程。數據發(fā)展已有多年,每年都以翻倍的速度在增長。過去增長以往的技術能夠對它比較好的管理,但一旦到達一個臨界點以后就產生了一個質變,過去的技術已經符合不了當前的發(fā)展趨勢,需要新的技術來滿足新的數量級的需求。于是大數據的概念應運而生。
在Forrester分析師布賴恩·霍普金斯(Brian Hopkins)和鮑里斯·埃韋爾松(Boris Evelson)撰寫的《首席信息官,請用大數據擴展數字視野》報告中,他們提出大數據的4項典型特征——海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)。
海量
企業(yè)面臨著數據量的大規(guī)模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規(guī)模尚是一個不斷變化的指標,單一數據集的規(guī)模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。
此外,各種意想不到的來源都能產生數據。例如,從巴塞羅那至沙特首府利雅得的單程航行中,一架商用噴氣飛機上收集的傳感器數據量將超過1PB。當用一次飛行的數據量乘以每天所有飛行的航班數,數據總量將非常驚人。
多樣性
一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。
高速
高速描述的是數據被創(chuàng)建和移動的速度。在高速網絡時代,通過基于實現軟件性能優(yōu)化的高速電腦處理器和服務器,創(chuàng)建實時數據流已成為流行趨勢。企業(yè)不僅需要了解如何快速創(chuàng)建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。
根據IMS Research研究機構關于數據創(chuàng)建速度的調查,通過跟蹤可聯網設備的激活量,發(fā)現聯網設備增長的第二波浪潮正在加速到來。本輪增長后,將涌現更多新型可聯網設備增長的浪潮。據預測,到2020年全球將擁有220億部互聯網連接設備。
易變性
大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統(tǒng)的業(yè)務數據,大數據存在不規(guī)則和模糊不清的特性,造成很難甚至無法使用傳統(tǒng)的應用軟件進行分析。傳統(tǒng)業(yè)務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。目前,企業(yè)面臨的挑戰(zhàn)是處理并從各種形式呈現的復雜數據中挖掘價值。