調(diào)查方法及樣本說明
考慮到網(wǎng)絡(luò)調(diào)查的隨機(jī)性較容易保證,準(zhǔn)確性較高,本項(xiàng)目采用網(wǎng)絡(luò)調(diào)查的方式,并建立網(wǎng)絡(luò)專題和入口便于用戶參與調(diào)查
(http://www.dochannel.com/research/register.html),調(diào)查時(shí)間為2012年8月1日至2012年8月20日,訪問對(duì)象是擁有數(shù)據(jù)存儲(chǔ)應(yīng)用及需求的企業(yè)、機(jī)構(gòu)戒者組織。
為了更好地統(tǒng)計(jì)國(guó)內(nèi)各種類型用戶的存儲(chǔ)現(xiàn)狀,本次調(diào)查幵沒有對(duì)用戶的企業(yè)大小、數(shù)據(jù)觃模、行業(yè)類型、所處區(qū)域等迚行樣本分類,而是迚行了具體統(tǒng)計(jì)不記錄。根據(jù)統(tǒng)計(jì)資料顯示,本次調(diào)查樣本涵蓋了國(guó)內(nèi)大部分的地區(qū)及省市,北至哈爾濱、南至深圳、西至烏魯木齊、東至南通,覆蓋范圍之大在存儲(chǔ)行業(yè)內(nèi)非常鮮見。本次調(diào)查設(shè)計(jì)樣本數(shù)為300個(gè),截止至2012年8月30日,調(diào)查實(shí)際樣本數(shù)為284個(gè),有效實(shí)際樣本數(shù)234個(gè)。
有效實(shí)際樣本涉及行業(yè)中主要包括:政府、醫(yī)療、計(jì)算機(jī)服務(wù)和軟件業(yè)、制造業(yè)、金融服務(wù)、能源、電信等。其中媒體娛樂、汽車等行業(yè)也有所涉獵,占整個(gè)樣本數(shù)量的15%左右。
有效實(shí)際樣本涉及用戶的人員規(guī)模包括<50人、50-100人、101-500人、501-1000人、>1000人幾種劃分,其中以500人左右的企業(yè)占據(jù)主要,占比達(dá)到整體樣本數(shù)的49%,接近一半以上。
調(diào)查背景
隨著用戶數(shù)據(jù)量的暴增,其數(shù)據(jù)的存儲(chǔ)也出現(xiàn)高速增長(zhǎng)。在大數(shù)據(jù)時(shí)代,當(dāng)前用戶IT應(yīng)用出現(xiàn)新的變化,數(shù)據(jù)結(jié)構(gòu)類型出現(xiàn)新的特點(diǎn),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并處于高速增長(zhǎng)狀態(tài)。針對(duì)這一現(xiàn)象,DOIT特別針對(duì)中國(guó)企業(yè)大數(shù)據(jù)狀況進(jìn)行此次調(diào)查,以探尋大數(shù)據(jù)背景下的中國(guó)企業(yè)數(shù)據(jù)存儲(chǔ)及應(yīng)用的特點(diǎn)和趨勢(shì),也希望可以幫助企業(yè)用戶能夠在 2012年把握大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀,為企業(yè)轉(zhuǎn)型和業(yè)務(wù)發(fā)展提供幫助,迎接大數(shù)據(jù)給企業(yè)帶來的新機(jī)遇。
2012年企業(yè)大數(shù)據(jù)狀況調(diào)查問卷所涉足的用戶領(lǐng)域和行業(yè)都比較全面,通過調(diào)查分析發(fā)現(xiàn),企業(yè)所面臨的大數(shù)據(jù)結(jié)構(gòu)類型主要分為三類,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù);企業(yè)基礎(chǔ)架構(gòu)已經(jīng)不適應(yīng)大數(shù)據(jù)的發(fā)展,有待進(jìn)一步更新;企業(yè)處理大數(shù)據(jù)方面存在一系列問題需要解決。
大數(shù)據(jù)類型分析
隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。大數(shù)據(jù)的數(shù)據(jù)格式包括哪些呢?這個(gè)問題,在現(xiàn)在看來似乎很是簡(jiǎn)單,對(duì)于大數(shù)據(jù)的定義當(dāng)前也比較明確了,總的來說大數(shù)據(jù)具備4個(gè)“V”,或者說其特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化類型。如當(dāng)前大家經(jīng)常提及的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。
在統(tǒng)計(jì)本次調(diào)查的數(shù)據(jù)顯示,54%的用戶所在的公司的大數(shù)據(jù)結(jié)構(gòu)類型屬于結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)三者皆有,可見,用戶在大數(shù)據(jù)類型方面已經(jīng)呈現(xiàn)出類型繁多的現(xiàn)狀。
另外,在用戶看來,目前所在的公司大數(shù)據(jù)出現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)明顯增多的情況占了調(diào)查樣本的40%左右,而有30%的人出現(xiàn)所有數(shù)據(jù)類型都明顯增多的情況。而結(jié)構(gòu)化數(shù)據(jù)類型和半結(jié)構(gòu)化數(shù)據(jù)類型都增多的情況有所放緩。
企業(yè)基礎(chǔ)架構(gòu)分析
從本次調(diào)查結(jié)果可以看出,將近有46%的企業(yè)服務(wù)器數(shù)量沒有超過100臺(tái),而擁有100至400臺(tái)占據(jù)了28%的比例。400至800臺(tái)服務(wù)器則占據(jù)剩下26%的比例??梢钥闯霈F(xiàn)今大部分企業(yè)面對(duì)大數(shù)據(jù)還沒有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。
在對(duì)企業(yè)基礎(chǔ)設(shè)施架構(gòu)中采用最多處理器類型的調(diào)查中,明顯發(fā)現(xiàn)英特爾至強(qiáng)系列占據(jù)了被調(diào)查樣本數(shù)約80%,英特爾X86架構(gòu)服務(wù)器在整個(gè)被調(diào)查用戶樣本中所占據(jù)的比例非常高,也說明X86架構(gòu)的普及率早已超過了其他架構(gòu),當(dāng)然其中我們不排除用戶也采用其他架構(gòu)的需求所在,但從調(diào)查數(shù)據(jù)顯示,只有11%的用戶采用AMD皓龍系列,8%的用戶采用IBM POWER系列,而SUN SPARC系列的用戶占比最少,大約2%左右。
實(shí)際上,英特爾所代表的X86服務(wù)器在幾年之前就開始不斷侵蝕企業(yè)的關(guān)鍵業(yè)務(wù)領(lǐng)域,而英特爾所發(fā)布的E7系列處理器已經(jīng)能夠提供完全不弱于小型機(jī)CPU所能提供的性能。如以往一樣,在英特爾所提出的大數(shù)據(jù)方案之中,至強(qiáng)處理器將為大數(shù)據(jù)分析提供原動(dòng)力。事實(shí)上,英特爾的x86架構(gòu)硬件平臺(tái)已經(jīng)幫助甲骨文等廠商在大數(shù)據(jù)一體機(jī)等方面取得了高性能和經(jīng)濟(jì)實(shí)惠的統(tǒng)一,而英特爾自己的Hadoop發(fā)行版也正幫助用戶解決了大數(shù)據(jù)領(lǐng)域的實(shí)際問題。為此,這也是在本次企業(yè)大數(shù)據(jù)狀況調(diào)查中,X86架構(gòu)服務(wù)器已經(jīng)占到了整個(gè)行業(yè)的主流地位的原因所在。
企業(yè)處理大數(shù)據(jù)能力分析
通過調(diào)查發(fā)現(xiàn),從當(dāng)前階段大部分企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來看,其中有將近50%的企業(yè)面臨大數(shù)據(jù)處理的問題,這些問題主要表現(xiàn)在企業(yè)在面對(duì)大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢、挖掘的流程等。這些問題的出現(xiàn)主要也是來自用戶對(duì)于大數(shù)據(jù)處理存在諸多困難和問題造成的。
在調(diào)查問及“當(dāng)前您所在企業(yè)面對(duì)大數(shù)據(jù)處理的最大問題是什么?”時(shí),有效調(diào)查樣本中選擇擴(kuò)展性差和運(yùn)營(yíng)成本較高的用戶占比達(dá)到42%,同時(shí)大家對(duì)于應(yīng)用部署過于復(fù)雜、資源利用率低、散熱不佳、能耗過高等其他問題也比較關(guān)注。
當(dāng)然了,用戶對(duì)于大數(shù)據(jù)的關(guān)注度在提升的同時(shí)也是受到自身企業(yè)每天數(shù)據(jù)生成量影響的,在對(duì)有效樣本進(jìn)行“您所在企業(yè)每天的數(shù)據(jù)生成量有多少?”的問話中發(fā)現(xiàn),將近50%的企業(yè)用戶每天的數(shù)據(jù)生成量達(dá)到了TB級(jí),有接近28%的企業(yè)用戶每天數(shù)據(jù)生成量超過了40TB。而在100GB以下數(shù)據(jù)生成量的企業(yè)用戶占比相對(duì)較少。但是每天數(shù)據(jù)生成量達(dá)到或者超過100TB級(jí)別的用戶也同樣不多。
企業(yè)面臨大數(shù)據(jù)處理急需解決的技術(shù)挑戰(zhàn)其實(shí)最大的表現(xiàn)還是在多格式數(shù)據(jù)方面,其次是讀寫速度(讀寫速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度),再就是國(guó)內(nèi)存儲(chǔ)廠商所關(guān)注的海量數(shù)據(jù)。
另外,用戶在考慮采購(gòu)什么樣廠商的大數(shù)據(jù)產(chǎn)品和方案時(shí),更多的會(huì)考慮投資回報(bào)的問題。其次就是平臺(tái)的開放性,用戶對(duì)于平臺(tái)開放性的重視主要在于未來擴(kuò)展問題。當(dāng)然中國(guó)用戶也非常重視初期成本的投入的。當(dāng)然也有18%被調(diào)查企業(yè)用戶非常重視廠商提供的服務(wù)和技術(shù)支持。對(duì)于方案是否開源關(guān)注占到了8%左右。
在對(duì)用戶提問“您所在公司的大數(shù)據(jù)處理系統(tǒng)部署了Hadoop體系嗎?”其中被調(diào)查樣本企業(yè)用戶有41%在計(jì)劃在內(nèi),即將部署。另外有25%用戶已經(jīng)部署,并在使用,有11%用戶不會(huì)部署,還有23%用戶沒有聽說過,需要對(duì)這類用戶進(jìn)行教育。據(jù)被調(diào)查人士分析指出,應(yīng)用部署過于復(fù)雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。
在對(duì)用戶認(rèn)為云時(shí)代下企業(yè)數(shù)據(jù)挖掘面臨哪些挑戰(zhàn)的問題調(diào)查中發(fā)現(xiàn),不管是數(shù)據(jù)安全性、網(wǎng)絡(luò)瓶頸技術(shù)不成熟服務(wù)的水平缺乏相關(guān)的法規(guī)保障還是其他問題,總體分析來看,在大數(shù)據(jù)增長(zhǎng)的影響下企業(yè)數(shù)據(jù)挖掘面臨如下幾個(gè)挑戰(zhàn):
一是異構(gòu)數(shù)據(jù)問題,當(dāng)前企業(yè)用戶的網(wǎng)絡(luò)數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖片、視頻等,而云計(jì)算變革所帶來的基于互聯(lián)網(wǎng)方式提供的各種應(yīng)用,如何有效掌控這些異構(gòu)數(shù)據(jù)就是一個(gè)挑戰(zhàn)。目前也有提出異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),就是相關(guān)的多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的集合,可以實(shí)現(xiàn)數(shù)據(jù)的共享和透明訪問。
二是多源數(shù)據(jù)問題,隨著企業(yè)不斷適應(yīng)云計(jì)算的變化,企業(yè)數(shù)據(jù)會(huì)有部分在公有云上,也有私有云上,面對(duì)不同數(shù)據(jù)來源,這對(duì)數(shù)據(jù)挖掘是一個(gè)很大的挑戰(zhàn),以電力行業(yè)為例,隨著網(wǎng)絡(luò)技術(shù)在電力系統(tǒng)中的廣泛應(yīng)用,調(diào)度中心數(shù)據(jù)采集渠道多,如何從繁雜重復(fù)的信息中得到可靠準(zhǔn)確信息,確實(shí)是一個(gè)挑戰(zhàn)。
三是挖掘效率問題,通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。但在云計(jì)算環(huán)境下,封閉的企業(yè)數(shù)據(jù)挖掘會(huì)逐漸不能適用,面對(duì)互聯(lián)網(wǎng)帶來的異構(gòu)數(shù)據(jù)挑戰(zhàn),哪種數(shù)據(jù)挖掘算法效率更高,值得進(jìn)一步研究。
最重要的一項(xiàng)調(diào)查中,涉及到企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺(tái),選項(xiàng)設(shè)立了5個(gè)項(xiàng)目,包括了(A、 Hadoop B、 開源的HBase C、 Teradata D、 Netezza E、Greenplum F、Exadata)從調(diào)查結(jié)果中分析得出Hadoop占據(jù)了一半多的市場(chǎng),企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺(tái)最多的還是Hadoop。可以預(yù)見的是,Hadoop日漸成長(zhǎng)引領(lǐng)開源云計(jì)算發(fā),“大象很會(huì)跳舞。”Hadoop作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)核心技術(shù),在未來幾年中它將會(huì)保持很好的增長(zhǎng)。
為此,在2012年英特爾也推出了它的Hadoop發(fā)行版,英特爾Hadoop發(fā)行版是一套解決方案,針對(duì)不同行業(yè)客戶進(jìn)行系統(tǒng)整合,根據(jù)不同用戶的需求來實(shí)現(xiàn)個(gè)性化解決方案。長(zhǎng)期來看,英特爾致力于打造健康的生態(tài)系統(tǒng),通過ISV、OEM等眾多合作伙伴,共同應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn),把握時(shí)代機(jī)遇,利用大數(shù)據(jù)深挖價(jià)值。
英特爾以至強(qiáng)處理器構(gòu)建的高效IT基礎(chǔ)設(shè)施為基石,英特爾還計(jì)劃在其上的數(shù)據(jù)組織與管理層,針對(duì)大數(shù)據(jù)的分發(fā)和管理需求提供針對(duì)英特爾平臺(tái)優(yōu)化的Hadoop產(chǎn)品和服務(wù)。在大數(shù)據(jù)的分析與發(fā)現(xiàn)層,提供針對(duì)客戶端與服務(wù)器端算法開發(fā)的支持,以滿足大數(shù)據(jù)計(jì)算所需的性能與規(guī)模要求。在大數(shù)據(jù)的決策支持與IT服務(wù)層,則將聯(lián)合生態(tài)系統(tǒng)內(nèi)的合作伙伴,提供更為優(yōu)化的可視化應(yīng)用體驗(yàn)。英特爾所有與這些規(guī)劃相關(guān)的具體策略,將隨著大數(shù)據(jù)技術(shù)、應(yīng)用和市場(chǎng)的發(fā)展逐步深化、細(xì)化。
相信有了英特爾這樣上游廠商的加入,必將對(duì)Hadoop的未來增長(zhǎng)帶來更加積極深遠(yuǎn)的影響。