很多企業(yè)客戶在開始擁抱大數(shù)據(jù)之初,并不明確自己要解決的業(yè)務(wù)問題到底是什么,有的企業(yè)認(rèn)為只有做外部數(shù)據(jù)才算大數(shù)據(jù),而另外一些企業(yè)則認(rèn)為大數(shù)據(jù)要解決目前業(yè)務(wù)部門不能回答的問題,比如我的新客戶在哪里,這些認(rèn)識都有失偏頗,為此我們的大數(shù)據(jù)戰(zhàn)略及規(guī)劃服務(wù)將深入分析并梳理目前業(yè)務(wù)領(lǐng)域的主要挑戰(zhàn),企業(yè)內(nèi)部現(xiàn)有的數(shù)據(jù)分析類應(yīng)用,提出企業(yè)未來兩到三年的大數(shù)據(jù)戰(zhàn)略以及建設(shè)路線,并對企業(yè)數(shù)據(jù)文化的推廣提出組織架構(gòu)以及團(tuán)隊(duì)建設(shè)方面的建議和實(shí)踐。

如果企業(yè)的業(yè)務(wù)目標(biāo)明確,希望用大數(shù)據(jù)解決的業(yè)務(wù)挑戰(zhàn)也很明確,那么如果企業(yè)尚未開始大數(shù)據(jù)相關(guān)平臺的建設(shè),并對當(dāng)前的技術(shù)體系沒有把握,不清楚新的大數(shù)據(jù)技術(shù)與傳統(tǒng)的數(shù)據(jù)倉庫,BI體系如何融合的話,我們將通過方案討論會的形式,梳理與大數(shù)據(jù)相關(guān)的業(yè)務(wù)舉措和業(yè)務(wù)場景,找出優(yōu)先級較高的業(yè)務(wù)場景作為試點(diǎn),將大數(shù)據(jù)與業(yè)務(wù)板塊建立對應(yīng)關(guān)系,梳理現(xiàn)有的數(shù)據(jù)分析類工具和應(yīng)用,提出大數(shù)據(jù)架構(gòu)的藍(lán)圖與大數(shù)據(jù)相關(guān)技術(shù)路線的建設(shè)指導(dǎo)原則,并提出大數(shù)據(jù)分析類項(xiàng)目的高階設(shè)計(jì)。大數(shù)據(jù)的架構(gòu)體系與企業(yè)的上云之路有著相輔相成的密切聯(lián)系,因而大數(shù)據(jù)架構(gòu)藍(lán)圖的規(guī)劃設(shè)計(jì)將沿襲企業(yè)上云規(guī)劃的七個(gè)方面,從業(yè)務(wù),流程,成熟度,人力資源,安全,平臺和運(yùn)維的角度去保證大數(shù)據(jù)架構(gòu)體系設(shè)計(jì)的完整度。

很多企業(yè)在過去的十多年時(shí)間里,持續(xù)不斷地在建設(shè)數(shù)據(jù)倉庫和BI體系,大部分企業(yè)希望能進(jìn)一步提升數(shù)據(jù)分析類應(yīng)用的受眾面和性價(jià)比,比較突出的一個(gè)問題就是數(shù)據(jù)倉庫應(yīng)該如何優(yōu)化,才能既滿足業(yè)務(wù)部門不斷增加的數(shù)據(jù)類需求,又能在成本可控,風(fēng)險(xiǎn)可控的前提下建設(shè)一個(gè)或多個(gè)新一代架構(gòu)體系下的數(shù)據(jù)倉庫或數(shù)據(jù)集市,為此我們的數(shù)據(jù)倉庫優(yōu)化服務(wù)將梳理現(xiàn)有的數(shù)據(jù)架構(gòu),分析數(shù)據(jù)源的多樣性與數(shù)據(jù)加工清洗的邏輯規(guī)則,分析數(shù)據(jù)倉庫內(nèi)所有數(shù)據(jù)的使用熱度,制定數(shù)據(jù)倉庫遷移的路線圖,設(shè)計(jì)數(shù)據(jù)加工流轉(zhuǎn)的過程,包括數(shù)據(jù)采集,加工,存儲和可視化,介紹并分享AWS Redshift的最佳實(shí)踐包括數(shù)據(jù)建模,數(shù)據(jù)加載,以及工作負(fù)載管理,同時(shí)基于現(xiàn)有數(shù)據(jù)倉庫之上的所有報(bào)表和分析類應(yīng)用將遷移到新的AWS Redshift 之上,以達(dá)到成本優(yōu)化,架構(gòu)可擴(kuò)展,應(yīng)用靈活和快速迭代等的一系列目標(biāo)。

傳統(tǒng)的數(shù)據(jù)倉庫的計(jì)算周期通常為T+1,業(yè)內(nèi)很少有數(shù)據(jù)倉庫是準(zhǔn)實(shí)時(shí)的,然而很多業(yè)務(wù)需求對數(shù)據(jù)的計(jì)算和分析要求是準(zhǔn)實(shí)時(shí),甚至是實(shí)時(shí)的,比如說:電商客戶的購買建議,工業(yè)大數(shù)據(jù)的實(shí)時(shí)監(jiān)控,智能交通領(lǐng)域的降低路線擁堵狀況等,這些實(shí)時(shí)的分析場景產(chǎn)生的實(shí)時(shí)數(shù)據(jù)-事件/交易/交互數(shù)量每秒以百萬計(jì),這些海量的實(shí)時(shí)數(shù)據(jù)需要強(qiáng)大的后臺處理能力并行處理這些數(shù)據(jù)。同時(shí),系統(tǒng)還應(yīng)具備容錯(cuò)性和大規(guī)模的分布式處理能力,由此催生了大數(shù)據(jù)領(lǐng)域的另一個(gè)重要的技術(shù)分支-流計(jì)算。如果企業(yè)客戶希望試點(diǎn),優(yōu)化某些數(shù)據(jù)分析類場景以實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)分析,流計(jì)算分析方案設(shè)計(jì)與實(shí)施服務(wù)將根據(jù)業(yè)務(wù)場景設(shè)計(jì)實(shí)時(shí)計(jì)算層,包括從實(shí)時(shí)數(shù)據(jù)采集到實(shí)時(shí)數(shù)據(jù)可視化的整個(gè)過程,介紹業(yè)界最新的關(guān)于實(shí)時(shí)分析層的最佳實(shí)踐,并圍繞AWS的Amazon Kinesis 服務(wù)構(gòu)建整個(gè)架構(gòu)體系,確保未來的實(shí)時(shí)分析應(yīng)用可以模塊化地,可擴(kuò)展地部署在該平臺上,為客戶對市場的快速響應(yīng)提供實(shí)時(shí)的數(shù)據(jù)分析基礎(chǔ)。

圍繞著數(shù)據(jù)倉庫和數(shù)據(jù)集市,大部分的企業(yè)客戶或多或少地已開發(fā)并投產(chǎn)了一些數(shù)據(jù)分析類應(yīng)用,這些數(shù)據(jù)分析類應(yīng)用通常由傳統(tǒng)的套裝軟件開發(fā)完成,當(dāng)大數(shù)據(jù)技術(shù)-大規(guī)模并行處理技術(shù)成為市場的主流,數(shù)據(jù)分析的周期可以大大縮短時(shí),客戶希望可以重新審視這類應(yīng)用,并充分利用新的技術(shù)提高數(shù)據(jù)分析的效率。

數(shù)據(jù)分析類應(yīng)用性能調(diào)優(yōu)服務(wù)將梳理現(xiàn)有的數(shù)據(jù)分析架構(gòu)以及應(yīng)用,提出如何充分利用AWS的大數(shù)據(jù)基礎(chǔ)服務(wù)來優(yōu)化現(xiàn)有的數(shù)據(jù)分析類應(yīng)用,改進(jìn)數(shù)據(jù)流轉(zhuǎn)的處理過程,從采集,存儲,加工到可視化,并依據(jù)壓力測試的結(jié)果再次性能調(diào)優(yōu),以求在穩(wěn)定可擴(kuò)展的架構(gòu)下,盡可能地提升數(shù)據(jù)分析師的效率,同時(shí)我們還會提供各項(xiàng)大數(shù)據(jù)服務(wù)相關(guān)的培訓(xùn)和最佳實(shí)踐介紹,其中包括但不局限于Amazon Kinesis, Lambda, Amazon EMR, Amazon Elasticsearch Service, AWS Redshift, DynamoDB和Amazon ML。

所有的數(shù)據(jù)分析類應(yīng)用都依托于企業(yè)內(nèi)部和外部可以獲得的海量數(shù)據(jù),這些數(shù)據(jù)可能產(chǎn)生于企業(yè)內(nèi)部的各個(gè)業(yè)務(wù)應(yīng)用,也可能來自于外部數(shù)據(jù),設(shè)備數(shù)據(jù),傳感器數(shù)據(jù),音頻,視頻等結(jié)構(gòu)多樣來源豐富的異構(gòu)數(shù)據(jù),如何將這些數(shù)據(jù)集成,融合,使得他們可以為數(shù)據(jù)分析師所用,是大部分企業(yè)面臨的一大難題。

過去十幾年中,大量的業(yè)務(wù)應(yīng)用是獨(dú)立開發(fā)部署,缺少統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)治理規(guī)范,形成了煙囪狀的應(yīng)用架構(gòu),因而在數(shù)據(jù)集成時(shí)面臨各種挑戰(zhàn),包括:數(shù)據(jù)標(biāo)準(zhǔn)不一致,數(shù)據(jù)質(zhì)量差,缺少元數(shù)據(jù)管理,主數(shù)據(jù)管理等一系列問題。當(dāng)外部數(shù)據(jù),日志數(shù)據(jù),設(shè)備數(shù)據(jù)等進(jìn)一步加入到數(shù)據(jù)的洪流中來時(shí),企業(yè)發(fā)現(xiàn)自己深陷數(shù)據(jù)的沼澤,而業(yè)務(wù)分析人員既不了解哪些數(shù)據(jù)可用,也不認(rèn)可數(shù)據(jù)的質(zhì)量,更不相信數(shù)據(jù)結(jié)果的可用性。

大數(shù)據(jù)技術(shù)和方案要解決的首要問題就是,我有哪些數(shù)據(jù),這些數(shù)據(jù)可以提供哪些服務(wù)。因而數(shù)據(jù)沼澤可以變成清澈的數(shù)據(jù)湖,在這里所有的數(shù)據(jù)融匯貫通,各個(gè)業(yè)務(wù)板塊之間數(shù)據(jù)可以共享,業(yè)務(wù)人員能從數(shù)據(jù)字典中方便地找到自己想用的數(shù)據(jù)項(xiàng),分析、計(jì)算,得到想要的結(jié)果。

理想很美好,現(xiàn)實(shí)很骨感。AWS的數(shù)據(jù)湖解決方案咨詢服務(wù)將幫助企業(yè)客戶梳理希望共享的數(shù)據(jù)源,分析數(shù)據(jù)的種類和當(dāng)前存儲的形式,通過什么工具進(jìn)行加工,加工的邏輯是什么,業(yè)務(wù)用戶希望如何利用這些數(shù)據(jù)等,提出新一代的數(shù)據(jù)湖方案架構(gòu),試點(diǎn)兩到三個(gè)數(shù)據(jù)源的融合過程,找到恰當(dāng)?shù)募夹g(shù)和服務(wù)采集和處理這些數(shù)據(jù),并通過可視化的方法將數(shù)據(jù)提供給業(yè)務(wù)用戶。

另外,數(shù)據(jù)湖的實(shí)現(xiàn)難點(diǎn)在于,數(shù)據(jù)的生產(chǎn)者不是數(shù)據(jù)的使用者,如何管理和治理這些數(shù)據(jù),相應(yīng)的一些政策規(guī)范不斷提升數(shù)據(jù)的可信度和易用性。

綜上所述,針對企業(yè)大數(shù)據(jù)之旅的各個(gè)階段,AWS推出了有針對性的咨詢服務(wù)內(nèi)容,希望幫助客戶解決從戰(zhàn)略到戰(zhàn)術(shù)的不同挑戰(zhàn),由業(yè)務(wù)愿景推導(dǎo)到架構(gòu)設(shè)計(jì)推導(dǎo)出技術(shù)路線再映射到實(shí)施落地,不斷地迭代開發(fā)大數(shù)據(jù)類應(yīng)用,充分實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。

 

分享到

xiesc

相關(guān)推薦