2008年我在我的第一份工作(Ask.com)中開(kāi)始使用Hadoop。當(dāng)時(shí)是因?yàn)榘嘿F的Oracle集群無(wú)法處理不斷增加的分析工作量,公司不得不切換到Hadoop。

隨后在Twitter擔(dān)任數(shù)據(jù)工程師的第二份工作中,我在第一線參與并推動(dòng)了如何使用數(shù)據(jù)給幾乎所有Twitter的產(chǎn)品賦能(與其稱之為“大數(shù)據(jù)”,我更愿意簡(jiǎn)單稱之為“數(shù)據(jù)”)。

自2008年以來(lái),我親眼目睹了數(shù)據(jù)的力量,以及見(jiàn)證了它如何改變世界。如果你閱讀過(guò)有關(guān)劍橋分析公司如何影響2016年美國(guó)大選的文章,那么你會(huì)感受到這種改變所帶來(lái)的非凡意義。

然而,自流行詞“大數(shù)據(jù)”出現(xiàn)10多年后,大數(shù)據(jù)似乎只對(duì)少數(shù)公司有用。在硅谷,幾乎所有的獨(dú)角獸企業(yè)都廣泛使用大數(shù)據(jù)來(lái)推動(dòng)他們的成功。

在中國(guó),像BAT這樣的公司已經(jīng)掌握了大數(shù)據(jù)的藝術(shù),同時(shí)我們也有像字節(jié)跳動(dòng)這樣主要以大數(shù)據(jù)技術(shù)為基礎(chǔ)的超級(jí)獨(dú)角獸公司,但是仍然有很多關(guān)于大數(shù)據(jù)是如何難以使用的笑話。

并且令人遺憾的事實(shí)是,對(duì)于大多數(shù)公司來(lái)說(shuō),大數(shù)據(jù)要么仍然是流行詞,要么的確是難以實(shí)現(xiàn)。

幸運(yùn)的是,一門(mén)新學(xué)科正在崛起,是解開(kāi)普通公司數(shù)據(jù)能力的關(guān)鍵。它就是DataOps,與DevOps明顯相似的名稱,以及與DevOps類似的軟件開(kāi)發(fā)角色,是數(shù)據(jù)工程師希望簡(jiǎn)化數(shù)據(jù)的使用并真正實(shí)現(xiàn)以數(shù)據(jù)來(lái)驅(qū)動(dòng)企業(yè)成功的方法。

今天,我們將簡(jiǎn)要介紹DataOps以及為什么它對(duì)每個(gè)想要從數(shù)據(jù)中獲取真正價(jià)值的公司都很重要。??

什么是DataOps

維基百科上DataOps的定義是:

DataOps是一種面向流程的自動(dòng)化方法,由分析和數(shù)據(jù)團(tuán)隊(duì)使用,旨在提高質(zhì)量并縮短數(shù)據(jù)分析的周期時(shí)間。

維基百科上的DataOps頁(yè)面在2017年2月創(chuàng)建,其中詳細(xì)介紹了這一新學(xué)科。DataOps的定義肯定會(huì)隨著時(shí)間的推移而發(fā)展,但其關(guān)鍵目標(biāo)非常明確:提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期。

DataOps可以降低數(shù)據(jù)分析的門(mén)檻,但是它并不會(huì)使數(shù)據(jù)分析變成一項(xiàng)簡(jiǎn)單的工作。實(shí)施成功的數(shù)據(jù)項(xiàng)目仍然需要大量工作,例如深入了解數(shù)據(jù)和業(yè)務(wù)的關(guān)系,良好的數(shù)據(jù)使用規(guī)范以及一個(gè)公司的數(shù)據(jù)驅(qū)動(dòng)的文化培養(yǎng)。不過(guò),DataOps將極大地提高人們使用數(shù)據(jù)的效率并降低使用數(shù)據(jù)的門(mén)檻,公司可以更快,更早,更好地開(kāi)始使用數(shù)據(jù),并且成本和風(fēng)險(xiǎn)更低。

DataOps解決的問(wèn)題

大數(shù)據(jù)的大多數(shù)應(yīng)用可以分類為AI(人工智能)或BI(商業(yè)智能)。此處的AI是指廣義的人工智能功能,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘以及其他從數(shù)據(jù)中獲取以前未知知識(shí)的技術(shù)。BI則是更多地使用統(tǒng)計(jì)方法將大量數(shù)據(jù)匯總到更簡(jiǎn)單的報(bào)告,供人們理解。簡(jiǎn)而言之,AI使用各種數(shù)據(jù)算法來(lái)計(jì)算新的東西,BI則是統(tǒng)計(jì)人們可以理解的數(shù)字。

編寫(xiě)AI / BI程序并不難。你可以在幾個(gè)小時(shí)內(nèi)設(shè)置一個(gè)TensorFlow的人臉識(shí)別程序?;蛘呤褂肕atlab繪制一些數(shù)據(jù),甚至使用Excel也并不難實(shí)現(xiàn)這個(gè)目的。問(wèn)題在于,要實(shí)際使用生產(chǎn)結(jié)果來(lái)支持面向用戶的產(chǎn)品或根據(jù)這些神奇的數(shù)字來(lái)決定公司的命運(yùn),你需要的不僅僅是手動(dòng)工作。

Dimensional Research的一項(xiàng)調(diào)查(如上圖所示)發(fā)現(xiàn),對(duì)于想要實(shí)施大數(shù)據(jù)應(yīng)用的公司來(lái)說(shuō),以下問(wèn)題最為困難:

  1. 確保數(shù)據(jù)質(zhì)量;
  2. 控制成本;
  3. 滿足業(yè)務(wù)需求和期望;
  4. 量化大數(shù)據(jù)項(xiàng)目的價(jià)值;
  5. 很難找到具有大數(shù)據(jù)專業(yè)知識(shí)的人;
  6. 修復(fù)性能和配置問(wèn)題;
  7. 選擇正確的數(shù)據(jù)框架;
  8. 技術(shù)資源不足;
  9. 保持運(yùn)行可靠性;
  10. 大數(shù)據(jù)項(xiàng)目花費(fèi)的時(shí)間比預(yù)期的要長(zhǎng);
  11. 要管理的技術(shù)或供應(yīng)商太多;
  12. 開(kāi)放對(duì)更多消費(fèi)者的數(shù)據(jù)訪問(wèn);
  13. 難以創(chuàng)建可操作的信息;
  14. 復(fù)雜問(wèn)題解決和調(diào)試。

谷歌數(shù)據(jù)分析師的另一項(xiàng)研究發(fā)現(xiàn),對(duì)于大多數(shù)機(jī)器學(xué)習(xí)項(xiàng)目,只有5%的時(shí)間花在編寫(xiě)ML代碼上。另外95%的時(shí)間用于設(shè)置運(yùn)行ML代碼所需的基礎(chǔ)設(shè)施。

在這兩項(xiàng)研究中,我們可以很容易地看到許多艱苦的工作實(shí)際上并不是在編寫(xiě)代碼。整個(gè)基礎(chǔ)設(shè)施的準(zhǔn)備工作以及高效運(yùn)行生產(chǎn)級(jí)別的代碼是非常費(fèi)時(shí)費(fèi)力的,而且經(jīng)常伴隨著各種風(fēng)險(xiǎn)。

在谷歌的研究中,他們引用了我的前同事Jimmy Lin和Dmitry Ryaboy(來(lái)自Twitter Analytics團(tuán)隊(duì))的話:我們的大部分工作可以被描述為“數(shù)據(jù)管道工”。實(shí)際上,DataOps使管道工的工作更簡(jiǎn)單和高效。

DataOps目標(biāo)功能

DataOps旨在減少整個(gè)分析周期時(shí)間。因此,從搭建基礎(chǔ)架構(gòu)到使用數(shù)據(jù)應(yīng)用的結(jié)果,通常需要實(shí)現(xiàn)以下功能:

  1. 部署:包括基礎(chǔ)架構(gòu)和應(yīng)用程序。無(wú)論底層硬件基礎(chǔ)設(shè)施如何,配置新系統(tǒng)環(huán)境都應(yīng)該快速而簡(jiǎn)單。部署新應(yīng)用程序應(yīng)該花費(fèi)幾秒而不是幾小時(shí)或幾天;
  2. 運(yùn)維:系統(tǒng)和應(yīng)用程序的可擴(kuò)展性,可用性,監(jiān)視,恢復(fù)和可靠性。用戶不必?fù)?dān)心運(yùn)維,可以專注于業(yè)務(wù)邏輯;
  3. 治理:數(shù)據(jù)的安全性,質(zhì)量和完整性,包括審計(jì)和訪問(wèn)控制。所有數(shù)據(jù)都在一個(gè)支持多租戶的安全環(huán)境中以連貫和受控的方式進(jìn)行管理。
  4. 可用:用戶應(yīng)該能夠選擇他們想要用于數(shù)據(jù)的工具,并根據(jù)需要輕松運(yùn)行它們。應(yīng)將對(duì)不同分析/ ML / AI框架的支持整合到系統(tǒng)中:
  5. 生產(chǎn):通過(guò)調(diào)度和數(shù)據(jù)監(jiān)控,可以輕松地將分析程序轉(zhuǎn)換為生產(chǎn)應(yīng)用,構(gòu)建從數(shù)據(jù)抽取到數(shù)據(jù)分析的生產(chǎn)級(jí)數(shù)據(jù)流水線,并且數(shù)據(jù)的使用應(yīng)該很容易并由系統(tǒng)管理。

簡(jiǎn)而言之,它類似于DevOps方法:從編寫(xiě)代碼到生產(chǎn)部署的路徑,包括調(diào)度和監(jiān)視,應(yīng)由同一個(gè)人完成,并遵循系統(tǒng)管理的標(biāo)準(zhǔn)。

與提供許多標(biāo)準(zhǔn)CI,部署,監(jiān)控工具以實(shí)現(xiàn)快速交付的DevOps類似,通過(guò)標(biāo)準(zhǔn)化大量大數(shù)據(jù)組件,新手可以快速建立生產(chǎn)級(jí)的大數(shù)據(jù)平臺(tái)并充分利用數(shù)據(jù)的價(jià)值。

DataOps方法論

DataOps的主要方法論仍處于快速發(fā)展階段。像Facebook和Twitter這樣的公司通常會(huì)有一個(gè)專門(mén)的數(shù)據(jù)平臺(tái)團(tuán)隊(duì)(Data Platform Team)處理數(shù)據(jù)運(yùn)營(yíng)并實(shí)現(xiàn)數(shù)據(jù)項(xiàng)目。

但是,他們的實(shí)現(xiàn)方式大多與公司現(xiàn)有的Ops基礎(chǔ)設(shè)施集成,因此通常不適用于其他人。我們可以從他們的成功中學(xué)習(xí)經(jīng)驗(yàn),并建立一個(gè)可以由每家公司輕松實(shí)施的通用大數(shù)據(jù)平臺(tái)。

要構(gòu)建DataOps所需的通用平臺(tái),我們認(rèn)為需要以下技術(shù):

  1. 云架構(gòu):我們必須使用基于云的基礎(chǔ)架構(gòu)來(lái)支持資源管理,可擴(kuò)展性和運(yùn)營(yíng)效率;
  2. 容器:容器在DevOps的實(shí)現(xiàn)中至關(guān)重要,它在資源隔離和提供一致的dev / test / ops環(huán)境中的作用對(duì)于實(shí)現(xiàn)數(shù)據(jù)平臺(tái)仍然至關(guān)重要;
  3. 實(shí)時(shí)和流處理:實(shí)時(shí)和流處理現(xiàn)在在數(shù)據(jù)驅(qū)動(dòng)平臺(tái)中變得越來(lái)越重要,它們應(yīng)該是現(xiàn)代數(shù)據(jù)平臺(tái)的一等公民;
  4. 多分析引擎:MapReduce是傳統(tǒng)的分布式處理框架,但Spark和TensorFlow等框架日常使用越來(lái)越廣泛,應(yīng)該進(jìn)行集成;
  5. 集成的應(yīng)用程序和數(shù)據(jù)管理:應(yīng)用程序和數(shù)據(jù)管理,包括生命周期管理,調(diào)度,監(jiān)視,日志記錄支持,對(duì)于生產(chǎn)數(shù)據(jù)平臺(tái)至關(guān)重要。DevOps的常規(guī)實(shí)踐可以應(yīng)用于應(yīng)用程序管理,但是數(shù)據(jù)管理以及應(yīng)用程序和數(shù)據(jù)之間的交互需要很多額外的工作;
  6. 多租戶和安全性:數(shù)據(jù)安全性幾乎是數(shù)據(jù)項(xiàng)目中最重要的問(wèn)題:如果數(shù)據(jù)無(wú)法保護(hù),則根本無(wú)法使用。該平臺(tái)應(yīng)為每個(gè)人提供一個(gè)安全的環(huán)境,以便每個(gè)人都可以使用這些數(shù)據(jù)并對(duì)每個(gè)操作進(jìn)行授權(quán),驗(yàn)證和審核。
  7. Dev和Ops工具:該平臺(tái)應(yīng)為數(shù)據(jù)科學(xué)家提供有效的工具,以分析數(shù)據(jù)并生成分析程序,為數(shù)據(jù)工程師提供大數(shù)據(jù)流水線的工具,并為其他人提供消費(fèi)數(shù)據(jù)和結(jié)果的方法。

我們的思考

目前的大數(shù)據(jù)技術(shù)是強(qiáng)大的,但它們對(duì)于普通人來(lái)說(shuō)仍然太難使用。部署一個(gè)適合生產(chǎn)環(huán)境的數(shù)據(jù)平臺(tái)仍然是一項(xiàng)艱巨的任務(wù)。對(duì)于已經(jīng)開(kāi)始這一過(guò)程的公司來(lái)說(shuō),他們的數(shù)據(jù)平臺(tái)團(tuán)隊(duì)大部分時(shí)間仍在做相似的事情,就像重新造輪子。

有些公司已經(jīng)意識(shí)到這些問(wèn)題(Qubole,DataMeer,Bluedata等),并開(kāi)始采用不同的方法來(lái)解決這個(gè)問(wèn)題。其中一些使用基于容器的解決方案,另外一些以Hadoop為中心構(gòu)建其平臺(tái)。

踐行云原生DataOps,需要正確的方式和工具。當(dāng)下我們正需要用一款工具及平臺(tái)解決目前繁雜的數(shù)據(jù)開(kāi)發(fā)問(wèn)題,在實(shí)踐中降低邁入數(shù)據(jù)大門(mén)的門(mén)檻。目前由智領(lǐng)云自主研發(fā)的一款即開(kāi)即用,快速搭建數(shù)據(jù)工程的新一代在線DataOps大數(shù)據(jù)平臺(tái)–BDOS Online已上線,歡迎大家免費(fèi)試用。

分享到

zhupb

相關(guān)推薦