《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》提出,當前數(shù)據(jù)已成為重要的生產(chǎn)要素,大數(shù)據(jù)產(chǎn)業(yè)作為激活數(shù)據(jù)要素潛能的關鍵支撐,是加快經(jīng)濟社會發(fā)展質量變革、效率變革、動力變革的重要引擎。此次騰訊推出的《騰訊大數(shù)據(jù)構建之道》,系統(tǒng)性復盤了大數(shù)據(jù)技術在騰訊內部的應用發(fā)展與演進,對促進國內大數(shù)據(jù)產(chǎn)業(yè)的共同進步具有積極意義。
據(jù)悉,該書由騰訊數(shù)據(jù)平臺部與機械工業(yè)出版社合作出品,內容總體分為兩大部分:第一部分,主要講述了騰訊大數(shù)據(jù)平臺的技術體系;第二部分,主要講述了騰訊大數(shù)據(jù)通過騰訊云對外開放的一系列產(chǎn)品。
在第一部分,騰訊大數(shù)據(jù)團隊從自身平臺的發(fā)展歷程和總體架構切入,深入介紹了各項技術原理,闡述了實戰(zhàn)過程中的挑戰(zhàn)和自研核心技術的設計思想。內容覆蓋了大數(shù)據(jù)接入、計算、存儲、分析、調度等大量技術組件的整體架構和應用展示,當中不乏數(shù)據(jù)實時采集TDBank、下一代大數(shù)據(jù)分布式存儲Ozone、高性能的大數(shù)據(jù)SQL引擎SuperSQL、自主研發(fā)的高性能分布式機器學習平臺Angel等多個重量級產(chǎn)品的詳細剖析。
以分布式計算為例,書中詳細介紹了SuperSQL的關鍵技術,以及在OLAP 數(shù)據(jù)分析、跨數(shù)據(jù)中心查詢優(yōu)化等多個場景中的應用細節(jié)。作為騰訊大數(shù)據(jù)自研的跨數(shù)據(jù)源、跨數(shù)據(jù)中心、跨計算引擎的的高性能大數(shù)據(jù)SQL引擎,SuperSQL致力于優(yōu)化集群資源的使用,提升使用業(yè)務數(shù)據(jù)的效率,并幫助解決業(yè)務數(shù)據(jù)孤島問題。目前,SuperSQL 在騰訊內網(wǎng)及外部客戶均已部署使用,對接多個跨數(shù)據(jù)中心集群,每個集群規(guī)模達數(shù)百臺機器。
在第二部分,大數(shù)據(jù)團隊主要介紹了騰訊在數(shù)據(jù)治理、數(shù)據(jù)應用、機器學習等方面的建設經(jīng)驗,并對騰訊大數(shù)據(jù)產(chǎn)品及其在內外部場景的實踐落地進行了解讀。以騰訊自研機器學習平臺Angel為例,其功能涵蓋傳統(tǒng)機器學習、圖挖掘、圖學習、深度學習和隱私計算等,是國內第一個在全球頂級AI開源基金會——LF AI基金會畢業(yè)的頂級項目。自 2017 年開源后,已被華為、小米、OPPO等一百多個公司和組織使用。在本書中,騰訊大數(shù)據(jù)團隊對其系統(tǒng)架構、運行架構以及功能特性進行了逐層剖析,能有效幫助讀者建立起相關的深度認知和理解。
而針對行業(yè)人群在大數(shù)據(jù)運營方面的廣泛痛點,本書還從大數(shù)據(jù)平臺規(guī)劃、平臺治理、 運維體系構建、運營成本優(yōu)化、數(shù)據(jù)資產(chǎn)管理等方面系統(tǒng)性地介紹了騰訊積累的經(jīng)驗。 也是在伴隨海量數(shù)據(jù)業(yè)務爆發(fā)式增長過程中,以數(shù)據(jù)驅動運營,實現(xiàn)平臺高度自治為目標的不斷探索的成果,為有大數(shù)據(jù)平臺構建和運維需求的企業(yè)和團隊提供了實用的直接參考。
在剛剛召開的首屆騰訊云大數(shù)據(jù)峰會上,騰訊云副總裁劉煜宏透露,目前騰訊云的大數(shù)據(jù)平臺算力規(guī)模已經(jīng)突破千萬核,日實時計算量達百萬億級、日運行容器數(shù)超億級,日計算數(shù)據(jù)量數(shù)百PB,服務的企業(yè)客戶數(shù)超2萬家,開源社區(qū)代碼貢獻量超800萬行,進一步呈現(xiàn)了騰訊在大數(shù)據(jù)領域的頂級實力。