首先先介紹一下賽思信安這個公司。我們公司其實一直致力于存儲和數(shù)據(jù)的行業(yè),主要提供數(shù)據(jù)存儲相關(guān)的產(chǎn)品和解決方案。我們本身的產(chǎn)品大多數(shù)產(chǎn)品也都是自主研發(fā)的,有自己的研發(fā)團隊,完全自主研發(fā)的。公司是成立于2007年,公司目前擁有200多人,主要研發(fā)人員比較多有70%的研發(fā)人員,我們一直走自主研發(fā)的道路,用自主研發(fā)品牌的產(chǎn)品。我們在存儲包括數(shù)據(jù)管理,大數(shù)據(jù)方面也積累了很多的經(jīng)驗,因為我們最早進入通過在存儲這個層次也在消冗這個方面。之后在數(shù)據(jù)管理這方面我們也做一些產(chǎn)品,之后我們大數(shù)據(jù)分析智能化挖掘也推出自己的產(chǎn)品。這是我們公司這幾年產(chǎn)品相關(guān)研發(fā)推出的里程,我們在數(shù)據(jù)消冗這塊也是自主研發(fā)技術(shù)也是自主研發(fā)產(chǎn)品,給用戶節(jié)省了空間,提升了存儲利用率,也為用戶節(jié)省很多成本。2011年我們最早基于用戶的需求我們開始切入大數(shù)據(jù)的行業(yè),當時大數(shù)據(jù)概念大家沒有提,但是我們做的事情是大數(shù)據(jù)的事情,數(shù)據(jù)量非常大給用戶帶來很大挑戰(zhàn)我們開始做這個事情。我們公司愿景實現(xiàn)人與數(shù)據(jù)溝通,提升客戶潛在價值,我們怎么利用數(shù)據(jù)為我們客戶和企業(yè)創(chuàng)造價值。
目前我們?nèi)珖员本橹行慕⒘宋覀兿嚓P(guān)的售后服務(wù)體系,體夠包括電話、網(wǎng)絡(luò)相關(guān)的售后服務(wù),保證我們產(chǎn)品及時的響應(yīng)。這是公司整個的產(chǎn)品線從數(shù)據(jù)管理、分析層面等。我們包括軟件核心的這些技術(shù)都是我們自主研發(fā)的,另外根據(jù)用戶可以做很好的定制響應(yīng)速度比較快。
下面我們重點分享一下也是跟大家探討一下我們在傳統(tǒng)行業(yè)在大數(shù)據(jù)這塊做的相關(guān)工作以及相關(guān)的理解。大數(shù)據(jù)實際上可能從去年、今年大家提的比較熱的,實際上我們覺得大數(shù)據(jù)這個事情實際上已經(jīng)是一個很長的一個時間的事情,并不是現(xiàn)在才出現(xiàn)的事情,大數(shù)據(jù)除了現(xiàn)在提到的量比較大,還有類型比較多元化這種新的數(shù)據(jù)量增加帶來新的變化之外,其實更重要還有一種數(shù)據(jù)的思維,我們是不是考慮用數(shù)據(jù)去思維去考慮我們的業(yè)務(wù),去考慮我們?nèi)绾斡脭?shù)據(jù)支撐我們企業(yè)或者我們單位的這些業(yè)務(wù)來提升我們業(yè)務(wù)的競爭力,我覺得這是一個非常重要的一點。
所以說就是除了剛才介紹的數(shù)據(jù)量和數(shù)據(jù)類型的變化所增加所帶來的現(xiàn)代對傳統(tǒng)信息架構(gòu)的影響之外,其實更重要在傳統(tǒng)行業(yè)企業(yè)更多考慮我們?nèi)绾卫眠@些數(shù)據(jù),如何基于這數(shù)據(jù)挖掘自身的需求,來支撐我們企業(yè)的運營。那么后面我們分幾各方面來具體分享一下我們這個理解。首先來說我們覺得數(shù)據(jù)它通過接入更多的數(shù)據(jù)可以為企業(yè)找到他們更關(guān)注的一些內(nèi)容,來更好為企業(yè)的決策做出支撐。這塊我們可以看到比如說我們在金融、保險等行業(yè),它基于更多的數(shù)據(jù)源融入更多的數(shù)據(jù),金融我可以做征信體系支撐我貸款的業(yè)務(wù),保險行業(yè)我可以分析我的客戶,更細致的定制我保險相關(guān)的產(chǎn)品。包括在制造業(yè)方面我們可以根據(jù)用戶對于他們汽車產(chǎn)品的理解,汽車產(chǎn)品的評價我們可以去設(shè)計定義這個汽車產(chǎn)品的功能,然后設(shè)計出更好的讓用戶更滿意的產(chǎn)品,定價方面也可以用大數(shù)據(jù)技術(shù)定義更好的價格。包括在石油、醫(yī)藥行業(yè)這塊通過數(shù)據(jù)融合實際上都可以得到很多幫助企業(yè)進行數(shù)字化決策的一些東西。
我們醫(yī)療行業(yè)可以看一下,原來的醫(yī)療行業(yè)數(shù)據(jù)是比較單一的,進入醫(yī)療系統(tǒng)只有病人我可以看病基本的資料,如果我們從大數(shù)據(jù)的思維,大數(shù)據(jù)角度考慮這個問題,其實醫(yī)療行業(yè)包括研究機構(gòu),制藥企業(yè)提供人相關(guān)一些信息和藥品的相關(guān)信息都有可以融入到他們系統(tǒng)當中來。另外臨床決策在臨床上面產(chǎn)生治療的信息都可以融入進來,另外患者一些行為,包括它的一些患者之間的關(guān)系也可以融入到醫(yī)療行業(yè)的這種信息資源庫當中來。我們通過融入更多信息資源,通過信息資源的關(guān)聯(lián)可以為用戶發(fā)掘更多有價值的東西。我們通過這個我們可以提供更個性化的醫(yī)療服務(wù)。另外臨床決策這塊我們可以做更好的決策支撐。
另外還可以幫助通過生活方式和行為來對疾病做一個更深層次的分析,甚至于疾病的發(fā)生做一些預(yù)測這些都是可以通過數(shù)據(jù)的融合可以做的。
我們從另外一個角度來看我們通過數(shù)據(jù)可以幫助企業(yè)更好的了解企業(yè)客戶,這樣可以發(fā)掘更多潛在的價值,幫助企業(yè)提升自己的市場空間。這塊包括電信、零售、運輸?shù)?。其實零售業(yè)這個感觸是比較深的,因為互聯(lián)網(wǎng)化在零售業(yè)這塊,包括電子商務(wù)的出現(xiàn)和迅速的發(fā)展對這塊沖擊非常大的,因為電子商務(wù)這塊更有效的利用了數(shù)據(jù)資源,所以他們在競爭和傳統(tǒng)零售業(yè)占了非常多的優(yōu)勢,雙十一可以銷售幾百億的商品。這個就是利用大數(shù)據(jù)一個很直觀的一個現(xiàn)實的例子。其實目前像電信、運輸?shù)纫恍﹤鹘y(tǒng)的行業(yè),包括金融這塊實際上也可以開始我如何利用他們自己所用的數(shù)據(jù)資源。電信這塊可以對用戶進行全方位的描述,他的愛好等等也可以設(shè)計出針對性的產(chǎn)品進行推薦。包括金融和保險業(yè),現(xiàn)在互聯(lián)網(wǎng)金融是近年也非常熱,互聯(lián)網(wǎng)金融做的很重要的方式就是通過互聯(lián)網(wǎng)方式進行用戶收集,通過征信體系做第一步的信用評估,這樣更有效的實現(xiàn)對用戶信息整理和評估,這個也是對數(shù)據(jù)利用的很好的例子。
我們可以看一下在電信行業(yè)我們可以得到哪些數(shù)據(jù)?一個是用戶基本信息,還有用戶行為特征,還有一些用戶上網(wǎng)包括訪問的喜好等其他訪問喜好,通過這些信息匯總和融合之后我們可以全方位的描述這個客戶,我們可以知道這個客戶偏向于電話多,還是短信多還是上網(wǎng)多我們可以定義更科學(xué)更好的套餐,并且預(yù)測用戶對服務(wù)使用的感覺,他是不是后面想不用這個產(chǎn)品,后面我們可以及時對用戶做推薦,挽留客戶,甚至我們通過產(chǎn)品推薦找到更多的客戶,這個對企業(yè)挖掘自身的市場很有作用的。
還有一個企業(yè)可以利用數(shù)據(jù)來提升自己的運營效率,這里面涉及到我們看到相應(yīng)的企業(yè),包括制造業(yè)、能源行業(yè)、物流行業(yè)都可以利用數(shù)據(jù)提升自己運營效率。下面我們可以通過一個例子看一下,我們這個地方拿到一個物流行業(yè)的例子來看,隨著現(xiàn)在物聯(lián)網(wǎng)、傳感器等相關(guān)技術(shù)的不斷發(fā)展,實際上在物流行業(yè)當中車流運輸情況,所有信息都可以實時采集到這個系統(tǒng)來,車輛行車軌跡和司機的信息都可以采集到這個信息系統(tǒng),這個信息都存到信息中心,后面做了一件事情就是我們?nèi)绾螌@個數(shù)據(jù)做有效利用,這個是非常關(guān)鍵的一個環(huán)節(jié)。對于這塊我們當時也做了一些規(guī)劃和設(shè)計、實施。這個第一個我們可以利用采集的數(shù)據(jù)對運行車輛的行使狀況做一個分析建立模型之后可以對車輛故障進行相關(guān)的一些預(yù)測,提前讓企業(yè)對車輛進行維修。另外我們通過數(shù)據(jù)整合可以對車輛的運行軌跡做一個更優(yōu)化的處理。另外我們還可以對于司機的狀態(tài)做一個實時的分析。其實對它們之間一些物流網(wǎng)點設(shè)計和部署這塊也可以通過數(shù)據(jù)做很有效的支撐。
還有一塊就是大數(shù)據(jù)在安全方面實際上也是可以做很有效的工具來支撐。這塊包括幾個方面。一、現(xiàn)在智能監(jiān)控這塊,通過大數(shù)據(jù)分析技術(shù)我們可以對圖像進行實時分析在線分析,發(fā)現(xiàn)一些犯罪和違規(guī)的行為。另外在網(wǎng)絡(luò)方面對網(wǎng)絡(luò)通信數(shù)據(jù)流可以做網(wǎng)絡(luò)分析在線分析,我們可以通過數(shù)據(jù)進行落地進行進一步的分析。我們可以通過網(wǎng)絡(luò)預(yù)測這個犯罪,我今天上午跟國家保密部門溝通的時候,通過對網(wǎng)絡(luò)行為進行分析,也可以提前發(fā)現(xiàn)一些竊密的行為,通過歷史數(shù)據(jù)發(fā)現(xiàn)這一點,通過這個關(guān)聯(lián)規(guī)則我們預(yù)測一些竊取的行為。
后面是我們賽思信安針對大數(shù)據(jù)的產(chǎn)品和解決方案,這塊我們還是回來用一頁PPT簡單總結(jié)一下,傳統(tǒng)行業(yè)我們在大數(shù)據(jù)時代面臨哪些挑戰(zhàn)?這個挑戰(zhàn)可以總結(jié)為PPT幾個方面,不同企業(yè)面臨其中某幾個挑戰(zhàn)。我企業(yè)數(shù)據(jù)量特別大,達到幾十個PB等,面臨數(shù)據(jù)管理的問題。但是有些數(shù)據(jù)絕對量沒有那么大,可能在幾個TB級,但是它們其實面臨很大問題就是我如何利用這些從里面獲取更加的信息這是他們面臨的挑戰(zhàn)。我們后面相關(guān)的一些方案和產(chǎn)品都是針對這些考慮進行不同的設(shè)計的。
其實針對剛才提出的問題有很多解決方法,這些解決方法也有傳統(tǒng)的一些方法,也有隨著互聯(lián)網(wǎng)行業(yè)不斷發(fā)展一些出現(xiàn)新的解決方法,包括hadoop等一系列的技術(shù),并不是一種技術(shù)解決所有的問題,我們可能需要融合傳統(tǒng)方法,融合新技術(shù),根據(jù)需求做一些工作才能解決目前面臨的問題?;ヂ?lián)網(wǎng)是針對自己需求開發(fā)的技術(shù),并不是針對所有行業(yè)提供的解決方案,我們可以做定制化的需求。
我們這塊包括三部分,第一大數(shù)據(jù)的基礎(chǔ)平臺,第二、上面大數(shù)據(jù)的分析平臺,第三、側(cè)面就是一個管理的平臺。我們在大數(shù)據(jù)基礎(chǔ)平臺提供幾個引擎,包括傳統(tǒng)引擎、hadoop引擎、流計算引擎、數(shù)據(jù)倉庫的引擎,這個實現(xiàn)對于復(fù)雜數(shù)據(jù)異構(gòu)數(shù)據(jù)很方便的處理和分析,交互式的分析。另外我們提供數(shù)據(jù)挖掘基礎(chǔ)的算法包,讓用戶利用這些算法包對自己數(shù)據(jù)進行挖掘分析。
我們利用系統(tǒng)對上面提供展示的工具,讓用戶通過展示更清晰看到自己數(shù)據(jù)隱含的趨勢或者一個規(guī)律。我們最底層采用服務(wù)器架構(gòu)的硬件平臺作為我們最底層硬件基礎(chǔ)設(shè)施,在上面我們可以構(gòu)建數(shù)據(jù)管理平臺,上面數(shù)據(jù)分析應(yīng)用,我們在檢索系統(tǒng)這塊我們主要是解決海量數(shù)據(jù)的高效檢索的問題,因為數(shù)據(jù)量非常大,傳統(tǒng)的關(guān)系性數(shù)據(jù)庫很難滿足海量數(shù)據(jù)的檢索,當數(shù)據(jù)規(guī)模達到萬億級PB級的情況下需要檢索,這種檢索需要對異構(gòu)數(shù)據(jù)的檢索,可能有文本數(shù)據(jù)有結(jié)構(gòu)化數(shù)據(jù),我們通過自主開發(fā)多維檢索系統(tǒng)也可以有效解決這個問題。我們通過hadoop里面的框架做很多分析的深度開發(fā)?;诹饔嬎阋嫖覀兛梢栽趦?nèi)存做快速處理,這樣可以實現(xiàn)對于異常行為異常事件快速的報警,或者異常規(guī)律的發(fā)現(xiàn)。還有傳統(tǒng)的數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫我們可以支撐對一些結(jié)構(gòu)性數(shù)據(jù)做一些有效管理和處理。上面我們可以支撐多種應(yīng)用,包括內(nèi)容分析,企業(yè)預(yù)測管理,還有BI智能報表還有其他的應(yīng)用。
下面我們具體看一下我們幾個核心的產(chǎn)品,第一個我們提供軟硬一體的大數(shù)據(jù)一體機的解決方案,這個解決方案里面首先是X86基礎(chǔ)硬件平臺,在平臺里面我們嵌入我們自己開發(fā)的大數(shù)據(jù)軟件,這個大數(shù)據(jù)軟件可以根據(jù)客戶需求部署不同軟件平臺在里面。這個系統(tǒng)它的優(yōu)勢,就是它可以做很好的橫向擴展,并且這個橫向擴展是在線進行的,平滑進行,我們軟件這塊對外提供加載和處理的功能。從軟件層面性能我們可以隨著硬件物理節(jié)點而線性的進行增加,包括我們數(shù)據(jù)加載效率,查詢的效率,另外我們提供標準化的接口,文件訪問接口和SQL的訪問接口。
第二即時多維檢索系統(tǒng),解決海量數(shù)據(jù)的高效檢索,這是我們面臨用戶最早的需求,他們在實際的業(yè)務(wù)應(yīng)用系統(tǒng)當中最早采用關(guān)系性的數(shù)據(jù)庫,但是隨著數(shù)據(jù)量不斷的增加,他們發(fā)現(xiàn)關(guān)系性數(shù)據(jù)庫可擴展性方面很難滿足他們需求,所以我們開發(fā)了這套系統(tǒng)。hadoop里面有Symantec,也是互聯(lián)網(wǎng)公司開發(fā)的這個Symantec系統(tǒng),這個很難支持多維的檢索,也不能很好支持文本的檢索,也不能支持SQL的接口,所以不太方便。我們這個系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)可以導(dǎo)入我們的系統(tǒng),對于交易日志、話單日志、通行日志都可以放在里面,可以進行消息檢索和深度分析。
還有就是我們在整個大數(shù)據(jù)管理平臺里面我們可以單獨提供針對小文件管理和檢索的單獨引擎和管理系統(tǒng)使用。有些應(yīng)用場景小文件非常多,每個文件只有幾十K幾百K,這種小數(shù)據(jù)達到幾百億就很難訪問了,我們支持對于文件描述信息的檢索。
還有一個我們數(shù)據(jù)倉庫的系統(tǒng),這個系統(tǒng)也作為一個單獨的系統(tǒng)去部署和使用,針對這個系統(tǒng)我們提供了相對于標準化的接口,ODBC、JDBC接口,另外提供相關(guān)很豐富的數(shù)據(jù)管理工具。
這是我們基于大數(shù)據(jù)管理平臺商業(yè)智能的系統(tǒng),對于基礎(chǔ)的數(shù)據(jù)以及融合的一些其他的運行日志數(shù)據(jù)我們進一步數(shù)據(jù)可以通過我們Bigfuain抽取、轉(zhuǎn)換、加載,然后我們切片切換,上鉆下鉆同比環(huán)比,指標預(yù)售之后是分類、預(yù)測、關(guān)聯(lián)、通過報表進行一個很形象化的展示。
我們整體大數(shù)據(jù)管理平臺可以整體使用,我們?nèi)诤狭艘恍┊悩?gòu)化的數(shù)據(jù),這些數(shù)據(jù)可能有短小的記錄性的數(shù)據(jù),還有文本性的數(shù)據(jù),還有郵件比較復(fù)雜,里面帶附件帶內(nèi)容到標題很信息的數(shù)據(jù)信息,我們可以提供整體一體化存儲和管理,對外提供標準化的訪問接口。這個基礎(chǔ)之上我們提供檢索和數(shù)據(jù)抽取包括做關(guān)聯(lián)分析一些基礎(chǔ)的算法庫。上面用戶可以做很多種業(yè)務(wù),我們這個實際上支撐網(wǎng)絡(luò)安全,包括網(wǎng)絡(luò)安全應(yīng)用中都采用了這套系統(tǒng)進行有效的支撐了。通過這個平臺我們可以對數(shù)據(jù)做并行化的數(shù)據(jù)分析,通過我們提供的算組,我們通過分析發(fā)現(xiàn)數(shù)據(jù)中隱含的模式和規(guī)律。其實大數(shù)據(jù)最關(guān)鍵一點或者最核心的一點也就是通過我們工具,可能是不同的工具發(fā)現(xiàn)隱含的模式,基于這個模式我們可以監(jiān)控這個模式進行預(yù)測,這是大數(shù)據(jù)里面很重要一點。
總體來說我們賽思信安的大數(shù)據(jù)具有哪些優(yōu)勢?第一我們整體的方案也都是全部通過我們或者是自主研發(fā)或者像開源hadoop我們對代碼做深度研究和分析也可以做修改的能力,整體方案我們自主可控,可以根據(jù)用戶需求我們定制提供比較符合用戶需求的解決方案。
另外我們這個系統(tǒng)適用于融合異構(gòu)化的數(shù)據(jù)資源,這個數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)甚至多媒體數(shù)據(jù)都可以融合到這個里面,融合之后上面可以提供豐富數(shù)據(jù)處理模式。
我們提供實時流處理能力,可以進行實時分析發(fā)現(xiàn)一些套牌車輛等。我們幫助醫(yī)療等提供一些基礎(chǔ)的算法模型,方便它對數(shù)據(jù)進行利用和處理。
下面有幾個案例簡單分享一下。實際上這個是我們相關(guān)的一些合作伙伴。我們相關(guān)的一些用戶,這個是我們其中的一個案例,這個應(yīng)用場景需求這個數(shù)據(jù)量非常大確實是大數(shù)據(jù),量非常大,達到上PB級,整個系統(tǒng)上面在物理上也到了上百個數(shù)據(jù)節(jié)點我們也是采用服務(wù)器架構(gòu)作為硬件基礎(chǔ)設(shè)施,這里面很多是結(jié)構(gòu)化小的基礎(chǔ)性數(shù)據(jù),但是量非常大,懂得規(guī)模超過五千多億條數(shù)據(jù),最早采用關(guān)系性數(shù)據(jù)庫進行檢索,我們針對這個提供大數(shù)據(jù)管理系統(tǒng)。我們大數(shù)據(jù)管理系統(tǒng)對他們五千億,運行中接近上萬億的數(shù)據(jù)包括檢索我們都可以在秒內(nèi)解決,有效解決客戶的問題,用戶可以基于這個平臺進行深入的分析,像APP攻擊建立這個模型就可以進行有效的分析。
這個是一個智能交通的相關(guān)案例,因為現(xiàn)在在智能交通系統(tǒng)里面兼顧的數(shù)據(jù)包括視頻,但是對視頻實時分析之后對于他們車輛運行的日志情況也會進行留存和匯總,在市內(nèi)攝像采集點都有這些,還有高速公路的卡口,這個數(shù)據(jù)量也是非常大的,這里面要求能夠?qū)M行實時在線處理,所以針對這個我們也提供了在線實時處理的引擎,也是定義了一些模型,例如說可以在一個時間范圍之內(nèi)如果發(fā)現(xiàn)在不同的一定距離地點都發(fā)現(xiàn)了統(tǒng)一輛車,我們定義為一個檢測模型,發(fā)現(xiàn)這個車可以知道這是套牌車輛違規(guī)的行為,可以進行及時報警我們還提供其他實時檢測預(yù)測模型。另外我們系統(tǒng)也可以有效的滿足了這個數(shù)據(jù)一個實時落地存儲的一個需求,并且在檢索前面我們也講在千億級對數(shù)據(jù)檢索進行有效支撐。
這個是我們對于公安指揮中心的一個大數(shù)據(jù)的解決方案,其實在這個解決中心最早有很多信息化的系統(tǒng),也產(chǎn)生了很多數(shù)據(jù),但是數(shù)據(jù)每個業(yè)務(wù)系統(tǒng)自己進行整理,沒有整合,我們通過大數(shù)據(jù)管理平臺對數(shù)據(jù)有效的融合整合處理,處理之后我們對外提供統(tǒng)一的移動數(shù)據(jù)訪問,訪問這個接口的方式也有效的解決用戶存在數(shù)據(jù)融合的問題。基于這之后我們可以基于這個數(shù)據(jù)做一些深度的數(shù)據(jù)分析和數(shù)據(jù)挖掘的工作。這是今天我借這個機會跟大家分享我們大數(shù)據(jù)在傳統(tǒng)行業(yè)當中解決方案的一些思考,謝謝大家!