DataCanvas九章云極 王桐

根據(jù)Markets & Markets的預(yù)測,流數(shù)據(jù)分析市場將從 2016 年的 30.8 億美元增長到 2021 年的 137 億美元。各個(gè)企業(yè)都將快速意識到他們需要利用實(shí)時(shí)數(shù)據(jù)集成和流數(shù)據(jù)分析來獲得更有價(jià)值的信息、使數(shù)據(jù)變得更安全以及保持增長。在數(shù)據(jù)無時(shí)無刻不在產(chǎn)生的背景下,企業(yè)需要:過濾無關(guān)數(shù)據(jù),進(jìn)行聚合和分組,跨流關(guān)聯(lián)信息將元數(shù)據(jù)、參考數(shù)據(jù)和歷史數(shù)據(jù)與上下文的流數(shù)據(jù)相結(jié)合實(shí)時(shí)監(jiān)測異常數(shù)據(jù)。

面對實(shí)時(shí)流數(shù)據(jù)分析我們內(nèi)在的訴求體現(xiàn)在兩個(gè)方面:首先是我們的模型分析要考慮到近期的數(shù)據(jù)變化情況,舉個(gè)生活當(dāng)中的例子,如果過去的兩天氣溫一直在35度,那么明天的天氣不大可能下雪。另一方面,我們的模型需要是可以不斷持續(xù)更新的,也就是說隨著新數(shù)據(jù)不斷的流入,模型也在不斷的更新,例如我們常見的營銷數(shù)據(jù)分析,隨著經(jīng)營的規(guī)模和體量的增加,模型也要不斷的更新。

這兩個(gè)訴求看上去貌似是一回事,但其實(shí)不然,核心問題是,流數(shù)據(jù)產(chǎn)生的內(nèi)在邏輯是否一致。

比如剛才提到的氣溫,我們?nèi)绻凑杖ツ晖诘臏囟惹闆r來進(jìn)行預(yù)測,那么通常都可以達(dá)到一定的準(zhǔn)確度。也就是說,依照去年全年的數(shù)據(jù)生成的模型在今年大概率是可以復(fù)用的,即使有誤差,也是在一個(gè)比較小的范圍內(nèi)。

再回到我們提到的第二個(gè)營銷數(shù)據(jù)分析場景,如果我們根據(jù)今年的數(shù)據(jù)對未來的銷售情況進(jìn)行預(yù)測,那么很可能會和去年同期的數(shù)字有很大區(qū)別,因?yàn)樯虡I(yè)環(huán)境變了,經(jīng)營規(guī)模在增長,去年同期的銷售量因?yàn)榻?jīng)營體量的原因,和今年有本質(zhì)的區(qū)別。在這種情況下,我們要重新訓(xùn)練模型,甚至重新構(gòu)建模型。

對于剛才的氣溫預(yù)測情景,我們通常意義上把它稱為時(shí)間序列模型。此類模型需要大量的歷史數(shù)據(jù)做為輸入,來形成較準(zhǔn)確的預(yù)測模型。

那么剛才說的營銷數(shù)據(jù)分析場景,就不是簡單意義上的時(shí)間序列模型,因?yàn)樗呛胁环€(wěn)定趨勢的一組序列值。這類問題也是我們接下來要討論的重點(diǎn)。

面對這類問題,我們會想到下面幾類方法:

第一類,增量學(xué)習(xí)算法,也就是每當(dāng)我們新增加一個(gè)新樣本的時(shí)候,我們對模型進(jìn)行一次更新。那么針對這樣的情景,我們需要對原有批量模式的算法模型進(jìn)行改造。

第二類,定期的批量模型重新訓(xùn)練模型,這種是最直接的模式,即定期匯總更新的數(shù)據(jù),同歷史數(shù)據(jù)一并重新訓(xùn)練模型。

增量學(xué)習(xí)算法可以用批量模式來進(jìn)行使用,但是批量模式的模型如果要轉(zhuǎn)換成增量學(xué)習(xí)算法,需要大量改造工作,并且有一定的準(zhǔn)確率損失。

如何對這兩種方法進(jìn)行取舍,我們需要考慮兩方面:

第1, 需要考慮新增數(shù)據(jù)的邊界。我們的模型是否要在新增樣本數(shù)據(jù)出現(xiàn)的第一時(shí)間來更新,還是說模型需要根據(jù)新的數(shù)據(jù)進(jìn)行相機(jī)抉擇。如果是后一種情形,那么就是一個(gè)時(shí)間序列問題而不是一個(gè)增量學(xué)習(xí)算法的情景。

第2, 需要考慮數(shù)據(jù)的廢棄。距離現(xiàn)在一定的時(shí)間范圍之外的歷史數(shù)據(jù),我們是否應(yīng)該劃定一個(gè)范圍,來界定該范圍之外的數(shù)據(jù)應(yīng)該廢棄掉,不參加模型的訓(xùn)練?這種范圍如何來劃分?例如在金融方面的場景,距離現(xiàn)在越近的數(shù)據(jù)通常具有更強(qiáng)的相關(guān)性,但是在某些特定情形下,往年同期的數(shù)據(jù)更具有參考意義和相關(guān)性。特殊一點(diǎn)的例子,比如在金融衰退期,往往上一個(gè)金融衰退時(shí)期的數(shù)據(jù)比近期的數(shù)據(jù)和現(xiàn)在具有更強(qiáng)的相關(guān)性。

雖然實(shí)時(shí)流數(shù)據(jù)分析時(shí)間序列預(yù)測比較類似,數(shù)據(jù)的來源也相近,但是兩種方法的關(guān)注點(diǎn)不同。

增量學(xué)習(xí)算法在兩方面比較擅長:

第1, 便利性。不需要緩沖數(shù)據(jù)和重新訓(xùn)練模型。

第2, 時(shí)效性。模型總是更新到最新的狀態(tài)

增量學(xué)習(xí)在模型的靈活性和模型的功效方面有一些損失。但在模型特殊場景,增量學(xué)習(xí)是必須的,例如數(shù)據(jù)隱私方面需要數(shù)據(jù)出現(xiàn)之后就要求被刪除。

周期的批量學(xué)習(xí)模型保存了算法的功效,需要更加復(fù)雜的實(shí)施過程。在上層利用工具也可以在必要的時(shí)候利用必要的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí)。而且可以用最小的代價(jià),同時(shí)嘗試不同的算法模型。

DataCanvas RT實(shí)時(shí)計(jì)算平臺,是國內(nèi)外領(lǐng)先的流數(shù)據(jù)實(shí)時(shí)處理和分析平臺,具備低時(shí)延(毫秒級)、高吞吐(單集群支持>10TB/日流量)、高性能(>40,000 TPS 保序場景/>160,000 TPS 非保序場景)等特性,能夠提供風(fēng)險(xiǎn)監(jiān)控、精準(zhǔn)營銷、實(shí)時(shí)預(yù)警與事中分析等多種應(yīng)用場景的實(shí)時(shí)分析。

DataCanvas RT實(shí)時(shí)計(jì)算平臺強(qiáng)大的數(shù)據(jù)分析處理能力,為企業(yè)提供面向未來的大數(shù)據(jù)技術(shù)和人工智能計(jì)算架構(gòu)的支撐。DataCanvas九章云極全面考慮實(shí)際應(yīng)用的業(yè)務(wù)場景與技術(shù)指標(biāo)要求,為企業(yè)未來的大數(shù)據(jù)技術(shù)提供高效可靠的基礎(chǔ)設(shè)施。

分享到

xiesc

相關(guān)推薦