以下是崔建業(yè)的精彩分享:
今天很榮幸代表我們食品安全研發(fā)部門做一個我們關(guān)于從大數(shù)據(jù)中感知食品安全探索過程分享。我匯報主要從以下四個方面展開。
1、首先給大家簡單介紹一下為我們從大數(shù)據(jù)中感知食品安全。
2、對我們云平臺組織架構(gòu)做一個介紹。
3、對我們云平臺遇到的技術(shù)進(jìn)行一個戰(zhàn)術(shù)。
4、簡單的功能展示過程。
眾所周知目前是大數(shù)據(jù)的時代,信息爆炸過程當(dāng)中我們食品安全當(dāng)中大家不斷從互聯(lián)網(wǎng),從電視上出現(xiàn)大家都有關(guān)注,這些方面都形成一個很大的數(shù)據(jù)資源,另外跟現(xiàn)在的hadoop技術(shù)等給我們提供從大數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)的積累,目前我們從這些資源和技術(shù)上來怎么樣為我們提供食品安全方面做出一些探索。
目前像2012年我們食品安全事件頻發(fā),像蒙牛、可口可樂的事件等等,以前溯源更多,大家知道的saas事件、瘦肉精、染色饅頭等等,暴露出一個問題我們目前基于互聯(lián)網(wǎng)的食品安全監(jiān)管存在一個空白的地方,如果我們有效利用網(wǎng)絡(luò)的資源來及時的發(fā)現(xiàn)這些信息,并且給監(jiān)管部門還有大眾用戶提供預(yù)警、信息展示的功能可能很大程度降低這樣的風(fēng)險。
通過我們分析發(fā)現(xiàn)互聯(lián)網(wǎng)食品安全事件出現(xiàn)的時候會有以下幾個特征。首先是突發(fā)性,食品安全事件發(fā)展之后會迅速發(fā)展,短時間形成集群爆發(fā),食品安全需要分布在地理位置。第三信息有海量信息數(shù)的特點。涌現(xiàn)海量信息數(shù)據(jù)的量這個增量過程是幾何爆炸式的增長。還有動態(tài)性,食品安全事件發(fā)生會帶來很多次生衍生的后果。三聚氰氨事件發(fā)生以后影響到了牛奶業(yè)和保健業(yè)。整個過程形成了虛擬社會,虛擬社會這些信息構(gòu)成整個公共數(shù)據(jù)源規(guī)模在日益擴(kuò)大。這個基礎(chǔ)上我們只要通過有效的辦法將互聯(lián)網(wǎng)的信息進(jìn)行有效采集、監(jiān)控以及分析就能夠為我們所要服務(wù)的行業(yè)提供這個最基礎(chǔ)的數(shù)據(jù)支撐,以及為以后的預(yù)警方案和食品檢測方案提供一個巨大的數(shù)據(jù)支持。
現(xiàn)在互聯(lián)網(wǎng)的數(shù)據(jù)很多,我們怎么樣有效的獲取過來,比較老的客戶技術(shù)不先進(jìn)采用人工搜集方式,但是現(xiàn)在不可行了,互聯(lián)網(wǎng)站那么多,日益在增長,人工搜集也很有問題。人工搜集數(shù)據(jù)提供不了可視化的收集,人工收集不能獲取很全面的信息,也可能搜集信息不是你想要的,人工監(jiān)測互聯(lián)網(wǎng)的時代已經(jīng)過去了,我們要提供可靠高效的手段。世界范圍內(nèi)以及中國范圍內(nèi)都有一些探索。歐洲委員會聯(lián)合研發(fā)中心就是基于互聯(lián)網(wǎng)信息快速采集技術(shù)進(jìn)行及時的食品安全的預(yù)警。通過信息技術(shù)采集分析和處理海量數(shù)據(jù)互聯(lián)網(wǎng)相關(guān)數(shù)據(jù)情報基于這些信息建立龐大的數(shù)據(jù)庫,借助有效人工智能發(fā)覺算法,從鏈接關(guān)系找到恐怖的情報。像有一些公司通過熱點發(fā)現(xiàn)追蹤,敏感信息監(jiān)控這些功能,實現(xiàn)對敏感信息和熱點領(lǐng)域的監(jiān)控。我們這些年一直探索怎么樣從互聯(lián)網(wǎng)信息實現(xiàn)食品安全事件預(yù)警互聯(lián)網(wǎng)數(shù)據(jù)分析和采集系統(tǒng)。
正是基于以上原因這是我們做這個研究的根本,為什么做這些東西?就是為了解決相應(yīng)人工監(jiān)控的困難,以及怎么樣全方位有效時事監(jiān)控食品安全信息,我們研究食品安全信息監(jiān)控云平臺,給食品安全系統(tǒng)提供一個技術(shù)服務(wù)。
下面介紹我們整個云平臺核心組織架構(gòu)?分為四個層次。基于底層硬件環(huán)境,構(gòu)建了一個分布式的基礎(chǔ)設(shè)施,這個基礎(chǔ)之上構(gòu)建分布式的計算框架層,提供信息處理層以及最上層用戶服務(wù)層,這是我們整個系統(tǒng)架構(gòu)的結(jié)構(gòu)層,通過我們服務(wù)器,盤陣,接觸網(wǎng)絡(luò)構(gòu)成我們網(wǎng)絡(luò),為上層云計算分布系統(tǒng),分存儲系統(tǒng)提供一個環(huán)境。我們通過分布式的處理技術(shù)實時框架構(gòu)成了我們分布式的計算框架。
再以上的計算框架、存儲網(wǎng)絡(luò)環(huán)境基礎(chǔ)之上完成我們數(shù)據(jù)處理,垃圾處理、最后為用戶信息展示,預(yù)警等服務(wù)。我們通過這些年積累總結(jié)了一下我們有幾類,新聞網(wǎng)絡(luò),包括各大門戶網(wǎng)站,Web2.0來臨,用戶參與的微博等信息量很大,這個也是我們監(jiān)控范圍之內(nèi),隨著微博技術(shù)發(fā)展用戶量增加我們現(xiàn)在微博信息出現(xiàn)一個海量增長趨勢,這個過程我們就目前探索階段把新浪微博納入了我們監(jiān)控的范圍。另外考慮到一個關(guān)聯(lián)性我們現(xiàn)在對中文、也對英文信息和繁體中文信息進(jìn)行探索配置,這個過程當(dāng)中納入基本的范圍。
分布式云存儲方案,通過我們?nèi)治募到y(tǒng)組合起來協(xié)同協(xié)作,在虛擬化基礎(chǔ)上實現(xiàn)統(tǒng)一的資源池,用戶可以自助使用軟件,支持應(yīng)用在線存儲和訪問,右側(cè)是我們整個云存儲系統(tǒng)的結(jié)構(gòu)圖,這塊主要通過我們底層各個分路徑的存儲集群,這個基礎(chǔ)上我們開發(fā)相應(yīng)存儲服務(wù)的接口,為上層云存儲系統(tǒng)以及云存儲平臺提供一個基礎(chǔ)架構(gòu)的支撐。
它主要有幾個特點:全局唯一利用空間,這塊使我們云存儲設(shè)備對使用者透明,他不關(guān)心底層是什么,他使用就可以,因為是云平臺,使用者不用擔(dān)心存儲設(shè)備在哪,我們給他一個授權(quán)他就可以在互聯(lián)網(wǎng)使用。
再有一個全局元數(shù)據(jù)管理,通過層次結(jié)構(gòu)和多備份形式保證我們原數(shù)據(jù)安全可靠。
還有我們基于策略的數(shù)據(jù)管理,數(shù)據(jù)物理存儲、備份、緩存過程當(dāng)中可以通過基于策略的數(shù)據(jù)管理實現(xiàn)高效可靠的管理。
還有全局文件調(diào)度,對狀態(tài)監(jiān)控以及在此基礎(chǔ)上訪問調(diào)度策略,當(dāng)各別分中心網(wǎng)絡(luò)出現(xiàn)異常的時候,用戶可以通過其他中心繼續(xù)訪問和維護(hù)這些數(shù)據(jù)。
異構(gòu)存儲設(shè)備的兼容,這么多分中心他們設(shè)備不是單一形式,我們需要以云存儲系統(tǒng)兼容各種不同的設(shè)備,NAS、SAN、DNS等等,這是我們整個云存儲底層物理環(huán)境。
這是我們云計算的系統(tǒng),我們數(shù)據(jù)中心的資源整合形成通過互聯(lián)網(wǎng)訪問和使用共享的資源池,以服務(wù)方式供大量用戶按需可計量使用,通過我們計算機(jī)、控制節(jié)點,我們以這些硬件為基礎(chǔ),通過我們上層計算模塊,網(wǎng)絡(luò)模塊,運維、復(fù)制模塊形成大的云計算系統(tǒng)。它的特點有以下五個。
一、全局透明管理,可以為用戶屏蔽不同計算資源差異,用戶使用就可以。
二、按需分配,用戶可以根據(jù)需要自主選擇所需要的資源,并且不需要可以及時的退還還供其他客戶使用。
三、彈性擴(kuò)展。整個云平臺跟傳統(tǒng)的PC機(jī),分給它單純的物理機(jī)不一樣,他計算需求比較大我可以調(diào)整分配CPU,考慮到不同應(yīng)用不同層次的需求我們實現(xiàn)了物理主機(jī)和虛擬機(jī)分開管理。
四、資源分配部署和管理自動化。
下面我們介紹一下分布式的計算框架,這個細(xì)節(jié)大家都了解了,不介紹了,我們基于三大開源構(gòu)架。Hadoop主要是應(yīng)用于網(wǎng)頁信息的爬取,而其他的對計算實時性要求較高的作業(yè)比如摘要提取等則通過storm實現(xiàn),處理的結(jié)果比如網(wǎng)頁正文內(nèi)容、相關(guān)元數(shù)據(jù)主要保存在mongodb中,各系統(tǒng)之間通過統(tǒng)一的作業(yè)調(diào)度中心負(fù)責(zé)協(xié)調(diào)。
現(xiàn)在計算資源有了,信息源有了,我們下一個比較重要的技術(shù)就是信息爬取技術(shù),我信息爬取技術(shù)指我說的信息監(jiān)控過程,這個過程主要對信息有兩點需求,主題相關(guān)性和時效性。我不可能把任何信息拿過來,拿過來信息我也不可能不做處理,我找出我所需要的信息,我不可能把什么時候的信息拿出來對信息時效性要求也比較高,趕在食品安全事件爆發(fā)之前,或者剛爆發(fā)之后就要及時的發(fā)現(xiàn)。
右邊這個圖是我們整個爬取大致的流程圖,首先是信息搜集和整理我們設(shè)置我們總的URL,通過通用爬蟲對網(wǎng)頁爬取和保存,爬取過程當(dāng)中我們分析每一個網(wǎng)站分析導(dǎo)航,以及信息更新范圍等等做一個分析,在這個范圍之內(nèi)我們進(jìn)行一個比較頻繁,時間間隔比較小的頁面爬取保證信息的時效性。爬取以后我們對信息進(jìn)行整理分析建立我們一個信息爬取的模型,把這個頁面按照導(dǎo)航頁,主題相關(guān)主題不相關(guān)建立一系列的模型,記錄時間變化同時建一些主題相關(guān)模型,主題不相關(guān)模型等等。建立模型做一個互聯(lián)網(wǎng)的爬取,我們時間預(yù)測的模型時間預(yù)測值對導(dǎo)航頁面和子欄目進(jìn)行爬取,爬取之后根據(jù)我們前面主題模型進(jìn)行主題相關(guān)和不相關(guān)的判斷,這個判斷完基礎(chǔ)上進(jìn)行后續(xù)處理。
同樣跟我們模型不是一成不變的,需要實時更新,需要實時根據(jù)結(jié)果調(diào)整的過程,爬取過程當(dāng)中根據(jù)新爬取到的網(wǎng)頁信息定期進(jìn)行樣本集合模型更新,更新以后再繼續(xù)爬取,爬取之后再調(diào)整精確度提高這樣的功能。我們存儲資源、信息資源都有了我們信息也爬到了,現(xiàn)在就是說垃圾信息的過濾,大家上網(wǎng)發(fā)現(xiàn)網(wǎng)上信息真的不一定都很能,從有效信息發(fā)覺33%有用信息就不錯了。我們做食品安全事件的時候發(fā)現(xiàn)從100個信息發(fā)現(xiàn)10%的來我覺得很高,很多互聯(lián)網(wǎng)評論信息很多是無用的。特別高贊譽(yù),特別低貶低這些我們都要過濾出去,留下剩下信息我們再進(jìn)行一個分類過程,整個垃圾過濾過程我們基于從正例和無標(biāo)注數(shù)據(jù)中學(xué)習(xí)方法的欺騙性的垃圾實施系統(tǒng)。
首先我們進(jìn)行欺騙性和垃圾意見的收集確認(rèn),我們根據(jù)這些年積累整理出來,針對哪些事件頻發(fā),哪些是垃圾信息,根據(jù)這些信息建立我們一個模型,根據(jù)我們底層模型檢測,分別出哪些是垃圾信息,哪些不是垃圾信息,同樣這個模型也是在不斷的優(yōu)化,不斷補(bǔ)充的過程,需要我們根據(jù)實時爬取過程優(yōu)化,優(yōu)化根據(jù)新的模型再去檢測新的信息,這個提高我們垃圾信息檢測一個過濾。
下面關(guān)于我們事件預(yù)警的技術(shù),我們信息拿過來了也進(jìn)行了好的分類,同時進(jìn)行了一個垃圾信息過濾,我們怎么利用這些有用的信息給用戶提供更有價值的信息出來,這塊我們用到信息預(yù)警技術(shù),我們信息處理過程當(dāng)中識別可能演變成安全事件的信息,基于發(fā)現(xiàn)已識別的信息,確定可能發(fā)現(xiàn)事件,可能出現(xiàn)大面積的流傳,這樣的信息及時給用戶進(jìn)行預(yù)警推送。右側(cè)是整個流程圖,關(guān)鍵步驟我簡單介紹,首先根據(jù)我們發(fā)現(xiàn)預(yù)警事件,因它屬性建立預(yù)警的本體,通過本體對我們信息處理,分析是不是我們預(yù)警事件,然后對這個事件進(jìn)行預(yù)警評估,判斷出來是不是發(fā)生預(yù)警的信息,確定出來以后將這個信息提供實時的結(jié)果展示。這個本體是不斷的優(yōu)化過程,在預(yù)警當(dāng)中優(yōu)化不斷的各項參數(shù)和指數(shù),用新模型分類調(diào)整監(jiān)測這些監(jiān)控到的信息。
下面我對我們云平臺功能進(jìn)行一個大致的展示,我們應(yīng)用部署,我們部署我們中科院下屬12個分中心當(dāng)中,這樣可以快速處理PB級的任務(wù),可以通過我們科技網(wǎng)優(yōu)勢快速達(dá)到信息同步傳輸。這塊是我們整個云平臺的一個展示首頁的抓圖,這塊可能看不太清楚,這塊有一些定時整理我們的熱詞,以熱詞的范圍內(nèi)進(jìn)行可視化的展示,我們對今日當(dāng)天發(fā)生互聯(lián)網(wǎng)報道的一些熱點事件進(jìn)行向用戶直觀展示過程。我們會第一時間向用戶展示很快大概在一個小時會發(fā)現(xiàn)它,向用戶展示,根據(jù)爬取到的信息提煉出這些食品安全事件的熱詞信息,讓觀眾一目了然,這些關(guān)鍵詞發(fā)現(xiàn)你要及時關(guān)注,根據(jù)哪些詞最近關(guān)注特別大可能要重點關(guān)注它。
這塊是動態(tài)跟蹤事件發(fā)展趨勢的結(jié)果展示,我們在地圖范圍內(nèi),哪些省范圍內(nèi)根據(jù)顏色值,標(biāo)注,根據(jù)你區(qū)域我們重點關(guān)注哪個食品安全會發(fā)生問題或者已經(jīng)出現(xiàn)問題了。
下一個我們根據(jù)風(fēng)險評估模型可以確定食品安全風(fēng)險指數(shù)的等級,我們通過這塊一個直觀的展示,用戶不需要知道技術(shù)信息,我們一顆星兩顆星分級熱詞,這些分析結(jié)果他們覺得有必要知道可以通過郵件等等方式推送。還要給他展示一些他想要看的信息,食品發(fā)展趨勢是怎么樣,信息來源,哪個網(wǎng)站重點報道比較多,這個用戶需要直觀可視化的展示過程。
另外這塊是模板定制化的,根據(jù)食品安全監(jiān)管行業(yè)他們定期出一些食品安全方面的報告,或者白皮書之類,這塊根據(jù)他們需求整理出他們需要的數(shù)據(jù),為他們報告提供一個基礎(chǔ)的數(shù)據(jù)支持,并且?guī)退麄冏詣由蛇@些報告他們只要下載就可以。
小結(jié)一下我們整個的云平臺它到目前為止實現(xiàn)了整個食品安全行業(yè)里面實時并且準(zhǔn)確的監(jiān)控,我們研發(fā)過程當(dāng)中形成了我們識別體系,識別詞庫,我們可以很高程度識別出這些食品安全事件,另外我們通過實時監(jiān)控以及專業(yè)詞庫實現(xiàn)我們互聯(lián)網(wǎng)信息廣泛過去,實現(xiàn)了不留死角的監(jiān)控范圍。我們服務(wù)于亞運會、奧運會等。這個是我們食品安全的郵箱,大家可以通過這個郵箱聯(lián)系到我。食品安全監(jiān)管目前是很熱的話題,我們希望通過我們目前專業(yè)的技術(shù)跟大家相應(yīng)行業(yè)內(nèi)的應(yīng)用進(jìn)行更廣泛的結(jié)合,這樣才能提高我們精度,也是為服務(wù)大眾提供一個有效的手段,謝謝大家!