中國國家氣象局首席氣象專家何文春

以下內(nèi)容根據(jù)演講速記整理,未經(jīng)本人審定。轉(zhuǎn)載須經(jīng)本人同意。

何文春:

各位朋友大家好,非常高興能有這樣的機(jī)會介紹一下氣象部門推進(jìn)信息化工作中的一些經(jīng)驗(yàn)和成果;希望能對于相關(guān)行業(yè)部委推進(jìn)信息化工作有一些借鑒和啟發(fā)作用,同時(shí)也希望IT領(lǐng)域的工作者朋友對氣象行業(yè)有進(jìn)一步的了解。有機(jī)會能一起合作,共同推進(jìn)氣象事業(yè)的高質(zhì)量發(fā)展。

氣象數(shù)據(jù)應(yīng)用現(xiàn)狀與大數(shù)據(jù)五類特征

氣象數(shù)據(jù)規(guī)模非常的龐大,現(xiàn)在有大約60PB的數(shù)據(jù),而且每天以40TB的速度在增長。這里不僅僅包括氣象自己觀測和加工的數(shù)據(jù),還有為更好的服務(wù)于各行各業(yè),跟一些其他地球科學(xué)的數(shù)據(jù)、行業(yè)的數(shù)據(jù)、社會上的數(shù)據(jù)共同綜合性的應(yīng)用,需要把相關(guān)的數(shù)據(jù)管理起來。這樣的數(shù)據(jù),從種類上、量上都很多。另外一方面,氣象數(shù)據(jù)也體現(xiàn)出大數(shù)據(jù)的五類特征:首先是類型多,觀測系統(tǒng)包含著地基、空基、天基、?;瑪?shù)據(jù)種類也很雜;二是體量大,60個PB的數(shù)據(jù)序列也很長,完整序列超過70年,產(chǎn)品體系也非常完備;三是更新快,普通數(shù)據(jù)至少是小時(shí)級的更新,大部分是分鐘級更新,少數(shù)是秒級更新,頻率非???,而且氣象數(shù)據(jù)每時(shí)每刻都在變化,所以它需要全天候的觀測和更新;四是質(zhì)量高,所有的數(shù)據(jù)都會經(jīng)過質(zhì)量控制再進(jìn)入業(yè)務(wù)系統(tǒng);五是價(jià)值高,大家也看得到,氣象數(shù)據(jù)是各行各業(yè)各種服務(wù)的所需,它的價(jià)值體現(xiàn)越來越高。

五類特征之外,氣象自身的業(yè)務(wù),包括觀測、預(yù)報(bào)、服務(wù)以及管理上的一些業(yè)務(wù),都是需要大數(shù)據(jù)技術(shù)的支撐。因?yàn)閿?shù)據(jù)太多,傳統(tǒng)的技術(shù)來支撐業(yè)務(wù)就顯得捉襟見肘了,效率肯定跟不上。

所以國家氣象局非常重視信息化的工作。

中國氣象局:“云+端”新型業(yè)務(wù)技術(shù)體制

為了有效推進(jìn)信息化工作,近年來,國家氣象局陸續(xù)出臺了很多政策和要求,提出在2025年之前要實(shí)現(xiàn)“云+端”的新型業(yè)務(wù)技術(shù)體制,也就是要建立一個氣象大數(shù)據(jù)云平臺,提供數(shù)據(jù)、算力、算法三統(tǒng)一的平臺化服務(wù)。

目前氣象部門已經(jīng)建成了3000多個業(yè)務(wù)系統(tǒng),再獨(dú)立建數(shù)據(jù)庫和加工平臺已經(jīng)沒有必要。因此,要求所有的算法都要在大數(shù)據(jù)云平臺上運(yùn)行,所有數(shù)據(jù)都應(yīng)該取自大數(shù)據(jù)云平臺,所有生產(chǎn)出來的產(chǎn)品也應(yīng)該存入大數(shù)據(jù)云平臺供給下游共享。所以氣象大數(shù)據(jù)云平臺的設(shè)計(jì)與建設(shè)要求、定位非常高,難度也是很大的。

開放合作,自主設(shè)計(jì)建設(shè)

在這個平臺建設(shè)、設(shè)計(jì)過程中,配置哪些功能,采用哪些新的技術(shù)去落地?我們已經(jīng)積累了一些經(jīng)驗(yàn)。

從思路上,一開始我們也是觀察和試驗(yàn)了哪家大廠的大數(shù)據(jù)平臺能夠直接在行業(yè)落地,大家熟悉的大廠都有很多的合作和試驗(yàn),最后選擇的路線是“合作,自主設(shè)計(jì)建設(shè)”路線,其他的行業(yè)部委可能也有類似的情況。

氣象部門是一個比較傳統(tǒng)的行業(yè),有很多經(jīng)典的算法是用Fortune寫的,這些算法非常好,而且運(yùn)行效率非常高。

但是大廠提供的大數(shù)據(jù)平臺是高度服務(wù)化的,經(jīng)典的算法無法在高度服務(wù)化的平臺下很好地運(yùn)行。而且,氣象數(shù)據(jù)有特定的格式,與互聯(lián)網(wǎng)上使用的格式不一樣。當(dāng)然,還有很多其他方面的原因,導(dǎo)致大廠的平臺無法直接引進(jìn)來使用。但大廠的技術(shù)非常好,需要花很多的心思在百花齊放的互聯(lián)網(wǎng)技術(shù)中去針對氣象業(yè)務(wù)選擇所需要的技術(shù)自己去設(shè)計(jì)整個平臺,也需要依靠互聯(lián)網(wǎng)和IT公司來幫我們進(jìn)行建設(shè),最后形成有氣象特色的大數(shù)據(jù)云平臺。

1.圍繞氣象大數(shù)據(jù)資源進(jìn)行構(gòu)建

整個平臺都是圍繞大數(shù)據(jù)資源進(jìn)行構(gòu)建,主要有四大系統(tǒng):一是交換及質(zhì)控系統(tǒng),這是做數(shù)據(jù)的匯集,將全球和中國的數(shù)據(jù)匯集到平臺上來,二是產(chǎn)品加工系統(tǒng),對數(shù)據(jù)進(jìn)行深加工,三是挖掘分析系統(tǒng),提供機(jī)器學(xué)習(xí)支撐能力,四是存儲與服務(wù)系統(tǒng),面向應(yīng)用提供大數(shù)據(jù)的支撐。

2.全網(wǎng)協(xié)調(diào)互聯(lián),信息實(shí)時(shí)溝通

氣象部門是一種垂管體系。因此,平臺主要采取“1+31”的布局。

在垂管體系下,國家和省級平臺保持完全一致(省級規(guī)模略?。@樣就有條件在各省形成一個有機(jī)的邏輯上的云,針對少數(shù)省份能力不足的現(xiàn)象,國家級云平臺可以直接分配一些算力和數(shù)據(jù)支持他們數(shù)據(jù)互聯(lián)互通實(shí)時(shí)的共享。

下面重點(diǎn)介紹幾個核心功能,以及實(shí)現(xiàn)這些功能采取的相關(guān)技術(shù)。

一是海量數(shù)據(jù)快速匯聚。采用流式傳輸尤其是分布式的流處理,對海量而且密度非常細(xì),到分鐘甚至秒級的數(shù)據(jù)連續(xù)不斷地收集和處理,全程不落地的入駐服務(wù),數(shù)以萬計(jì)的數(shù)據(jù)就直接秒級到達(dá)應(yīng)用端。

二點(diǎn)氣象大數(shù)據(jù)存儲體系。這是整個平臺建設(shè)的重點(diǎn)。氣象平臺要支撐所有的業(yè)務(wù),而目前3000多個業(yè)務(wù)系統(tǒng)的使用場景多種多樣,不可能靠一個存儲技術(shù)去解決所有的需求,所以要把這些應(yīng)用場景進(jìn)行歸納,然后從不同的存儲技術(shù)中選擇最適合氣象數(shù)據(jù)應(yīng)用場景以及對應(yīng)的產(chǎn)品。

在選擇產(chǎn)品的過程中,國家氣象局秉持優(yōu)先國產(chǎn)化、開源方式的原則,將多種分布式存儲技術(shù)和產(chǎn)品組合起來形成氣象部門自己的大數(shù)據(jù)存儲體系。

這個大數(shù)據(jù)存儲體系并不是簡單的拼裝,因?yàn)閷τ谕环N數(shù)據(jù)可能采用多個存儲技術(shù),用不同的組織方式把它重復(fù)地進(jìn)行多副本管理。不同的存儲技術(shù)之間的多副本如何保持一致性,是這個存儲體系最核心、也是我們在這里面研發(fā)下的工夫最多的,這就是定制開發(fā)工作。不同數(shù)據(jù)庫之間的同步,尤其是傳統(tǒng)的數(shù)據(jù)庫與現(xiàn)在新型存儲數(shù)據(jù)庫產(chǎn)品之間的同步,沒有現(xiàn)成的工具,需要定制開發(fā),而且也不能簡單地用ETL去實(shí)現(xiàn),因?yàn)镋TL的效率太低。

保持在幾個存儲技術(shù)之間數(shù)據(jù)的一致性,是我們最核心的武器。

我們選擇的存儲技術(shù)包括內(nèi)存數(shù)據(jù)庫、分布式表格系統(tǒng)、分布式關(guān)系型、分析型數(shù)據(jù)庫、分布式的文件系統(tǒng)HDFS、對象存儲、ES等,它們面向的場景都是不一樣的。

同時(shí),數(shù)據(jù)因?yàn)榱糠浅6啵豢赡苋吭诰€,加上增長量十分猛烈,總有數(shù)據(jù)要冷下來,所以要對數(shù)據(jù)進(jìn)行熱、溫、冷三個層次分級存儲,但面向用戶要保持統(tǒng)一。所以氣象局有自研統(tǒng)一的服務(wù)接口,用戶通過一種接口形式就可以獲取數(shù)據(jù),盡管數(shù)據(jù)可能分散在不同的存儲介質(zhì)或者存儲數(shù)據(jù)庫上。

三是統(tǒng)一服務(wù)接口。面向應(yīng)用端提供的是統(tǒng)一服務(wù)接口。因?yàn)榈讓哟鎯夹g(shù)太多,而且隨著信息技術(shù)的發(fā)展,新的存儲技術(shù)還在陸續(xù)補(bǔ)充或者取代其他的技術(shù),但服務(wù)用戶的需求保持不變。從上一代平臺到現(xiàn)今一代平臺,氣象大數(shù)據(jù)平臺已經(jīng)實(shí)現(xiàn)了平穩(wěn)迭代。迭代的過程用戶是無感的,瞬間完成,原因是建立了一個比較好的服務(wù)接口,基于在標(biāo)準(zhǔn)方面展開的大量工作,屏蔽了底層存儲技術(shù)對上層的影響。接口也提供了多種服務(wù)的形式。因?yàn)閼?yīng)用系統(tǒng)比較多,編程習(xí)慣、編程語言都不一樣,所以提供了SDK、web service、REST、腳本、文件目錄服務(wù)以及氣象部門一些比較常用的協(xié)議,像PDS還有OGC的服務(wù)。方式多種多樣,但是標(biāo)準(zhǔn)只有一個。

此外,基于負(fù)載均衡軟件定制了API的網(wǎng)關(guān),API網(wǎng)關(guān)完成用戶的認(rèn)證和授權(quán)、服務(wù)的路由、流量的控制、負(fù)載均衡等等。

四是氣象加工流水線。氣象部門業(yè)務(wù)系統(tǒng)非常多,以前都是各自做自己的加工,但是業(yè)務(wù)之間本身存在業(yè)務(wù)銜接上下游關(guān)系,比方氣象部門先做觀測,之后生成觀測產(chǎn)品,再基于觀測天氣的現(xiàn)象去推演,預(yù)報(bào)推演未來一兩天、7天、14天的天氣,這就是天氣預(yù)報(bào)。天氣預(yù)報(bào)做好之后,要做天氣的預(yù)警產(chǎn)品,這就相當(dāng)于服務(wù)了。

觀測、預(yù)報(bào)、服務(wù)之間產(chǎn)品是上下游關(guān)系。以前都是自己做,要什么數(shù)據(jù)就去找,數(shù)據(jù)到了就加工,加工完之后就保存起來供別人使用,這是脫節(jié)的。

如今建立起了加工流水線,大家把算法都進(jìn)行注冊,告訴平臺需要什么樣的數(shù)據(jù)源,生產(chǎn)出什么產(chǎn)品,什么時(shí)間該啟動,加工流水線平臺自然而然把整個流程串接起來;數(shù)據(jù)源一到就啟動算法,算法逐個運(yùn)行,形成無縫銜接,保持氣象業(yè)務(wù)高效自動運(yùn)轉(zhuǎn)。

加工流水線基于消息總線、分布式調(diào)度算法,全面采用容器技術(shù)。

說實(shí)話,容器技術(shù)能在氣象部門落地,能夠放在如此實(shí)時(shí)核心的業(yè)務(wù)里,當(dāng)時(shí)也是下了很大的決心,因?yàn)槿萜鞯陌l(fā)展趨勢的確是非常好。容器云平臺完全被集成到加工流水線里,形成一種緊耦合的關(guān)系??梢哉f,容器云是加工流水線的一部分,容器云里面的容器“器體”完全按照業(yè)務(wù)邏輯,把算法都封裝在容器里,需要啟動的時(shí)候用K8s調(diào)度接口算法在某些節(jié)點(diǎn)上用起來,而且達(dá)到一種負(fù)載均衡、彈性的調(diào)度。

有了加工流水線之后,氣象部門的些科學(xué)家、業(yè)務(wù)系統(tǒng)的研發(fā)人員的工作就變得非常輕松,因?yàn)樗麄冎饕P(guān)注于算法的邏輯實(shí)現(xiàn),實(shí)現(xiàn)好了之后注冊上來,因?yàn)樵O(shè)置在容器里,無需關(guān)心運(yùn)行環(huán)境、運(yùn)維監(jiān)控,而且它生產(chǎn)出來的產(chǎn)品,直接就放到平臺的數(shù)據(jù)庫里面,不用關(guān)心如何把它發(fā)布出來提供服務(wù),下游自然而然在平臺上就發(fā)布了。

專業(yè)人員做專業(yè)的事情,業(yè)務(wù)人員就減少了很多IT方面的工作量。

五是氣象機(jī)器學(xué)習(xí)平臺,這也是氣象部門近年來發(fā)展的一個重要趨勢。氣象部門做預(yù)報(bào)是以前最主要的業(yè)務(wù)模式,就是用物理動力學(xué)的方法去推演天氣的變化,目前正在積極改進(jìn),如極端天氣需要通過機(jī)器學(xué)習(xí)的方法對數(shù)字預(yù)報(bào)進(jìn)行補(bǔ)充,氣象局就定制化建立了機(jī)器學(xué)習(xí)平臺,我們也會集成一些大家用的比較多的像Tensorflow這樣的學(xué)習(xí)框架,把臺風(fēng)、暴雨、強(qiáng)對流這樣的天氣過程做好訓(xùn)練的樣本機(jī)放到平臺上,還把氣象行業(yè)通用的一些基礎(chǔ)智能算法集成進(jìn)來。

這些基礎(chǔ)給用戶提供兩種建模的方式:第一種是拖拉拽,構(gòu)建算法去訓(xùn)練,第二種是編程,又提供兩種,一是交互式的腳本,簡單的連接上就可以直接去訓(xùn)練,另外像CloudIDE,可以有一個豐富編程的環(huán)境,在上面進(jìn)行調(diào)試,構(gòu)建一個復(fù)雜的機(jī)器學(xué)習(xí)算法。

模型構(gòu)建好之后,平臺對于訓(xùn)練任務(wù)、資源都有一個完善管理流程,訓(xùn)練好成熟之后,就納入加工流水線,變成一個業(yè)務(wù)運(yùn)行。

發(fā)展目標(biāo):全面支撐“云+端”氣象應(yīng)用

剛才介紹了五個功能,這里面還使用到了一些技術(shù),尤其是技術(shù)怎么落地的。其實(shí)氣象部門還用到了數(shù)據(jù)湖、存儲比較多,分批采購的一些分布式NAS、分布式對象存儲,管理起來比較麻煩一些。我們用數(shù)據(jù)湖技術(shù)整個邏輯化,面向上層是一個分布式的系統(tǒng),數(shù)據(jù)湖的技術(shù)也落地了。

氣象大數(shù)據(jù)云平臺去年年底開始在全國運(yùn)行,效果非常好:每天的訪問量8000多萬次,服務(wù)數(shù)據(jù)有143TB,平均訪問耗時(shí)是0.24秒,氣象部門3000多個業(yè)務(wù)系統(tǒng),都是這個平臺提供的數(shù)據(jù)支撐。當(dāng)然,離最終的目標(biāo)還有差距,最終目標(biāo)是3000多個系統(tǒng)都云化。

平臺在不斷地發(fā)展,最終所有氣象部門的數(shù)據(jù)都要存儲在這個平臺里,所有的算法都要在這個平臺上運(yùn)行,算法加工出來的產(chǎn)品也都回到這個平臺上,供其他用戶去使用,最終,應(yīng)用都變成端、一個個輕量級的端,可以快速迭代,不斷去響應(yīng)一些新的需求和服務(wù)的要求。

感謝大家的聆聽,有不對的地方,歡迎大家來討論交流,謝謝!

編后:在當(dāng)天召開的“2022中國數(shù)據(jù)與存儲峰會”東數(shù)西算高峰論壇上,中國信通院云大所副所長栗蔚、英特爾運(yùn)營商事業(yè)部技術(shù)總監(jiān)侯志強(qiáng)、聯(lián)想凌拓存儲產(chǎn)品經(jīng)理徐波以及中國科學(xué)院計(jì)算機(jī)技術(shù)研究所研究員張?jiān)迫戎鞴軉挝活I(lǐng)導(dǎo)、行業(yè)專家也先后發(fā)表致辭或主題演講。

【如需回看此次視頻演講報(bào)告,請關(guān)注DOIT官網(wǎng)或公眾號】

分享到

xiesc

相關(guān)推薦