遙感器搜集到的原始數(shù)據(jù)經(jīng)過接收裝置接收后,進行集中式存儲,通常是以非結(jié)構(gòu)化文件的形式保存。原始數(shù)據(jù)的可讀性很差,通常需要進行加工處理后,才便于分析。根據(jù)分析內(nèi)容和側(cè)重點不同,原始數(shù)據(jù)的加工處理方法也不同,同一套原始數(shù)據(jù)經(jīng)常需要反復(fù)讀取和處理。最后,處理后的數(shù)據(jù)也會保存在存儲系統(tǒng)中,可能以非結(jié)構(gòu)化文件形式保存,也可能導(dǎo)入結(jié)構(gòu)化的數(shù)據(jù)庫中,方便以后查閱,或與前端應(yīng)用系統(tǒng)集成。
需求分析
存儲類型
衛(wèi)星遙感的數(shù)據(jù)處理系統(tǒng)對存儲類型需求多樣。衛(wèi)星遙感的原始數(shù)據(jù)主要為巨大的非結(jié)構(gòu)化的文件數(shù)據(jù),這些原始數(shù)據(jù)的存儲、處理需要基于文件系統(tǒng)的非結(jié)構(gòu)化存儲系統(tǒng)作為支撐;經(jīng)處理后的結(jié)果數(shù)據(jù),通常需要導(dǎo)入數(shù)據(jù)庫用于后期查詢和應(yīng)用,需要結(jié)構(gòu)化存儲系統(tǒng)來支持;此外,整套系統(tǒng)也有數(shù)據(jù)歸檔備份相關(guān)的需求,需要相應(yīng)的數(shù)據(jù)歸檔備份存儲系統(tǒng)。
存儲容量
衛(wèi)星遙感的原始數(shù)據(jù)量非常巨大,取得這些數(shù)據(jù)的成本和代價高昂,數(shù)據(jù)的重要性非常高,需要海量的存儲系統(tǒng)對數(shù)據(jù)進行保存。從目前的應(yīng)用情況看,有的系統(tǒng)對存儲容量的需求會高達上百PB級。
存儲性能
衛(wèi)星遙感的數(shù)據(jù)存儲及處理對存儲系統(tǒng)的性能要求很高,特別是并發(fā)IO帶寬。主要針對原始數(shù)據(jù)的非結(jié)構(gòu)存儲系統(tǒng),在原始數(shù)據(jù)采集導(dǎo)入的時候需要較高的寫入帶寬,需要通過條帶化等處理方式加快原始數(shù)據(jù)寫入,避免成為性能瓶頸;原始數(shù)據(jù)的處理需要頻繁的讀入原始數(shù)據(jù),通常都是通過MPIO等數(shù)據(jù)并行方式來加快并行處理速度,這需要非結(jié)構(gòu)存儲系統(tǒng)提供充足的并發(fā)讀帶寬;對于結(jié)構(gòu)化存儲系統(tǒng),同樣有很高的性能要求,衛(wèi)星遙感的數(shù)據(jù)庫非常龐大,前端應(yīng)用系統(tǒng)對數(shù)據(jù)的查詢調(diào)用開銷很大,需要通過有效的方式提高數(shù)據(jù)庫的查詢性能,減小前端系統(tǒng)的等待時間。
可擴展性
衛(wèi)星遙感數(shù)據(jù)是海量的,且存儲容量和存儲性能隨著業(yè)務(wù)量的增長而增長。通常一套系統(tǒng)的建設(shè)初期數(shù)據(jù)存儲和處理量不大,但未來會出現(xiàn)爆發(fā)式的增長。如果采用一次性投入的方式,前期會造成較大的資源浪費,后期存儲系統(tǒng)容量及性能不足的時候又較難擴展。因此,較合理及高性價比的方案是采用分批建設(shè),這就要求整套存儲系統(tǒng)具有及高的可擴展性,最好能支持在線擴展,避免擴展時對業(yè)務(wù)系統(tǒng)造成中斷。同時,系統(tǒng)擴展時需要做到存儲容量和性能的線性增長。
分級存儲
衛(wèi)星遙感的數(shù)據(jù)量非常巨大,合理的分級存儲機制同樣是降低系統(tǒng)整體成本,提高效率的有效手段。存儲系統(tǒng)可分為在線、近線、離線等部分。在線存儲系統(tǒng)的性能最好、容量相對較小,主要用于存儲和處理“熱點數(shù)據(jù)”;近線存儲系統(tǒng)的性能相對較低,容量較大,主要用于存放較少訪問的數(shù)據(jù);離線存儲一般為數(shù)據(jù)歸檔備份系統(tǒng),用于對歷史數(shù)據(jù)進行歸檔,或者對關(guān)鍵數(shù)據(jù)進行備份。
解決方案
根據(jù)對衛(wèi)星遙感領(lǐng)域的大數(shù)據(jù)需求分析,曙光衛(wèi)星遙感數(shù)據(jù)存儲處理系統(tǒng)的整體解決方案框架如下:
在數(shù)據(jù)存儲層,Parastor分布式并行存儲系統(tǒng)負責非結(jié)構(gòu)化衛(wèi)星遙感原始數(shù)據(jù)的存儲,Parastor具有大容量、高帶寬、線性擴展、易管理、高性價比等特性,自動支持分級存儲,支持Windows/Linux等多種客戶端,可通過千兆/萬兆以太網(wǎng)或InfiniBand高速網(wǎng)提供全局共享的統(tǒng)一文件系統(tǒng)存儲;結(jié)構(gòu)化存儲系統(tǒng)通過DCstor存儲虛擬化控制系統(tǒng)將磁盤陣列存儲設(shè)備整合成存儲資源池,同樣具有線性擴展的特性,支持存儲分級和自動精簡配置,提供FC SAN訪問接口,用于結(jié)構(gòu)化數(shù)據(jù)庫存儲,再結(jié)合XData結(jié)構(gòu)化數(shù)據(jù)查詢分析系統(tǒng),實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的高速查詢及分析;DBstor歸檔備份系統(tǒng)提供非結(jié)構(gòu)化文件及結(jié)構(gòu)化數(shù)據(jù)庫的歸檔或備份,支持磁帶庫、虛擬帶庫等存儲設(shè)備。
在應(yīng)用層,數(shù)據(jù)采集接收系統(tǒng)負責接收衛(wèi)星數(shù)據(jù)資料,并將這些原始數(shù)據(jù)并發(fā)寫入Parastor分布式并行存儲系統(tǒng);數(shù)據(jù)處理高性能計算集群負責原始數(shù)據(jù)的加工處理,由統(tǒng)一的作業(yè)調(diào)度系統(tǒng)進行資源管理和任務(wù)分配,Parastor的高帶寬為數(shù)據(jù)處理的數(shù)據(jù)并行提供了充分保障,數(shù)據(jù)計算處理完成后,通過數(shù)據(jù)庫服務(wù)器寫入到DCstor結(jié)構(gòu)化存儲資源池中。前端應(yīng)用服務(wù)器可通過XData數(shù)據(jù)查詢分析系統(tǒng)進行結(jié)構(gòu)數(shù)據(jù)的快速查詢及分析,前端應(yīng)用服務(wù)器也可對Parastor上的原始數(shù)據(jù)進行查詢及分析。
整套系統(tǒng)通過曙光Gridview監(jiān)控管理平臺對存儲系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、計算集群、應(yīng)用系統(tǒng)等進行統(tǒng)一監(jiān)控和管理。
曙光衛(wèi)星遙感領(lǐng)域大數(shù)據(jù)整體解決方案,針對衛(wèi)星遙感的行業(yè)應(yīng)用特點,提供了多種類型的存儲資源,支持Windows/Unix/Linux等異構(gòu)平臺,存儲系統(tǒng)具有大容量、高并發(fā)、高帶寬、高性能、高可擴展性等典型特征,滿足衛(wèi)星遙感的數(shù)據(jù)存儲和處理分析需求,還通過分級存儲、自動精簡配置等方式提高存儲資源的利用效率、降低投入和運行成本。大數(shù)據(jù)存儲系統(tǒng)與數(shù)據(jù)處理系統(tǒng)、前端應(yīng)用系統(tǒng)等無縫結(jié)合,并提供了統(tǒng)一的監(jiān)控和管理平臺,易于管理和使用。