圖1.杉巖數(shù)據(jù)參展2020中國數(shù)據(jù)與存儲峰會
邱尚高在演講中提到,以5G、大數(shù)據(jù)、人工智能為代表的新興技術深入行業(yè)應用,智能在“端、邊、云”延伸,數(shù)據(jù)的種類和數(shù)量越來越多,企業(yè)對數(shù)據(jù)價值的訴求也更趨強烈,傳統(tǒng)基礎設施面臨著前所未有的挑戰(zhàn)?;跀?shù)據(jù)湖構建集數(shù)據(jù)匯聚、加工、分析、利用于一體的基礎架構成為企業(yè)市場的重要趨勢。
縱觀國內,不論是公有云廠商還是私有云廠商,紛紛基于對象存儲推出差異化的數(shù)據(jù)湖解決方案。對象存儲憑何優(yōu)勢,能夠成為數(shù)據(jù)湖存儲底座的不二之選?在AI+數(shù)據(jù)湖時代,對象存儲又迎來哪些新的場景?針對上述問題,邱尚高作了系統(tǒng)地闡述與分享。
圖2.杉巖數(shù)據(jù)CTO邱尚高出席峰會并作主題演講
一、為什么是對象存儲?
從2006年亞馬遜推出公有云存儲服務(Amazon S3),到2012年阿里云存儲服務(OSS)的面世,再到2016年杉巖數(shù)據(jù)率先推出企業(yè)私有云對象存儲產(chǎn)品(MOS),對象存儲因互聯(lián)網(wǎng)而生,面對海量數(shù)據(jù)場景具備天然優(yōu)勢,逐漸成為大數(shù)據(jù)時代存儲界的后起之秀。
隨著數(shù)據(jù)湖架構在企業(yè)市場中的需求越來越廣泛,存儲作為整個數(shù)據(jù)湖架構的核心要素,承載著企業(yè)近乎全部的數(shù)據(jù)資產(chǎn)。對象存儲究竟有何優(yōu)勢,能夠贏得業(yè)界青睞,成為數(shù)據(jù)湖存儲底座的最佳之選?
1.存儲全類型數(shù)據(jù)
對象存儲采用彈性的分布式架構,靈活對接各類應用,可匯聚不同類型、不同大小的數(shù)據(jù)資源(包括結構化、半結構化、非結構化數(shù)據(jù),大文件、小文件)。
2.支撐海量規(guī)模
傳統(tǒng)文件存儲采用樹形結構,文件增多,目錄層級多,訪問性能驟降。對象存儲采用“桶-對象”的扁平化結構,通過HASH計算檢索文件,海量場景仍然保證高性能,輕松支撐EB級容量空間、千億級文件規(guī)模。
3.多源數(shù)據(jù)統(tǒng)一接口
對象存儲基于標準的S3或OSS接口,實現(xiàn)私有云與公有云數(shù)據(jù)自由流動,以及異構存儲資源納管。
4.云原生支持
文件存儲限于局域網(wǎng)訪問且需要OS掛載,對云場景支撐乏力。對象存儲天然支持跨互聯(lián)網(wǎng)訪問,無需OS掛載更輕量,更適應云原生應用。
5.混合云架構
為了滿足業(yè)務合規(guī)與敏捷性需求,越來越多的企業(yè)選擇將互聯(lián)網(wǎng)應用部署在公有云,以滿足彈性、敏捷的需求;將重要數(shù)據(jù)存放到私有云,以滿足安全、合規(guī)的需求。對象存儲通過S3或OSS接口可無縫對接公有云,快速構建混合云基礎架構,在云端與本地之間實現(xiàn)應用平滑遷移和數(shù)據(jù)自由流動。
通過以上維度對比,對象存儲的優(yōu)勢顯而易見。
二、對象存儲將成為數(shù)據(jù)湖的數(shù)字底座
從國內外市場需求來看,國外的企業(yè)或組織更傾向于采用公有云基礎設施,而國內企業(yè)則是更傾向于私有云,也因此形成了公有云數(shù)據(jù)湖和私有云數(shù)據(jù)湖兩種方案,這里選取3家代表廠商進行簡單介紹。
作為全球公有云市場的領導者,亞馬遜以對象存儲(S3)作為數(shù)字底座,儲存來自不同數(shù)據(jù)源的結構化、半結構化和非結構化數(shù)據(jù),通過安全策略和訪問控制保障數(shù)據(jù)安全,同時支撐數(shù)據(jù)檢索查詢、用戶界面訪問以及數(shù)據(jù)分析處理等能力。
阿里云同樣是以對象存儲(OSS)作為數(shù)字底座,將阿里云上的日志服務、App/Web、數(shù)據(jù)集成等產(chǎn)生的超過10000種數(shù)據(jù)文件類型保存在OSS上,實現(xiàn)海量的數(shù)據(jù)匯聚,消除數(shù)據(jù)孤島;同時為MaxCompute、EMR、機器學習等平臺提供支撐,無縫對接超過100種計算引擎,賦能業(yè)務創(chuàng)新。
圖3.阿里云基于對象存儲OSS構建數(shù)據(jù)湖方案
作為國內對象存儲市場的領導者,杉巖數(shù)據(jù)也推出了面向私有化場景的智能數(shù)據(jù)湖解決
方案。該方案基于MOS海量對象存儲構建海量空間,實現(xiàn)數(shù)據(jù)庫、非結構化文件、流數(shù)據(jù)等多源數(shù)據(jù)匯聚;通過納管異構存儲實現(xiàn)硬件利舊;通過高性能數(shù)據(jù)湖文件網(wǎng)關MosFS對接Hadoop、TensorFlow等分析處理平臺,深化價值利用;一體化方案賦能業(yè)務創(chuàng)新,為智慧金融、智能制造、智慧教育等行業(yè)變革提供基礎架構支撐。
圖4.杉巖數(shù)據(jù)基于MOS對象存儲的數(shù)據(jù)湖方案
三、AI+數(shù)據(jù)湖時代,對象存儲的新場景
對于企業(yè)客戶而言,貼合實際場景、解決當前痛點、滿足未來就緒的方案才是好方案。邱尚高結合一些新興的應用場景,向與會人士介紹了MOS對象存儲以及智能數(shù)據(jù)湖方案如何為客戶創(chuàng)造價值。
1.大數(shù)據(jù)存算分離
傳統(tǒng)大數(shù)據(jù)分析平臺(如Hadoop)存在諸多弊端:HDFS多采用三副本,空間利用率低;存儲與計算捆綁擴容,拉高成本;Hadoop升級不夠靈活,無法享受新版本計算特性。杉巖方案可提供存算分離架構,MOS支持糾刪碼和冷熱數(shù)據(jù)分層,使磁盤利用率提升80%;存儲與計算獨立擴容,有效降低成本;存儲與計算獨立升級,更加靈活。
2.數(shù)據(jù)智能處理
MOS依托智能數(shù)據(jù)處理引擎,將數(shù)據(jù)處理能力下沉到存儲系統(tǒng)內部?;诓呗杂|發(fā),MOS海量對象存儲可以自動完成圖片轉碼、視頻抽幀、OCR識別等處理任務,簡化業(yè)務流程,提升處理效率。以智能制造為例,杉巖MOS已經(jīng)幫助UTAC(聯(lián)測優(yōu)特半導體)提升智能質檢效率,通過生命周期管理策略設定,在MOS內部完成質檢圖片的存儲、格式轉換、冷熱分層和過期自動刪除,節(jié)省80%存儲空間,大幅降低成本并簡化了業(yè)務流程。
3.機器學習
在MOS之上通過MosFS高性能數(shù)據(jù)湖文件網(wǎng)關,為TensorFlow等機器學習平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口,滿足AI算法的模型訓練和推理、數(shù)據(jù)歸檔的需求。以自動駕駛場景為例,車輛采集的視頻、雷達數(shù)據(jù)通過文件或對象接口導入MOS,然后通過HDFS接口對數(shù)據(jù)預處理,預處理結果再通過文件接口由計算服務器進行AI訓練和高性能仿真,從而得到新的算法和模型進行下一輪測試。整個過程中,一套存儲同時在線、近線、離線使用,數(shù)據(jù)集中歸檔無須拷貝,空間利用率更高、數(shù)據(jù)更安全。
4.IPFS(Inter Planetary File System)
IPFS場景對底層存儲的需求可歸納為幾點:龐大的算力集群要求存儲吞吐量在100Gbps以上,以保證封裝數(shù)據(jù)的寫入效率;每天48次(30分鐘一次)的全量證明需要極高的隨機讀取效率;數(shù)據(jù)持續(xù)可讀(歷史數(shù)據(jù)不刪除)使得增量巨大(每周PB級),要求存儲提供EB級以上容量;超大容量必然由超大集群支撐,高效運維也是剛需。杉巖MOS除了提供EB級海量空間和300Gbps以上的超大吞吐量,還專門針對IPFS數(shù)據(jù)讀作性能優(yōu)化,將數(shù)百次隨機讀請求合并為一個請求,極大提升效率;基于糾刪碼(22+2)技術,空間利用率超過91%,硬件成本縮減60%以上;通過多故障域隔離和智能DNS分配技術,輕松管控超大規(guī)模存儲集群,在提升數(shù)據(jù)可靠性的同時降低運維復雜度。
5.云原生OLAP
對海量非結構化數(shù)據(jù)的分析需求催生了云端數(shù)據(jù)湖的應用,杉巖針對云原生OLAP場景同樣提供了解決之道,通過MOS無縫對接云原生的數(shù)據(jù)湖,幫助企業(yè)快速構建高性能的OLAP服務。對“HDFS+傳統(tǒng)數(shù)據(jù)倉庫”而言,海量場景下的性能、并發(fā)性和易用性成為難以避免的災難。杉巖的“MOS+云原生數(shù)據(jù)倉庫”方案,依托彈性架構提供更強的擴展性、高可用性和并發(fā)訪問能力,在EB級海量數(shù)據(jù)面前保證優(yōu)異性能,利用糾刪策略、數(shù)據(jù)分層等特性盡可能降低成本,采用存算分離架構極大提升靈活性,幫助客戶對海量數(shù)據(jù)極速分析,輕松把握商業(yè)趨勢,及時應對各種變化。
不難看出,杉巖數(shù)據(jù)植根場景需求,已經(jīng)圍繞MOS海量對象存儲構建起了相對完善的數(shù)據(jù)湖解決方案,為企業(yè)應對數(shù)據(jù)挑戰(zhàn)、推進業(yè)務創(chuàng)新提供了新的、極具競爭力的選項。