昆騰解決方案工程架構師劉曉哲

大家好,我是昆騰的曉哲,很榮幸今天在這里跟各位老師和專家分享一下昆騰在大模型海量數(shù)據(jù)方面的解決方案。我的分享內容有三個方面,昆騰公司的簡介,海量數(shù)存儲的解決方案y以及相關的實踐案例。

昆騰公司已經有40多年的歷史,一直致力于數(shù)據(jù)生命周期的研發(fā),在各個領域積累了大量的客戶和數(shù)據(jù)資源。在全球范圍內,昆騰擁有很多的大客戶,比如國內外的云廠商、金融機構還有國家級實驗室等。

在媒體內容創(chuàng)作領域,昆騰的StorNext文件系統(tǒng)可以支持媒體行業(yè)高性能數(shù)據(jù)流的計算。大家所知道的好萊塢電影《阿凡達》就是在昆騰存儲系統(tǒng)上實現(xiàn)后期制作和渲染。在視頻監(jiān)控領域,昆騰與很多廠商合作實現(xiàn)視頻數(shù)據(jù)存儲。在數(shù)據(jù)歸檔領域,昆騰擁有ActiveScale對象存儲的冷數(shù)據(jù)存儲整體解決方案。數(shù)據(jù)保護領域是昆騰的強項,主要是物理磁帶庫和虛擬磁帶庫兩個產品線。

在海量數(shù)據(jù)場景下,如何降低整體的TCO?昆騰多年積累了很多客戶,實現(xiàn)低成本的海量數(shù)據(jù)的存儲。在全球,我們管理著超過40EB的數(shù)據(jù)量。這些數(shù)據(jù)因為各種合規(guī)與法律要求,需要長時間保存,這會造成成本的急劇上升。IDC的報告顯示,大量產生的數(shù)據(jù)中只有10%是熱數(shù)據(jù),還有30%是溫數(shù)據(jù),剩余的60%是冷數(shù)據(jù)。我們發(fā)現(xiàn),并不需要頻繁訪問的溫冷數(shù)據(jù)占用了很多的存儲資源,并產生了大量的能耗,怎么降低這些成本呢?

我們要降低存儲成本、長期保存,磁帶是最理想的介質。磁帶本身能耗很低,而且成本也很低。現(xiàn)在存儲能耗是一個很大的挑戰(zhàn),而且能耗成本是隨著數(shù)據(jù)的快速增長而增長的。

根據(jù)IDC的報告,在2025年以后有2%的數(shù)據(jù)存在磁帶的介質上,為什么有這么多數(shù)據(jù)往磁帶上轉呢?就是因為成本。磁帶存儲的整體TCO是最低的,因此很多云服務商與昆騰都有合作,比如大家都熟知的微軟、谷歌等。昆騰為它們提供了深度歸檔的存儲系統(tǒng),后端其實就是磁帶。

為什么大家會選擇磁帶呢?我們以十年為一個數(shù)據(jù)的生命周期,磁帶與磁盤還有云做一個對比。用現(xiàn)在市面上主流的LTO-8磁帶做整體成本的分析,大家會發(fā)現(xiàn),隨著數(shù)據(jù)量的增長,磁帶成本是最低的。以前經常提到磁帶的讀寫問題,但目前磁帶已經具有極低的誤碼率;而且磁帶具備清晰的技術路線圖。磁帶還有一個優(yōu)勢是通過驅動器讀寫的,而昆騰磁帶庫可以根據(jù)客戶需求定制化提供多個驅動系統(tǒng),它們是獨立的,之間的讀寫互相不受影響,而且寫的速度也有保證。

除了低成本,磁帶存儲還能極好地抵御病毒的侵襲。磁帶可以與服務器或者普通存儲形成隔離區(qū)域,數(shù)據(jù)不會被感染被破壞。昆騰磁帶存儲的數(shù)據(jù)可以保存30年甚至50年,同時在能耗方面,磁帶平時的能耗基本為零,其主要能耗由驅動器產生,但是能耗也是非常低的。

磁帶目前主流的技術標準叫LTO,LTO聯(lián)盟開放了很多專利,并形成了統(tǒng)一的技術標準。目前最新的LTO-9磁帶,每盤容量為18TB,壓縮的話可以達到45TB。磁帶通過驅動器進行讀寫,速度可以達到400MB每秒。在最新的磁帶發(fā)展路線圖中,LTO聯(lián)盟的實驗室已經研發(fā)出單盤容量為576TB的第14代磁帶產品。

昆騰的磁帶庫Scalar i6000被國內外互聯(lián)網廠商大量應用。Scalar i6000磁帶庫可以裝載14000盤磁帶,配備192個驅動器,每個驅動器的速度可以達到400MB每秒。

基于磁帶庫,昆騰提供兩套非結構化數(shù)據(jù)管理平臺。目前有兩個整體方案,一個是與前面提到的StorNext文件系統(tǒng)結合,根據(jù)客戶業(yè)務實現(xiàn)定制策略文件和對象的自動遷移;第二個是ActiveScale對象存儲,能夠實現(xiàn)同對象存儲和磁帶的按策略遷移,這是昆騰獨有的產品,通過對象存儲和帶庫結合,通過S3標準協(xié)議實現(xiàn)數(shù)據(jù)自動遷移到帶庫。

基于昆騰StorNext文件系統(tǒng)實現(xiàn)的歸檔的整體解決方案,可以根據(jù)客戶不同的業(yè)務定制前端的接口,通過數(shù)據(jù)存儲到StorNext系統(tǒng)實現(xiàn)數(shù)據(jù)的遷移,這個存儲可以是對象、帶庫也可以是公有云。與其他普通的對象存儲解決方案來比,可減少了50%以上的技術成本。相對海量數(shù)據(jù),昆騰的磁帶可以實現(xiàn)長達數(shù)十年的保存與保護,而且保證數(shù)據(jù)能夠很好的隔離。

昆騰ActiveScale Cold Storage是一套兼具可靠性和超低TCO的冷數(shù)據(jù)解決方案,這套方案昆騰引入了糾刪碼的技術。前端是昆騰的分布式對象存儲,可以實現(xiàn)通過糾刪碼來滿足數(shù)據(jù)的履約,并降低整體成本,后端接入昆騰磁帶庫并同樣實現(xiàn)了糾刪的技術?;诶ヲv的RAIL技術架構,數(shù)據(jù)放在磁帶下,磁帶庫的糾刪目前只有昆騰一家可以實現(xiàn)。昆騰實現(xiàn)的糾刪是基于磁帶庫層面的糾刪,同時還能在磁帶庫內實現(xiàn)跨磁帶,同時可以在磁帶內部做糾刪碼的設置。昆騰實現(xiàn)了三個級別的糾刪,在磁帶內部跨磁帶跨帶庫實現(xiàn)數(shù)據(jù)的冗余,同時降低整體建設和成本。

在海量數(shù)據(jù)中,存在很多的小文件。昆騰對小文件場景做了特殊優(yōu)化,將小文件實現(xiàn)聚合之后寫進磁帶,這樣避免了很多小文件讀取或者恢復量的問題。

一句話總結一下,昆騰數(shù)十年在整個數(shù)據(jù)生命周期內做的技術研發(fā),都是為了確?!白寯?shù)據(jù)在正確的時間存在正確的位置并用正確的成本”。

最后分享兩個案例。

我們與國家級基因研究所的合作,實現(xiàn)整體數(shù)據(jù)分析還有數(shù)據(jù)歸檔。前端有很多廠家存儲系統(tǒng)由不同研究人員使用,最后我們將前端數(shù)據(jù)歸到昆騰StorNext高性能文件系統(tǒng)上,實現(xiàn)基于數(shù)據(jù)的分析,分析完成之后,這些分析數(shù)據(jù)需要長時間保存,這套系統(tǒng)可以自動化地將數(shù)據(jù)寫到磁帶庫上。昆騰的系統(tǒng)有一個特點——雖然把數(shù)據(jù)歸檔,前端目錄結構不會有任何變化,需要訪問的話直接雙擊或者通過軟件調用文件名稱數(shù)據(jù)自動實現(xiàn)回調,免去很多的維護成本。

針對互聯(lián)網廠商的超大規(guī)模冷數(shù)據(jù)存儲,昆騰可以實現(xiàn)上百個節(jié)點,通過數(shù)據(jù)寫入還能夠實現(xiàn)糾刪,將數(shù)據(jù)寫到磁帶上。經過大致的測算,昆騰的解決方案能幫客戶節(jié)省40%—50%的成本。

周所周知,磁帶使用的場景主要是冷數(shù)據(jù)的存儲。對于海量的溫冷數(shù)據(jù),磁帶是成本及能耗等多個方面最為合適的介質。

這是我今天的分享,謝謝大家!

分享到

崔歡歡

相關推薦