這支團隊,由三家來自中國的機構(gòu)共同組建。

他們這次所做的具體任務(wù),叫做30X人類全基因組測序(WGS)胚系變異分析。

(其中,“30X”是指全基因組測序的深度)

而在這個團隊之前,同等條件下完成這項任務(wù)所需的時間,卻長達近24小時之久。

所以咱就是說,現(xiàn)在的“battle”結(jié)果就是——24小時 vs 7分鐘,性能整個提升了200多倍!

圖片2.jpg

與此同時,在相同條件下的計算成本還降低了80%,存儲成本也下降30%。

但更重要的一點是,這事可能和你我都息息相關(guān)。

因為基因預測的一個用途,就是檢測罹患多種疾病的可能性,鎖定個人病變基因,以此來提前預防和治療。

(P.s.世界著名演員安吉麗娜朱莉就這么做過。)

聽起來確實是個好事,但如果放到過去,由于既耗時又費錢,能做得起基因預測的人屈指可數(shù)。

但今時不如往日,隨著算力、AI、大數(shù)據(jù)技術(shù)的不斷發(fā)展和融合,讓基因測序這樣數(shù)據(jù)密集型應用變得越發(fā)親民。

而這一次的“7分鐘”,可以說是把基因測序這件事往“平民時代”更推近了一步。

圖片3.jpg

△ 圖源:美國國家衛(wèi)生研究院(NIH)

那么接下來的問題便是,為什么這支隊伍的方法,就能做到“快好省”呢?

從24小時到7分鐘,他們是怎么辦到的?

人類全基因組測序要做的事,就是對未知基因組序列的物種進行個體的基因組測序。

但非常明顯的一個難題,就是其數(shù)量過于龐大

畢竟對象可是組成人體2.5萬基因的約30億堿基對,換算成容量大小則約為3GB。

圖片4.jpg

但這還不算完,為了保障基因數(shù)據(jù)的完整性,在此基礎(chǔ)上還需要做30次的平行測試。

如此一來,在最終測序完成之后,全基因組的數(shù)據(jù)量便將達到約100G。

而且隨著技術(shù)的不斷迭代演進,數(shù)據(jù)的存儲已經(jīng)從最初的人類基因組開始細分擴展,逐步涉及到腫瘤、遺傳病的檢測等等。

也正是因為數(shù)據(jù)量和數(shù)據(jù)種類的日益龐大,使得這方面的工作數(shù)據(jù)存儲,動輒便以PB為單位來保存。

這就直接影響到了諸如基因采樣、樣本制作、數(shù)據(jù)下機、生信分析以及后基因測序等環(huán)節(jié)。

但更為重要的是,諸如基因這樣的數(shù)據(jù),隱私安全是非常值得注重的一環(huán),而也正因為數(shù)據(jù)量的爆發(fā)式增長,使得數(shù)據(jù)安全管理、存儲和分析變得異常困難。

團隊在面對這些挑戰(zhàn)所選擇的突破口,并不是大多數(shù)人以為的強行堆算力,而是用底層數(shù)據(jù)存儲的飛躍來做到提速。

簡單來說,就是通過把以往不能合并處理的海量數(shù)據(jù),打破它們之間的壁障,讓整體的處理效率“更上一層樓”。

具體而言,他們所提出的解決方案便是大規(guī)模多組學數(shù)據(jù)并行加速分析平臺。

據(jù)介紹,華西醫(yī)院在這項工作中主要負責頂層設(shè)計,包括多模態(tài)組學數(shù)據(jù)分析和基因應用等。

華為在存儲方面,提供高性能數(shù)據(jù)存儲和基因數(shù)據(jù)管理系統(tǒng)的技術(shù)支持。

……

而縱觀整個流程,數(shù)據(jù)存儲的環(huán)節(jié)最為重要,可以說是貫穿始末:

·基因測序階段:存儲系統(tǒng)需要足夠的穩(wěn)定性,來保障過程不被中斷;

·基因數(shù)據(jù)分析階段:要有足夠處理小文件等任務(wù)的能力;

·數(shù)據(jù)歸檔階段:能夠?qū)⒒驍?shù)據(jù)長期、安全、完整地保存起來。

由此可見,存儲系統(tǒng)就像是一根“定海神針”,牢牢地把握著海量數(shù)據(jù)任務(wù)的“命脈”。

那么接下來的一個問題便是——團隊此次能夠打破世界紀錄,它的專屬“定海神針”又是什么?

世界頂級選手在背后發(fā)力

不賣關(guān)子,團隊在這項任務(wù)中的存儲系統(tǒng),便是來自華為面向高性能數(shù)據(jù)分析(HPDA)的分布式存儲OceanStor Pacific系列。

圖片5.jpg

它是一種可大規(guī)模橫向擴展的智能分布式存儲,可以hold住高性能計算、AI應用、數(shù)據(jù)庫、大數(shù)據(jù)分析和海量數(shù)據(jù)備份歸檔等業(yè)務(wù)需求。

而OceanStor Pacific之所以能協(xié)助團隊在此次任務(wù)中打破世界紀錄,是因為它自身就是頭頂“世界頂級選手”光環(huán)的那種存儲系統(tǒng)。

在國內(nèi)范圍來看,更是獨秀一枝,不論是整體、文件存儲、對象存儲還是塊存儲方面,都是穩(wěn)居市場第一。

而且不僅是市場方面的表現(xiàn),從性能榜單上來看亦是如此。

這不,就在前不久IO500 (高性能計算領(lǐng)域針對存儲性能最權(quán)威世界排行榜之一)發(fā)布的最新榜單中,華為存儲HPDA Lab(由華為OceanStor Pacific存儲支撐)位列第二。

圖片6.jpg

那么問題來了,OceanStor Pacific系列存儲憑什么?

從官方對它的介紹中,我們挖到了一條線索,那便是“新一代”

圖片7.jpg

這個“新”,可以總結(jié)為三個方面。

首先是超高密設(shè)計。

以O(shè)ceanStor Pacific 9950為例,它具備單框8節(jié)點,5U、80盤位的特性。

圖片8.jpg

而之所以能如此“能裝”,是因為它將各種SSD(固態(tài)硬盤)都設(shè)計的非常小巧:

圖片9.jpg

另外一款5U、120盤位的OceanStor Pacific 9550,更是能夠達到單框最大可提供2.4PB的裸容量。

如此超高密度的設(shè)計,便可以支撐海量數(shù)據(jù)的存儲。

基于這樣的硬件設(shè)計之下,便是華為存儲的第二個特性——“多到一,一到多”,具體來講就是:

多套存儲變一套,一套存儲支持多樣化算力。

圖片10.jpg

導致這樣做的原因,根本上是高性能存儲面臨的負載類型越發(fā)復雜多樣。

傳統(tǒng)的做法就是來一個負載類型,就部署一個對應類型的存儲;但這樣做的結(jié)果,就是容易產(chǎn)生“孤島現(xiàn)象”,而且不利于提高整體的效率。

而理想的狀態(tài)就是存儲系統(tǒng)可以滿足一個“既要又要”——高帶寬、高IOPS。

(帶寬型方面的衡量標準是單位時間內(nèi)的數(shù)據(jù)總吞吐量;而IOPS則是單位時間內(nèi)能處理的總的IO請求量、以及每個IO的處理時延。)

對此,華為存儲所采用的策略就有點“隨機應變”的味道了。

例如存儲系統(tǒng)在面對大文件時,就對應“大I/O”,采用直通方式將數(shù)據(jù)寫到磁盤。

圖片11.jpg

這樣做的結(jié)果,就讓大文件的寬帶處于業(yè)界2倍的水平。

而當與之相對的小文件到來時,就對應“小I/O”,主要是將數(shù)據(jù)聚合后寫到磁盤:

圖片12.jpg

如此一來,就可以在理想的時延下提升磁盤空間的利用率,而且小文件的隨機性能也達到了業(yè)界的5倍。

OceanStor Pacific系列存儲的第三個獨特性,便是打通協(xié)議的“任督二脈”。

華為存儲提出這個特性的大背景,是因為現(xiàn)在在處理諸如基因測序這樣的任務(wù)時,數(shù)據(jù)往往會呈現(xiàn)多種格式,例如文件、對象、大數(shù)據(jù)等等。

也正因如此,以往在整個數(shù)據(jù)處理過程中,單是數(shù)據(jù)轉(zhuǎn)化、拷貝、加載這樣的工作就占到了35%的時間。

于是,為了這方面的提高效率,就需要新的“協(xié)議互通”技術(shù)。

而這種新技術(shù)并不是指“共池”,在本質(zhì)上是有著很大的區(qū)別。

“共池”主要共享硬件資源池,是在一套硬件上劃分出多個獨立的邏輯資源池,并根據(jù)不同的數(shù)據(jù)類型做部署。

但問題在于每個邏輯資源池只支持一種協(xié)議訪問,也就是說跨協(xié)議的時候,還是需要經(jīng)過“數(shù)據(jù)拷貝”的過程:

圖片13.jpg

華為存儲提出的“協(xié)議互通”技術(shù)則不然,實現(xiàn)的是多個協(xié)議共用一個硬件資源池。

而且還是同時支持文件、對象、大數(shù)據(jù)等多種協(xié)議訪問的那種:

圖片14.jpg

換言之,現(xiàn)在當一份數(shù)據(jù)“走進”存儲系統(tǒng)后,不再需要做任何的轉(zhuǎn)換了,可以直接被其它協(xié)議直接訪問。

這便是打通協(xié)議“任督二脈”的奧義所在了。

而也正是因為剛才講到的這些獨有“功夫”,華為存儲,這個世界級選手所涉足的領(lǐng)域早已不僅限于基因測序。

還有眾多諸如此類的海量數(shù)據(jù)場景,例如能源勘探、氣象海洋、智能制造、超算中心等等。

……

不難看出,華為在數(shù)據(jù)存儲這一塊,可謂是內(nèi)修功法、外用其力。

那么最后一個問題便是:

數(shù)據(jù)存儲,為什么這么重要?

因為一個非常明顯的趨勢是:

在智能時代之下,數(shù)據(jù)存儲已經(jīng)成為數(shù)據(jù)密集型應用瓶頸

或許你會說,數(shù)據(jù)量大,哪怕是PB級別,把算力堆上去不就可以了嗎?

確實,在過去一段時間里,在處理像基因測序、生物制藥等數(shù)據(jù)密集型應用時,大家似乎都會關(guān)注其背后的高性能計算(HPC)的效果如何。

每年的HPC Top 500 高性能計算機排行榜,也成為公眾備受關(guān)注的“保留節(jié)目”。

但隨著數(shù)據(jù)爆發(fā)式的增長,以及AI技術(shù)的不斷推陳出新,數(shù)據(jù)密集型應用的發(fā)展不再僅僅聚焦在算力方向。

正如IDC所統(tǒng)計的那般:

全球67%的高性能計算中心已經(jīng)在使用AI、大數(shù)據(jù)相關(guān)技術(shù)。

換言之,HPC、AI和大數(shù)據(jù),它們?nèi)齻€融合的速度正在加快。

也正因如此,數(shù)據(jù)密集型應用正在步入一個新的時代—— 高性能數(shù)據(jù)分析 (HPDA)。

在這個時代之下,類似自動駕駛、基因測序等任務(wù),對于數(shù)據(jù)分析的實時性要求越來越高。

而要實現(xiàn)這一點,也正如剛才我們所闡述的,離不開“數(shù)據(jù)存儲系統(tǒng)”這一夯實的底座。

唯有這根“定海神針”足夠穩(wěn)固、扎實,且需得具備技術(shù)上的創(chuàng)新,才能保證其上層的工作以及上層與之的交互暢通無阻。

但比起應用方面的絲滑,通過推進新一代存儲系統(tǒng)(即HPDA)來進一步發(fā)展數(shù)據(jù)密集型應用,這件事還具有更深遠的意義。

例如油氣地震勘探也在進入海量數(shù)據(jù)時代,需要采用大量的高性能計算和大數(shù)據(jù)分析技術(shù)。

但痛點也正如剛才我們提到的,其間的任務(wù)絕不是單一的,所產(chǎn)生的數(shù)據(jù)類型、結(jié)構(gòu)也是紛繁復雜。

而通過新一代存儲系統(tǒng)的優(yōu)勢,就可以做到規(guī)?;y(tǒng)一部署,以此來提高整體流程的效率。

圖片15.jpg

再如超算中心、智能醫(yī)療、自動駕駛,甚至是宇宙探測等,均是需要HPDA的能力來完成對海量數(shù)據(jù)的高效分析。

這些亟需注入“新力量”的領(lǐng)域,恰恰正是科技、經(jīng)濟強國所發(fā)力的地方。

從另一種角度來看,新一代數(shù)據(jù)存儲正在成為國家的關(guān)鍵基礎(chǔ)設(shè)施,堪稱“國之重器”。

圖片16.jpg

而華為OceanStor Pacific系列存儲,無論是從市場份額、技術(shù)實力排名等等,均已成為國產(chǎn)新一代數(shù)據(jù)存儲系統(tǒng)中的不二之選。

但比起亮眼的成績,在最重要的實際行動方面,華為OceanStor Pacific系列存儲也已經(jīng)是處于“進行時”了。

至于接下來在HPDA時代中,新一代數(shù)據(jù)存儲的技術(shù)進步還將結(jié)出怎樣的碩果,是值得拭目以待了。

參考鏈接:

[1]https://en.wikipedia.org/wiki/Human_Genome_Project

[2]https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost

[3]https://io500.org/

分享到

songjy

相關(guān)推薦