華大基因高性能計算研發(fā)主管王丙強(qiáng)

挑戰(zhàn)一:數(shù)據(jù)量和計算能力的不匹配

一個細(xì)胞里有23對染色體,一個細(xì)胞的染色體拉開有兩米長,上面有30G個的基因序列。面對如此龐大的人類基因組序列數(shù)量,如何才能在有效的時間內(nèi)對基因序列進(jìn)行測試、比對和研究?

王丙強(qiáng)談道,測序儀全速運(yùn)轉(zhuǎn)每天所產(chǎn)生的數(shù)據(jù)超過10 TB。華大基因現(xiàn)在已經(jīng)有20個PB的存儲了,這些數(shù)據(jù)怎么計算?計算能力的匹配是個大問題。

最初,華大基因試圖采用CPU來壓縮數(shù)據(jù)的方法來解決問題,但是文件大小超過幾個GB甚至TB的時候,CPU就受不了。因此,華大基因開始考慮另一個方式——用NVIDIA Tesla GPU來加速數(shù)據(jù)的壓縮。通過與天津超算中心合作,把大部分重點的計算內(nèi)容都放到天河一號A上運(yùn)行。

挑戰(zhàn)二:臨床診斷要求高時效性

人類的基因中專有基因大概是小于5%,剩下90%都是非編碼的區(qū)域,非編碼區(qū)域就是奧秘所在。不同的人基因組99.9%是一樣的,只有剩下百分之零點幾不一樣,這才是真正值得關(guān)注的地方。如果基因變異發(fā)生在非編碼區(qū)域,可能會引起致命的后果。對于華大基因的基因研究工作來說,最基本的工作就是基因序列比對,通過基因序列的比對,來觀察出不同基因獨特的地方,是否有變異。

基因測序和比對也是臨床診斷中經(jīng)常用到的,如果說兩個星期出診斷結(jié)果,這是很多患者所不能接受的。因此,基因測序用在臨床診斷時,時效性要求較高。然而,人類基因組測第一個人的基因組用了13年的時間,投資30億美金。

為了提升分析速度,華大基因從2010年開始跟英偉達(dá)合作,把一些生物信息的軟件放到GPU上去運(yùn)行。

王丙強(qiáng)把基因測序過程分為三個步驟:第一步是用到測序儀進(jìn)行測序。并把測序儀測出的原始數(shù)據(jù)做處理,經(jīng)過GPU處理,然后傳到計算中心去分析處理。第二步和第三步是做基因序列的比對,把人的基因與科學(xué)上比較準(zhǔn)確的人的基因組作比對,看有哪些不同的地方。

據(jù)王丙強(qiáng)介紹,在第二步和第三步的過程中,華大基因都用到了NVIDIA GPU進(jìn)行加速。

在NVIDIA Tesla平臺上,設(shè)計開發(fā)了針對基因信息數(shù)據(jù)的高效壓縮工具,同時針對造成分析瓶頸的計算任務(wù),如序列比對、變異檢測等基本工具,利用GPU技術(shù)進(jìn)行加速,從而提高分析效率,并降低數(shù)據(jù)存儲和計算分析的成本。

王丙強(qiáng)舉例說明了GPU對于基因研究所起到的加速作用,如果人的DNA上有一個點發(fā)生基因突變,過去在自己的計算中心做,需要好幾年才能完成,搬到天河一號上以后,通過NVIDIA Tesla GPU加速,只要5個多小時就能完成。

挑戰(zhàn)三:軟件和人才

軟件一直以來都是高性能計算非常關(guān)鍵的一個部分,計算能力再強(qiáng),如果軟件層面無法充分調(diào)用這些計算資源也是枉然。

在基因研究領(lǐng)域,最重要的兩個算法就是——海量數(shù)據(jù)的壓縮技術(shù)、序列對比和尋找基因變異。

數(shù)據(jù)壓縮方面,按照基因數(shù)據(jù)的特點,采用以列為主的分塊壓縮方式,NVIDIA針對Tesla GPU設(shè)計了一組壓縮算法,以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達(dá)到10倍的性能提升。減少了處理時間,也間接提高了數(shù)據(jù)傳輸效率,降低存儲成本。

序列比對和尋找基因變異基因研究和臨床醫(yī)療應(yīng)用中兩個重要的分析步驟。兩者也是主要的計算瓶頸,特別在臨床應(yīng)用上具有更高的時效性要求。為此,借助NVIDIA Tesla平臺,開發(fā)了應(yīng)用于序列比對的SOAP3/SOAP3-DP,以及分別用于個體和群體基因變異分析的GSNP和GAMA。

SOAP3/SOAP3-DP設(shè)計了新的索引數(shù)據(jù)結(jié)構(gòu),針對Tesla GPU架構(gòu)做了充分優(yōu)化,性能是其它主流軟件的數(shù)十倍,并且具有更高的準(zhǔn)確率和比對率。解決了基因研究中最基本的分析瓶頸,同時提高了后續(xù)基因變異分析的準(zhǔn)確度。

GSNP與其前身相比,采用稀疏表達(dá)格式優(yōu)化數(shù)據(jù)結(jié)構(gòu),同時運(yùn)用Tesla GPU實現(xiàn)高通量數(shù)據(jù)并行,原來處理一個人的數(shù)據(jù)需要三天以上的時間,GSNP僅需2小時左右,從而使得個體變異檢測初步達(dá)到快速臨床應(yīng)用的要求。

GAMA引入GPU的并行計算技術(shù)對多個位點進(jìn)行處理,加速計算過程。五百人規(guī)模計算分析,用普通計算機(jī)需要超過4年時間才可能完成,如果將計算在多塊GPU上并行進(jìn)行,可以使計算時間縮短到數(shù)小時。這一效率的提升使得生物學(xué)家可以加快解析基因變異與疾病關(guān)系的步伐。

最后,王丙強(qiáng)談到了人才招聘的相關(guān)問題。他表示,目前GPU計算的人才招聘還是存在一定困難,但是他相信,隨著學(xué)校相關(guān)課程的開設(shè),以及GPU應(yīng)用的越來越廣泛,這方面的人才也會越來越多。

附圖:

圖左所示的為華大基因培育的青龍斑,為右圖的龍膽和青斑的雜交,生長速度快,體型大
分享到

tangrong

相關(guān)推薦