與生命賽跑!GPU加速華大基因大數(shù)據(jù)處理
藍調(diào) 發(fā)表于:13年07月03日 10:00 [原創(chuàng)] DOIT.com.cn
今年五月份,好萊塢紅星安吉麗娜-朱莉(Angelina Jolie)自曝已經(jīng)接受預防性的雙乳房切除術(shù),以降低罹癌風險。朱莉在給《紐約時報》的文章中寫道,自己之所以做手術(shù),是因為測試診斷結(jié)果顯示她帶有一個“缺陷”基因,名稱是BRCA1,這大大增加她患乳腺癌和卵巢癌的風險。從今年2月份開始直至4月27日,她的雙乳已經(jīng)全部切除。目前,她患乳腺癌的幾率已經(jīng)從87%下降到5%。
這條非常勁爆和震撼的消息,也讓我們從另一個角度深刻地體會到——當生命受到威脅時,美麗與性感都顯得那么不堪一擊。生命的有限,總是讓我們不得不在有生之年不斷地與其賽跑,試圖把生命的價值最大化。
值得慶幸的是,人類的基因研究已經(jīng)取得了非常大的突破,通過基因檢測的方法,已經(jīng)可以預測許多基因疾病的患病風險,比如地中海貧血、唐氏綜合癥、基因致病的癌癥等等,通過盡早做預防就可以降低風險。
近日,記者來到了眾多基因研究成果的搖籃——華大基因,并采訪了華大基因高性能計算研發(fā)主管王丙強,探索人類基因研究的秘密,以及當前人類基因研究工作的挑戰(zhàn)。在采訪中,王丙強重點介紹了當前華大基因研究工作中所遇到的三大挑戰(zhàn)以及華大基因的應(yīng)對方案:
挑戰(zhàn)一:數(shù)據(jù)量和計算能力的不匹配
一個細胞里有23對染色體,一個細胞的染色體拉開有兩米長,上面有30G個的基因序列。面對如此龐大的人類基因組序列數(shù)量,如何才能在有效的時間內(nèi)對基因序列進行測試、比對和研究?
王丙強談道,測序儀全速運轉(zhuǎn)每天所產(chǎn)生的數(shù)據(jù)超過10 TB。華大基因現(xiàn)在已經(jīng)有20個PB的存儲了,這些數(shù)據(jù)怎么計算?計算能力的匹配是個大問題。
最初,華大基因試圖采用CPU來壓縮數(shù)據(jù)的方法來解決問題,但是文件大小超過幾個GB甚至TB的時候,CPU就受不了。因此,華大基因開始考慮另一個方式——用NVIDIA Tesla GPU來加速數(shù)據(jù)的壓縮。通過與天津超算中心合作,把大部分重點的計算內(nèi)容都放到天河一號A上運行。
挑戰(zhàn)二:臨床診斷要求高時效性
人類的基因中專有基因大概是小于5%,剩下90%都是非編碼的區(qū)域,非編碼區(qū)域就是奧秘所在。不同的人基因組99.9%是一樣的,只有剩下百分之零點幾不一樣,這才是真正值得關(guān)注的地方。如果基因變異發(fā)生在非編碼區(qū)域,可能會引起致命的后果。對于華大基因的基因研究工作來說,最基本的工作就是基因序列比對,通過基因序列的比對,來觀察出不同基因獨特的地方,是否有變異。
基因測序和比對也是臨床診斷中經(jīng)常用到的,如果說兩個星期出診斷結(jié)果,這是很多患者所不能接受的。因此,基因測序用在臨床診斷時,時效性要求較高。然而,人類基因組測第一個人的基因組用了13年的時間,投資30億美金。
為了提升分析速度,華大基因從2010年開始跟英偉達合作,把一些生物信息的軟件放到GPU上去運行。
王丙強把基因測序過程分為三個步驟:第一步是用到測序儀進行測序。并把測序儀測出的原始數(shù)據(jù)做處理,經(jīng)過GPU處理,然后傳到計算中心去分析處理。第二步和第三步是做基因序列的比對,把人的基因與科學上比較準確的人的基因組作比對,看有哪些不同的地方。
據(jù)王丙強介紹,在第二步和第三步的過程中,華大基因都用到了NVIDIA GPU進行加速。
在NVIDIA Tesla平臺上,設(shè)計開發(fā)了針對基因信息數(shù)據(jù)的高效壓縮工具,同時針對造成分析瓶頸的計算任務(wù),如序列比對、變異檢測等基本工具,利用GPU技術(shù)進行加速,從而提高分析效率,并降低數(shù)據(jù)存儲和計算分析的成本。
王丙強舉例說明了GPU對于基因研究所起到的加速作用,如果人的DNA上有一個點發(fā)生基因突變,過去在自己的計算中心做,需要好幾年才能完成,搬到天河一號上以后,通過NVIDIA Tesla GPU加速,只要5個多小時就能完成。
挑戰(zhàn)三:軟件和人才
軟件一直以來都是高性能計算非常關(guān)鍵的一個部分,計算能力再強,如果軟件層面無法充分調(diào)用這些計算資源也是枉然。
在基因研究領(lǐng)域,最重要的兩個算法就是——海量數(shù)據(jù)的壓縮技術(shù)、序列對比和尋找基因變異。
數(shù)據(jù)壓縮方面,按照基因數(shù)據(jù)的特點,采用以列為主的分塊壓縮方式,NVIDIA針對Tesla GPU設(shè)計了一組壓縮算法,以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達到10倍的性能提升。減少了處理時間,也間接提高了數(shù)據(jù)傳輸效率,降低存儲成本。
序列比對和尋找基因變異基因研究和臨床醫(yī)療應(yīng)用中兩個重要的分析步驟。兩者也是主要的計算瓶頸,特別在臨床應(yīng)用上具有更高的時效性要求。為此,借助NVIDIA Tesla平臺,開發(fā)了應(yīng)用于序列比對的SOAP3/SOAP3-DP,以及分別用于個體和群體基因變異分析的GSNP和GAMA。
SOAP3/SOAP3-DP設(shè)計了新的索引數(shù)據(jù)結(jié)構(gòu),針對Tesla GPU架構(gòu)做了充分優(yōu)化,性能是其它主流軟件的數(shù)十倍,并且具有更高的準確率和比對率。解決了基因研究中最基本的分析瓶頸,同時提高了后續(xù)基因變異分析的準確度。
GSNP與其前身相比,采用稀疏表達格式優(yōu)化數(shù)據(jù)結(jié)構(gòu),同時運用Tesla GPU實現(xiàn)高通量數(shù)據(jù)并行,原來處理一個人的數(shù)據(jù)需要三天以上的時間,GSNP僅需2小時左右,從而使得個體變異檢測初步達到快速臨床應(yīng)用的要求。
GAMA引入GPU的并行計算技術(shù)對多個位點進行處理,加速計算過程。五百人規(guī)模計算分析,用普通計算機需要超過4年時間才可能完成,如果將計算在多塊GPU上并行進行,可以使計算時間縮短到數(shù)小時。這一效率的提升使得生物學家可以加快解析基因變異與疾病關(guān)系的步伐。
最后,王丙強談到了人才招聘的相關(guān)問題。他表示,目前GPU計算的人才招聘還是存在一定困難,但是他相信,隨著學校相關(guān)課程的開設(shè),以及GPU應(yīng)用的越來越廣泛,這方面的人才也會越來越多。
附圖:
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.