噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

與生命賽跑!GPU加速華大基因大數(shù)據(jù)處理

藍調(diào) 發(fā)表于:13年07月03日 10:00 [原創(chuàng)] DOIT.com.cn

  • 分享:
[導讀]記者來到了眾多基因研究成果的搖籃——華大基因,并采訪了華大基因高性能計算研發(fā)主管王丙強,探索人類基因研究的秘密,以及當前人類基因研究工作的挑戰(zhàn)。

今年五月份,好萊塢紅星安吉麗娜-朱莉(Angelina Jolie)自曝已經(jīng)接受預防性的雙乳房切除術(shù),以降低罹癌風險。朱莉在給《紐約時報》的文章中寫道,自己之所以做手術(shù),是因為測試診斷結(jié)果顯示她帶有一個“缺陷”基因,名稱是BRCA1,這大大增加她患乳腺癌和卵巢癌的風險。從今年2月份開始直至4月27日,她的雙乳已經(jīng)全部切除。目前,她患乳腺癌的幾率已經(jīng)從87%下降到5%。

這條非常勁爆和震撼的消息,也讓我們從另一個角度深刻地體會到——當生命受到威脅時,美麗與性感都顯得那么不堪一擊。生命的有限,總是讓我們不得不在有生之年不斷地與其賽跑,試圖把生命的價值最大化。

值得慶幸的是,人類的基因研究已經(jīng)取得了非常大的突破,通過基因檢測的方法,已經(jīng)可以預測許多基因疾病的患病風險,比如地中海貧血、唐氏綜合癥、基因致病的癌癥等等,通過盡早做預防就可以降低風險。

近日,記者來到了眾多基因研究成果的搖籃——華大基因,并采訪了華大基因高性能計算研發(fā)主管王丙強,探索人類基因研究的秘密,以及當前人類基因研究工作的挑戰(zhàn)。在采訪中,王丙強重點介紹了當前華大基因研究工作中所遇到的三大挑戰(zhàn)以及華大基因的應(yīng)對方案:


華大基因高性能計算研發(fā)主管王丙強

挑戰(zhàn)一:數(shù)據(jù)量和計算能力的不匹配

一個細胞里有23對染色體,一個細胞的染色體拉開有兩米長,上面有30G個的基因序列。面對如此龐大的人類基因組序列數(shù)量,如何才能在有效的時間內(nèi)對基因序列進行測試、比對和研究?

王丙強談道,測序儀全速運轉(zhuǎn)每天所產(chǎn)生的數(shù)據(jù)超過10 TB。華大基因現(xiàn)在已經(jīng)有20個PB的存儲了,這些數(shù)據(jù)怎么計算?計算能力的匹配是個大問題。

最初,華大基因試圖采用CPU來壓縮數(shù)據(jù)的方法來解決問題,但是文件大小超過幾個GB甚至TB的時候,CPU就受不了。因此,華大基因開始考慮另一個方式——用NVIDIA Tesla GPU來加速數(shù)據(jù)的壓縮。通過與天津超算中心合作,把大部分重點的計算內(nèi)容都放到天河一號A上運行。

挑戰(zhàn)二:臨床診斷要求高時效性

人類的基因中專有基因大概是小于5%,剩下90%都是非編碼的區(qū)域,非編碼區(qū)域就是奧秘所在。不同的人基因組99.9%是一樣的,只有剩下百分之零點幾不一樣,這才是真正值得關(guān)注的地方。如果基因變異發(fā)生在非編碼區(qū)域,可能會引起致命的后果。對于華大基因的基因研究工作來說,最基本的工作就是基因序列比對,通過基因序列的比對,來觀察出不同基因獨特的地方,是否有變異。

基因測序和比對也是臨床診斷中經(jīng)常用到的,如果說兩個星期出診斷結(jié)果,這是很多患者所不能接受的。因此,基因測序用在臨床診斷時,時效性要求較高。然而,人類基因組測第一個人的基因組用了13年的時間,投資30億美金。

為了提升分析速度,華大基因從2010年開始跟英偉達合作,把一些生物信息的軟件放到GPU上去運行。

王丙強把基因測序過程分為三個步驟:第一步是用到測序儀進行測序。并把測序儀測出的原始數(shù)據(jù)做處理,經(jīng)過GPU處理,然后傳到計算中心去分析處理。第二步和第三步是做基因序列的比對,把人的基因與科學上比較準確的人的基因組作比對,看有哪些不同的地方。

據(jù)王丙強介紹,在第二步和第三步的過程中,華大基因都用到了NVIDIA GPU進行加速。

在NVIDIA Tesla平臺上,設(shè)計開發(fā)了針對基因信息數(shù)據(jù)的高效壓縮工具,同時針對造成分析瓶頸的計算任務(wù),如序列比對、變異檢測等基本工具,利用GPU技術(shù)進行加速,從而提高分析效率,并降低數(shù)據(jù)存儲和計算分析的成本。

王丙強舉例說明了GPU對于基因研究所起到的加速作用,如果人的DNA上有一個點發(fā)生基因突變,過去在自己的計算中心做,需要好幾年才能完成,搬到天河一號上以后,通過NVIDIA Tesla GPU加速,只要5個多小時就能完成。

挑戰(zhàn)三:軟件和人才

軟件一直以來都是高性能計算非常關(guān)鍵的一個部分,計算能力再強,如果軟件層面無法充分調(diào)用這些計算資源也是枉然。

在基因研究領(lǐng)域,最重要的兩個算法就是——海量數(shù)據(jù)的壓縮技術(shù)、序列對比和尋找基因變異。

數(shù)據(jù)壓縮方面,按照基因數(shù)據(jù)的特點,采用以列為主的分塊壓縮方式,NVIDIA針對Tesla GPU設(shè)計了一組壓縮算法,以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達到10倍的性能提升。減少了處理時間,也間接提高了數(shù)據(jù)傳輸效率,降低存儲成本。

序列比對和尋找基因變異基因研究和臨床醫(yī)療應(yīng)用中兩個重要的分析步驟。兩者也是主要的計算瓶頸,特別在臨床應(yīng)用上具有更高的時效性要求。為此,借助NVIDIA Tesla平臺,開發(fā)了應(yīng)用于序列比對的SOAP3/SOAP3-DP,以及分別用于個體和群體基因變異分析的GSNP和GAMA。

SOAP3/SOAP3-DP設(shè)計了新的索引數(shù)據(jù)結(jié)構(gòu),針對Tesla GPU架構(gòu)做了充分優(yōu)化,性能是其它主流軟件的數(shù)十倍,并且具有更高的準確率和比對率。解決了基因研究中最基本的分析瓶頸,同時提高了后續(xù)基因變異分析的準確度。

GSNP與其前身相比,采用稀疏表達格式優(yōu)化數(shù)據(jù)結(jié)構(gòu),同時運用Tesla GPU實現(xiàn)高通量數(shù)據(jù)并行,原來處理一個人的數(shù)據(jù)需要三天以上的時間,GSNP僅需2小時左右,從而使得個體變異檢測初步達到快速臨床應(yīng)用的要求。

GAMA引入GPU的并行計算技術(shù)對多個位點進行處理,加速計算過程。五百人規(guī)模計算分析,用普通計算機需要超過4年時間才可能完成,如果將計算在多塊GPU上并行進行,可以使計算時間縮短到數(shù)小時。這一效率的提升使得生物學家可以加快解析基因變異與疾病關(guān)系的步伐。

最后,王丙強談到了人才招聘的相關(guān)問題。他表示,目前GPU計算的人才招聘還是存在一定困難,但是他相信,隨著學校相關(guān)課程的開設(shè),以及GPU應(yīng)用的越來越廣泛,這方面的人才也會越來越多。

附圖:

圖左所示的為華大基因培育的青龍斑,為右圖的龍膽和青斑的雜交,生長速度快,體型大
[責任編輯:唐蓉]
藍調(diào)
盡管“天河二號”肩負著奪冠的重大使命,但與往常一些只為了奪冠的超級計算機有所不同,“天河二號”更重要的任務(wù)是應(yīng)用——支持整個長三角地區(qū)的科學研究、企業(yè)計算,甚至一些大數(shù)據(jù)的應(yīng)用。因此,它對于可編程性要求非常高。
官方微信
weixin
精彩專題更多
存儲風云榜”是由DOIT傳媒主辦的年度大型活動。回顧2014年,存儲作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素,已經(jīng)成為了推動信息產(chǎn)業(yè)發(fā)展的核心動力,存儲產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟的概念順勢而為的提出。
華為OceanStor V3系列存儲系統(tǒng)是面向企業(yè)級應(yīng)用的新一代統(tǒng)一存儲產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達到業(yè)界領(lǐng)先水平,很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計算等各種應(yīng)用下的數(shù)據(jù)存儲需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會
 

公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.