古DNA是指從古代人類(lèi)和動(dòng)物遺骸以及古生物化石中提取的古代生物分子。把古代DNA數(shù)據(jù)同現(xiàn)代基因庫(kù)中的數(shù)據(jù)資料相結(jié)合,便可以構(gòu)建出某一生物門(mén)類(lèi)的系統(tǒng)發(fā)育樹(shù),從而進(jìn)一步探討人類(lèi)的演化與遷移、民族融合、早期農(nóng)業(yè)發(fā)展、動(dòng)植物的家養(yǎng)與馴化過(guò)程等重大問(wèn)題。

古DNA研究需要經(jīng)過(guò)提取、擴(kuò)增、測(cè)序等步驟,比現(xiàn)代DNA研究要難得多。特別是提取DNA分子非常困難,因?yàn)楣派餂](méi)有特別的存儲(chǔ)條件,在自然環(huán)境下,DNA完好地保存下來(lái)并不容易。DNA儲(chǔ)存在細(xì)胞核內(nèi),生物體在死亡過(guò)程中,細(xì)胞就會(huì)逐漸發(fā)生自溶,DNA很快會(huì)被降解。另外,在高溫和潮濕的條件下,DNA自身也容易發(fā)生水解、斷裂。同時(shí),即便有細(xì)胞保存下來(lái)也會(huì)碰到其它微生物的進(jìn)駐,所產(chǎn)生的酶類(lèi)也會(huì)把原細(xì)胞內(nèi)的DNA破壞掉;因此,一般死亡的動(dòng)物和人的遺體,DNA很難完整保存下來(lái)。

這些原因使得古DNA基因序列片段比現(xiàn)代DNA更短,導(dǎo)致古DNA測(cè)序比現(xiàn)代DNA也要更復(fù)雜。不僅讀取、比對(duì)的數(shù)據(jù)量更大,測(cè)序之前還需要去除DNA片段兩端的接頭序列,進(jìn)行數(shù)據(jù)清洗與處理流程。

中國(guó)首座考古DNA實(shí)驗(yàn)室如何解難題?

為了更好地保護(hù)中國(guó)基因資源,推動(dòng)中華民族基因研究,1998年,吉林大學(xué)考古系與生命科學(xué)學(xué)院合作開(kāi)展了有關(guān)古DNA方面的研究工作,由此中國(guó)第一座“考古DNA實(shí)驗(yàn)室”落成。邊疆考古研究中心人類(lèi)學(xué)實(shí)驗(yàn)室與考古DNA實(shí)驗(yàn)室合作攻關(guān)重大研究課題,取得了多項(xiàng)全國(guó)乃至全球領(lǐng)先的研究成果。

隨著DNA考古研究的逐步深入,考古DNA實(shí)驗(yàn)室已有超過(guò)萬(wàn)例的古人類(lèi)、古動(dòng)植物樣本,數(shù)量位居全國(guó)第一,建立我國(guó)邊疆地區(qū)古代DNA基因庫(kù)的時(shí)機(jī)日益成熟。但樣本數(shù)量增加也帶來(lái)了新的難題,原有的計(jì)算設(shè)備已難以在短時(shí)間內(nèi)完成大量的基因測(cè)序數(shù)據(jù)處理工作。全基因組樣本分析(WGS)與全外顯子組樣本(WES)分析是目前DNA研究的不可或缺的兩大分析流程。然而,使用當(dāng)前以CPU為基礎(chǔ)的計(jì)算架構(gòu)開(kāi)發(fā)的GATK Best Practices工作流程,需要數(shù)天甚至數(shù)周才能完成單個(gè)個(gè)體的基因組變異識(shí)別。

此外,古DNA基因序列片段更短導(dǎo)致數(shù)據(jù)處理量更大,對(duì)計(jì)算力的要求也更高。數(shù)據(jù)清洗、測(cè)序過(guò)程中,需要用到非常多的不同于現(xiàn)代DNA測(cè)序的應(yīng)用軟件,如何實(shí)現(xiàn)這些應(yīng)用軟件的快速移植與開(kāi)發(fā)也是一大挑戰(zhàn),影響古DNA的研究速度。

“我們之前一直用臺(tái)式工作站做古DNA的測(cè)序數(shù)據(jù)處理,一般完成一次古人類(lèi)的全基因組樣本分析需要耗時(shí)至少兩周,過(guò)程中還要面臨宕機(jī)帶來(lái)的處理流程中斷風(fēng)險(xiǎn)。按這種效率,我們要建立邊疆地區(qū)古代DNA基因庫(kù)幾乎是一個(gè)不可能完成的任務(wù)?!奔执髮W(xué)邊疆考古研究中心副主任蔡大偉教授介紹說(shuō),“但是,這個(gè)問(wèn)題必須盡快解決,古DNA研究一刻都不能耽誤”。

浪潮為解決這一難題提供了新思路,作為中國(guó)AI計(jì)算的領(lǐng)軍企業(yè),浪潮專(zhuān)門(mén)為基因測(cè)序開(kāi)發(fā)了FPGA加速計(jì)算方案,FPGA具有可編程、并行計(jì)算、低延遲的優(yōu)勢(shì),能夠?yàn)榛驕y(cè)序、語(yǔ)音識(shí)別、視頻處理、風(fēng)險(xiǎn)管理等AI和HPC場(chǎng)景提供強(qiáng)大的加速。經(jīng)過(guò)嚴(yán)苛測(cè)試和全面考察,吉林大學(xué)考古學(xué)院決定和浪潮合作,將FPGA技術(shù)運(yùn)用到古DNA基因測(cè)序中,打造我國(guó)DNA考古領(lǐng)域的首個(gè)FPGA基因測(cè)序加速應(yīng)用方案。

提速39倍 基因測(cè)序處理速度實(shí)現(xiàn)飛躍

新的基因測(cè)序加速計(jì)算方案采用了浪潮研發(fā)的F10A FPGA加速卡作為核心計(jì)算模塊,集成了峰科的GATK基因處理軟件。浪潮F10A是目前業(yè)界支持OpenCL的最高密度、最高性能的FPGA加速設(shè)備,尺寸為半高半長(zhǎng)功耗僅35W,可以適用于數(shù)據(jù)中心、邊緣及桌面等各種復(fù)雜計(jì)算環(huán)境,每瓦特性能達(dá)到42GFlops,可以加載專(zhuān)業(yè)的軟件算法庫(kù)。集成的峰科的GATK基因處理軟件與標(biāo)準(zhǔn)生物信息學(xué)分析工具完全一致,包括GATK Best Practices的所有流程,如BWA、picard和GATK。它完全依照原軟件模型,調(diào)用命令與原版本一致,中間產(chǎn)生與原樣本一致的中間結(jié)果文件,方便用戶(hù)使用和調(diào)整。

浪潮F10A加速卡

測(cè)試顯示,搭載浪潮FPGA基因測(cè)序加速計(jì)算方案可在9.64 小時(shí)內(nèi)完成全基因組分析,48分鐘完成全外顯子組分析,相比基于CPU的方案,基因數(shù)據(jù)處理速度提升39倍。

目前,基于新的基因測(cè)序加速計(jì)算系統(tǒng),吉林大學(xué)考古DNA實(shí)驗(yàn)室的科研工作者正在對(duì)我國(guó)北方地區(qū)的草原游牧民族,如匈奴、東胡、鮮卑、烏桓、契丹、蒙古等諸族的人骨以及出土的動(dòng)植物進(jìn)行古DNA的提取和研究工作,并開(kāi)展我國(guó)新疆地區(qū)古代“絲綢之路”沿線各民族相互關(guān)系、人群間的遷徙及混雜過(guò)程、經(jīng)濟(jì)文化生活、自然環(huán)境與人類(lèi)相互關(guān)系等相關(guān)研究,不斷為古代歷史、文化、民族研究提供新的資料,開(kāi)拓新的領(lǐng)域。如蔡大偉教授及其團(tuán)隊(duì)正在攻關(guān)國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目“古動(dòng)物DNA視角下的絲路文化交流研究”,從古動(dòng)物DNA入手,還原絲路沿線古代動(dòng)物群體起源與擴(kuò)散的歷史過(guò)程,揭示絲綢之路上東西文化交流的歷史細(xì)節(jié)。

分享到

zhangnn

相關(guān)推薦