ISC現(xiàn)場(chǎng),浪潮AI&HPC Dr.朱紅分享第三代基因測(cè)序計(jì)算優(yōu)化方案

  二代測(cè)序和三代測(cè)序都屬于高通量測(cè)序技術(shù),測(cè)序數(shù)據(jù)產(chǎn)出量很大,需要結(jié)合高性能計(jì)算技術(shù)來(lái)進(jìn)行后續(xù)的測(cè)序數(shù)據(jù)處理。相較于二代測(cè)序技術(shù),以單分子測(cè)序技術(shù)為代表的三代基因測(cè)序帶來(lái)了更長(zhǎng)的測(cè)序讀長(zhǎng),這使得對(duì)更加復(fù)雜的物種如各種農(nóng)作物和植物等的基因研究成為可能,但是相對(duì)更高的測(cè)序錯(cuò)誤率(~15%)需要進(jìn)行數(shù)據(jù)糾錯(cuò),又對(duì)高性能計(jì)算帶來(lái)了新的挑戰(zhàn)。三代基因測(cè)序組裝這類應(yīng)用對(duì)于系統(tǒng)的計(jì)算性能、網(wǎng)絡(luò)和磁盤等方案都有很高的要求。很多用戶在通常的高性能計(jì)算平臺(tái)來(lái)處理測(cè)序數(shù)據(jù)時(shí),性能都不理想。

目前,由Pacbio公司開發(fā)的FALCON及中國(guó)的中山大學(xué)開發(fā)的MECAT是第三代基因測(cè)序組裝領(lǐng)域的兩款主流軟件。FALCON由于把測(cè)序數(shù)據(jù)(raw data)切割成KB級(jí)別的卷來(lái)進(jìn)行糾錯(cuò),因而需要頻繁的磁盤I/O,所以在計(jì)算過程中,磁盤I/O經(jīng)常會(huì)成為系統(tǒng)瓶頸。浪潮專家優(yōu)化FALCON軟件的底層參數(shù),優(yōu)化了軟件架構(gòu),降低了系統(tǒng)對(duì)于硬件I/O依賴,下圖為處理同一測(cè)試用例時(shí),優(yōu)化前后磁盤I/O強(qiáng)度對(duì)比。

2

  優(yōu)化FALCON前后磁盤I/O強(qiáng)度對(duì)比

  優(yōu)化完成后,F(xiàn)ALCON軟件的核心部分性能提升了20%,而且軟件的集群擴(kuò)展性也有明顯提升。

3

  優(yōu)化后FALCON核心部分性能提升20%

  針對(duì)MECAT軟件,浪潮完成了該軟件從單機(jī)環(huán)境向集群環(huán)境的并行優(yōu)化工作。經(jīng)測(cè)試,新部署的經(jīng)過浪潮并行優(yōu)化的集群版本在12個(gè)節(jié)點(diǎn)上運(yùn)行時(shí),可以把人類全基因組組裝時(shí)間從200多個(gè)小時(shí)縮短到不足24小時(shí),相比原單節(jié)點(diǎn)版本獲得近10倍的加速比,這表明集群版本的擴(kuò)展線性度非常好。下圖是MECAT組裝過程中各個(gè)環(huán)節(jié)的用時(shí)對(duì)比:

4

  MECAT組裝過程各環(huán)節(jié)用時(shí)對(duì)比

分享到

zhangnn

相關(guān)推薦