浪潮超算助中國農牧第一品牌溫氏集團加速基因研究

?三大問題困擾種豬基因研究

譜寫和研究種豬基因組序列并非易事,如何盡可能快的處理海量的基因組數(shù)據(jù)是困擾種豬基因組研究的第一道坎,也就是如何有效降低時間成本的問題。以溫氏集團聯(lián)合其他機構繪制的種豬全基因組序列圖譜為例,需要先將基因組隨機打碎,然后進行測序,最后進行拼接。并且為保證拼接結果的精確性,上述過程需要重復8-10次,涉及到海量的基因數(shù)據(jù),高性能計算系統(tǒng)已成為數(shù)據(jù)分析中必備的基礎設施。

同時,高性能計算系統(tǒng)的設計構建不能一概而論,需要根據(jù)基因研究的數(shù)據(jù)量大小、用戶量多少等具體需求有針對性的進行構建。在基因組研究中,有的課題組數(shù)據(jù)量相對較少,但是科研項目卻涉及到生物信息分析,需要配置小型的分析平臺;有的課題組有1-2臺測序儀,數(shù)據(jù)量中等,至少需要一套十幾個節(jié)點的計算設備。在數(shù)據(jù)分析中,基因組研究軟件種類繁多,不同類別的軟件應用特征各異,如何在一套系統(tǒng)中讓軟件的效率最高,最大限度的發(fā)揮系統(tǒng)的性能至關重要。因此在配置系統(tǒng)方案時要考慮核心應用或是關鍵應用的應用特征,如序列比對、序列拼接應用IO吞吐大,內存容量需求高,針對這類應用要按需配置系統(tǒng)資源。

此外,在滿足基礎硬件設施的前提下,溫氏集團還關心軟件的運行或使用情況。在基因組研究中會涉及到如序列比對、序列拼接、結構預測、功能注釋等眾多分析類別,大概涵蓋數(shù)十種軟件,安裝調試軟件就會耗費大量的時間,且多數(shù)據(jù)軟件需要在Linux的操作系統(tǒng)下,以全命令行的方式運行,使用起來很不方便,因此便捷化和統(tǒng)一的管理部署在基因組研究中顯得尤為重要。

浪潮超算為基因研究提供有力硬件支撐

針對溫氏集團對于原有高性能系統(tǒng)集群改造升級的需求,浪潮在系統(tǒng)設計構建集群過程中,結合數(shù)據(jù)的產出量、軟件應用等特征,為溫氏集團設計構建的超算系統(tǒng)采用“瘦節(jié)點+胖節(jié)點”結合的混合架構、Infiniband專用計算網(wǎng)絡、以太網(wǎng)管理網(wǎng)絡方案和浪潮-TStor并行存儲系統(tǒng)。這種胖瘦結合的節(jié)點架構,搭配IB計算網(wǎng)絡和并行存儲,能更好的滿足不同計算任務的需求,充分發(fā)揮系統(tǒng)效能。

其中,瘦節(jié)點主要進行比對、注釋,snp查找等內存需求相對較小、計算相對密集的計算,本次根據(jù)溫氏集團需求,浪潮采用了NX5440M4刀片服務器做計算節(jié)點,該服務器具備高密度、高擴展特性,在8U機箱空間內可以放置20臺NX5440M4。

胖節(jié)點主要進行拼接等內存消耗較大的操作,采用浪潮明星產品八路服務器TS860G3,配置8顆目前X86體系中計算速度快的Intel Xeon E7-8860V3系列處理器,搭配1TB內存,滿足大型序列拼接應用需求。

在網(wǎng)絡方面,由于基因計算中的多數(shù)應用帶寬較大,對延遲的要求高,浪潮采用Infiniband網(wǎng)絡方案,IB網(wǎng)絡相對于以太網(wǎng)的最大優(yōu)勢就是極低的延遲,端到端的延遲最少可達200納秒,而以太網(wǎng)經過優(yōu)化也僅到3微秒左右??梢栽跐M足網(wǎng)絡需求情況下節(jié)省用戶的系統(tǒng)構建成本。

存儲系統(tǒng)則采用浪潮專業(yè)并行存儲,能夠保證生物信息學數(shù)據(jù)的安全可靠,最大限度地提升存儲的讀寫帶寬,保證基因相關應用對存儲中數(shù)據(jù)的頻繁讀寫的性能,通過lustre并行文件系統(tǒng)能提供完善的管理界面,并通過用戶配額管理工具實行資源按需分配,保障溫氏集團的多個客戶端使用需求。

浪潮G1000基因一體機軟件對基因應用對癥下藥

除了超算系統(tǒng)設計構建之外,浪潮還為用戶提供了浪潮G1000基因一體機軟件,這款基因一體機軟件針對生物基因應用定制化開發(fā),可以解決傳統(tǒng)高性能系統(tǒng)跟生物基因應用軟件契合度不高、不能充分發(fā)揮集群性能、軟件效率不高等問題,使研究人員專注于基因研究,從繁瑣的集群維護和配置中解放出來。

浪潮G1000基因一體機整合和預置多種常用的生物信息流程,如全基因組重測序分析流程、外顯子分析流程等,流程會進行定時更新和升級。用戶直接選擇預定義的流程,確定參數(shù)和數(shù)據(jù)集后即可提交任務。以全基因組重測序分析為例,所涉及的BWA、Samtools、GATK和ANNOVAR等多種軟件可以按照預定義的工作流程自動執(zhí)行。

浪潮G1000基因計算平臺

溫氏集團相關負責人介紹,與傳統(tǒng)的解決方案相比,浪潮G1000基因一體機方案無論從經濟性、易用性和高效的計算能力等各方面都具有較大優(yōu)勢,能夠幫助我們快速部署和高效實施基因組研究應用。

分享到

zhangnn

相關推薦