2019年底的新冠疫情,給全世界按下了暫停鍵。
但一場未被人注意到的比賽,才剛拉開序幕。
2020年1月,新冠病毒人傳人的事實得到確認,2月,德克薩斯州麥克萊倫的研究小組的實驗證明,新冠病毒的強度被證明至少是SARS的10倍……
引起疫情的原因是什么?重癥患者后期緣何會出現(xiàn)低氧血癥?病毒感染的靶細胞是什么?要從日漸攀升的確診數(shù)中拯救更多人,通過病毒基因測序來了解這種疾病顯得刻不容緩。為了探索這些問題的答案,中國的醫(yī)學專家們在新冠肺炎疾病病因學方面展開了深入探索。
2020年大年初三,面對全然未知的病毒,上海市公共衛(wèi)生臨床中心緊急求助轉化醫(yī)學國家重大科技基礎設施(上海)瑞金基地(以下或簡稱為“瑞金國家轉化醫(yī)學中心”),瑞金國家轉化醫(yī)學中心立即召集精兵強將,開始“與時間賽跑”,對新冠病毒進行基因測序。
對一種全新的病毒進行測序和分析不是件容易的事情,研究人員需要持續(xù)將病毒數(shù)據(jù)納入病毒基因組快速分析流程,按照不同的參數(shù)在基因組進化動態(tài)分析跟蹤展示平臺進行驗算,整個過程耗費超過200萬個CPU核時。
在這場爭分奪秒的抗爭中,面對人類一無所知的新病毒,瑞金國家轉化醫(yī)學中心從零開始,僅用了45天就實現(xiàn)了對于新冠病毒的基因組測序和組裝,就新型冠狀病毒基因組、分子流行病學特點、疾病臨床特征進行了深入研究。
2020年5月20日,《自然》雜志在線全文發(fā)表了該項研究成果“Viral and host factors related to the clinic outcome of COVID-2019”。文章闡述了新冠肺炎的病理生理,并為后續(xù)治療提供相關病理學依據(jù),也為保護全人類生命安全做出重要的貢獻。
這一切成果并非偶然。
基因測序之于瑞金國家轉化醫(yī)學中心雖是日常工作的一部分,但要從頭完成一種新病毒的測序及研究,除了過硬的科研能力,還需要完備的基礎設施的支持。而早在2017年,瑞金醫(yī)院就已經(jīng)開始打造一個集存、傳、算、用為一體的定制化超算平臺,還成功利用其研發(fā)了服務全國五百多家醫(yī)院的《中國成人白血病診療登記管理系統(tǒng)》。
可以說,這項工作,非瑞金國家轉化醫(yī)學中心莫屬。
“與時間賽跑”的瑞金國家轉化醫(yī)學中心
轉化醫(yī)學一直都是一個“與時間賽跑”的領域。
其本質就是在主張更為緊密地結合基礎醫(yī)學研究與臨床實踐,通過多學科交叉合作,實現(xiàn)“從實驗室到臨床、再從臨床到實驗室”的轉化。
而一旦前期分析和探索新療法或嘗試新藥物花費了太多時間,臨床實踐的時間便會大幅縮減,治療周期被延長不說,還可能錯失最佳治療時機。
因此,引入超算平臺對于瑞金國家轉化醫(yī)學中心這個國內(nèi)首個也是截至目前唯一建成的國家級綜合性轉化醫(yī)學中心來說,成了一件順勢而為的事。
但在初期實踐中,該中心的IT技術團隊發(fā)現(xiàn),該平臺搭載的英特爾? 至強? 可擴展處理器固然可以保障算力性能,但存儲系統(tǒng)始終難以滿足實時、高頻和高效的數(shù)據(jù)訪問和處理需求。
要知道,瑞金國家轉化醫(yī)學中心的日常研究和工作主要圍繞基因組測序、轉錄組測序、蛋白質組學等組學檢測技術,結合不同患者生理生化指標、疾病歷史診療結果等信息,通過生物信息學手段對原始數(shù)據(jù)進行綜合分析,再通過機器學習、深度學習和人工智能等方法整合特征數(shù)據(jù)。而單個人類全基因組測序分析涉及的數(shù)據(jù)可能高達870GB,這一套流程下來,數(shù)據(jù)量級已經(jīng)難以想象了。
同時,平臺還必須滿足不同的轉化醫(yī)學團隊對不同生信數(shù)據(jù)的高需求。也就是說,瑞金眼中超算平臺的理想存儲系統(tǒng),不僅要具備存儲海量數(shù)據(jù)的能力,還必須要具備更出色的I/O和吞吐能力。
也正是這些制約因素,讓瑞金與英特爾再次攜手合作。
打破HPC領域的存儲墻
瑞金的數(shù)據(jù)存儲難題并不是個例,而是在轉化醫(yī)學研究過程中的常態(tài),也是很多高性能計算系統(tǒng)都在面對的主要瓶頸。
1996年,轉化醫(yī)學的概念在柳葉刀雜志上首次問世。2003年,時任美國NIH主任的Elias A. Zerhouni明確指出,轉化醫(yī)學的核心是要將醫(yī)學生物學基礎研究成果迅速有效地轉化為可在臨床實際應用的理論、技術、方法和藥物,也即打破基礎醫(yī)學、藥物研究、臨床醫(yī)學之間的屏障,加強研究與應用之間的結合。
在轉化醫(yī)學的實踐過程中,如果失去超算平臺的技術支持,處理海量生信數(shù)據(jù)的速度和質量將會大打折扣。但超算平臺的建設并非一勞永逸,如果存儲性能跟不上算力,高性能處理器應有的功效也會遇到效率瓶頸,這就是所謂的存儲墻。
打破轉化醫(yī)學的存儲墻,也就是在“與時間的賽跑”中拯救更多的病患。而突破高性能計算的存儲墻,其影響和意義也會超越單個行業(yè)或應用領域。
其實不止是瑞金國家轉化醫(yī)學中心,整個行業(yè)都亟需一個性能更出色、功能更全面、部署和應用也更便捷的新型存儲方案,于是,英特爾? 傲騰? 持久內(nèi)存和基于它打造的DAOS(Distributed Asynchronous Object Storage,分布式異步對象存儲)應運而生。
這個新方案幾乎是從初試啼聲開始,就改變了高性能計算領域的存儲競爭格局——以該領域權威的IO-500排行榜為例,瑞金國家轉化醫(yī)學中心使用的ASTRA高性能計算平臺,在去年就以高達87.50 GiB/s和2984.61 kIOP/s的帶寬和吞吐性能于拿下了該榜單10節(jié)點榜單第8名的排位,在IO-500總榜單上也排名第14,堪稱中國及全球生信領域高性能計算系統(tǒng)存儲性能中的佼佼者。而今年最新一期的排名上,前10名中也有一半是在使用DAOS方案。
這一切,都要歸功于對于存儲系統(tǒng)的全新設計。在生信超算平臺的建設中,瑞金采取了三級存儲模式,其中原始數(shù)據(jù)的存儲及備份采用的是傳統(tǒng)并行文件系統(tǒng)方案,而一些追求更極致性能的生信計算部分,則采用了基于英特爾? 傲騰? 持久內(nèi)存的DAOS并行文件系統(tǒng)。
DAOS是一種開源軟件定義橫向擴展對象存儲,可為高性能計算應用提供高帶寬、低時延和高IOPS的存儲容器。DAOS主要使用傲騰? 持久內(nèi)存和固態(tài)盤,能形成更加靈活的分層存儲機制,把熱數(shù)據(jù)、源數(shù)據(jù)、索引數(shù)據(jù)放到持久內(nèi)存里,利用距離處理器更近的優(yōu)勢來為更大體量的數(shù)據(jù)提供高速低時延訪問,從而構建出更有層次化的、能適應新的數(shù)據(jù)讀寫需求、模型及工作流的存儲系統(tǒng)。
可以說,DAOS涵蓋了創(chuàng)新存儲介質和技術、以及對這些介質和產(chǎn)品使用方式的雙重革新,這也是它贏得與時間賽跑的關鍵所在。
DAOS中這個創(chuàng)新存儲介質,所指就是英特爾的傲騰技術,而產(chǎn)品則是基于這種介質開發(fā)的傲騰持久內(nèi)存。其創(chuàng)新之處,就在于它兼顧了傳統(tǒng)內(nèi)存和存儲產(chǎn)品的優(yōu)勢,但同時又盡可能避開了它們的短板。具體來說,現(xiàn)在的內(nèi)存多使用DRAM,它性能高、讀寫快,主要用來承載熱數(shù)據(jù)。這看起來沒什么問題,但問題就在熱數(shù)據(jù)的體量一旦變大,DRAM要進行容量擴展時,其成本過高,單條容量受限以及掉電數(shù)據(jù)就會丟失等短板就會暴露出來。
相比之下,作為DAOS存儲加速硬件底座的英特爾? 傲騰? 持久內(nèi)存,不但能像DRAM一樣,可插入現(xiàn)有DIMM插槽,并提供接近于DRAM的性能,還可以像存儲一樣,提供更大的容量規(guī)格(目前單條容量可達128GB、256GB和512GB)以及數(shù)據(jù)的持久化存儲。它同樣可以擔負起承載熱數(shù)據(jù)的重任,而且還是容量數(shù)倍于DRAM的熱數(shù)據(jù),這就加快了算力對數(shù)據(jù)進行讀寫和處理的整體效率,而且在計劃中的停機和意外宕機后,這些數(shù)據(jù)還無需從存儲設備中重新加載,可大大加快重啟時間并減少I/O,從而顯著降低了大內(nèi)存節(jié)點的功耗。
加快了數(shù)據(jù)讀取和處理速度,就加快了整個高性能計算系統(tǒng)的數(shù)據(jù)處理效率,也就為病患爭取了更多的治療時間。同時,隨著數(shù)據(jù)不斷積累,新方案也給醫(yī)生的日常診斷提供了值得借鑒的參考,由此形成了一個數(shù)據(jù)閉環(huán),如此循環(huán)下來,時間越久效果自然就越好。
破墻之后,量變引起質變
一旦存儲墻問題得到緩解,量變終會引起質變。
在面對超高深度腫瘤全基因組測序這種超大數(shù)據(jù)的處理時,原先需要一周的處理時間,在經(jīng)過全面和反復的調優(yōu),包括引入DAOS及使用至強可擴展平臺對Sentieon提供的測序應用加速后,瑞金國家轉化醫(yī)學中心現(xiàn)在只需要7-8個小時就能得到結果,而且優(yōu)化還在持續(xù),以求更進一步縮短腫瘤分析的用時。
效率提上去之后,基因檢測就可以更好地向臨床方向發(fā)展。
通過大數(shù)據(jù)對現(xiàn)有知識建模,在軟件的輔助下病患就能得到更多新的信息,這些信息都是與基于病患的診斷和臨床的路徑密切相關的。再納入到瑞金”300張床”的研究型病房背景下,病患就能有更多種方案的選擇,而這些都是根據(jù)數(shù)據(jù)分析的結果來確定的。
雖然瑞金國家轉化醫(yī)學中心建立在瑞金醫(yī)院內(nèi)部,但轉化醫(yī)學中心本身又作為一個醫(yī)院在運行,其也擁有一整套完整的信息系統(tǒng),這些信息與醫(yī)院的信息是完全對接的。
面對專病時,由于其自身的數(shù)據(jù)集邏輯、檢驗指標等方面都存在差異,直接調用醫(yī)院系統(tǒng)數(shù)據(jù)存在較大的問題。因此瑞金國家轉化醫(yī)學中心正在著手一個全國性白血病數(shù)據(jù)分析的項目,需要采集匯總近500家醫(yī)院的數(shù)據(jù),涉及到8萬多病人。但是在分析過程中,他們發(fā)現(xiàn),統(tǒng)一回收的數(shù)據(jù)特異性不夠,精細到某一個病后精細度又變差了。如果轉化醫(yī)學中心能夠把這些信息系統(tǒng)都打通的話,數(shù)據(jù)收集也就會變得更加輕松。
此外,隨著AphaFold2在蛋白質結構預測領域聲名鵲起,相關運行代碼的開源分享,結構生物學研究進入一個新的時代。瑞金國家轉化醫(yī)學中心ASTRA高性能計算平臺共同負責人呂綱也告訴大數(shù)據(jù)文摘,中心也在嘗試利用高性能計算在臨床問題中利用這些新興的技術工具,并做好隨時準備應對重大的公共衛(wèi)生安全事件的準備。
呂綱還表示,隨著高性能計算逐漸滲透進入科學的各個角落,未來腫瘤檢驗的測序價格會更低,也就會有更多的患者會選擇采用更新的組群分析來支持醫(yī)生的判斷,更多的數(shù)據(jù)也就會涌入整個過程中,因此能為數(shù)據(jù)存儲、讀寫、訪問和處理提供全方位高性能支持的存儲系統(tǒng)也就必不可少。
其實,這樣的系統(tǒng)不只是在轉化醫(yī)學領域必不可少,它對所有面臨存儲墻或數(shù)據(jù)墻挑戰(zhàn)的用戶來說都是一劑良藥。從改造內(nèi)存/存儲,以更優(yōu)的成本大幅擴展內(nèi)存子系統(tǒng)的空間,到將大體量數(shù)據(jù)存儲在更接近算力、能夠實現(xiàn)更高速數(shù)據(jù)讀寫和持久化存儲……在高性能計算作用越來越凸顯的當下,英特爾? 傲騰? 持久內(nèi)存及相配套的DAOS方案也必然會繼續(xù)大放光彩。
更多架構師成長計劃課程,歡迎訪問英特爾架構師成長計劃平臺: https://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn
【來源:大數(shù)據(jù)文摘 】