“這一切的背后,都是大數(shù)據(jù)的價(jià)值再現(xiàn)。顯然,大數(shù)據(jù)對(duì)人類的影響是巨大的?!?0月21日,在以“智算賦能 · 共贏未來(lái)”為主題的2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上,中國(guó)科學(xué)院院士、中國(guó)科學(xué)院生物物理研究所核酸生物學(xué)院重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)主任陳潤(rùn)生以多個(gè)實(shí)例做了說(shuō)明。
“通過(guò)大數(shù)據(jù)的解析,人類對(duì)核酸疫苗和核酸藥物有了充分的認(rèn)識(shí),從而推動(dòng)了核酸研究的發(fā)展,整個(gè)生物醫(yī)藥進(jìn)入了‘核酸時(shí)代’。也為未來(lái)出現(xiàn)新的烈性傳染病、烈性病毒的治療提供了很好的經(jīng)驗(yàn)?!标悵?rùn)生院士說(shuō)。
大數(shù)據(jù)對(duì)健康和疾病治療和預(yù)防的巨大作用
美國(guó)知名影星安吉麗娜·朱莉(Angelina Jolie)誕生于乳腺癌家族。這個(gè)家族的女性到了一定年齡就會(huì)因罹患惡性乳腺腫瘤去世。早期一直無(wú)法獲知病因,后來(lái)采用大數(shù)據(jù)測(cè)量了遺傳密碼后發(fā)現(xiàn)原因是基因BRCA1的突變,意味著發(fā)生癌癥的概率是正常人的100倍。不幸的是,Jolie在檢測(cè)后的基因變異呈陽(yáng)性。盡管她才39歲,尚未查出癌癥,但她毅然決定切除部分女性器官以及當(dāng)時(shí)完全正常的雙乳。雖然不能保證身體其他部位不會(huì)發(fā)生癌變,同時(shí)手術(shù)也會(huì)帶來(lái)巨大的長(zhǎng)期副作用,但從此她終身不必再為罹患乳腺癌擔(dān)憂了,在這個(gè)方面,她多少算是有一些幸運(yùn)。
年近9旬的美國(guó)前總統(tǒng)吉米卡特(Jimmy Carter)在體檢時(shí)發(fā)現(xiàn)罹患了晚期黑色素瘤,這種皮膚腫瘤中惡性程度最高的癌癥極易出現(xiàn)轉(zhuǎn)移。事實(shí)上,Carter總統(tǒng)罹患的這種腫瘤已經(jīng)同時(shí)向肝腦轉(zhuǎn)移。大數(shù)據(jù)檢測(cè)精準(zhǔn)發(fā)現(xiàn),該腫瘤一個(gè)非常重要的微環(huán)境的變化十分契合剛剛研制出的抗原。只用五個(gè)月的時(shí)間對(duì)癥治療,原發(fā)腫瘤不僅僅徹底消失,所有的轉(zhuǎn)移灶也不見(jiàn)了,身上再也找不到任何腫瘤細(xì)胞。依賴于大數(shù)據(jù)精確的測(cè)量和判斷,卡特現(xiàn)在還是很好的活著。
這樣的例子不勝枚舉。
人類遺傳密碼的破譯,意味著生物醫(yī)學(xué)在大數(shù)據(jù)時(shí)代,不僅僅可以使得疾病得到了精準(zhǔn)預(yù)測(cè)、精準(zhǔn)的用藥和有效的治療,更重要的是還會(huì)推動(dòng)生物醫(yī)學(xué)發(fā)生本質(zhì)變化,使得整個(gè)醫(yī)療體系實(shí)現(xiàn)了對(duì)全民從出生到死亡全生命周期科學(xué)診斷、治療、健康提供的保障。
這樣的健康體系與現(xiàn)有體系的本質(zhì)區(qū)別,必然引起國(guó)家相應(yīng)法律法規(guī)、藥物管理體制、社保制度等一系列的法律法規(guī)的變化,最終推動(dòng)大數(shù)據(jù)相關(guān)生物醫(yī)藥產(chǎn)業(yè)發(fā)展;發(fā)達(dá)國(guó)家包括美國(guó)、歐盟、英國(guó)、日本都建立了針對(duì)大數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)醫(yī)學(xué)的計(jì)劃和執(zhí)行。據(jù)估計(jì),該產(chǎn)業(yè)規(guī)模將達(dá)到萬(wàn)億美元的數(shù)量級(jí)。
但是,這一市場(chǎng)并非唾手可得的。
從大數(shù)據(jù)中掘金,存儲(chǔ)面臨的挑戰(zhàn)與對(duì)策
早期健康醫(yī)療數(shù)據(jù)無(wú)非是血壓、血脂等一些簡(jiǎn)單的數(shù)值,后來(lái)升級(jí)為各種醫(yī)學(xué)影像,數(shù)據(jù)量不斷加大。
隨著數(shù)據(jù)采集手段的豐富,如手環(huán)等可穿戴設(shè)備也成為記錄生理指標(biāo)的工具,過(guò)去不常見(jiàn)的數(shù)據(jù)也都變成了生物醫(yī)學(xué)相關(guān)的大數(shù)據(jù),如電子病歷以及超聲、CT這樣的影像,微生物、大氣中的霧霾、水文中的化肥農(nóng)藥,以及本地輻射等等相關(guān)信息,都成為了大數(shù)據(jù);特別是,遺傳密碼的破譯,使得與生命健康相關(guān)的數(shù)據(jù)那就成數(shù)量級(jí)的增加。如新冠病毒核苷酸的鏈只有29903個(gè),而人類遺傳密碼是3乘以10的九次方。
在數(shù)理特征方面,生物醫(yī)藥大數(shù)據(jù)多尺度、高維度、異質(zhì)化,而且是動(dòng)態(tài)實(shí)時(shí)的,其作用方式不像物理和化學(xué)體系那樣的標(biāo)量,而是相量、非線性的。
無(wú)論是生物醫(yī)學(xué)、基因工程,都涉及到大量的數(shù)據(jù),數(shù)據(jù)價(jià)值的挖掘離不開(kāi)傳輸、存儲(chǔ)和分析等環(huán)節(jié)。陳潤(rùn)生院士表示,數(shù)據(jù)存儲(chǔ)永遠(yuǎn)是計(jì)算中很重要的一個(gè)話題。
數(shù)據(jù)一定要保存一段時(shí)間,是為了進(jìn)一步的驗(yàn)證、為了跟其他數(shù)據(jù)來(lái)比較。從早前簡(jiǎn)單的數(shù)值,到如今一個(gè)人的遺傳密碼達(dá)到3×10的9次方,大量爆炸性增加的數(shù)據(jù),對(duì)于更好的分析,作用十分重大,所以一定要儲(chǔ)存。
如此大量級(jí)的數(shù)據(jù)的儲(chǔ)存,對(duì)介質(zhì)要求也很高,一是要求能夠穩(wěn)定可靠,二是要求能夠容量大、存儲(chǔ)密度高,三是在存儲(chǔ)和提取的過(guò)程當(dāng)中能耗盡量的小,等等。
對(duì)存儲(chǔ)方面的需求,不只是來(lái)自遺傳密碼和基因工程方面,整個(gè)計(jì)算領(lǐng)域也有相同的需求。
為了化解上述難題,生物學(xué)界也在考慮采用DNA存儲(chǔ)即用生物大分子存儲(chǔ)方式來(lái)有效地保證上述目標(biāo)的實(shí)現(xiàn)。作為一種技術(shù)變革,生用物分子來(lái)作為存儲(chǔ)和計(jì)算也是人們正在研究的一個(gè)很重要的方向,雖然可能還需要數(shù)十年的探索和努力。
陳潤(rùn)生院士指出,存儲(chǔ)和計(jì)算機(jī)的發(fā)展步調(diào)是一致的。當(dāng)前馮諾依曼架構(gòu)正面臨著變革,三納米樣機(jī)已經(jīng)問(wèn)世,一納米也正在研究中,但是再向前困難就越來(lái)越大了,因?yàn)槲锢肀举|(zhì)決定的介質(zhì)容易被熱擊穿。所以,量子計(jì)算、神經(jīng)計(jì)算、DNA計(jì)算已經(jīng)成為下一步關(guān)注的熱點(diǎn)。
高性能計(jì)算與生物醫(yī)學(xué)的融合:化解大數(shù)據(jù)的建模與挖掘難題
從早期的遺傳密碼,到細(xì)分的基因組,蛋白組、表觀組、代謝組等一個(gè)個(gè)新的組學(xué)誕生,生物領(lǐng)域在不斷拓展,數(shù)據(jù)的量也在不斷增加,數(shù)據(jù)的形式與內(nèi)涵也越來(lái)越豐富,生物大數(shù)據(jù)的應(yīng)用范圍也越來(lái)越豐富。
大數(shù)據(jù)的建模、挖掘也是當(dāng)前生物醫(yī)學(xué)領(lǐng)域面臨的棘手問(wèn)題。陳潤(rùn)生院士指出,這有賴于高性能計(jì)算和計(jì)算機(jī)方面領(lǐng)域的科學(xué)家共同的支援和幫助:“越來(lái)越多的信息挖掘都需要計(jì)算,需要更多的高性能計(jì)算提供更多的算法、算力;而高性能計(jì)算與生物醫(yī)學(xué)結(jié)合已經(jīng)成為趨勢(shì),并且會(huì)越來(lái)越緊密?!?/p>
在陳潤(rùn)生院士看來(lái),高性能計(jì)算和生物數(shù)據(jù)的解析是一個(gè)共同學(xué)習(xí),互相了解、互相滲透、交叉融合以促進(jìn)實(shí)際問(wèn)題解決的過(guò)程,需要兩個(gè)領(lǐng)域的科學(xué)家能夠深度了解彼此,而更好的方向是培養(yǎng)出新一代的科學(xué)家,這些科學(xué)家既是高性能計(jì)算的專家,又是生物大分子生物組學(xué)領(lǐng)域知識(shí)的專家。
生物數(shù)據(jù)量越來(lái)越大,內(nèi)涵越來(lái)越多,挖掘其中的知識(shí)就需要合適的方法。人工智能就是其中之一。
在生物大分子結(jié)構(gòu)預(yù)測(cè)中,至少有兩個(gè)領(lǐng)域?yàn)槿斯ぶ悄芑蛏疃葘W(xué)習(xí)技術(shù)展示了應(yīng)用價(jià)值。一是結(jié)構(gòu)預(yù)測(cè),類似AlphaFold2這樣的技術(shù)可以很好地預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),精度達(dá)到了實(shí)驗(yàn)的90%以上,為諸如核酸疫苗、核酸藥物的設(shè)計(jì)開(kāi)拓了很好的前景;二是醫(yī)療影像學(xué)方面,用人工智能構(gòu)建的影像系統(tǒng)超過(guò)任何一個(gè)獨(dú)立的醫(yī)生評(píng)估的準(zhǔn)確度,為精準(zhǔn)治療提供更好的工具。
“人工智能在生物研究工作中發(fā)揮了很大的作用,展示了非常美好的前景?!标悵?rùn)生院士表示:“雖然人工智能的模式、理論、技術(shù)還有待于進(jìn)一步完善和發(fā)展,但對(duì)生物醫(yī)學(xué)科研工作者而言,構(gòu)造一個(gè)良好的學(xué)習(xí)集是充分發(fā)揮人工智能作用非常重要的環(huán)節(jié)?!?/p>
大數(shù)據(jù),推進(jìn)生物醫(yī)學(xué)更加蓬勃發(fā)展
以大數(shù)據(jù)、高性能計(jì)算、人工智能等為代表的信息技術(shù)在推進(jìn)生物醫(yī)學(xué)的發(fā)展方面還存在巨大的潛力。
據(jù)介紹,在基礎(chǔ)研究工作的論文數(shù)量、總引數(shù)量、重要論文基礎(chǔ)數(shù)量等方面,我國(guó)已經(jīng)超過(guò)了美國(guó),也遠(yuǎn)遠(yuǎn)超過(guò)了德國(guó)、日本和英國(guó)。
如果能將基礎(chǔ)研究成果有效轉(zhuǎn)化、結(jié)合大數(shù)據(jù)挖掘開(kāi)發(fā)新一代藥物,很可能會(huì)取得一大批國(guó)際領(lǐng)先和創(chuàng)新的成果。
伴隨著遺傳密碼的破譯,生物醫(yī)藥領(lǐng)域正在發(fā)生變革,而變革的源頭正是以遺傳密碼為代表的大數(shù)據(jù)。陳潤(rùn)生院士深信:“在更多其他領(lǐng)域科學(xué)家的介入后,這個(gè)領(lǐng)域一定能夠得到更加蓬勃的發(fā)展,為人類造取更大的福利!”