中國科學(xué)院院士,陳潤生
會上,中國科學(xué)院院士,陳潤生先生發(fā)表了,名為《基因組,大數(shù)據(jù)與精準(zhǔn)醫(yī)學(xué)》的主題演講。他從基因組、大數(shù)據(jù)與精準(zhǔn)醫(yī)學(xué)三個方面全面闡述了大數(shù)據(jù)對于醫(yī)療行業(yè)的應(yīng)用,并指出精準(zhǔn)醫(yī)學(xué)是組學(xué)大數(shù)據(jù)跟醫(yī)學(xué)的結(jié)合,就是把近年來從基因組開始,人們在分子水平上了解那一信息運(yùn)用到實(shí)踐當(dāng)中來,這樣的過程就成了精準(zhǔn)醫(yī)學(xué)。這樣的大數(shù)據(jù)包括基因組、蛋白組、帶學(xué)組等等這些組學(xué)數(shù)據(jù)用到當(dāng)前的醫(yī)療實(shí)踐當(dāng)中。
以下陳潤生院士的演講實(shí)錄:
首先祝賀咱們這個大數(shù)據(jù)中心的成立,它將為整個大數(shù)據(jù)事業(yè)的發(fā)展,特別為促進(jìn)我們國家醫(yī)療大數(shù)據(jù)的整合作出重大的貢獻(xiàn)。我今天主要跟大家交流一下關(guān)于大數(shù)據(jù)跟精準(zhǔn)醫(yī)學(xué)方面的一些個人的理解。
大家知道2015年1月20日美國總統(tǒng)在發(fā)表發(fā)言首先提出要開展精準(zhǔn)醫(yī)學(xué)的研究,精準(zhǔn)醫(yī)學(xué)就開始在全世界傳播開來,在座的有衛(wèi)計(jì)委的領(lǐng)導(dǎo),這個消息很快傳播到國內(nèi),國家的主要領(lǐng)導(dǎo)人,習(xí)總書記、李克強(qiáng)總理也都有重要的批示,來推動我國精準(zhǔn)醫(yī)學(xué)的開展,所以在2015年的年終就布置了關(guān)于以精準(zhǔn)醫(yī)學(xué)命名的重大專項(xiàng),然后2016年第一批的項(xiàng)目就開始啟動了。第二批的項(xiàng)目正在評審當(dāng)中,所以這樣的話就使得精準(zhǔn)醫(yī)學(xué)在我們國內(nèi)也在蓬勃的開展。我下面主要就精準(zhǔn)醫(yī)學(xué)談四個方面的我個人的一些看法。
大家知道所謂精準(zhǔn)醫(yī)學(xué)實(shí)際上首先就是來自對人類遺傳密碼的破譯,這就是一段人類遺傳密碼。我們知道我們每個人,每個細(xì)胞里面在座的都是醫(yī)學(xué)大數(shù)據(jù)相關(guān)的專家,對這個非常清楚。每個人都有一份遺傳密碼,總得量是3×10的總次方,是一條線的??梢韵胂筮@么長的一段密碼將包含我們生長發(fā)育和遺傳的主要信息,這也是自上個世紀(jì)90年代開始破譯的,破譯以后就使得人類在生命活動當(dāng)中的知識深入到很多水平。
什么是精準(zhǔn)醫(yī)學(xué)?我第一個談的精準(zhǔn)醫(yī)學(xué)的核心是什么?國內(nèi)很多專家都對精準(zhǔn)醫(yī)學(xué)提出了各自的看法,當(dāng)然這些看法都是非常有益的,但是要實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)它的核心是什么?我覺得精準(zhǔn)醫(yī)學(xué)的本質(zhì)其實(shí)可以概括為一句話,精準(zhǔn)醫(yī)學(xué)就是組學(xué)大數(shù)據(jù)跟醫(yī)學(xué)的結(jié)合,就是把近年來從基因組開始,人們在分子水平上了解那一信息運(yùn)用到實(shí)踐當(dāng)中來,這樣的過程就成了精準(zhǔn)醫(yī)學(xué)。這樣的大數(shù)據(jù)包括基因組、蛋白組、帶學(xué)組等等這些組學(xué)數(shù)據(jù)用到當(dāng)前的醫(yī)療實(shí)踐當(dāng)中,一定會提高醫(yī)療實(shí)踐的效率,提高診斷的效率,提高治療的效率。
因此未來的趨勢將是很清楚的,不管大家同意與否、接納與否,大數(shù)據(jù)將很快的應(yīng)用到大家的生活當(dāng)中來,一定會蜂擁到所有臨床單位。這個趨勢是很明朗的,精準(zhǔn)醫(yī)學(xué)告訴我們一件事就是大數(shù)據(jù)要來了。大數(shù)據(jù)跟醫(yī)療有關(guān)的一定會很快的進(jìn)入到所有的醫(yī)療單位,為醫(yī)療的效率服務(wù)。所以精準(zhǔn)醫(yī)學(xué)的核心其實(shí)就是非常明確的一件事,就是把組學(xué)大數(shù)據(jù)納入到臨床醫(yī)學(xué)當(dāng)中來,這實(shí)際上是自上世紀(jì)90年代由人類基因組破譯而產(chǎn)生的所謂的轉(zhuǎn)化醫(yī)學(xué)、個體化醫(yī)學(xué)等等的一個概括和總結(jié),實(shí)際上就是上世紀(jì)90年代整個分子生物學(xué)的進(jìn)展納入到臨床醫(yī)學(xué)當(dāng)中的一個表現(xiàn),所以精準(zhǔn)醫(yī)學(xué)的內(nèi)涵是非常明確清楚的,就是組學(xué)大數(shù)據(jù)介入到臨床實(shí)踐當(dāng)中來這么一件事。
第二個我要說的既然這個事情那么明確,它為什么會引起各個領(lǐng)導(dǎo)人,包括美國很多西方發(fā)達(dá)國家,也包括我們國家很多領(lǐng)導(dǎo)人重視精準(zhǔn)醫(yī)學(xué)?這個大數(shù)據(jù)進(jìn)入到臨床實(shí)踐當(dāng)中來,除了能夠提高醫(yī)療效率之外,會不會帶來哪些本質(zhì)的東西?這些本質(zhì)的東西足以使得各國領(lǐng)導(dǎo)人關(guān)心,到底精準(zhǔn)醫(yī)學(xué)的深遠(yuǎn)意義在什么地方?我們也可以用一句話來說,精準(zhǔn)醫(yī)學(xué)實(shí)際上它的本質(zhì)意義在于精準(zhǔn)醫(yī)學(xué)可以推動健康醫(yī)療體系的概念發(fā)生本質(zhì)的變化,也就是說精準(zhǔn)醫(yī)學(xué)可以促進(jìn)人們在醫(yī)療體系的概念上發(fā)生根本的變化。我們知道,現(xiàn)在的醫(yī)療體系的概念是什么?是診斷治療,現(xiàn)在的醫(yī)療體系是以病人為對象,以醫(yī)院這樣的治病的設(shè)施為核心,以大夫作為實(shí)施者來實(shí)現(xiàn)的這樣一個以診斷治療為核心的體系。
而精準(zhǔn)醫(yī)學(xué),大數(shù)據(jù)的介入將使得我們醫(yī)療體系發(fā)生什么樣的變化?大家可以想像,未來由于大數(shù)據(jù)的介入,這個時候整個醫(yī)療的對象不再是哪一個病人的具體個人,而是面對全民,面對全部生長周期,就是生活在我們國家或生活在世界上每一個人,從生到死整個過程他的健康狀況都可以由精準(zhǔn)醫(yī)學(xué)的發(fā)展而得到評估,得到預(yù)測,得到干預(yù)。這樣的話就使得這個疾病有可能延緩發(fā)生,有可能發(fā)生的輕一點(diǎn),有可能根本不發(fā)生。那么這樣一個過程大家可以看到,這個是非常大的差別?,F(xiàn)在是以診斷治療為主,未來由于精準(zhǔn)醫(yī)學(xué)的推動,將以健康保證為主。
這樣一個本質(zhì)的變化一定會體現(xiàn)在生產(chǎn)的發(fā)展上,也就是說伴隨著精準(zhǔn)醫(yī)學(xué)概念的深入普及,相應(yīng)的產(chǎn)業(yè)會得到發(fā)展。因此有人估計(jì)到2018年,很快一兩年之內(nèi),伴隨著精準(zhǔn)醫(yī)學(xué)的產(chǎn)業(yè),可以得到2千億美金的規(guī)模,相當(dāng)于萬億人民幣,所以在任何國家里面它會對GDP有一定影響,所以這樣一個醫(yī)療本質(zhì)概念上的變化而導(dǎo)致產(chǎn)業(yè)上的變革,一定會引起各國領(lǐng)導(dǎo)人的關(guān)心,所以從這種意義上來講精準(zhǔn)醫(yī)學(xué)是有深遠(yuǎn)意義的,而不是僅僅是單純停留在為醫(yī)療提高一定的效率,而更深遠(yuǎn)的是改變整個醫(yī)療體系的概念,從而推動新興的相關(guān)產(chǎn)業(yè)的發(fā)展,而這個產(chǎn)業(yè)規(guī)模是巨大的。
因此,各國領(lǐng)導(dǎo)人都把精準(zhǔn)醫(yī)學(xué)研究已經(jīng)成為新一輪國家科技競爭和引領(lǐng)國際發(fā)展潮流的戰(zhàn)略制高點(diǎn),就把精準(zhǔn)醫(yī)學(xué)提高到國策戰(zhàn)略的高度來看待。美國大家知道已經(jīng)開展了所謂精準(zhǔn)醫(yī)學(xué)計(jì)劃,他的計(jì)劃的核心當(dāng)然我不重復(fù)了,這個PPT留下供大家參考。這樣的話我們知道美國要測100萬自然人的整個的遺傳密碼,目前測了68萬人,進(jìn)展很快。我們知道在奧巴馬離開總統(tǒng)位置之前,特意又追加了18億美金來推動美國精準(zhǔn)醫(yī)學(xué)的研究,所以在美國是積極促進(jìn)精準(zhǔn)醫(yī)學(xué)的發(fā)展。
同樣在歐盟跟他的成員國,包括英國、法國也都在推動精準(zhǔn)醫(yī)學(xué)計(jì)劃。英國大家知道要測10萬個腫瘤和罕見病病例,這都是10萬、100萬量級的。日本也在推動他的精準(zhǔn)醫(yī)學(xué)。那么精準(zhǔn)醫(yī)學(xué)將在哪些方面來促進(jìn)新的產(chǎn)業(yè)的發(fā)展,我想精準(zhǔn)醫(yī)學(xué)概念上的轉(zhuǎn)變至少在如下四個方面來推動產(chǎn)業(yè)上的創(chuàng)新發(fā)展。
第一個,海量的生物樣本庫和數(shù)據(jù)庫產(chǎn)業(yè)的發(fā)展。大數(shù)據(jù)將來的依托就是大量的海量的數(shù)據(jù)庫,它的來源就來自于大量的樣本。我們知道精準(zhǔn)醫(yī)學(xué)是伴隨著大的隊(duì)列,大的海量樣本的測量,所以第一個產(chǎn)業(yè)當(dāng)然要推動百萬量級的海量的樣本量的建立。過去的樣本都是小的,你要測一百萬人,要得到一百萬人活體樣品,讓他有效的搜集,有效的搜集合適的測序樣品,有效的保存到數(shù)據(jù)庫里面,所以第一個測序產(chǎn)業(yè)就是海量的樣本庫和數(shù)據(jù)庫產(chǎn)業(yè)的發(fā)展。
第二有了這些樣本當(dāng)然要測量,以測量基因組為主的各種各樣的測序行業(yè)的發(fā)展,包括測量基因組序列,測量蛋白序列,代謝產(chǎn)物的序列等等一系列的,大概有人估計(jì)到2018年光是測序產(chǎn)業(yè)的發(fā)展可以到117億美金,我自己估計(jì)恐怕要比這個數(shù)量要大得多,因?yàn)槲覀冎垃F(xiàn)在國際上正在發(fā)布一個新的測序系統(tǒng),這個系統(tǒng)將有希望使得我們測一個人的遺傳密碼能夠可以達(dá)到只花700塊人民幣這樣的水平,如果是這樣的話每個人都可以,相當(dāng)于一個醫(yī)院的常規(guī),所以很多醫(yī)院都可以測自己的數(shù)據(jù)。所以這個是一個非常巨大的數(shù),當(dāng)然不僅僅是基因組,還有轉(zhuǎn)錄組、蛋白組,所以推動第二個產(chǎn)業(yè)就是以基因組為代表的組學(xué)數(shù)據(jù)的獲取行業(yè)。這個行業(yè)目前國內(nèi)有成百上千個小的公司已經(jīng)成立了,正在推動測序產(chǎn)業(yè)的發(fā)展。
第三這是一個非常重要的值得關(guān)注的產(chǎn)業(yè),我個人覺得雖然艱苦,但是這個性能價(jià)格比非常好的產(chǎn)業(yè),就是基于海量數(shù)據(jù)的測量結(jié)果,挖掘跟疾病相關(guān)的新的分子標(biāo)的,我們知道現(xiàn)在用的分子Mark很少,而且不準(zhǔn),我們將來挖掘新的分子標(biāo)的,同時發(fā)現(xiàn)新的藥物設(shè)計(jì)的靶點(diǎn)。這個產(chǎn)業(yè)大家知道,你獲得一個新的靶點(diǎn),設(shè)計(jì)一個新藥往往都是百億美金數(shù)量級的。所以第三個產(chǎn)業(yè)將推動挖掘新的疾病診斷的分子Mark和新的藥物設(shè)計(jì)靶點(diǎn)的這樣一個所謂深度挖掘的大規(guī)模信息,這也是我們健康大數(shù)據(jù)工作者的核心目標(biāo)。
第四就是伴隨概念轉(zhuǎn)變而產(chǎn)生的適應(yīng)精準(zhǔn)醫(yī)學(xué)的各種各樣的設(shè)施,這個設(shè)施大概是千億美金數(shù)量級,所以大家可以看到這將是一個巨大的新興的產(chǎn)業(yè)。而我知道目前圍繞著四個方面國內(nèi)實(shí)際已經(jīng)動起來了,很多的公司成百上千的已經(jīng)成立了。我們國家精準(zhǔn)醫(yī)學(xué)的發(fā)展目標(biāo),在座的有衛(wèi)計(jì)委的,他們正在推動主導(dǎo)這個方面的發(fā)展。我們精準(zhǔn)醫(yī)學(xué)的發(fā)展目標(biāo)是和國際一致的。
第三個要講的實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)要有哪些基礎(chǔ)。精準(zhǔn)醫(yī)學(xué)的是先有那些方面的準(zhǔn)備,哪些是新的。有兩個方面,第一是要獲取組學(xué)數(shù)據(jù)并挖掘組學(xué)數(shù)據(jù)的內(nèi)涵,也就是說第一個基礎(chǔ)就是得到這些組學(xué)數(shù)據(jù),同時用各種辦法挖掘組學(xué)數(shù)據(jù)當(dāng)中的跟疾病,跟生長發(fā)育相關(guān)的生物學(xué)的含義。這實(shí)際上用到兩個方面的東西,一個是組學(xué)大數(shù)據(jù)測量的技術(shù),一個是組學(xué)數(shù)據(jù)挖掘的技術(shù),所以第一個技術(shù)是要把當(dāng)代國際上兩大科學(xué)前沿有機(jī)的融合起來,一個就是組學(xué)的獲取手段,一個是大數(shù)據(jù)的挖掘手段。有了這個以后,我們就能獲得在分子水平上跟疾病相關(guān)的大量的知識。有了這些知識我們就掌握分子水平的很多很多信息。
然后第二個基礎(chǔ)就是要建立我們獲得組學(xué)數(shù)據(jù)那些變異跟疾病臨床表現(xiàn)之間的關(guān)系,要假設(shè)這樣一個橋梁,這就是要把基因型跟表現(xiàn)型連起來,基因型就是挖掘出來的組學(xué)數(shù)據(jù)的變化,表現(xiàn)型就是疾病的表型,把這連接起來,這需要發(fā)展大量的生物信息,生物網(wǎng)絡(luò)和知識,這兩個組合起來了我們精準(zhǔn)醫(yī)學(xué)相關(guān)的手段就有了,然后我們應(yīng)當(dāng)緊密的結(jié)合當(dāng)代臨床的影像學(xué)、生化學(xué)、醫(yī)生的知識緊密結(jié)合起來,就能做到精準(zhǔn)醫(yī)學(xué)有效的為當(dāng)前的臨床服務(wù),而不是把精準(zhǔn)醫(yī)學(xué)的發(fā)展和當(dāng)前的臨床對立起來,這樣的想法是錯誤的。
第四個我要講的也是我樂意多說幾句的,就是精準(zhǔn)醫(yī)學(xué)既然從概念上來講有變革,能促進(jìn)新的產(chǎn)業(yè)的發(fā)展,現(xiàn)在走到哪一步?我個人覺得目前精準(zhǔn)醫(yī)學(xué)才剛剛上路,為什么這樣說?因?yàn)樵诰珳?zhǔn)醫(yī)學(xué)的概念下,我們還有太多的挑戰(zhàn),還有巨大的困難,還有太多的問題沒有解決。那么我們才剛剛走上精準(zhǔn)醫(yī)學(xué)的路,只有這些問題克服了,精準(zhǔn)醫(yī)學(xué)才能更好的實(shí)施。在這里有很多的困難,根據(jù)時間的關(guān)系我舉一兩個例子來說明精準(zhǔn)醫(yī)學(xué)遇到的挑戰(zhàn)。
第一個挑戰(zhàn)在組學(xué)方面就是說我們可以測基因組,測轉(zhuǎn)錄組,我們對基因組的了解當(dāng)前是什么狀態(tài)?我自己覺得我們在我們的基因組當(dāng)中存在大量暗物質(zhì),基因組當(dāng)中存在大量的暗信息,也就是說我們自己對自己的遺傳密碼了解還是初步階段。這是我們的遺傳密碼,現(xiàn)在我問的問題是當(dāng)前集中全世界在這個領(lǐng)域科學(xué)家的智慧,集中我們所有的知識,我們能解讀這個遺傳密碼的部分,從根本規(guī)律上能解讀的不超過3%,這就是基因組當(dāng)中尊崇中學(xué)法則,編碼蛋白的部分,所以你現(xiàn)在即使花五六百塊錢,今年年底可以花七百塊錢測了遺傳密碼,能讀懂的就3%,97%都讀不懂,如果這都讀不懂精準(zhǔn)什么?本身就讀不懂,它的變化當(dāng)然就更不懂,所以目前我們真正能夠有用的部分。所以大家很多人都在炒一個概念,說要測高端人群檢測自己的遺傳密碼。我告訴大家不是沒有用,有用的部分只有3%,97%你是解決不了的,那么你測了以后存著,存到哪年能解釋了。
所以我們現(xiàn)在要真正的能夠充分做到精準(zhǔn)的話,就要不斷地來提高我們對另外的97%的解讀,也就是說我們要了解遺傳密碼當(dāng)中那97%我們稱作遺傳密碼當(dāng)中的非編碼序列,這非編碼序列總的結(jié)合占到人類遺傳密碼的97%,這些東西隨著它不斷地解讀,我們就會不斷地做到精準(zhǔn)。那么現(xiàn)在我們能解讀的部分大約是3%,因此我們才剛剛起步,這只是從基因組這個角度來講的。
這一點(diǎn)我只引一篇文章,這個問題如此之明確,不用引太多的文獻(xiàn)。大家去查一查2010年12月17日的文獻(xiàn),如果在自然科學(xué)領(lǐng)域里選10個人們最關(guān)心的問題,第一個出現(xiàn)的就是我剛才講的人類遺傳密碼當(dāng)中的暗物質(zhì),我自己更傾向暗信息,所以這實(shí)際上是離我們最近的10年科技界對突出問題的看法,就是我們自己的遺傳密碼。
經(jīng)過我們的努力很容易可以測了,但是我們知道規(guī)律的只是極小的一部分,大量的部分占97%的部分是暗的。在這里可以看到它說我們僅僅知道1.5%,那充其量是3%,換句話說大部分的遺傳密碼我們可以測量,但不能解釋,這就是整個目前精準(zhǔn)醫(yī)學(xué)當(dāng)中遇到的第一個挑戰(zhàn),就是我們對自身的遺傳信息大的部分依然從規(guī)律上并不了解。
下面我稍微展開一點(diǎn)給大家舉一些例子,大家知道從遺傳密碼來講,我們的97%都是非編碼序列,迄今為止我們并不了解它的規(guī)律。但是我給大家看一下這個伴隨著人類基因組模式的其他生物學(xué)遺傳密碼,最上邊是大腸桿菌,它是單細(xì)胞的生物,只有一個細(xì)胞,連核都沒有,這個時候它的原盤代表它的遺傳密碼,紅色的部分代表編碼蛋白質(zhì)的部分。對于一個如此低的生物,測完它的遺傳密碼了,換句話說對一個非常低等的生物把遺傳密碼測完了就大致知道它怎么活著,怎么運(yùn)作,制造哪些蛋白。上面中間的酵母Yeast它已經(jīng)歸類到紅色部分減少了變70%,而非編碼部分增加到28%。我們再看最上面最右端的coli是只有960個細(xì)胞的多細(xì)胞生物,這是它的遺傳密碼當(dāng)中已知規(guī)律的部分,紅色的部分,減少到遠(yuǎn)遠(yuǎn)小于5%,只有28%。
這個時候你看編碼蛋白質(zhì)的已知規(guī)律的部分減少到17%,編碼部分增加到82%,下面的只有1.5%到2%,這和我們常規(guī)的意識完全不一致。我們可能想生物從簡單到復(fù)雜肯定是基因越來越多,恰恰相反,生物越復(fù)雜我們不知道規(guī)律的非編碼的部分所占的比例越來越大,所以從進(jìn)化的邏輯來講我們不知道規(guī)律的這一部分一定具有重要的生物學(xué)功能,而且特別一定會跟生物的高級部分緊密相關(guān)。所以從遺傳密碼來講,我們可以得到一些結(jié)論,這97%雖然我們不知道規(guī)律,但一定是重要的。
第二個有人就開始問了,說你這部分它是重要的,除了它有遺傳密碼之外,第二個重要的東西就是它要活動,要發(fā)放信息,要用生物學(xué)的行話來講有轉(zhuǎn)錄組來產(chǎn)生。所以進(jìn)入21世紀(jì)以后,全世界幾十個實(shí)驗(yàn)同時在非編碼里面找有沒有轉(zhuǎn)錄產(chǎn)物,這個結(jié)論百分百肯定所有的編碼都有轉(zhuǎn)錄產(chǎn)物。這個意義上來講自本世紀(jì)最初的事件以后科技界不懷疑97%不僅有重要作用,而且每時每刻都在工作,所以非編碼序列,我們知道曹院長自己就做了很多非編碼的工作,所以非編碼就成為目前非常重要的研究熱點(diǎn)。
下面我給大家舉幾個非常簡單的例子,雖然我們的97%不知道,但是我們也得到一些信息,這某些點(diǎn),某些小的轉(zhuǎn)錄本來到97%的是具有重要的點(diǎn)。幾個跟腫瘤有關(guān)的例子,第一個例子叫PCGEMI,這個轉(zhuǎn)錄本由于不造蛋白。下一個His-1,這個轉(zhuǎn)錄本導(dǎo)致白血病,第三個MALAT-1,這個是導(dǎo)致非小細(xì)胞肺癌的一個致癌因素,大家知道目前肺癌是我們國內(nèi)增速最快的,也是發(fā)病率第一位的腫瘤,而80%以上的非小細(xì)胞肺癌。我剛才講的三個例子,在這種情況下大量腫瘤的診斷和治療是缺失的,腫瘤目前治療的困難也是非常重要的原因之一。
下面我們再舉三個自己跟腫瘤相關(guān)的工作。第一個工作,我和賀杰(音)一塊做的,找到了三個來自97%的異組分子標(biāo)記。第二個工作,我們自己發(fā)現(xiàn)了一個TCF7,這個東西可以保持腫瘤細(xì)胞的干性。第三個工作,我們發(fā)現(xiàn)長非編碼,這個是可以跟所謂固有免疫系統(tǒng)的活性相關(guān)的,這個工作我們還正在進(jìn)行深入,將來有機(jī)會也跟曹院長來請教,反正抗癌跟免疫系統(tǒng)相關(guān)的有一大堆的非編碼LA在起作用。這些說明97%跟健康疾病有關(guān),但是這些東西并沒有納入到診斷醫(yī)療的事業(yè)當(dāng)中來,所以我們精準(zhǔn)醫(yī)學(xué)還需要很多工作要做。
H19是在非編碼區(qū)里的一個非常重要的東西,如果它能正常存在的話,可以像P53那樣通過類似細(xì)胞消亡的途徑來使得癌細(xì)胞消亡。所以我們知道實(shí)際上這幾個例子雖然只是支幾的例子,但是說明在97%里面從疾病的診斷里面來講有一個影像,這些東西作為整體迄今為止我們并不知道,所以當(dāng)然我們并不能做到精準(zhǔn)。
大家一定會問你說的這些例子,能不能告訴我在那97%里有多少好的東西沒有發(fā)現(xiàn)?大家知道在編碼的序列里面大約3%里面我們可以確定大約基因數(shù)是25000左右,97%類似基因的東西,我剛才舉了五六個例子,你能不能說明在那里估一下,到目前為止我們知道在人里面來自97%的所有元件的克隆還沒有實(shí)現(xiàn),這是屬于倫理學(xué)、法律學(xué)的原因,但是我所說的是可以進(jìn)行參照的,就是日本的在小鼠做的全長的轉(zhuǎn)錄本的克隆得到了181000個,其中編碼蛋白質(zhì)的轉(zhuǎn)錄本僅有2000個,其余約161000個轉(zhuǎn)錄本全部歸屬于非編碼RNA。
當(dāng)然在這個領(lǐng)域大家知道,曾經(jīng)在2006年這兩位美國科學(xué)家獲得了非編碼諾貝爾獎勵,如果大家再開大一點(diǎn)的玩笑,我統(tǒng)計(jì)過遺傳密碼那3%的研究大約造就了50個左右諾貝爾獲得者,現(xiàn)在還有97%我們不了解,大家知道97%比3%大得多。所以我們在座的還有爭取個上千個諾貝爾獎金的領(lǐng)域,所以這還有一個領(lǐng)域,雖然對于精準(zhǔn)醫(yī)學(xué)來講是挑戰(zhàn),但是對于創(chuàng)新來講確是巨大的機(jī)會。所以我們知道,我們這個精準(zhǔn)醫(yī)學(xué)不僅僅推動醫(yī)學(xué)概念的轉(zhuǎn)化,促進(jìn)了生產(chǎn)的發(fā)展,也為我們創(chuàng)新推開了一扇門,提供了一個無限大的機(jī)會。
所以我想精準(zhǔn)醫(yī)學(xué)一個挑戰(zhàn)就是我們對組學(xué)數(shù)據(jù)的認(rèn)識上還有巨大的差距,但是這個東西提示我們在這個97%的非編碼序列的研究一定會為疾病的診斷與治療提供全新的方向,為全新的藥物設(shè)計(jì)和研發(fā)提供新的平臺,一定會為動植物新品種、新性段的培育提供新的可能。所以這可以看到挑戰(zhàn),同時也是機(jī)會。
我再稍微講講關(guān)于數(shù)據(jù)方面的幾個挑戰(zhàn)。大家知道其實(shí)不僅僅是組學(xué),大數(shù)據(jù)伴隨組學(xué)的介入,企事業(yè)存在各種層次的重要的挑戰(zhàn)。第一個挑戰(zhàn)就是計(jì)算量大、數(shù)據(jù)量大。我們知道大數(shù)據(jù)從IT行業(yè)來講是用四個V定義的,我們的組學(xué)數(shù)據(jù)肯定符合四個V,但是我們的大數(shù)據(jù)除了數(shù)據(jù)量大之外具有兩個特點(diǎn),一個是目前迄今為止我們知道的增速最快的數(shù)據(jù),就這個數(shù)據(jù)的增速比我們所知道這個人類的活動當(dāng)中產(chǎn)生的其它數(shù)據(jù)都增速快,所以就遇到如何適應(yīng)如此快速度的,就是加速度如此快的數(shù)據(jù)怎么處理?這個數(shù)據(jù)還沒有處理完,比它多得多的數(shù)據(jù)就來了,這是一個特點(diǎn)。
第二個特點(diǎn)就是它的信噪比不好,就是它存在很多測量不足。最好的基因組數(shù)據(jù)用Q20大約測序錯誤率是千分之一,蛋白組錯誤率就更高了。第二個數(shù)據(jù)源的缺點(diǎn)是缺失值,大家知道對于一個完備結(jié)合的缺失就帶來極大的缺點(diǎn)。
所以我們組學(xué)大數(shù)據(jù)的挑戰(zhàn)第一個是伴隨海量數(shù)據(jù),必須了解這個海量數(shù)據(jù)是增速極快,同時數(shù)值源的信噪比不好但有缺失值。
第二是來自樣本的困難,雖然我們數(shù)據(jù)量很大,但是解決一個具體問題的時候,比方說解決某一個腫瘤,這個時候你所取得的樣本量實(shí)際上是大大受限的。我們知道由于分子數(shù)據(jù)的引入,任何一種疾病包括某一種特殊的腫瘤,在基因組的變異位點(diǎn)總是千數(shù)量級的。在座很多醫(yī)療專家一定會知道真正取樣本數(shù)是受限的,這就帶來一個問題,我們知道在座的搞數(shù)據(jù)建模的一定知道,我們要使得一個母體的模型能夠得到確切的解,邊界條件一定和自變量的數(shù)要匹配,如果有2000個自變量,外界的樣品數(shù)邊界條件應(yīng)當(dāng)大于2000,這樣系統(tǒng)才是收斂的,這是數(shù)學(xué)的基本東西,我發(fā)現(xiàn)很多幫助大家去做生物信息處理的人從來不考慮數(shù)學(xué)的邊界,不考慮這些問題,然后從外面拿了一個程序在計(jì)算機(jī)上調(diào)通了,管你什么數(shù)據(jù)一下就得到結(jié)果了。不收斂的情況下增加一個樣本結(jié)果完成變了,因?yàn)橄到y(tǒng)不收斂,是開放的,所以第二個來自樣本的問題更大,大家知道我們必須實(shí)的要考慮的體系自變量和取得的樣品相匹配,換句話說邊界條件要大于內(nèi)部自變量,這是數(shù)學(xué)當(dāng)中的基本規(guī)律,但是很多人并不清楚。
怎么解決這個問題?兩種途徑,一個大樣本。所以美國要做一百萬人,自變量是一萬我做一百萬人,就能保證系統(tǒng)是收斂的,能得到某些有效參數(shù),這是一個辦法,但是這樣的行為只能是國家行為,不可能哪個人,當(dāng)然這個國家行為必須集成統(tǒng)一,否則的話是沒用的。所以第一個辦法是增加樣本量,但是這個不是任何一個實(shí)驗(yàn)室能做到的。第二個辦法是任何一個實(shí)驗(yàn)室都能做到,也是我們生物信息專家發(fā)揮專長的地方,要采取合適的系統(tǒng)建模。什么意思?就是把你的這個大的系統(tǒng)充分的優(yōu)化成子系統(tǒng),讓每一個子系統(tǒng)的變量足夠的小,能夠跟你邊界條件匹配,這是顯示生物信息學(xué)家建模功底的考驗(yàn)。這是第二個問題就是我們的樣本量小。
除此之外大家知道,其實(shí)我們對同一種疾病在微觀水平上變異并不產(chǎn)生在一個位點(diǎn)上,查肝癌,查肺癌,同樣的宏觀表現(xiàn)一樣,但是微觀的不在一個變化。如果你在臨床上找到一個宏觀臨床非常好的樣品,你非常滿意了,比如有一百個,然后去查微觀的變化,不再一個點(diǎn)上,可能這一百個在宏觀的分析非常好,在微觀上可能落到十個點(diǎn)上,有的點(diǎn)頻度是5%,有的在6%。所以實(shí)際上在分子水平看來,你的樣品是按照頻度分布的,并不是宏觀上的一種疾病,微觀的表型也是這樣的。你本來覺得取一百個不錯了,但是實(shí)際上一被位點(diǎn)一分的話就沒幾個了。
所以我們正在討論從精準(zhǔn)醫(yī)學(xué)上其實(shí)要討論一些醫(yī)學(xué)哲學(xué)的概念,共同疾病在組學(xué)水平上什么是它的變化,你在宏觀上同一個肺癌,但是微觀是不同的位點(diǎn),怎么看共同疾病什么指征能是它的同一種變化,如果找不到同一種疾病在不同位點(diǎn)的共同的變化藥廠就不能設(shè)計(jì)藥物。所以共同的疾病在分子水平上什么是它的共同變化,當(dāng)然共同的疾病每個人可能有各自的表型,這是被大家一再講的,個體化醫(yī)療已經(jīng)講的太多了,這很容易理解,但是我們必須要看到共同的疾病即使在位點(diǎn)上有不同,它一定還有在更高層次上一致性的東西,所以從分子考慮醫(yī)學(xué)的哲學(xué)來講,共同的疾病一定會找到在哪個層次上有共同的表型,而在哪個層次上有個性化的東西,使得我們還是可以采取共用和個性相結(jié)合的方案。
我們考慮的上面講的都僅僅是在對一個基因所引起的數(shù)據(jù)分析的問題,但是這些基因都不是孤立的,是互相關(guān)聯(lián)的。所以當(dāng)你把整個分子水平數(shù)據(jù)用到一個地方來還要考慮一個復(fù)雜的網(wǎng)絡(luò),這個網(wǎng)絡(luò)本身就進(jìn)入復(fù)雜網(wǎng)絡(luò)的數(shù)據(jù)分析的階段。
大家知道這些網(wǎng)絡(luò)是動態(tài),因?yàn)樯锸腔畹模耸腔畹?,所以網(wǎng)絡(luò)每個節(jié)點(diǎn)的連接都是變的。另外它是有向的,往往在生物體里面是一個酶在作用。同時由于我上面的論述,所有網(wǎng)絡(luò)元件不僅是動態(tài)還有非編碼核算,所以是雙色的,所有的都是非線性的,這些問題也是所謂的精準(zhǔn)醫(yī)學(xué)引進(jìn)來的復(fù)雜的數(shù)學(xué)問題。我想這個復(fù)雜關(guān)系不僅僅是我們,也是數(shù)學(xué)家正在研究和解決的問題,所以這是更深一個層次的關(guān)于精準(zhǔn)醫(yī)學(xué)遇到的數(shù)學(xué)或者信息分析當(dāng)中的挑戰(zhàn)。
在更高層次上,我們剛才講的是單個基因,基因與基因之間的相互作用,這些東西都是精準(zhǔn)醫(yī)學(xué)層面上,這些數(shù)據(jù)要和影像學(xué)、生化學(xué)的組合,就導(dǎo)致了更高層次的信息處理的問題,就是高度異質(zhì)化數(shù)據(jù)的整合的問題。
最后一個問題是全局?jǐn)?shù)據(jù)共享問題,這個問題我覺得是要接觸到最困難的問題,沒有全局的數(shù)據(jù)共享,就是我們國家在大數(shù)據(jù)時代做小數(shù)據(jù)的工作,你是體會不到大數(shù)據(jù)的意義。所以從這一點(diǎn)看來,不管是組學(xué)、生物學(xué)本身,還是從數(shù)據(jù)處理當(dāng)中,都提出一些所謂嚴(yán)重的挑戰(zhàn),這些挑戰(zhàn)具有相當(dāng)?shù)膶W(xué)術(shù)上的難度,只有把這些問題逐漸克服,我們才能逐漸走向精準(zhǔn)。但不管怎么說,這一條路,這一條概念是重要的,是會改變整個概念的,會促進(jìn)新的產(chǎn)業(yè)的發(fā)展。但是只有在我們的努力下,才能一步步實(shí)現(xiàn)。我想利用這個機(jī)會我介紹這么多,希望大家批評,謝謝!