人類基因組計(jì)劃logo
不過這個(gè)項(xiàng)目在進(jìn)行到第八年的時(shí)候,卻發(fā)生了一段小插曲,正是這個(gè)小插曲,加速了人類基因組計(jì)劃的完成。
今天的故事
我們就從這個(gè)小插曲展開
時(shí)間回到1998年
當(dāng)時(shí)人類基因組計(jì)劃正有條不紊地進(jìn)行,這時(shí)突然冒出一個(gè)叫Celera的公司,竟然宣稱說,他們可以用更少的資金(僅3億美元),并在三年內(nèi)完成這一項(xiàng)目!
? What?集世界上多個(gè)國家人力物力的項(xiàng)目,竟然抵不過一家私人公司?
顯然,Celera公司是有備而來,他們有如此底氣的原因就是采用了和人類基因組計(jì)劃不同的測序策略——全基因組霰彈槍測序法。
簡單來說,這項(xiàng)技術(shù)是將整個(gè)基因組直接切成許多小而重疊的片段,然后再統(tǒng)一將這些小片段直接進(jìn)行“Sanger測序”,最后通過算法檢測小片段之間的重疊部分來直接重構(gòu)人類基因組,使得基因測序的速度更快。
此外,Celera公司還想申請(qǐng)對(duì)基因的專利保護(hù),他們一開始宣稱只尋求對(duì)200至300個(gè)基因的專利權(quán)保護(hù),但隨后又修改為尋求對(duì)“完全鑒定的重要結(jié)構(gòu)”的總共100至300個(gè)靶基因進(jìn)行知識(shí)產(chǎn)權(quán)保護(hù)。到1999年,Celera想要申請(qǐng)對(duì)6500個(gè)完整的或部分的人類基因進(jìn)行初步專利保護(hù)。Celera公司的這一舉動(dòng)被認(rèn)為會(huì)阻礙遺傳學(xué)研究,而招致了批評(píng)。由此,人類基因組計(jì)劃團(tuán)隊(duì)感受到了巨大壓力,這使得他們不得不改進(jìn)策略,進(jìn)一步加速其工作進(jìn)程。
最終,經(jīng)過3年你追我趕,這個(gè)比賽有結(jié)果了。
2001年2月
雙方握手言和,同時(shí)發(fā)布了完成度超過90%的人類基因組草圖。這比原定計(jì)劃提早了好幾年,并且所有人類基因組數(shù)據(jù)為人類共同財(cái)富,不允許專利保護(hù),且必須對(duì)所有研究者公開!
為慶祝人類基因組計(jì)劃完成而發(fā)行的郵票
回過頭來看,人類基因組計(jì)劃對(duì)整個(gè)生命科學(xué)研究帶來了深遠(yuǎn)影響,相關(guān)應(yīng)用已大大超出了生命科學(xué)本身,推動(dòng)了一系列相關(guān)產(chǎn)業(yè)的發(fā)展。想象一下,曾經(jīng)需要全球數(shù)個(gè)國家花費(fèi)數(shù)十年,耗資超過30億美元的基因組測序,到今天只需幾小時(shí)、幾百元的成本。
不過,雖然技術(shù)在突飛猛進(jìn),但每個(gè)人身上大約31.6億個(gè)堿基對(duì)卻是始終不變,而這就帶來了一個(gè)問題——數(shù)據(jù)量太大了。
基因測序的步驟是將細(xì)胞放入基因測序儀,以此啟動(dòng)破譯流程。但人類基因組數(shù)量龐大,如果從頭至尾全部測序工作量實(shí)在太大。因此,細(xì)胞中的DNA會(huì)被分解成更易于管理的很多個(gè)小片段。從本質(zhì)上來說,測序儀就是拍攝所有片段的快照,并利用計(jì)算能力對(duì)快照進(jìn)行初始分析,然后將分析結(jié)果按某種文件格式進(jìn)行保存,以便在流程下一階段進(jìn)行處理。
在這個(gè)過程中,不僅需要強(qiáng)大的計(jì)算能力以快速得出分析結(jié)果,并且每一次的快照都會(huì)產(chǎn)生大量數(shù)據(jù),而一個(gè)人完整的基因組測序數(shù)據(jù)文件大小約為200GB,隨著近年來基因測序產(chǎn)業(yè)的火熱,這給基因測序公司帶來了巨大的IT挑戰(zhàn)。
具體來說,海量基因數(shù)據(jù)帶來的數(shù)據(jù)存儲(chǔ)、計(jì)算、安全等多方面挑戰(zhàn),已成為行業(yè)進(jìn)一步發(fā)展必須解決的問題:
◆ 數(shù)據(jù)存儲(chǔ):從最初的人類基因組開始細(xì)分?jǐn)U展,目前基因測序技術(shù)已經(jīng)涉及到腫瘤、遺傳病檢測,擴(kuò)展到植物、遠(yuǎn)古生物、細(xì)菌、病毒、微生物的基因檢測。因此,數(shù)據(jù)種類和數(shù)據(jù)量都異常龐大,經(jīng)常以PB為單位保存。
◆ 數(shù)據(jù)計(jì)算:基因序列數(shù)目龐大,對(duì)基因進(jìn)行同源性搜尋、比對(duì)、分析、遺傳發(fā)育分析等需要對(duì)海量、復(fù)雜、多變的數(shù)據(jù)進(jìn)行分析和挖掘。這要求海量計(jì)算資源的支持,對(duì)計(jì)算性能、內(nèi)存容量、數(shù)據(jù)帶寬等要求很高。
◆ 數(shù)據(jù)安全:基因數(shù)據(jù)較為隱私,但傳統(tǒng)的基因公司IT能力較弱,安全措施不到位,防御能力很弱。
◆ 數(shù)據(jù)全球化:由于基因行業(yè)特殊性,很多樣本數(shù)據(jù)需要到當(dāng)?shù)夭杉?strong>如果有數(shù)據(jù)共享,就需要全球化的多數(shù)據(jù)中心支持。
應(yīng)當(dāng)如何應(yīng)對(duì)?
戴爾易安信有辦法!
在大規(guī)模樣本的數(shù)據(jù)分析和挖掘方面,戴爾易安信可以提供高性能計(jì)算(HPC)、機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)分析等多種應(yīng)用場景的解決方案。其中的生命科學(xué)HPC方案,可以根據(jù)臨床要求,幫助生物信息學(xué)中心、遺傳學(xué)中心經(jīng)濟(jì)快捷地將基因分析轉(zhuǎn)為臨床治療方案。
? 在數(shù)據(jù)存儲(chǔ)方面,戴爾易安信SC系列高端存儲(chǔ)每個(gè)陣列可提供最大6PB原始容量,通過存儲(chǔ)聯(lián)邦技術(shù)可提供更多的存儲(chǔ)容量,滿足未來擴(kuò)展需求。同時(shí),在戴爾易安信SC存儲(chǔ)上使用重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮,能有效提高整個(gè)存儲(chǔ)的利用率。
*戴爾易安信SC系列高端存儲(chǔ)搭載英特爾?至強(qiáng)?可擴(kuò)展處理器?,可為任何企業(yè)提供未來就緒的性能、靈活性和長期價(jià)值。為SC系列高端存儲(chǔ)提供了卓越的性能和效率,可對(duì)客戶核心系統(tǒng)尤其是HPC系統(tǒng)進(jìn)行支持。
? 在數(shù)據(jù)安全方面,戴爾易安信SC系列存儲(chǔ)可以讓客戶以更加簡單、自主可控的方式構(gòu)建“雙活+3DC”系統(tǒng),實(shí)現(xiàn)真正的業(yè)務(wù)永續(xù)。同時(shí),還提供全面的解決方案,滿足復(fù)制、持續(xù)數(shù)據(jù)保護(hù)、快照、備份、歸檔的數(shù)據(jù)保護(hù)需求,例如DataDomain、Avamar、Networker、RecoverPoint、VPLEX、Unity、PowerMax、i2Box-Dell等等。
? 在數(shù)據(jù)共享、全球化、多數(shù)據(jù)中心方面,戴爾易安信端到端基礎(chǔ)架構(gòu)解決方案,將服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)和軟件工具整合在一起。其優(yōu)化的IT架構(gòu)能夠充分發(fā)揮服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)的高可用、高動(dòng)態(tài)、高可擴(kuò)展的特性,通過細(xì)粒度優(yōu)化資源和以負(fù)載為核心的資源集中統(tǒng)一管理,提高資源利用率和管理效率,并降低新增采購成本。
同時(shí),戴爾易安信解決方案與VMware虛擬化平臺(tái)緊密整合,實(shí)現(xiàn)了服務(wù)器的虛擬化管理,從而為用戶提供靈活的云服務(wù)。
當(dāng)數(shù)據(jù)存儲(chǔ)、計(jì)算與分析的
能力更上一層樓
基因研究等人類科學(xué)探索
也將獲得更大助力
不斷精進(jìn)的道路上
戴爾易安信
一直都在…
尊敬的讀者
數(shù)據(jù)量爆發(fā)的時(shí)代
企業(yè)需要什么樣的存儲(chǔ)設(shè)備與技術(shù)
來應(yīng)對(duì)呈指數(shù)級(jí)增長的數(shù)據(jù)壓力?
不同行業(yè)的企業(yè)
需要怎樣的存儲(chǔ)解決方案
來徹底釋放大數(shù)據(jù)的價(jià)值?
存儲(chǔ)作為現(xiàn)代化數(shù)據(jù)中心建設(shè)中關(guān)鍵的一環(huán)
將如何助力企業(yè)為迎接大數(shù)據(jù)挑戰(zhàn)做好準(zhǔn)備?
戴爾科技精品課堂
帶您走進(jìn)下一代存儲(chǔ)
挖掘存儲(chǔ)聯(lián)邦技術(shù)的價(jià)值