人類基因組計劃logo

不過這個項目在進行到第八年的時候,卻發(fā)生了一段小插曲,正是這個小插曲,加速了人類基因組計劃的完成。

今天的故事

我們就從這個小插曲展開


時間回到1998年

當時人類基因組計劃正有條不紊地進行,這時突然冒出一個叫Celera的公司,竟然宣稱說,他們可以用更少的資金(僅3億美元),并在三年內完成這一項目!

? What?集世界上多個國家人力物力的項目,竟然抵不過一家私人公司?

顯然,Celera公司是有備而來,他們有如此底氣的原因就是采用了和人類基因組計劃不同的測序策略——全基因組霰彈槍測序法。

簡單來說,這項技術是將整個基因組直接切成許多小而重疊的片段,然后再統(tǒng)一將這些小片段直接進行“Sanger測序”,最后通過算法檢測小片段之間的重疊部分來直接重構人類基因組,使得基因測序的速度更快。

2.png

此外,Celera公司還想申請對基因的專利保護,他們一開始宣稱只尋求對200至300個基因的專利權保護,但隨后又修改為尋求對“完全鑒定的重要結構”的總共100至300個靶基因進行知識產(chǎn)權保護。到1999年,Celera想要申請對6500個完整的或部分的人類基因進行初步專利保護。Celera公司的這一舉動被認為會阻礙遺傳學研究,而招致了批評。由此,人類基因組計劃團隊感受到了巨大壓力,這使得他們不得不改進策略,進一步加速其工作進程。

最終,經(jīng)過3年你追我趕,這個比賽有結果了。


2001年2月

雙方握手言和,同時發(fā)布了完成度超過90%的人類基因組草圖。這比原定計劃提早了好幾年,并且所有人類基因組數(shù)據(jù)為人類共同財富,不允許專利保護,且必須對所有研究者公開!

3.png

為慶祝人類基因組計劃完成而發(fā)行的郵票

回過頭來看,人類基因組計劃對整個生命科學研究帶來了深遠影響,相關應用已大大超出了生命科學本身,推動了一系列相關產(chǎn)業(yè)的發(fā)展。想象一下,曾經(jīng)需要全球數(shù)個國家花費數(shù)十年,耗資超過30億美元的基因組測序,到今天只需幾小時、幾百元的成本。

不過,雖然技術在突飛猛進,但每個人身上大約31.6億個堿基對卻是始終不變,而這就帶來了一個問題——數(shù)據(jù)量太大了。

4.png

基因測序的步驟是將細胞放入基因測序儀,以此啟動破譯流程。但人類基因組數(shù)量龐大,如果從頭至尾全部測序工作量實在太大。因此,細胞中的DNA會被分解成更易于管理的很多個小片段。從本質上來說,測序儀就是拍攝所有片段的快照,并利用計算能力對快照進行初始分析,然后將分析結果按某種文件格式進行保存,以便在流程下一階段進行處理。

在這個過程中,不僅需要強大的計算能力以快速得出分析結果,并且每一次的快照都會產(chǎn)生大量數(shù)據(jù),而一個人完整的基因組測序數(shù)據(jù)文件大小約為200GB,隨著近年來基因測序產(chǎn)業(yè)的火熱,這給基因測序公司帶來了巨大的IT挑戰(zhàn)。

具體來說,海量基因數(shù)據(jù)帶來的數(shù)據(jù)存儲、計算、安全等多方面挑戰(zhàn),已成為行業(yè)進一步發(fā)展必須解決的問題:

◆ 數(shù)據(jù)存儲:從最初的人類基因組開始細分擴展,目前基因測序技術已經(jīng)涉及到腫瘤、遺傳病檢測,擴展到植物、遠古生物、細菌、病毒、微生物的基因檢測。因此,數(shù)據(jù)種類和數(shù)據(jù)量都異常龐大,經(jīng)常以PB為單位保存

◆ 數(shù)據(jù)計算:基因序列數(shù)目龐大,對基因進行同源性搜尋、比對、分析、遺傳發(fā)育分析等需要對海量、復雜、多變的數(shù)據(jù)進行分析和挖掘。這要求海量計算資源的支持,對計算性能、內存容量、數(shù)據(jù)帶寬等要求很高。

◆ 數(shù)據(jù)安全:基因數(shù)據(jù)較為隱私,但傳統(tǒng)的基因公司IT能力較弱,安全措施不到位,防御能力很弱。

◆ 數(shù)據(jù)全球化:由于基因行業(yè)特殊性,很多樣本數(shù)據(jù)需要到當?shù)夭杉?strong>如果有數(shù)據(jù)共享,就需要全球化的多數(shù)據(jù)中心支持。

應當如何應對?

戴爾易安信有辦法!

在大規(guī)模樣本的數(shù)據(jù)分析挖掘方面,戴爾易安信可以提供高性能計算(HPC)、機器學習、人工智能、大數(shù)據(jù)分析等多種應用場景的解決方案。其中的生命科學HPC方案,可以根據(jù)臨床要求,幫助生物信息學中心、遺傳學中心經(jīng)濟快捷地將基因分析轉為臨床治療方案。

5.png

? 在數(shù)據(jù)存儲方面,戴爾易安信SC系列高端存儲每個陣列可提供最大6PB原始容量,通過存儲聯(lián)邦技術可提供更多的存儲容量,滿足未來擴展需求。同時,在戴爾易安信SC存儲上使用重復數(shù)據(jù)刪除和數(shù)據(jù)壓縮,能有效提高整個存儲的利用率。

6.png

*戴爾易安信SC系列高端存儲搭載英特爾?至強?可擴展處理器?,可為任何企業(yè)提供未來就緒的性能、靈活性和長期價值。為SC系列高端存儲提供了卓越的性能和效率,可對客戶核心系統(tǒng)尤其是HPC系統(tǒng)進行支持。

? 在數(shù)據(jù)安全方面,戴爾易安信SC系列存儲可以讓客戶以更加簡單、自主可控的方式構建“雙活+3DC”系統(tǒng),實現(xiàn)真正的業(yè)務永續(xù)。同時,還提供全面的解決方案,滿足復制、持續(xù)數(shù)據(jù)保護、快照、備份、歸檔的數(shù)據(jù)保護需求,例如DataDomain、Avamar、Networker、RecoverPoint、VPLEX、Unity、PowerMax、i2Box-Dell等等。

7.png

? 在數(shù)據(jù)共享、全球化、多數(shù)據(jù)中心方面,戴爾易安信端到端基礎架構解決方案,將服務器、存儲、網(wǎng)絡和軟件工具整合在一起。其優(yōu)化的IT架構能夠充分發(fā)揮服務器、存儲、網(wǎng)絡的高可用、高動態(tài)、高可擴展的特性,通過細粒度優(yōu)化資源和以負載為核心的資源集中統(tǒng)一管理,提高資源利用率和管理效率,并降低新增采購成本。

同時,戴爾易安信解決方案與VMware虛擬化平臺緊密整合,實現(xiàn)了服務器的虛擬化管理,從而為用戶提供靈活的云服務。

8.png

數(shù)據(jù)存儲、計算分析

能力更上一層樓

基因研究等人類科學探索

也將獲得更大助力

不斷精進的道路上

戴爾易安信

一直都在…

尊敬的讀者

數(shù)據(jù)量爆發(fā)的時代

企業(yè)需要什么樣的存儲設備與技術

來應對呈指數(shù)級增長的數(shù)據(jù)壓力?

不同行業(yè)的企業(yè)

需要怎樣的存儲解決方案

來徹底釋放大數(shù)據(jù)的價值?

存儲作為現(xiàn)代化數(shù)據(jù)中心建設中關鍵的一環(huán) 

如何助力企業(yè)為迎接大數(shù)據(jù)挑戰(zhàn)做好準備?

戴爾科技精品課堂

帶您走進下一代存儲

挖掘存儲聯(lián)邦技術的價值

9.jpg
10.png
分享到

songjy

相關推薦