這支團(tuán)隊(duì),由三家來(lái)自中國(guó)的機(jī)構(gòu)共同組建。

他們這次所做的具體任務(wù),叫做30X人類(lèi)全基因組測(cè)序(WGS)胚系變異分析。

(其中,“30X”是指全基因組測(cè)序的深度)

而在這個(gè)團(tuán)隊(duì)之前,同等條件下完成這項(xiàng)任務(wù)所需的時(shí)間,卻長(zhǎng)達(dá)近24小時(shí)之久。

所以咱就是說(shuō),現(xiàn)在的“battle”結(jié)果就是——24小時(shí) vs 7分鐘,性能整個(gè)提升了200多倍!

圖片2.jpg

與此同時(shí),在相同條件下的計(jì)算成本還降低了80%,存儲(chǔ)成本也下降30%

但更重要的一點(diǎn)是,這事可能和你我都息息相關(guān)。

因?yàn)榛蝾A(yù)測(cè)的一個(gè)用途,就是檢測(cè)罹患多種疾病的可能性,鎖定個(gè)人病變基因,以此來(lái)提前預(yù)防和治療。

(P.s.世界著名演員安吉麗娜朱莉就這么做過(guò)。)

聽(tīng)起來(lái)確實(shí)是個(gè)好事,但如果放到過(guò)去,由于既耗時(shí)又費(fèi)錢(qián),能做得起基因預(yù)測(cè)的人屈指可數(shù)。

但今時(shí)不如往日,隨著算力、AI、大數(shù)據(jù)技術(shù)的不斷發(fā)展和融合,讓基因測(cè)序這樣數(shù)據(jù)密集型應(yīng)用變得越發(fā)親民。

而這一次的“7分鐘”,可以說(shuō)是把基因測(cè)序這件事往“平民時(shí)代”更推近了一步。

圖片3.jpg

△ 圖源:美國(guó)國(guó)家衛(wèi)生研究院(NIH)

那么接下來(lái)的問(wèn)題便是,為什么這支隊(duì)伍的方法,就能做到“快好省”呢?

從24小時(shí)到7分鐘,他們是怎么辦到的?

人類(lèi)全基因組測(cè)序要做的事,就是對(duì)未知基因組序列的物種進(jìn)行個(gè)體的基因組測(cè)序。

但非常明顯的一個(gè)難題,就是其數(shù)量過(guò)于龐大。

畢竟對(duì)象可是組成人體2.5萬(wàn)基因的約30億堿基對(duì),換算成容量大小則約為3GB。

圖片4.jpg

但這還不算完,為了保障基因數(shù)據(jù)的完整性,在此基礎(chǔ)上還需要做30次的平行測(cè)試。

如此一來(lái),在最終測(cè)序完成之后,全基因組的數(shù)據(jù)量便將達(dá)到約100G。

而且隨著技術(shù)的不斷迭代演進(jìn),數(shù)據(jù)的存儲(chǔ)已經(jīng)從最初的人類(lèi)基因組開(kāi)始細(xì)分?jǐn)U展,逐步涉及到腫瘤、遺傳病的檢測(cè)等等。

也正是因?yàn)閿?shù)據(jù)量和數(shù)據(jù)種類(lèi)的日益龐大,使得這方面的工作數(shù)據(jù)存儲(chǔ),動(dòng)輒便以PB為單位來(lái)保存。

這就直接影響到了諸如基因采樣、樣本制作、數(shù)據(jù)下機(jī)、生信分析以及后基因測(cè)序等環(huán)節(jié)。

但更為重要的是,諸如基因這樣的數(shù)據(jù),隱私安全是非常值得注重的一環(huán),而也正因?yàn)閿?shù)據(jù)量的爆發(fā)式增長(zhǎng),使得數(shù)據(jù)安全管理、存儲(chǔ)和分析變得異常困難。

團(tuán)隊(duì)在面對(duì)這些挑戰(zhàn)所選擇的突破口,并不是大多數(shù)人以為的強(qiáng)行堆算力,而是用底層數(shù)據(jù)存儲(chǔ)的飛躍來(lái)做到提速。

簡(jiǎn)單來(lái)說(shuō),就是通過(guò)把以往不能合并處理的海量數(shù)據(jù),打破它們之間的壁障,讓整體的處理效率“更上一層樓”。

具體而言,他們所提出的解決方案便是大規(guī)模多組學(xué)數(shù)據(jù)并行加速分析平臺(tái)。

據(jù)介紹,華西醫(yī)院在這項(xiàng)工作中主要負(fù)責(zé)頂層設(shè)計(jì),包括多模態(tài)組學(xué)數(shù)據(jù)分析和基因應(yīng)用等。

華為在存儲(chǔ)方面,提供高性能數(shù)據(jù)存儲(chǔ)和基因數(shù)據(jù)管理系統(tǒng)的技術(shù)支持。

……

而縱觀整個(gè)流程,數(shù)據(jù)存儲(chǔ)的環(huán)節(jié)最為重要,可以說(shuō)是貫穿始末:

·基因測(cè)序階段:存儲(chǔ)系統(tǒng)需要足夠的穩(wěn)定性,來(lái)保障過(guò)程不被中斷;

·基因數(shù)據(jù)分析階段:要有足夠處理小文件等任務(wù)的能力;

·數(shù)據(jù)歸檔階段:能夠?qū)⒒驍?shù)據(jù)長(zhǎng)期、安全、完整地保存起來(lái)。

由此可見(jiàn),存儲(chǔ)系統(tǒng)就像是一根“定海神針”,牢牢地把握著海量數(shù)據(jù)任務(wù)的“命脈”。

那么接下來(lái)的一個(gè)問(wèn)題便是——團(tuán)隊(duì)此次能夠打破世界紀(jì)錄,它的專(zhuān)屬“定海神針”又是什么?

世界頂級(jí)選手在背后發(fā)力

不賣(mài)關(guān)子,團(tuán)隊(duì)在這項(xiàng)任務(wù)中的存儲(chǔ)系統(tǒng),便是來(lái)自華為面向高性能數(shù)據(jù)分析(HPDA)的分布式存儲(chǔ)OceanStor Pacific系列。

圖片5.jpg

它是一種可大規(guī)模橫向擴(kuò)展的智能分布式存儲(chǔ),可以hold住高性能計(jì)算、AI應(yīng)用、數(shù)據(jù)庫(kù)、大數(shù)據(jù)分析和海量數(shù)據(jù)備份歸檔等業(yè)務(wù)需求。

而OceanStor Pacific之所以能協(xié)助團(tuán)隊(duì)在此次任務(wù)中打破世界紀(jì)錄,是因?yàn)樗陨砭褪穷^頂“世界頂級(jí)選手”光環(huán)的那種存儲(chǔ)系統(tǒng)。

在國(guó)內(nèi)范圍來(lái)看,更是獨(dú)秀一枝,不論是整體、文件存儲(chǔ)、對(duì)象存儲(chǔ)還是塊存儲(chǔ)方面,都是穩(wěn)居市場(chǎng)第一。

而且不僅是市場(chǎng)方面的表現(xiàn),從性能榜單上來(lái)看亦是如此。

這不,就在前不久IO500 (高性能計(jì)算領(lǐng)域針對(duì)存儲(chǔ)性能最權(quán)威世界排行榜之一)發(fā)布的最新榜單中,華為存儲(chǔ)HPDA Lab(由華為OceanStor Pacific存儲(chǔ)支撐)位列第二。

圖片6.jpg

那么問(wèn)題來(lái)了,OceanStor Pacific系列存儲(chǔ)憑什么?

從官方對(duì)它的介紹中,我們挖到了一條線索,那便是“新一代”

圖片7.jpg

這個(gè)“新”,可以總結(jié)為三個(gè)方面。

首先是超高密設(shè)計(jì)。

以O(shè)ceanStor Pacific 9950為例,它具備單框8節(jié)點(diǎn),5U、80盤(pán)位的特性。

圖片8.jpg

而之所以能如此“能裝”,是因?yàn)樗鼘⒏鞣NSSD(固態(tài)硬盤(pán))都設(shè)計(jì)的非常小巧:

圖片9.jpg

另外一款5U、120盤(pán)位的OceanStor Pacific 9550,更是能夠達(dá)到單框最大可提供2.4PB的裸容量。

如此超高密度的設(shè)計(jì),便可以支撐海量數(shù)據(jù)的存儲(chǔ)。

基于這樣的硬件設(shè)計(jì)之下,便是華為存儲(chǔ)的第二個(gè)特性——“多到一,一到多”,具體來(lái)講就是:

多套存儲(chǔ)變一套,一套存儲(chǔ)支持多樣化算力。

圖片10.jpg

導(dǎo)致這樣做的原因,根本上是高性能存儲(chǔ)面臨的負(fù)載類(lèi)型越發(fā)復(fù)雜多樣。

傳統(tǒng)的做法就是來(lái)一個(gè)負(fù)載類(lèi)型,就部署一個(gè)對(duì)應(yīng)類(lèi)型的存儲(chǔ);但這樣做的結(jié)果,就是容易產(chǎn)生“孤島現(xiàn)象”,而且不利于提高整體的效率。

而理想的狀態(tài)就是存儲(chǔ)系統(tǒng)可以滿(mǎn)足一個(gè)“既要又要”——高帶寬、高IOPS。

(帶寬型方面的衡量標(biāo)準(zhǔn)是單位時(shí)間內(nèi)的數(shù)據(jù)總吞吐量;而IOPS則是單位時(shí)間內(nèi)能處理的總的IO請(qǐng)求量、以及每個(gè)IO的處理時(shí)延。)

對(duì)此,華為存儲(chǔ)所采用的策略就有點(diǎn)“隨機(jī)應(yīng)變”的味道了。

例如存儲(chǔ)系統(tǒng)在面對(duì)大文件時(shí),就對(duì)應(yīng)“大I/O”,采用直通方式將數(shù)據(jù)寫(xiě)到磁盤(pán)。

圖片11.jpg

這樣做的結(jié)果,就讓大文件的寬帶處于業(yè)界2倍的水平。

而當(dāng)與之相對(duì)的小文件到來(lái)時(shí),就對(duì)應(yīng)“小I/O”,主要是將數(shù)據(jù)聚合后寫(xiě)到磁盤(pán):

圖片12.jpg

如此一來(lái),就可以在理想的時(shí)延下提升磁盤(pán)空間的利用率,而且小文件的隨機(jī)性能也達(dá)到了業(yè)界的5倍。

OceanStor Pacific系列存儲(chǔ)的第三個(gè)獨(dú)特性,便是打通協(xié)議的“任督二脈”。

華為存儲(chǔ)提出這個(gè)特性的大背景,是因?yàn)楝F(xiàn)在在處理諸如基因測(cè)序這樣的任務(wù)時(shí),數(shù)據(jù)往往會(huì)呈現(xiàn)多種格式,例如文件、對(duì)象、大數(shù)據(jù)等等。

也正因如此,以往在整個(gè)數(shù)據(jù)處理過(guò)程中,單是數(shù)據(jù)轉(zhuǎn)化、拷貝、加載這樣的工作就占到了35%的時(shí)間。

于是,為了這方面的提高效率,就需要新的“協(xié)議互通”技術(shù)。

而這種新技術(shù)并不是指“共池”,在本質(zhì)上是有著很大的區(qū)別。

“共池”主要共享硬件資源池,是在一套硬件上劃分出多個(gè)獨(dú)立的邏輯資源池,并根據(jù)不同的數(shù)據(jù)類(lèi)型做部署。

但問(wèn)題在于每個(gè)邏輯資源池只支持一種協(xié)議訪問(wèn),也就是說(shuō)跨協(xié)議的時(shí)候,還是需要經(jīng)過(guò)“數(shù)據(jù)拷貝”的過(guò)程:

圖片13.jpg

華為存儲(chǔ)提出的“協(xié)議互通”技術(shù)則不然,實(shí)現(xiàn)的是多個(gè)協(xié)議共用一個(gè)硬件資源池。

而且還是同時(shí)支持文件、對(duì)象、大數(shù)據(jù)等多種協(xié)議訪問(wèn)的那種:

圖片14.jpg

換言之,現(xiàn)在當(dāng)一份數(shù)據(jù)“走進(jìn)”存儲(chǔ)系統(tǒng)后,不再需要做任何的轉(zhuǎn)換了,可以直接被其它協(xié)議直接訪問(wèn)。

這便是打通協(xié)議“任督二脈”的奧義所在了。

而也正是因?yàn)閯偛胖v到的這些獨(dú)有“功夫”,華為存儲(chǔ),這個(gè)世界級(jí)選手所涉足的領(lǐng)域早已不僅限于基因測(cè)序。

還有眾多諸如此類(lèi)的海量數(shù)據(jù)場(chǎng)景,例如能源勘探、氣象海洋、智能制造、超算中心等等。

……

不難看出,華為在數(shù)據(jù)存儲(chǔ)這一塊,可謂是內(nèi)修功法、外用其力。

那么最后一個(gè)問(wèn)題便是:

數(shù)據(jù)存儲(chǔ),為什么這么重要?

因?yàn)橐粋€(gè)非常明顯的趨勢(shì)是:

在智能時(shí)代之下,數(shù)據(jù)存儲(chǔ)已經(jīng)成為數(shù)據(jù)密集型應(yīng)用瓶頸。

或許你會(huì)說(shuō),數(shù)據(jù)量大,哪怕是PB級(jí)別,把算力堆上去不就可以了嗎?

確實(shí),在過(guò)去一段時(shí)間里,在處理像基因測(cè)序、生物制藥等數(shù)據(jù)密集型應(yīng)用時(shí),大家似乎都會(huì)關(guān)注其背后的高性能計(jì)算(HPC)的效果如何。

每年的HPC Top 500 高性能計(jì)算機(jī)排行榜,也成為公眾備受關(guān)注的“保留節(jié)目”。

但隨著數(shù)據(jù)爆發(fā)式的增長(zhǎng),以及AI技術(shù)的不斷推陳出新,數(shù)據(jù)密集型應(yīng)用的發(fā)展不再僅僅聚焦在算力方向。

正如IDC所統(tǒng)計(jì)的那般:

全球67%的高性能計(jì)算中心已經(jīng)在使用AI、大數(shù)據(jù)相關(guān)技術(shù)。

換言之,HPC、AI和大數(shù)據(jù),它們?nèi)齻€(gè)融合的速度正在加快。

也正因如此,數(shù)據(jù)密集型應(yīng)用正在步入一個(gè)新的時(shí)代—— 高性能數(shù)據(jù)分析 (HPDA)。

在這個(gè)時(shí)代之下,類(lèi)似自動(dòng)駕駛、基因測(cè)序等任務(wù),對(duì)于數(shù)據(jù)分析的實(shí)時(shí)性要求越來(lái)越高。

而要實(shí)現(xiàn)這一點(diǎn),也正如剛才我們所闡述的,離不開(kāi)“數(shù)據(jù)存儲(chǔ)系統(tǒng)”這一夯實(shí)的底座。

唯有這根“定海神針”足夠穩(wěn)固、扎實(shí),且需得具備技術(shù)上的創(chuàng)新,才能保證其上層的工作以及上層與之的交互暢通無(wú)阻。

但比起應(yīng)用方面的絲滑,通過(guò)推進(jìn)新一代存儲(chǔ)系統(tǒng)(即HPDA)來(lái)進(jìn)一步發(fā)展數(shù)據(jù)密集型應(yīng)用,這件事還具有更深遠(yuǎn)的意義。

例如油氣地震勘探也在進(jìn)入海量數(shù)據(jù)時(shí)代,需要采用大量的高性能計(jì)算和大數(shù)據(jù)分析技術(shù)。

但痛點(diǎn)也正如剛才我們提到的,其間的任務(wù)絕不是單一的,所產(chǎn)生的數(shù)據(jù)類(lèi)型、結(jié)構(gòu)也是紛繁復(fù)雜。

而通過(guò)新一代存儲(chǔ)系統(tǒng)的優(yōu)勢(shì),就可以做到規(guī)?;y(tǒng)一部署,以此來(lái)提高整體流程的效率。

圖片15.jpg

再如超算中心、智能醫(yī)療、自動(dòng)駕駛,甚至是宇宙探測(cè)等,均是需要HPDA的能力來(lái)完成對(duì)海量數(shù)據(jù)的高效分析。

這些亟需注入“新力量”的領(lǐng)域,恰恰正是科技、經(jīng)濟(jì)強(qiáng)國(guó)所發(fā)力的地方。

從另一種角度來(lái)看,新一代數(shù)據(jù)存儲(chǔ)正在成為國(guó)家的關(guān)鍵基礎(chǔ)設(shè)施,堪稱(chēng)“國(guó)之重器”。

圖片16.jpg

而華為OceanStor Pacific系列存儲(chǔ),無(wú)論是從市場(chǎng)份額、技術(shù)實(shí)力排名等等,均已成為國(guó)產(chǎn)新一代數(shù)據(jù)存儲(chǔ)系統(tǒng)中的不二之選。

但比起亮眼的成績(jī),在最重要的實(shí)際行動(dòng)方面,華為OceanStor Pacific系列存儲(chǔ)也已經(jīng)是處于“進(jìn)行時(shí)”了。

至于接下來(lái)在HPDA時(shí)代中,新一代數(shù)據(jù)存儲(chǔ)的技術(shù)進(jìn)步還將結(jié)出怎樣的碩果,是值得拭目以待了。

參考鏈接:

[1]https://en.wikipedia.org/wiki/Human_Genome_Project

[2]https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost

[3]https://io500.org/

分享到

songjy

相關(guān)推薦