ISC現(xiàn)場,浪潮AI&HPC Dr.朱紅分享第三代基因測序計算優(yōu)化方案

  二代測序和三代測序都屬于高通量測序技術,測序數(shù)據(jù)產出量很大,需要結合高性能計算技術來進行后續(xù)的測序數(shù)據(jù)處理。相較于二代測序技術,以單分子測序技術為代表的三代基因測序帶來了更長的測序讀長,這使得對更加復雜的物種如各種農作物和植物等的基因研究成為可能,但是相對更高的測序錯誤率(~15%)需要進行數(shù)據(jù)糾錯,又對高性能計算帶來了新的挑戰(zhàn)。三代基因測序組裝這類應用對于系統(tǒng)的計算性能、網絡和磁盤等方案都有很高的要求。很多用戶在通常的高性能計算平臺來處理測序數(shù)據(jù)時,性能都不理想。

目前,由Pacbio公司開發(fā)的FALCON及中國的中山大學開發(fā)的MECAT是第三代基因測序組裝領域的兩款主流軟件。FALCON由于把測序數(shù)據(jù)(raw data)切割成KB級別的卷來進行糾錯,因而需要頻繁的磁盤I/O,所以在計算過程中,磁盤I/O經常會成為系統(tǒng)瓶頸。浪潮專家優(yōu)化FALCON軟件的底層參數(shù),優(yōu)化了軟件架構,降低了系統(tǒng)對于硬件I/O依賴,下圖為處理同一測試用例時,優(yōu)化前后磁盤I/O強度對比。

2

  優(yōu)化FALCON前后磁盤I/O強度對比

  優(yōu)化完成后,F(xiàn)ALCON軟件的核心部分性能提升了20%,而且軟件的集群擴展性也有明顯提升。

3

  優(yōu)化后FALCON核心部分性能提升20%

  針對MECAT軟件,浪潮完成了該軟件從單機環(huán)境向集群環(huán)境的并行優(yōu)化工作。經測試,新部署的經過浪潮并行優(yōu)化的集群版本在12個節(jié)點上運行時,可以把人類全基因組組裝時間從200多個小時縮短到不足24小時,相比原單節(jié)點版本獲得近10倍的加速比,這表明集群版本的擴展線性度非常好。下圖是MECAT組裝過程中各個環(huán)節(jié)的用時對比:

4

  MECAT組裝過程各環(huán)節(jié)用時對比

分享到

zhangnn

相關推薦