浪潮超算助中國農(nóng)牧第一品牌溫氏集團(tuán)加速基因研究
?三大問題困擾種豬基因組研究
譜寫和研究種豬基因組序列并非易事,如何盡可能快的處理海量的基因組數(shù)據(jù)是困擾種豬基因組研究的第一道坎,也就是如何有效降低時(shí)間成本的問題。以溫氏集團(tuán)聯(lián)合其他機(jī)構(gòu)繪制的種豬全基因組序列圖譜為例,需要先將基因組隨機(jī)打碎,然后進(jìn)行測序,最后進(jìn)行拼接。并且為保證拼接結(jié)果的精確性,上述過程需要重復(fù)8-10次,涉及到海量的基因數(shù)據(jù),高性能計(jì)算系統(tǒng)已成為數(shù)據(jù)分析中必備的基礎(chǔ)設(shè)施。
同時(shí),高性能計(jì)算系統(tǒng)的設(shè)計(jì)構(gòu)建不能一概而論,需要根據(jù)基因研究的數(shù)據(jù)量大小、用戶量多少等具體需求有針對(duì)性的進(jìn)行構(gòu)建。在基因組研究中,有的課題組數(shù)據(jù)量相對(duì)較少,但是科研項(xiàng)目卻涉及到生物信息分析,需要配置小型的分析平臺(tái);有的課題組有1-2臺(tái)測序儀,數(shù)據(jù)量中等,至少需要一套十幾個(gè)節(jié)點(diǎn)的計(jì)算設(shè)備。在數(shù)據(jù)分析中,基因組研究軟件種類繁多,不同類別的軟件應(yīng)用特征各異,如何在一套系統(tǒng)中讓軟件的效率最高,最大限度的發(fā)揮系統(tǒng)的性能至關(guān)重要。因此在配置系統(tǒng)方案時(shí)要考慮核心應(yīng)用或是關(guān)鍵應(yīng)用的應(yīng)用特征,如序列比對(duì)、序列拼接應(yīng)用IO吞吐大,內(nèi)存容量需求高,針對(duì)這類應(yīng)用要按需配置系統(tǒng)資源。
此外,在滿足基礎(chǔ)硬件設(shè)施的前提下,溫氏集團(tuán)還關(guān)心軟件的運(yùn)行或使用情況。在基因組研究中會(huì)涉及到如序列比對(duì)、序列拼接、結(jié)構(gòu)預(yù)測、功能注釋等眾多分析類別,大概涵蓋數(shù)十種軟件,安裝調(diào)試軟件就會(huì)耗費(fèi)大量的時(shí)間,且多數(shù)據(jù)軟件需要在Linux的操作系統(tǒng)下,以全命令行的方式運(yùn)行,使用起來很不方便,因此便捷化和統(tǒng)一的管理部署在基因組研究中顯得尤為重要。
浪潮超算為基因組研究提供有力硬件支撐
針對(duì)溫氏集團(tuán)對(duì)于原有高性能系統(tǒng)集群改造升級(jí)的需求,浪潮在系統(tǒng)設(shè)計(jì)構(gòu)建集群過程中,結(jié)合數(shù)據(jù)的產(chǎn)出量、軟件應(yīng)用等特征,為溫氏集團(tuán)設(shè)計(jì)構(gòu)建的超算系統(tǒng)采用“瘦節(jié)點(diǎn)+胖節(jié)點(diǎn)”結(jié)合的混合架構(gòu)、Infiniband專用計(jì)算網(wǎng)絡(luò)、以太網(wǎng)管理網(wǎng)絡(luò)方案和浪潮-TStor并行存儲(chǔ)系統(tǒng)。這種胖瘦結(jié)合的節(jié)點(diǎn)架構(gòu),搭配IB計(jì)算網(wǎng)絡(luò)和并行存儲(chǔ),能更好的滿足不同計(jì)算任務(wù)的需求,充分發(fā)揮系統(tǒng)效能。
其中,瘦節(jié)點(diǎn)主要進(jìn)行比對(duì)、注釋,snp查找等內(nèi)存需求相對(duì)較小、計(jì)算相對(duì)密集的計(jì)算,本次根據(jù)溫氏集團(tuán)需求,浪潮采用了NX5440M4刀片服務(wù)器做計(jì)算節(jié)點(diǎn),該服務(wù)器具備高密度、高擴(kuò)展特性,在8U機(jī)箱空間內(nèi)可以放置20臺(tái)NX5440M4。
胖節(jié)點(diǎn)主要進(jìn)行拼接等內(nèi)存消耗較大的操作,采用浪潮明星產(chǎn)品八路服務(wù)器TS860G3,配置8顆目前X86體系中計(jì)算速度快的Intel Xeon E7-8860V3系列處理器,搭配1TB內(nèi)存,滿足大型序列拼接應(yīng)用需求。
在網(wǎng)絡(luò)方面,由于基因計(jì)算中的多數(shù)應(yīng)用帶寬較大,對(duì)延遲的要求高,浪潮采用Infiniband網(wǎng)絡(luò)方案,IB網(wǎng)絡(luò)相對(duì)于以太網(wǎng)的最大優(yōu)勢就是極低的延遲,端到端的延遲最少可達(dá)200納秒,而以太網(wǎng)經(jīng)過優(yōu)化也僅到3微秒左右??梢栽跐M足網(wǎng)絡(luò)需求情況下節(jié)省用戶的系統(tǒng)構(gòu)建成本。
存儲(chǔ)系統(tǒng)則采用浪潮專業(yè)并行存儲(chǔ),能夠保證生物信息學(xué)數(shù)據(jù)的安全可靠,最大限度地提升存儲(chǔ)的讀寫帶寬,保證基因相關(guān)應(yīng)用對(duì)存儲(chǔ)中數(shù)據(jù)的頻繁讀寫的性能,通過lustre并行文件系統(tǒng)能提供完善的管理界面,并通過用戶配額管理工具實(shí)行資源按需分配,保障溫氏集團(tuán)的多個(gè)客戶端使用需求。
浪潮G1000基因一體機(jī)軟件對(duì)基因應(yīng)用對(duì)癥下藥
除了超算系統(tǒng)設(shè)計(jì)構(gòu)建之外,浪潮還為用戶提供了浪潮G1000基因一體機(jī)軟件,這款基因一體機(jī)軟件針對(duì)生物基因應(yīng)用定制化開發(fā),可以解決傳統(tǒng)高性能系統(tǒng)跟生物基因應(yīng)用軟件契合度不高、不能充分發(fā)揮集群性能、軟件效率不高等問題,使研究人員專注于基因研究,從繁瑣的集群維護(hù)和配置中解放出來。
浪潮G1000基因一體機(jī)整合和預(yù)置多種常用的生物信息流程,如全基因組重測序分析流程、外顯子分析流程等,流程會(huì)進(jìn)行定時(shí)更新和升級(jí)。用戶直接選擇預(yù)定義的流程,確定參數(shù)和數(shù)據(jù)集后即可提交任務(wù)。以全基因組重測序分析為例,所涉及的BWA、Samtools、GATK和ANNOVAR等多種軟件可以按照預(yù)定義的工作流程自動(dòng)執(zhí)行。
浪潮G1000基因計(jì)算平臺(tái)
溫氏集團(tuán)相關(guān)負(fù)責(zé)人介紹,與傳統(tǒng)的解決方案相比,浪潮G1000基因一體機(jī)方案無論從經(jīng)濟(jì)性、易用性和高效的計(jì)算能力等各方面都具有較大優(yōu)勢,能夠幫助我們快速部署和高效實(shí)施基因組研究應(yīng)用。