同時(shí),中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所原有的計(jì)算系統(tǒng)依然需要繼續(xù)運(yùn)行。因此具有優(yōu)化整合原有集群、易管理、且具有優(yōu)異的性價(jià)比、服務(wù)優(yōu)勢(shì)顯得極為迫切。
中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所急需搭建一種在高性能計(jì)算方面具有高速度、高質(zhì)量、易管理的大型計(jì)算平臺(tái),以保障日益增加擴(kuò)大的日常教學(xué)和科學(xué)研究工作的迫切需求。
解決方案
中國(guó)高性能計(jì)算領(lǐng)導(dǎo)者的曙光公司獲悉后立即與中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所進(jìn)行接洽,并在最短的時(shí)間內(nèi)提出了系統(tǒng)的解決方案,本方案使用曙光高性能刀片和SMP胖節(jié)點(diǎn)混合的結(jié)構(gòu),從而滿足不同類型的應(yīng)用。刀片使用Xeon 5430四核處理器,主頻達(dá)到2.66GHz。針對(duì)病源所軟件pipeline,專門進(jìn)行了優(yōu)化。使用SMP胖節(jié)點(diǎn)曙光A950-F,單機(jī)性能達(dá)到32核心。?;诓≡此浖膽?yīng)用特點(diǎn),單機(jī)浮點(diǎn)計(jì)算能力要求高,大規(guī)模并行能力強(qiáng)的特點(diǎn),我們?cè)诟饔?jì)算刀片之間Infiniband高速互聯(lián),使得系統(tǒng)帶寬達(dá)到20Gb,延時(shí)僅為1.5us,大幅提高并行處理能力和效率。用戶應(yīng)用類型對(duì)I/O有較大需求,方案采用?;谝陨系姆治觯痉桨傅挠?jì)算系統(tǒng)的主體由曙光刀片加SMP胖節(jié)點(diǎn),互聯(lián)采用infiniband高速網(wǎng)組成。
本方案使用32片曙光刀片和1臺(tái)smp胖節(jié)點(diǎn)作為計(jì)算節(jié)點(diǎn),1片曙光雙路刀片作為登陸管理節(jié)點(diǎn),7片曙光2路節(jié)點(diǎn)作為I/O節(jié)點(diǎn),在滿足用戶需求的前提下,最大限度地整合資源,使得計(jì)算刀片,I/O刀片,管理登陸刀片有效集中在同一個(gè)刀片機(jī)箱內(nèi),最大程度節(jié)約了空間,減少了布線,降低了成本,這與曙光刀片平臺(tái)良好的兼容性密不可分的。同時(shí),曙光刀片網(wǎng)絡(luò),Infiniband設(shè)備的模塊化設(shè)計(jì)也為用戶最大限度提高了性能,節(jié)約了成本。
用戶存儲(chǔ)需求大,空間要求高,本方案的存儲(chǔ)使用目前業(yè)界容量最大的SATA磁盤陣列,存儲(chǔ)容量達(dá)到64TB。為了保證I/O的性能,在主機(jī)一端使用光纖通道,速度達(dá)到4Gb。為了保證存儲(chǔ)系統(tǒng)的可擴(kuò)展性和靈活性,使用FC SAN的存儲(chǔ)配置。同時(shí),計(jì)算節(jié)點(diǎn)之間可以通過(guò)Infiniband對(duì) I/O節(jié)點(diǎn)進(jìn)行訪問(wèn),從而提高I/O性能。
本方案充分考慮到了應(yīng)用特點(diǎn),使用Infiniband高速網(wǎng),專門為曙光刀片平臺(tái)所設(shè)計(jì)的Infiniband高速模塊,減去了Infiniband的卡,交換機(jī)的成本,大幅降低Infiniband高速網(wǎng)成本和布線,同時(shí)保證了所有節(jié)點(diǎn)之前Infiniband全線速互聯(lián)。
構(gòu)建一套大規(guī)模高性能集群系統(tǒng)涉及到三個(gè)層面的內(nèi)容:最底層的是硬件平臺(tái),它是完成任務(wù)的最基礎(chǔ)設(shè)施;其次是OS平臺(tái),包括節(jié)點(diǎn)機(jī)的操作系統(tǒng)以及集群操作系統(tǒng);最后是應(yīng)用環(huán)境平臺(tái),包括并行開發(fā)環(huán)境以及編譯環(huán)境。高效率的集群系統(tǒng)需要幾個(gè)層面的緊密耦合、協(xié)調(diào)工作。曙光TC4000A的注重效率的設(shè)計(jì)思路貫穿到每一個(gè)細(xì)節(jié),在每個(gè)層面上都做到性能最優(yōu)。尤其是OS平臺(tái)以及應(yīng)用環(huán)境平臺(tái)。
曙光公司針對(duì)網(wǎng)格應(yīng)用在曙光4000A上應(yīng)用了眾多的面向網(wǎng)格的應(yīng)用,這些應(yīng)用一方面幫助用戶提供一個(gè)完整的單一系統(tǒng)映像的管理,一方面進(jìn)一步實(shí)現(xiàn)很多網(wǎng)格相關(guān)的應(yīng)用。在并行開發(fā)和編譯環(huán)境、MPI、PVM、編譯環(huán)境:GNU Compiler、ACML、BLAS庫(kù)、GOTO和ATLAS、LAPACK、ScaLAPACK、PETSc、FFTW等方面下足了功夫。值得一提的是曙光為此配備的PVM系統(tǒng),即并行虛擬機(jī)(Parallel Virtual Machine)。它是由美國(guó)橡樹嶺(Oak Ridge)國(guó)家實(shí)驗(yàn)室、美國(guó)Tennessee大學(xué)和Emory大學(xué)于始于1989年聯(lián)合研制成功的一種特殊科技,它具有較好的適應(yīng)性、可擴(kuò)展性、可移植性和易使用性等特點(diǎn),源代碼可以免費(fèi)獲取,現(xiàn)已被用戶廣泛采納等特點(diǎn)。目前對(duì)它的研究和開發(fā)工作仍在各大學(xué)和研究機(jī)構(gòu)進(jìn)行。隨著它的不斷流行,已經(jīng)被移植到PVP、SMP、MPP、工作站和集群系統(tǒng)。
此外,曙光還特別為中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所量身配備NAMD、GROMACS軟件等分子動(dòng)力學(xué)系統(tǒng)領(lǐng)域相關(guān)軟件,可以具有序列搜尋與比對(duì)、分子圖形分析、分子對(duì)接(藥物設(shè)計(jì))等功能。
收益與商業(yè)價(jià)值
基于英特爾至強(qiáng)處理器的曙光病原生物學(xué)大型計(jì)算平臺(tái)使得曙光公司和中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所在如下方面獲益匪淺:
病原研究平臺(tái)運(yùn)行穩(wěn)定可靠,避免了因系統(tǒng)故障導(dǎo)致的超算平臺(tái)效率下降。
極大的提高了原有計(jì)算模式的速度,保障了中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所學(xué)科研究上的應(yīng)用,增強(qiáng)了中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所科研方面的核心競(jìng)爭(zhēng)力。
降低了中國(guó)醫(yī)學(xué)科學(xué)院病原生物學(xué)研究所的總體擁有成本,基于英特爾架構(gòu)的曙光病原生物學(xué)大型計(jì)算平臺(tái)可以實(shí)現(xiàn)簡(jiǎn)便、集中、有效的管理,并可根據(jù)客戶對(duì)性能的需求而進(jìn)行動(dòng)態(tài)調(diào)整。另外電源和散熱策略的自動(dòng)優(yōu)化,空間的節(jié)省,部署效率的提升,都有助于降低總體擁有成本。
曙光病原生物學(xué)大型計(jì)算平臺(tái)的成功使用不但驗(yàn)證了擁有刀片服務(wù)器自主知識(shí)產(chǎn)權(quán)的曙光公司的創(chuàng)新能力,而且曙光公司的國(guó)際影響力得到進(jìn)一步加強(qiáng)。
曙光病原生物學(xué)大型計(jì)算平臺(tái)作為一個(gè)助力現(xiàn)代醫(yī)學(xué)研究信息化建設(shè)、科研工作的高科技平臺(tái),它帶來(lái)的不僅是運(yùn)行效率的顯著提升,同時(shí)也完全滿足了用戶對(duì)更高計(jì)算性能和更低成本的追求,讓用戶在最大程度上感受到高性能計(jì)算技術(shù)的真實(shí)價(jià)值,從而實(shí)現(xiàn)穩(wěn)定、高品質(zhì)的服務(wù),也將在更深層次上推動(dòng)我國(guó)醫(yī)學(xué)研究行業(yè)高性能計(jì)算系統(tǒng)的建設(shè),讓中國(guó)的醫(yī)療事業(yè)發(fā)展在高性能計(jì)算平臺(tái)上揚(yáng)帆起航。