湘潭大學(xué)是一所綜合性全國重點(diǎn)大學(xué),座落在毛澤東同志的故鄉(xiāng)?湘潭市,是全國首批具有碩士學(xué)位授予權(quán)的單位,教育部本科教學(xué)工作水平評估優(yōu)秀學(xué)校。 學(xué)校創(chuàng)辦于1958年,學(xué)校學(xué)科已經(jīng)形成了一批特色比較突出、優(yōu)勢比較明顯的學(xué)科專業(yè)群體,在國內(nèi)有較大影響。


    目前信工院、物理學(xué)院、土力學(xué)院、數(shù)學(xué)學(xué)院、化學(xué)學(xué)院都涉及到高性能計(jì)算機(jī)的應(yīng)用。為了學(xué)校各個(gè)研究領(lǐng)域突飛猛進(jìn)的發(fā)展科學(xué)研究,計(jì)劃對高性能計(jì)算系統(tǒng)實(shí)施改造,以更加穩(wěn)定高效的網(wǎng)絡(luò)系統(tǒng)來協(xié)助各學(xué)院應(yīng)用軟件順利高效的運(yùn)行。該系統(tǒng)主要是由學(xué)校多個(gè)學(xué)院共同使用,應(yīng)用于多個(gè)研究領(lǐng)域,涉及圖像分析與處理、海量數(shù)據(jù)挖掘、材料設(shè)計(jì)、材料結(jié)構(gòu)與性能分析、并行算法研究等。


    在原有的基礎(chǔ)之上設(shè)計(jì)、完善高性能計(jì)算系統(tǒng)是一件復(fù)雜的系統(tǒng)工程,涉及從軟件到硬件的各個(gè)層面,而且每一個(gè)環(huán)節(jié)都相互關(guān)聯(lián)。在項(xiàng)目實(shí)施之前,項(xiàng)目組著重采訪了湘潭大學(xué)此次項(xiàng)目的重要負(fù)責(zé)人,對方闡述到:希望采用目前最先進(jìn)的系統(tǒng)架構(gòu)及技術(shù)代替原有的技術(shù),借以提高整個(gè)科研的發(fā)展速度和各種資源的完美整合。高性能計(jì)算系統(tǒng)是一個(gè)對于計(jì)算穩(wěn)定性要求極高的系統(tǒng),因此系統(tǒng)的建設(shè)不僅要體現(xiàn)出在各個(gè)節(jié)點(diǎn)機(jī)的穩(wěn)定運(yùn)行和網(wǎng)絡(luò)系統(tǒng)的正常工作,還要具備非常完善的整合能力,能夠及時(shí)發(fā)現(xiàn)和解決問題。由于三院共享這套高性能計(jì)算系統(tǒng),用戶的管理將非常重要。隨著今后對數(shù)據(jù)精度和運(yùn)算速度要求的不斷提高,整個(gè)系統(tǒng)必然面臨擴(kuò)容的需求,那就需要這個(gè)系統(tǒng)必須具備很好的擴(kuò)展能力并具備良好的向前兼容能力。
  
    卓越的選擇,以不變應(yīng)萬變


    考慮到目前湘潭大學(xué)學(xué)院高性能計(jì)算系統(tǒng)的應(yīng)用現(xiàn)狀,經(jīng)過與湘潭大學(xué)的充分溝通與實(shí)地考慮,最后決定采用基于機(jī)群架構(gòu)的設(shè)計(jì)思想:高性能節(jié)點(diǎn)機(jī)的傾力打造與機(jī)柜子系統(tǒng)的搭建。該系統(tǒng)共采用68個(gè)節(jié)點(diǎn),其中64個(gè)參與運(yùn)算作為計(jì)算節(jié)點(diǎn),其它四個(gè)節(jié)點(diǎn)分別承擔(dān)I/O吞吐服務(wù)、用戶登錄服務(wù)、整個(gè)機(jī)群系統(tǒng)的管理、監(jiān)控服務(wù)。在高性能計(jì)算領(lǐng)域里,計(jì)算節(jié)點(diǎn)是高性能計(jì)算系統(tǒng)中的單個(gè)計(jì)算機(jī)系統(tǒng),它的計(jì)算能力是關(guān)系到整個(gè)系統(tǒng)性能的最主要因素,是整個(gè)高性能計(jì)算系統(tǒng)的基礎(chǔ),曙光公司選擇了一款系能卓越的2U機(jī)架式的服務(wù)器節(jié)點(diǎn)機(jī)??曙光天闊A620r-E作為計(jì)算節(jié)點(diǎn)。天闊A620r-E能穩(wěn)定運(yùn)行多種32位和64位主流操作系統(tǒng),采用了基于Opteron 64位處理器的架構(gòu),配置兩顆AMD Opteron 270處理器,在單處理器上顯示了強(qiáng)大的解決問題的能力,在多處理器系統(tǒng)上體現(xiàn)了近乎線性的性能加速比。在湘潭大學(xué)的高性能計(jì)算系統(tǒng)的搭建中,各院系的應(yīng)用對于節(jié)點(diǎn)機(jī)的結(jié)構(gòu)有著很高的要求,同時(shí)要考慮到應(yīng)用的粒度、應(yīng)用的計(jì)算特性、應(yīng)用時(shí)效性等方面的因素。尤其是物理系,要保證所使用的商業(yè)軟件能正常運(yùn)行,這就要求能夠運(yùn)行64位程序的同時(shí)向下兼容32位應(yīng)用,同時(shí)對CUP的浮點(diǎn)運(yùn)算能力要求較高,需具有很高的系統(tǒng)峰值。曙光天闊A620r-E作為計(jì)算節(jié)點(diǎn)搭建的機(jī)群系統(tǒng),其理論峰值運(yùn)算能力達(dá)到1024 Gflops,Linpack 效率可達(dá)70%,實(shí)際運(yùn)算能力可達(dá)716.8 Gflops,很好的解決了湘潭大學(xué)一直以來服務(wù)器處理能力不足,計(jì)算規(guī)模小的問題。曙光天闊A620r-E具有處理速度快、可用性強(qiáng)、易管理、可伸縮和噪音低等方面的強(qiáng)大優(yōu)勢,全面提高了湘潭大學(xué)網(wǎng)絡(luò)系統(tǒng)效能。


    在系統(tǒng)搭建以及優(yōu)化過程中,由于機(jī)柜子系統(tǒng)是整個(gè)系統(tǒng)的承載部件,機(jī)群的主要子系統(tǒng)都安裝在機(jī)柜系統(tǒng)中,同時(shí)其還承擔(dān)了整個(gè)系統(tǒng)的供電和監(jiān)控功能,于是在實(shí)際考察后,系統(tǒng)配置了一個(gè)曙光TC4000L主機(jī)機(jī)柜,三個(gè)擴(kuò)展機(jī)柜,用以安裝所有設(shè)備和相應(yīng)的聯(lián)結(jié)系統(tǒng)。曙光4000L獨(dú)有SKVM網(wǎng)絡(luò)、管理網(wǎng)絡(luò)技術(shù),大大減少節(jié)點(diǎn)機(jī)之間的連線,提高了系統(tǒng)的穩(wěn)定性和可靠性。而機(jī)柜中機(jī)群電源系統(tǒng)、主干交換機(jī)、內(nèi)置控制臺等設(shè)備均采用了精心設(shè)計(jì)的內(nèi)部網(wǎng)絡(luò)和電源布線,同時(shí)做到近插接,構(gòu)造了整潔的機(jī)柜內(nèi)部環(huán)境,極大地方便了用戶設(shè)備調(diào)試和問題分析,滿足了各院系的整體應(yīng)用需求。


    此外,考慮到高性能計(jì)算對于網(wǎng)絡(luò)性能的較高需求,湘潭大學(xué)的高性能計(jì)算系統(tǒng)采用了Myrinet 高速的通信網(wǎng)絡(luò),從而實(shí)現(xiàn)了高速度、低延遲、點(diǎn)對點(diǎn)的通訊能力。此項(xiàng)設(shè)計(jì)在解決數(shù)學(xué)的實(shí)際應(yīng)用中尤為突出,數(shù)學(xué)系主要使用該系統(tǒng)作為并行程序設(shè)計(jì)應(yīng)用,對一些算法的設(shè)計(jì)和優(yōu)化進(jìn)行操作,為其他學(xué)院提供一些程序設(shè)計(jì)的支持,對系統(tǒng)的通訊與交換能力有很高的要求。同時(shí),在網(wǎng)絡(luò)搭建中還采用千兆的無阻塞、全互連的快速網(wǎng)絡(luò),用以實(shí)現(xiàn)I/O吞吐,并通過網(wǎng)卡邦定技術(shù),增加帶寬,做到資源的充分利用。



   
    在高性能計(jì)算環(huán)境的實(shí)現(xiàn)同時(shí),由于三院共享這套高性能計(jì)算系統(tǒng),用戶的管理則顯得非常重要,為了更好的方便用戶使用,工程師又通過曙光4000L機(jī)群操作系統(tǒng)軟件(DCOS)對湘潭大學(xué)進(jìn)行了高性能計(jì)算系統(tǒng)的管理優(yōu)化,曙光4000L機(jī)群管理軟件大大提高了機(jī)器的使用率,減少了不必要的用戶資源沖突,同時(shí)兼顧資源的共享和資源的合理應(yīng)用。DCOS管理系統(tǒng)是一套多功能、易使用、可擴(kuò)展的實(shí)用化機(jī)群管理工具,包含幾個(gè)模塊(DCMS、Mterm、DCIS、DCMM),完全符合SUMA標(biāo)準(zhǔn),即具有可擴(kuò)展性、可用性、可管理性和可靠性四個(gè)方面的特性。通過曙光的機(jī)群操作系統(tǒng)工具,可以實(shí)現(xiàn)對整個(gè)系統(tǒng)所有節(jié)點(diǎn)的全面整合,曙光的機(jī)群操作系統(tǒng)支持各種異構(gòu)平臺,在使用上更加方便。最后,本方案采用高可靠性、高可管理性、高性價(jià)比的全光纖磁盤陣列系統(tǒng),保證了數(shù)據(jù)吞吐的高效性和可靠性,有助于滿足用戶的今天的各種存儲需求,而且為滿足未來存儲需求的持續(xù)增長奠定了良好基礎(chǔ)。
  
    內(nèi)外兼修,好處顯而易見


    項(xiàng)目完成之后,曙光公司的技術(shù)人員對該系統(tǒng)進(jìn)行了一段時(shí)間的使用監(jiān)測,最后結(jié)果顯示:完全滿足了湘潭大學(xué)系統(tǒng)搭建的先進(jìn)性、穩(wěn)定性、可管理性、可擴(kuò)展性方面的需求。湘潭大學(xué)的項(xiàng)目負(fù)責(zé)人提到:在國外品牌與國內(nèi)品牌的選擇上,我們毅然選擇后者,在與各種系統(tǒng)的兼容方面,國產(chǎn)品牌更能便于我們的使用,安全性也有很好的保障。尤其在售后服務(wù)方面,曙光五年原廠商免費(fèi)服務(wù),為我們排除了后顧之憂。曙光公司也承諾,服務(wù)永遠(yuǎn)本著讓客戶滿意為止,保證第一時(shí)間的及時(shí)響應(yīng) 。技術(shù)優(yōu)勢更是重中之重,曙光一直引領(lǐng)著高性能計(jì)算的研發(fā),信息產(chǎn)業(yè)部、上海超級計(jì)算中心、中石油等一大批用戶使用了曙光4000系列高性能計(jì)算機(jī)系統(tǒng),應(yīng)用覆蓋科學(xué)計(jì)算、生物信息處理、數(shù)據(jù)分析、信息服務(wù)、網(wǎng)絡(luò)應(yīng)用等多個(gè)領(lǐng)域,這些都顯示出,我們選擇曙光服務(wù)器一定不會錯(cuò)。


    曙光公司秉承發(fā)展我國高性能計(jì)算機(jī)產(chǎn)業(yè)化的宗旨,以堅(jiān)定不移的信念和海納百川的胸懷,開發(fā)推廣具有自主知識產(chǎn)權(quán)和很強(qiáng)競爭力的高性能計(jì)算機(jī)產(chǎn)品,是目前國內(nèi)唯一一家擁有全系列品牌服務(wù)器的廠商。多年來在多個(gè)行業(yè)領(lǐng)域做出了杰出貢獻(xiàn),在教育行業(yè)尤為突出。此次為湘潭大學(xué)搭建高性能計(jì)算平臺再次驗(yàn)證了曙光服務(wù)器的整體實(shí)力,從產(chǎn)品的推出,到解決方案的配合,細(xì)致周到、執(zhí)著追求客戶服務(wù)為本,迎其所需,一切從客戶出發(fā) 、一切為客戶著想 、一切讓客戶滿意。

分享到

多易

相關(guān)推薦