我國航天部某研究所就通過一套由32個節(jié)點構(gòu)成的小規(guī)模集群系統(tǒng),為航天飛機大氣摩擦阻力的研究項目成功搭建了一個高性能的并行計算平臺。尤其值得關(guān)注的是,這套集群系統(tǒng)的計算節(jié)點并非傳統(tǒng)的RISC小型機,也不是IBM、HP等廠商的品牌PC服務(wù)器,而是采用了技嘉生產(chǎn)的服務(wù)器準(zhǔn)系統(tǒng)GS-SR168,在高性能、高可靠與高性價比之間真正獲得了令用戶滿意的平衡。
棄RISC小型機,選集群系統(tǒng)
隨著中國航空航天事業(yè)的快速發(fā)展,尤其是載人航天技術(shù)的巨大成功,我國科技人員對空氣動力學(xué)的數(shù)值模擬研究提出了越來越多的需求,常規(guī)的計算能力遠(yuǎn)遠(yuǎn)無法滿足復(fù)雜的大型飛行器設(shè)計所帶來的巨大需求。
業(yè)內(nèi)人士知道,在航空航天領(lǐng)域的CFD計算中,研究人員往往需要把飛機表面分成幾百萬甚至幾千萬個離散型的網(wǎng)格點,然后通過高性能計算平臺求解方程,得出每個網(wǎng)格點的溫度、速度、摩擦力等各種參數(shù),并模擬出連續(xù)型的曲線,進(jìn)而為飛機設(shè)計提供寶貴的參考資料。對CFD計算來說,網(wǎng)格點分割得越細(xì)密,計算量就越大,計算結(jié)果的精確度也就越好。測試表明,一個普通雙路服務(wù)器節(jié)點所能計算的網(wǎng)格數(shù)不會超過100萬個,因此,采用大SMP規(guī)模的小型機或者PC服務(wù)器集群就顯得非常必要了。
“由于課題很大,需要大量計算,而單機計算時間長,所以需要尋求計算能力強的硬件設(shè)備?!?該研究所的張老師介紹說?!霸?4年9月項目啟動初期,我們原計劃是采購IBM的小型機,但由于軍工領(lǐng)域采購小型機會受到美國政府的政策性限制,操作起來比較困難,而且小型機的價格也相當(dāng)昂貴,而我們的經(jīng)費也有限。后來接觸到正高集群公司的技術(shù)人員,經(jīng)過交流,我們發(fā)現(xiàn)如果用PC服務(wù)器集群,只需要用1半的成本就能完成同樣的事情?!?
于是,該研究所把目光投向了工業(yè)標(biāo)準(zhǔn)化的高性價比LINUX集群。在正高公司的幫助下,2004年11月該研究所采購了第一批12臺技嘉GS-SR168搭建集群,運行一年多后,發(fā)現(xiàn)效果不錯,在今年的二期工程中,又再次采購了20臺GS-SR168。
技嘉GS-SR168服務(wù)器準(zhǔn)系統(tǒng)
用技嘉服務(wù)器搭建高性價比集群
由于CFD是一種典型的浮點計算密集型和內(nèi)存密集型應(yīng)用,其對高性能計算機的要求主要有:
1) 具有很強的計算能力,尤其是浮點運算能力;
2) 有較大容量的內(nèi)存以使前處理和求解時數(shù)據(jù)能完全駐留在物理內(nèi)存中,經(jīng)驗表明,一般每個CPU至少分配1GB內(nèi)存;
3) 由于CFD是一種穩(wěn)態(tài)計算,數(shù)據(jù)的讀寫不需要隨著時間變化,只要在計算完后一次性讀寫磁盤即可,因此采用主流、高性價比的SATA硬盤是比較好的選擇。而且如采用SATA硬盤,在安裝OS時,無需加載驅(qū)動,軟件安裝與運行會更加順暢。
4) 要求具有支持高速、低延遲的通訊網(wǎng)絡(luò)。一般而言,100個節(jié)點以上的CFD集群要求采用性能更好但價格也更昂貴的Myrinet或Infiband互連網(wǎng)絡(luò),以滿足節(jié)點之間大量頻繁的通訊要求。但對于幾十個節(jié)點的小規(guī)模集群,采用主流的千兆以太網(wǎng)既能滿足通訊要求,更重要的是性價比非常不錯,可以大大減少用戶的采購成本。
針對上述需求,經(jīng)過充分認(rèn)證和調(diào)研,該項目最終采用了32臺配置為“雙路英特爾至強3.0GHz 64位處理器、2GB內(nèi)存、80GB SATA硬盤、雙千兆網(wǎng)卡”的1U機架式服務(wù)器GS-SR168來充當(dāng)計算節(jié)點和管理節(jié)點,采用千兆以太網(wǎng)為互連網(wǎng)絡(luò),配備正高集群管理系統(tǒng)(實現(xiàn)安裝、作業(yè)調(diào)度、TVM、MPI等功能),從而構(gòu)成了一套可以勝任2000-3000萬網(wǎng)格點計算重任的高性價比集群系統(tǒng)。系統(tǒng)結(jié)構(gòu)如下圖所示:
基于技嘉SR168的正高集群系統(tǒng)結(jié)構(gòu)
其中,技嘉GS-SR168是一款1U 機架式服務(wù)器,高度僅為1.68 英寸,甚至比標(biāo)準(zhǔn)1U(1.75 英寸)還薄0.2cm,使服務(wù)器在高密度部署時各主機間隔進(jìn)一步加大,有效阻止熱量傳導(dǎo),對整體系統(tǒng)穩(wěn)定運行很有幫助。其產(chǎn)品規(guī)格特點如下表所示:
為什么選用技嘉服務(wù)器準(zhǔn)系統(tǒng)?
尤其值得注意的是,技嘉提供的GS-SR168是一款服務(wù)器準(zhǔn)系統(tǒng)。所謂服務(wù)器準(zhǔn)系統(tǒng),是指一種不標(biāo)配CPU、內(nèi)存和硬盤的服務(wù)器平臺,而是由代理商或用戶自己來選擇處理器、 內(nèi)存和硬盤,但不影響整個系統(tǒng)的性能和可靠性。
采用這種準(zhǔn)系統(tǒng)主要能帶來三大好處,一是具有比一般品牌服務(wù)器更好的靈活性,代理商或用戶可以根據(jù)自己的需求選擇更合適的CPU、內(nèi)存和硬盤;二是性價比更高,由于省去了廠商的品牌附加費,因此,價格一般要比品牌服務(wù)器低10-20%;三是性能和可靠性能得到保證,跟DIY服務(wù)器不同,服務(wù)器準(zhǔn)系統(tǒng)在出廠前經(jīng)過了可靠性設(shè)計和嚴(yán)格的測試,因此能保證整機性能和可靠性。眾所周知,作為專業(yè)的服務(wù)器主板制造商,技嘉具有國際一流的主板和平臺設(shè)計、測試和質(zhì)控技術(shù),因此采用這種服務(wù)器準(zhǔn)系統(tǒng)來搭建集群,能更好地實現(xiàn)性能與價格的良好平衡。
“在前期投標(biāo)過程中,我們提供了一臺單機到用戶現(xiàn)場,安裝了Windows 2000和第三方軟件進(jìn)行了48小時的加壓測試,經(jīng)過比較,測試結(jié)果與HP、曙光等廠商選測的機器結(jié)果相當(dāng),但是價格更具優(yōu)勢?!闭呒汗究偨?jīng)理胡正安介紹說,“正是這種性能與成本的良好平衡使用戶最終選擇了我們?!眱赡甓鄟淼膶嶋H運行也充分證明了這一點。在一期項目中,該集群沒有出現(xiàn)任何故障,這也導(dǎo)致了用戶的第二次采購。
該研究所的張老師證實說:“正高集群超強的計算能力和穩(wěn)定性為計算課題節(jié)省了大量的時間,在使用中硬件的穩(wěn)定和軟件的協(xié)調(diào)運作都表現(xiàn)出了不錯的優(yōu)勢,表現(xiàn)出了很高的性價比?!睋?jù)了解,原來在一個單機上要跑1-2個月的課題,通過該集群只需要一周到半個月的時間,計算效率提高了數(shù)倍。
盡管高性能計算用戶在選購硬件平臺時一般要考慮很多復(fù)雜因素,如性能、可靠性、成本、服務(wù)、品牌等等,但正高集群之所以能在投標(biāo)過程中一舉擊敗更具品牌影響力的大廠商,并獲得用戶的二次采購,其選用技嘉服務(wù)器準(zhǔn)系統(tǒng)平臺無疑起到了非常關(guān)鍵的作用。技嘉GS-SR168既能滿足服務(wù)器的性能和穩(wěn)定性,實現(xiàn)整體軟硬件的完美搭建,更是幫助用戶贏得了高性價比,對于資金有限的教育、科研或中小企業(yè)用戶來說,顯然是非常不錯的選擇。