基于以上思考,華中科技大學的網(wǎng)格計算解決方案對高性能計算環(huán)境提出了如下需求:多臺高性能SMP計算節(jié)點和管理節(jié)點組成的高性能計算集群;每個計算節(jié)點配置2G 內(nèi)存;每個計算節(jié)點內(nèi)部系統(tǒng)和文件系統(tǒng)配置高速硬盤;計算節(jié)點間采用高帶寬低延遲的互聯(lián)設(shè)備,安全高效的網(wǎng)絡(luò)互聯(lián);開放通用的Linux操作系統(tǒng);通用高效率的并行模式,支持OpenMP、MPI等;多層次任務調(diào)度管理系統(tǒng);支持工業(yè)標準的語言環(huán)境,包括C、C++和Fortran等;針對高性能計算應用的通用和擴展數(shù)學庫,包含基本線性代數(shù)、矩陣運算、快速傅立葉變換等科學運算程序庫的相關(guān)軟件。
HP打造強大靈活的網(wǎng)格計算平臺
在對華中科技大學高性能計算需求進行全面分析之后,HP設(shè)計了一個能夠使用戶在同樣的投資情況下、獲得最高性能并擁有靈活擴展能力的高性能計算系統(tǒng)。
主機系統(tǒng)采用48臺rx2600服務器作為計算節(jié)點,1臺rx2600服務器作為管理節(jié)點,每個計算節(jié)點服務器配置一個千兆以太網(wǎng)作為計算網(wǎng)絡(luò),和一個100Mbps以太網(wǎng)作為管理網(wǎng)絡(luò)。2路HP Integrity rx2600動能服務器配備了含6M三級高速緩存的1.5 GHz Intel安騰2處理器,或者含3M三級高速緩存的1.3 GHz Intel安騰2處理器以及高達24 GB的內(nèi)存,采用HP zx1芯片組,這一芯片組能夠通過降低內(nèi)存延遲并提高內(nèi)存與I/O子系統(tǒng)的可擴展性,充分展現(xiàn)Intel安騰2處理器的強大動力,使rx2600動能服務器能夠?qū)崿F(xiàn)行業(yè)領(lǐng)先的性能和內(nèi)存的可擴展性,處理更多的模擬數(shù)據(jù),更快地運行復雜模型,并提供高品質(zhì)圖像,而在成本和復雜性方面卻更低。
在高性能計算系統(tǒng)應用中,不僅需要高運算能力,同時對存儲有著很高的要求,因為高性能計算應用經(jīng)常需要短時讀寫大批量的數(shù)據(jù),這對存儲系統(tǒng)的性能特別是多道并行作業(yè)同時存取大量數(shù)據(jù)時的I/O性能提出很高要求。目前,在高性能計算領(lǐng)域中,當節(jié)點數(shù)量比較少時,可以采用SAN 存儲技術(shù),建立一個單獨的SAN存儲網(wǎng)絡(luò)。但由于目前SAN的建設(shè)成本還比較高,而且所支持的最大端口數(shù)僅為200~300個節(jié)點(不同廠商的具體數(shù)量不同),所以當節(jié)點數(shù)量比較多時,通常都采用網(wǎng)絡(luò)存儲技術(shù)。因此,在HP為華中科技大學設(shè)計的高性能計算系統(tǒng)中,采用一款低成本、可擴展的高性能存儲系統(tǒng)HP MSA1000作為存儲系統(tǒng),存儲容量為5TB。
華工科技大學高性能計算系統(tǒng)方案采用Redhat Advance Server 2.1操作系統(tǒng)和Linux Beowulf集群技術(shù),它與通常意義上的網(wǎng)絡(luò)工作站(Network of Workstation)的最大區(qū)別在于兩個方面,一是集群系統(tǒng)提供兩個功能獨立的網(wǎng)絡(luò),有一個單獨的計算網(wǎng)絡(luò),獨立于管理網(wǎng)絡(luò),客戶與集群系統(tǒng)的通信是通過管理網(wǎng)絡(luò)來實現(xiàn);二是整個集群系統(tǒng)共享一個進程ID號,簡化了節(jié)點之間的通信。
方案特點突出,優(yōu)勢顯著
華中科技大學網(wǎng)格計算平臺不僅在芯片、操作系統(tǒng)和互聯(lián)等方面全面符合業(yè)界技術(shù)發(fā)展,而且能夠很好地滿足用戶處理能力的實際需要。通過采用處理器中浮點運算性能最高、最先進的安騰2處理器,使各種高性能應用程序都可以得到最高的性能。目前在計算能力上達到了5000億次以上。華中科技大學從而也成為12個節(jié)點中第一個完成這一指標的院校。
這一方案具有同等價格下的最優(yōu)性能,可以更好地滿足用戶在高性能計算方面的需求;該方案利用集群技術(shù)手段在節(jié)點計算能力提升或互聯(lián)設(shè)備上更為方便靈活地擴展和升級,既充分保護了用戶的投資,又能夠確保系統(tǒng)的處理能力不斷適應日益增長的應用需求。
rx2600 動能服務器用于集群解決方案,可進一步增強安騰處理器和zx1芯片組的性能。由于每臺HP動能rx2600服務器只有3.5英寸高(2U),在一個工業(yè)標準機柜中可以集群多達20個rx2600動能服務器?D?D密集配置通過I/O、帶寬、內(nèi)存、海量存儲和計算容量等系統(tǒng)資源的整合,提供更高的效率和高可用性,從而能夠進一步挖掘并增強rx2600價值和性能的巨大發(fā)展?jié)摿Α?BR>
在管理方面,方案采用了HP提供的集群管理軟件,使用效果比較好。華中科技大學原來自己也開發(fā)過管理軟件,但HP這套管理軟件更加穩(wěn)定可靠,使得整個系統(tǒng)的安裝和維護也更加方便。
另外,HP公司在很多高性能應用領(lǐng)域具有極其豐富的經(jīng)驗,可以提供完整的解決方案給用戶。目前,HP的高性能計算系統(tǒng)在全球最大500臺計算機名單中占有168臺,排名各廠家第一位,居于領(lǐng)先位置,已有許多使用類似節(jié)點的成功案例。
為什么選擇HP Integrity動能服務器?
華中科技大學原來也有一些超級計算機系統(tǒng),但計算能力達不到要求,因此將需要重點鎖定為計算能力。作為適應性系統(tǒng)成功典范,HP Integrity動能服務器的64位計算能力比32位服務器更加強大,并且安騰處理器的浮點計算能力強,存儲容量大,基于IA架構(gòu)也容易擴展。
中國高性能計算及網(wǎng)格建設(shè)著名專家、華中科技大學金海教授表示:與主機相比,HP Integrity動能服務器IA架構(gòu)的擴展性好,成本相比低。如果采用大型機,以華中科技大學目前構(gòu)建5000億次計算能力的超級計算機的預算,很難實現(xiàn)。
目前,華中科技大學已經(jīng)在這個超級計算機上運行圖像處理應用,三維虛擬人的重建,運行效果非常好,而且,流體力學和物理方面的應用也開始在這個超級計算機上運行。該超級計算機已成為華中科技大學的公共計算平臺,為整個學校的教育和科研提供服務。系統(tǒng)穩(wěn)定性很好,至今還沒有出現(xiàn)問題。應用說,效果比預期的還要好。