此次標案需求指令周期需要達到70TFLOPS以上,故由以上的模擬得知此次標案需求88個運算節(jié)點,在單臺0.95TFLOPS,若有88個運算節(jié)點,指令周期可以達到72.732 TFLOPS (88*0.95*85%=71.06 TFLOPS)。華碩擁有詳細仿真信息,針對此次標案進行投標,故2011年四月底的國網(wǎng)中心云端研發(fā)共享集群采購案中,華碩憑借其穩(wěn)定的、環(huán)保的、高效性運算解決方案在此案中脫穎而出。
系統(tǒng)建置完成后,接著進行第三階段系統(tǒng)效能調(diào)教與驗收,華碩工程師進行系統(tǒng)架設與效能調(diào)校。效能調(diào)教過程中,需要測試四項效能,第一個是GPU+CPU效能測試,第二個是CPU效能測試,第三個是內(nèi)存帶寬測試,第四個是Infiniband傳輸速度測試。華碩工程師歷經(jīng)千辛萬苦完成這幾項測試,其中也有遇到一些困難,像是硬件需求,例如CPU、GPU卡、主板、內(nèi)存、infiniband需全部一起到位,并且進行單機測試,完成后再進行整套系統(tǒng)的串聯(lián)起來的效能驗證,過程中必須根據(jù)過去華碩的經(jīng)驗與現(xiàn)場的系統(tǒng)情況做調(diào)整,這也是此次建置最主要面臨的挑戰(zhàn),華碩工程師憑借著主動積極的精神,突破難關完成測試。
國網(wǎng)中心GPU超級計算機之架構(gòu)
由此張架構(gòu)圖可以清楚了解到此次華碩計算機與國網(wǎng)中心共同建置全國最大規(guī)模云端運算系統(tǒng)的架構(gòu):八十八臺運算節(jié)點進行數(shù)據(jù)運算,四臺控制節(jié)點下達指令與串聯(lián)所有節(jié)點,六臺儲存節(jié)點儲存運算之數(shù)據(jù)與備援數(shù)據(jù),Infiniband switch 共一百二十六的 ports串聯(lián)所有節(jié)點,速度高達40Gb/s,九個Gigabit Ethernet switch串連外網(wǎng)之節(jié)點,連接速度為1Gb/s。而這八十八臺運算節(jié)點采用華碩超級計算機ESC4000,八十八臺運算節(jié)點又分兩部分,其中四十八個運算節(jié)點備配48G 內(nèi)存,另外四十個運算節(jié)點,內(nèi)建96GB內(nèi)存。六個儲存節(jié)點總共具備50TB硬盤空間,其中運算節(jié)點、控制節(jié)點與儲存節(jié)點之電源皆配備1+1備援電源供應器,免除維修停機的風險,另一方面,電源皆為Gold Level以上等級,提供絕佳且有效率的電源管理。
近年來,隨著環(huán)保意識的加強,建置超級計算機時,除了要強調(diào)驚人的運算能力外,節(jié)能省電也是另一項重要的課題,如何投資建置高能源效率且省電的超級計算機,一直是熱門話題,而如何使用最低的成本建置出超級計算機也無疑是業(yè)界所關注的。此次國網(wǎng)中心GPU方案也將節(jié)能省電做為重點,此系統(tǒng)使用強大的 CPU 和 GPU 高密度混合運算,建構(gòu)成本僅須單獨采用CPU超級計算機的三分之一,且耗電量僅須單獨采用CPU超級計算機的四分之三。另一方面,硬設備如此高端,且僅需要兩坪的空間但這臺超級計算機占地,體積精簡且節(jié)省空間。
華碩ESC4000為世界首創(chuàng)支持雙 Intel® Xeon® 5600 系列處理器的2U服務器,具有8+1 PCI-E插槽的彈性擴充能力,可支持四張Nvidia® Tesla™ GPU或八張Quadro®專業(yè)繪圖卡,八個 PCI-E Gen2 x16 插槽設計最多支持四個雙層 GPU 運算卡以提高專業(yè)的圖形運算效能,F(xiàn)lex-E 技術(shù)可在一個 PCI-E x16 及兩個 PCI-E x8 連結(jié)之間自動切換,且雙CPU與四GPU大幅提升運算效能。ESC4000超級計算機支持 18 個 DIMM 插槽及最高 48GB/144GB 高擴充性內(nèi)存以因應高運算需求的應用程序。DDR3 模塊提供更高的速度及更大的帶寬,以及更低的耗電量。另一方面,配合智能系統(tǒng)風扇控制,內(nèi)有三個獨立的智能型系統(tǒng)風扇,兩個用于 GPU 區(qū)域,一個用于一般主板散熱,此智能系統(tǒng)風扇控制可依據(jù)系統(tǒng)負載自動調(diào)整風扇速度,使散熱與省電效果達到優(yōu)化,使ESC4000達到雙精度浮點運算最佳耗電效率。該系統(tǒng)的高效率及優(yōu)異效能,將為科學運算和高階研究帶來理想的解決與應用方案。
存儲節(jié)點采用華碩獨特研發(fā)之4U存儲服務器節(jié)點,具有海量存儲空間,總共20顆熱插入3.5吋SAS/SATA硬盤;此存儲服務器支持 18 個 DIMM 插槽及144GB高擴充性內(nèi)存以因應高運算需求的應用程序,且配備1+1 Gold Level以上等級備援電源供應器,免除維修停機的風險,且提供絕佳且有效率的電源管理。而多處熱抽換設計,如備援電源供應器及可抽換式硬盤及控制器模塊,不關機便可方便地進行維護作業(yè),保證系統(tǒng)運作的連貫性;而透過華碩Storage 管理軟件的網(wǎng)頁式遠程管理方式,使用者更可節(jié)省人力和物力,實現(xiàn)輕松管理。
國網(wǎng)中心未來應用
此GPU超級計算機方案的實施,為未來規(guī)劃提供云端服務。國網(wǎng)中心并已經(jīng)啟用「算圖農(nóng)場」服務,協(xié)助學校、電影、動畫等產(chǎn)業(yè)算圖使用,讓對于需求龐大運算資源的算圖工作,輕松交付給此臺超級計算機系統(tǒng)處理,并且可以利用在其他產(chǎn)業(yè)上,協(xié)助更多文學創(chuàng)作內(nèi)容產(chǎn)業(yè)發(fā)展。