內(nèi)存和I/O 墻(Memory and I/O Wall):系統(tǒng)結(jié)構(gòu)的失衡問題,存儲器性能與處理器性能差距越來越大,本地帶寬及延遲和全局帶寬及延遲發(fā)展不一致所造成的差距形成了阻礙性能提升的"內(nèi)存墻"(Memory Wall);系統(tǒng)從I/O輸入到I/O輸出的不均衡帶寬設(shè)計,讓系統(tǒng)吃得進(jìn),吐不出,從而形成"I/O墻"(I/O Wall);

功耗墻(Power Consumption Wall):當(dāng)前功耗也已經(jīng)成為制約高效能計算機(jī)系統(tǒng)發(fā)展的主要因素之一,當(dāng)前每個機(jī)群節(jié)點(diǎn)耗電在300到1500瓦之間,而一個機(jī)柜耗能在20到30千瓦左右,2016年一臺持續(xù)千萬億次超級計算機(jī)系統(tǒng)可能需要消耗20兆瓦或更高的功耗。

未來千萬億次計算時代高性能計算機(jī)系統(tǒng),其每瓦Gflops性能應(yīng)在1.0GFlops per watt 以上,我們可能會采取比如水冷或節(jié)能型芯片、FPGA等技術(shù),但不能從根本上解決能耗問題;

編程墻(Programming Wall):在編程方面,用戶為完成一個具體的并行應(yīng)用在建模、編碼、調(diào)試、優(yōu)化、運(yùn)行、維護(hù)和故障處理上所遇到的各種困難交錯形成了"編程墻"(Programming Wall),怎樣很好利用為數(shù)眾多的處理器海(Processor Sea)?怎樣面對數(shù)十萬并發(fā)線程?

復(fù)雜性和可靠性墻(Complexity Wall):在管理方面,高性能計算機(jī)軟硬件系統(tǒng)交織,管理的復(fù)雜性隨之成倍增長,形成了新的"復(fù)雜性墻"(Complexity Wall);

可靠性墻(Availability Wall):對高性能計算機(jī)系統(tǒng)來說,可靠性也是其挑戰(zhàn)之一,當(dāng)其擴(kuò)展到成萬或十萬顆之多CPU以及幾百Terabytes內(nèi)存時,我們?nèi)绾伪U嫌布到y(tǒng)的可靠性,同時在這樣大規(guī)模的系統(tǒng)運(yùn)行中,軟件錯誤也很難避免;

擴(kuò)展性墻(Scalability Wall):在一個十萬億次量級的高性能計算機(jī)系統(tǒng)中當(dāng)前千兆、萬兆以太網(wǎng)、Infiniband、 Myrinet、Quadrics等商業(yè)化網(wǎng)絡(luò)均可為應(yīng)用開發(fā)者提供完整的網(wǎng)絡(luò)互聯(lián)。

在一個胖樹拓?fù)浣Y(jié)構(gòu)中,用戶不必過于關(guān)注延時,但當(dāng)系統(tǒng)規(guī)模擴(kuò)展到2萬個以上處理器時,就必須采用低度(Low-degree)互連或網(wǎng)格(Grid)互連,胖樹結(jié)構(gòu)不適用于這樣的規(guī)模,延時將變成一個非常重要的問題。

同時,今天基本上沒有系統(tǒng)軟件和應(yīng)用軟件能擴(kuò)展到這樣一個處理器的規(guī)模,我們需要重新設(shè)計軟件硬件編程模型,以適應(yīng)系統(tǒng)的大規(guī)模擴(kuò)展和求解問題的大規(guī)模擴(kuò)展,并確保其高效性和高并行度;

與此同時,在另一方面,雖然多核處理器是當(dāng)前乃至未來構(gòu)建高性能計算機(jī)的基礎(chǔ),但多核處理器也對傳統(tǒng)的系統(tǒng)結(jié)構(gòu)提出了新的挑戰(zhàn),如:如何對芯片、板極、系統(tǒng)級三級并行結(jié)構(gòu)進(jìn)行均衡設(shè)計?

如何將通信延伸到多核內(nèi),發(fā)揮由上萬個處理器核構(gòu)成的大規(guī)模并行系統(tǒng)的計算能力?如何增加應(yīng)用的可移植性?如何減少多核帶來的存儲器壁壘加???

可以看到,上述內(nèi)存墻、I/O墻、功耗墻、復(fù)雜性墻、編程墻、擴(kuò)展性墻等諸多問題為高性能計算機(jī)的發(fā)展及其平民化應(yīng)用設(shè)置了重重障礙。美國國防部于2002年制定的"高效能計算系統(tǒng)"(High Productivity Computing Systems,簡稱HPCS)研究計劃(IBM PERCS、Cray Cascade、SUN Hero成為首批入選計劃)首先提出了以高效能作為新一代高性能計算機(jī)研制的目標(biāo)。高效能代表了高性能計算機(jī)研究的新方向,其包含了高性能、可編程性、可移植性、穩(wěn)定性等多個方面的要求:

高性能(Performance):在重要的國家安全應(yīng)用方面,將由十多個到上千個節(jié)點(diǎn)組成的系統(tǒng)可伸縮能力和商用計算效能提高10到40倍;

可編程性(Programmability):減少應(yīng)用方案的開發(fā)時間,降低系統(tǒng)運(yùn)行和維護(hù)成本,提高系統(tǒng)使用效率;

可移植性(Portability):將研究和運(yùn)行的高效能應(yīng)用軟件與系統(tǒng)平臺分離開;

健壯性(Robustness):針對外界攻擊、硬件故障及軟件錯誤開發(fā)相應(yīng)的保護(hù)技術(shù),為用戶提供增強(qiáng)的可靠性,減少惡意行為的風(fēng)險。

全球高效能計算機(jī)技術(shù)研究現(xiàn)狀

高效能計算機(jī)研究領(lǐng)域主要包括高帶寬/低延遲分級存儲系統(tǒng);平衡好處理器、存儲器、網(wǎng)絡(luò)帶寬、系統(tǒng)軟件與開發(fā)語言的均衡系統(tǒng)結(jié)構(gòu);健壯性策略;新的度量準(zhǔn)則和基準(zhǔn)測試程序;系統(tǒng)自適應(yīng)性;節(jié)能以及簡化管理復(fù)雜性等諸多內(nèi)容。當(dāng)前HPCS項(xiàng)目已從大規(guī)模研究階段轉(zhuǎn)向最后階段-2010年前基于IBM PERCS系統(tǒng)和Cray的"適應(yīng)性超級計算"(Adaptive Supercomputing) Cascade 系統(tǒng)完成兩臺千萬億次高生產(chǎn)率超級計算機(jī)系統(tǒng)研制開發(fā)。

IBM PERCS系統(tǒng)基于Power7微處理器、AIX操作系統(tǒng)、通用并行文件系統(tǒng)(GPFS)、IBM并行計算環(huán)境及互聯(lián)和存儲子系統(tǒng)進(jìn)行開發(fā)。當(dāng)前 IBM PERCS 項(xiàng)目已經(jīng)公布的幾個研究方向有:片上多處理器(CMP);智能內(nèi)存:在每個DIMM內(nèi)存條上增加一個智能Hub芯片,實(shí)現(xiàn)預(yù)取、Scatter/Gather、重排序、緩存等功能;全局名字空間支持;混合型DSM:通過X10編程語言實(shí)現(xiàn),支持OpenMP程序;異步SMP:簡化目前SMP硬件一致性協(xié)議,使之更接近軟件的應(yīng)用模式;片上FIFO:將同步和數(shù)據(jù)傳送結(jié)合,減少應(yīng)用中的延遲;基于目錄的cache一致性協(xié)議等。PERCS的存儲系統(tǒng)實(shí)現(xiàn)了巨大的UMA結(jié)構(gòu)的SMP系統(tǒng),同時在該系統(tǒng)中IBM計劃開發(fā)高效用軟件和開發(fā)工具以提高開發(fā)人員的生產(chǎn)率。

Cray Cascade 系統(tǒng)聯(lián)合了Stanford、Caltech/JPL和Notre Dame學(xué)院的研究人員共同進(jìn)行開發(fā),具有獨(dú)特的處理器設(shè)計,單節(jié)點(diǎn)處理器有機(jī)地結(jié)合了向量處理器、流處理器、多線程處理器設(shè)計;輕量級處理器采用了PIM技術(shù)和多線程技術(shù)。

存儲系統(tǒng)采用UMA+NUMA共享內(nèi)存方式,并提供了靈活的地址變換和分布。Cray Cascade 系統(tǒng)本質(zhì)上是一個能在單系統(tǒng)中提供包括標(biāo)量、FPGA和混合矢量/超級多線程(MMT)處理器板卡的機(jī)箱內(nèi)集群(Cluster-in-a-box)。在該系統(tǒng)中Cray將設(shè)計一款基于其XD1系統(tǒng)的FPGA加速板卡,采用統(tǒng)一的高帶寬光互聯(lián)網(wǎng)絡(luò),節(jié)點(diǎn)(Locale)包含向量部件、粗粒度的多線程處理器、與DRAM結(jié)合支持細(xì)粒度并行的PIM部件等,提供分布式共享內(nèi)存、多層次多線程執(zhí)行模型、硬件支持的分析和調(diào)試功能。

Cascade系統(tǒng)將開發(fā)編譯器軟件Chapel以處理多種涉及標(biāo)量、矢量或MMT應(yīng)用的混合UMA/NUMA編程模型。除上述兩家獲HPCS最終支持的企業(yè)外,SUN也在第一、二階段獲得了支持,SUN HERO計劃主要采用的技術(shù)有Sea of Memory技術(shù)、Proximity Interconnect 技術(shù)、Guarded Pointer技術(shù)和Interval Arithmetic(IA)技術(shù)。

當(dāng)前除了上述IBM、Cray、SUN等企業(yè)及學(xué)術(shù)機(jī)構(gòu)以外,基于可重構(gòu)計算、專用加速部件、混合異構(gòu)結(jié)構(gòu)、芯片級、系統(tǒng)級以及基礎(chǔ)架構(gòu)級節(jié)能等相關(guān)技術(shù),學(xué)術(shù)界和企業(yè)界也已經(jīng)展開了高效能計算機(jī)關(guān)聯(lián)技術(shù)研究。

當(dāng)前以FPGA、專用加速部件、通用商品化基于多核處理器(Many-Core)為主體的混合異構(gòu)結(jié)構(gòu)已成為高效能計算機(jī)發(fā)展的主流,在這其中,包括節(jié)能、PIM、流式計算、光互聯(lián)、高效編譯器、并行計算環(huán)境等等諸多方面的創(chuàng)新和整合;在應(yīng)用加速方面,由于FPGA可以根據(jù)不同的應(yīng)用實(shí)現(xiàn)可重構(gòu)計算,適應(yīng)高性能計算機(jī)面臨的不同的計算模型,同時FPGA在內(nèi)存帶寬、并行處理和低功耗方面有突出的優(yōu)勢,因此與主處理器配合,可實(shí)現(xiàn)提高特定應(yīng)用性能和降低系統(tǒng)功耗的雙重目標(biāo),應(yīng)用前景廣闊,是實(shí)現(xiàn)高效能計算的有效途徑之一;在提高存儲器性能方面,基于多層次Cache、加大處理器和存儲器之間的帶寬、多線程、預(yù)取、PIM等諸多技術(shù)以消除內(nèi)存墻(Memory Wall);

在系統(tǒng)可靠性研究方面,國內(nèi)外研究主要在硬件可靠性、操作系統(tǒng)可靠性和應(yīng)用可靠性三個方面。硬件可靠性主要沿用60年代大型機(jī)系統(tǒng)發(fā)展起來的一系列基礎(chǔ)技術(shù)框架,如N模冗余、專用組件或模塊等,通過冗余硬件達(dá)到提高系統(tǒng)硬件可靠性的目的。操作系統(tǒng)可靠性研究主要有操作系統(tǒng)隔離技術(shù)(如Nooks)、故障忽略技術(shù)等,通過將故障忽略或隔離從而減少對應(yīng)用的影響。

針對科學(xué)計算應(yīng)用,多采用檢查點(diǎn)技術(shù)對應(yīng)用運(yùn)行的階段性結(jié)果進(jìn)行保存,以備在出錯時進(jìn)行恢復(fù);在解決管理的復(fù)雜性方面,包括自動監(jiān)控全局資源,對監(jiān)控數(shù)據(jù)進(jìn)行深度挖掘、關(guān)聯(lián)分析預(yù)測系統(tǒng)行為,根據(jù)應(yīng)用特征動態(tài)構(gòu)造虛擬計算環(huán)境,實(shí)現(xiàn)應(yīng)用間性能隔離和安全隔離,對應(yīng)用軟件的可靠性和擴(kuò)展性提供支持,提供驗(yàn)證、模擬、評價工具,并在保證系統(tǒng)性能的情況下,實(shí)施自適應(yīng)功耗管理及可靠性管理;

在解決功耗方面,除采用FPGA、液體冷卻、低功耗專用芯片、芯片級冷卻等技術(shù)以外,一些系統(tǒng)級節(jié)能技術(shù)也有望解決高效能計算機(jī)能耗問題,包括:基于負(fù)載情況動態(tài)調(diào)整系統(tǒng)狀態(tài)、實(shí)施部分節(jié)點(diǎn)或部件的休眠;根據(jù)各進(jìn)程能耗的不同對CPU任務(wù)隊(duì)列進(jìn)行調(diào)整,如將一些產(chǎn)生較多熱量的任務(wù)從溫度較高的CPU上遷移到溫度較低的CPU上從而實(shí)現(xiàn)能耗的均衡;在海量存儲和文件系統(tǒng)方面,包括聚合一組存儲設(shè)備的容量和I/O帶寬,為高效能計算機(jī)提供全局名字空間和高I/O性能,以及采用面向?qū)ο蟠鎯夹g(shù),將存儲設(shè)備與文件系統(tǒng)的接口由原來過于簡單的塊訪問接口變成對象訪問接口等以開發(fā)高性能并行文件系統(tǒng)和相應(yīng)支持大規(guī)模共享文件系統(tǒng)的存儲系統(tǒng);在并行編程模型方面,當(dāng)前并行程序設(shè)計語言主要有OpenMP、MPI、X10、PGAS、HPF等?;诠蚕泶鎯Φ腛penMP語言的主要問題是沒有數(shù)據(jù)局部性的支持,Clustered OpenMP也只能適應(yīng)粗粒度并行的程序。MPI模型的問題在于短消息性能不好和可編程性差, HPF由于適應(yīng)面窄也面臨淘汰。近年來,分割全局地址空間模型(Partitioned Global Address Space Model,簡稱PGAS)廣受關(guān)注。PGAS既有共享內(nèi)存編程模型的易編程性,又能讓程序員控制數(shù)據(jù)的分布以達(dá)到和消息傳遞編程模型媲美的性能。

可以說當(dāng)前學(xué)術(shù)界和工業(yè)界在高效能計算機(jī)研究領(lǐng)域已取得了長足的進(jìn)展,2008年6月IBM Roadrunner 千萬億次超級計算機(jī)的提前發(fā)布讓我們看到了高效能計算機(jī)平民化應(yīng)用的希望,也更讓我們對未來千萬億次計算時代的提前到來充滿信心。

我國高效能計算機(jī)技術(shù)及市場現(xiàn)狀

當(dāng)前我國在高效能計算機(jī)研究方面也取得了重要進(jìn)展,2008年6月24日亮相的中國曙光5000A兩百萬億次超級計算機(jī)就整合了大量高效能技術(shù),包括新型"超并行"體系結(jié)構(gòu)(Hyper Parallel Processing,簡稱HPP)、基于四路高密度刀片服務(wù)器架構(gòu)超并行節(jié)點(diǎn)、基于16端口4x5Gbps交換芯片超并行互連網(wǎng)絡(luò)、高性能直接地址訪問式core-to-core通信軟件、高性能全局(組)同步機(jī)制、高性能TCP/IP、高性能可移植并行語言編譯器、自動并行化編譯工具ParaORC、高效能虛擬化軟件、面向千萬億次計算機(jī)的高性能并行文件系統(tǒng)、檢查點(diǎn)存儲系統(tǒng)和PB級網(wǎng)絡(luò)存儲系統(tǒng)、大規(guī)模層次化高效能計算機(jī)自主管理軟件、多層次系統(tǒng)級魯棒性技術(shù)、面向數(shù)萬個處理器的新型基礎(chǔ)并行算法、自適應(yīng)功耗管理、應(yīng)用加速器等諸多技術(shù)。

可以說,從技術(shù)層面來看,我們和全球高性能計算機(jī)領(lǐng)域技術(shù)最領(lǐng)先的國家也就三到五年的差距,取得了長足的進(jìn)步,但離真正的成功還有一段路要走,這個真正的成功更多的是指市場的成功,是技術(shù)轉(zhuǎn)化為市場價值的成功。主要是如下原因:

1)、中國的民族服務(wù)器產(chǎn)業(yè)在全球乃至中國市場尚占非常少的比例,大約為世界總量的1%,中國服務(wù)器市場的30%(Source:IDC,2007),中國的高性能計算機(jī)市場大部分被國外跨國巨頭企業(yè)主導(dǎo),在很多領(lǐng)域甚至是被壟斷,如金融、電信等諸多領(lǐng)域;

2)、中國高性能計算機(jī)產(chǎn)業(yè)良性生態(tài)環(huán)境尚未形成,其涉及芯片、操作系統(tǒng)、編譯器、并行計算環(huán)境、上層應(yīng)用軟件、算法、存儲系統(tǒng)、交換系統(tǒng)等產(chǎn)業(yè)鏈各個環(huán)節(jié)的均衡發(fā)展,也涉及到技術(shù)、資金、人才、產(chǎn)業(yè)界、學(xué)術(shù)界等諸多環(huán)節(jié)的均衡發(fā)展、協(xié)調(diào)配合;

3)、中國在高性能計算機(jī)領(lǐng)域自主創(chuàng)新能力還很薄弱,國內(nèi)很多民族服務(wù)器企業(yè)還停留在OEM、ODM研發(fā)、貼牌銷售階段。
我國高性能計算機(jī)標(biāo)準(zhǔn)現(xiàn)狀

當(dāng)前正面臨高性能計算機(jī)技術(shù)升級換代的關(guān)鍵時期,國外服務(wù)器企業(yè)正在抓緊制定和推出其自身的高性能計算機(jī)標(biāo)準(zhǔn),從而打造從芯片、操作系統(tǒng)到基礎(chǔ)架構(gòu)、存儲、交換、應(yīng)用等全方位產(chǎn)業(yè)生態(tài)鏈,其中比較典型的產(chǎn)品就是刀片式服務(wù)器。

目前國際上尚無統(tǒng)一的高性能計算機(jī)標(biāo)準(zhǔn),各大廠商都在推廣自己的標(biāo)準(zhǔn),現(xiàn)在這個時候正是建立和健全中國高性能計算機(jī)標(biāo)準(zhǔn)體系的大好時機(jī)。加快高性能計算機(jī)領(lǐng)域標(biāo)準(zhǔn)化工作對中國未來服務(wù)器產(chǎn)業(yè)乃至信息產(chǎn)業(yè)的發(fā)展具有深遠(yuǎn)的意義,這不僅關(guān)系著民族產(chǎn)業(yè)的發(fā)展,更關(guān)系著國家關(guān)鍵戰(zhàn)略應(yīng)用領(lǐng)域的國防安全。

高性能計算機(jī)標(biāo)準(zhǔn)工作委員會(High Performance Computer Standardization Committee,以下簡稱高標(biāo)委)自2007年3月成立以來,目前會員單位已經(jīng)發(fā)展到了三十多家,涉及芯片、操作系統(tǒng)、服務(wù)器、交換存儲、基礎(chǔ)架構(gòu)等領(lǐng)域。

高標(biāo)委至今已成立了刀片服務(wù)器標(biāo)準(zhǔn)工作組和服務(wù)器節(jié)能標(biāo)準(zhǔn)工作組,并和工業(yè)與信息化部電子技術(shù)標(biāo)準(zhǔn)化研究所聯(lián)合成立了服務(wù)器節(jié)能評測實(shí)驗(yàn)室。當(dāng)前由高標(biāo)委起草的《機(jī)群操作系統(tǒng)遠(yuǎn)程監(jiān)控技術(shù)要求》和《刀片服務(wù)器管理模塊技術(shù)要求》兩項(xiàng)電子行業(yè)標(biāo)準(zhǔn)即將進(jìn)入公示期,如在公示期內(nèi)無重要反對意見,上述標(biāo)準(zhǔn)有望在年內(nèi)正式頒布,成為我國高性能計算機(jī)領(lǐng)域的首個行業(yè)推薦標(biāo)準(zhǔn)。

在上述兩項(xiàng)標(biāo)準(zhǔn)的基礎(chǔ)上,2008年高標(biāo)委又組織申報了《刀片式服務(wù)器計算模塊電氣技術(shù)要求》、《刀片式服務(wù)器計算模塊固件技術(shù)要求》、《刀片式服務(wù)器計算模塊機(jī)械技術(shù)要求》、《高性能計算機(jī)高級內(nèi)存緩沖芯片(AMB)節(jié)能標(biāo)準(zhǔn)》、《服務(wù)器節(jié)能技術(shù)要求》等5項(xiàng)新的標(biāo)準(zhǔn)提案。

當(dāng)前,高標(biāo)委將以刀片服務(wù)器、節(jié)能及高性能計算機(jī)行業(yè)應(yīng)用為重點(diǎn),穩(wěn)步推動高性能計算機(jī)領(lǐng)域標(biāo)準(zhǔn)化工作,并將在今年籌備成立高性能計算機(jī)產(chǎn)業(yè)聯(lián)盟,希望從技術(shù)、標(biāo)準(zhǔn)、市場三個層面打造中國服務(wù)器產(chǎn)業(yè)的大生態(tài)。

結(jié)束語

高效能計算機(jī)技術(shù)的發(fā)展是一個長期的實(shí)踐過程,當(dāng)前雖然學(xué)術(shù)界、工業(yè)界基于可重構(gòu)計算、混合異構(gòu)結(jié)構(gòu)、高效能編程模型及編程語言、體系結(jié)構(gòu)創(chuàng)新等相關(guān)技術(shù)手段有效提升了高性能計算機(jī)系統(tǒng)的效能,減少了中心機(jī)房面積、電能消耗、系統(tǒng)管理的一系列壓力,更好的滿足了應(yīng)用需求,但我們必須看到,上述技術(shù)的突破與實(shí)現(xiàn)和高效能計算的總目標(biāo)相比仍然有很大差距,不過是冰山一角而已,未來幾年高效能計算機(jī)技術(shù)仍將高速發(fā)展,發(fā)展過程中將孕育著新的機(jī)會和新的曙光,這就要求我們一方面需緊隨技術(shù)發(fā)展的步伐,另一方面,需加大技術(shù)標(biāo)準(zhǔn)化的投入力度,這兩個方面我們都不能放松,都必須加大投入,只有這樣才能迅速發(fā)展并壯大我國的民族服務(wù)器產(chǎn)業(yè),才能獲取中國乃至全球的服務(wù)器市場話語權(quán)。"兩岸猿聲啼不盡,輕舟已過萬重山", 讓我們緊隨高效能計算領(lǐng)域技術(shù)及標(biāo)準(zhǔn)發(fā)展的步伐!

分享到

adan

相關(guān)推薦