Intel Xeon Phi協(xié)處理器家族,5110P和定制產(chǎn)品SE10P采用被動(dòng)散熱,適用于數(shù)據(jù)中心;3100系列有被動(dòng)散熱和主動(dòng)散熱兩種方案,后者適合于任何環(huán)境,包括工作站
雖然在消費(fèi)市場(chǎng)上遭遇ARM的強(qiáng)勢(shì)挑戰(zhàn),公司市值亦首度被高通超越,但英特爾還有企業(yè)級(jí)市場(chǎng)作為堅(jiān)強(qiáng)后盾。至強(qiáng)家族在服務(wù)器和存儲(chǔ)市場(chǎng)不斷蠶食RISC的領(lǐng)地,同屬x86陣營(yíng)的AMD也被逼得向ARM遞上“投名狀”。
想想十多年前,還是RISC統(tǒng)治數(shù)據(jù)中心,x86把持桌面計(jì)算?,F(xiàn)在形勢(shì)幾乎反轉(zhuǎn),前端的消費(fèi)者市場(chǎng),ARM攜智能手機(jī)和平板市場(chǎng)上的成功威脅PC,并伺機(jī)進(jìn)攻后端的企業(yè)級(jí)市場(chǎng),欲重復(fù)當(dāng)年x86的逆襲故事。正所謂“兵無(wú)常勢(shì),水無(wú)常形。”同一時(shí)代的技術(shù)往往沒有絕對(duì)的優(yōu)劣之分,看誰(shuí)更善于利用形勢(shì),與時(shí)俱進(jìn),才是長(zhǎng)盛之道。
Intel Xeon Phi 協(xié)處理器以PCI Express(PCIe)插卡的形式配合英特爾至強(qiáng)(Xeon)CPU使用
要說(shuō)在企業(yè)級(jí)市場(chǎng),英特爾還是很趕潮流的。去年云計(jì)算,今年大數(shù)據(jù),不是最早鼓吹的那個(gè),但也不算落伍。按理,云計(jì)算和大數(shù)據(jù)能夠成為大眾話題,基礎(chǔ)設(shè)施層面上,離不開x86的遍地開花,可是,每當(dāng)英特爾往大數(shù)據(jù)上靠,總有人感覺不習(xí)慣。
英特爾表示,Xeion Phi 協(xié)處理器內(nèi)核在P54C基礎(chǔ)上加入了很多功能,包括64位支持?,F(xiàn)在內(nèi)核加上L2緩存,只有不到2%是x86成分(x87 Logic)
記得今年7月第二屆大數(shù)據(jù)世界論壇,有記者朋友走進(jìn)會(huì)場(chǎng),看到Intel的Logo,驚呼“英特爾和大數(shù)據(jù)有什么關(guān)系啊?”遂在微博上引發(fā)一番Hadoop知識(shí)普及的大討論(當(dāng)然,不能把Hadoop與大數(shù)據(jù)劃等號(hào))。上個(gè)月,英特爾在介紹其至強(qiáng)融核(Xeon Phi)處理器時(shí),將HPC(高性能計(jì)算)與大數(shù)據(jù)聯(lián)系到一起,又引起了同行的反彈。
我寧愿把這理解為對(duì)近來(lái)業(yè)內(nèi)談及趨勢(shì)時(shí)必稱“大數(shù)據(jù)”的反感。如果拋開這一層,不消英特爾多說(shuō),前一陣與幾位圈中好友私下討論時(shí),已然認(rèn)同以Hadoop為代表的大數(shù)據(jù)應(yīng)用,與高性能計(jì)算在模式上頗有共通之處——高度并行,從計(jì)算到I/O。
從計(jì)算到存儲(chǔ),大數(shù)據(jù)與高性能計(jì)算很相似
隨后,在10月底公布的中國(guó)HPC TOP100排行榜上,前10名中,有4個(gè)安裝在互聯(lián)網(wǎng)服務(wù)提供商,而在總體上,應(yīng)用于互聯(lián)網(wǎng)服務(wù)的系統(tǒng)多達(dá)35套,占35%,在各行業(yè)中保持第一,比例有大幅度躍升。
我們不是說(shuō),互聯(lián)網(wǎng)服務(wù)就意味著Hadoop,或者大數(shù)據(jù),但起碼它們的應(yīng)用類型更為接近,而與科學(xué)計(jì)算等“傳統(tǒng)意義”上的科學(xué)計(jì)算距離較遠(yuǎn)。一定程度上,互聯(lián)網(wǎng)服務(wù)/大數(shù)據(jù)應(yīng)用拓展了HPC的勢(shì)力范圍,幫助后者從象牙塔走出來(lái),滲透到普通人生活的方方面面。
順著這個(gè)話頭說(shuō)開去,我們正處在一個(gè)加速轉(zhuǎn)向并行處理的時(shí)代。CPU強(qiáng)調(diào)多核和多線程自不必說(shuō),硬盤驅(qū)動(dòng)器(HDD)面臨被固態(tài)盤(SSD)部分乃至全部取代的危險(xiǎn),也體現(xiàn)了同樣的道理。英特爾在為SSD造勢(shì)時(shí),給硬盤列的一大罪狀就是,十年間性能只提高了1.3倍,遠(yuǎn)遠(yuǎn)落后于CPU的進(jìn)步幅度。對(duì)硬盤的評(píng)價(jià)有點(diǎn)兒偏頗,這里不細(xì)究,但是抓住了關(guān)鍵,即硬盤多年來(lái)都是同一時(shí)刻只有一個(gè)磁頭工作,并行度很差,改善性能基本只能靠加快機(jī)械部件的運(yùn)轉(zhuǎn)速度,所以效果很有限。SSD則不然,雖然每個(gè)閃存芯片的性能和容量都不算高,但可以多個(gè)芯片(控制器多通道)同時(shí)讀/寫,具有很高的并行度,性能很容易就甩開硬盤好幾條街。
HPC市場(chǎng)的年復(fù)合增長(zhǎng)率(CAGR)接近于云
雖然性能幾乎不隨著容量增長(zhǎng),但是硬盤在容量和價(jià)格上的優(yōu)勢(shì)仍非SSD所能企及。硬盤的并行度不行,那就盡量避免讓它同時(shí)干兩件事(減少隨機(jī)訪問)。譬如說(shuō),我的辦公環(huán)境是在虛擬機(jī)里運(yùn)行Outlook,關(guān)閉Outlook和關(guān)閉虛擬機(jī),都要向硬盤上大量寫入數(shù)據(jù)。如果執(zhí)行了關(guān)閉Outlook的動(dòng)作,不等數(shù)據(jù)文件寫完,立刻關(guān)閉虛擬機(jī),那么兩個(gè)寫操作就有部分重合,關(guān)機(jī)時(shí)間會(huì)很長(zhǎng);如果先等待Outlook完全關(guān)閉,再關(guān)閉虛擬機(jī),那么總共花費(fèi)的時(shí)間,能夠明顯的縮短。也就是說(shuō),在一個(gè)缺乏并行度的體系內(nèi),完全串行的執(zhí)行兩個(gè)任務(wù),所需時(shí)間要比在兩個(gè)任務(wù)之間來(lái)回切換,要來(lái)得短。(1+1<2?)
硬盤的并行能力雖差,但是多個(gè)硬盤同時(shí)工作,就能夠兼顧并行訪問和大容量,存儲(chǔ)系統(tǒng)(RAID)和Hadoop就是這么做的。
TACC的Stampede系統(tǒng)在新鮮出爐的HPC Top500排行榜上排名第7,得益于數(shù)千塊定制的Xeon Phi 協(xié)處理器SE10P
如果需要極致的并行訪問能力,就像剛剛過(guò)去的雙11淘寶數(shù)據(jù)庫(kù),一天下來(lái)僅成交的交易就上億,離了高性能的PCIe SSD,是無(wú)法想象的。
以上想說(shuō)明什么?并發(fā)度,組合。硬盤不是為并發(fā)訪問設(shè)計(jì)的,但在順序訪問時(shí),輸出(throughput)并不比SSD差太多,且在容量和價(jià)格上占有優(yōu)勢(shì)。對(duì)并行度要求不太高的時(shí)候可以用硬盤組合,隨著并行訪問要求的提高,引入SSD,乃至完全依靠SSD。
Intel Xeon Phi 協(xié)處理器SE10P
但是,在Hadoop系統(tǒng)中,硬盤仍然占據(jù)主流,SSD相對(duì)少見,每個(gè)節(jié)點(diǎn)配的內(nèi)存容量也不是很大——雖然商業(yè)領(lǐng)域在倡導(dǎo)“內(nèi)存計(jì)算”。互聯(lián)網(wǎng)行業(yè)的文化是盡可能不依賴昂貴的硬件,利用整體架構(gòu)來(lái)分布任務(wù)。與金字塔尖上的超級(jí)計(jì)算系統(tǒng)相比,他們屬于平民版的HPC,講究投入產(chǎn)出比,可復(fù)制性更高。
我在TACC上機(jī)操作,可以看到Intel Xeon Phi 協(xié)處理器SE10P的信息,包括61個(gè)內(nèi)核及8GB GDDR5內(nèi)存,注意下面TACC Stampede和MIC協(xié)處理器的顯示
現(xiàn)在回過(guò)頭來(lái)說(shuō)計(jì)算。x86 CPU的并行度非硬盤可比,但在高度并行化設(shè)計(jì)的GPU面前,差距又很明顯。剛剛奪得新一期全球Top500榜單頭名的Titan系統(tǒng),制勝法寶便是Nvidia Tesla K20X GPU加速芯片。
新鮮出爐的Top500榜單前10名,注意第1、7和8名
得克薩斯高級(jí)計(jì)算中心(TACC)的Stampede系統(tǒng),采用戴爾PowerEdge C8220X,至強(qiáng)E5-2680 8核CPU與Intel Xeon Phi協(xié)處理器的混合系統(tǒng),小勝兩年前的頭名——也是CPU + GPU的天河1號(hào)A,但與Titan系統(tǒng)還差得遠(yuǎn)。
TACC的Stampede系統(tǒng)采用了6400臺(tái)戴爾PowerEdge C8220X刀片服務(wù)器,每一個(gè)刀片配備了2個(gè)8核Intel Xeon E5-2680處理器和32GB內(nèi)存
英特爾自家的GPU是薄弱環(huán)節(jié),又不可能坐視甚至扶植AMD或NV的GPU做大,反對(duì)CPU+GPU的混合系統(tǒng)是很自然的。英特爾的方案是,以Xeon Phi作為協(xié)處理器,替代GPU,輔助CPU處理高度并行的任務(wù)。GPU派攻擊協(xié)處理器的性能,英特爾則強(qiáng)調(diào)引入GPU需要大量重新編程,通用性不好。這方面口水戰(zhàn)甚多,我對(duì)HPC的了解有限,更非編程專家,這里就不拾人牙慧,主要探討下英特爾的做法。
戴爾PowerEdge C8220X刀片服務(wù)器
首先,英特爾強(qiáng)調(diào)至強(qiáng)E5是HPC的基石。這里面又有好幾層意思,一是x86 CPU中,E5占據(jù)明顯優(yōu)勢(shì)。CPU + GPU,后者再給力,也不能放任前者拖后腿。AMD的Opteron雖然內(nèi)核數(shù)更多,但總體上處于下風(fēng)。另外,至強(qiáng)E5平臺(tái)集成了PCI Express,摟草打兔子,配合PCIe接口的Xeon Phi,可以進(jìn)一步縮短延遲。
在英特爾宣布將要推出Xeon Phi(當(dāng)時(shí)稱MIC)協(xié)處理器之后,Nvidia方面撰文稱“沒有免費(fèi)的午餐”(指MIC運(yùn)行x86程序無(wú)需更改代碼是無(wú)稽之談)。英特爾并行編程傳播總監(jiān)James Reinders不無(wú)幽默地回應(yīng)道,并行編程很重要,但沒人能獲得免費(fèi)的午餐。
英特爾與Nvidia一樣很清楚,目前的很多程序都是串行編程,需要盡可能的并行化,才能充分發(fā)揮GPU或Xeon Phi協(xié)處理器的并行計(jì)算能力。不過(guò),James Reinders強(qiáng)調(diào),并行化編程對(duì)挖掘CPU的潛力也很有幫助。
至強(qiáng)CPU采用為Xeon Phi 協(xié)處理器開發(fā)的并行化代碼后,性能可有上百倍的提升
他舉了一個(gè)SAXPY(Scalar Alpha X Plus Y,純量乘法與矢量加法的組合,是并行向量處理器中常用的計(jì)算操作指令)的例子,經(jīng)過(guò)并行化的代碼運(yùn)行在Xeon Phi上,340.6倍于運(yùn)行串行化代碼的6核至強(qiáng)E5-2600。但當(dāng)至強(qiáng)E5運(yùn)行的代碼也經(jīng)過(guò)并行化編譯之后,這個(gè)倍數(shù)(Xeon Phi對(duì)E5-2600)就急劇下降到2.3。
單Xeon Phi 協(xié)處理器(右側(cè))對(duì)雙至強(qiáng)E5(左側(cè))的性能提升
英特爾旨在說(shuō)明,像Xeon Phi這樣的高度并行設(shè)備需要高度并行編程,而至強(qiáng)E5這樣的(普通并行)處理器也可以從中獲益。并行時(shí)代,本來(lái)就要并行編程。James Reinders拋出了一個(gè)問題:你想用同樣的語(yǔ)言、并行編程模型和類似的工具來(lái)滿足高度并行的需求么?
另一些情況下,Xeon Phi 協(xié)處理器帶來(lái)的性能提升可達(dá)10倍
TACC的Jay Boisseau認(rèn)為,用戶都想不用付出(改變代碼)就獲得性能躍升,但當(dāng)他們(為了提升性能)做了不愿做的事,還被鎖定在特定的硬件架構(gòu)(指GPU)會(huì)怎樣?至強(qiáng)Phi在通用并行計(jì)算的每瓦性能上還是不好,但很大程度上解決了硬件特定編碼的問題,可以用Fortran、C、C++,編程不受限制。至強(qiáng)Phi運(yùn)行串行應(yīng)用會(huì)慢,所以要搭配至強(qiáng)E5工作。
總之,Xeon Phi結(jié)合了高級(jí)的性能和標(biāo)準(zhǔn)CPU編程模型的好處,這是Stampede系統(tǒng)選擇它與至強(qiáng)E5組合的主要原因。
至強(qiáng)CPU與Xeon Phi 協(xié)處理器搭配工作的幾種情況
每個(gè)用戶,選擇一個(gè)特定的解決方案,總有其充足的理由。至于不遠(yuǎn)的將來(lái),至強(qiáng)CPU與Xeon Phi協(xié)處理器的搭配,能否在Top500排行榜上擊敗CPU + GPU的組合,乃至登上王座,不是我能判斷出來(lái)的。
我的看法是,大數(shù)據(jù)雖然有被炒爛之虞,但英特爾將大數(shù)據(jù)作為并行計(jì)算的范例,甚至與HPC聯(lián)系在一起,未必只是心血來(lái)潮,亂搭熱門概念的順風(fēng)車。Xeon Phi真正投入市場(chǎng)也要2013年初了,短時(shí)間內(nèi)很難與在傳統(tǒng)HPC領(lǐng)域已有相當(dāng)積累的CPU + GPU組合架構(gòu)爭(zhēng)鋒(分走一塊市場(chǎng)還是可以的)。可是,在范圍更為廣闊的大數(shù)據(jù)領(lǐng)域,特別是大量采用英特爾至強(qiáng)平臺(tái)搭建Hadoop集群的互聯(lián)網(wǎng)服務(wù)市場(chǎng),Xeon Phi(較之GPU)在兼容性上的優(yōu)勢(shì)可能頗具吸引力。如果這個(gè)市場(chǎng)接受了英特爾的理念,也許會(huì)在(廣義的)HPC市場(chǎng)起到“農(nóng)村包圍城市”的效果……
類似的事情,英特爾以前做到過(guò),ARM正在做,未來(lái)?就交給未來(lái)吧,瞎猜就此打住。