中國科學(xué)院計算技術(shù)研究所高級工程師 賈海鵬
中國信息通信研究院發(fā)布的“2021云計算十大關(guān)鍵詞”里也提到,我國的數(shù)字經(jīng)濟也逐步向人工智能、智能芯片、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等“算力依賴型”產(chǎn)業(yè)聚焦。云上算力從計算資源、網(wǎng)絡(luò)資源、存儲資源三個維度不斷豐富增強,云端高性能算力的大規(guī)模調(diào)度更為便捷、提供的算力形式更加多樣化、運行任務(wù)透明、觸達更多的應(yīng)用。在此形勢下,云端高性能市場逆勢上漲。
高性能計算的靈魂——從“芯“開始的服務(wù)器算力提升
當對高性能計算有需求的企業(yè)類型已經(jīng)不僅限于那些深度學(xué)習(xí)、科研、金融以及國家超算用戶時,算力投資將成為數(shù)據(jù)中心領(lǐng)域需求的最新變量。
云計算服務(wù)提供商可提供的服務(wù)分為存儲和計算兩大類。過去,存儲服務(wù)占據(jù)很大比例,現(xiàn)在這一狀況將會隨著算力的旺盛需求和各行各業(yè)務(wù)類型、應(yīng)用場景的不斷豐富,向高性能計算服務(wù)傾斜。
要想提升數(shù)據(jù)中心的算力,通常情況下,一是擴充服務(wù)器集群數(shù)量,二是提升單臺服務(wù)器算力,而CPU又是決定服務(wù)器算力的關(guān)鍵。因此很顯然,“芯片“和”服務(wù)器“作為高性能系統(tǒng)的靈魂組成部分,在實現(xiàn)高性能計算中起著決定性的作用。
既然說到服務(wù)器的“芯”,就不得不提AMD的EPYC霄龍服務(wù)器處理器。
應(yīng)該說,算力經(jīng)濟時代終于又給了在數(shù)據(jù)中心市場沉寂多年的AMD絕地反擊的絕佳機遇。2017年,AMD以“Zen”架構(gòu)的EPYC霄龍服務(wù)器處理器回歸服務(wù)器市場,為現(xiàn)代數(shù)據(jù)中心的高性能X86服務(wù)器注入了強大動力,高調(diào)重返數(shù)據(jù)中心高性能計算賽道。時隔兩年,AMD又以“Zen 2”架構(gòu)的第二代霄龍(代號“羅馬”)首次將7nm先進制程帶入數(shù)據(jù)中心市場。2021年3月,AMD發(fā)布采用“Zen3”架構(gòu)的第三代EPYC霄龍服務(wù)器處理器,代號“米蘭”。
從第一代到第三代,AMD在微架構(gòu)、制程工藝、核心數(shù)等方面,為業(yè)界帶來了渴望已久的、堪稱及時雨的高性能解決方案,因為它已經(jīng)突破了x86性能和計算能力的界限。
作為AMD中國區(qū)商用事業(yè)部系統(tǒng)的架構(gòu)師,石汝磊認為,實現(xiàn)高性能計算的三大關(guān)鍵要素:一是線程數(shù)要足夠多,二是內(nèi)存帶寬足夠大,三是3D緩存。
AMD中國區(qū)商用事業(yè)部系統(tǒng)架構(gòu)師 石汝磊
AMD EPYC處理器在這三方面都有著突破性的創(chuàng)新。它能夠提供超高的核心數(shù)量和內(nèi)存帶寬,包括PCIe 4.0接口。比如一顆芯片里64個核,在一臺標準的服務(wù)器已經(jīng)可以做到128個核心,超線程下可以達到256個,每一顆芯片可以支持8個內(nèi)存通道,隨之而來的就是一臺服務(wù)器可以有16個內(nèi)存通道。而AMDZen 3架構(gòu)的處理器均擁有容量高達256MB的三級緩存。
服務(wù)器承載的關(guān)鍵任務(wù)
“如何把如此強大的CPU的能力在服務(wù)器上發(fā)揮出來?這不是一個簡單的集成問題。”戴爾科技集團大中華區(qū)服務(wù)器產(chǎn)品高級經(jīng)理秦建豐如此說。
戴爾科技集團大中華區(qū)服務(wù)器產(chǎn)品高級經(jīng)理 秦建豐
為了將AMD打造的前所未有的“芯”速度完全發(fā)揮出來,戴爾科技集團為此進行了全新的服務(wù)器架構(gòu)和主板設(shè)計,目的就是要把霄龍?zhí)幚砥鞯母咝阅馨l(fā)揮到極致。比如,利用AMD EPYC處理器提供的供創(chuàng)紀錄的浮點性能,在戴爾易安信PowerEdge系列服務(wù)器上實現(xiàn)更強的計算速度和性能,并且提高結(jié)構(gòu)分析性能。由于PowerEdge平臺上使用最新EPYC(霄龍)處理器,支持最新的PCIe Gen4.0,對于高性能計算的GPU/FPGA等關(guān)鍵部件,PowerEdge系列服務(wù)器可以提供比同類產(chǎn)品更高的內(nèi)存速度和I/O帶寬,以實現(xiàn)超強的HPC負載。
戴爾易安信PowerEdge系列服務(wù)器不僅發(fā)揮了AMD EPYC處理器的全部潛力,更優(yōu)化了在虛擬化、軟件定義存儲、數(shù)據(jù)分析、高性能計算等工作負載方面的性價比,從而降低企業(yè)客戶總體擁有成本。更重要的它可以與云平臺無縫接入,滿足了企業(yè)在多云方面的需求。Dell服務(wù)器的強大管理特性是PowerEdge服務(wù)器三大優(yōu)勢之一。
戴爾科技集團的HPC/HPDA基礎(chǔ)架構(gòu),則可以提供管理節(jié)點/登錄節(jié)點、計算節(jié)點、管理網(wǎng)絡(luò)/IO網(wǎng)絡(luò)、存儲、集群管理軟件/任務(wù)調(diào)度軟件等等。
戴爾科技集團為北京超級云計算中心打造的攜彈性超算云服務(wù)平臺,就使用了搭載AMD第二代霄龍?zhí)幚砥鞯姆?wù)器。三方攜手打造出了中國HPC TOP100排名第三,通用算力超過10PFlops,通用CPU算力市場排名第一的超級云計算平臺。
“即服務(wù)模式”讓你離高性能云計算更近一步
如文章前面所說,雖然高性能計算的云服務(wù)商對外開放了一些商用入口,但是這項服務(wù)要想如通用云計算一樣普惠大眾,還受到一些條件的限制和影響。
賈海鵬認為異構(gòu)重核會成為未來高性能計算的主流,但同時異構(gòu)也帶來了相應(yīng)的問題,比如在異構(gòu)平臺上如何編程,如何優(yōu)化,這對應(yīng)用是一個巨大挑戰(zhàn)。所以,高性能云計算服務(wù)要想普惠大眾,有三方面的問題噬待解決:一、算力使用的標準接口,讓用戶能夠屏蔽掉底層架構(gòu)的差異,通過計算平臺把不同的任務(wù)自動部署到不同的處理器上;二是,算力是否能有更友好的的量化方法,就如同使用電力一樣讓用戶只關(guān)心使用量;三是降低算力的成本。
對此,石汝磊也談到,AMD也在積極開拓創(chuàng)新前沿陣地來提升性能并降低對新技術(shù)的學(xué)習(xí)難度。比如采用“chiplet”方法設(shè)計CPU解決異構(gòu)問題,用3D堆疊技術(shù)在一顆CPU上不斷疊加核心數(shù)量等等。
我們知道,通常服務(wù)器必須達到兩路才可以克服資源不平衡的難題,現(xiàn)在,搭載AMD EPYC霄龍?zhí)幚砥鞯拇鳡栆装残臥owerEdge系列服務(wù)器單路服務(wù)器也可以滿足之前需要選用二路服務(wù)器才能完成的多項工作負載需求。PowerEdge服務(wù)器采用了PCIe Gen 4.0的,服務(wù)器I/O吞吐性能更加強勁,每臺服務(wù)器最多可配六個GPU加速器,可支持最具挑戰(zhàn)性的數(shù)據(jù)密集型工作負載,成為低成本高算力的上佳之選。
我們再以戴爾聯(lián)手AMD為北京超級云計算中心打造的超算云服務(wù)平臺為例,來看看如何降低算力的成本問題。
北京超級云計算有限責任公司總經(jīng)理吳迪認為,對于通用超算市場的用戶來說,整體計算規(guī)模相對較小,更多的是在萬核以下的中小企業(yè)用戶。他們對性價比、整體服務(wù)質(zhì)量,以及使用的靈活度要求較高,這就需要市場化、商業(yè)化的超算服務(wù)為其提供高性價比、高質(zhì)量的云化能力。
北京超級云計算中心的這個超算云服務(wù)平臺,就是要滿足中小科研企業(yè)對超算的需求。對戴爾科技集團這樣的服務(wù)器提供商來說,如何在保障算力的前提下降低采購成本和管理成本亦是關(guān)鍵。
因此,戴爾科技集團為其提供了搭戴AMD EPYC霄龍?zhí)幚砥鳌⒕邆涓叨瓤蓴U展特性的戴爾易安信PowerEdge系列服務(wù)器,針對不同的應(yīng)用需求進行靈活配置。比如,Dell EMC PowerEdge R6525是一種高度可配置的雙插槽1U機架式服務(wù)器,可為高密度計算環(huán)境提供卓越的平衡性能和創(chuàng)新功能,非常適合傳統(tǒng)和新興的工作負載和應(yīng)用程序,如高性能計算(HPC)、高密度CDI和虛擬化等。而Dell EMC PowerEdge R6525則是為計算密集型需求而生,幫助提高數(shù)據(jù)中心性能,輕松應(yīng)對各種高性能計算(HPC)工作負載和應(yīng)用程序,如數(shù)字制造、研究、Web技術(shù)等。
除此之外,通過Dell EMC OpenManage Enterprise,PowerEdge服務(wù)器和系統(tǒng)管理平均可節(jié)省高達85%的時間,并通過自動化消除幾十個步驟。
通過戴爾科技集團的多類型服務(wù)器和統(tǒng)一管理軟件這種均衡的性價比配置,讓北京超級云計算中心降低了服務(wù)器的固定成本及運維成本,可以為廣大有超算需求的中小企業(yè)用戶持續(xù)提供高性價比的計算資源。
此外,現(xiàn)在戴爾科技集團還提供了服務(wù)器、存儲、數(shù)據(jù)保護和超融合基礎(chǔ)架構(gòu)的APEX“即服務(wù)”模式,也就是說,客戶可選擇自己想要的產(chǎn)品和服務(wù),并僅需為其使用量付費,同時還可以隨需擴大和縮小資源的使用。
如賈海鵬在談到當前高性能計算應(yīng)用趨勢時所說,當算力可以成為一種可以量化的計算資源時,算力經(jīng)濟將會登上歷史的舞臺。相信在多方力量的聯(lián)合和共同推動下,高性能計算云服務(wù)也會如今天的通用云計算一般觸手可及。