1

公有云底座面臨的問題

三大核心問題揭露發(fā)展目標

(一)算力增長不匹配

過去五年,算力規(guī)模增長4-8倍,但云廠商單個計算實例(虛擬機、容器)增長僅2-3倍,增長速度滯后于整體算力規(guī)模。

(二)資源不均問題突出

在公有云云基礎(chǔ)設(shè)施領(lǐng)域,普遍存在云服務(wù)器資源售賣不均衡問題,部分資源池CPU售賣高但內(nèi)存空閑多。同時,不同類型主機售賣不均,如裸金屬集群暢銷,而通算產(chǎn)品滯銷,導(dǎo)致資源碎片化問題嚴重。

(三)超大規(guī)格計算實例需求難滿足

SAP HANA數(shù)據(jù)庫需求:SAP HANA數(shù)據(jù)庫對內(nèi)存需求大,是本地磁盤的4倍,需要6TB、12TB等大規(guī)格內(nèi)存。央國企及大型企業(yè)的財務(wù)分析、報表系統(tǒng)多依賴該數(shù)據(jù)庫。目前,SAP HANA頭部廠商采用AWS多路服務(wù)器方案,提供12T-32TB內(nèi)存實例,但價格昂貴。

大數(shù)據(jù)集群需求:行業(yè)大數(shù)據(jù)集群單節(jié)點多為96C、768G,大規(guī)模集群運維成本高。聚合計算若能擴大單節(jié)點規(guī)模,可減少集群數(shù)量,降低運維成本。

高頻交易場景需求:股票交易中,每只股票數(shù)據(jù)需獨立處理,單節(jié)點核數(shù)多、內(nèi)存大可降低量化交易集群時間成本,增加收入。

總結(jié)來看,當前數(shù)據(jù)中心面臨的核心挑戰(zhàn)集中體現(xiàn)在“內(nèi)存墻”“IO墻”的性能瓶頸以及公有云資源碎片化帶來的效率損失。針對內(nèi)存墻問題,行業(yè)形成兩條主流技術(shù)路徑:一是基于開放生態(tài)的CXL 1.0/1.1標準,通過內(nèi)存擴展實現(xiàn)跨節(jié)點容量突破;二是依托華為高速互聯(lián)架構(gòu),支持多節(jié)點間內(nèi)存動態(tài)調(diào)度借用。對于IO墻,核心思路是利用CXL總線特性重構(gòu)通信模式——傳統(tǒng)跨節(jié)點數(shù)據(jù)搬遷可通過內(nèi)存池化大幅縮減,但當前實踐依賴軟件層維護緩存一致性(Cache Coherency, CC),需頻繁刷新內(nèi)存導(dǎo)致效率折損。該問題將在CXL 3.0硬件級CC支持及未來華為互聯(lián)技術(shù)落地后得到根本性解決。而資源碎片的根治方案明確指向池化架構(gòu),CXL 2.0標準已為此提供內(nèi)存池化與共享的技術(shù)基礎(chǔ)。

2

Scale Up行業(yè)發(fā)展趨勢:

多元化的產(chǎn)品格局

在技術(shù)產(chǎn)業(yè)化層面,Scale Up生態(tài)呈現(xiàn)多元化產(chǎn)品格局:聯(lián)想ThinkServer率先實現(xiàn)GPU與CXL內(nèi)存的硬件級集成,兼具通算超算與AI推理能力;阿里云推出CXL powered PolarDB數(shù)據(jù)庫,通過內(nèi)存解耦降低TCO;超節(jié)點系統(tǒng)領(lǐng)域,英偉達GB200/GB300、天翼云與超聚變合作的直連式內(nèi)存池方案(支持6-10TB擴展)、浪潮及新華三的國產(chǎn)化CXL方案共同推動架構(gòu)革新;公有云服務(wù)商則競相推出超大內(nèi)存實例,如AWS 32TB規(guī)格、華為8TB實例及阿里云3TB產(chǎn)品,滿足企業(yè)級內(nèi)存密集型應(yīng)用需求。

艾天翔先生表示過去五年CXL相關(guān)論文與專利量增長超200%,分離式資源池化研究同步攀升。產(chǎn)業(yè)界創(chuàng)新實踐取得突破性進展——天璣實驗室驗證CXL替代UDP通信可使QPS提升8倍,阿里云實現(xiàn)CXL總線對RPC的替代。

關(guān)鍵技術(shù)成熟度分析顯示:英特爾IFMM技術(shù)通過硬件級內(nèi)存交換將訪問時延壓縮至130毫秒,達到近本地內(nèi)存性能;CXL獨立核擴展及多主機頭直連架構(gòu)已具備商用成熟度;開放互聯(lián)協(xié)議中CXL/UCIe(UALink)生態(tài)進展領(lǐng)先,而NVLink、華為互聯(lián)及字節(jié)ETHLink等封閉方案尚未開放生態(tài)接口。

行業(yè)發(fā)展趨勢呈現(xiàn)三大特征:其一,國產(chǎn)高速互聯(lián)生態(tài)進入全棧自主攻堅期;其二,技術(shù)迭代與商業(yè)落地同步加速,超大內(nèi)存實例逐步覆蓋企業(yè)場景;其三,跨產(chǎn)業(yè)協(xié)同成為破局關(guān)鍵,亟需芯片商、設(shè)備商與云服務(wù)商共建生態(tài)。

三、天翼云聚合計算的解題思路

架構(gòu)選擇:分布式架構(gòu)有Split Architecture(分布式對等架構(gòu))和Pooled Architecture(池化架構(gòu))兩種。天翼云認為未來數(shù)據(jù)中心將以交換為中心,構(gòu)建資源池,包括計算池、內(nèi)存池、異構(gòu)加速池等,以解決資源利用率低和“墻稅”問題。未來天翼云作為云服務(wù)提供商,將同時兼容兩種架構(gòu)。

建設(shè)Scale Up能力:Rack內(nèi)Scale Up方案主要有CXL2.0、UALink、NVLink;跨Rack技術(shù)目前成熟的是RDMA網(wǎng)絡(luò),2026年UALink、光互聯(lián)等有望成熟。國內(nèi)央國企面臨非國產(chǎn)化設(shè)備采購難題,國產(chǎn)化設(shè)備生態(tài)進展緩慢,總線交換機商業(yè)化條件不足。

聚合計算平臺核心技術(shù):

此外艾天翔先生披露了聚合計算產(chǎn)品規(guī)劃:

他講到聚合計算提出要做三款產(chǎn)品,第一是超聚合服務(wù)器,可以把分布式的數(shù)據(jù)中心聚合成超大的服務(wù)器,比如說多多個物理節(jié)點的CPU聚合成超大的虛擬機,以滿足客戶多樣化需求。第二,內(nèi)存即服務(wù),把內(nèi)存做成像磁盤一樣可插拔的形態(tài)。第三可以通過零數(shù)據(jù)拷貝的總線通信給整個計算集群進行加速。

英特爾IFMM技術(shù)測試:英特爾IFMM技術(shù)通過硬件交換降低遠端內(nèi)存訪問時延,無需軟件搬遷。測試結(jié)果顯示,開啟IFMM后,內(nèi)存時延與純本地DRAM相當,平均約170納秒,帶寬也與純本地DRAM相當。

性能測試:在小負載情況下,開啟IFMM后性能比純本地DRAM配置提升2—7個百分點;讀取操作性能優(yōu)秀,吞吐量可達35萬QPS,時延1.8毫秒。

成本與內(nèi)存利用率分析:與AWS多路服務(wù)器方案相比,聚合計算方案成本顯著降低。6TB產(chǎn)品成本從103萬降至60萬,12TB產(chǎn)品成本從220萬降至120萬。同時,與傲騰方案相比,聚合計算方案內(nèi)存利用率提升17%。

結(jié)語:

當前國產(chǎn)CXL高速互聯(lián)技術(shù)生態(tài)涵蓋應(yīng)用軟件、基礎(chǔ)軟件、服務(wù)器廠商、CXL芯片、控制器和CPU等多個環(huán)節(jié)。目前基礎(chǔ)軟件主要由國外廠商主導(dǎo),國內(nèi)尚未開放。天翼云希望更多廠商加入,共同推動國產(chǎn)CXL生態(tài)發(fā)展,解決設(shè)備采購難題,實現(xiàn)技術(shù)自主可控。

天璣實驗室在通算超算Scale Up技術(shù)上的探索與實踐,為解決公有云底座面臨的問題提供了創(chuàng)新思路和解決方案。通過聚合計算架構(gòu)和核心技術(shù)的研究,以及實驗論證和成本分析,證明了聚合計算方案的有效性和優(yōu)越性。未來,天翼云將繼續(xù)與產(chǎn)業(yè)界合作,推動國產(chǎn)CXL高速互聯(lián)技術(shù)生態(tài)的發(fā)展,為云計算行業(yè)的發(fā)展貢獻力量。

分享到

lixiangjing

算力豹主編

相關(guān)推薦