這是全球首款基于CXL(Compute Express Link)2.0 Switch技術(shù)的PolarDB數(shù)據(jù)庫專用服務(wù)器,在英特爾至強(qiáng)6處理器的支持下,它用CXL技術(shù)替代了原來的RDMA網(wǎng)絡(luò)。在相同配置下,與本地內(nèi)存相比,阿里云PolarDB數(shù)據(jù)庫的擴(kuò)展性可提升16倍。

阿里云跟英特爾聯(lián)手打造的這臺內(nèi)存池化的數(shù)據(jù)庫專用服務(wù)器,不僅讓PolarDB數(shù)據(jù)庫變得更強(qiáng)了,還讓云計(jì)算的彈性和效率實(shí)現(xiàn)新突破,這是如何做到的呢?

PolarDB基于CXL的硬件大升級,帶來三大變化

PolarDB是阿里云自研的云原生關(guān)系型數(shù)據(jù)庫,既擁有分布式架構(gòu)的低成本優(yōu)勢,又能像集中式數(shù)據(jù)庫那樣簡單易用。此外,PolarDB采用存算分離的架構(gòu),因此有更高的彈性和靈活性,軟硬一體化設(shè)計(jì)則提供了很高的性能和穩(wěn)定性。

阿里云在PolarDB上有很多敢為人先的創(chuàng)新,在2018年就宣稱成為全球首個(gè)使用了RDMA技術(shù)和傲騰技術(shù)的云數(shù)據(jù)庫。用RDMA解決了遠(yuǎn)程節(jié)點(diǎn)數(shù)據(jù)訪問延遲高的問題,同時(shí)搭配傲騰SSD的性能優(yōu)勢,提高了PolarDB的性能和穩(wěn)定性表現(xiàn)。

如今,PolarDB儼然是非常成功的云原生數(shù)據(jù)庫產(chǎn)品,已經(jīng)規(guī)?;瘧?yīng)用于政務(wù)、金融、電信、物流、互聯(lián)網(wǎng)等領(lǐng)域的核心業(yè)務(wù)系統(tǒng)。用戶數(shù)已突破10000家,包括友邦保險(xiǎn)、米哈游、飛鶴等知名企業(yè)。

最近,阿里云對支撐PolarDB的硬件進(jìn)行了一次升級,并發(fā)布了PolarDB磐久CXL內(nèi)存池化服務(wù)器,服務(wù)器里用CXL 2.0技術(shù)搭配CXL交換機(jī),替代原來的RDMA技術(shù)方案,配合阿里云自研的CXL內(nèi)存模塊和持久內(nèi)存模塊,帶來了三大變化。

首先,構(gòu)建了基于CXL的分布式內(nèi)存池,內(nèi)存資源使用效率大幅提升。

PolarDB磐久CXL內(nèi)存池化服務(wù)器采用了英特爾至強(qiáng)6處理器,該處理器支持用CXL交換機(jī)讓多臺服務(wù)器連接到一個(gè)JBOM內(nèi)存池節(jié)點(diǎn),節(jié)點(diǎn)中有AliMemory內(nèi)存模組和AliSCM模塊。于是,多臺服務(wù)器就能共享一個(gè)內(nèi)存資源池。

以前數(shù)據(jù)庫每臺服務(wù)器都要自備大量本地主板上的內(nèi)存來放緩存數(shù)據(jù),現(xiàn)在有了CXL,就可以把這些數(shù)據(jù)都集中到CXL內(nèi)存池里。這樣每臺機(jī)器只要留一點(diǎn)點(diǎn)本地內(nèi)存就夠了,既節(jié)省了內(nèi)存資源,管理起來也更省心。

第二,它采用了非易失性內(nèi)存,可實(shí)現(xiàn)數(shù)據(jù)庫的快速恢復(fù)。

過去數(shù)據(jù)庫服務(wù)器宕機(jī)了,DRAM里的數(shù)據(jù)一斷電就全沒了,重啟后重建緩存的速度會很慢。現(xiàn)在,借助CXL加上阿里自研的AliSCM持久內(nèi)存,能讓服務(wù)器重啟重新訪問到之前的數(shù)據(jù),不用重建緩存,大幅節(jié)省了重啟時(shí)間。

第三,它還帶來了多主數(shù)據(jù)共享,數(shù)據(jù)同步效率大大提升。

以前每個(gè)數(shù)據(jù)庫節(jié)點(diǎn)都要自己拷貝一份數(shù)據(jù),像是每個(gè)人都復(fù)印一份資料,既浪費(fèi)又要經(jīng)常比對更新?,F(xiàn)在在CXL內(nèi)存池里,大家直接看同一本原件,就像在線文檔一樣,不需要拷貝,有任何更改,所有人都能同時(shí)訪問,協(xié)作效率大大提高。

英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國區(qū)總經(jīng)理陳葆立

阿里云在CXL技術(shù)應(yīng)用上的創(chuàng)新均屬于業(yè)界首創(chuàng)。英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國區(qū)總經(jīng)理陳葆立表示,阿里是首個(gè)完全使用CXL 2.0規(guī)范,最大化利用CXL技術(shù)的客戶,不僅是中國領(lǐng)先,也是全球領(lǐng)先,這是雙方團(tuán)隊(duì)共同努力的成果。

CXL幫助云數(shù)據(jù)庫真正實(shí)現(xiàn)了計(jì)算、內(nèi)存、存儲的全解耦

在2025年的云棲大會上,阿里云數(shù)據(jù)庫產(chǎn)品管理與技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)在介紹PolarDB時(shí)提到,PolarDB作為云原生數(shù)據(jù)庫,最大的特點(diǎn)就是資源池化和資源解耦,而CXL幫助云數(shù)據(jù)庫真正實(shí)現(xiàn)了“計(jì)算、內(nèi)存、存儲”的全解耦。

阿里云數(shù)據(jù)庫產(chǎn)品管理與技術(shù)架構(gòu)部負(fù)責(zé)人王遠(yuǎn)

這一做法得到業(yè)內(nèi)的高度評價(jià)。幾個(gè)月前,阿里云PolarDB憑借全球首創(chuàng)的基于CXL Switch的分布式內(nèi)存池技術(shù),在SIGMOD 2025上再度斬獲工業(yè)賽道“最佳論文獎(jiǎng)”,得獎(jiǎng)?wù)撐难芯坎⑻岢隽嘶贑XL協(xié)議的分布式內(nèi)存池架構(gòu)PolarCXLMem。

SIGMOD評審委員會的專家點(diǎn)評稱:“該論文基于CXL互聯(lián)技術(shù),提供了實(shí)用可行的內(nèi)存解耦設(shè)計(jì)方案,并成功集成到云數(shù)據(jù)庫真實(shí)業(yè)務(wù)的生產(chǎn)環(huán)境,體現(xiàn)了從理論創(chuàng)新到工程實(shí)踐的完美結(jié)合,是極具價(jià)值的研究課題?!?/p>

從王遠(yuǎn)的介紹中了解到,RDMA雖然能實(shí)現(xiàn)遠(yuǎn)程內(nèi)存訪問,但訪問方式與訪問本地內(nèi)存不同,復(fù)雜性更高和性能會受影響。而CXL提供了內(nèi)存訪問語義,讓遠(yuǎn)程內(nèi)存和本地內(nèi)存的訪問方式進(jìn)行統(tǒng)一,這會讓開發(fā)變得更簡單,讓數(shù)據(jù)庫性能更穩(wěn)定。

而且,構(gòu)建這樣的內(nèi)存資源池之后,PolarDB的計(jì)算節(jié)點(diǎn)就可以不保存數(shù)據(jù),每個(gè)計(jì)算節(jié)點(diǎn)變成了無狀態(tài)的。這樣做的好處是在進(jìn)行節(jié)點(diǎn)切換時(shí),不用再進(jìn)行恢復(fù)數(shù)據(jù)等操作,直接直接使用遠(yuǎn)程內(nèi)存,切換時(shí)間大大縮短,用戶體驗(yàn)也會更好。

此外,從RDMA升級為CXL,構(gòu)建了共享的內(nèi)存資源池之后,讓數(shù)據(jù)庫服務(wù)器突破了單機(jī)內(nèi)存的限制,擴(kuò)展能力更強(qiáng),從而能支撐更大的業(yè)務(wù)需求。

王遠(yuǎn)解釋了這一創(chuàng)新對云計(jì)算發(fā)展的意義。云計(jì)算依賴的三個(gè)核心是資源解耦、資源池化、以及在此基礎(chǔ)上的規(guī)?;\(yùn)營。解耦讓資源使用更靈活,池化則讓運(yùn)營可以更高效、規(guī)模更大。這條原則幾乎貫穿了云上所有軟硬件,尤其是PaaS軟件。

按照這個(gè)原則,數(shù)據(jù)庫也必須解耦計(jì)算、內(nèi)存、存儲才能發(fā)揮最佳性能。但要實(shí)現(xiàn)解耦,底層硬件的高速互連能力必須跟上。阿里云從RDMA開始,到現(xiàn)在用CXL技術(shù),他們一直追求軟硬結(jié)合,讓硬件創(chuàng)新推動軟件能力提升。

王遠(yuǎn)強(qiáng)調(diào),這也是阿里云與英特爾在技術(shù)上高度契合的原因之一,他們非常樂于嘗試硬件層面的新技術(shù)帶來的軟件創(chuàng)新。

阿里云瑤池?cái)?shù)據(jù)庫面向AI場景的優(yōu)化

王遠(yuǎn)表示,隨著智能體的興起,未來訪問數(shù)據(jù)庫的主體將不再局限于人類和固定應(yīng)用,而是數(shù)量更龐大、種類更多元、調(diào)用時(shí)間更隨機(jī)的智能體。這對數(shù)據(jù)庫的架構(gòu)、資源管理能力提出了更高要求,而CXL正是支撐這一切的基礎(chǔ)。

有了CXL內(nèi)存池加持的PolarDB,能在OLTP場景上用更強(qiáng)的彈性能力來應(yīng)對AI Agent帶來的挑戰(zhàn)。而在OLAP場景上,憑借靈活的內(nèi)存調(diào)度能力,既能提升大內(nèi)存分析的性能,同時(shí)又能降低成本。王遠(yuǎn)介紹稱,這些都已經(jīng)在生產(chǎn)環(huán)境中發(fā)揮作用。

阿里云智能集團(tuán)服務(wù)器研發(fā)高級技術(shù)專家黃濤在云棲大會的英特爾專場中提到,在AI場景中,經(jīng)常會把CPU內(nèi)存拿來給GPU當(dāng)緩存,或者把多臺CPU的內(nèi)存通過RDMA連接成一個(gè)共享池,但這種方案在AI大模型時(shí)代難以滿足更大規(guī)模的內(nèi)存擴(kuò)展。

阿里云通過引入CXL技術(shù),把多種內(nèi)存資源池化。除了傳統(tǒng)DRAM內(nèi)存以外,還能接入阿里自研的AliSCM,構(gòu)建一個(gè)性能更強(qiáng)、容量更大的統(tǒng)一內(nèi)存池,為AI訓(xùn)練和推理提供更高效的中間層存儲。

更有意思的是,阿里云的PolarDB也做了面向AI場景的優(yōu)化。王遠(yuǎn)介紹稱,數(shù)據(jù)庫正在從傳統(tǒng)的在線事務(wù)處理(OLTP)、分析處理(OLAP),邁向新的推理處理(OLIP)場景,這要求硬件具備更強(qiáng)大的向量與矩陣計(jì)算能力。

而英特爾至強(qiáng)處理器所支持的AMX加速器以及AVX-512指令集為此提供了加速支持,使數(shù)據(jù)庫能夠在內(nèi)部直接整合AI模型的能力,將推理計(jì)算與數(shù)據(jù)緊密結(jié)合,幫助企業(yè)更高效地挖掘數(shù)據(jù)價(jià)值。阿里云這次創(chuàng)新選擇英特爾至強(qiáng)的原因還不止于此。

最新的英特爾至強(qiáng)6性能核處理器(P-core 系列),不僅擁有多達(dá)128個(gè)性能核,還有最高504MB的超大L3緩存。更大的L3緩存能讓數(shù)據(jù)庫查詢和事務(wù)處理更快,減少訪問主內(nèi)存的次數(shù),從而降低延遲、提高吞吐量。

陳葆立表示,英特爾與阿里云的合作已有15年之久。除了至強(qiáng)處理器硬件以外,英特爾還與阿里云軟件團(tuán)隊(duì)深度合作,在AI加速、數(shù)據(jù)處理指令集優(yōu)化等方面合作,讓處理器性能得到最大化發(fā)揮。非常慶幸能與阿里云這樣的技術(shù)領(lǐng)先者一直攜手同行。

分享到

zhupb

相關(guān)推薦