目前MemVerge從軟件的角度,對于CXL兩種應用模式提供支持,一種是服務器內(nèi)存擴展;另外一種方式是通過CXL Switch交換機提供的CXL內(nèi)存共享。在這樣模式中,Memverge軟件提供的主要功能包括內(nèi)存監(jiān)控、延遲以及帶寬的QoS,針對第二種模式,除了監(jiān)控能力之外,Memverge提供稱為GISMO(全局免 IO 共享內(nèi)存對象系統(tǒng))功能服務,它基于 CXL多服務器共享內(nèi)存架構,突破了分布式環(huán)境中數(shù)據(jù)訪問和協(xié)作的界限。通過無縫集成 CXL 技術,Gismo 實現(xiàn)了跨多服務器的實時數(shù)據(jù)共享,消除網(wǎng)絡 IO 瓶頸的同時,也減少了數(shù)據(jù)傳輸延遲。

在演講中,趙玥介紹了FlexGen如何在資源有限的單GPU情況下,處理高吞吐量的語言模型推理任務,其核心就是利用大量CPU內(nèi)存或硬盤空間,從而解決GPU HBM內(nèi)存比較小的限制。在FlexGen應用中,使用CXL內(nèi)存擴展,其效果顯著。

CXL對于AI/ML負載的價值,可以歸結為幾點:一是內(nèi)存更加適配一些數(shù)據(jù)集;二是消除存儲或者網(wǎng)絡I/O的影響。在此,Memverge提供的Memory Machine軟件能夠透明管理好DRAM和CXL Memory內(nèi)存。

在演講中,趙玥也介紹了一些CXL Memory內(nèi)存配置管理的方法和思路。

這是Memverge Gismo和Ray的解決方案,其中,Ray 是一個開源的統(tǒng)一計算框架,主要用于擴展人工智能(AI)和 Python 工作負載,涉及強化學習到深度學習、超參數(shù)調(diào)優(yōu)、模型服務等內(nèi)容。趙玥在此分享了很多技術細節(jié),受技術水平的限制,我們沒有辦法一一展示出來,感興趣的讀者可以通過2024全球閃存峰會的官方網(wǎng)站,回看有關視頻內(nèi)容。

(本文未經(jīng)演講人審閱)

分享到

songjy

相關推薦