本次MLPerf? Storage v2.0參測企業(yè)(來源:MLCommons)
MLPerf? Storage v2.0在2023年0.5版本及2024年1.0版本6個(gè)訓(xùn)練場景的基礎(chǔ)上,增加了4個(gè)基于不同規(guī)模llama3模型的checkpoint測試場景,覆蓋了從樣本加載、checkpoint保存與恢復(fù)等常見模型訓(xùn)練場景的工作負(fù)載,全面測評圖像識別、科學(xué)計(jì)算等領(lǐng)域人工智能應(yīng)用的存儲需求,確保評測結(jié)果具有廣泛的現(xiàn)實(shí)參考意義。
MLPerf? Storage v2.0 針對A100和H100兩種GPU分別定義了3D Unet 、ResNet50和CosmoFlow 3個(gè)模型下總計(jì)6類訓(xùn)練測試場景,從下表中可以看到每個(gè)測試場景的模型簡介、訓(xùn)練框架及測試條件等關(guān)鍵信息:
MLPerf? Storage v2.0中新增了4個(gè)Checkpoint測試場景,用于模擬 AI 模型訓(xùn)練過程中的模型checkpoint保存與恢復(fù)工作負(fù)載。這些測試場景聚焦于checkpoint高帶寬寫入和讀取性能,覆蓋了不同規(guī)模模型訓(xùn)練中常見的I/O模型,從下表中可以看到每個(gè)測試場景的參數(shù)規(guī)模、checkpoint測試數(shù)據(jù)量和典型場景等關(guān)鍵信息:
同時(shí),為了保證測試結(jié)果的準(zhǔn)確性和權(quán)威性,MLPerf? Storage v2.0制定了極其嚴(yán)格的測試準(zhǔn)則,包括:
1. 高 GPU 利用率
·v2.0更加強(qiáng)調(diào)在訓(xùn)練任務(wù)中存儲系統(tǒng)不應(yīng)成為性能瓶頸:
·ResNet-50和3D UNet測試中,GPU利用率要求 >90%。
·CosmoFlow測試中,GPU利用率要求 >70%。
·在MLPerf? Storage v2.0中,允許使用更大規(guī)模的GPU模擬集群,進(jìn)一步提高了對系統(tǒng)高帶寬與低延遲的要求。
2. 嚴(yán)禁緩存優(yōu)化
·主機(jī)側(cè)禁止任何數(shù)據(jù)緩存行為,以防影響存儲系統(tǒng)真實(shí)性能評估:
·測試前必須清空緩存(例如,使用 echo 3 > /proc/sys/vm/drop_caches命令清空緩存)。
·測試數(shù)據(jù)集至少5倍于主機(jī)內(nèi)存容量,確保數(shù)據(jù)真實(shí)從存儲中讀取。
·每輪測試之間必須重新加載數(shù)據(jù),防止隱性緩存。
3. 可重復(fù)性與審核機(jī)制
·多次執(zhí)行且連續(xù)成功(訓(xùn)練任務(wù)5次、Checkpoint任務(wù)10次)。
·提交結(jié)果需附帶完整配置、日志與運(yùn)行腳本。
·在MLCommons官網(wǎng)公開測試流程與硬件配置。
·所有測試結(jié)果均經(jīng)過官方及參與測試廠家交叉檢視。
為了深入理解 MLPerf? Storage 2.0基準(zhǔn)測試內(nèi)容,我們先解釋幾個(gè)核心概念:
Accelerator Number(ACC NUM):模擬測試訓(xùn)練GPU數(shù)量,衡量系統(tǒng)處理能力的規(guī)模;模擬測試訓(xùn)練GPU數(shù)量越多,對存儲系統(tǒng)的讀寫帶寬和并發(fā)吞吐的壓力越大。
Accelerator Utilization(AU):測試過程中 GPU 的平均利用率(百分比),反映存儲系統(tǒng)是否能為GPU提供穩(wěn)定且持續(xù)的數(shù)據(jù)供給。如果利用率低,說明存儲性能可能成為瓶頸。
Accelerator Type: GPU類型,表示參與測試的GPU型號/架構(gòu),MLPerf? Storage v2.0測試目前支持模擬測試A100和H100兩種GPU類型。
Storage System Type:參與測試的存儲系統(tǒng)結(jié)構(gòu)和介質(zhì)類型。MLPerf? Storage v2.0測試中覆蓋了以下存儲系統(tǒng)類型:
Storage System RU:存儲系統(tǒng)所占的物理空間,單位為 RU(Rack Unit,1RU = 1.75 英寸)。注:由于部分Cloud類型的參測廠商未反饋實(shí)際使用的存儲系統(tǒng)RU數(shù)據(jù),因此本文并未將這部分參測廠商的每存儲系統(tǒng)RU輸出帶寬納入對比。
基于上述指標(biāo)維度,大家就可以對 MLPerf? Storage v2.0測試中各參測廠商的系統(tǒng)能力進(jìn)行全面對比,例如:
·在滿足官方要求的GPU 利用率下,哪個(gè)存儲系統(tǒng)能支持更高的GPU數(shù)量及更高的業(yè)務(wù)帶寬?
·在相同訓(xùn)練模型下,哪個(gè)存儲系統(tǒng)的性能密度更高,即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高?
·在相同checkpoint模型下,哪個(gè)存儲系統(tǒng)的性能密度更高,即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高?
·更高的性能密度,意味著相同節(jié)點(diǎn)數(shù)和機(jī)架空間下,系統(tǒng)可以支持更多 GPU 計(jì)算節(jié)點(diǎn)的訓(xùn)練任務(wù)。
實(shí)力領(lǐng)跑!泛聯(lián)信息包攬MLPerf? Storage v2.0七項(xiàng)世界第一
泛聯(lián)信息(UBIX)作為國內(nèi)唯一全面參與 MLPerf? Storage v2.0 全部10項(xiàng)測試場景的創(chuàng)新型AI存儲廠商,在眾多國際領(lǐng)先參測企業(yè)中脫穎而出,斬獲其中7項(xiàng)世界第一的卓越成績。同時(shí),在所參與的測試項(xiàng)目中,泛聯(lián)信息(UBIX)相較于1.0版本的核心測試指標(biāo),普遍實(shí)現(xiàn)了兩倍以上的性能提升,充分展現(xiàn)了其在AI存儲領(lǐng)域的技術(shù)實(shí)力與持續(xù)創(chuàng)新能力。
泛聯(lián)信息(UBIX)使用自研獨(dú)立知識產(chǎn)權(quán)的UbiPower18000全閃存儲產(chǎn)品參與測試。本次測試環(huán)境基于泛聯(lián)信息戰(zhàn)略合作伙伴新疆銀豐智能算力技術(shù)有限公司提供的優(yōu)質(zhì)AI算力、網(wǎng)絡(luò)平臺搭建。平臺整合高品質(zhì)的AI算力資源與高速網(wǎng)絡(luò)架構(gòu),為本次測試提供了穩(wěn)定可靠的基礎(chǔ)測試環(huán)境。在存儲介質(zhì)方面,泛聯(lián)信息選用了大普微 Roealsen? R6系列PCIe Gen5 NVMe SSD,該產(chǎn)品在整個(gè)測試過程中保持了超低的讀寫時(shí)延以及穩(wěn)定的讀寫帶寬,為高負(fù)載、密集型訓(xùn)練場景提供了強(qiáng)有力的支撐。
本次UbiPower 18000測試環(huán)境包含3節(jié)點(diǎn)組成的UbiPower 18000分布式集群(每節(jié)點(diǎn)配置了16塊大普微Roealsen R6100 15.36TB NVMe SSD以及4張英偉達(dá)NVIDIA ConnectX-7 400Gbps IB網(wǎng)卡)、16臺GPU算力服務(wù)器以及一臺英偉達(dá)400G IB交換機(jī),測試環(huán)境網(wǎng)絡(luò)拓?fù)淙缦聢D所示:
UbiPower 18000測試拓?fù)鋱D
接下來,我們將對泛聯(lián)信息(UBIX)UbiPower 18000分布式全閃存在本次測試中的詳細(xì)性能數(shù)據(jù)進(jìn)行深入解析,全面剖析其在智算訓(xùn)練業(yè)務(wù)測試場景中的表現(xiàn)。讓我們一同見證這款面向智能計(jì)算場景全新設(shè)計(jì)的創(chuàng)新型 AI 分布式存儲系統(tǒng)所帶來的強(qiáng)勁性能沖擊與突破性價(jià)值。
ResNet50模型測試數(shù)據(jù)解析
在 ResNet-50 模型模擬測試中,測試系統(tǒng)模擬圖像分類任務(wù),使用生成的 ImageNet 風(fēng)格圖像數(shù)據(jù)集,并通過多并發(fā)讀取的 I/O 模型進(jìn)行評估。在該測試場景下,僅由3個(gè) 2U存儲節(jié)點(diǎn)組成的UbiPower 18000分布式存儲系統(tǒng),成功支撐了模擬訓(xùn)練中多達(dá) 2160張H100 GPU的數(shù)據(jù)吞吐需求,GPU利用率持續(xù)保持在90%以上,系統(tǒng)穩(wěn)定帶寬達(dá)到374.57GiB/s,對應(yīng)每存儲系統(tǒng)RU的帶寬高達(dá)62.43 GiB/s。同時(shí),該系統(tǒng)成功支持了3120張A100 GPU的模擬訓(xùn)練需求,依然保持GPU利用率超過 90%,系統(tǒng)穩(wěn)定帶寬為280.77GiB/s,對應(yīng)每RU帶寬高達(dá)46.8GiB/s。
在本測試模型下,UbiPower 18000無論在支持的GPU數(shù)量、系統(tǒng)總帶寬,還是每存儲RU帶寬,均為所有參測廠商中的最高值,充分展現(xiàn)了其在處理大規(guī)模數(shù)據(jù)集場景中的卓越能力。同時(shí),在緊湊的空間占用下,提供了更高的性能密度,證明UbiPower 18000能在相同節(jié)點(diǎn)數(shù)和機(jī)架空間下,支持更多 GPU 計(jì)算節(jié)點(diǎn)的高效訓(xùn)練任務(wù),具備極強(qiáng)的可擴(kuò)展性與部署效率。
CosmoFlow模型測試數(shù)據(jù)解析
該測試模型模擬的是科學(xué)計(jì)算類AI工作負(fù)載,測試模型根據(jù)計(jì)算節(jié)點(diǎn)內(nèi)存容量動(dòng)態(tài)生成2.6MB大小的科學(xué)模擬數(shù)據(jù)文件,并采用并發(fā)讀取的I/O模型進(jìn)行訓(xùn)練評估。泛聯(lián)信息(UBIX)所使用的測試客戶端內(nèi)存配置為512GB,在此基礎(chǔ)上,測試程序共生成約1500多萬個(gè)科學(xué)模擬數(shù)據(jù)文件,在本項(xiàng)測試中數(shù)據(jù)集規(guī)模在所有參測廠商中也是最大的。在如此大規(guī)模的數(shù)據(jù)集條件下,UbiPower 18000分布式存儲系統(tǒng)依然展現(xiàn)出強(qiáng)勁的性能表現(xiàn):
·成功滿足了528張H100 GPU的模擬訓(xùn)練帶寬需求,提供高達(dá)273.21 GiB/s 的穩(wěn)定帶寬,折合每存儲系統(tǒng) RU 帶寬為45.54 GiB/s;
·成功滿足了608張A100 GPU的模擬訓(xùn)練帶寬需求,穩(wěn)定帶寬達(dá)到226.44 GiB/s,每存儲系統(tǒng) RU帶寬達(dá)37.74GiB/s。
在該測試模型下,UbiPower 18000在支持的GPU數(shù)量、系統(tǒng)總帶寬及每存儲系統(tǒng) RU帶寬等核心指標(biāo)方面,均為所有參測廠商中的最高水平。即便在更大規(guī)模的數(shù)據(jù)集和更高的 I/O 壓力下,該系統(tǒng)依然支持遠(yuǎn)超其他廠商的GPU數(shù)量與集群帶寬,充分體現(xiàn)了UbiPower 18000在科學(xué)計(jì)算類AI訓(xùn)練負(fù)載場景下的優(yōu)異性能和出色的可擴(kuò)展能力。
3D U-Net模型測試數(shù)據(jù)解析
該測試模型模擬醫(yī)學(xué)影像分割任務(wù)的典型工作負(fù)載,主要用于評估存儲系統(tǒng)在混合讀取模式及中等文件大?。s140MB)場景下的性能表現(xiàn)。在本模型下,UbiPower 18000 存儲系統(tǒng)也展現(xiàn)出了卓越的性能能力:
·面向336張A100 GPU的模擬訓(xùn)練任務(wù),系統(tǒng)成功滿足了高強(qiáng)度的數(shù)據(jù)吞吐需求;
·在訓(xùn)練過程中,GPU利用率穩(wěn)定保持在90%以上;
·系統(tǒng)實(shí)現(xiàn)了高達(dá)455.05 GiB/s的穩(wěn)定帶寬輸出;
·折合每存儲系統(tǒng)RU帶寬達(dá)到75.84GiB/s。
在該測試模型下,UbiPower 18000 所支持的 GPU 數(shù)量、總帶寬及每存儲系統(tǒng) RU 帶寬均為所有參測廠商中的最高水平,充分展示了其在醫(yī)學(xué)影像類AI負(fù)載下的領(lǐng)先性能與強(qiáng)大適應(yīng)性。
Llama3-405b模型測試數(shù)據(jù)解析
Llama3 405b模型模擬的是企業(yè)或高校在進(jìn)行大規(guī)模模型訓(xùn)練時(shí),多個(gè)GPU服務(wù)器同時(shí)進(jìn)行checkpoint數(shù)據(jù)讀寫的典型場景。在MLPerf? Storage v2.0測試中,該模型模擬了512路并發(fā)寫入、并發(fā)讀取,每輪總數(shù)據(jù)量達(dá)5.29TB的checkpoint數(shù)據(jù),重點(diǎn)評估存儲系統(tǒng)的讀、寫帶寬能力以及大規(guī)模計(jì)算集群下的并發(fā)訪問性能。
在該測試模型中,由3個(gè)2U存儲節(jié)點(diǎn)組成的UbiPower 18000存儲系統(tǒng)表現(xiàn)出色,每個(gè)存儲系統(tǒng)RU穩(wěn)定輸出50.5GiB/s的讀帶寬和36GiB/s的寫帶寬,其讀、寫帶寬密度在所有參測廠商中均為最高。
Llama3-1t模型測試數(shù)據(jù)解析
Llama3-1t模型模擬的是超大規(guī)模AI基礎(chǔ)設(shè)施場景下,多個(gè)GPU服務(wù)器并發(fā)進(jìn)行 checkpoint的讀寫操作。該模型模擬了1024 路并發(fā)寫入和讀取,每輪總量高達(dá)18TB的checkpoint數(shù)據(jù),進(jìn)一步提升了對存儲系統(tǒng)并發(fā)訪問能力和讀寫帶寬的考驗(yàn)。
在此測試中,由 3 個(gè)2U存儲節(jié)點(diǎn)組成UbiPower 18000存儲系統(tǒng),每個(gè) RU 穩(wěn)定輸出54.7GiB/s的讀帶寬和36.3GiB/s的寫帶寬,再次刷新了參測廠商中的讀寫帶寬密度記錄。
從 Llama3-405b與Llama3-1t 兩個(gè)checkpoint模型的測試結(jié)果來看,在高并發(fā)讀寫業(yè)務(wù)場景下,UbiPower 18000存儲系統(tǒng)展現(xiàn)出強(qiáng)大的帶寬吞吐能力:
·系統(tǒng)讀帶寬突破328GiB/s,寫帶寬超過218GiB/s
·每節(jié)點(diǎn)穩(wěn)定提供 100 GiB/s以上的讀帶寬、72 GiB/s以上的寫帶寬
這些數(shù)據(jù)充分證明了UbiPower 18000在大模型訓(xùn)練過程中checkpoint保存與加載場景下的優(yōu)異性能表現(xiàn)。同時(shí),隨著節(jié)點(diǎn)數(shù)量的線性擴(kuò)展,該系統(tǒng)還能夠持續(xù)提升集群的整體讀寫帶寬,全面滿足大規(guī)模 AI 訓(xùn)練對存儲系統(tǒng)的極致帶寬需求。
泛聯(lián)信息(UBIX):面向智算時(shí)代的存儲創(chuàng)新者
作為一家專注于 AI 存儲產(chǎn)品與解決方案的新興廠商,深圳市泛聯(lián)信息科技有限公司(UBIX Technology Co., Ltd.) 通過在存儲介質(zhì)應(yīng)用、系統(tǒng)架構(gòu)及軟件實(shí)現(xiàn)等方面的持續(xù)創(chuàng)新,成功研發(fā)出擁有自主知識產(chǎn)權(quán)的高性能分布式文件系統(tǒng) UBIXFS。
其核心技術(shù)包括:
·全固態(tài)分層資源池架構(gòu)
·高并發(fā)、低時(shí)延分布式元數(shù)據(jù)服務(wù)集群
·基于RDMA網(wǎng)絡(luò)的多鏈路動(dòng)態(tài)聚合高速傳輸協(xié)議
·CSN資源虛擬化及統(tǒng)一調(diào)度
上述創(chuàng)新顯著提升了存儲系統(tǒng)整體性能,有效支撐智算、超算場景對存儲系統(tǒng)的嚴(yán)苛需求,成為推動(dòng) AI 技術(shù)發(fā)展與落地的關(guān)鍵支撐力量。
目前,泛聯(lián)信息(UBIX)創(chuàng)新AI存儲產(chǎn)品已在多個(gè)超算中心和智算中心實(shí)現(xiàn)商用部署,廣泛應(yīng)用于數(shù)據(jù)預(yù)處理、海量數(shù)據(jù)訪問、大規(guī)模checkpoint讀寫等關(guān)鍵場景,并在科研、高性能計(jì)算(HPC)、以及文本、圖像、視頻、多模態(tài)大模型訓(xùn)練等任務(wù)中展現(xiàn)出優(yōu)異的性能表現(xiàn)。
展望未來,泛聯(lián)信息將持續(xù)深耕 AI 存儲領(lǐng)域,圍繞高性能、高可靠性、智能化三大方向不斷加大研發(fā)投入,持續(xù)優(yōu)化系統(tǒng)架構(gòu)與軟件能力,推出更多面向大模型訓(xùn)練、智算與超算中心的領(lǐng)先產(chǎn)品與解決方案,助力全球用戶高效應(yīng)對 AI 時(shí)代的存儲挑戰(zhàn)。