在线天堂新版资源www,天天躁夜夜躁狠狠躁婷婷,中文字幕在线观看亚洲视频

本次MLPerf? Storage v2.0參測企業(yè)（來源：MLCommons）

MLPerf? Storage v2.0在2023年0.5版本及2024年1.0版本6個訓(xùn)練場景的基礎(chǔ)上，增加了4個基于不同規(guī)模llama3模型的checkpoint測試場景，覆蓋了從樣本加載、checkpoint保存與恢復(fù)等常見模型訓(xùn)練場景的工作負(fù)載，全面測評圖像識別、科學(xué)計算等領(lǐng)域人工智能應(yīng)用的存儲需求，確保評測結(jié)果具有廣泛的現(xiàn)實參考意義。

MLPerf? Storage v2.0 針對A100和H100兩種GPU分別定義了3D Unet 、ResNet50和CosmoFlow 3個模型下總計6類訓(xùn)練測試場景，從下表中可以看到每個測試場景的模型簡介、訓(xùn)練框架及測試條件等關(guān)鍵信息：

MLPerf? Storage v2.0中新增了4個Checkpoint測試場景，用于模擬 AI 模型訓(xùn)練過程中的模型checkpoint保存與恢復(fù)工作負(fù)載。這些測試場景聚焦于checkpoint高帶寬寫入和讀取性能，覆蓋了不同規(guī)模模型訓(xùn)練中常見的I/O模型，從下表中可以看到每個測試場景的參數(shù)規(guī)模、checkpoint測試數(shù)據(jù)量和典型場景等關(guān)鍵信息：

同時，為了保證測試結(jié)果的準(zhǔn)確性和權(quán)威性，MLPerf? Storage v2.0制定了極其嚴(yán)格的測試準(zhǔn)則，包括：

1. 高 GPU 利用率

·v2.0更加強調(diào)在訓(xùn)練任務(wù)中存儲系統(tǒng)不應(yīng)成為性能瓶頸：

·ResNet-50和3D UNet測試中，GPU利用率要求＞90%。

·CosmoFlow測試中，GPU利用率要求＞70%。

·在MLPerf? Storage v2.0中，允許使用更大規(guī)模的GPU模擬集群，進一步提高了對系統(tǒng)高帶寬與低延遲的要求。

2. 嚴(yán)禁緩存優(yōu)化

·主機側(cè)禁止任何數(shù)據(jù)緩存行為，以防影響存儲系統(tǒng)真實性能評估：

·測試前必須清空緩存（例如，使用 echo 3 > /proc/sys/vm/drop_caches命令清空緩存）。

·測試數(shù)據(jù)集至少5倍于主機內(nèi)存容量，確保數(shù)據(jù)真實從存儲中讀取。

·每輪測試之間必須重新加載數(shù)據(jù)，防止隱性緩存。

3. 可重復(fù)性與審核機制

·多次執(zhí)行且連續(xù)成功（訓(xùn)練任務(wù)5次、Checkpoint任務(wù)10次）。

·提交結(jié)果需附帶完整配置、日志與運行腳本。

·在MLCommons官網(wǎng)公開測試流程與硬件配置。

·所有測試結(jié)果均經(jīng)過官方及參與測試廠家交叉檢視。

為了深入理解 MLPerf? Storage 2.0基準(zhǔn)測試內(nèi)容，我們先解釋幾個核心概念：

Accelerator Number（ACC NUM）：模擬測試訓(xùn)練GPU數(shù)量，衡量系統(tǒng)處理能力的規(guī)模；模擬測試訓(xùn)練GPU數(shù)量越多，對存儲系統(tǒng)的讀寫帶寬和并發(fā)吞吐的壓力越大。

Accelerator Utilization（AU）：測試過程中 GPU 的平均利用率（百分比），反映存儲系統(tǒng)是否能為GPU提供穩(wěn)定且持續(xù)的數(shù)據(jù)供給。如果利用率低，說明存儲性能可能成為瓶頸。

Accelerator Type: GPU類型，表示參與測試的GPU型號/架構(gòu)，MLPerf? Storage v2.0測試目前支持模擬測試A100和H100兩種GPU類型。

Storage System Type：參與測試的存儲系統(tǒng)結(jié)構(gòu)和介質(zhì)類型。MLPerf? Storage v2.0測試中覆蓋了以下存儲系統(tǒng)類型：

Storage System RU：存儲系統(tǒng)所占的物理空間，單位為 RU（Rack Unit，1RU = 1.75 英寸）。注：由于部分Cloud類型的參測廠商未反饋實際使用的存儲系統(tǒng)RU數(shù)據(jù)，因此本文并未將這部分參測廠商的每存儲系統(tǒng)RU輸出帶寬納入對比。

基于上述指標(biāo)維度，大家就可以對 MLPerf? Storage v2.0測試中各參測廠商的系統(tǒng)能力進行全面對比，例如：

·在滿足官方要求的GPU 利用率下，哪個存儲系統(tǒng)能支持更高的GPU數(shù)量及更高的業(yè)務(wù)帶寬？

·在相同訓(xùn)練模型下，哪個存儲系統(tǒng)的性能密度更高，即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高？

·在相同checkpoint模型下，哪個存儲系統(tǒng)的性能密度更高，即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高？

·更高的性能密度，意味著相同節(jié)點數(shù)和機架空間下，系統(tǒng)可以支持更多 GPU 計算節(jié)點的訓(xùn)練任務(wù)。

實力領(lǐng)跑！泛聯(lián)信息包攬MLPerf? Storage v2.0七項世界第一

泛聯(lián)信息（UBIX）作為國內(nèi)唯一全面參與 MLPerf? Storage v2.0 全部10項測試場景的創(chuàng)新型AI存儲廠商，在眾多國際領(lǐng)先參測企業(yè)中脫穎而出，斬獲其中7項世界第一的卓越成績。同時，在所參與的測試項目中，泛聯(lián)信息（UBIX）相較于1.0版本的核心測試指標(biāo)，普遍實現(xiàn)了兩倍以上的性能提升，充分展現(xiàn)了其在AI存儲領(lǐng)域的技術(shù)實力與持續(xù)創(chuàng)新能力。

泛聯(lián)信息（UBIX）使用自研獨立知識產(chǎn)權(quán)的UbiPower18000全閃存儲產(chǎn)品參與測試。本次測試環(huán)境基于泛聯(lián)信息戰(zhàn)略合作伙伴新疆銀豐智能算力技術(shù)有限公司提供的優(yōu)質(zhì)AI算力、網(wǎng)絡(luò)平臺搭建。平臺整合高品質(zhì)的AI算力資源與高速網(wǎng)絡(luò)架構(gòu)，為本次測試提供了穩(wěn)定可靠的基礎(chǔ)測試環(huán)境。在存儲介質(zhì)方面，泛聯(lián)信息選用了大普微 Roealsen? R6系列PCIe Gen5 NVMe SSD，該產(chǎn)品在整個測試過程中保持了超低的讀寫時延以及穩(wěn)定的讀寫帶寬，為高負(fù)載、密集型訓(xùn)練場景提供了強有力的支撐。

本次UbiPower 18000測試環(huán)境包含3節(jié)點組成的UbiPower 18000分布式集群（每節(jié)點配置了16塊大普微Roealsen R6100 15.36TB NVMe SSD以及4張英偉達(dá)NVIDIA ConnectX-7 400Gbps IB網(wǎng)卡）、16臺GPU算力服務(wù)器以及一臺英偉達(dá)400G IB交換機，測試環(huán)境網(wǎng)絡(luò)拓?fù)淙缦聢D所示：

UbiPower 18000測試拓?fù)鋱D

接下來，我們將對泛聯(lián)信息（UBIX）UbiPower 18000分布式全閃存在本次測試中的詳細(xì)性能數(shù)據(jù)進行深入解析，全面剖析其在智算訓(xùn)練業(yè)務(wù)測試場景中的表現(xiàn)。讓我們一同見證這款面向智能計算場景全新設(shè)計的創(chuàng)新型 AI 分布式存儲系統(tǒng)所帶來的強勁性能沖擊與突破性價值。

ResNet50模型測試數(shù)據(jù)解析

在 ResNet-50 模型模擬測試中，測試系統(tǒng)模擬圖像分類任務(wù)，使用生成的 ImageNet 風(fēng)格圖像數(shù)據(jù)集，并通過多并發(fā)讀取的 I/O 模型進行評估。在該測試場景下，僅由3個 2U存儲節(jié)點組成的UbiPower 18000分布式存儲系統(tǒng)，成功支撐了模擬訓(xùn)練中多達(dá) 2160張H100 GPU的數(shù)據(jù)吞吐需求，GPU利用率持續(xù)保持在90%以上，系統(tǒng)穩(wěn)定帶寬達(dá)到374.57GiB/s，對應(yīng)每存儲系統(tǒng)RU的帶寬高達(dá)62.43 GiB/s。同時，該系統(tǒng)成功支持了3120張A100 GPU的模擬訓(xùn)練需求，依然保持GPU利用率超過 90%，系統(tǒng)穩(wěn)定帶寬為280.77GiB/s，對應(yīng)每RU帶寬高達(dá)46.8GiB/s。

在本測試模型下，UbiPower 18000無論在支持的GPU數(shù)量、系統(tǒng)總帶寬，還是每存儲RU帶寬，均為所有參測廠商中的最高值，充分展現(xiàn)了其在處理大規(guī)模數(shù)據(jù)集場景中的卓越能力。同時，在緊湊的空間占用下，提供了更高的性能密度，證明UbiPower 18000能在相同節(jié)點數(shù)和機架空間下，支持更多 GPU 計算節(jié)點的高效訓(xùn)練任務(wù)，具備極強的可擴展性與部署效率。

CosmoFlow模型測試數(shù)據(jù)解析

該測試模型模擬的是科學(xué)計算類AI工作負(fù)載，測試模型根據(jù)計算節(jié)點內(nèi)存容量動態(tài)生成2.6MB大小的科學(xué)模擬數(shù)據(jù)文件，并采用并發(fā)讀取的I/O模型進行訓(xùn)練評估。泛聯(lián)信息（UBIX）所使用的測試客戶端內(nèi)存配置為512GB，在此基礎(chǔ)上，測試程序共生成約1500多萬個科學(xué)模擬數(shù)據(jù)文件，在本項測試中數(shù)據(jù)集規(guī)模在所有參測廠商中也是最大的。在如此大規(guī)模的數(shù)據(jù)集條件下，UbiPower 18000分布式存儲系統(tǒng)依然展現(xiàn)出強勁的性能表現(xiàn)：

·成功滿足了528張H100 GPU的模擬訓(xùn)練帶寬需求，提供高達(dá)273.21 GiB/s 的穩(wěn)定帶寬，折合每存儲系統(tǒng) RU 帶寬為45.54 GiB/s；

·成功滿足了608張A100 GPU的模擬訓(xùn)練帶寬需求，穩(wěn)定帶寬達(dá)到226.44 GiB/s，每存儲系統(tǒng) RU帶寬達(dá)37.74GiB/s。

在該測試模型下，UbiPower 18000在支持的GPU數(shù)量、系統(tǒng)總帶寬及每存儲系統(tǒng) RU帶寬等核心指標(biāo)方面，均為所有參測廠商中的最高水平。即便在更大規(guī)模的數(shù)據(jù)集和更高的 I/O 壓力下，該系統(tǒng)依然支持遠(yuǎn)超其他廠商的GPU數(shù)量與集群帶寬，充分體現(xiàn)了UbiPower 18000在科學(xué)計算類AI訓(xùn)練負(fù)載場景下的優(yōu)異性能和出色的可擴展能力。

3D U-Net模型測試數(shù)據(jù)解析

該測試模型模擬醫(yī)學(xué)影像分割任務(wù)的典型工作負(fù)載，主要用于評估存儲系統(tǒng)在混合讀取模式及中等文件大小（約140MB）場景下的性能表現(xiàn)。在本模型下，UbiPower 18000 存儲系統(tǒng)也展現(xiàn)出了卓越的性能能力：

·面向336張A100 GPU的模擬訓(xùn)練任務(wù)，系統(tǒng)成功滿足了高強度的數(shù)據(jù)吞吐需求；

·在訓(xùn)練過程中，GPU利用率穩(wěn)定保持在90%以上；

·系統(tǒng)實現(xiàn)了高達(dá)455.05 GiB/s的穩(wěn)定帶寬輸出；

·折合每存儲系統(tǒng)RU帶寬達(dá)到75.84GiB/s。

在該測試模型下，UbiPower 18000 所支持的 GPU 數(shù)量、總帶寬及每存儲系統(tǒng) RU 帶寬均為所有參測廠商中的最高水平，充分展示了其在醫(yī)學(xué)影像類AI負(fù)載下的領(lǐng)先性能與強大適應(yīng)性。

Llama3-405b模型測試數(shù)據(jù)解析

Llama3 405b模型模擬的是企業(yè)或高校在進行大規(guī)模模型訓(xùn)練時，多個GPU服務(wù)器同時進行checkpoint數(shù)據(jù)讀寫的典型場景。在MLPerf? Storage v2.0測試中，該模型模擬了512路并發(fā)寫入、并發(fā)讀取，每輪總數(shù)據(jù)量達(dá)5.29TB的checkpoint數(shù)據(jù)，重點評估存儲系統(tǒng)的讀、寫帶寬能力以及大規(guī)模計算集群下的并發(fā)訪問性能。

在該測試模型中，由3個2U存儲節(jié)點組成的UbiPower 18000存儲系統(tǒng)表現(xiàn)出色，每個存儲系統(tǒng)RU穩(wěn)定輸出50.5GiB/s的讀帶寬和36GiB/s的寫帶寬，其讀、寫帶寬密度在所有參測廠商中均為最高。

Llama3-1t模型測試數(shù)據(jù)解析

Llama3-1t模型模擬的是超大規(guī)模AI基礎(chǔ)設(shè)施場景下，多個GPU服務(wù)器并發(fā)進行 checkpoint的讀寫操作。該模型模擬了1024 路并發(fā)寫入和讀取，每輪總量高達(dá)18TB的checkpoint數(shù)據(jù)，進一步提升了對存儲系統(tǒng)并發(fā)訪問能力和讀寫帶寬的考驗。

在此測試中，由 3 個2U存儲節(jié)點組成UbiPower 18000存儲系統(tǒng)，每個 RU 穩(wěn)定輸出54.7GiB/s的讀帶寬和36.3GiB/s的寫帶寬，再次刷新了參測廠商中的讀寫帶寬密度記錄。

從 Llama3-405b與Llama3-1t 兩個checkpoint模型的測試結(jié)果來看，在高并發(fā)讀寫業(yè)務(wù)場景下，UbiPower 18000存儲系統(tǒng)展現(xiàn)出強大的帶寬吞吐能力：

·系統(tǒng)讀帶寬突破328GiB/s，寫帶寬超過218GiB/s

·每節(jié)點穩(wěn)定提供 100 GiB/s以上的讀帶寬、72 GiB/s以上的寫帶寬

這些數(shù)據(jù)充分證明了UbiPower 18000在大模型訓(xùn)練過程中checkpoint保存與加載場景下的優(yōu)異性能表現(xiàn)。同時，隨著節(jié)點數(shù)量的線性擴展，該系統(tǒng)還能夠持續(xù)提升集群的整體讀寫帶寬，全面滿足大規(guī)模 AI 訓(xùn)練對存儲系統(tǒng)的極致帶寬需求。

泛聯(lián)信息（UBIX）：面向智算時代的存儲創(chuàng)新者

作為一家專注于 AI 存儲產(chǎn)品與解決方案的新興廠商，深圳市泛聯(lián)信息科技有限公司（UBIX Technology Co., Ltd.）通過在存儲介質(zhì)應(yīng)用、系統(tǒng)架構(gòu)及軟件實現(xiàn)等方面的持續(xù)創(chuàng)新，成功研發(fā)出擁有自主知識產(chǎn)權(quán)的高性能分布式文件系統(tǒng) UBIXFS。

其核心技術(shù)包括：

·全固態(tài)分層資源池架構(gòu)

·高并發(fā)、低時延分布式元數(shù)據(jù)服務(wù)集群

·基于RDMA網(wǎng)絡(luò)的多鏈路動態(tài)聚合高速傳輸協(xié)議

·CSN資源虛擬化及統(tǒng)一調(diào)度

上述創(chuàng)新顯著提升了存儲系統(tǒng)整體性能，有效支撐智算、超算場景對存儲系統(tǒng)的嚴(yán)苛需求，成為推動 AI 技術(shù)發(fā)展與落地的關(guān)鍵支撐力量。

目前，泛聯(lián)信息（UBIX）創(chuàng)新AI存儲產(chǎn)品已在多個超算中心和智算中心實現(xiàn)商用部署，廣泛應(yīng)用于數(shù)據(jù)預(yù)處理、海量數(shù)據(jù)訪問、大規(guī)模checkpoint讀寫等關(guān)鍵場景，并在科研、高性能計算（HPC）、以及文本、圖像、視頻、多模態(tài)大模型訓(xùn)練等任務(wù)中展現(xiàn)出優(yōu)異的性能表現(xiàn)。

展望未來，泛聯(lián)信息將持續(xù)深耕 AI 存儲領(lǐng)域，圍繞高性能、高可靠性、智能化三大方向不斷加大研發(fā)投入，持續(xù)優(yōu)化系統(tǒng)架構(gòu)與軟件能力，推出更多面向大模型訓(xùn)練、智算與超算中心的領(lǐng)先產(chǎn)品與解決方案，助力全球用戶高效應(yīng)對 AI 時代的存儲挑戰(zhàn)。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門標(biāo)簽