DeepSeek開源周期間,連續(xù)五天發(fā)布了六個核心技術項目,涵蓋了AI底層算力優(yōu)化、通信效率提升、數據處理加速等關鍵環(huán)節(jié)。這些開源項目旨在降低技術門檻和成本,提高模型訓練與推理效率,推動AI技術的革新與行業(yè)合作。通過開源,DeepSeek展示了其在AI技術領域的深厚積累,并為全球開發(fā)者提供了開放共享的平臺。

DeepSeek開源周都發(fā)布了什么?

日期開源項目項目簡介主要特點與優(yōu)勢
2月24日FlashMLA針對NVIDIA Hopper架構GPU優(yōu)化的高效多層注意力(MLA)解碼內核動態(tài)資源分配:根據輸入序列長度實時調整GPU算力分配,避免算力浪費。
分頁KV緩存管理:降低顯存占用至傳統(tǒng)方法的1/4,支持BF16格式,內存帶寬高達3000 GB/s。
低秩分解技術:適配邊緣設備部署,壓縮多頭注意力的顯存需求。
性能卓越:在H800 GPU上算力峰值可達580 TFLOPS,接近理論極限。
2月25日DeepEP首個用于MoE(混合專家)模型訓練和推理的專家并行(EP)通信庫硬件級通信優(yōu)化:利用NVLink(160 GB/s)與RDMA跨節(jié)點傳輸技術,壓縮GPU等待時間至163微秒級。
FP8智能壓縮技術:原生支持低精度計算,減少帶寬需求。
通信計算重疊策略:實現通信與計算的重疊,無需占用流式多處理器資源。
性能優(yōu)勢:千億參數模型訓練成本降低30%,MoE訓練吞吐量提升1.2倍。
2月26日DeepGEMM面向Hopper GPU的高效FP8矩陣計算庫FP8精度適配機制:平衡計算速度與精度,顯存占用降低至FP16的1/4。
即時編譯(JIT)技術:動態(tài)生成適配不同GPU架構的內核,核心代碼僅300行。
高性能:在Hopper GPU上實現高達1350+ TFLOPS的算力,小批量場景下加速比達2.7倍。
2月27日DualPipe用于解決流水線并行中的“等待時間”問題的雙向流水線并行機制雙向流水線并行:同步調度前向與反向計算,消除傳統(tǒng)流水線90%的“氣泡”閑置時間,GPU利用率提升至92%。
顯存優(yōu)化:通過共享梯度傳輸機制,降低顯存占用30%。
2月27日EPLB針對MoE模型的專家并行負載均衡器動態(tài)冗余專家分配:實時監(jiān)測專家負載,將高負載專家復制至空閑GPU,閑置率接近0%。
分層負載均衡策略:結合節(jié)點內局部優(yōu)化與跨節(jié)點全局調度,減少通信流量50%。
2月28日3FSFire-Flyer File System專為AI訓練和大數據處理設計的高性能并行分布式文件系統(tǒng)高速數據訪問:利用SSD和RDMA網絡,數據讀取速度達到每秒6.6TB。
分布式文件系統(tǒng):適合海量數據訓練,提升AI模型訓練和推理的效率。

此前算力豹盤點此前三天DeepSeek開源內容,了解詳情請點擊下方鏈接:

“源神啟動”?!重磅開源周,來看看DeepSeek這幾天都發(fā)布了些什么內容

接下來讓我們看看后兩天都發(fā)布了些什么內容吧:

1

連發(fā)重磅項目

DeepSeek第四天放出了雙響炮:開源DualPipe和EPLB

今天DeepSeek發(fā)布了DualPipe(雙向管道并行算法)和EPLB(專家并行負載均衡器)。

據DeepSeek介紹,DualPipe是一項在DeepSeek-V3技術報告中引入的雙向管道等值算法,它實現了向后和向后計算通信階段的雙向重疊,顯著減少訓練空閑時間。

同時,流水線氣泡優(yōu)化這一創(chuàng)新調度策略,降低傳統(tǒng)管道并行中的氣泡”問題,有效提升硬件資源利用率。在GitHub上,目前該算法已經獲得544個Star收藏。

另外,在此談一談EPLB(專家并行負載均衡器)。

EPLB(專家并行負載均衡器)具有動態(tài)負載均衡、分層與全局平衡結合、流量優(yōu)化的特點。

具體來看,動態(tài)負載均衡是基于混合專家(MoE)架構,通過冗余專家策略復制高負載專家,并采用啟發(fā)式分配算法優(yōu)化GPU間的負載均衡;

另外在分層與全局平衡結合方面,它既支持單個節(jié)點的分層負載管理,也實現跨節(jié)點的全局負載平衡,減少GPU閑置。

此外在流量優(yōu)化上,可在平衡負載的同時,通過調整專家分布降低節(jié)點間通信數據量,提升整體訓練效率。

開源勞苦功高的3FS!

最后一天DeepSeek開源的項目是:Fire-Flyer文件系統(tǒng),即3FS。

據了解,3FS是一個高性能并行文件系統(tǒng),它是所有Deepseek數據訪問的助推器,能應對AI訓練和推理工作負載的挑戰(zhàn)。

它利用現代SSD和RDMA網絡提供共享存儲層,能簡化分布式應用程序的開發(fā),具有以下主要特性:

1、分離式架構:結合了數千個SSD和數百個存儲節(jié)點的網絡帶寬,使應用程序可以不受位置限制地訪問存儲資源

2、強一致性:實現了鏈式復制與分配查詢(CRAQ)協(xié)議,確保數據的強一致性,簡化應用程序開發(fā)

3、文件接口:提供基于事務性鍵值存儲(如FoundationDB)支持的無狀態(tài)元數據服務,使用通用的文件接口,無需學習新的存儲API

4、多樣化工作負載支持

4.1 數據準備:高效組織數據分析管道的輸出和管理大量中間結果

4.2 數據加載:支持計算節(jié)點間的訓練樣本隨機訪問,消除預取或打亂數據集的需求

4.3 檢查點保存:支持大規(guī)模訓練的高吞吐并行檢查點保存

4.4 推理KVCache:提供比基于內存緩存更具成本效益的替代方案,同時提供高吞吐量和更大容量

另外,3FS的核心性能指標表現在聚合讀取吞吐量上,具體體現就是在由180個存儲節(jié)點組成的集群中,可實現6.6 TiB/s 的聚合讀取吞吐量。

在基準測試表現中,在25節(jié)點集群的GraySort基準測試中,吞吐量可達 3.66 TiB/分鐘;在單客戶端節(jié)點的KVCache查找峰值吞吐量超過40 GiB/s。

尤其值得一提的是,3FS對于V3和R1中訓練數據預處理、數據集加載、嵌入向量搜索和KV Cache查找等工作,都立下了汗馬功勞,可謂功高蓋主!

2

重塑大模型世界

國產顯卡動作神速!摩爾線程全面支持DeepSeek開源周成果

摩爾線程宣布,DeepSeek開源周收官后,短時間內成功全面支持DeepSeek各開源項目,包括FlashMLA、DeepEP、DeepGEMM、DualPipe及3FS文件系統(tǒng)。

此成果驗證了MUSA架構和全功能GPU在生態(tài)兼容與快速適配上的優(yōu)勢。

支持項目簡介:

FlashMLA:高效MLA推理內核開源倉庫,加速MLA機制計算,適用于DeepSeek系列模型。摩爾線程基于MUSA Compute Capability 3.1架構,提供FP8計算能力,升級MUTLASS庫,發(fā)布MT-FlashMLA開源倉庫,兼容部署DeepSeek FlashMLA。開源地址見鏈接。

DeepEP:用于MoE模型訓練和推理的開源EP通信庫,提升大模型訓練效率。摩爾線程基于MUSA架構第一時間適配DeepEP。開源地址見鏈接。

DeepGEMM:支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫,為V3/R1提供動力。摩爾線程基于MUTLASS優(yōu)化實現FP8矩陣乘法,支持DeepGEMM。開源地址見鏈接。

DualPipe:DeepSeek-V3提出的雙向流水線并行算法,減少流水線氣泡,提升資源利用率與訓練效率。摩爾線程依托Torch-MUSA框架和MUSA軟件棧兼容性,實現高效支持。MT-DualPipe可接入MT-Megatron和MT-TransformerEngine框架。開源地址見鏈接。

3FS:利用現代SSD和RDMA網絡帶寬的并行文件系統(tǒng),極致利用固態(tài)硬盤帶寬性能。摩爾線程一天內完成3FS搭建,開發(fā)存儲插件,實現與夸娥智算集群無縫集成,為AI訓練、推理、科學計算等提供全棧存儲加速方案。

阿里萬相大模型登上全球開源榜首

Hugging Face最新榜單顯示,開源6天的阿里萬相大模型已反超DeepSeekR1,登頂熱榜、空間榜,成全球最受歡迎大模型。萬相2.1在Hugging Face及魔搭社區(qū)下載量超百萬,Github Star數超6K。

第二名是Microsoft的The Ultra-Scale playbook,DeepSeekR1暫列第三。2月25日深夜,阿里云宣布萬相2.1開源。

萬相2.1采用Apache2.0協(xié)議,14B和1.3B參數規(guī)格推理代碼和權重全開源,支持文生視頻和圖生視頻任務。14B版本在指令遵循、復雜運動生成等方面表現突出。

在Vbench中,萬相2.1總分86.22%大幅超越國內外模型,穩(wěn)居榜首。1.3B版本不僅超更大尺寸開源模型,還與部分閉源模型結果接近,能在消費級顯卡運行,8.2GB顯存即可生成480P視頻,適用于二次開發(fā)和學術研究。

寫在最后

DeepSeek創(chuàng)始人梁文鋒在開源項目署名中親自參與研發(fā),強調“AGI不應是象牙塔”,需與社區(qū)共建生態(tài)。此次開源周以“透明化”打破技術壟斷,推動AI普惠化。正如行業(yè)觀察者所言:“DeepSeek開源的不僅是代碼,更是通往AGI的‘通關秘鑰’?!?/p>

隨著R2模型加速研發(fā),DeepSeek或進一步改寫全球AI競爭格局。開發(fā)者與企業(yè)的共同期待已明確:開源大模型時代已來,誰將率先抵達AGI彼岸?

分享到

lixiangjing

算力豹主編

相關推薦