DeepSeek開源周期間,連續(xù)五天發(fā)布了六個核心技術(shù)項目,涵蓋了AI底層算力優(yōu)化、通信效率提升、數(shù)據(jù)處理加速等關(guān)鍵環(huán)節(jié)。這些開源項目旨在降低技術(shù)門檻和成本,提高模型訓(xùn)練與推理效率,推動AI技術(shù)的革新與行業(yè)合作。通過開源,DeepSeek展示了其在AI技術(shù)領(lǐng)域的深厚積累,并為全球開發(fā)者提供了開放共享的平臺。

DeepSeek開源周都發(fā)布了什么?

日期開源項目項目簡介主要特點與優(yōu)勢
2月24日FlashMLA針對NVIDIA Hopper架構(gòu)GPU優(yōu)化的高效多層注意力(MLA)解碼內(nèi)核動態(tài)資源分配:根據(jù)輸入序列長度實時調(diào)整GPU算力分配,避免算力浪費。
分頁KV緩存管理:降低顯存占用至傳統(tǒng)方法的1/4,支持BF16格式,內(nèi)存帶寬高達(dá)3000 GB/s。
低秩分解技術(shù):適配邊緣設(shè)備部署,壓縮多頭注意力的顯存需求。
性能卓越:在H800 GPU上算力峰值可達(dá)580 TFLOPS,接近理論極限。
2月25日DeepEP首個用于MoE(混合專家)模型訓(xùn)練和推理的專家并行(EP)通信庫硬件級通信優(yōu)化:利用NVLink(160 GB/s)與RDMA跨節(jié)點傳輸技術(shù),壓縮GPU等待時間至163微秒級。
FP8智能壓縮技術(shù):原生支持低精度計算,減少帶寬需求。
通信計算重疊策略:實現(xiàn)通信與計算的重疊,無需占用流式多處理器資源。
性能優(yōu)勢:千億參數(shù)模型訓(xùn)練成本降低30%,MoE訓(xùn)練吞吐量提升1.2倍。
2月26日DeepGEMM面向Hopper GPU的高效FP8矩陣計算庫FP8精度適配機制:平衡計算速度與精度,顯存占用降低至FP16的1/4。
即時編譯(JIT)技術(shù):動態(tài)生成適配不同GPU架構(gòu)的內(nèi)核,核心代碼僅300行。
高性能:在Hopper GPU上實現(xiàn)高達(dá)1350+ TFLOPS的算力,小批量場景下加速比達(dá)2.7倍。
2月27日DualPipe用于解決流水線并行中的“等待時間”問題的雙向流水線并行機制雙向流水線并行:同步調(diào)度前向與反向計算,消除傳統(tǒng)流水線90%的“氣泡”閑置時間,GPU利用率提升至92%。
顯存優(yōu)化:通過共享梯度傳輸機制,降低顯存占用30%。
2月27日EPLB針對MoE模型的專家并行負(fù)載均衡器動態(tài)冗余專家分配:實時監(jiān)測專家負(fù)載,將高負(fù)載專家復(fù)制至空閑GPU,閑置率接近0%。
分層負(fù)載均衡策略:結(jié)合節(jié)點內(nèi)局部優(yōu)化與跨節(jié)點全局調(diào)度,減少通信流量50%。
2月28日3FSFire-Flyer File System專為AI訓(xùn)練和大數(shù)據(jù)處理設(shè)計的高性能并行分布式文件系統(tǒng)高速數(shù)據(jù)訪問:利用SSD和RDMA網(wǎng)絡(luò),數(shù)據(jù)讀取速度達(dá)到每秒6.6TB。
分布式文件系統(tǒng):適合海量數(shù)據(jù)訓(xùn)練,提升AI模型訓(xùn)練和推理的效率。

此前算力豹盤點此前三天DeepSeek開源內(nèi)容,了解詳情請點擊下方鏈接:

“源神啟動”?!重磅開源周,來看看DeepSeek這幾天都發(fā)布了些什么內(nèi)容

接下來讓我們看看后兩天都發(fā)布了些什么內(nèi)容吧:

1

連發(fā)重磅項目

DeepSeek第四天放出了雙響炮:開源DualPipe和EPLB

今天DeepSeek發(fā)布了DualPipe(雙向管道并行算法)和EPLB(專家并行負(fù)載均衡器)。

據(jù)DeepSeek介紹,DualPipe是一項在DeepSeek-V3技術(shù)報告中引入的雙向管道等值算法,它實現(xiàn)了向后和向后計算通信階段的雙向重疊,顯著減少訓(xùn)練空閑時間。

同時,流水線氣泡優(yōu)化這一創(chuàng)新調(diào)度策略,降低傳統(tǒng)管道并行中的氣泡”問題,有效提升硬件資源利用率。在GitHub上,目前該算法已經(jīng)獲得544個Star收藏。

另外,在此談一談EPLB(專家并行負(fù)載均衡器)。

EPLB(專家并行負(fù)載均衡器)具有動態(tài)負(fù)載均衡、分層與全局平衡結(jié)合、流量優(yōu)化的特點。

具體來看,動態(tài)負(fù)載均衡是基于混合專家(MoE)架構(gòu),通過冗余專家策略復(fù)制高負(fù)載專家,并采用啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載均衡;

另外在分層與全局平衡結(jié)合方面,它既支持單個節(jié)點的分層負(fù)載管理,也實現(xiàn)跨節(jié)點的全局負(fù)載平衡,減少GPU閑置。

此外在流量優(yōu)化上,可在平衡負(fù)載的同時,通過調(diào)整專家分布降低節(jié)點間通信數(shù)據(jù)量,提升整體訓(xùn)練效率。

開源勞苦功高的3FS!

最后一天DeepSeek開源的項目是:Fire-Flyer文件系統(tǒng),即3FS。

據(jù)了解,3FS是一個高性能并行文件系統(tǒng),它是所有Deepseek數(shù)據(jù)訪問的助推器,能應(yīng)對AI訓(xùn)練和推理工作負(fù)載的挑戰(zhàn)。

它利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)提供共享存儲層,能簡化分布式應(yīng)用程序的開發(fā),具有以下主要特性:

1、分離式架構(gòu):結(jié)合了數(shù)千個SSD和數(shù)百個存儲節(jié)點的網(wǎng)絡(luò)帶寬,使應(yīng)用程序可以不受位置限制地訪問存儲資源

2、強一致性:實現(xiàn)了鏈?zhǔn)綇?fù)制與分配查詢(CRAQ)協(xié)議,確保數(shù)據(jù)的強一致性,簡化應(yīng)用程序開發(fā)

3、文件接口:提供基于事務(wù)性鍵值存儲(如FoundationDB)支持的無狀態(tài)元數(shù)據(jù)服務(wù),使用通用的文件接口,無需學(xué)習(xí)新的存儲API

4、多樣化工作負(fù)載支持

4.1 數(shù)據(jù)準(zhǔn)備:高效組織數(shù)據(jù)分析管道的輸出和管理大量中間結(jié)果

4.2 數(shù)據(jù)加載:支持計算節(jié)點間的訓(xùn)練樣本隨機訪問,消除預(yù)取或打亂數(shù)據(jù)集的需求

4.3 檢查點保存:支持大規(guī)模訓(xùn)練的高吞吐并行檢查點保存

4.4 推理KVCache:提供比基于內(nèi)存緩存更具成本效益的替代方案,同時提供高吞吐量和更大容量

另外,3FS的核心性能指標(biāo)表現(xiàn)在聚合讀取吞吐量上,具體體現(xiàn)就是在由180個存儲節(jié)點組成的集群中,可實現(xiàn)6.6 TiB/s 的聚合讀取吞吐量。

在基準(zhǔn)測試表現(xiàn)中,在25節(jié)點集群的GraySort基準(zhǔn)測試中,吞吐量可達(dá) 3.66 TiB/分鐘;在單客戶端節(jié)點的KVCache查找峰值吞吐量超過40 GiB/s。

尤其值得一提的是,3FS對于V3和R1中訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、嵌入向量搜索和KV Cache查找等工作,都立下了汗馬功勞,可謂功高蓋主!

2

重塑大模型世界

國產(chǎn)顯卡動作神速!摩爾線程全面支持DeepSeek開源周成果

摩爾線程宣布,DeepSeek開源周收官后,短時間內(nèi)成功全面支持DeepSeek各開源項目,包括FlashMLA、DeepEP、DeepGEMM、DualPipe及3FS文件系統(tǒng)。

此成果驗證了MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的優(yōu)勢。

支持項目簡介:

FlashMLA:高效MLA推理內(nèi)核開源倉庫,加速MLA機制計算,適用于DeepSeek系列模型。摩爾線程基于MUSA Compute Capability 3.1架構(gòu),提供FP8計算能力,升級MUTLASS庫,發(fā)布MT-FlashMLA開源倉庫,兼容部署DeepSeek FlashMLA。開源地址見鏈接。

DeepEP:用于MoE模型訓(xùn)練和推理的開源EP通信庫,提升大模型訓(xùn)練效率。摩爾線程基于MUSA架構(gòu)第一時間適配DeepEP。開源地址見鏈接。

DeepGEMM:支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫,為V3/R1提供動力。摩爾線程基于MUTLASS優(yōu)化實現(xiàn)FP8矩陣乘法,支持DeepGEMM。開源地址見鏈接。

DualPipe:DeepSeek-V3提出的雙向流水線并行算法,減少流水線氣泡,提升資源利用率與訓(xùn)練效率。摩爾線程依托Torch-MUSA框架和MUSA軟件棧兼容性,實現(xiàn)高效支持。MT-DualPipe可接入MT-Megatron和MT-TransformerEngine框架。開源地址見鏈接。

3FS:利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬的并行文件系統(tǒng),極致利用固態(tài)硬盤帶寬性能。摩爾線程一天內(nèi)完成3FS搭建,開發(fā)存儲插件,實現(xiàn)與夸娥智算集群無縫集成,為AI訓(xùn)練、推理、科學(xué)計算等提供全棧存儲加速方案。

阿里萬相大模型登上全球開源榜首

Hugging Face最新榜單顯示,開源6天的阿里萬相大模型已反超DeepSeekR1,登頂熱榜、空間榜,成全球最受歡迎大模型。萬相2.1在Hugging Face及魔搭社區(qū)下載量超百萬,Github Star數(shù)超6K。

第二名是Microsoft的The Ultra-Scale playbook,DeepSeekR1暫列第三。2月25日深夜,阿里云宣布萬相2.1開源。

萬相2.1采用Apache2.0協(xié)議,14B和1.3B參數(shù)規(guī)格推理代碼和權(quán)重全開源,支持文生視頻和圖生視頻任務(wù)。14B版本在指令遵循、復(fù)雜運動生成等方面表現(xiàn)突出。

在Vbench中,萬相2.1總分86.22%大幅超越國內(nèi)外模型,穩(wěn)居榜首。1.3B版本不僅超更大尺寸開源模型,還與部分閉源模型結(jié)果接近,能在消費級顯卡運行,8.2GB顯存即可生成480P視頻,適用于二次開發(fā)和學(xué)術(shù)研究。

寫在最后

DeepSeek創(chuàng)始人梁文鋒在開源項目署名中親自參與研發(fā),強調(diào)“AGI不應(yīng)是象牙塔”,需與社區(qū)共建生態(tài)。此次開源周以“透明化”打破技術(shù)壟斷,推動AI普惠化。正如行業(yè)觀察者所言:“DeepSeek開源的不僅是代碼,更是通往AGI的‘通關(guān)秘鑰’?!?/p>

隨著R2模型加速研發(fā),DeepSeek或進(jìn)一步改寫全球AI競爭格局。開發(fā)者與企業(yè)的共同期待已明確:開源大模型時代已來,誰將率先抵達(dá)AGI彼岸?

分享到

lixiangjing

算力豹主編

相關(guān)推薦