久久精品人妻一区二区蜜桃,久久亚洲国产成人影院

DeepSeek開源周期間，連續(xù)五天發(fā)布了六個(gè)核心技術(shù)項(xiàng)目，涵蓋了AI底層算力優(yōu)化、通信效率提升、數(shù)據(jù)處理加速等關(guān)鍵環(huán)節(jié)。這些開源項(xiàng)目旨在降低技術(shù)門檻和成本，提高模型訓(xùn)練與推理效率，推動AI技術(shù)的革新與行業(yè)合作。通過開源，DeepSeek展示了其在AI技術(shù)領(lǐng)域的深厚積累，并為全球開發(fā)者提供了開放共享的平臺。

DeepSeek開源周都發(fā)布了什么？

日期	開源項(xiàng)目	項(xiàng)目簡介	主要特點(diǎn)與優(yōu)勢
2月24日	FlashMLA	針對NVIDIA Hopper架構(gòu)GPU優(yōu)化的高效多層注意力（MLA）解碼內(nèi)核	動態(tài)資源分配：根據(jù)輸入序列長度實(shí)時(shí)調(diào)整GPU算力分配，避免算力浪費(fèi)。
			分頁KV緩存管理：降低顯存占用至傳統(tǒng)方法的1/4，支持BF16格式，內(nèi)存帶寬高達(dá)3000 GB/s。
			低秩分解技術(shù)：適配邊緣設(shè)備部署，壓縮多頭注意力的顯存需求。
			性能卓越：在H800 GPU上算力峰值可達(dá)580 TFLOPS，接近理論極限。
2月25日	DeepEP	首個(gè)用于MoE（混合專家）模型訓(xùn)練和推理的專家并行（EP）通信庫	硬件級通信優(yōu)化：利用NVLink（160 GB/s）與RDMA跨節(jié)點(diǎn)傳輸技術(shù)，壓縮GPU等待時(shí)間至163微秒級。
			FP8智能壓縮技術(shù)：原生支持低精度計(jì)算，減少帶寬需求。
			通信–計(jì)算重疊策略：實(shí)現(xiàn)通信與計(jì)算的重疊，無需占用流式多處理器資源。
			性能優(yōu)勢：千億參數(shù)模型訓(xùn)練成本降低30%，MoE訓(xùn)練吞吐量提升1.2倍。
2月26日	DeepGEMM	面向Hopper GPU的高效FP8矩陣計(jì)算庫	FP8精度適配機(jī)制：平衡計(jì)算速度與精度，顯存占用降低至FP16的1/4。
			即時(shí)編譯（JIT）技術(shù)：動態(tài)生成適配不同GPU架構(gòu)的內(nèi)核，核心代碼僅300行。
			高性能：在Hopper GPU上實(shí)現(xiàn)高達(dá)1350+ TFLOPS的算力，小批量場景下加速比達(dá)2.7倍。
2月27日	DualPipe	用于解決流水線并行中的“等待時(shí)間”問題的雙向流水線并行機(jī)制	雙向流水線并行：同步調(diào)度前向與反向計(jì)算，消除傳統(tǒng)流水線90%的“氣泡”閑置時(shí)間，GPU利用率提升至92%。
			顯存優(yōu)化：通過共享梯度傳輸機(jī)制，降低顯存占用30%。
2月27日	EPLB	針對MoE模型的專家并行負(fù)載均衡器	動態(tài)冗余專家分配：實(shí)時(shí)監(jiān)測專家負(fù)載，將高負(fù)載專家復(fù)制至空閑GPU，閑置率接近0%。
			分層負(fù)載均衡策略：結(jié)合節(jié)點(diǎn)內(nèi)局部優(yōu)化與跨節(jié)點(diǎn)全局調(diào)度，減少通信流量50%。
2月28日	3FS（Fire-Flyer File System）	專為AI訓(xùn)練和大數(shù)據(jù)處理設(shè)計(jì)的高性能并行分布式文件系統(tǒng)	高速數(shù)據(jù)訪問：利用SSD和RDMA網(wǎng)絡(luò)，數(shù)據(jù)讀取速度達(dá)到每秒6.6TB。
			分布式文件系統(tǒng)：適合海量數(shù)據(jù)訓(xùn)練，提升AI模型訓(xùn)練和推理的效率。

此前算力豹盤點(diǎn)此前三天DeepSeek開源內(nèi)容，了解詳情請點(diǎn)擊下方鏈接：

“源神啟動”？！重磅開源周，來看看DeepSeek這幾天都發(fā)布了些什么內(nèi)容

接下來讓我們看看后兩天都發(fā)布了些什么內(nèi)容吧：

連發(fā)重磅項(xiàng)目

DeepSeek第四天放出了雙響炮：開源DualPipe和EPLB

今天DeepSeek發(fā)布了DualPipe（雙向管道并行算法）和EPLB（專家并行負(fù)載均衡器）。

據(jù)DeepSeek介紹，DualPipe是一項(xiàng)在DeepSeek-V3技術(shù)報(bào)告中引入的雙向管道等值算法，它實(shí)現(xiàn)了向后和向后計(jì)算通信階段的雙向重疊，顯著減少訓(xùn)練空閑時(shí)間。

同時(shí)，流水線氣泡優(yōu)化這一創(chuàng)新調(diào)度策略，降低傳統(tǒng)管道并行中的氣泡”問題，有效提升硬件資源利用率。在GitHub上，目前該算法已經(jīng)獲得544個(gè)Star收藏。

另外，在此談一談EPLB（專家并行負(fù)載均衡器）。

EPLB（專家并行負(fù)載均衡器）具有動態(tài)負(fù)載均衡、分層與全局平衡結(jié)合、流量優(yōu)化的特點(diǎn)。

具體來看，動態(tài)負(fù)載均衡是基于混合專家（MoE）架構(gòu)，通過冗余專家策略復(fù)制高負(fù)載專家，并采用啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載均衡；

另外在分層與全局平衡結(jié)合方面，它既支持單個(gè)節(jié)點(diǎn)的分層負(fù)載管理，也實(shí)現(xiàn)跨節(jié)點(diǎn)的全局負(fù)載平衡，減少GPU閑置。

此外在流量優(yōu)化上，可在平衡負(fù)載的同時(shí)，通過調(diào)整專家分布降低節(jié)點(diǎn)間通信數(shù)據(jù)量，提升整體訓(xùn)練效率。

開源勞苦功高的3FS！

最后一天DeepSeek開源的項(xiàng)目是：Fire-Flyer文件系統(tǒng)，即3FS。

據(jù)了解，3FS是一個(gè)高性能并行文件系統(tǒng)，它是所有Deepseek數(shù)據(jù)訪問的助推器，能應(yīng)對AI訓(xùn)練和推理工作負(fù)載的挑戰(zhàn)。

它利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)提供共享存儲層，能簡化分布式應(yīng)用程序的開發(fā)，具有以下主要特性：

1、分離式架構(gòu)：結(jié)合了數(shù)千個(gè)SSD和數(shù)百個(gè)存儲節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬，使應(yīng)用程序可以不受位置限制地訪問存儲資源

2、強(qiáng)一致性：實(shí)現(xiàn)了鏈?zhǔn)綇?fù)制與分配查詢(CRAQ)協(xié)議，確保數(shù)據(jù)的強(qiáng)一致性，簡化應(yīng)用程序開發(fā)

3、文件接口：提供基于事務(wù)性鍵值存儲(如FoundationDB)支持的無狀態(tài)元數(shù)據(jù)服務(wù)，使用通用的文件接口，無需學(xué)習(xí)新的存儲API

4、多樣化工作負(fù)載支持

4.1 數(shù)據(jù)準(zhǔn)備：高效組織數(shù)據(jù)分析管道的輸出和管理大量中間結(jié)果

4.2 數(shù)據(jù)加載：支持計(jì)算節(jié)點(diǎn)間的訓(xùn)練樣本隨機(jī)訪問，消除預(yù)取或打亂數(shù)據(jù)集的需求

4.3 檢查點(diǎn)保存：支持大規(guī)模訓(xùn)練的高吞吐并行檢查點(diǎn)保存

4.4 推理KVCache：提供比基于內(nèi)存緩存更具成本效益的替代方案，同時(shí)提供高吞吐量和更大容量

另外，3FS的核心性能指標(biāo)表現(xiàn)在聚合讀取吞吐量上，具體體現(xiàn)就是在由180個(gè)存儲節(jié)點(diǎn)組成的集群中，可實(shí)現(xiàn)6.6 TiB/s 的聚合讀取吞吐量。

在基準(zhǔn)測試表現(xiàn)中，在25節(jié)點(diǎn)集群的GraySort基準(zhǔn)測試中，吞吐量可達(dá) 3.66 TiB/分鐘；在單客戶端節(jié)點(diǎn)的KVCache查找峰值吞吐量超過40 GiB/s。

尤其值得一提的是，3FS對于V3和R1中訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、嵌入向量搜索和KV Cache查找等工作，都立下了汗馬功勞，可謂功高蓋主！

重塑大模型世界

國產(chǎn)顯卡動作神速！摩爾線程全面支持DeepSeek開源周成果

摩爾線程宣布，DeepSeek開源周收官后，短時(shí)間內(nèi)成功全面支持DeepSeek各開源項(xiàng)目，包括FlashMLA、DeepEP、DeepGEMM、DualPipe及3FS文件系統(tǒng)。

此成果驗(yàn)證了MUSA架構(gòu)和全功能GPU在生態(tài)兼容與快速適配上的優(yōu)勢。

支持項(xiàng)目簡介：

FlashMLA：高效MLA推理內(nèi)核開源倉庫，加速M(fèi)LA機(jī)制計(jì)算，適用于DeepSeek系列模型。摩爾線程基于MUSA Compute Capability 3.1架構(gòu)，提供FP8計(jì)算能力，升級MUTLASS庫，發(fā)布MT-FlashMLA開源倉庫，兼容部署DeepSeek FlashMLA。開源地址見鏈接。

DeepEP：用于MoE模型訓(xùn)練和推理的開源EP通信庫，提升大模型訓(xùn)練效率。摩爾線程基于MUSA架構(gòu)第一時(shí)間適配DeepEP。開源地址見鏈接。

DeepGEMM：支持密集矩陣與MoE矩陣乘法的FP8 GEMM庫，為V3/R1提供動力。摩爾線程基于MUTLASS優(yōu)化實(shí)現(xiàn)FP8矩陣乘法，支持DeepGEMM。開源地址見鏈接。

DualPipe：DeepSeek-V3提出的雙向流水線并行算法，減少流水線氣泡，提升資源利用率與訓(xùn)練效率。摩爾線程依托Torch-MUSA框架和MUSA軟件棧兼容性，實(shí)現(xiàn)高效支持。MT-DualPipe可接入MT-Megatron和MT-TransformerEngine框架。開源地址見鏈接。

3FS：利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬的并行文件系統(tǒng)，極致利用固態(tài)硬盤帶寬性能。摩爾線程一天內(nèi)完成3FS搭建，開發(fā)存儲插件，實(shí)現(xiàn)與夸娥智算集群無縫集成，為AI訓(xùn)練、推理、科學(xué)計(jì)算等提供全棧存儲加速方案。

阿里萬相大模型登上全球開源榜首

Hugging Face最新榜單顯示，開源6天的阿里萬相大模型已反超DeepSeekR1，登頂熱榜、空間榜，成全球最受歡迎大模型。萬相2.1在Hugging Face及魔搭社區(qū)下載量超百萬，Github Star數(shù)超6K。

第二名是Microsoft的The Ultra-Scale playbook，DeepSeekR1暫列第三。2月25日深夜，阿里云宣布萬相2.1開源。

萬相2.1采用Apache2.0協(xié)議，14B和1.3B參數(shù)規(guī)格推理代碼和權(quán)重全開源，支持文生視頻和圖生視頻任務(wù)。14B版本在指令遵循、復(fù)雜運(yùn)動生成等方面表現(xiàn)突出。

在Vbench中，萬相2.1總分86.22%大幅超越國內(nèi)外模型，穩(wěn)居榜首。1.3B版本不僅超更大尺寸開源模型，還與部分閉源模型結(jié)果接近，能在消費(fèi)級顯卡運(yùn)行，8.2GB顯存即可生成480P視頻，適用于二次開發(fā)和學(xué)術(shù)研究。

寫在最后

DeepSeek創(chuàng)始人梁文鋒在開源項(xiàng)目署名中親自參與研發(fā)，強(qiáng)調(diào)“AGI不應(yīng)是象牙塔”，需與社區(qū)共建生態(tài)。此次開源周以“透明化”打破技術(shù)壟斷，推動AI普惠化。正如行業(yè)觀察者所言：“DeepSeek開源的不僅是代碼，更是通往AGI的‘通關(guān)秘鑰’。”

隨著R2模型加速研發(fā)，DeepSeek或進(jìn)一步改寫全球AI競爭格局。開發(fā)者與企業(yè)的共同期待已明確：開源大模型時(shí)代已來，誰將率先抵達(dá)AGI彼岸？

分享到

DeepSeek

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽