文字編輯| 宋雨涵

1

性能與成本的雙重革新

H800 GPU算力極限再破頂

據(jù)DeepSeek官方披露,F(xiàn)lashMLA專為Hopper架構(gòu)GPU(如H800 SXM5)設(shè)計(jì),在CUDA 12.6環(huán)境下實(shí)現(xiàn)兩大核心指標(biāo)突破:

內(nèi)存帶寬峰值3000GB/s

(內(nèi)存限制場(chǎng)景)”

通過分頁(yè)KV緩存(塊大小64)與BF16精度支持,顯存占用降低至傳統(tǒng)方案的1/10,長(zhǎng)序列數(shù)據(jù)處理效率提升4倍以上;

計(jì)算性能580 TFLOPS

(計(jì)算約束場(chǎng)景)

針對(duì)可變長(zhǎng)度序列的動(dòng)態(tài)負(fù)載優(yōu)化,結(jié)合張量核指令級(jí)調(diào)優(yōu),實(shí)現(xiàn)近乎100%的硬件利用率,推理速度較同類方案提升2.3倍。

“這相當(dāng)于在H800上‘解鎖’了隱藏的算力層?!币晃粎⑴c內(nèi)測(cè)的開發(fā)者表示,F(xiàn)lashMLA通過將KV緩存壓縮至低維空間,使單卡可處理的上下文長(zhǎng)度擴(kuò)展至百萬(wàn)Token級(jí),且在生產(chǎn)環(huán)境中已穩(wěn)定支持多模態(tài)大模型實(shí)時(shí)推理。

網(wǎng)友們紛紛點(diǎn)贊:向工程團(tuán)隊(duì)致以崇高的敬意,從Hopper的張量核中擠出了每一個(gè)FLOP。這就是我們將LLM服務(wù)推向新前沿的方式!

技術(shù)架構(gòu):從實(shí)驗(yàn)室到生產(chǎn)的“零損耗”跨越

FlashMLA通過分頁(yè)KV緩存(塊大小64)和BF16精度支持,顯著降低顯存占用。結(jié)合DeepSeek獨(dú)創(chuàng)的MLA架構(gòu)(多頭潛在注意力),其通過低秩壓縮技術(shù)將鍵值(KV)緩存量減少93.3%,使長(zhǎng)序列處理的顯存需求降至傳統(tǒng)Transformer架構(gòu)的5%-13%,推理成本僅為同類模型的1/7至1/70。

FlashMLA的核心創(chuàng)新在于其三層優(yōu)化體系:

硬件層

深度適配Hopper架構(gòu)的TMA(Tensor Memory Accelerator)與異步拷貝技術(shù),消除內(nèi)存帶寬瓶頸;

算法層

動(dòng)態(tài)調(diào)整計(jì)算粒度,根據(jù)序列長(zhǎng)度自動(dòng)選擇最優(yōu)計(jì)算路徑,避免傳統(tǒng)方案因填充(Padding)導(dǎo)致的算力浪費(fèi);

工程層

首創(chuàng)“分塊-壓縮-流水線”三位一體機(jī)制,支持毫秒級(jí)熱更新模型參數(shù),滿足在線服務(wù)的嚴(yán)苛SLA要求。

尤其值得關(guān)注的是其分頁(yè)KV緩存設(shè)計(jì):通過將鍵值對(duì)拆分為64個(gè)Token的連續(xù)內(nèi)存塊,配合智能預(yù)取策略,顯存碎片率降低92%,這在處理超長(zhǎng)法律文檔、基因序列分析等場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì)。

2

打造開源生態(tài)

開發(fā)者社區(qū)掀起“效率革命”

DeepSeek

DeepSeek的基本架構(gòu):MLA

MLA機(jī)制概述

MLA是一種改進(jìn)的注意力機(jī)制,旨在提升Transformer模型的推理效率和內(nèi)存利用率。其核心思想是通過低秩聯(lián)合壓縮技術(shù),將多頭注意力中的鍵(Key)和值(Value)矩陣投影到低維潛在空間,從而顯著減少鍵值緩存(KV Cache)的存儲(chǔ)需求。這種方法不僅降低了內(nèi)存占用,還提高了推理速度,同時(shí)保持了模型的性能。

DeepSeek系列模型的成果與影響

在V2版本中,DeepSeek系列模型通過采用MLA機(jī)制,成功將顯存占用降低至傳統(tǒng)MHA架構(gòu)的5%至13%,實(shí)現(xiàn)了成本的大幅削減。同時(shí),其推理成本也僅為L(zhǎng)lama 370B的七分之一和GPT-4 Turbo的七十分之一。這些顯著的成果使得DeepSeek系列模型在自然語(yǔ)言處理領(lǐng)域備受關(guān)注。

到了V3版本,DeepSeek系列模型在降本提速方面取得了更為顯著的成果。這一版本的模型不僅進(jìn)一步降低了顯存占用和推理成本,還提升了模型的性能和穩(wěn)定性。這些優(yōu)勢(shì)使得DeepSeek在全球范圍內(nèi)備受矚目,成為自然語(yǔ)言處理領(lǐng)域的一顆新星。

此外,DeepSeek系列模型還積極擁抱開源社區(qū),推動(dòng)了AI技術(shù)的普及和發(fā)展。例如,DeepSeek-R1在HuggingFace平臺(tái)上已收獲超過10000個(gè)贊,從近150萬(wàn)個(gè)模型中脫穎而出,成為該平臺(tái)最受歡迎的大模型之一。這一成就不僅證明了DeepSeek系列模型的優(yōu)秀性能和應(yīng)用價(jià)值,也為開源社區(qū)的發(fā)展注入了新的活力。

開源力量的驅(qū)動(dòng)

開源公告發(fā)布后,全球開發(fā)者迅速展開實(shí)測(cè)。GitHub Issue區(qū)涌現(xiàn)大量驗(yàn)證數(shù)據(jù):

在32K上下文長(zhǎng)度的文本生成任務(wù)中,F(xiàn)lashMLA的端到端延遲較vLLM降低58%;

多輪對(duì)話場(chǎng)景下,顯存占用僅為HuggingFace Transformers原生實(shí)現(xiàn)的7.2%;

結(jié)合DeepSeek自研的MoE(混合專家)路由算法,千億參數(shù)模型的單批次推理成本下降至0.003美元/請(qǐng)求。

寫在最后

業(yè)內(nèi)人士認(rèn)為,F(xiàn)lashMLA的發(fā)布標(biāo)志著AI算力優(yōu)化進(jìn)入新階段。其開源特性或?qū)⒓铀傩袠I(yè)技術(shù)迭代,助力中小企業(yè)低成本部署大模型。DeepSeek透露,開源周后續(xù)還將公開更多工具與模型,持續(xù)推動(dòng)AI生態(tài)發(fā)展。

此次技術(shù)突破不僅鞏固了DeepSeek在全球AI競(jìng)賽中的領(lǐng)先地位,也為算力密集型應(yīng)用的普及鋪平道路。正如網(wǎng)友所言:“這是將LLM服務(wù)推向新前沿的關(guān)鍵一步?!?/p>

分享到

lixiangjing

算力豹主編

相關(guān)推薦