這不僅僅是一次模型升級,更是中國AI算力自主化道路上的重要里程碑。DeepSeek此次的技術(shù)選擇,首次從軟件層面反向定義國產(chǎn)芯片標準,為擺脫對外部算力的依賴提供了關(guān)鍵支撐。

如果把AI產(chǎn)業(yè)比作一條高速公路,過去三十年我們擅長把路修寬(擴大算力規(guī)模),卻一直在用別國設(shè)計的“車道寬度”(FP32/FP16/BF16 等國際標準)。DeepSeek這一次把車道縮到8bit,卻通過UE8M0把動態(tài)范圍放大32倍,等于在原有路基上憑空多修了兩條應(yīng)急車道——不增加制造成本,卻讓國產(chǎn)芯片第一次能把大模型“開”得又快又穩(wěn)。

文字編輯|宋雨涵

1

技術(shù)破局:

FP8不再是英偉達的獨角戲

在AI計算領(lǐng)域,數(shù)據(jù)精度格式長期被國際巨頭主導。FP8(8位浮點數(shù))作為較新的數(shù)據(jù)格式,能夠顯著降低顯存占用和計算資源需求,同時保持較高的計算精度。

傳統(tǒng)FP8存在兩種主流格式:E4M3(4位指數(shù)+3位尾數(shù))和E5M2(5位指數(shù)+2位尾數(shù)),均由英偉達等國際巨頭主導制定

DeepSeek采用的UE8M0格式則完全不同:無符號、8位指數(shù)、0位尾數(shù),這種格式只能表示2的n次方,特別適合作為縮放因子在矩陣運算中使用。

UE8M0最初來源于NVIDIA PTX指令集,但DeepSeek通過DeepGEMM開源庫實現(xiàn)了工程化突破,為整個生態(tài)的落地提供了可能。

UE8M0 FP8詳細解讀

FP8:FP代表浮點數(shù)(小數(shù)),8代表數(shù)據(jù)用8bit(8位0、1)表示。計算機里的小數(shù)都是用科學計數(shù)法表示的,只不過與通常的科學計數(shù)法不同,不是10的次方,而是2的次方,例如3.14可以表示為1.57*2^1,0.618可以表示為1.236*2^(-1)。

U:Unsigned,無符號,與有符號(Signed)相對應(yīng),也就是數(shù)字不帶正負號,這種數(shù)據(jù)格式無法表示負數(shù),但是可以用同樣的數(shù)據(jù)長度表示更多正數(shù)。

E:Exponent,指數(shù),科學計數(shù)法的“次方”。

M:Mantissa,尾數(shù),科學計數(shù)法的“頭”或“有效數(shù)字”。

UE8M0:無符號(只能取0或正數(shù)),用8位數(shù)字表達指數(shù),用0位數(shù)字表達尾數(shù)(此時尾數(shù)默認為1),也就是說這種數(shù)字格式只能表示2的n次方,從2的0次方到2的255次方。

UE8M0與常規(guī)FP8的區(qū)別:常規(guī)FP8通常是“(S1)E5M2”或者“(S1)E4M3”,對數(shù)據(jù)的表示范圍有所不同。

與英偉達主導的E4M3/E5M2 FP8標準相比,UE8M0的無符號設(shè)計和全指數(shù)編碼更貼合國產(chǎn)芯片的架構(gòu)特性。例如,摩爾線程MTT S5000 GPU、芯原VIP9000 NPU等新一代國產(chǎn)芯片已原生支持UE8M0格式,并與DeepSeek等15家廠商完成聯(lián)合驗證。這種軟硬協(xié)同的設(shè)計,使國產(chǎn)芯片在同等硬件條件下可運行更大規(guī)模模型,“性價比” 競爭力顯著提升。

2

為什么是UE8M0?

國產(chǎn)算力的巧妙取舍

相比傳統(tǒng)浮點格式(如FP32、FP16或BF16),UE8M0 FP8的優(yōu)勢包括:

1、內(nèi)存和帶寬節(jié)省:FP8能減少50%-75%的內(nèi)存占用,而UE8M0進一步簡化結(jié)構(gòu)(無符號、無尾數(shù)),在相同硬件下可降低顯存需求高達75%,允許更大模型在有限資源上運行;

2、計算效率提升:通過將浮點乘法轉(zhuǎn)換為指數(shù)加法,利用整數(shù)計算單元,應(yīng)對算力不足的問題。在訓練速度上,可提高整體效率,減少硬件依賴(如手機芯片陣列);相比標準FP8,UE8M0更適合微縮放場景,減少量化誤差,并在國產(chǎn)芯片上提供更高兼容性;

3、成本降低:更低的內(nèi)存和計算需求意味著數(shù)據(jù)中心的運營成本下降;而且,相比FP4(更低精度但精度損失更大),UE8M0平衡了效率和可用性,避免過度犧牲模型性能。

舉例來說,2^m * 2^n = 2^(m+n),只需要一次加法運算即可完成。在硬件層面,加法器電路面積遠小于乘法器,運算速度也快數(shù)倍,這可大幅提升計算效率并降低芯片面積。

對國產(chǎn)芯片而言,這一特性意義重大。通過在有限制程下塞入更多整形計算單元,國產(chǎn)芯片可以在硬件性能暫時落后的情況下,通過算法優(yōu)化實現(xiàn)綜合競爭力的提升。

UE8M0格式的采用,體現(xiàn)了DeepSeek在工程優(yōu)化上的創(chuàng)新思維:以算法創(chuàng)新彌補硬件不足,為國產(chǎn)算力找到了一條差異化發(fā)展路徑。

三、挑戰(zhàn)與機遇并存:國產(chǎn)算力的黃金時代

盡管UE8M0 FP8帶來了新的機遇,國產(chǎn)算力仍面臨多重挑戰(zhàn)。

硬件基礎(chǔ)上,國產(chǎn)芯片在制程工藝、內(nèi)存帶寬、互聯(lián)技術(shù)等方面與國際頂尖水平存在差距。

軟件生態(tài)的成熟非一日之功,需要芯片廠商、算法公司、應(yīng)用開發(fā)者共同長期投入。 UE8M0 FP8要真正發(fā)揮作用,需要國產(chǎn)芯片在算子層面原生支持E4M3/E5M2格式,并支持UE8M0縮放標準。

國際市場政策環(huán)境的不確定性,也可能影響相關(guān)技術(shù)的全球推廣與合作。 國產(chǎn)算力需要在國內(nèi)市場率先形成閉環(huán)應(yīng)用,才能具備國際競爭力。

建議與思考,國產(chǎn)算力的發(fā)展路徑

對芯片廠商而言,應(yīng)加快FP8技術(shù)的硬件支持,同時積極參與軟件生態(tài)建設(shè),降低開發(fā)者使用門檻。

對模型開發(fā)商而言,應(yīng)繼續(xù)深化與芯片廠商的合作,通過算法創(chuàng)新彌補硬件不足,實現(xiàn)軟硬件協(xié)同優(yōu)化。

對政府部門而言,應(yīng)保持政策連續(xù)性,同時加強標準制定和產(chǎn)業(yè)引導,避免重復建設(shè)和資源浪費。

對行業(yè)用戶而言,應(yīng)給予國產(chǎn)算力更多試錯機會,通過實際應(yīng)用反饋促進技術(shù)迭代,共同構(gòu)建國產(chǎn)算力生態(tài)。

結(jié)語:

FP8的本質(zhì)是通過一定精度的犧牲,來取得更大的算力綜合性能。DeepSeek作為領(lǐng)先的AI模型開發(fā)商,其技術(shù)選型對行業(yè)具有強示范效應(yīng),成功應(yīng)用FP8證明了這一技術(shù)路徑的可行性,為整個產(chǎn)業(yè)提供了重要參考。

隨著國產(chǎn)芯片對FP8的全面支持和完善,中國有望在AI算力領(lǐng)域形成硬件、軟件、應(yīng)用協(xié)同發(fā)展的良性生態(tài)。這不僅將支撐中國AI產(chǎn)業(yè)的創(chuàng)新發(fā)展,更將在全球算力格局中塑造新的競爭態(tài)勢。

分享到

lixiangjing

算力豹主編

相關(guān)推薦