為了進(jìn)一步挖掘性能潛力,昇騰采用更加底層的優(yōu)化策略,將整個MLA預(yù)處理階段的Vector和Cube計(jì)算并行處理,并通過流水優(yōu)化等方式,把前處理過程中的13個小算子融合成一個超級大算子MLAPO(Mla Preprocess Operation)。
通過這種大型融合方式,小算子的頭開銷和下發(fā)開銷基本消除。在VV融合的基礎(chǔ)上,算子性能再次提升50%以上, DeepSeek-V3整網(wǎng)計(jì)算性能提升20%以上。
展望未來,隨著人工智能應(yīng)用場景的不斷拓展和深化,對模型性能和效率的要求也將愈發(fā)嚴(yán)苛。昇騰CANN創(chuàng)新的MLA算子,憑借在DeepSeek系列模型上取得的顯著優(yōu)化成果,已然成為行業(yè)內(nèi)的標(biāo)桿案例。
在未來的技術(shù)探索道路上,昇騰CANN團(tuán)隊(duì)將繼續(xù)秉持創(chuàng)新精神,深入研究硬件與軟件的協(xié)同優(yōu)化策略,不斷探索更多適用于不同場景的融合方式和計(jì)算加速技術(shù)。他們不僅會在現(xiàn)有成果的基礎(chǔ)上持續(xù)深耕,進(jìn)一步提升DeepSeek系列模型的性能表現(xiàn),還將積極拓展技術(shù)應(yīng)用邊界,推動MLA算子在更多類型的模型中發(fā)揮效能。
相信在昇騰CANN團(tuán)隊(duì)的不懈努力下,創(chuàng)新的MLA算子將持續(xù)引領(lǐng)人工智能計(jì)算效率的提升潮流,為AI領(lǐng)域的蓬勃發(fā)展注入源源不斷的強(qiáng)大動力,助力人工智能技術(shù)在更廣泛的領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用和突破。