華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊

在鯤鵬昇騰開(kāi)發(fā)者大會(huì)2025上,華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊揭曉了昇騰CANN的核心能力。作為昇騰AI的核心平臺(tái),昇騰CANN正通過(guò)深度開(kāi)放與原子級(jí)創(chuàng)新,構(gòu)建了全棧開(kāi)放生態(tài)、高能效的算力底座,為中國(guó)AI開(kāi)發(fā)者打造了“軟硬協(xié)同”的創(chuàng)新引擎,夯實(shí)了大模型時(shí)代的創(chuàng)新基座。

從開(kāi)源共建到人才培養(yǎng),開(kāi)放生態(tài)使能每一位創(chuàng)新者

真正的偉大,從不誕生于孤島。而技術(shù)的高度,最終將由生態(tài)的廣度與活力來(lái)丈量。

在打造硬核技術(shù)能力的同時(shí),昇騰CANN正以”使能每一位創(chuàng)新者”為核心理念,通過(guò)”基礎(chǔ)層開(kāi)放+應(yīng)用層共創(chuàng)”的雙輪驅(qū)動(dòng)模式,為企業(yè)和開(kāi)發(fā)者打造易用、好用的開(kāi)發(fā)平臺(tái),全力推動(dòng)國(guó)產(chǎn)AI產(chǎn)業(yè)鏈的協(xié)同進(jìn)化,形成了從技術(shù)突破到商業(yè)轉(zhuǎn)化的生態(tài)閉環(huán)。

在基礎(chǔ)層面,昇騰CANN實(shí)現(xiàn)了鴻蒙、歐拉、麒麟、紅旗、統(tǒng)信五大國(guó)產(chǎn)系統(tǒng)的深度鏈接,為生態(tài)伙伴提供靈活高效的硬件定制開(kāi)發(fā)支持。在技術(shù)層面,昇騰CANN分層解耦架構(gòu)在關(guān)鍵領(lǐng)域取得了突破性進(jìn)展。高性能算子庫(kù)已使能30余家客戶/伙伴開(kāi)發(fā)260+核心算子,驅(qū)動(dòng)整網(wǎng)性能平均提升超10%;通信算法創(chuàng)新方面,基于pipeline算法、NHR核算法等前沿技術(shù)實(shí)現(xiàn)通信效率躍升50%+,助力10余家企業(yè)突破分布式訓(xùn)練瓶頸。

除了基礎(chǔ)層面的開(kāi)放合作與技術(shù)層面的創(chuàng)新之外,在應(yīng)用層,昇騰CANN與企業(yè)進(jìn)行深度合作,共同打造創(chuàng)新性的應(yīng)用。例如,在用戶比較關(guān)注的整圖優(yōu)化技術(shù)方面,昇騰CANN與20+行業(yè)領(lǐng)軍企業(yè)深度協(xié)同,通過(guò)創(chuàng)新性的應(yīng)用調(diào)度加速、內(nèi)存復(fù)用等六大優(yōu)化策略,實(shí)現(xiàn)了內(nèi)存占用壓縮25%、推理性能提升了20%的顯著突破。

另外,在加速引擎創(chuàng)新維度,CANN已經(jīng)支持硅基流動(dòng)等10余家AI基礎(chǔ)設(shè)施企業(yè)打造的差異化解決方案,成功孵化了智能調(diào)度引擎、分布式訓(xùn)練框架等創(chuàng)新套件,構(gòu)筑起覆蓋模型開(kāi)發(fā)、訓(xùn)練加速、部署優(yōu)化的全鏈路技術(shù)生態(tài)。

除此之外,昇騰CANN還積極與高校進(jìn)行開(kāi)放合作,共同推動(dòng)科研成果的落地。2020年底,由教育部、華為聯(lián)合發(fā)起了“智能基座”產(chǎn)教融合協(xié)同育人基地項(xiàng)目,首批布局了72所高校,將CANN相關(guān)知識(shí)納入校園課程,通過(guò)深化信息技術(shù)領(lǐng)域人才培養(yǎng)模式改革和協(xié)同創(chuàng)新,著力構(gòu)建以信息技術(shù)領(lǐng)域關(guān)鍵核心技術(shù)為基礎(chǔ)的產(chǎn)業(yè)與人才生態(tài)。

目前,昇騰CANN已經(jīng)與清華大學(xué)、北京大學(xué)、上海交通大學(xué)等頂尖高校合作,打造了卓越中心和孵化中心,針對(duì)前沿的創(chuàng)新課題孵化世界級(jí)的科研項(xiàng)目,引領(lǐng)AI的創(chuàng)新發(fā)展。

大會(huì)現(xiàn)場(chǎng),華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院教授、博士生導(dǎo)師陸璐教授展示了團(tuán)隊(duì)開(kāi)發(fā)的算子以及參數(shù)調(diào)優(yōu)等性能優(yōu)化的手段。基于昇騰算子模板庫(kù)CATLASS,算子開(kāi)發(fā)過(guò)程中有大量可以復(fù)用、拼裝的開(kāi)源代碼實(shí)現(xiàn),通過(guò)參數(shù)修改可以快速調(diào)整切分策略,高效實(shí)現(xiàn)性能尋優(yōu)。陸教授指出,只要熟悉昇騰編程平臺(tái),掌握了其體系架構(gòu),很多應(yīng)用就能夠在昇騰平臺(tái)中順利地運(yùn)行起來(lái)。通過(guò)不斷優(yōu)化,能夠?qū)⑿阅軓?0%提升到100%,甚至在某些應(yīng)用場(chǎng)景下,性能能夠提升200%到500%。在這期間,團(tuán)隊(duì)也參與到了開(kāi)源模板庫(kù)CATLASS的建設(shè),大幅提升開(kāi)發(fā)者的開(kāi)發(fā)效率。

除了與企業(yè)和高校的合作之外,昇騰CANN同樣重視個(gè)人開(kāi)發(fā)者的培養(yǎng)。天津理工大學(xué)電氣工程與自動(dòng)化學(xué)院人工智能專(zhuān)業(yè)2022級(jí)學(xué)生王富平,從2023年開(kāi)始參加昇騰AI創(chuàng)新大賽,在昇騰CANN異構(gòu)計(jì)算架構(gòu)等領(lǐng)域進(jìn)行了研究探索,不但通過(guò)大賽學(xué)習(xí)到了最前沿的技術(shù),收獲了諸多的創(chuàng)新成果,而且成為了天津市首位華為開(kāi)發(fā)者布道師,首屆“求實(shí)創(chuàng)新班”成員。

張迪煊在主題演講中表示,目前,華為已經(jīng)累計(jì)培養(yǎng)了40多萬(wàn)名學(xué)昇騰、懂昇騰的學(xué)生,很多學(xué)生已經(jīng)進(jìn)入社會(huì),進(jìn)入企業(yè),成為推動(dòng)AI發(fā)展的中堅(jiān)力量。

昇騰CANN與企業(yè)、高??蒲袡C(jī)構(gòu)的生態(tài)合作,很好地促進(jìn)了雙方的共同成長(zhǎng),并給產(chǎn)業(yè)創(chuàng)造了巨大的商業(yè)價(jià)值。而且通過(guò)創(chuàng)新大賽等形式,實(shí)現(xiàn)了對(duì)個(gè)人開(kāi)發(fā)者的培養(yǎng),為社會(huì)輸送了一大批優(yōu)秀的創(chuàng)新人才,為中國(guó)科技的發(fā)展帶來(lái)了極其深遠(yuǎn)的影響。

根據(jù)昇騰官方數(shù)據(jù)統(tǒng)計(jì),6年來(lái),有超過(guò)60萬(wàn)開(kāi)發(fā)者了解CANN、使用CANN、賦予CANN創(chuàng)新活力。在昇騰CANN持續(xù)推進(jìn)開(kāi)放,以及產(chǎn)業(yè)各方開(kāi)發(fā)者、企業(yè)積極參與之下,CANN生態(tài)正在快速成長(zhǎng)。目前CANN的算子認(rèn)證開(kāi)發(fā)者已經(jīng)超過(guò)了6000人。

截至目前,基于昇騰NPU+昇騰CANN技術(shù)生態(tài)所能實(shí)現(xiàn)的AI應(yīng)用性能,已經(jīng)能夠比肩CUDA,并且在開(kāi)放的廣度、深度上,都比CUDA更進(jìn)一步。取得如此輝煌的成績(jī),昇騰CANN僅僅用了6年時(shí)間,創(chuàng)造了科技界的一個(gè)奇跡。

如今,從Ascend C算子編程語(yǔ)言、AOL算子加速庫(kù)、GE圖引擎、HCCL集合通信庫(kù)、畢昇編譯器、Runtime運(yùn)行時(shí)到Driver驅(qū)動(dòng),昇騰CANN正在通過(guò)不斷豐富高層、底層組件,進(jìn)一步充實(shí)開(kāi)發(fā)者們的彈藥庫(kù),以全面開(kāi)放支持基于昇騰的軟硬協(xié)同極致創(chuàng)新。

不難發(fā)現(xiàn),在”基礎(chǔ)層開(kāi)放+應(yīng)用層共創(chuàng)”的雙輪驅(qū)動(dòng)模式,昇騰CANN不僅重塑了AI算力效能邊界,而且推動(dòng)了國(guó)產(chǎn)AI產(chǎn)業(yè)鏈的協(xié)同進(jìn)化,形成從技術(shù)突破到商業(yè)轉(zhuǎn)化的生態(tài)閉環(huán)。目前,昇騰CANN已成為中國(guó)開(kāi)發(fā)者生態(tài)最活躍、技術(shù)迭代最迅猛的AI創(chuàng)新平臺(tái),持續(xù)以開(kāi)放生態(tài)與全棧賦能,引領(lǐng)智能算力時(shí)代。

構(gòu)建差異化開(kāi)放策略,用分層架構(gòu)賦能AI場(chǎng)景化創(chuàng)新

當(dāng)用戶需求以天為單位迭代更新,當(dāng)產(chǎn)品迭代周期從“年”壓縮到“周”,當(dāng)算法迭代以天為單位,每一分鐘的效率提升都可能轉(zhuǎn)化為商業(yè)戰(zhàn)場(chǎng)的制勝先機(jī)。

打造高效的開(kāi)發(fā)機(jī)制,不僅是企業(yè)內(nèi)部需要解決的挑戰(zhàn),更是華為昇騰CANN的使能所在。在去年的昇騰AI開(kāi)發(fā)者峰會(huì),昇騰宣布了深度開(kāi)放策略,通過(guò)構(gòu)建覆蓋算子開(kāi)發(fā)、系統(tǒng)調(diào)優(yōu)到編譯鏈優(yōu)化的全場(chǎng)景賦能體系,賦能開(kāi)發(fā)者基于昇騰進(jìn)行大模型原生創(chuàng)新;7月份,昇騰CANN關(guān)鍵的高層組件開(kāi)放代碼到Gitee社區(qū),客戶和合作伙伴正式拉開(kāi)了自主創(chuàng)新之路。

為了讓不同技術(shù)能力的開(kāi)發(fā)者都能夠簡(jiǎn)單、高效地開(kāi)發(fā)創(chuàng)新應(yīng)用,昇騰CANN通過(guò)匹配不同的場(chǎng)景,打造了分層開(kāi)放的架構(gòu),通過(guò)算法創(chuàng)新層、系統(tǒng)優(yōu)化層和編譯生態(tài)層三層架構(gòu)的差異化開(kāi)放策略,賦能開(kāi)發(fā)者基于場(chǎng)景化的AI應(yīng)用創(chuàng)新。

在算法創(chuàng)新層,通過(guò)開(kāi)源FlashAttention、Matmul等核心算子及MESH/RING通信算法的最佳實(shí)踐代碼庫(kù),使開(kāi)發(fā)者可基于業(yè)務(wù)場(chǎng)景進(jìn)行”魔改式”創(chuàng)新。

大會(huì)現(xiàn)場(chǎng),張迪煊以華南理工大學(xué)團(tuán)隊(duì)的開(kāi)發(fā)案例進(jìn)行了詳細(xì)介紹。據(jù)了解,華南理工大學(xué)團(tuán)隊(duì)利用全新發(fā)布的CATLASS算子模板庫(kù)開(kāi)發(fā)Matmul算子,開(kāi)發(fā)周期從傳統(tǒng)4人周壓縮至2人周,并通過(guò)參數(shù)動(dòng)態(tài)調(diào)優(yōu)實(shí)現(xiàn)20%+性能增益,開(kāi)創(chuàng)了”開(kāi)發(fā)即優(yōu)化”的新模式。

在系統(tǒng)優(yōu)化層,CANN開(kāi)放190+底層原子接口,實(shí)現(xiàn)硬件能力的顆?;尫?。清華大學(xué)計(jì)圖團(tuán)隊(duì)聯(lián)合昇騰研發(fā)的MoE專(zhuān)用算子體系,通過(guò)調(diào)用aclGraph模型調(diào)度接口與INT4量化技術(shù),成功將DeepSeek R1模型的推理時(shí)延降低50%,驗(yàn)證了原子能力組合創(chuàng)新的巨大潛力。

在編譯生態(tài)層,CANN與Triton框架的深度整合引發(fā)開(kāi)發(fā)范式變革:通過(guò)開(kāi)放畢昇編譯器的AscendNPU IR接口,開(kāi)發(fā)者可直接使用Python語(yǔ)法編寫(xiě)高性能算子,底層硬件差異被完全抽象化。同時(shí)提供的編譯層控制接口,使第三方框架能定制化調(diào)整數(shù)據(jù)流編排策略,在智能醫(yī)療影像分析等場(chǎng)景中實(shí)現(xiàn)編譯效率提升40%。

實(shí)際上,實(shí)行分層架構(gòu)是昇騰CANN一直堅(jiān)持的開(kāi)放模式,能夠讓開(kāi)發(fā)者針對(duì)不同的場(chǎng)景進(jìn)行需求匹配,實(shí)現(xiàn)性能與開(kāi)發(fā)效率的雙重兼顧。豐富的參考樣例能夠很好地匹配場(chǎng)景魔改,實(shí)現(xiàn)敏捷開(kāi)發(fā)和高效開(kāi)發(fā)。此外,底層原子級(jí)能力支持靈活組合,讓開(kāi)發(fā)者可以更好地挖掘硬件性能。

“三駕馬車(chē)”協(xié)同創(chuàng)新,核心技術(shù)讓AI創(chuàng)新跑出+速度

當(dāng)MoE架構(gòu)成為大模型主流,當(dāng)單日推理Token量突破10萬(wàn)億,當(dāng)企業(yè)爭(zhēng)相部署千億參數(shù)模型——AI產(chǎn)業(yè)在狂飆突進(jìn)的同時(shí),也深陷計(jì)算性能、開(kāi)發(fā)效率與生態(tài)協(xié)同的三重圍城。

眾所周知,硬件是構(gòu)筑AI算力的基石底座。從硅晶圓上的微觀電路到數(shù)據(jù)中心里的龐大陣列,硬件架構(gòu)的持續(xù)創(chuàng)新為AI技術(shù)提供了強(qiáng)大算力支撐。隨著AI技術(shù)的持續(xù)突破,模型優(yōu)化技術(shù)從“模型結(jié)構(gòu)創(chuàng)新”延伸到“訓(xùn)推全流程”的算法創(chuàng)新,利用底層硬件資源,通過(guò)在核心技術(shù)上的持續(xù)突破,昇騰CANN在計(jì)算、內(nèi)存、通信三個(gè)維度持續(xù)釋放硬件價(jià)值,用“三駕馬車(chē)”重構(gòu)AI算力。

在計(jì)算層面,針對(duì)MoE大模型訓(xùn)練場(chǎng)景的”卡脖子”難題,CANN創(chuàng)新性推出超級(jí)算子MLAPO:通過(guò)Vector與Cube計(jì)算單元并行化改造,將原本13個(gè)串行小算子融合為統(tǒng)一融合大算子,成功將MLA前處理耗時(shí)從行業(yè)平均109us壓縮至45us,在螞蟻金融風(fēng)控模型、騰訊廣告推薦系統(tǒng)中實(shí)現(xiàn)20%+端到端性能提升,破解了Transformer架構(gòu)的算力瓶頸。

在內(nèi)存層面,面對(duì)動(dòng)態(tài)shape場(chǎng)景的”內(nèi)存碎片化”痼疾,CANN研發(fā)的多重地址映射技術(shù)猶如為內(nèi)存系統(tǒng)植入”智能中樞”:通過(guò)物理內(nèi)存動(dòng)態(tài)切分與虛擬地址智能適配,實(shí)現(xiàn)內(nèi)存碎片的自動(dòng)化拼接利用,使京東商品搜索、騰訊短視頻推薦等業(yè)務(wù)場(chǎng)景的內(nèi)存利用率躍升20%以上,單卡可承載的并發(fā)請(qǐng)求量突破行業(yè)極限。

在分布式訓(xùn)練領(lǐng)域,CANN打造的NPUDirect通信算法徹底改寫(xiě)游戲規(guī)則:通過(guò)NPU Vector核直控?cái)?shù)據(jù)傳輸,將傳統(tǒng)RDMA通信所需的3次同步精簡(jiǎn)為1次原子操作,使得科大訊飛語(yǔ)音大模型的跨機(jī)通信時(shí)延驟降90%,中國(guó)移動(dòng)的千卡集群通信效率提升50%,開(kāi)創(chuàng)了萬(wàn)卡級(jí)分布式訓(xùn)練的可行性路徑。

值得關(guān)注的是,昇騰CANN+昇騰NPU的組合,無(wú)論是在效率還是成本方面,都實(shí)現(xiàn)了與海外主流算力平臺(tái)的快速看齊,在某些領(lǐng)域甚至實(shí)現(xiàn)了超越,徹底打破了海外算力平臺(tái)獨(dú)大的格局。

大會(huì)現(xiàn)場(chǎng),科大訊飛副總裁、AI工程院院長(zhǎng)潘青華展示了訊飛和昇騰的合作成果。據(jù)介紹,今年3月,訊飛基于昇騰算力率先實(shí)現(xiàn)了MoE模型大規(guī)??绻?jié)點(diǎn)并行集群的推理,推理性能提升了3倍。

除此之外,AI Infra的無(wú)問(wèn)芯穹采用了昇騰平臺(tái),并基于昇騰CANN進(jìn)行深度優(yōu)化創(chuàng)新,針對(duì)大模型推理集群部署中的通信開(kāi)銷(xiāo)問(wèn)題進(jìn)行技術(shù)攻關(guān),實(shí)現(xiàn)單算子性能提升20%,顯著降低了算力資源的消耗。

可以看出,通過(guò)技術(shù)上的持續(xù)創(chuàng)新,昇騰CANN不僅實(shí)現(xiàn)了單點(diǎn)性能的指數(shù)級(jí)提升,更構(gòu)建起”芯片級(jí)優(yōu)化-系統(tǒng)級(jí)調(diào)度-集群級(jí)協(xié)同”的全棧能力,這也標(biāo)志著AI算力技術(shù)正式邁入”原子級(jí)精準(zhǔn)調(diào)優(yōu)”的新紀(jì)元。

寫(xiě)在最后:用技術(shù)創(chuàng)新+生態(tài)開(kāi)放夯實(shí)AI時(shí)代的創(chuàng)新基座

從分層開(kāi)放的技術(shù)架構(gòu)到產(chǎn)學(xué)研生態(tài)協(xié)同創(chuàng)新,再到計(jì)算、內(nèi)存、通信等領(lǐng)域的底層技術(shù)突破,昇騰CANN始終堅(jiān)持著技術(shù)創(chuàng)新和開(kāi)放生態(tài)兩手抓的理念,在不斷優(yōu)化底層技術(shù)的同時(shí),以全棧開(kāi)放的姿態(tài)與產(chǎn)學(xué)研合作伙伴攜手創(chuàng)新,不斷地為開(kāi)發(fā)者提供好用、易用的產(chǎn)品和解決方案,為企業(yè)AI應(yīng)用創(chuàng)造無(wú)限的價(jià)值,為AI產(chǎn)業(yè)發(fā)展提供了新的動(dòng)力。

展望未來(lái),昇騰CANN將通過(guò)不斷豐富高層、底層組件,為開(kāi)發(fā)者們提供更加豐富的彈藥,并通過(guò)開(kāi)放的生態(tài)建設(shè),為開(kāi)發(fā)者的AI創(chuàng)新全力賦能。

來(lái)源:51CTO

分享到

zhupb

相關(guān)推薦