芯東西(公眾號(hào):aichip001)
作者 | 全球AI芯片峰會(huì)
芯東西9月17日?qǐng)?bào)道,今日,2025全球AI芯片峰會(huì)在上海舉行,來自AI芯片領(lǐng)域的42位產(chǎn)學(xué)研專家及創(chuàng)業(yè)先鋒代表,暢談對(duì)大模型下半場(chǎng)中國(guó)AI芯片創(chuàng)新、落地、生存、破局的最新觀察與思考。
一如既往,大會(huì)將國(guó)產(chǎn)AI芯片新老勢(shì)力、核心生態(tài)鏈企業(yè)、投資機(jī)構(gòu)代表匯聚一堂,集中輸出技術(shù)及產(chǎn)業(yè)干貨,全景式解構(gòu)AI芯片熱門發(fā)展方向。
本屆峰會(huì)由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術(shù)研討會(huì)+展覽區(qū)組成,覆蓋大模型AI芯片、架構(gòu)創(chuàng)新、存算一體、超節(jié)點(diǎn)與智算集群技術(shù)等前沿議題。AWE同時(shí)也是本次峰會(huì)的戰(zhàn)略合作機(jī)構(gòu)。
值得一提的是,多家AI芯片企業(yè)在會(huì)上放出猛料。例如,幾位資深投資人分享投資AI芯片企業(yè)所看重的條件,一家超節(jié)點(diǎn)創(chuàng)企成立幾個(gè)月就融資六七億,云天勵(lì)飛正在研發(fā)新一代NPU Nova500,華為昇騰將在12月把CANN全量開源,曦望Sunrise下一代芯片的大模型推理性價(jià)比對(duì)標(biāo)英偉達(dá)Rubin GPU。
在展覽區(qū),超摩科技、奎芯科技、特勵(lì)達(dá)力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟科技等11家展商進(jìn)行展示。
▲展覽區(qū)一隅
作為主辦方代表,智一科技聯(lián)合創(chuàng)始人、CEO龔倫常發(fā)表致辭。從2018年3月至今,全球AI芯片峰會(huì)共邀請(qǐng)了超過180位產(chǎn)學(xué)研大咖,分享行業(yè)趨勢(shì)與洞見,已成為AI芯片領(lǐng)域唯一一個(gè)持續(xù)舉辦且具有廣泛影響力的產(chǎn)業(yè)峰會(huì),也是了解國(guó)內(nèi)外AI芯片動(dòng)態(tài)的重要窗口。
▲智一科技聯(lián)合創(chuàng)始人、CEO龔倫常
龔倫常還預(yù)告了將于今年11月底在深圳舉辦的2025中國(guó)具身智能機(jī)器人大會(huì),歡迎大家參會(huì)交流。
注:本文整理了主論壇與大模型AI芯片專題論壇的精華總結(jié)。更多相關(guān)報(bào)道將在后續(xù)發(fā)布。
一、IEEE Fellow王中風(fēng)教授:解讀AI芯片三大前沿方向
應(yīng)對(duì)模型規(guī)?!俺枴痹鲩L(zhǎng)、傳統(tǒng)架構(gòu)“內(nèi)存墻”、應(yīng)用場(chǎng)景日趨多元化三大挑戰(zhàn),中山大學(xué)集成電路學(xué)院院長(zhǎng)、IEEE/AAIA Fellow王中風(fēng)教授探討了AI芯片設(shè)計(jì)的三大前沿方向,為行業(yè)的發(fā)展提供了寶貴的見解和指導(dǎo)。
一是模型驅(qū)動(dòng)的高效芯片設(shè)計(jì),在模型尺寸增長(zhǎng)的趨勢(shì)下,讓硬件深度適配AI模型特性,而非讓模型發(fā)展受限于硬件資源。
王中風(fēng)教授團(tuán)隊(duì)提出的Transformer硬件加速架構(gòu)設(shè)計(jì)工作,是首個(gè)完整解決Attention計(jì)算加速挑戰(zhàn)的方案,獲得了IEEE 2020年片上系統(tǒng)年會(huì)(SOCC)最佳論文獎(jiǎng);N:M稀疏Transformer推理加速框架,可快速實(shí)現(xiàn)任意N:M稀疏比例的Transformer模型開發(fā)和硬件部署,同時(shí)能保持精度穩(wěn)定;粗粒度-細(xì)粒度混合精度量化,搭配專用多核加速器來處理差異計(jì)算,能夠?qū)崿F(xiàn)更靈活的調(diào)度。
二是應(yīng)用驅(qū)動(dòng)的AI芯片創(chuàng)新,注重模型的落地與應(yīng)用,兼顧能效和靈活性的探索。
架構(gòu)創(chuàng)新沒有唯一解,只有更合適的解。結(jié)合可重構(gòu)硬件架構(gòu)(動(dòng)態(tài)適配不同算法需求)、領(lǐng)域?qū)S眉軜?gòu)(在垂直場(chǎng)景實(shí)現(xiàn)超過通用架構(gòu)的能效)、Chiplet等先進(jìn)封裝技術(shù)(提高設(shè)計(jì)靈活性、降低成本、縮短上市周期),以應(yīng)用驅(qū)動(dòng)為核心的AI芯片設(shè)計(jì),將是未來值得重點(diǎn)探索的研究方向。
三是基于存算一體的芯片設(shè)計(jì),從存算架構(gòu)根源降低能耗,平衡性能與功耗。
存算一體架構(gòu)是芯片設(shè)計(jì)范式轉(zhuǎn)移的一個(gè)重要方向。數(shù)字存算架構(gòu)的優(yōu)勢(shì)是高精度、高穩(wěn)定性、生態(tài)更成熟,但存在高能耗、高硬件開銷、低存儲(chǔ)密度等問題;模擬存算架構(gòu)具有低能耗、高存儲(chǔ)密度、低硬件開銷等優(yōu)勢(shì),但精度較低、對(duì)工藝要求高、生態(tài)不成熟。王中風(fēng)教授團(tuán)隊(duì)研究的基于SRAM的數(shù)字存內(nèi)計(jì)算架構(gòu)大模型加速器,支持多種數(shù)據(jù)精度,相比于傳統(tǒng)馮諾依曼架構(gòu),能效比可提升數(shù)十倍。
上述三條路徑并非孤立,而是相互支撐,共同推動(dòng)AI芯片從“通用適配”走向“精準(zhǔn)定制”。
▲中山大學(xué)集成電路學(xué)院院長(zhǎng)、IEEE/AAIA Fellow王中風(fēng)教授
王中風(fēng)教授總結(jié)說,當(dāng)前AI芯片發(fā)展呈現(xiàn)三大關(guān)鍵趨勢(shì):一是從通用計(jì)算走向領(lǐng)域?qū)S玫摹皩S没?,二是算法與軟硬件共同進(jìn)化的“協(xié)同化”,三是通過新型計(jì)算打破性能瓶頸的“一體化”。
以AI計(jì)算專用架構(gòu)SRDA(系統(tǒng)級(jí)極簡(jiǎn)可重構(gòu)數(shù)據(jù)流)為例,通過分布式3D內(nèi)存控制技術(shù)、可重構(gòu)數(shù)據(jù)流計(jì)算架構(gòu)、系統(tǒng)級(jí)精簡(jiǎn)軟硬件融合設(shè)計(jì)等創(chuàng)新,在大模型智算場(chǎng)景可以大幅提升AI算力利用率與性能,驅(qū)使未來基于國(guó)產(chǎn)工藝的AI算力芯片也可以實(shí)現(xiàn)不亞于國(guó)外更先進(jìn)工藝制程的GPGPU性能。
下一代計(jì)算范式的發(fā)展,首先是軟件、算法、硬件的共生,實(shí)現(xiàn)全環(huán)節(jié)協(xié)同進(jìn)化;其次是實(shí)現(xiàn)無處不在、高效且可信的智能計(jì)算,在云端實(shí)現(xiàn)支持AGI訓(xùn)練的巨型超算系統(tǒng),在邊緣實(shí)現(xiàn)自主機(jī)器人的實(shí)時(shí)決策大腦,在端側(cè)實(shí)現(xiàn)超低功耗的Always-On感知芯片。
此外,高效支持智能計(jì)算,還需要促進(jìn)新興技術(shù)融合,實(shí)現(xiàn)光子計(jì)算、量子計(jì)算、AI芯片的潛在結(jié)合。
王中風(fēng)教授呼吁開放標(biāo)準(zhǔn),推動(dòng)接口、互聯(lián)、指令集等的開放,降低創(chuàng)新門檻;注意產(chǎn)學(xué)研深度合作,共同攻克量智融合、存算一體、新材料、新工藝、新器件等領(lǐng)域的技術(shù)難題;注重人才培養(yǎng),培養(yǎng)兼具算法、架構(gòu)、底層電路及軟件開發(fā)等技能的交叉型人才。
二、高端對(duì)話:大模型下半場(chǎng)引爆國(guó)產(chǎn)算力,AI芯片IPO潮將更具想象
高端對(duì)話以《?模型下半場(chǎng),中國(guó)AI芯?的破局與突圍》為主題,由智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國(guó)仁主持,和利資本合伙?王馥宇、普華資本管理合伙?蔣純、BV百度風(fēng)投董事總經(jīng)理劉?、IO資本創(chuàng)始合伙?趙占祥四位嘉賓進(jìn)行分享。
張國(guó)仁談道,大模型的下半場(chǎng)不僅是技術(shù)競(jìng)賽,更是生態(tài)競(jìng)爭(zhēng),期待中國(guó)即將誕生“芯片+場(chǎng)景+算法”的垂直整合者,出現(xiàn)更多的單項(xiàng)冠軍。
▲智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國(guó)仁
1、DeepSeek擴(kuò)大算力池后,投資AI芯片企業(yè)看什么?
王馥宇認(rèn)為,DeepSeek的出現(xiàn)意味著中國(guó)出現(xiàn)了“Leading Customer”,好的科技公司會(huì)向芯片公司提出需求。蔣純進(jìn)一步補(bǔ)充道,DeepSeek最大的意義是讓中國(guó)有了一套自有大模型體系,讓國(guó)產(chǎn)芯片有了用武之地。
這些資深投資人會(huì)傾向于投資什么樣的AI芯片團(tuán)隊(duì)?幾位投資人均看重企業(yè)的技術(shù)路線是否收斂。
趙占祥尤其關(guān)注技術(shù)路線是否有提升及創(chuàng)新。劉水提到百度風(fēng)投不單純以商業(yè)化衡量項(xiàng)目?jī)r(jià)值。蔣純說:“小孩子才做選擇,成年人我都要?!彼硎境墒旒夹g(shù)和創(chuàng)新技術(shù)都在投資。王馥宇將市場(chǎng)分為兩類,一類是相對(duì)確定的市場(chǎng),考驗(yàn)團(tuán)隊(duì)的積累和執(zhí)行力,第二類是靠技術(shù)驅(qū)動(dòng)市場(chǎng)發(fā)展。
展望芯片企業(yè)的未來機(jī)遇,蔣純認(rèn)為,碳基文明被硅基文明取代之前,算力的市場(chǎng)機(jī)會(huì)看不到頭,市場(chǎng)前景無窮大,現(xiàn)在的技術(shù)體系并不是終局。
2、一家超節(jié)點(diǎn)創(chuàng)企,成立幾個(gè)月融資六七億
王馥宇稱,很多大廠同樣在構(gòu)建非全家桶方式的網(wǎng)絡(luò)架構(gòu),未來百花齊放,企業(yè)要保持開發(fā)、敏感。
在蔣純看來,對(duì)中國(guó)企業(yè)面臨的現(xiàn)實(shí)情況而言,“小米加步槍”的scale out路線和超節(jié)點(diǎn)所代表的scale up路線至少是同樣重要。
趙占祥透露,IO資本最近在看的一個(gè)超節(jié)點(diǎn)創(chuàng)業(yè)公司,成立幾個(gè)月就融資六七億,但在超節(jié)點(diǎn)機(jī)遇背后,網(wǎng)絡(luò)的可靠性、故障率要求仍面臨挑戰(zhàn)。
BV百度風(fēng)投曾投資不少具身智能企業(yè)。據(jù)劉水分享,具身智能是個(gè)新興賽道,芯片作為核心硬件支撐,目前還在迭代期,真正能完美匹配各類復(fù)雜物理交互場(chǎng)景的成熟芯片產(chǎn)品,行業(yè)內(nèi)仍在探索。
現(xiàn)階段,很多企業(yè)選擇x86 CPU加AI芯片的組合來搭建基礎(chǔ)算力平臺(tái),這是行業(yè)在技術(shù)演進(jìn)過程中非常自然的過渡性選擇,能快速驗(yàn)證產(chǎn)品邏輯、跑通初步場(chǎng)景。
而這種 “過渡性” 也正是產(chǎn)業(yè)的機(jī)會(huì)所在——未來無論是更適配具身特性的專用芯片研發(fā),還是基于現(xiàn)有硬件的算力效率優(yōu)化,只要能解決實(shí)際場(chǎng)景中的痛點(diǎn),就是產(chǎn)業(yè)發(fā)展的機(jī)會(huì)點(diǎn)。
3、寒武紀(jì)一度登頂A股,“寄托了全村人的希望”
幾位投資人雖然主要看一級(jí)市場(chǎng),但也聊到對(duì)二級(jí)市場(chǎng)的觀察。他們普遍認(rèn)為,接下來要IPO的AI芯片公司會(huì)比登陸2019年科創(chuàng)板的那批國(guó)產(chǎn)替代概念芯片公司更有想象力。
今年,寒武紀(jì)一度超越貴州茅臺(tái)登頂A股“股王”。在蔣純看來,寒武紀(jì)的暴漲背后可能“寄托了全村人的希望”。與上一波芯片企業(yè)上市潮相比,當(dāng)時(shí)國(guó)產(chǎn)替代概念市場(chǎng)有限,但現(xiàn)在AI市場(chǎng)的需求是無限的。
劉水補(bǔ)充說,AI需求正為計(jì)算基礎(chǔ)設(shè)施建設(shè)注入強(qiáng)勁動(dòng)力。當(dāng)前,不少國(guó)產(chǎn)芯片企業(yè)積極推進(jìn)IPO進(jìn)程,這本身是行業(yè)加速成長(zhǎng)的體現(xiàn)——借助資本市場(chǎng)的力量,企業(yè)能更好地投入研發(fā)、擴(kuò)充產(chǎn)能,為技術(shù)突破和規(guī)?;桓兜於ɑA(chǔ)。
不過,上市只是發(fā)展的新起點(diǎn),最終能否站穩(wěn)市場(chǎng),關(guān)鍵仍在于技術(shù)的成熟度、產(chǎn)能的穩(wěn)定供給以及客戶的深度認(rèn)可。
從長(zhǎng)遠(yuǎn)來看,企業(yè)需要以持續(xù)的技術(shù)創(chuàng)新和扎實(shí)的商業(yè)化能力,真正實(shí)現(xiàn)產(chǎn)業(yè)價(jià)值與市場(chǎng)價(jià)值的同步兌現(xiàn)。
三、瞄準(zhǔn)大模型高效推理,做好生態(tài)開源開放
面向持續(xù)爆發(fā)的大模型推理需求,如何在芯片架構(gòu)、開源開放、高速互連、超節(jié)點(diǎn)等方向探索創(chuàng)新?
在上午主論壇期間,來自云天勵(lì)飛、華為昇騰、行云集成電路、奎芯科技、探微芯聯(lián)、新華三的產(chǎn)業(yè)嘉賓分別發(fā)表主題演講,分享了他們的觀察與思考。
1、云天勵(lì)飛陳寧:國(guó)產(chǎn)AI推理芯片迎歷史性機(jī)遇
云天勵(lì)飛董事長(zhǎng)兼CEO陳寧談道,在“政策+需求”雙重驅(qū)動(dòng)下,國(guó)產(chǎn)AI推理芯片正迎來絕佳發(fā)展機(jī)遇。根據(jù)灼識(shí)咨詢報(bào)告,中國(guó)NPU市場(chǎng)規(guī)模短期預(yù)計(jì)新增規(guī)模339.3億元,長(zhǎng)期預(yù)計(jì)新增規(guī)模1092億元。
高效Token生成是衡量推理芯片性價(jià)比的關(guān)鍵指標(biāo)。11年來,云天勵(lì)飛已研發(fā)五代NPU,打造相關(guān)指令集、專用算子、存算一體架構(gòu)、低比特混合量化等芯片硬件技術(shù)。其“算力積木”架構(gòu)是基于國(guó)產(chǎn)工藝的D2D Chiplet & C2C Mesh大模型推理架構(gòu),具有可擴(kuò)展性強(qiáng)、靈活性強(qiáng)、實(shí)時(shí)性高等特點(diǎn)。
云天勵(lì)飛提供“深穹”、“深界”、“深擎”三大AI推理芯片系列,分別面向大模型推理算力中心/超節(jié)點(diǎn)/一體機(jī)/加速卡、邊緣網(wǎng)關(guān)/邊緣盒子/家庭主機(jī)、及機(jī)器人/無人機(jī)/無人車等AI推理等應(yīng)用。
目前,云天勵(lì)飛正在研發(fā)新一代NPU Nova500,并基于Nova500推出多款性能更強(qiáng)的AI推理芯片。
▲云天勵(lì)飛董事長(zhǎng)兼CEO陳寧
2、華為昇騰王曉雷:公布全面開源的三個(gè)關(guān)鍵節(jié)點(diǎn)
華為昇騰處理器產(chǎn)品總經(jīng)理王曉雷談道,英偉達(dá)的軟件開發(fā)人員是硬件的兩倍,我們作為生態(tài)的后來者,要做好開源開放,跟客戶與伙伴一起,把芯片和解決方案做得更好。
芯片方案多種多樣,如何把它用好,是一件非常復(fù)雜的事情。
AI計(jì)算領(lǐng)域,矩陣執(zhí)行過程需要保證數(shù)據(jù)到位,而整個(gè)數(shù)據(jù)搬移過程是計(jì)算優(yōu)化的核心。處理器跟底軟團(tuán)隊(duì)需要與算法和業(yè)務(wù)專家聯(lián)合優(yōu)化,才能發(fā)揮出處理器的高性能。
王曉雷現(xiàn)場(chǎng)公布了昇騰未來進(jìn)一步全面開源的關(guān)鍵節(jié)點(diǎn),包括9月30日算子庫全部開源、12月30日CANN全量開源、2026年起解決方案配套產(chǎn)品上市即開源。
▲華為昇騰處理器產(chǎn)品總經(jīng)理王曉雷
3、?云集成電路季宇:10萬元跑滿血版DeepSeek
?云集成電路創(chuàng)始?&CEO季宇拋出一個(gè)問題:誰困住了AI產(chǎn)業(yè)?
他的答案是大型機(jī)投資回報(bào)率。超節(jié)點(diǎn)化、大型機(jī)化的成本門檻巨大,但隨著大模型內(nèi)存需求接近DDR/LPDDR的甜點(diǎn),高質(zhì)量模型的硬件系統(tǒng)平民化曙光已現(xiàn)。
其概念原型產(chǎn)品大模型一體機(jī)“褐蟻”采用5090級(jí)算力+TB級(jí)高帶寬DDR5,能以10萬元成本運(yùn)行DeepSeek R1/V3 671B FP8,對(duì)話速度超過20TPS,20K上下文prefill在18秒以內(nèi)。
集群概念驗(yàn)證方案“蟻群”可將超過40臺(tái)“褐蟻”機(jī)器組合作為decode節(jié)點(diǎn),prefill節(jié)點(diǎn)采用4根SSD替代DDR,總成本為300萬~500萬元,以約1~2臺(tái)8卡超算的價(jià)格,實(shí)現(xiàn)20倍于1~2臺(tái)超算的并發(fā)能力,提供接近DeepSeek公有云的性價(jià)比。
行云希望通過其原型概念產(chǎn)品,呈現(xiàn)DDR/Flash滿足大模型推理需求的潛力,并通過芯片產(chǎn)品,將頂配大模型的硬件成本降低到萬元甚至千元級(jí)價(jià)位,推動(dòng)AI普惠。
▲?云集成電路創(chuàng)始?&CEO季宇
4、奎芯科技唐睿:Chiplet將加快國(guó)產(chǎn)芯片研發(fā)
當(dāng)前AI革命與過往互聯(lián)網(wǎng)產(chǎn)業(yè)有明顯差異,利潤(rùn)高度向硬件環(huán)節(jié)傾斜??究萍悸?lián)合創(chuàng)始?兼副總裁唐睿談道,隨著模型尺寸不斷變大,算力需求飆升,為了爭(zhēng)奪AGI領(lǐng)域的勝利,科技企業(yè)的CAPEX大幅增長(zhǎng)且逐漸取代OPEX成為主流趨勢(shì)。
AI領(lǐng)域存在芯片設(shè)計(jì)周期遠(yuǎn)跟不上算力及模型發(fā)展需求的矛盾。在唐??磥恚贑hiplet的設(shè)計(jì)能加快芯片研發(fā)迭代。
2021年-2030年處理器預(yù)計(jì)研發(fā)項(xiàng)目數(shù)量年化增長(zhǎng)約9%,但基于Chiplet的設(shè)計(jì)年化增長(zhǎng)率高達(dá)44%,預(yù)計(jì)2030年占比超一半。
對(duì)此,奎芯打造了基于UCle標(biāo)準(zhǔn)接口IP的國(guó)產(chǎn)化完整解決方案,研發(fā)了兩代UCle IP,第一代為16GT/s,第二代為32GT/s,且在標(biāo)準(zhǔn)封裝實(shí)現(xiàn)。這些IP具有高性能、低功耗、靈活性等優(yōu)勢(shì),能為芯片快速迭代提供支持。
▲奎芯科技聯(lián)合創(chuàng)始?兼副總裁唐睿
5、探微芯聯(lián)劉學(xué):國(guó)產(chǎn)超節(jié)點(diǎn)如何實(shí)現(xiàn)異構(gòu)互聯(lián)?
探微芯聯(lián)創(chuàng)始人、清華?學(xué)類腦計(jì)算研究中心劉學(xué)分享說,類腦計(jì)算與AI同源異流,天生具備超大規(guī)模計(jì)算系統(tǒng)的通信基因,與智算超節(jié)點(diǎn)的發(fā)展趨勢(shì)十分吻合。
探微將類腦集群技術(shù)遷移至GPU智算平臺(tái),打造面向AI芯片的Scale-up完整互聯(lián)方案,實(shí)現(xiàn)了覆蓋通信協(xié)議、交換芯片/網(wǎng)內(nèi)計(jì)算、軟件棧/集合通信庫、RAS機(jī)制與可維護(hù)機(jī)制、路由算法、超節(jié)點(diǎn)平臺(tái)、性能建模和異構(gòu)互聯(lián)等關(guān)鍵技術(shù)。
不過,劉學(xué)認(rèn)為,超節(jié)點(diǎn)通信不只是技術(shù)堆疊。通信協(xié)議具有較強(qiáng)生態(tài)屬性,需要廣泛的應(yīng)用場(chǎng)景和生態(tài)支持才能推廣。
從類腦集群體系結(jié)構(gòu)的大量工程經(jīng)驗(yàn)積累,到探微通信互聯(lián)關(guān)鍵技術(shù)的不斷迭代,探微方案實(shí)現(xiàn)從底層到高層的計(jì)算和通信的全方位打通,能夠?yàn)橹撬愠?jié)點(diǎn)生態(tài)伙伴提供Scale-up通信協(xié)議系統(tǒng)級(jí)解決方案、異構(gòu)融合及智算超節(jié)點(diǎn)萬卡集群工程方案。
▲探微芯聯(lián)創(chuàng)始人、清華?學(xué)類腦計(jì)算研究中心劉學(xué)
6、新華三劉善?:超節(jié)點(diǎn)是AI系統(tǒng)工程巔峰
新華三集團(tuán)AI服務(wù)器產(chǎn)品線研發(fā)部總監(jiān)劉善?談道,大模型技術(shù)趨勢(shì)給算力基礎(chǔ)設(shè)施帶來了算力墻、顯存墻、通信墻等挑戰(zhàn),打造AI超節(jié)點(diǎn)成為必然趨勢(shì)。
這需要異構(gòu)計(jì)算協(xié)同優(yōu)化、高速互聯(lián)網(wǎng)絡(luò)、精密結(jié)構(gòu)設(shè)計(jì)等基礎(chǔ)設(shè)施的深度集成,對(duì)軟硬協(xié)同要求高,是AI系統(tǒng)工程的巔峰。
新華三設(shè)計(jì)了兩款超節(jié)點(diǎn)產(chǎn)品:整機(jī)柜超節(jié)點(diǎn)H3C UniPoD S80000和靈活部署超節(jié)點(diǎn)H3C UniPoD F80000。
S80000實(shí)現(xiàn)柜內(nèi)卡間全互聯(lián)通信,互聯(lián)帶寬提升8倍,單機(jī)柜訓(xùn)練性能相較于單節(jié)點(diǎn)最高可提升10倍,單卡推理效率提升13倍;F80000基于傳統(tǒng)AI服務(wù)器即可靈活擴(kuò)展Scale-up網(wǎng)絡(luò),能夠?qū)崿F(xiàn)MoE大規(guī)模訓(xùn)練性能提升35%以上。
未來,AI加速卡將更加百花齊放,高帶寬低延遲的卡間高速互聯(lián)網(wǎng)絡(luò)也將是必然趨勢(shì)。
▲新華三集團(tuán)AI服務(wù)器產(chǎn)品線研發(fā)部總監(jiān)劉善?
四、數(shù)據(jù)流、低精度、稀疏化、全國(guó)產(chǎn)、Chiplet,AI芯片走向多路創(chuàng)新
在下午的大模型AI芯片專題論壇上,上海交通大學(xué)計(jì)算機(jī)學(xué)院教授、上海期智研究院PI冷靜文分享了數(shù)據(jù)流體系架構(gòu)如何成為新一代的大模型加速引擎。
隨后,來自曦望Sunrise、愛芯元智、墨芯人工智能、江原科技、邁特芯、智源研究院、北極雄芯、Alphawave的產(chǎn)業(yè)嘉賓分別發(fā)表主題演講,分享創(chuàng)新的技術(shù)路徑與最新進(jìn)展。
1、上海交通大學(xué)冷靜?教授:數(shù)據(jù)流能提高大模型推理效率
上海交通大學(xué)計(jì)算機(jī)學(xué)院教授、上海期智研究院PI冷靜文認(rèn)為,數(shù)據(jù)流體系架構(gòu)是大模型高效執(zhí)行研究的重要方向,它通過數(shù)值壓縮與計(jì)算流調(diào)度的優(yōu)化,提升推理性能。
低位寬數(shù)值類型可顯著降低存儲(chǔ)開銷,提高計(jì)算效率;而向量量化有望幫助大模型突破4bit的表示極限。冷靜?教授團(tuán)隊(duì)研發(fā)了面向多元素量化的計(jì)算引擎VQ-LLM,通過三級(jí)緩存機(jī)制和以碼本為中心的計(jì)算流程優(yōu)化,實(shí)現(xiàn)性能與精度的雙重提升。
新一代GPU架構(gòu)正在逐漸DSA化,編程難度不斷增加。其團(tuán)隊(duì)已經(jīng)在探索一種“Kernel Free”的編程模型、用“Register Pooling”降低共享內(nèi)存帶來的開銷,并使用動(dòng)態(tài)并行機(jī)制,最終形成基于代碼塊的數(shù)據(jù)流抽象機(jī)模型。項(xiàng)目成果未來將開源發(fā)布。
▲上海交通大學(xué)計(jì)算機(jī)學(xué)院教授、上海期智研究院PI冷靜文
2、曦望陳博宇:國(guó)產(chǎn)AI芯片破局,極致推理目標(biāo)1分錢/百萬Token
曦望Sunrise研發(fā)副總裁陳博宇認(rèn)為,大模型發(fā)展進(jìn)入下半場(chǎng),云端訓(xùn)練算力向高效推理傾斜。AI芯片高效推理是一場(chǎng)長(zhǎng)期價(jià)值競(jìng)賽,降成本、降能耗,性價(jià)比的洼地亟待填平。
曦望的下一代芯片采用單芯片高配比低精度計(jì)算單元,大模型推理性價(jià)比對(duì)標(biāo)英偉達(dá)Rubin GPU。
在主流測(cè)試集中,NVFP4精度下運(yùn)行DeepSeek-R1的表現(xiàn)已接近FP8,低精度數(shù)據(jù)格式能顯著擴(kuò)大數(shù)據(jù)吞吐,提升推理效率,從而降低每Token成本。
曦望芯片軟件生態(tài)通用性良好。算子庫、工具鏈、通信庫均為全棧自研,主體功能模塊與CUDA對(duì)齊,支持各類主流開源模型的推理部署,支持CUDA代碼無縫遷移和工作。
曦望芯片的應(yīng)用形態(tài)分為一體機(jī)和超節(jié)點(diǎn),是Scale-up/Scale-out互聯(lián)架構(gòu)原生支持超節(jié)點(diǎn)產(chǎn)品。超節(jié)點(diǎn)支持PD分離和大EP部署、All-to-All互聯(lián)、面向千億級(jí)或萬億級(jí)參數(shù)的多模態(tài)大模型推理。
▲曦望Sunrise研發(fā)副總裁陳博宇
3、愛芯元智劉建偉:AI應(yīng)用(大模型)需要重新設(shè)計(jì)原生AI芯片
愛芯元智聯(lián)合創(chuàng)始?、副總裁劉建偉分享道,過去端側(cè)AI芯片主要跑傳統(tǒng)CNN模型,場(chǎng)景明確,大模型的興起則提升了AI上限,應(yīng)用場(chǎng)景更廣泛,有望引發(fā)成本驅(qū)動(dòng)型生產(chǎn)力革命。
在他看來,當(dāng)AI程序規(guī)模足夠大時(shí),現(xiàn)有運(yùn)行架構(gòu)不是最高效的,值得重新設(shè)計(jì)適合跑AI程序的原生處理器。
端側(cè)和邊側(cè)長(zhǎng)期受成本、功耗剛性約束,對(duì)高能效比AI處理器需求迫切。這驅(qū)使愛芯元智選擇從端側(cè)和邊緣側(cè)入手做AI基建。
設(shè)計(jì)原生AI處理器,需關(guān)注算子指令集和數(shù)據(jù)流DSA架構(gòu),兩者相輔相成。采用可編程數(shù)據(jù)流微架構(gòu)可提升能效比。異構(gòu)多核處理器要保證由硬件來調(diào)度,以降低客戶開發(fā)與使用成本。
愛芯元智已打造了從工具鏈到芯片的完整軟硬件體系,推動(dòng)構(gòu)建邊緣智能共同體。
▲愛芯元智聯(lián)合創(chuàng)始?、副總裁劉建偉
4、墨芯人工智能曾昭鳳:稀疏化讓AI計(jì)算“更聰明”
墨芯人工智能解決方案總監(jiān)曾昭鳳談道,傳統(tǒng)硬件架構(gòu)面臨性能提升困境,通過軟硬一體方案來解決算力瓶頸已是業(yè)內(nèi)公認(rèn)的發(fā)展方向,稀疏化有望成為破解算力瓶頸的突破口。
稀疏計(jì)算是一種“更聰明”的AI計(jì)算方式,如人類大腦一般,僅啟動(dòng)計(jì)算所必需的神經(jīng)元,減少冗余重復(fù),提升有效性能。
基于這一認(rèn)知,墨芯提出了“權(quán)重稀疏化+激活稀疏化”的雙稀疏技術(shù),在相同硬件資源下實(shí)現(xiàn)高達(dá)32倍的稀疏率,并協(xié)同設(shè)計(jì)了配套的軟件方案。
從算法與軟件出發(fā),墨芯打造了相應(yīng)的硬件與架構(gòu),開發(fā)的計(jì)算卡已能在云端推理場(chǎng)景中加速CV、NLP及知識(shí)圖譜等多類任務(wù)。
▲墨芯人工智能解決方案總監(jiān)曾昭鳳
5、江原科技王永棟:構(gòu)建全國(guó)產(chǎn)化AI芯片產(chǎn)業(yè)鏈
江原科技已構(gòu)建貫通EDA工具、芯片IP、芯片設(shè)計(jì)、芯片制造、封裝測(cè)試的全國(guó)產(chǎn)化AI芯片產(chǎn)業(yè)鏈。
江原科技聯(lián)合創(chuàng)始?兼CTO王永棟認(rèn)為,全國(guó)產(chǎn)路線已經(jīng)成為行業(yè)共識(shí),核心挑戰(zhàn)集中在工藝和生態(tài)上。他從工藝、架構(gòu)、生態(tài)層面探討了國(guó)產(chǎn)芯片的突圍路徑。
工藝維度,國(guó)內(nèi)AI芯片企業(yè)唯一的道路就是擁抱全國(guó)產(chǎn),具體路徑包括基于國(guó)內(nèi)工藝特點(diǎn)進(jìn)行協(xié)同優(yōu)化、系統(tǒng)集成創(chuàng)新。
架構(gòu)維度,需要向AI定制傾斜,通過拆解AI算法將其中占比高、對(duì)效率影響大的部分進(jìn)行硬件優(yōu)化。
生態(tài)維度,從降低客戶使用門檻、發(fā)揮本土化優(yōu)勢(shì)打造性能長(zhǎng)板、擁抱開源切入。
▲江原科技聯(lián)合創(chuàng)始?兼CTO王永棟
6、邁特芯李凱:突破端側(cè)大模型芯片三個(gè)關(guān)鍵痛點(diǎn)
在邁特芯主任工程師李凱看來,端側(cè)AI場(chǎng)景正從“離身智能”向“具身智能”進(jìn)化,這離不開端側(cè)芯片的支持。端側(cè)大模型芯片(LPU)需要滿足低功耗、高token數(shù)、低成本,這正是痛點(diǎn)所在。
邁特芯LPU采用的3D-DRAM解決方案可大幅提升帶寬,以滿足端側(cè)大模型需求。該方案采用了針對(duì)大模型算子優(yōu)化的DSA設(shè)計(jì)和自研立方脈動(dòng)陣列架構(gòu),基于多項(xiàng)技術(shù)優(yōu)化,實(shí)現(xiàn)計(jì)算利用率和內(nèi)存帶寬利用率最大化。
演示中,基于邁特芯LPU推理卡可實(shí)現(xiàn)大語言模型端到端部署,帶寬利用率75%、性能75tokens/s,性能和能效達(dá)到國(guó)際領(lǐng)先水平。
邁特芯針對(duì)泛端側(cè)大模型硬件產(chǎn)品、端側(cè)大模型硬件產(chǎn)品和推理一體機(jī)三類場(chǎng)景布局產(chǎn)品,三個(gè)市場(chǎng)的總空間可達(dá)萬億級(jí)。
▲邁特芯主任工程師李凱
7、智源研究院鄭楊:統(tǒng)一編譯器給OpenAI Triton語言補(bǔ)短板
北京智源??智能研究院AI編譯器專家鄭楊分享說,OpenAI的Triton語言已成為業(yè)內(nèi)公認(rèn)的、繼CUDA后第二大流行的AI算子開發(fā)語言,但其也有明顯弱勢(shì):需要在開發(fā)效率和性能之間權(quán)衡,跨芯片的可移植性和性能不足,治理與生態(tài)面臨局限性,以及版本分散等。
為此,智源構(gòu)建了面向多元AI芯片的統(tǒng)一編譯器——FlagTree。
FlagTree基于硬件感知進(jìn)行了編譯指導(dǎo)優(yōu)化,允許程序員通過注釋嵌入硬件優(yōu)化提示flagtree_hints,具有使用成本低、生態(tài)兼容好、可移植性強(qiáng)等特點(diǎn)。
同時(shí),該編譯器在C++運(yùn)行時(shí)進(jìn)行了優(yōu)化,提供從C++調(diào)用Triton內(nèi)核的方法,從而節(jié)省Wrapper耗時(shí),整體降低80%以上,與CUDA接近。
▲北京智源??智能研究院AI編譯器專家鄭楊
8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫
截至2025年6月,中國(guó)日均tokens消耗量突破30萬億,比2024年增長(zhǎng)300+倍,且依然處于高速增長(zhǎng)期。而大模型應(yīng)用商業(yè)化閉環(huán)任重道遠(yuǎn),一方面C段訂閱付費(fèi)較難,B端API調(diào)用收費(fèi)與美國(guó)相比有數(shù)量級(jí)的差距,另一方面國(guó)內(nèi)算力成本并不優(yōu)于美國(guó)。
北極雄芯聯(lián)創(chuàng)、副總裁徐濤談道,當(dāng)前中國(guó)大模型應(yīng)用落地商業(yè)化,解決成本問題至關(guān)重要。而受制于各類制裁,面對(duì)高速增長(zhǎng)的算力、存儲(chǔ)容量、內(nèi)存帶寬的“不可兼得三角”,國(guó)內(nèi)上下游企業(yè)亟需共同開展架構(gòu)創(chuàng)新。
在云端推理場(chǎng)景,北極雄芯將在近期推出面向Decode環(huán)節(jié)的專用加速方案,通過Chiplet+3D堆疊的近存計(jì)算技術(shù)大幅降低推理成本至少一個(gè)數(shù)量級(jí),相比主流GPU芯片提升10倍以上性價(jià)比。
在端側(cè)AI領(lǐng)域,北極雄芯的啟明935系列芯粒通過Chiplet靈活組合應(yīng)用,為主機(jī)廠提供AI Box、艙駕一體、高階智駕等不同擋次應(yīng)用的解決方案。
▲北極雄芯聯(lián)創(chuàng)、副總裁徐濤
9、Alphawave鄧澤群:高速連接市場(chǎng)猛增,Chiplet是變革路徑
Alphawave戰(zhàn)略客戶銷售經(jīng)理鄧澤群談道,高速連接的市場(chǎng)規(guī)模2023年接近100億美元,預(yù)計(jì)2026年接近180億美元,年復(fù)合增長(zhǎng)率達(dá)到20%。
這背后的推動(dòng)力就是數(shù)據(jù)中心建設(shè),其對(duì)數(shù)據(jù)的傳輸、存儲(chǔ)、處理需求爆炸,數(shù)據(jù)帶寬每2~3年翻一倍。
生成式AI正在重新定義計(jì)算和連接。他預(yù)測(cè)ChatGPT背后下一代模型的參數(shù)規(guī)?;蜻_(dá)到百萬億級(jí)別,促使云服務(wù)商建設(shè)更高規(guī)格的數(shù)據(jù)中心。
鄧澤群認(rèn)為,新計(jì)算技術(shù)的變革路徑是Chiplet,以及為云服務(wù)商進(jìn)行定制,以滿足大語言模型的需求。
伴隨AI產(chǎn)業(yè)發(fā)展,Alphawave的業(yè)務(wù)體系已經(jīng)從IP供應(yīng)擴(kuò)展到高速連接技術(shù)的垂直集成方案。
▲Alphawave戰(zhàn)略客戶銷售經(jīng)理鄧澤群
結(jié)語:國(guó)產(chǎn)AI芯片掀開落地新篇章
8年來,智東西、芯東西持續(xù)對(duì)AI芯片全產(chǎn)業(yè)鏈進(jìn)行追蹤報(bào)道,見證了AI芯片產(chǎn)業(yè)及智能革命浪潮的發(fā)展,以及許多AI芯片團(tuán)隊(duì)的厚積薄發(fā)。
多個(gè)知名市場(chǎng)調(diào)研機(jī)構(gòu)的數(shù)據(jù)顯示,2024年中國(guó)AI芯片出貨量顯著提升,華為昇騰、阿里平頭哥、昆侖芯、寒武紀(jì)、摩爾線程、燧原科技、中昊芯英、壁仞科技、沐曦股份、太初元碁等企業(yè)的AI芯片均已走向量產(chǎn)交付,并在性能方面縮短與國(guó)際先進(jìn)水平的差距。龐大的國(guó)內(nèi)AI基建市場(chǎng),正向國(guó)產(chǎn)AI芯片敞開大門。
與此同時(shí),國(guó)產(chǎn)AI芯片正迎來政策紅利期。今年8月,國(guó)務(wù)院印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見》,在強(qiáng)化基礎(chǔ)支撐能力方面,提到強(qiáng)化智能算力統(tǒng)籌,支持AI芯片攻堅(jiān)創(chuàng)新與使能軟件生態(tài)培育,加快超大規(guī)模智算集群技術(shù)突破和工程落地。
在AI產(chǎn)業(yè)趨勢(shì)、地緣博弈等復(fù)雜因素的影響下,AI芯片自主可控勢(shì)在必行,國(guó)產(chǎn)模型與國(guó)產(chǎn)芯片的適配有望進(jìn)一步增強(qiáng),AI芯片及算力基礎(chǔ)設(shè)施技術(shù)仍有巨大的創(chuàng)新空間和市場(chǎng)前景。