“這場革命的核心在于兩點:算法的突破與芯片算力的躍升?!鄙虾=煌ù髮W(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國浩表示。

正如蒸汽機需要煤炭驅(qū)動,大模型的智能同樣依賴海量數(shù)據(jù)和強大算力。但與傳統(tǒng)工業(yè)革命不同,智能革命的迭代速度遠超想象——技術(shù)更新以“天”為單位推進,模型參數(shù)量從十億級邁向萬億級,推理需求呈指數(shù)級增長。

更深遠的影響在于生產(chǎn)關(guān)系的重構(gòu)。過去勞動者是人,未來可能是機器。而機器的“勞動”本質(zhì)是推理——通過模型計算完成決策、對話、控制等任務(wù)。無論是金融風(fēng)控還是醫(yī)療診斷,大模型推理正在成為各行業(yè)的新生產(chǎn)力。

從預(yù)訓(xùn)練模型到推理模型,對算力的需求也在不斷增加,這為整個行業(yè)帶來了新的挑戰(zhàn)和機遇。

一張PPT背后:新技術(shù)催生的算力“剛需”

戴國浩教授引用了英偉達CEO黃仁勛今年3月在HTC大會上的一張PPT。在這張PPT中,一條核心定律揭示了AI發(fā)展的密碼——尺度定律(Scaling Law)。模型能力隨著參數(shù)規(guī)模和數(shù)據(jù)量的增加而提升,但這種增長需要付出巨大代價:其中預(yù)訓(xùn)練階段需要用海量數(shù)據(jù)“喂養(yǎng)”模型,耗電量堪比小型城市;在推理階段,模型實際應(yīng)用時,算力需求不降反增。用戶對實時性的期待(如秒級響應(yīng))與模型復(fù)雜度的提升形成矛盾。

戴國浩教授通過實測發(fā)現(xiàn):運行一個“滿血版”大模型推理,需同時調(diào)用16張英偉達H100顯卡,若將同等算力移植到手機,電量僅能支撐10秒。這暴露了一個殘酷現(xiàn)實——推理算力成本已成為AI普及的最大瓶頸。

隨著模型參數(shù)量和數(shù)據(jù)量的增加,模型的能力也在不斷增強。從預(yù)訓(xùn)練階段的規(guī)模擴展,到補充增強訓(xùn)練和推理階段的規(guī)模擴展,每一個階段都對算力提出了更高的要求。為了滿足這種需求,推理技術(shù)需要不斷創(chuàng)新和優(yōu)化,以提高算力的利用效率。

相關(guān)數(shù)據(jù)顯示,自2020年起,全球人工智能算力需求每3-4個月便翻一番,遠超傳統(tǒng)計算領(lǐng)域發(fā)展速度。這種迅猛的增長態(tài)勢給科技產(chǎn)業(yè)帶來巨大挑戰(zhàn),也促使科研人員和企業(yè)不斷探索新的算力解決方案,以滿足人工智能快速發(fā)展的需求。

存算融合 vs 存算分離:一場技術(shù)路線的對決

推理過程可以分為Prefill、Decode和調(diào)度三個階段。

在云側(cè)推理中,面臨著如何高效調(diào)度算力資源、存儲資源和網(wǎng)絡(luò)資源等問題。存儲方面,KV Cache的管理和內(nèi)存碎片化問題成為關(guān)鍵挑戰(zhàn)。計算方面,推理任務(wù)不像訓(xùn)練任務(wù)那樣密集,如何提高計算利用率成為一個難題。

目前,推理技術(shù)主要分為存算融合和存算分離兩種路線。存算融合技術(shù),如vLLM,通過統(tǒng)一管理計算和存儲資源,提高了內(nèi)存利用率,但計算任務(wù)之間容易產(chǎn)生干擾。存算分離技術(shù),如Mooncake和DeepSeek,將計算和存儲分開,減少了計算干擾,但存儲碎片化和冗余存儲問題較為突出。

戴國浩教授團隊提出的半分離式方案(semi-PD),結(jié)合了存算融合和分離的優(yōu)點,實現(xiàn)了高效的推理性能:通過計算分離,為不同任務(wù)分配獨立計算單元,避免資源爭奪;而結(jié)合存儲融合,采用vLLM的分頁緩存技術(shù),將內(nèi)存利用率提升至90%以上。實測顯示,該方案比主流框架SGLang的端到端延遲降低40%,且代碼即將開源,有望重塑云端推理架構(gòu)。

發(fā)力端側(cè),以SpecEE應(yīng)對資源不足

在端側(cè)推理場景下,資源受限是主要問題。面對終端設(shè)備的算力困局,戴國浩教授團隊另辟蹊徑——如果模型不必完整運行,能否提前輸出結(jié)果?戴國浩教授團隊提出了SpecEE技術(shù),通過自適應(yīng)和動態(tài)的機器學(xué)習(xí)模型,在Transformer的級聯(lián)結(jié)構(gòu)中提前判斷是否已經(jīng)輸出正確結(jié)果,從而減少計算層數(shù),實現(xiàn)輕量化推理。在不聯(lián)網(wǎng)的情況下,讓手機或電腦等智能終端設(shè)備充分享受智能能力。

SpecEE的動態(tài)性和正交性使其不僅適用于端側(cè)設(shè)備,在單用戶云端場景也能發(fā)揮優(yōu)勢,還可與其他端側(cè)加速方案無感兼容,進一步提升模型推理精度和速度。

實測中,SpecEE在保持95%以上準確率的同時,將端側(cè)推理速度提升3倍。這項技術(shù)已與聯(lián)想等廠商合作,應(yīng)用于新一代AI PC,讓離線環(huán)境下的智能助手“快如閃電”。

推理革命:一場關(guān)乎每個人未來的生產(chǎn)力升級

戴國浩教授堅信,2025 年是大模型推理至關(guān)重要的一年。推理算力作為智能革命的基本生產(chǎn)資料和生產(chǎn)力,降低成本是關(guān)鍵目標。通過團隊的核心技術(shù)和原始創(chuàng)新,他們致力于推動大模型推理技術(shù)的發(fā)展和應(yīng)用。

戴國浩教授團隊的研究,正在從兩個方向推動智能革命落地:在云側(cè),他們的技術(shù)已經(jīng)賦能了上海、北京、杭州等地的公共算力平臺建設(shè),提升了模型推理的服務(wù)能力。在端側(cè),與合作伙伴共同推動了聯(lián)想AIPC產(chǎn)品的智能化發(fā)展。無論是在云側(cè)還是端側(cè),他們的實時響應(yīng)、彈性擴展的推理系統(tǒng)都為人們更好地享受智能能力提供了支持。

戴教授團隊希望通過總結(jié)方法論,與更多合作伙伴共同努力,不斷推進模型推理能力的發(fā)展,讓智能革命的浪潮持續(xù)涌動,為人類社會帶來更多的變革和機遇。

這場變革的本質(zhì)是“推理民主化”——當(dāng)算力成本降低至當(dāng)前的1/10,AI將不再局限于科技巨頭,中小企業(yè)和個人開發(fā)者也能調(diào)用智能能力。正如電力普及讓工廠走進千家萬戶,推理技術(shù)的突破將讓智能革命真正滲透到每個角落。

戴國浩教授最后強調(diào):“30年前,計算機從實驗室走向辦公室;今天,我們要讓大模型從云端走進每個人的口袋?!边@場始于算力的革命,終將重塑人類與機器協(xié)作的方式,而推理技術(shù),正是打開未來之門的鑰匙。

分享到

xiesc

相關(guān)推薦