高校有為采訪鏈接:

01 計算范式之變:從通用CPU到專用NPU的底層邏輯

對話的開端,直指驅(qū)動本輪AI浪潮的根本動力——計算范式的變革。

李建忠指出,行業(yè)正經(jīng)歷從經(jīng)典以CPU為中心向以神經(jīng)網(wǎng)絡(luò)為中心的計算架構(gòu)(以GPU/NPU為中心)的轉(zhuǎn)變。

王建輝從硬件架構(gòu)演進的角度,闡述了這一變革的本質(zhì)驅(qū)動力。他認(rèn)為,整個計算范式的變化,是從以前的通用性,到現(xiàn)在核心是把算力的效率提上去。

他進一步解釋了CPU與NPU在設(shè)計哲學(xué)上的根本差異:

﹒CPU(中央處理器):設(shè)計目標(biāo)是通用性,擅長標(biāo)量計算(單個數(shù)值的加減乘除),追求單核高性能。

﹒NPU(神經(jīng)網(wǎng)絡(luò)處理器):設(shè)計目標(biāo)是效率,為深度學(xué)習(xí)任務(wù)而生,核心是處理大規(guī)模的矩陣或張量(Tensor)的乘加運算。為了在相同功耗下實現(xiàn)更高的算力效率,這是設(shè)計的出發(fā)點。

王建輝透露,昇騰從設(shè)計之初就瞄準(zhǔn)了這一方向,這種設(shè)計直接服務(wù)于神經(jīng)網(wǎng)絡(luò)的核心計算需求。

同時,他也觀察到一種“殊途同歸”的趨勢。NPU在追求極致效率的同時,也在增加向量計算單元以提升靈活性;而GPU(圖形處理器)在擁有強大向量計算能力的基礎(chǔ)上,也在不斷增加專用的張量核心(Tensor Core)。雙方都在向一個“既能提供高效運算效率,又能兼顧AI發(fā)展靈活性”的平衡點演進。

袁粒則從軟件生態(tài)的視角補充,這一轉(zhuǎn)變的核心訴求是“從通用到專用,以及到并行計算”。AI技術(shù)棧天然是并行的,軟件生態(tài)需要去適配硬件的并行特性,兩者協(xié)同發(fā)展。此外,他還提出了一個重要趨勢:軟件生態(tài)的構(gòu)建正從過去的由硬件廠商主導(dǎo)的“中心化”模式,演變?yōu)楦咝?、企業(yè)、個人開發(fā)者共同參與的“去中心化”模式,生態(tài)變得更加開放。

02 智能的偏見:當(dāng)語言的霸權(quán),壓制了視覺的真相

在多模態(tài)AI的世界里,語言和視覺這兩個最重要的模態(tài),地位并不平等。語言,這個由人類創(chuàng)造、高度編碼、信息密度極高的符號系統(tǒng),在過去幾年大語言模型的狂飆突進中,已經(jīng)建立起了事實上的“霸權(quán)”。而視覺,這個客觀存在、充滿冗余信息、更接近物理世界本質(zhì)的模態(tài),反而在AI的認(rèn)知體系中,淪為了“二等公民”。

AI看到的“六指手”圖像,其視覺信息在進入決策中樞前,就被強大的“語言先驗”給壓制和扭曲了。AI并沒有真正“看見”六根手指,它只是“知道”手應(yīng)該是五根。這場看似微小的認(rèn)知偏差,背后卻是整個AI行業(yè)一場曠日持久的“路線之爭”——智能的演進,究竟應(yīng)該以語言為中心,還是以視覺(或更廣泛的世界模型)為中心?

從2012年AlexNet在ImageNet大賽上一戰(zhàn)成名,開啟了計算機視覺的黃金十年,到2020年后ChatGPT橫空出世,讓語言模型獨占鰲頭,這場爭論的鐘擺一直在搖晃。視覺派的代表人物Yann LeCun和李飛飛堅信,缺乏對物理世界的理解,AI永遠無法實現(xiàn)真正的通用智能;而語言派則引用維特根斯坦“語言是人類思維的邊界”,追溯到艾倫·圖靈對人工智能最初的理解,是抽象與邏輯的終極體現(xiàn)。

《高校有為》的這場對話,并沒有試圖給出一個終極答案,而是呈現(xiàn)了前沿科學(xué)家身處這場“范式革命”中的真實思考。袁粒坦言,作為一個“視覺派”,他也不得不承認(rèn),語言模型在當(dāng)下“彎道超車”有其必然性——數(shù)據(jù)獲取成本低、信息密度高、人類已經(jīng)完成了初步的“編碼”。

但更重要的是,他指出了未來的方向:模態(tài)平權(quán)。真正的多模態(tài)原生AI,必須讓視覺和語言在模型內(nèi)部擁有平等的“話語權(quán)”,讓AI既能理解語言的邏輯,也能尊重視覺的真相。

03 路線之爭:統(tǒng)一架構(gòu)的未來,賭在自回歸還是擴散?

如果說“語言與視覺之爭”是AI發(fā)展的“世界觀”問題,那么接下來的討論,則進入了更硬核的“方法論”層面,這也是本期節(jié)目思想碰撞最激烈的部分。

當(dāng)前,在多模態(tài)生成領(lǐng)域,存在著兩條截然不同的技術(shù)路線:

﹒自回歸模型(Autoregressive Models):以大語言模型為代表,其核心是“Next Token Prediction”(預(yù)測下一個詞元)。它像一個嚴(yán)謹(jǐn)?shù)倪壿嫾?,通過前文推導(dǎo)后文,一步一步構(gòu)建出完整的內(nèi)容。這是一種因果推理(Causal Inference)。

﹒擴散模型(Diffusion Models):以主流的文生圖、文生視頻模型為代表,其核心是“Denoising”(去噪)。它像一個印象派畫家,從一團隨機的噪聲開始,逐步去除噪聲,最終“浮現(xiàn)”出清晰的圖像。這是一種結(jié)構(gòu)推理(Structural Inference)。

在《高校有為》的“茶話會”上,一場關(guān)于這兩種路線優(yōu)劣的“辯論”就此上演,充滿了節(jié)目所追求的“思想對撞”的火花。

袁粒拋出了一個極具前瞻性,甚至有些“反共識”的判斷:“盡管我做的視頻生成現(xiàn)在主流是擴散模型,但我認(rèn)為,最終統(tǒng)一多模態(tài)的,會是自回歸模型。

他給出了三層邏輯:

其一,繼承性與效率:自回歸已經(jīng)基本解決了語言這個最復(fù)雜的模態(tài),沿用這條路線去兼容視覺,可以避免重復(fù)“造輪子”。

其二,推理的本質(zhì):人類的高級智能,核心是因果推理。我們知道火不能摸,是因為我們預(yù)知了“摸”這個“因”會導(dǎo)致“燙傷”那個“果”。自回歸的“next token prediction”天然契合了這種因果鏈條。而擴散模型的結(jié)構(gòu)推理,雖然擅長描繪空間關(guān)系,但在邏輯鏈上是缺失的。

其三,強推理的潛力:在需要反思、規(guī)劃、決策的復(fù)雜任務(wù)中,自回歸模型可以通過強化學(xué)習(xí)等手段,實現(xiàn)更強的推理能力,而擴散模型的并行生成機制,很難進行有效的邏輯反思。

因此,他大膽預(yù)言,未來的多模態(tài)架構(gòu),將是以自回歸模型為主干網(wǎng)絡(luò)(Backbone),負(fù)責(zé)因果推理和跨模態(tài)融合;而擴散模型則會作為一個后處理模塊補丁,負(fù)責(zé)視覺模態(tài)的結(jié)構(gòu)補完和連續(xù)性細節(jié)。

這個觀點,幾乎是在為整個多模態(tài)領(lǐng)域的未來,描繪一張全新的技術(shù)藍圖。

然而,王建輝老師從一個截然不同的維度提出了“反駁”——算力利用率(Compute Utilization Efficiency)。

他認(rèn)為,拋開算法的優(yōu)美,最終決定技術(shù)路線勝負(fù)的,可能是一個更樸素的工程問題:哪種架構(gòu)能把硬件的每一分性能都壓榨到極致?

他分析道,自回歸模型對內(nèi)存帶寬要求極高,但算力利用率相對不足;而擴散模型恰恰相反,它極度消耗算力,但對帶寬要求沒那么苛刻。這兩種架構(gòu)都存在“偏科”的問題。

因此,他提出了一個更具“融合”色彩的猜想:未來的勝利者,可能不是兩者中的任何一個,而是一種全新的、能夠?qū)⒂布乃懔?、?nèi)存、通信三大資源同時“吃滿”的均衡架構(gòu)。

這場“辯論”沒有輸贏,卻詮釋了《高校有為》從“單調(diào)對話”到“電影級敘事”的亮點:對話的張力,正來自于產(chǎn)、學(xué)兩界頂級大腦,從各自最擅長的領(lǐng)域出發(fā),對同一個未知山峰,給出了不同的攀登路徑。袁粒代表了算法與理論的“頂層設(shè)計”,追求模型的優(yōu)雅與認(rèn)知上的合理性;王建輝老師則代表了工程與實踐的“底層邏輯”,強調(diào)物理定律和資源效率的硬約束。

這正是創(chuàng)新的真實面貌——它不是一條筆直的康莊大道,而是在無數(shù)次這樣的思想對撞、路線搖擺、和基于第一性原理的反復(fù)詰問中,螺旋式上升的。

04 成本的鴻溝:從200元到2分錢,AI視頻的普惠之路

再精妙的理論,再宏大的架構(gòu),最終都要面臨現(xiàn)實世界的檢驗。對于AIGC而言,最現(xiàn)實的檢驗標(biāo)準(zhǔn),就是成本。

本期《高校有為》的第三個高潮,是將話題從云端的理論,拉回了地面上最殘酷的商業(yè)現(xiàn)實。王建輝老師透露了一個驚人的數(shù)字:“在Sora剛發(fā)布時,我們內(nèi)部評估,生成一段高質(zhì)量的AI視頻,成本至少是200元人民幣。

200元,這個數(shù)字如同一盆冷水,澆滅了許多人對AI視頻“即刻普及”的幻想。這意味著,它只是少數(shù)人能負(fù)擔(dān)得起的“奢侈品”,距離成為像抖音、B站一樣的全民創(chuàng)作工具,還有一道巨大的成本鴻溝。

王建輝的目標(biāo)是:“未來有沒有可能,把成本降到2塊錢,甚至2分錢?

從200元到2分錢,是一萬倍的成本壓縮,這可能嗎?

袁粒表示,將當(dāng)前AI視頻生成的技術(shù)瓶頸,總結(jié)為四個方面:可靠性不足(不符合物理規(guī)律)、可控性不足(無法精確控制生成內(nèi)容)、一致性不足(人物或物體在視頻中會變化)、時長不足(普遍在10秒以內(nèi))。

問題的根源,一方面是前面提到的擴散模型“理解能力”不足,另一方面,則是其二次方增長的計算開銷。當(dāng)視頻時長增加,計算成本會呈爆炸式增長。

要跨越這道鴻溝,單靠算法優(yōu)化或硬件升級的“單打獨斗”已經(jīng)不夠,必須依靠軟硬協(xié)同的深度聯(lián)合創(chuàng)新。這或許也是《高校有為》想要呈現(xiàn)的真實圖景。

·在軟件層面,袁粒團隊在昇騰算力的支持下,不斷進行算法迭代。例如,為了解決視頻序列過長導(dǎo)致的“內(nèi)存溢出”(Out of Memory)問題,他們聯(lián)合昇騰團隊,在張量并行(TP)的基礎(chǔ)上,進一步開發(fā)了序列并行(SP),實現(xiàn)了“TP+SP”的高效訓(xùn)練模式。再比如,為了解決模型訓(xùn)練后期收斂困難的“震蕩”現(xiàn)象,他們采用了昇騰親和的EMA(Exponential Moving Average)優(yōu)化策略,才最終讓模型平穩(wěn)收斂。

·在硬件層面,昇騰則不僅僅是提供算力,更是在與袁粒團隊這樣的頂級科研項目的合作中,反向優(yōu)化自己的硬件架構(gòu)和軟件棧。王建輝提到,他們會分析像長視頻生成這類任務(wù)的性能瓶頸(比如Flash Attention可能占到90%的耗時),然后針對性地進行極致的性能優(yōu)化。

這種“你中有我,我中有你”的深度耦合,才是實現(xiàn)萬倍成本壓縮的關(guān)鍵。算法的創(chuàng)新,為硬件指明了優(yōu)化的方向;而硬件的極限性能,又為算法的實現(xiàn)提供了可能。

如今,合作的成果已經(jīng)落地。袁粒在對話中,分享了一個與華為合作的陜西文旅項目案例:游客在游覽大唐不夜城時,可以化身為《長安十二時辰》里的某個角色,AI會根據(jù)游客的游覽路線,實時生成一段“個人專屬”的劇本殺視頻。

從實驗室里的代碼,到游客手機里的精彩短片,這條路徑的打通,預(yù)示著AI視頻的“2分錢時代”,或許真的離我們不遠了。

05 生態(tài)的遠征:開源的火種,與AI人才的實驗田

如果說技術(shù)創(chuàng)新是“點”的突破,那么生態(tài)建設(shè)就是“面”的展開?!陡咝S袨椤返囊曇安⑽淳窒抻谝淮尉唧w的項目合作,而是探討了更宏大的命題:我們該如何構(gòu)建一個屬于自己的、繁榮的AI生態(tài)?

開源,是這場對話中反復(fù)出現(xiàn)的核心關(guān)鍵詞。

袁粒在談到為什么發(fā)起Open-Sora Plan時,表達了一個堅定的信念:AI的快速發(fā)展,核心就在于開源。他甚至認(rèn)為,正是開源的力量,在“倒逼”那些選擇閉源的巨頭,不得不加快開放的步伐,從而促進了整個行業(yè)的繁榮。

但當(dāng)GPU受限,我們?nèi)绾瓮粐看鸢甘?,建立一個強大的、開放的、讓所有人都能參與共建的“世界第二選擇”生態(tài)。

華為的戰(zhàn)略選擇與此不謀而合。王建輝明確表示,華為堅持“硬件開放、軟件開源、使能伙伴、發(fā)展人才”,將CANN(異構(gòu)計算架構(gòu))、Mind系列使能套件及工具鏈等核心軟件棧全面開源,甚至?xí)penPangu在昇騰上完整的訓(xùn)練、推理過程和經(jīng)驗全部開放給社區(qū)。

這是一種格局,更是一種智慧。硬件是軀干,而生態(tài)是血脈。只有當(dāng)成千上萬的開發(fā)者、高校、企業(yè),都愿意基于這個平臺進行創(chuàng)造和試錯,這個平臺才能在無數(shù)次的“過程創(chuàng)新”中,變得真正強大和富有韌性。

生態(tài)建設(shè)的另一個核心,是AI人才。

我們正處在一個AI人才井噴的時代,DeepSeek等頂尖模型團隊中,涌現(xiàn)出大量來自中國高校的青年才俊。這背后,是中國扎實的數(shù)理基礎(chǔ)教育,更是產(chǎn)學(xué)研深度融合的人才培養(yǎng)模式。

袁粒強調(diào),大模型訓(xùn)練,本質(zhì)上是一門“實驗科學(xué)”。學(xué)生如果只停留在課本理論,沒有親手接觸和調(diào)試過大規(guī)模集群,沒有在海量的算力消耗中積累“know-how”(實踐訣竅),就無法成長為真正的頂尖人才。

這也是華為與北大、清華等16所頂尖高校共建鯤鵬昇騰科教創(chuàng)新卓越中心/孵化中心的價值所在——正構(gòu)建產(chǎn)學(xué)研協(xié)同新范式。卓越中心和孵化中心通過與高校的緊密合作,為多個跨學(xué)科研究提供強有力的技術(shù)支撐,將產(chǎn)業(yè)界最真實的難題、最前沿的工具、最寶貴的實踐經(jīng)驗,帶入課堂和實驗室,為AI人才的成長,提供了一片最肥沃的“實驗田”。

從開源的火種,到人才的沃土,一場圍繞國產(chǎn)AI生態(tài)的“遠征”,已經(jīng)啟航。

06 智能的溫度——為什么AI寫不出《三體》?

在長達兩小時,信息量爆炸的“茶話會”臨近結(jié)束時,對話的走向,卻從硬核的技術(shù),轉(zhuǎn)向了一個柔軟的哲學(xué)問題:AI會取代人類的創(chuàng)造力嗎?

袁粒的回答,為這場“思想風(fēng)暴”畫上了一個充滿人文關(guān)懷的句號。

他說:“AI,本質(zhì)上仍是一個工具。人類的真正價值,在于體驗。

他舉了劉慈欣創(chuàng)作《三體》的例子。劉慈欣之所以能寫出那樣宏大而深刻的作品,不僅僅因為他的知識儲備,更因為他曾作為一個工程師,在水電站工作了幾十年,親身經(jīng)歷過那個特殊的年代。作品中蘊含的,是他作為“碳基生物”,用肉體感受過的痛苦、快樂、希望與絕望。

而AI,作為“硅基生命”,它可以學(xué)習(xí)人類所有的知識,擁有海量的“經(jīng)驗”,但它沒有“體驗”。它無法理解一個物理的身體在真實世界中的交互,無法感受時間的流逝和生命的脆弱。

它沒有親身的經(jīng)歷,這種肉體上的體驗,是碳基生物獨有的。

技術(shù)的發(fā)展永無止境,但我們不應(yīng)忘記,驅(qū)動這一切的,始終是人類對世界的好奇、對美的追求、以及對生命本身的深刻體驗。這或許是智能時代,值得我們記錄和傳遞的“溫度”,是我們面對AI浪潮時,最應(yīng)該堅守的“錨點”。

本期《高校有為》的思辨之旅暫告一段落,但關(guān)于AI未來的探索永不止步。如果屏幕前的你對這場對話意猶未盡,渴望見證更多像Open-Sora Plan與昇騰結(jié)合這樣的前沿成果落地,那么,我們有一個新的約定。

9月20日,華為全聯(lián)接大會開發(fā)者日將匯聚更多高??蒲信c開發(fā)者生態(tài)實踐。屆時,我們再一同深入探討,見證實干的力量。感謝大家對《高校有為》的關(guān)注,我們下期再見!

分享到

songjy

相關(guān)推薦