單卡集成112G以上超大顯存、FP32單精度浮點算力飆至78TFLOPS,更是國內(nèi)首款把國產(chǎn)RISC-V(一種開放指令集架構(gòu))CPU和兼容CUDA的GPU集成在一起的芯片。要知道,這可不是簡單的參數(shù)升級,而是國產(chǎn)GPU陣營里,一位重量級選手的正式 “亮劍”。

對芯動科技來說,這是一次里程碑式的技術(shù)躍遷;放到全球半導(dǎo)體產(chǎn)業(yè)風(fēng)云變幻的大背景下,更是中國芯片自主化道路上,一個足以載入史冊的關(guān)鍵節(jié)點。

文字編輯|宋雨涵

1

解構(gòu)“風(fēng)華3號”:

不止于算力的“全功能”雄心

“風(fēng)華3號”最引人注目的標簽是“全功能GPU”。在服務(wù)器領(lǐng)域,許多所謂的GPU實際上是GPGPU(通用計算圖形處理器),它們?yōu)榱藰O致的計算效率,閹割了圖形渲染和顯示輸出功能。而“風(fēng)華3號”反其道而行之,堅持“大而全”,這意味著它在架構(gòu)設(shè)計上需要克服遠超GPGPU的復(fù)雜性。讓我們深入其六大亮點,探尋其“全功能”背后的技術(shù)底氣與市場野心。

“風(fēng)華3號”六大核心亮點

國內(nèi)首款:集成國產(chǎn)RISC-V CPU與CUDA兼容GPU的SoC。

全球首款:原生支持DICOM高精度灰階顯示的GPU。

國內(nèi)首款:單卡配備112GB+大顯存、核心IP全自研的全功能GPU。

國內(nèi)首款:支持光線追蹤的8K渲染GPU。

國內(nèi)首款:支持YUV444無損視頻編碼的GPU。

生態(tài)整合:打通“計算+存儲+連接”,構(gòu)建完整國產(chǎn)GPU生態(tài)。

一、算力巨獸:AI大模型的國產(chǎn)新引擎

在AI大模型時代,算力和顯存是衡量一枚GPU價值的核心標尺。“風(fēng)華3號”交出的答卷堪稱驚艷:

78 TFLOPS的FP32算力:這一數(shù)字使其穩(wěn)穩(wěn)地站在了高性能計算的第一梯隊。它足以支撐大規(guī)模的AI模型訓(xùn)練、復(fù)雜的科學(xué)計算以及高精度的物理模擬。

112GB+的高帶寬顯存:這是“風(fēng)華3號”最具沖擊力的特性。相比之下,國際主流的AI訓(xùn)練芯片如英偉達H100的顯存為80GB。更大的顯存意味著單卡能夠容納更大參數(shù)的模型,從而顯著減少在模型并行訓(xùn)練中跨節(jié)點通信的開銷,提升訓(xùn)練效率。發(fā)布會信息顯示,單張“風(fēng)華3號”即可運行320億或720億參數(shù)的大模型,而一臺搭載八張卡的服務(wù)器,理論上可以直接驅(qū)動像DeepSeek 671B/685B這樣的千億級巨型模型。這對于國內(nèi)眾多渴望擁有自主可控大模型算力底座的企業(yè)和研究機構(gòu)而言,無疑是巨大的福音。

兼容CUDA生態(tài):這是其最具戰(zhàn)略智慧的一步。CUDA作為英偉達建立的、事實上的行業(yè)標準,擁有龐大的開發(fā)者基礎(chǔ)和成熟的軟件庫。通過兼容CUDA,芯動科技極大地降低了開發(fā)者的遷移成本,使得現(xiàn)有的AI應(yīng)用可以更平滑地移植到“風(fēng)華3號”平臺。結(jié)合其對PyTorch、Triton等主流AI框架的支持,它正在努力將自己從一個“硬件孤島”變?yōu)橐粋€能夠融入全球主流AI生態(tài)的“即戰(zhàn)力”。

二、視覺革命:從8K光追到專業(yè)醫(yī)學(xué)影像

“很多用于服務(wù)器的GPU,其實是GPGPU,閹割了圖形和顯示功能。而全功能GPU,計算、圖形渲染、視頻編解碼、多屏顯示這些活兒全都能干,架構(gòu)更復(fù)雜,門檻自然也更高?!薄帮L(fēng)華3號”不僅能干,而且干得相當出色:

支持8K分辨率下的實時光線追蹤,并兼容DirectX 12、OpenGL、Vulkan等主流圖形接口。這意味著它不僅能在CAD等工業(yè)設(shè)計軟件中提供國際主流水平的性能,甚至可以流暢運行《古墓麗影》這類3A游戲大作。這展示了其強大的渲染管線和通用圖形處理能力。

全球首款原生支持DICOM,這是其切入高價值垂直行業(yè)的“神來之筆”。DICOM是醫(yī)學(xué)數(shù)字成像和通信的國際標準。傳統(tǒng)GPU在顯示灰階圖像時存在精度損失,“風(fēng)華3號”通過硬件原生支持,能夠?qū)崿F(xiàn)無損的高精度灰階顯示,為精準醫(yī)療提供了強大的硬件基礎(chǔ)。這不僅是一個技術(shù)亮點,更是開辟了一個全新的、高壁壘的藍海市場。
強大的顯示與編碼能力,
單卡支持6路8K超高清顯示輸出,并率先支持YUV444無損視頻編碼。

三、架構(gòu)創(chuàng)新:RISC-V與自研IP的深層布局

在芯片的底層架構(gòu)上,“風(fēng)華3號”同樣展現(xiàn)了深遠的戰(zhàn)略考量。國內(nèi)首次將國產(chǎn)RISC-V CPU與CUDA兼容GPU集成在同一芯片中,并強調(diào)核心IP全自研。

RISC-V作為一個開放、免費的指令集架構(gòu),被視為打破x86和ARM壟斷的希望。芯動科技通過集成自研的RISC-V CPU,不僅可以在GPU內(nèi)部實現(xiàn)更高效的調(diào)度和管理。

生態(tài)建設(shè)的優(yōu)先級不亞于芯片研發(fā)。
?“風(fēng)華3號”對CUDA的兼容是明智且務(wù)實的選擇。在短期內(nèi),與其另起爐灶,不如先“借船出?!?,融入現(xiàn)有主流生態(tài),讓用戶“愿用、能用、好用”。長期來看,則應(yīng)以RISC-V等開放標準為基礎(chǔ),聯(lián)合國內(nèi)軟硬件廠商,逐步構(gòu)建我們自己的指令集標準和軟件生態(tài)。這是一個漫長但必須堅持的過程。

2

超越芯片本身:

芯動科技的“計算+存儲+連接”生態(tài)棋局

如果說“風(fēng)華3號”是一艘性能強悍的旗艦,那么芯動科技在發(fā)布會上同時展示的高端DDR5內(nèi)存模組PCIe 5.0服務(wù)器交換芯片,則是為這艘旗艦保駕護航的整個艦隊。這揭示了芯動科技更大的野心:它不只想做一家GPU芯片公司,更想成為一家數(shù)據(jù)中心核心部件的平臺型解決方案提供商。

這個“計算+存儲+連接”的鐵三角戰(zhàn)略,邏輯非常清晰:

通過將這三者垂直整合,芯動科技能夠為客戶提供一套性能經(jīng)過協(xié)同優(yōu)化、自主可控的“全家桶”方案。這種模式不僅能提升產(chǎn)品整體的競爭力,更重要的是,它構(gòu)建了一個以自身為核心的硬件生態(tài)壁壘,這在未來的市場競爭中將是極其寶貴的資產(chǎn)。

單點技術(shù)突破的時代正在過去,未來的競爭是平臺的競爭、生態(tài)的競爭。芯動科技“計算+存儲+連接”的布局,展現(xiàn)了這種平臺化思維。國產(chǎn)芯片企業(yè)需要跳出“賣芯片”的單一模式,向“提供解決方案”的平臺模式轉(zhuǎn)型,通過垂直整合和協(xié)同優(yōu)化,創(chuàng)造出1+1+1>3的價值。

結(jié)語:

“風(fēng)華3號”的發(fā)布,無疑為國產(chǎn)GPU產(chǎn)業(yè)注入了一劑強心針。它用強大的性能、全面的功能和深遠的布局,證明了中國芯片企業(yè)不僅有能力在局部市場實現(xiàn)追趕,更有潛力在全球性的技術(shù)浪潮中,發(fā)出自己的聲音,定義自己的賽道。

當然,前路依然漫長。從芯片流片成功到形成規(guī)模化市場應(yīng)用,從兼容生態(tài)到引領(lǐng)生態(tài),每一步都充滿挑戰(zhàn)。但“風(fēng)華”已起,我們有理由相信,這條國產(chǎn)GPU的自主化道路,正越走越寬,前方是值得期待的星辰大海。

分享到

lixiangjing

算力豹主編

相關(guān)推薦