在峰會智能算力前沿技術(shù)論壇上,清程極智技術(shù)專家李浩瑞進行了《開源赤兔引擎推動算力生態(tài),賦能多場景的大模型私有化部署及其應用》的主題分享,介紹了清程極智在算力基礎軟件方面的技術(shù)積累,并深入解析了其最新開源的赤兔(Chitu)推理引擎技術(shù)優(yōu)勢及其在實際場景中的應用成果。

赤兔推理引擎突破了FP8與英偉達H系列硬件的綁定,在大部分國產(chǎn)顯卡、英偉達非Hopper卡設備上即可部署DeepSeek-R1滿血版性能,Token輸出速度超越國際主流推理引擎,GPU用量在減半的情況下仍能有3.15倍的提速。同時他分享了清程極智在算力服務方面的軟件能力,包括底層編譯器、并行計算系統(tǒng)及大模型應用等全棧技術(shù)方案。

清華基因,孕育硬核科技

清程極智孵化自清華大學計算機系,由翟季冬教授擔任首席科學家。依托團隊成員在實驗室里積攢的在基礎設施、算力優(yōu)化領域的深厚積累,公司構(gòu)建了全棧技術(shù)體系,技術(shù)能力覆蓋從底層編譯器到上層大模型應用的各個環(huán)節(jié)。中國工程院院士鄭緯民曾提出了10個關(guān)鍵基礎軟件的核心技術(shù),包括并行系統(tǒng)、計算框架、通信庫、算子庫、AI編譯器、編程語言、調(diào)度系統(tǒng)、存儲系統(tǒng)、內(nèi)存管理、容錯系統(tǒng)等,清程極智在其中過半數(shù)已擁有自研產(chǎn)品,基于此形成的解決方案覆蓋大模型落地全棧技術(shù)要求。

清程極智依托基礎軟件全棧技術(shù)積累,提供智能算力建設全流程解決方案:從國產(chǎn)生態(tài)算力適配、大規(guī)模預訓練、大模型微調(diào)、到大模型推理效率提升、云端服務平臺MaaS以及RAG服務。實現(xiàn)智能算力能力從無到有、降本增效、個性化定制等。。

在李浩瑞現(xiàn)場展示的案例中,在給某視頻生成大模型客戶做算力效率提升時,清程極智可將單卡推理速度提升1.3倍,,四卡環(huán)境下視頻生成時間從190秒縮短至58秒。

赤兔引擎突破部署瓶頸,促進國產(chǎn)生態(tài)建設

李浩瑞重點介紹了清程極智開源的赤兔引擎。在部署DeepSeek–R1滿血版時,傳統(tǒng)方案面臨顯存需求高、多卡通信瓶頸以及芯片適配難題。赤兔推理引擎突破了FP8與英偉達H系列硬件的綁定,使大部分國產(chǎn)芯片、英偉達老顯卡也能部署DeepSeek-R1滿血版。在A100集群測試中,與國外領先的推理引擎相比,赤兔引擎在GPU數(shù)量減半的情況下,輸出Token速度還能提升3.15倍。

李浩瑞進一步介紹道:赤兔引擎具備多源算力適配、多場景伸縮、運行穩(wěn)定、兼容能力強等特性,支持多種主流模型和多模態(tài)模型,適配國內(nèi)外芯片及多種接口格式,顯著縮短請求耗時,提升并發(fā)吞吐效率,實現(xiàn)顯存優(yōu)化。在2024AIPerF–Inference吞吐性能榜單中,清程極智與合作伙伴搭建的推理系統(tǒng)榮獲性能排行第一名。

近期,基于赤兔引擎,清程極智推出了大模型本地化部署、私有云部署、推理一體機等產(chǎn)品形式,滿足不同客戶的多場景需求。清程極智大模型私有化部署方案具備多類型多版本大模型選擇、小顯存占用、異構(gòu)芯片適配等優(yōu)勢,并提供開箱即用的AI應用服務及定制化開發(fā)服務。

目前赤兔引擎已在GitHub全面開源,新華社評論其”為自主可控AI生態(tài)提供新支點”。清程極智正與多家國產(chǎn)芯片廠商進行深化合作,致力于打造完全自主的國產(chǎn)智能算力生態(tài)。

結(jié)語

當開源生態(tài)遇上全棧自研,中國AI產(chǎn)業(yè)正迎來屬于自己的”赤兔時刻”。清程極智也將持續(xù)致力推動智能算力生態(tài)建設,為行業(yè)提供功能完備、高效率低成本的大模型落地全棧解決方案。

分享到

nina

相關(guān)推薦