在2025人工智能基礎設施峰會舉行期間,曙光存儲副總裁張新鳳接受DOIT記者采訪時表示,從大模型的訓練到推理應用的落地,AI領域對存儲的需求呈現(xiàn)出爆發(fā)式增長且不斷變化的態(tài)勢。
早期,AI處于大模型訓練階段,Checkpoint數據吞吐量極大。張新鳳提到:“以單卡為例,寫入帶寬可達2-5G,若處理視頻數據,帶寬需求甚至高達7-8G。在千卡集群的情況下,對存儲帶寬的需求達到TB級。在NVMe全閃技術出現(xiàn)之前,傳統(tǒng)的HDD混閃方案一個節(jié)點僅能提供3-5GB的帶寬,要滿足TB級帶寬需求,不僅需要數百個節(jié)點,還會帶來高昂的造價成本,同時機房空間占用和電費等問題也接踵而至。這一階段,存儲性能成為制約AI發(fā)展的關鍵因素?!?/p>
隨著AI的發(fā)展,尤其是進入2025年,推理應用逐漸興起。張新鳳強調:“推理應用對存儲的要求與訓練階段截然不同,其核心在于縮短推理tokens生成時間,或在一秒內生成盡可能多的tokens,同時要保證生成tokens的質量,避免出現(xiàn)AI幻覺等問題。這些新的需求促使存儲技術必須不斷創(chuàng)新和優(yōu)化?!?/p>
張新鳳分析道:“DeepSeek對算力要求的降低,從表面上看似乎會減少對存儲的短期需求,但實際上卻擴大了AI的受眾范圍,使更多企業(yè)有可能成為AI客戶,這意味著AI基礎設施涉及的范圍更廣,從長遠來看對存儲市場是利好的。然而,從訓練到推理的轉變,對存儲的訴求發(fā)生了很大變化,存儲能否適應這些新需求成為關鍵問題?!?/p>
同時,市場上出現(xiàn)了很多一體機,存力和算力的需求從集中型數據中心發(fā)散到邊緣設備,產品多元化。張新鳳表示:“這對于企業(yè)級存儲來說,短期內是利空的。另外,DeepSeek利用算法彌補硬件設施的缺失,使得一些企業(yè)無需采購新硬件,這在短期內也對存儲市場產生了一定的沖擊。但從長期來看,新技術應用成本與應用規(guī)模打破臨界值后,會推動大規(guī)模的基礎設施建設,AI基礎設施仍將呈現(xiàn)集中與邊緣結合的方式,這為存儲市場帶來了新的機遇?!?/p>
全新升級AI存儲方案
曙光存儲ParaStor F9000專為AI訓練場景量身打造,針對AI訓練帶來的GPU利用率低、KV Cache、向量數據庫存儲和檢索性能低等問題,升級后的ParaStor可整機柜交付,提供千卡/萬卡/十萬卡集群整機柜交付方案,輕松容納DeepSeek-R1這樣千億級參數的大模型,部署時間縮短50%。
性能方面,ParaStor F9000更是表現(xiàn)卓越,擁有500萬IOPS的強大處理能力和190GB/s的高速帶寬。借助五級加速技術和秒級彈性擴容功能,可將GPT- 4級別模型的訓練周期從原本的3個月大幅縮短至1周,加速AI技能迭代。
大模型實時推理往往帶來每秒千萬級的并發(fā)請求,對存儲性能要求極高。FlashNexus集中式全閃存儲在AI推理領域樹立了新的性能標桿,其32控配置可實現(xiàn)超3000萬IOPS的驚人性能,時延低至0.202ms,在SPC-1基準評測中榮獲全球第一。
基于國內最新芯片級研發(fā)成果,優(yōu)化從處理器芯片、RDMA網絡芯片、PCIe芯片、NVMe控制器芯片的端到端協(xié)議路徑。微控架構建立無鎖化的數據IO“超級隧道”,將寫性能提升2倍以上。為AI推理的向量數據庫、KV Cache長文本存儲提供了更優(yōu)方案。此外,高性能數據加密、完善的數據保護等技術為用戶最關鍵的私域核心數據資產提供全方位保護。
面對大模型實時推理需求,該產品可“零幀起手”支撐每秒百萬級并發(fā)需求;聚焦自動駕駛決策實時性需求,可以毫秒級速度加載TB級路況數據;針對金融客戶,可在高波動市場環(huán)境下穩(wěn)定處理高頻量化交易數據流,讓交易更高效、安全。
升級后的ParaStor S6000系列,以1.44PB/框的超大容量和20%成本降低支撐千億參數歸檔。單框配置14塊NVMe盤和60塊SATA/SAS盤,通過冷熱數據分層技術和智能數據調度功能,實現(xiàn)動態(tài)優(yōu)化存儲資源的分配、跨形態(tài)熱溫冷數據無感流動,提高存儲資源的利用率。
通過與2U2N全閃節(jié)點的統(tǒng)一管理和使用,利用系統(tǒng)間無縫數據遷移等技術,顯著降低使用和運維成本。
張新鳳介紹,第二代ParaStor全閃智存產品基于2U通用的NVMe全閃服務器構建。
第一代產品推出時,基于NVMe全閃技術,已實現(xiàn)150GB的帶寬和320萬的IOPS,有效緩解了當時AI大模型訓練的存儲壓力。但隨著AI項目的推進,客戶對存儲帶寬的要求越來越高,幾乎沒有上限。基于通用硬件的存儲平臺在發(fā)揮PCIe性能時遇到瓶頸,為了突破這些限制,曙光決定打造專用的存儲硬件平臺——F9000 2U2N。張新鳳詳細解釋道:“在這款硬件平臺中,2U的節(jié)點內設置2個節(jié)點,每個節(jié)點帶12塊盤,實現(xiàn)了每塊NVMe盤與CPU直通,極大地提升了性能,確保24塊盤的性能能夠充分發(fā)揮?!?/p>
在軟件方面,曙光針對AI訓練和推理的特點進行了多項優(yōu)化。訓練時,為解決GPU等待數據的問題,推出XDS技術(類似國外的GDS技術)。張新鳳表示:“該技術不僅支持國外主流GPU,對國產加速卡也有很好的支持,能夠讓數據直通GPU的卡,使存儲節(jié)點的內存占用直接降低80%,CPU利用率下降約一半,讓存儲節(jié)點能夠釋放更多資源處理其他業(yè)務負載?!蓖瑫r,Burst Buffer技術也是一大亮點?!霸谔幚鞢heckpoint數據時,先將數據寫到GPU本地節(jié)點的NVMe存儲介質上,待空閑時再寫入存儲,這樣縮短了數據寫入距離,性能提升了兩倍。”
在推理應用方面,曙光針對訓練tokens生成的關鍵需求,采用了KV Cache技術,將更多的tokens緩存起來,以存代算,減少重新計算的時間。同時,對向量數據庫進行專用的性能優(yōu)化,提升了推理效率和生成結果的質量。張新鳳透露:“目前,該產品的節(jié)點性能已提升至190GB帶寬和500萬IOPS,且未來還有進一步提升的空間?!?/p>
在AI大模型的訓練和推理場景中,曙光根據不同階段的需求,提供了靈活的方案組合。張新鳳介紹:“在訓練和推理對性能要求極高的階段,通常采用分布式全閃方案,以滿足高并發(fā)帶寬和低延遲的需求。而在數據預處理和歸檔階段,由于數據量較大,如果全部采用全閃方案成本過高,此時曙光會推薦高密的混閃產品,利用大容量硬盤構建存儲空間。對于數據量規(guī)模不是特別大的客戶,則推薦FlashNexus NVMe全閃盤陣,其具有延遲低、并發(fā)度高的特點,不僅適用于金融的在線實時交易、醫(yī)療HIS系統(tǒng),也能很好地滿足AI推理需求。如果用戶之前在FlashNexus存儲了數據,可直接基于這些數據進行處理和推理分享,十分便捷?!?/p>
行業(yè)布局:AI存儲,中國第一
曙光存儲自稱“最懂AI的存儲”,并非虛言。張新鳳介紹:“在訓練階段,XDS和Burst Buffer技術有效解決了GPU空載等數據的問題,大幅提升了GPU利用率。以前GPU利用率僅30%-40%,采用曙光存儲技術后,利用率可達到70%-80%。對于大的訓練中心來說,GPU造價高昂,減少等待時間能避免巨大的經濟損失。”
在推理階段,曙光通過用戶處理私域的專業(yè)數據,利用向量數據庫和KV Cache加速技術,解決了推理中幻覺的問題,提高了生成tokens的效率和精度。曙光致力于打造AI全數據通道,從數據采集、加載、預處理、訓練、推理到歸檔,都能在其存儲系統(tǒng)上完成。在不同階段,根據不同的協(xié)議和接口要求,以及數據存儲的不同介質和區(qū)域,曙光都能提供完整的支持。
在產品布局上,曙光存儲圍繞AI進行全面規(guī)劃。分布式存儲方面,無論是硬件還是軟件,都緊密圍繞AI存儲需求進行快速適配調整,重點關注自動駕駛、具身智能、計算中心等典型的AI產出大戶。同時,曙光也在集中式存儲領域發(fā)力。張新鳳解釋:“一方面,分布式和集中式存儲在底層技術上有相通之處,特別是在NVMe協(xié)議的應用上;另一方面,客戶對高性能集中式存儲的需求強烈,而目前國內市場上可選的優(yōu)質產品較少。曙光在兩年前進行了NVMe全閃布局,去年推出一款產品,今年將對產品進行多次迭代更新,未來兩年還會有更多新產品推出,致力于打造最高端的集中式NVMe全閃產品,服務關鍵行業(yè)和應用場景?!?/p>
張新鳳介紹,為國內一家新勢力企業(yè)構建底層存力平臺時,面臨著諸多挑戰(zhàn)。該企業(yè)有100多輛路測車,每天采集2-4TB的數據,這些數據采集后需匯總到存儲平臺進行清洗、標注、去敏感信息,然后用于算法迭代訓練,訓練結果和部分數據還需長期存儲。
在數據處理過程中,不同階段使用不同的協(xié)議,采集階段使用S3協(xié)議,標注處理時用NAS協(xié)議,算法訓練用POSIX協(xié)議,歸檔到云時又用S3協(xié)議。張新鳳感慨道:“要確保數據在不同協(xié)議之間轉換時性能無損且高級功能可用,難度極大。此外,自動駕駛數據涉及大量敏感信息,權限控制嚴格?!笔锕忉槍@些問題,進行了大量專門的權限管理設計,為客戶提供了高性能且方便易用的存儲解決方案,這也是眾多客戶長期與曙光合作的重要原因。
此外,曙光存儲還關注低空經濟、生物信息等領域。張新鳳介紹:“低空經濟中,衛(wèi)星和無人機等采集設備產生大量數據,曙光在該領域已有很多百PB的案例落地。生物信息領域,基因測序和冷凍電鏡等前端采集設備生成具有高科研價值的數據,對存儲性能要求較高,曙光幫助科研單位打通不同客戶之間的數據共享問題,其在AI領域積累的數據流動和存儲技術也適用于該領域。同時,曙光還在打造視頻存力平臺、交通存力平臺等,聚焦具體應用場景,滿足不同行業(yè)的差異化需求。”
結語
展望未來,曙光存儲充滿信心。張新鳳說道:“隨著AI技術的不斷發(fā)展,AI基礎設施將呈現(xiàn)集中與邊緣結合的模式,大規(guī)模的集中訓練和遍地開花的推理集群將成為主流場景。曙光已經為國內很多萬卡集群提供支持,今年年底還將打造十萬卡的集群。在這個過程中,曙光的技術也在不斷進化,以滿足AI發(fā)展的需求?!?/p>
曙光存儲將繼續(xù)圍繞AI進行產品研發(fā)和優(yōu)化,不斷提升存儲性能,降低成本,拓展應用領域。張新鳳最后表示:“同時,也希望通過自身的努力,推動整個存儲行業(yè)的發(fā)展,在AI時代的存儲領域發(fā)揮更大的作用,為千行百業(yè)的數字化轉型提供堅實的存儲支撐?!?/p>