在服務(wù)企業(yè)客戶的時(shí)候,楊磊注意到,有很多企業(yè)投入了大量資金買最先進(jìn)的GPU,但最終發(fā)現(xiàn)效果并不如預(yù)期。深入排查后會(huì)發(fā)現(xiàn),問(wèn)題大多并不出在算力,而是出在存儲(chǔ):IOPS不足、延遲高、帶寬不夠,經(jīng)常會(huì)拖慢整套系統(tǒng)。
AI大模型技術(shù)在企業(yè)落地的過(guò)程中,需要對(duì)接企業(yè)自己的專有數(shù)據(jù),這些數(shù)據(jù)的管理、處理、調(diào)用都需要存儲(chǔ)系統(tǒng)的支持,對(duì)存儲(chǔ)系統(tǒng)提出了更高要求。然而,AI工作流的不同階段對(duì)存儲(chǔ)的性能、容量等方面的要求都有不同的側(cè)重點(diǎn)。
比如,在數(shù)據(jù)存儲(chǔ)與預(yù)處理階段。需要對(duì)用來(lái)做訓(xùn)練的數(shù)據(jù)進(jìn)行反復(fù)清洗、預(yù)處理。這個(gè)過(guò)程對(duì)存儲(chǔ)系統(tǒng)的多協(xié)議支持、高吞吐量、大容量都有很高要求。一旦數(shù)據(jù)處理速度慢了,就會(huì)拖慢整個(gè)集群的效率。
都知道模型訓(xùn)練階段對(duì)GPU的消耗極大,而GPU想要火力全開,還需要有高帶寬、低延遲的存儲(chǔ)系統(tǒng)做配合。這一階段對(duì)IOPS、吞吐、延遲控制要求都非常高,存儲(chǔ)性能一旦跟不上,就會(huì)浪費(fèi)寶貴的GPU資源。
在模型落地應(yīng)用的階段,也就是模型推理階段,整體對(duì)于存儲(chǔ)的要求相對(duì)低了一點(diǎn),但不同行業(yè)之間也有一些區(qū)別。比如,金融風(fēng)控領(lǐng)域?qū)ρ舆t要求極高,醫(yī)療影像場(chǎng)景則需要快速加載數(shù)據(jù)。
為了解決模型落地部署過(guò)程中存在的問(wèn)題,融科聯(lián)創(chuàng)推出了DeepSeek一體機(jī)。它解決了傳統(tǒng)服務(wù)器廠商不懂AI模型、不懂應(yīng)用,而AI模型開發(fā)者、應(yīng)用開發(fā)者不懂硬件的問(wèn)題,將一系列硬件和軟件全部集成,以一體化的形式支持用戶“一鍵式部署”。
融科聯(lián)創(chuàng)的DeepSeek場(chǎng)景提供兩個(gè)版本,一種是在同一個(gè)服務(wù)器里集成了存儲(chǔ)和算力。第二種是分離式的方案,針對(duì)人數(shù)2000人以上的大型機(jī)構(gòu),會(huì)用上滿血版671B DeepSeek模型,對(duì)集群并發(fā)和性能要求都很高。
融科聯(lián)創(chuàng)與Solidigm的緊密合作
融科聯(lián)創(chuàng)是一家服務(wù)器廠商,但在超融合以及存儲(chǔ)等領(lǐng)域也都有布局,還有自主研發(fā)的分布式存儲(chǔ)方案。可以注意到,融科聯(lián)創(chuàng)的很多技術(shù)方案中都選擇了Solidigm的固態(tài)盤。從楊磊的介紹中了解到,融科聯(lián)創(chuàng)和融科聯(lián)創(chuàng)的很多客戶都非常認(rèn)可Solidigm的固態(tài)盤,目前每年出庫(kù)的數(shù)千個(gè)節(jié)點(diǎn)當(dāng)中大部分都采用了Solidigm的固態(tài)盤。下圖是一個(gè)2U 24盤位的NVMe全閃存儲(chǔ)方案,支持Solidigm D7-PS1010(Gen 5.0)、D7-P5510和P5530等硬盤。
融科聯(lián)創(chuàng)將SSD分為兩大類。一類是高性能SSD,這些場(chǎng)景中對(duì)存儲(chǔ)空間需求不大,但對(duì)IOPS和帶寬要求高。另一類是大容量型 SSD(比如QLC的P5430),用于數(shù)據(jù)量大的場(chǎng)景,這類應(yīng)用對(duì)容量需求高,但對(duì)性能沒(méi)有特別要求,更注重性價(jià)比。
融科聯(lián)創(chuàng)在兩大類場(chǎng)景中都用了Solidigm的方案。楊磊介紹稱,選擇Solidigm的一個(gè)核心原因就是看中了它的兼容性和硬盤的整體穩(wěn)定性。一些硬盤可能會(huì)不支持某項(xiàng)功能,比如不支持帶外管理,而使用Solidigm的過(guò)程中從沒(méi)有出現(xiàn)此類問(wèn)題。
與原本筆者想象中企業(yè)用戶只關(guān)心存儲(chǔ)系統(tǒng)不同,很多企業(yè)客戶也都關(guān)注具體使用的固態(tài)盤。
楊磊表示,融科聯(lián)創(chuàng)的一位客戶最初習(xí)慣于使用某品牌的硬盤,與融科接觸早期間也堅(jiān)持沿用這一品牌,并要求融科提供同樣配置的三臺(tái)2U 24盤全閃產(chǎn)品。
然而,不久后卻出現(xiàn)了狀況。首先是帶外管理識(shí)別問(wèn)題,讓融科不得不臨時(shí)將硬盤更換為Solidigm的產(chǎn)品,更換后帶外管理的問(wèn)題迎刃而解。但故事并未就此結(jié)束,隨后又出現(xiàn)了硬盤頻繁掉線的新挑戰(zhàn),頻率一度達(dá)到“一個(gè)月掉一塊”的程度。
面對(duì)這一棘手情況,融科聯(lián)創(chuàng)與Solidigm的工程師們迅速展開了聯(lián)合排查。經(jīng)過(guò)深入分析,最終排除了硬盤的問(wèn)題并找到了問(wèn)題的根源。Solidigm團(tuán)隊(duì)在此過(guò)程中展現(xiàn)出的強(qiáng)大技術(shù)支持和協(xié)同解決問(wèn)題的能力,給楊磊留下了深刻印象。
融科聯(lián)創(chuàng)與Solidigm的合作由來(lái)已久。Solidigm的前身是英特爾的SSD業(yè)務(wù)部門,當(dāng)時(shí)融科聯(lián)創(chuàng)的服務(wù)器和存儲(chǔ)系統(tǒng)中就用上了很多英特爾的SSD。Solidigm成立后雙方保持了原有的合作關(guān)系。
從英特爾到Solidigm的轉(zhuǎn)型過(guò)程中,Solidigm團(tuán)隊(duì)提供了大量支持,從借樣品、測(cè)試驗(yàn)證,到與客戶溝通和售后服務(wù),全流程協(xié)同緊密,推動(dòng)多個(gè)大型項(xiàng)目成功落地。楊磊提到,“Solidigm解決了我們很多實(shí)際問(wèn)題,Solidigm的盤是我們最常用、最信賴的產(chǎn)品?!?/p>