AI的場(chǎng)景大致分為模型訓(xùn)練和推理兩大部分。其中,訓(xùn)練主要在數(shù)據(jù)中心內(nèi)部完成,涉及的主要操作包括數(shù)據(jù)攝?。↖ngest)、Checkpoint創(chuàng)建等。

當(dāng)然,需要?dú)w檔的數(shù)據(jù)也都存放在資源充裕的數(shù)據(jù)中心里。而推理既可以在數(shù)據(jù)中心內(nèi)部完成,也可以在近邊緣和遠(yuǎn)邊緣端完成。

數(shù)據(jù)準(zhǔn)備的過(guò)程主要發(fā)生在數(shù)據(jù)中心和近邊緣端,也會(huì)有少部分發(fā)生在遠(yuǎn)邊緣端??梢哉f(shuō),幾乎所有場(chǎng)景中都離不開存儲(chǔ)的支持,都需要存儲(chǔ)具有處理大量數(shù)據(jù)的能力,都需要有盡可能高的讀寫性能。

此時(shí),閃存存儲(chǔ)的優(yōu)勢(shì)就非常明顯。

閃存在人工智能場(chǎng)景上的優(yōu)勢(shì)

閃存的性能和容量密度優(yōu)勢(shì),可以用更少的設(shè)備提供更高性能和更大容量,這樣就可以減少空間占用,簡(jiǎn)化管理的復(fù)雜度。同時(shí),配合它在減少能耗方面的優(yōu)勢(shì),決定了它更適合用在近邊緣和遠(yuǎn)邊緣端,不在那么依賴于數(shù)據(jù)中心的資源。

翁昀非常細(xì)致地介紹了SSD,具體而言是Solidigm D5-P5430在人工智能應(yīng)用領(lǐng)域的相較于機(jī)械硬盤的諸多優(yōu)勢(shì)。

比如,數(shù)據(jù)攝取階段主要看重順序?qū)懶阅埽鳧5-P5430能提供十倍于機(jī)械硬盤的順序?qū)懶阅?。在?shù)據(jù)準(zhǔn)備階段主要看重順序讀性能,D5-P5430甚至可以提供高達(dá)23倍的性能。訓(xùn)練階段看中的隨機(jī)讀性能上,D5-P5430的優(yōu)勢(shì)達(dá)到了4500倍,看來(lái),訓(xùn)練階段閃存盤是必選項(xiàng)。

Checkpoint是機(jī)器學(xué)習(xí)模型訓(xùn)練階段的關(guān)鍵技術(shù)之一,它會(huì)保留訓(xùn)練的中間結(jié)果,為了訓(xùn)練能順利完成,經(jīng)常需要?jiǎng)?chuàng)建Checkpoint。為了提高創(chuàng)建速度,就需要存儲(chǔ)提供更高的順序?qū)懶阅?,而如果要用Checkpoint進(jìn)行恢復(fù)的話,則需要存儲(chǔ)提供更高的順序讀性能。

此外,為了更好地在包括近邊緣和遠(yuǎn)邊緣端等更多場(chǎng)景進(jìn)行推理,閃存盤也是必選項(xiàng),因?yàn)橥评黼A段對(duì)于隨機(jī)讀性能的要求比較高。在對(duì)比中,D5-P5430的性能大概達(dá)到了機(jī)械硬盤的4500倍。

如剛才所說(shuō),AI的各個(gè)場(chǎng)景中都需要更高性能的存儲(chǔ)。說(shuō)到底,如果沒有高性能的存儲(chǔ)給訓(xùn)練及時(shí)提供數(shù)據(jù),那么AI加速器的利用率會(huì)有明顯降低,會(huì)造成浪費(fèi)。如果沒有高性能的存儲(chǔ)給推理場(chǎng)景及時(shí)提供數(shù)據(jù),則會(huì)直接影響推理的性能表現(xiàn)。

AI對(duì)存儲(chǔ)提出的最直接的需求就是更高的性能,同樣重要的還有更大的存儲(chǔ)容量,這兩點(diǎn)它對(duì)于未來(lái)處理更大規(guī)模的訓(xùn)練數(shù)據(jù)集非常重要。

Solidigm有多種方案可滿足AI對(duì)于性能和容量的要求

為了做到這兩點(diǎn),Solidigm推薦用戶使用CSAL(Cloud storage accelerate layer云存儲(chǔ)加速層)這一開源軟件來(lái)構(gòu)建存儲(chǔ)方案。CSAL是一個(gè)開源項(xiàng)目,它使用高性能SSD作為快速緩存和寫入緩沖區(qū),優(yōu)化對(duì)NAND的寫入,減少寫入放大并提升性能。

既然是開源的方案,誰(shuí)都可以用CSAL。Solidigm推薦用戶使用基于SLC的D7-P5810來(lái)構(gòu)建緩存和緩沖區(qū),因?yàn)镾LC的性能更高,更耐擦寫。同時(shí),使用基于QLC的D5-P5336來(lái)用作容量層,利用QLC大容量和低成本的優(yōu)勢(shì)。

Solidigm這套基于CSAL的方案,既可以提供更高的性能,同時(shí),也能提供更高的容量。對(duì)于AI場(chǎng)景而言,它可以為AI加速器提供充足的數(shù)據(jù)供應(yīng),極大提升XPU的利用率。

此外,對(duì)于需要相對(duì)均衡的讀寫性能的用戶而言,Solidigm推薦使用Solidigm D7-P5520或者D5-P5430這樣的方案。而對(duì)于對(duì)成本比較敏感的用戶而言,Solidigm推薦用戶使用基于QLC的Solidigm D5-P5336,它可以提供單盤高達(dá)61.44TB的數(shù)據(jù)和更高的性價(jià)比。

D5-P5336是Solidigm在2023年發(fā)布的產(chǎn)品,是當(dāng)時(shí)市場(chǎng)上最大容量的企業(yè)級(jí)SSD之一,在構(gòu)建10PB級(jí)別超大容量AI數(shù)據(jù)平臺(tái)時(shí),相對(duì)于機(jī)械硬盤有非常大的優(yōu)勢(shì)。

同樣是構(gòu)建10PB的存儲(chǔ)資源,如果還是用原來(lái)的機(jī)械硬盤,則需要1786塊3.5英寸的硬盤,而如果換成D5-P5336則只需要343塊盤,數(shù)量相差了5.2倍。與此同時(shí),需要的服務(wù)器和機(jī)架數(shù)量直接縮減了9倍。

直接對(duì)比五年下來(lái)的能耗成本,發(fā)現(xiàn)基于D5-P5336的方案,電費(fèi)直接縮減了4.3倍,而整體的TCO也降低了46%,將近一半。無(wú)論如何,這都是一套優(yōu)勢(shì)非常明顯的解決方案。

為了提高AI訓(xùn)練數(shù)據(jù)的準(zhǔn)備速度,金山云對(duì)后端對(duì)象存儲(chǔ)KS3進(jìn)行了升級(jí)。在Solidigm閃存技術(shù)的幫助下,從原本的硬盤加Cache的方案升級(jí)為純SSD的配置。升級(jí)后,加載40TB原始數(shù)據(jù)集的時(shí)間從535分鐘(約9小時(shí))縮短到了11分鐘。

結(jié)束語(yǔ)

在AI場(chǎng)景中,閃存存儲(chǔ)在多個(gè)方面都表現(xiàn)出了壓倒性的優(yōu)勢(shì),除了初期購(gòu)置成本略高,剩下的全是優(yōu)勢(shì)。無(wú)論是在性能、容量密度、功耗方面,還是在空間節(jié)省、架構(gòu)簡(jiǎn)化、提高XPU利用率等方面都有無(wú)可比擬的優(yōu)勢(shì)。

對(duì)于真正關(guān)心生成式AI技術(shù)架構(gòu)的朋友來(lái)說(shuō),應(yīng)該會(huì)意識(shí)到,生成式AI來(lái)了,我們需要很多更大容量的SSD。AI時(shí)代,大容量SSD正當(dāng)時(shí)!

分享到

zhupb

相關(guān)推薦