而且,每個(gè)應(yīng)用場(chǎng)景對(duì)于存儲(chǔ)系統(tǒng)的性能往往有著不同的要求。例如,某領(lǐng)先電商平臺(tái)已經(jīng)存儲(chǔ)了數(shù)量以百億計(jì)算的圖片文件,這些圖片平均大小在15KB左右,用戶對(duì)于這些圖片文件的讀取完全是隨機(jī)讀取,一旦大量用戶同時(shí)在線訪問(wèn)網(wǎng)址或者搜索商品,往往就會(huì)給存儲(chǔ)系統(tǒng)的隨機(jī)讀寫(xiě)能力帶來(lái)巨大的挑戰(zhàn);在交警系統(tǒng)中,路口的抓拍攝像頭會(huì)將違章圖片傳送至區(qū)中心的計(jì)算服務(wù)器,不僅攝像頭數(shù)量多,而且每臺(tái)攝像頭每天都可能生成數(shù)千乃至上萬(wàn)張照片,某市每天相關(guān)圖片寫(xiě)入甚至超過(guò)一億張,要降低存儲(chǔ)系統(tǒng)的壓力,就需要及時(shí)刪除正常的圖片,這對(duì)存儲(chǔ)系統(tǒng)的寫(xiě)入、刪除能力要求很高。
浪潮存儲(chǔ)產(chǎn)品經(jīng)理杜劍表示:“海量小文件的讀寫(xiě)需求在近幾年來(lái)快速增長(zhǎng),特別是在人工智能、高性能計(jì)算等應(yīng)用場(chǎng)景中,往往需要對(duì)于海量的數(shù)據(jù)集進(jìn)行隨機(jī)讀寫(xiě)操作,存儲(chǔ)系統(tǒng)的性能不足將會(huì)帶來(lái)高時(shí)延,從而直接影響應(yīng)用的效果。為了解決海量小文件的讀寫(xiě)問(wèn)題,浪潮除了嘗試在硬件上進(jìn)行重構(gòu)之外,還致力于通過(guò)軟件層面的技術(shù)創(chuàng)新來(lái)進(jìn)行改善?!?/span>
解決海量小文件的讀寫(xiě)難題 浪潮有三板斧
作為了面向云計(jì)算、大數(shù)據(jù)存儲(chǔ)的高性能集群架構(gòu)產(chǎn)品,浪潮軟件定義存儲(chǔ) AS13000 可以幫助用戶搭建存儲(chǔ)資源池,為上端應(yīng)用提供其所需的存儲(chǔ)資源。為了提升海量小文件的讀寫(xiě)性能,浪潮 AS13000 從云數(shù)據(jù)集群、小文件聚合、文件分層三個(gè)層面進(jìn)行了創(chuàng)新。
首先,云數(shù)據(jù)集群技術(shù)創(chuàng)新。AS13000 可以根據(jù)系統(tǒng)規(guī)模統(tǒng)一規(guī)劃,保證元數(shù)據(jù)服務(wù)散布于每個(gè)存儲(chǔ)節(jié)點(diǎn),使系統(tǒng)能夠通過(guò)多個(gè)元數(shù)據(jù)服務(wù)器提供元數(shù)據(jù)服務(wù),實(shí)現(xiàn)元數(shù)據(jù)并發(fā)操作,有效的提升處理海量小文件的能力。而且,AS13000 還提供了目錄負(fù)載平衡特性。將目錄自動(dòng)分配到系統(tǒng)中的所有元數(shù)據(jù)服務(wù),減少相關(guān)元數(shù)據(jù)的通信壓力。
其次,小文件聚合技術(shù)創(chuàng)新。在前面我們也提到過(guò),磁盤(pán)讀寫(xiě)大文件的速度往往要顯著高于小文件。為了利用這一特性,AS13000 中的小文件并非直接落盤(pán),而是合并為64MB之后再進(jìn)行落盤(pán)操作,從而有效降低小文件寫(xiě)入磁盤(pán)次數(shù)、減輕寫(xiě)數(shù)據(jù)壓力,同時(shí)還提高讀取命中率并縮短讀 I/O 路徑。
最后,文件分級(jí)計(jì)算創(chuàng)新。AS13000 會(huì)根據(jù)集群系統(tǒng)中文件的大小、類型、存放時(shí)間等元數(shù)據(jù)屬性,將滿足用戶所設(shè)置分級(jí)策略的文件分別遷移到不同性能存儲(chǔ)介質(zhì)上的存儲(chǔ)池中。其中,在線存儲(chǔ)使用高速存儲(chǔ)介質(zhì),應(yīng)用于文件讀寫(xiě)頻繁且對(duì)性能要求較高的場(chǎng)景,近線存儲(chǔ)使用低價(jià)、低速的存儲(chǔ)介質(zhì),應(yīng)用于對(duì)文件讀寫(xiě)帶寬和存儲(chǔ)容量要求較高的高帶寬、大容量場(chǎng)景,這樣有利于實(shí)現(xiàn)速度與成本的平衡。
經(jīng)過(guò)驗(yàn)證,在應(yīng)用了這些技術(shù)創(chuàng)新之后,浪潮 AS13000 在海量小文件的讀寫(xiě)性能方面有了顯著的提升,理論測(cè)試中的提升幅度超過(guò)30%。
電商、交通卡口等場(chǎng)景 提升數(shù)倍處理效率
在電商、交通、機(jī)器學(xué)習(xí)、高性能計(jì)算等實(shí)際客戶的存儲(chǔ)系統(tǒng)應(yīng)用實(shí)踐中,浪潮 AS13000 顯著的提升了海量小文件的讀寫(xiě)性能。在某工業(yè)技術(shù)研究院的高性能計(jì)算應(yīng)用中,浪潮 AS13000 通過(guò)小文件讀寫(xiě)性能的優(yōu)化將作業(yè)耗時(shí)降低了20%;在某警務(wù)云的搭建實(shí)踐中,浪潮 AS13000 在應(yīng)對(duì)8KB-64KB 小文件讀寫(xiě)時(shí),整體集群 IOPS 高達(dá)110000,比預(yù)期值提升了30% 左右。
海量小文件讀寫(xiě)速度的提升對(duì)于上層應(yīng)用效率的提升可謂“立竿見(jiàn)影”。例如,在某市骨架路網(wǎng)的視頻監(jiān)測(cè)中,浪潮 軟件定義存儲(chǔ)AS13000 將圖片檢索用時(shí)從十幾秒降低到3秒以下,交通監(jiān)控圖片取證實(shí)現(xiàn)“秒開(kāi)秒解”,交通執(zhí)法取證的速度更是提升幾倍。除了極高的性能表現(xiàn)之外,浪潮AS13000還具備極高的可用性、安全性,是搭建面向云計(jì)算、大數(shù)據(jù)存儲(chǔ)的高性能集群架構(gòu)的優(yōu)先選擇。