峰會第二天,共舉行了十場分論壇。在“分布式存儲與應(yīng)用論壇”上,曙光信息產(chǎn)業(yè)有限公司產(chǎn)品總監(jiān)石靜以“深耕·落地,超大規(guī)模分布式存儲集群實踐探究”為題發(fā)表演講,闡述了超大存儲集群面臨的技術(shù)挑戰(zhàn)、如何基于曙光ParaStor構(gòu)建海量數(shù)據(jù)存儲最佳方案以及十多年來深耕細(xì)作行業(yè)的成功案例。

以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。

圖:曙光信息產(chǎn)業(yè)有限公司產(chǎn)品總監(jiān)石靜

石靜:尊敬的各位嘉賓,大家下午好!今天聽了很多同行專家們講了很多產(chǎn)品,很有啟發(fā)。也有榮幸站到這里,分享曙光公司對大規(guī)模分布式存儲實踐的探究。

海量數(shù)據(jù)存儲  從云端到落地

近年來,超大集群建設(shè)需求逐漸增加,數(shù)十乃至數(shù)百PB數(shù)據(jù)共享,分布式存儲機(jī)遇與挑戰(zhàn)共存。

中科曙光的重點應(yīng)對是三個領(lǐng)域。

一是先進(jìn)計算,國家“十三五”規(guī)劃的時候已經(jīng)把先進(jìn)計算納入重點發(fā)展的范疇。先進(jìn)計算包括常見一級計算云計算、智能計算等等。我們現(xiàn)在處于一個計算多元化的時代。隨著5G商用的加速,邊緣計算也大行其道,帶給用戶們便利的同時,其實也有海量數(shù)據(jù)的管理和存儲需求。

第二,視頻監(jiān)控。視頻監(jiān)控也面臨兩個趨勢,第一大趨勢就是超高清,第二大趨勢AI智能化,兩大趨勢都帶來了數(shù)據(jù)大幅度的增長一個市級行政規(guī)模里面,一年可以達(dá)到數(shù)PB。

三是現(xiàn)在各行各業(yè)都做的數(shù)字化轉(zhuǎn)型,數(shù)字化轉(zhuǎn)型期間這種云存儲資源池是IT建設(shè)必經(jīng)之路。以運營商為例,一個資源池一年有數(shù)十PB規(guī)模。我們部署了一百多個節(jié)點,但真要管理數(shù)百PB規(guī)模的時候,對于產(chǎn)品和技術(shù)挑戰(zhàn)也是非常大的。

超大存儲集群面臨的技術(shù)挑戰(zhàn)

一是要解決超大存儲集群里如何保障高效傳輸。二是集群大了以后承載的業(yè)務(wù)也是非常大的,性能需求也是迥異,一套存儲怎么滿足這種各個不同的性能需求,三是在超大規(guī)模里邊如何能夠保證一個安全可靠。

基于曙光ParaStor,構(gòu)建海量數(shù)據(jù)存儲最佳方案

曙光公司基于自研分布式存儲系統(tǒng)ParaStor,結(jié)合多年技術(shù)積累,市場耕耘的市場經(jīng)驗,打造一個整體的解決方案,其特點是涵蓋海量數(shù)據(jù)管理、高速網(wǎng)絡(luò)技術(shù)、存儲協(xié)議棧優(yōu)化等,超大規(guī)模部署實踐經(jīng)驗,數(shù)百個存儲節(jié)點,數(shù)萬個計算節(jié)點,7X24小時穩(wěn)定運行,成功在先進(jìn)計算視頻監(jiān)控商務(wù)信息等各個領(lǐng)域有大規(guī)模甚至超大規(guī)模的部署。

在應(yīng)對上面三個挑戰(zhàn)的時候都是怎么做的,接下來給各位逐一分享。

1)精細(xì)化控制,高效率的實時保障

集群交付的高效。分布式集群內(nèi)部存儲節(jié)點之一,業(yè)務(wù)客戶端和存儲系統(tǒng)的交互信息需要在每個節(jié)點實時同步。我們可以有N個節(jié)點,N個節(jié)點和N減一個節(jié)點進(jìn)行交互,首先是拓?fù)湟晥D,我們需要知道節(jié)點位置和磁盤位置,每一個節(jié)點運行狀態(tài),節(jié)點性能指標(biāo)需要同步,N個節(jié)點增加的時候,我們通信是非常大的。ParaStor不再是基于節(jié)點做的,而是以小組作為通信,通信增加了顆粒度,增加顆粒度的方式減少通信的次數(shù),能夠做到秒級更新。此外交互的過程中肯定存在某一個時刻有多個源向同一個目標(biāo)交互,我們加入了隨機(jī)因子,可以避免多個源向同一個點同時交互,避免沖突的等待。

另外,分布式存儲里面所有的數(shù)據(jù)傳輸交互都是基于網(wǎng)絡(luò)鏈接的,在一些性能的場景中大家都會用到RDMA協(xié)議,RDMA協(xié)議每一條網(wǎng)絡(luò)鏈接都是需要分配內(nèi)存的。一個直觀的認(rèn)識,如果說我有一萬個計算節(jié)點,需要和某一個節(jié)點建立交互的,光建立一萬個鏈接就耗費50G內(nèi)存,系統(tǒng)資源有限的,對于整個網(wǎng)絡(luò)通信是不穩(wěn)定的,我們怎么做的呢?我們在這里邊不再說每一條單獨分享內(nèi)存,分配內(nèi)存的時候先分配一部分,等到用完再分配,這樣降低資源的消耗,實踐中帶一套集群里面,每一個節(jié)點配置128G內(nèi)存,這是交互的高效性。

為了保證多個客戶端訪問到數(shù)據(jù)實時更新的,需要一致性。ParaStor借助分布鎖的機(jī)制保證數(shù)據(jù)一致性,每一個請求的時候都要帶一個鎖資源。當(dāng)集群規(guī)模很大的時候,光是維護(hù)這些鎖的資源開銷非常大。整個維護(hù)鎖資源的服務(wù)器是集群模式,可以出發(fā)鎖請求的服務(wù)器很多的,并發(fā)服務(wù)的,這樣就相當(dāng)于增加了鎖的數(shù)量,提供鎖服務(wù)器,可以優(yōu)化鎖的申請和釋放隊列每一個鎖服務(wù)器可以提供的并發(fā)度也是提升的。

這是應(yīng)對第一個挑戰(zhàn)。

2)多維度優(yōu)化,滿足多樣化性能需求

智能預(yù)讀。對于多樣化的性能要求,運行一段時間后,存儲系統(tǒng)可以智能識別業(yè)務(wù)的IO模式,是一直連續(xù)的,還是一直是隨機(jī)的,是4K訪問還是1M訪問,獲知這種IO模式以后,存儲系統(tǒng)可以自適應(yīng)采用不同的方式給不同的應(yīng)用不同的加速引擎。

多層加速。整個的IO鏈路上有不同級別緩存的,從業(yè)務(wù)客戶端的內(nèi)存到存儲節(jié)點的內(nèi)存,三個不同級別里邊根據(jù)數(shù)據(jù)熱度進(jìn)行不同的熱度緩存加速,有的業(yè)務(wù)用到分級存儲,我們實現(xiàn)跟大部分產(chǎn)品一樣的功能,基于一個文件一個策略,比如說什么是最后訪問的,文件大小多少,符合文件屬性的遷移到熱數(shù)據(jù)或者冷數(shù)據(jù)區(qū),在此之上做到更細(xì)的監(jiān)控,根據(jù)文件某一段經(jīng)常訪問的數(shù)據(jù),1G文件里面128K做一個遷移。大家都知道雖然現(xiàn)在SSD的成本大幅度的下降,但是資源總是有限的,而通過這種方式可以提升整個系統(tǒng)的效率。

智能QOS。大規(guī)模系統(tǒng)里面業(yè)務(wù)的性能需求是各異的,總有那么一些VIP業(yè)務(wù)對性能要求是不一樣的,用戶也不希望所有的業(yè)務(wù)都同樣去用存儲資源。通過智能的QOS帶寬的服務(wù)能力,保證關(guān)鍵業(yè)務(wù)的業(yè)務(wù)資源。這種方式多維度的優(yōu)化可力爭做到以不變應(yīng)萬變,不管業(yè)務(wù)怎么變都可以提供穩(wěn)定可靠的性能。

3)超大規(guī)模 安全可靠

大部分的產(chǎn)品都有多種冗余機(jī)制,從部件到網(wǎng)絡(luò)到數(shù)據(jù)的冗余方式,不管如何去冗余,去保護(hù)在大規(guī)模系統(tǒng),但總有故障的時候。當(dāng)出現(xiàn)故障的時候也不可怕,曙光能夠做到快速的故障切換,快速進(jìn)行業(yè)務(wù)的切換,去保證業(yè)務(wù)的連續(xù)性。這里邊我們就是利用剛才講到的保證集群,交互高效率,通過拓?fù)浼皶r更新保證故障及時切換。

大規(guī)模系統(tǒng)里面有這么一種場景,如果一塊盤不能讀了就是不能讀了踢出去就好,有一些盤不能讀了還能響應(yīng)你一會兒。有一些時斷時續(xù)的方式,還有一些假死的,這些節(jié)點網(wǎng)絡(luò)會成為害群之馬,不管你也不行,還給我通信,管你總能影響我性能。這是非常致命的,我們的處理方式監(jiān)控到數(shù)十種亞健康的狀態(tài),網(wǎng)絡(luò)節(jié)點亞健康及時割裂出去。上午有很多同仁講到海量小文件性能優(yōu)化問題,這里邊提一下修復(fù)過程中怎么去優(yōu)化海量小文件的修復(fù)性能。我們在ParaStor底層可以直接管理到物理磁盤,底層可以做一個小文件聚合,實際的效果我們1KB小文件修復(fù)性能可以達(dá)到一個小時每秒,大家想一下什么概念,我們一般都是說大文件修復(fù)的時候,一個TB三十分鐘,小文件可以做到一個小時,極大提升可靠性。

4)多套集群統(tǒng)一管理,運維無憂

大規(guī)模集群里面還有一種場景,不是說單一系統(tǒng)就上一百個PB,或者50個PB,有多套集群,比如說視頻監(jiān)控,每一個縣級市或者地級市都有這種存儲需求,不是很大一個集群分散在多個地方的集群,這種情況下對運維管理人員來說,肯定希望能把這些集群做一個統(tǒng)一管理。ParaStor內(nèi)置管理軟件,可以做到這一點。給大家放一個圖,中間這一塊,不管是買多少套ParaStor,只要有我們標(biāo)準(zhǔn)軟件的話,就會提升這個功能,我們在一套系統(tǒng)同時管理最多64套集群,管理起來比較方便的,只要是我的管理網(wǎng)絡(luò)可達(dá),就可以監(jiān)控起來,提供標(biāo)準(zhǔn)的API接口,用戶可以定制屬于自己的監(jiān)控平臺。

以上就是我們大規(guī)模集群里面的優(yōu)化,都離不開我們多年以來在技術(shù)上的積累。

十年歷程 深耕細(xì)作

ParaStor從2009年發(fā)布以來,經(jīng)歷了十年的歷程,產(chǎn)品做了四次迭代,2012年第二代產(chǎn)品融合了NAS,隨著云上來集成了對象接口,2018年是我們的分水嶺,當(dāng)年發(fā)布了全新一代支持全對稱/非對稱架構(gòu)支持文件/對象接口,2019年融合了iSCSi接口,分布式統(tǒng)一存儲。我們支持塊接口比較晚,一方面我們的產(chǎn)品的規(guī)劃,另外一個方面是我們對于產(chǎn)品的定位。我們深耕細(xì)作的,不僅做一款產(chǎn)品,更是把產(chǎn)品和應(yīng)用做更好的適配,現(xiàn)在已經(jīng)在九個應(yīng)用領(lǐng)域里邊得到廣泛的應(yīng)用,也取得了不錯市場表現(xiàn)。

這是我們的典型應(yīng)用,大家可以看一下.

最后給大家分享幾個典型案例。

首先講到就是說第一個大規(guī)模場景先進(jìn)計算,曙光公司致力于各地先進(jìn)計算的建設(shè)。在先進(jìn)計算中心里邊有大規(guī)模數(shù)據(jù)存儲需求,舉這樣一個例子,先進(jìn)計算A中心和先進(jìn)計算B中心??梢钥吹紸中心已經(jīng)部署了100PB存儲容量,存儲節(jié)點260個,支撐的節(jié)點13000個。中間是一個地球模擬裝置,這里邊要求節(jié)點數(shù)不是很多,有一個性能指標(biāo)聚合帶寬達(dá)到1TB每秒,已經(jīng)成功做了驗收并實施一段時間,承載的業(yè)務(wù)150類業(yè)務(wù)。這是先進(jìn)計算。

看一下中國氣象局,這一套用于叫做PAI系統(tǒng),氣候變化支撐系統(tǒng),聚合帶寬200GB/s有23PB存儲空間,2017年做的,3000個客戶端,部署以后,兩年穩(wěn)定運行。

看一下石油行業(yè)的案例。眾所周知,石油行業(yè)是典型的一個HPC應(yīng)用,對性能存儲要求極為苛刻的,對存儲空間使用極為苛刻.系統(tǒng)上去以后,出到多少GB帶寬很容易,石油行業(yè)里邊經(jīng)常把存儲空間用到80%,90%,要求你的存儲性能不能有任何下降的。ParaStor在中石油中海油中石化部署了三十余套,累計存儲容量40+PB,對專業(yè)的石油軟件,GeoEast、CGG做到代碼級的優(yōu)化,當(dāng)存儲使用率達(dá)到85%甚至以上的時候性能是沒有任何損耗的,這是石油的案例。

在智慧交通領(lǐng)域,京雄鐵路綜合視頻監(jiān)控項目。我們每天坐高鐵有一些沿途線路,每一個沿途線路都會放一套存儲有視頻圖片文件,以前的方案都是用SAS存儲,京雄鐵路SAS存儲換成了我們分布式存儲,鐵路每一條鐵路沿線都會放PB存儲空間,多套集群統(tǒng)一管理。

今年一直做的,相信友商的很多同仁知道這個項目,就是利國利民關(guān)系國計民生的好事,就是取消省界收費站項目,廣東為例提供了70余套ParaStor。40個路段,38條高速路合計700個龍門架提供存儲資源。

最后一個是智慧醫(yī)療的案子。今年上半年,曾經(jīng)在央視網(wǎng)上曙光公司的一個機(jī)器人,AI機(jī)器人去真正的取代醫(yī)生去做一些病人的檢測,這個就是機(jī)器人背后用了ParaStor系統(tǒng),天壇醫(yī)院在這系統(tǒng)里面有一個成功應(yīng)用,給用戶提供7PB在先存儲能力,支撐序列比對拼接。

我的分享就到這里。

技術(shù)不停,我們曙光ParaStor也不會停,希望我們未來產(chǎn)品和各位友商產(chǎn)品一起服務(wù)于整個的社會,也能夠去創(chuàng)造更多的價值,謝謝大家。

編后:本次2019中國數(shù)據(jù)與存儲峰會(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對話,以及大數(shù)據(jù)、閃存系統(tǒng)、分布式存儲、第二存儲與容災(zāi)備份、超融合與云存儲、人工智能、數(shù)據(jù)創(chuàng)新與安全可控、容器創(chuàng)新與應(yīng)用、SCM第五代存儲與閃存控制器等十大主題論壇,超過100場的專業(yè)知識分享。初步統(tǒng)計,本屆峰會吸引了來自政、企、產(chǎn)、學(xué)、研、媒體等各方參會者約2000人,在線直播觀看觀眾再創(chuàng)新高,超過10萬余人次。

分享到

xiesc

相關(guān)推薦