目前HPC應(yīng)用正從過去的傳統(tǒng)科研領(lǐng)域計(jì)算密集型,逐漸向新興的大數(shù)據(jù)、人工智能以及深度學(xué)習(xí)等方向進(jìn)行融合和演進(jìn)。繼而,數(shù)字時(shí)代無論是智能制造、智慧醫(yī)療、智慧城市、智能家居,HPC都將成為核心技術(shù)。特別是近兩年備受關(guān)注的人工智能領(lǐng)域,如自動(dòng)駕駛汽車、無人機(jī)、人臉識(shí)別、醫(yī)療診斷以及金融分析和商業(yè)決策等,其核心是大數(shù)據(jù)支持,HPC成為人工智能模型訓(xùn)練的重要支撐平臺(tái)。
HPC通過極快的處理速度,獲取大量數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算,實(shí)現(xiàn)數(shù)據(jù)即時(shí)分析,達(dá)到快速?zèng)Q策的目標(biāo)。因此,HPC集群對(duì)于存儲(chǔ)有著較高的性能要求,保證來自多個(gè)HPC服務(wù)器密集而多樣的分析行為。
同時(shí),由于未分析的原始數(shù)據(jù)會(huì)越積越多,并且未來還會(huì)有更多的數(shù)據(jù)需要研究/處理,因此容量和擴(kuò)展性也是重要的考慮因素。HPC的總體數(shù)據(jù)最終會(huì)達(dá)到PB級(jí)別,需要超大的存儲(chǔ)容量才能完成歸檔。
在多樣化的HPC場景下,日均產(chǎn)生的三維數(shù)據(jù)可達(dá)幾百TB甚至PB級(jí),因此,對(duì)存儲(chǔ)性能有著更高的要求。在海量數(shù)據(jù)的處理過程中,一次數(shù)據(jù)處理需要經(jīng)過文件、對(duì)象、大數(shù)據(jù)等多種格式的數(shù)據(jù)處理,這無疑是對(duì)傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式發(fā)起了巨大的重構(gòu)挑戰(zhàn)。就“自動(dòng)駕駛”、“石油勘探”場景為例,數(shù)據(jù)采集的原始數(shù)據(jù)是NFS格式,需要先轉(zhuǎn)換為HDFS格式,才能利用大數(shù)據(jù)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,最終將數(shù)據(jù)轉(zhuǎn)換為NFS格式導(dǎo)入進(jìn)人工智能訓(xùn)練集群及演練仿真集群 ,對(duì)數(shù)據(jù)進(jìn)行深度挖掘,進(jìn)一步調(diào)整自動(dòng)駕駛策略。
在整個(gè)數(shù)據(jù)處理閉環(huán)中,數(shù)據(jù)轉(zhuǎn)換格式的時(shí)間占全過程的35%以上,如何提升多樣性格式數(shù)據(jù)的處理效率,逐漸成為存儲(chǔ)領(lǐng)域新型技術(shù)的主流趨勢(shì)。傳統(tǒng)存儲(chǔ)廠商仍通過共享硬件資源池,在一套硬件集群上劃分出多了獨(dú)立的邏輯資源池,分別部署對(duì)象、塊、文件系統(tǒng)的存儲(chǔ)池,實(shí)現(xiàn)硬件集群多樣化格式的共享存儲(chǔ)。但在該資源池中,每一個(gè)邏輯資源池僅僅只會(huì)支持一種訪問協(xié)議,對(duì)于跨協(xié)議訪問時(shí),仍需要先行拷貝原格式的原始數(shù)據(jù),再將其進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,實(shí)現(xiàn)不同格式之間的數(shù)據(jù)相互轉(zhuǎn)換及交互。
在數(shù)據(jù)處理的過程中,數(shù)據(jù)拷貝產(chǎn)生的冗余副本不僅占用數(shù)據(jù)的存儲(chǔ)空間,同時(shí)在數(shù)據(jù)格式轉(zhuǎn)化的過程中,將會(huì)產(chǎn)生大量的數(shù)據(jù)丟失。因此,傳統(tǒng)的共享硬件資源池,僅能提高硬件資源的利用率,無法滿足格式差異化要求及數(shù)據(jù)處理效率,以滿足日均PB級(jí)的數(shù)據(jù)存儲(chǔ)需求。
? 共享硬件資源池,存儲(chǔ)多個(gè)邏輯資源池
? 頻繁跨協(xié)議訪問,無法滿足數(shù)據(jù)格式差異化處理效率
? 產(chǎn)生的冗余副本占用大量的存儲(chǔ)空間
? 語義翻譯過程中,存在數(shù)據(jù)丟失
柏科數(shù)據(jù)ISCloud分布式存儲(chǔ)可采用多種協(xié)議互通技術(shù),重構(gòu)底層邏輯架構(gòu),部署統(tǒng)一的增值服務(wù),語義抽象層,對(duì)多格式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一管理,實(shí)現(xiàn)真正意義上的協(xié)議互通特性,來解決HPC場景下數(shù)據(jù)結(jié)構(gòu)多樣化的處理效率,滿足日均PB級(jí)的數(shù)據(jù)存儲(chǔ)需求。
? 提供統(tǒng)一的原生語義,保障語義無損
柏科數(shù)據(jù)ISCloud分布式存儲(chǔ)采用多種協(xié)議互通技術(shù),在設(shè)計(jì)的過程中進(jìn)一步重構(gòu)底層邏輯架構(gòu),部署語義抽象層,面對(duì)多樣化結(jié)構(gòu)數(shù)據(jù)提供適合文件、對(duì)象、塊及大數(shù)據(jù)的原生語義。通過原生的語義層可進(jìn)一步簡化格式處理流程,打通語法上的缺失和限制。在頻繁跨協(xié)議訪問場景下,在底層的語義層直接對(duì)原數(shù)據(jù)進(jìn)行格式預(yù)處理,滿足PB級(jí)數(shù)據(jù)格式差異化處理效率。
? 實(shí)現(xiàn)真正意義上的資源空間利用及性能保障
在柏科數(shù)據(jù)ISCloud分布式存儲(chǔ)中,通過部署原生的語義層可進(jìn)一步簡化格式處理流程,去除原傳統(tǒng)的共享硬件資源池中,數(shù)據(jù)拷貝產(chǎn)生的冗余副本,在底層邏輯上對(duì)原多樣化格式數(shù)據(jù)處理。將原本復(fù)雜的多樣化格式轉(zhuǎn)化流程,簡化成與單一協(xié)議完全一樣的數(shù)據(jù)訪問路徑,實(shí)現(xiàn)不同格式之間的數(shù)據(jù)相互轉(zhuǎn)換及交互,實(shí)現(xiàn)真正意義上的資源空間利用及性能保障。