圖1.杉巖數(shù)據(jù)參展2020中國數(shù)據(jù)與存儲(chǔ)峰會(huì)

邱尚高在演講中提到,以5G、大數(shù)據(jù)、人工智能為代表的新興技術(shù)深入行業(yè)應(yīng)用,智能在“端、邊、云”延伸,數(shù)據(jù)的種類和數(shù)量越來越多,企業(yè)對(duì)數(shù)據(jù)價(jià)值的訴求也更趨強(qiáng)烈,傳統(tǒng)基礎(chǔ)設(shè)施面臨著前所未有的挑戰(zhàn)?;跀?shù)據(jù)湖構(gòu)建集數(shù)據(jù)匯聚、加工、分析、利用于一體的基礎(chǔ)架構(gòu)成為企業(yè)市場(chǎng)的重要趨勢(shì)。

縱觀國內(nèi),不論是公有云廠商還是私有云廠商,紛紛基于對(duì)象存儲(chǔ)推出差異化的數(shù)據(jù)湖解決方案。對(duì)象存儲(chǔ)憑何優(yōu)勢(shì),能夠成為數(shù)據(jù)湖存儲(chǔ)底座的不二之選?在AI+數(shù)據(jù)湖時(shí)代,對(duì)象存儲(chǔ)又迎來哪些新的場(chǎng)景?針對(duì)上述問題,邱尚高作了系統(tǒng)地闡述與分享。

圖2.杉巖數(shù)據(jù)CTO邱尚高出席峰會(huì)并作主題演講

一、為什么是對(duì)象存儲(chǔ)?

從2006年亞馬遜推出公有云存儲(chǔ)服務(wù)(Amazon S3),到2012年阿里云存儲(chǔ)服務(wù)(OSS)的面世,再到2016年杉巖數(shù)據(jù)率先推出企業(yè)私有云對(duì)象存儲(chǔ)產(chǎn)品(MOS),對(duì)象存儲(chǔ)因互聯(lián)網(wǎng)而生,面對(duì)海量數(shù)據(jù)場(chǎng)景具備天然優(yōu)勢(shì),逐漸成為大數(shù)據(jù)時(shí)代存儲(chǔ)界的后起之秀。

隨著數(shù)據(jù)湖架構(gòu)在企業(yè)市場(chǎng)中的需求越來越廣泛,存儲(chǔ)作為整個(gè)數(shù)據(jù)湖架構(gòu)的核心要素,承載著企業(yè)近乎全部的數(shù)據(jù)資產(chǎn)。對(duì)象存儲(chǔ)究竟有何優(yōu)勢(shì),能夠贏得業(yè)界青睞,成為數(shù)據(jù)湖存儲(chǔ)底座的最佳之選?

1.存儲(chǔ)全類型數(shù)據(jù)

對(duì)象存儲(chǔ)采用彈性的分布式架構(gòu),靈活對(duì)接各類應(yīng)用,可匯聚不同類型、不同大小的數(shù)據(jù)資源(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),大文件、小文件)。

2.支撐海量規(guī)模

傳統(tǒng)文件存儲(chǔ)采用樹形結(jié)構(gòu),文件增多,目錄層級(jí)多,訪問性能驟降。對(duì)象存儲(chǔ)采用“桶-對(duì)象”的扁平化結(jié)構(gòu),通過HASH計(jì)算檢索文件,海量場(chǎng)景仍然保證高性能,輕松支撐EB級(jí)容量空間、千億級(jí)文件規(guī)模。

3.多源數(shù)據(jù)統(tǒng)一接口

對(duì)象存儲(chǔ)基于標(biāo)準(zhǔn)的S3或OSS接口,實(shí)現(xiàn)私有云與公有云數(shù)據(jù)自由流動(dòng),以及異構(gòu)存儲(chǔ)資源納管。

4.云原生支持

文件存儲(chǔ)限于局域網(wǎng)訪問且需要OS掛載,對(duì)云場(chǎng)景支撐乏力。對(duì)象存儲(chǔ)天然支持跨互聯(lián)網(wǎng)訪問,無需OS掛載更輕量,更適應(yīng)云原生應(yīng)用。

5.混合云架構(gòu)

為了滿足業(yè)務(wù)合規(guī)與敏捷性需求,越來越多的企業(yè)選擇將互聯(lián)網(wǎng)應(yīng)用部署在公有云,以滿足彈性、敏捷的需求;將重要數(shù)據(jù)存放到私有云,以滿足安全、合規(guī)的需求。對(duì)象存儲(chǔ)通過S3或OSS接口可無縫對(duì)接公有云,快速構(gòu)建混合云基礎(chǔ)架構(gòu),在云端與本地之間實(shí)現(xiàn)應(yīng)用平滑遷移和數(shù)據(jù)自由流動(dòng)。

通過以上維度對(duì)比,對(duì)象存儲(chǔ)的優(yōu)勢(shì)顯而易見。

二、對(duì)象存儲(chǔ)將成為數(shù)據(jù)湖的數(shù)字底座

從國內(nèi)外市場(chǎng)需求來看,國外的企業(yè)或組織更傾向于采用公有云基礎(chǔ)設(shè)施,而國內(nèi)企業(yè)則是更傾向于私有云,也因此形成了公有云數(shù)據(jù)湖和私有云數(shù)據(jù)湖兩種方案,這里選取3家代表廠商進(jìn)行簡單介紹。

作為全球公有云市場(chǎng)的領(lǐng)導(dǎo)者,亞馬遜以對(duì)象存儲(chǔ)(S3)作為數(shù)字底座,儲(chǔ)存來自不同數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過安全策略和訪問控制保障數(shù)據(jù)安全,同時(shí)支撐數(shù)據(jù)檢索查詢、用戶界面訪問以及數(shù)據(jù)分析處理等能力。

阿里云同樣是以對(duì)象存儲(chǔ)(OSS)作為數(shù)字底座,將阿里云上的日志服務(wù)、App/Web、數(shù)據(jù)集成等產(chǎn)生的超過10000種數(shù)據(jù)文件類型保存在OSS上,實(shí)現(xiàn)海量的數(shù)據(jù)匯聚,消除數(shù)據(jù)孤島;同時(shí)為MaxCompute、EMR、機(jī)器學(xué)習(xí)等平臺(tái)提供支撐,無縫對(duì)接超過100種計(jì)算引擎,賦能業(yè)務(wù)創(chuàng)新。

圖3.阿里云基于對(duì)象存儲(chǔ)OSS構(gòu)建數(shù)據(jù)湖方案

作為國內(nèi)對(duì)象存儲(chǔ)市場(chǎng)的領(lǐng)導(dǎo)者,杉巖數(shù)據(jù)也推出了面向私有化場(chǎng)景的智能數(shù)據(jù)湖解決

方案。該方案基于MOS海量對(duì)象存儲(chǔ)構(gòu)建海量空間,實(shí)現(xiàn)數(shù)據(jù)庫、非結(jié)構(gòu)化文件、流數(shù)據(jù)等多源數(shù)據(jù)匯聚;通過納管異構(gòu)存儲(chǔ)實(shí)現(xiàn)硬件利舊;通過高性能數(shù)據(jù)湖文件網(wǎng)關(guān)MosFS對(duì)接Hadoop、TensorFlow等分析處理平臺(tái),深化價(jià)值利用;一體化方案賦能業(yè)務(wù)創(chuàng)新,為智慧金融、智能制造、智慧教育等行業(yè)變革提供基礎(chǔ)架構(gòu)支撐。

圖4.杉巖數(shù)據(jù)基于MOS對(duì)象存儲(chǔ)的數(shù)據(jù)湖方案

三、AI+數(shù)據(jù)湖時(shí)代,對(duì)象存儲(chǔ)的新場(chǎng)景

對(duì)于企業(yè)客戶而言,貼合實(shí)際場(chǎng)景、解決當(dāng)前痛點(diǎn)、滿足未來就緒的方案才是好方案。邱尚高結(jié)合一些新興的應(yīng)用場(chǎng)景,向與會(huì)人士介紹了MOS對(duì)象存儲(chǔ)以及智能數(shù)據(jù)湖方案如何為客戶創(chuàng)造價(jià)值。

1.大數(shù)據(jù)存算分離

傳統(tǒng)大數(shù)據(jù)分析平臺(tái)(如Hadoop)存在諸多弊端:HDFS多采用三副本,空間利用率低;存儲(chǔ)與計(jì)算捆綁擴(kuò)容,拉高成本;Hadoop升級(jí)不夠靈活,無法享受新版本計(jì)算特性。杉巖方案可提供存算分離架構(gòu),MOS支持糾刪碼和冷熱數(shù)據(jù)分層,使磁盤利用率提升80%;存儲(chǔ)與計(jì)算獨(dú)立擴(kuò)容,有效降低成本;存儲(chǔ)與計(jì)算獨(dú)立升級(jí),更加靈活。

2.數(shù)據(jù)智能處理

MOS依托智能數(shù)據(jù)處理引擎,將數(shù)據(jù)處理能力下沉到存儲(chǔ)系統(tǒng)內(nèi)部?;诓呗杂|發(fā),MOS海量對(duì)象存儲(chǔ)可以自動(dòng)完成圖片轉(zhuǎn)碼、視頻抽幀、OCR識(shí)別等處理任務(wù),簡化業(yè)務(wù)流程,提升處理效率。以智能制造為例,杉巖MOS已經(jīng)幫助UTAC(聯(lián)測(cè)優(yōu)特半導(dǎo)體)提升智能質(zhì)檢效率,通過生命周期管理策略設(shè)定,在MOS內(nèi)部完成質(zhì)檢圖片的存儲(chǔ)、格式轉(zhuǎn)換、冷熱分層和過期自動(dòng)刪除,節(jié)省80%存儲(chǔ)空間,大幅降低成本并簡化了業(yè)務(wù)流程。

3.機(jī)器學(xué)習(xí)

在MOS之上通過MosFS高性能數(shù)據(jù)湖文件網(wǎng)關(guān),為TensorFlow等機(jī)器學(xué)習(xí)平臺(tái)提供原生的HDFS接口、S3/OSS對(duì)象接口、POSIX文件接口,滿足AI算法的模型訓(xùn)練和推理、數(shù)據(jù)歸檔的需求。以自動(dòng)駕駛場(chǎng)景為例,車輛采集的視頻、雷達(dá)數(shù)據(jù)通過文件或?qū)ο蠼涌趯?dǎo)入MOS,然后通過HDFS接口對(duì)數(shù)據(jù)預(yù)處理,預(yù)處理結(jié)果再通過文件接口由計(jì)算服務(wù)器進(jìn)行AI訓(xùn)練和高性能仿真,從而得到新的算法和模型進(jìn)行下一輪測(cè)試。整個(gè)過程中,一套存儲(chǔ)同時(shí)在線、近線、離線使用,數(shù)據(jù)集中歸檔無須拷貝,空間利用率更高、數(shù)據(jù)更安全。

4.IPFS(Inter Planetary File System)

IPFS場(chǎng)景對(duì)底層存儲(chǔ)的需求可歸納為幾點(diǎn):龐大的算力集群要求存儲(chǔ)吞吐量在100Gbps以上,以保證封裝數(shù)據(jù)的寫入效率;每天48次(30分鐘一次)的全量證明需要極高的隨機(jī)讀取效率;數(shù)據(jù)持續(xù)可讀(歷史數(shù)據(jù)不刪除)使得增量巨大(每周PB級(jí)),要求存儲(chǔ)提供EB級(jí)以上容量;超大容量必然由超大集群支撐,高效運(yùn)維也是剛需。杉巖MOS除了提供EB級(jí)海量空間和300Gbps以上的超大吞吐量,還專門針對(duì)IPFS數(shù)據(jù)讀作性能優(yōu)化,將數(shù)百次隨機(jī)讀請(qǐng)求合并為一個(gè)請(qǐng)求,極大提升效率;基于糾刪碼(22+2)技術(shù),空間利用率超過91%,硬件成本縮減60%以上;通過多故障域隔離和智能DNS分配技術(shù),輕松管控超大規(guī)模存儲(chǔ)集群,在提升數(shù)據(jù)可靠性的同時(shí)降低運(yùn)維復(fù)雜度。

5.云原生OLAP

對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)的分析需求催生了云端數(shù)據(jù)湖的應(yīng)用,杉巖針對(duì)云原生OLAP場(chǎng)景同樣提供了解決之道,通過MOS無縫對(duì)接云原生的數(shù)據(jù)湖,幫助企業(yè)快速構(gòu)建高性能的OLAP服務(wù)。對(duì)“HDFS+傳統(tǒng)數(shù)據(jù)倉庫”而言,海量場(chǎng)景下的性能、并發(fā)性和易用性成為難以避免的災(zāi)難。杉巖的“MOS+云原生數(shù)據(jù)倉庫”方案,依托彈性架構(gòu)提供更強(qiáng)的擴(kuò)展性、高可用性和并發(fā)訪問能力,在EB級(jí)海量數(shù)據(jù)面前保證優(yōu)異性能,利用糾刪策略、數(shù)據(jù)分層等特性盡可能降低成本,采用存算分離架構(gòu)極大提升靈活性,幫助客戶對(duì)海量數(shù)據(jù)極速分析,輕松把握商業(yè)趨勢(shì),及時(shí)應(yīng)對(duì)各種變化。

不難看出,杉巖數(shù)據(jù)植根場(chǎng)景需求,已經(jīng)圍繞MOS海量對(duì)象存儲(chǔ)構(gòu)建起了相對(duì)完善的數(shù)據(jù)湖解決方案,為企業(yè)應(yīng)對(duì)數(shù)據(jù)挑戰(zhàn)、推進(jìn)業(yè)務(wù)創(chuàng)新提供了新的、極具競爭力的選項(xiàng)。

分享到

崔歡歡

相關(guān)推薦