當(dāng)然,對(duì)于一個(gè)人來(lái)說(shuō),只有這些信息是不完整的,如果每個(gè)人都有自己的形象照片,這個(gè)照片就是典型的非結(jié)構(gòu)化數(shù)據(jù),但照片不適合放到表格里,因?yàn)樗鼪](méi)辦法根據(jù)內(nèi)容進(jìn)行有條件的檢索,如果非要按照顏值的高低進(jìn)行排序,那就太為難計(jì)算機(jī)了。而且,照片的數(shù)量和單位容量都在快速增長(zhǎng),基于以上種種原因,它不得不以另外一種方式進(jìn)行存儲(chǔ)。

非結(jié)構(gòu)化數(shù)據(jù)主要以文件存儲(chǔ)和對(duì)象存儲(chǔ)的方式進(jìn)行組織,在社交網(wǎng)站上、在IoT設(shè)備里、在企業(yè)的文件檔案庫(kù)、在視頻監(jiān)控設(shè)備里、在新聞媒體的資料庫(kù)、在基因測(cè)序研究者的電腦里、在自動(dòng)駕駛的汽車?yán)铩⒃阢y行的后臺(tái)到處都有大量的非結(jié)構(gòu)化數(shù)據(jù),而且增長(zhǎng)的速度還很快。

信息技術(shù)與數(shù)據(jù)存儲(chǔ)相伴相生,隨著數(shù)據(jù)量的增長(zhǎng)和應(yīng)用類型的不斷豐富,數(shù)據(jù)管理系統(tǒng)也越來(lái)越負(fù)載,上世紀(jì)九十年代,文件存儲(chǔ)系統(tǒng)NAS開(kāi)始出現(xiàn),戴爾在1996年發(fā)布 Symmetrix Network File Storage (SNFS)這一劃時(shí)代的NAS文件存儲(chǔ)系統(tǒng)。

而后,戴爾又在2001年發(fā)布CENTRA進(jìn)入對(duì)象存儲(chǔ)市場(chǎng),當(dāng)時(shí),距離AWS發(fā)布第一款云計(jì)算產(chǎn)品S3還有五年時(shí)間。AWS的對(duì)象存儲(chǔ)服務(wù)S3是如今對(duì)象存儲(chǔ)市場(chǎng)火熱的一個(gè)起點(diǎn),客觀上說(shuō),是公有云把對(duì)象存儲(chǔ)市場(chǎng)真正帶火的,但火的遠(yuǎn)不限于公有云。

之所以現(xiàn)在對(duì)象存儲(chǔ)火到冒煙兒,最根本原因還是AI和大數(shù)據(jù)技術(shù)能從非結(jié)構(gòu)化數(shù)據(jù)中挖掘出價(jià)值,企業(yè)越來(lái)越重視。之所以對(duì)象存儲(chǔ)比文件存儲(chǔ)更火,除了因?yàn)閷?duì)象存儲(chǔ)在成本、可管理性和靈活性上更有優(yōu)勢(shì)以外,還在于它與許多新技術(shù)有密切關(guān)系,對(duì)新技術(shù)的支持度更高。

公有云的對(duì)象存儲(chǔ)服務(wù)有其優(yōu)勢(shì),但考慮到安全合規(guī)以及帶寬成本等問(wèn)題,企業(yè)傾向于部署企業(yè)私有的對(duì)象存儲(chǔ)方案,那么企業(yè)都是怎么用對(duì)象存儲(chǔ)的呢?

戴爾科技集團(tuán)大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)事業(yè)部技術(shù)總監(jiān)胡淵汶介紹說(shuō),對(duì)象存儲(chǔ)主要有兩類用法,一類是面向傳統(tǒng)場(chǎng)景提供歸檔存儲(chǔ)。另外一類,面向現(xiàn)代化的應(yīng)用程序,比如互聯(lián)網(wǎng)大數(shù)據(jù)分析、AI等場(chǎng)景,比如云原生架構(gòu)這類負(fù)載。

戴爾科技集團(tuán)大中華區(qū)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)事業(yè)部技術(shù)總監(jiān)胡淵汶

其實(shí),第一類用法利用的是對(duì)象存儲(chǔ)低成本以及寫入少讀取多(WORM)的特性,第二類主要利用其高擴(kuò)展性和高靈活性的優(yōu)點(diǎn)。為了克服對(duì)象存儲(chǔ)性能上的不足,業(yè)內(nèi)近幾年來(lái)開(kāi)始嘗試用全閃存來(lái)提升性能,性能型的對(duì)象存儲(chǔ)成為趨勢(shì)后,應(yīng)用場(chǎng)景將進(jìn)一步擴(kuò)大。

在2020年10月份,在Gartner發(fā)布的分布式文件和對(duì)象存儲(chǔ)魔力象限報(bào)告中,戴爾科技集團(tuán)和IBM作為傳統(tǒng)傳統(tǒng)存儲(chǔ)大廠,都處于魔力象限的領(lǐng)導(dǎo)者象限,可見(jiàn)老牌存儲(chǔ)廠商對(duì)于數(shù)據(jù)存儲(chǔ)這件事本身還是非常重視。

魔力象限報(bào)告中,戴爾憑借明星產(chǎn)品Isilon(PowerScale)和ECS對(duì)象存儲(chǔ)處于最右上角的位置,戴爾的非結(jié)構(gòu)存儲(chǔ),尤其是ECS究竟有哪些特點(diǎn)呢?

ECS是一款怎樣的對(duì)象存儲(chǔ)產(chǎn)品?

首先,作為一款對(duì)象存儲(chǔ)產(chǎn)品,作為一款有大約20年歷史的對(duì)象存儲(chǔ)方案,ECS經(jīng)歷了三次大的版本迭代。現(xiàn)在的第三代ECS有很強(qiáng)的可擴(kuò)展性,支持從最低60TB起步一步步擴(kuò)展到EB級(jí)以上規(guī)模,可謂是門檻很低,但升級(jí)潛力巨大,擴(kuò)展性是對(duì)象存儲(chǔ)的首要特性。

當(dāng)然,忽略性能和SLA談擴(kuò)展性是耍流氓。ECS對(duì)于存儲(chǔ)的文件數(shù)量和文件大小都沒(méi)什么限制,也就是無(wú)視小文件對(duì)讀寫性能的挑戰(zhàn),也無(wú)視擴(kuò)展到大規(guī)模之后對(duì)性能的影響。在具體落地過(guò)程中,戴爾的專家會(huì)具體給出實(shí)施建議,在滿足大規(guī)模的基礎(chǔ)上,提供足夠的性能表現(xiàn)。

ECS支持小文件歸并功能,通俗點(diǎn)講,就好比湊夠十多個(gè)人過(guò)馬路一樣,因?yàn)椋?0個(gè)小文件寫十次的效率要明顯低于將十個(gè)小文件在內(nèi)存里合并后寫一次的效率,這是ECS提升性能的一個(gè)操作。

隨著2020年戴爾發(fā)布全閃版本的ECS——EXF900,更驗(yàn)證了性能型的對(duì)象存儲(chǔ)這一發(fā)展趨勢(shì),性能上雖然趨近于文件存儲(chǔ),但對(duì)象存儲(chǔ)不能反復(fù)修改的特性(某種程度上也是優(yōu)點(diǎn))是它跟文件存儲(chǔ)的本質(zhì)區(qū)別,決定了它適合一次寫入多次讀取的工作負(fù)載,比如人工智能、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)、分析和云原生應(yīng)用等場(chǎng)景。如你所見(jiàn),絕大部分都是新型工作負(fù)載。

此外,在架構(gòu)設(shè)計(jì)上。ECS可以跨全球部署8個(gè)站點(diǎn),構(gòu)建覆蓋全球的云存儲(chǔ)服務(wù),它可以通過(guò)就近訪問(wèn)和緩存加速來(lái)優(yōu)化使用體驗(yàn)。由于支持?jǐn)?shù)據(jù)跨區(qū)域復(fù)制,所以ECS可以針對(duì)每個(gè)站點(diǎn)提供保護(hù),在站點(diǎn)發(fā)生故障或者宕機(jī)時(shí)進(jìn)行恢復(fù),也就是自帶容災(zāi)架構(gòu)。

在兼容性方面,ECS除了提供S3協(xié)議以外,還支持常見(jiàn)的NFS、CFS、HDFS等文件存儲(chǔ)協(xié)議,從而與原有的存儲(chǔ)系統(tǒng)相互打通,比如與PowerScale或者DataDomain配合使用,將ECS作為前者的容量型存儲(chǔ)池,分出一層做歸檔或者冷存儲(chǔ)。

ECS高級(jí)的元數(shù)據(jù)搜索功能令人印象深刻,除了系統(tǒng)自帶的元數(shù)據(jù),用戶可以自定義元數(shù)據(jù)進(jìn)行搜索,用戶通過(guò)打標(biāo)簽的方式對(duì)數(shù)據(jù)進(jìn)行分類,如果同一個(gè)項(xiàng)目都有一個(gè)標(biāo)簽,那么就可以從項(xiàng)目的角度去看整個(gè)數(shù)據(jù)構(gòu)成,對(duì)于用戶的實(shí)際管理和使用都有很大幫助。

對(duì)于許多使用戴爾ECS對(duì)象存儲(chǔ)的用戶來(lái)說(shuō),最不用擔(dān)心的就是安全合規(guī)方面的問(wèn)題,數(shù)據(jù)安全方面有許多像ECC之類的技術(shù),安全管理方面也有許多措施,還兼容AWS的IAM標(biāo)準(zhǔn),能防止各種未經(jīng)授權(quán)的數(shù)據(jù)訪問(wèn)。

與公有云對(duì)象存儲(chǔ)不同的是,ECS是一種能提供強(qiáng)一致性的對(duì)象存儲(chǔ),強(qiáng)一致性多站點(diǎn)訪問(wèn),能保證用戶能夠讀到最新的數(shù)據(jù),這種技術(shù)給前端業(yè)務(wù)帶來(lái)很大的便利性,降低開(kāi)發(fā)難度,也就是提高開(kāi)發(fā)效率。

ECS既提供本地部署方案,也能部署在云上,比如ECS可部署在公有云Google Cloud Platform上。國(guó)內(nèi)市場(chǎng)上,戴爾主要提供本地部署方案,具體點(diǎn)說(shuō)目前只提供軟硬一體的交付形式。在技術(shù)上和商業(yè)模式上,都可以與大型公有云服務(wù)商合作來(lái)提供對(duì)象存儲(chǔ)服務(wù)。

為什么現(xiàn)在來(lái)談非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)ECS

2021年這個(gè)時(shí)間點(diǎn)也挺有意思,要知道,云原生是在近一兩年才開(kāi)始逐步升溫的,2016年當(dāng)IBM收購(gòu)Cleversafe來(lái)強(qiáng)化對(duì)象存儲(chǔ)實(shí)力時(shí),就曾掀起過(guò)一波對(duì)象存儲(chǔ)話題熱度,但當(dāng)時(shí)提到對(duì)象存儲(chǔ),更多還是面向胡淵汶介紹的第一類場(chǎng)景,大部分企業(yè)用對(duì)象存儲(chǔ)做歸檔存儲(chǔ)。

在國(guó)內(nèi)以及國(guó)際市場(chǎng)上,戴爾其實(shí)很少來(lái)單獨(dú)講對(duì)象存儲(chǔ),尤其是很少談對(duì)象存儲(chǔ),2021年4月,再談起對(duì)象存儲(chǔ)的時(shí)候,市場(chǎng)環(huán)境與2016年相比已有很大不同,戴爾向中國(guó)媒體重新介紹了一下對(duì)象存儲(chǔ)ECS,那為什么是現(xiàn)在?

首先,從市場(chǎng)來(lái)看,國(guó)內(nèi)對(duì)象存儲(chǔ)市場(chǎng)在快速增長(zhǎng),國(guó)內(nèi)市場(chǎng)上時(shí)不時(shí)就有超大容量的項(xiàng)目出現(xiàn)。IDC《2020年Q2,中國(guó)軟件定義存儲(chǔ)及超融合存儲(chǔ)系統(tǒng)市場(chǎng)季度跟蹤報(bào)告》顯示,SDS在2020年上半年較去年同期實(shí)現(xiàn)38.3%增長(zhǎng),其中對(duì)象存儲(chǔ)出貨比例增長(zhǎng)46%,超過(guò)軟件定義存儲(chǔ)市場(chǎng)總體增長(zhǎng)率,對(duì)象存儲(chǔ)是存儲(chǔ)市場(chǎng)增長(zhǎng)的新動(dòng)力。

作為非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)市場(chǎng)的(魔力象限)最右上角領(lǐng)導(dǎo)者,憑借品牌影響力和久經(jīng)考驗(yàn)的產(chǎn)品方案,戴爾自然不會(huì)放過(guò)這一市場(chǎng)機(jī)遇。

第二點(diǎn),從根本上來(lái)講,還是技術(shù)和用戶需求在推動(dòng)對(duì)象存儲(chǔ)的發(fā)展。從企業(yè)應(yīng)用創(chuàng)新的角度看,對(duì)象存儲(chǔ)的價(jià)值非常明顯。

如上文所說(shuō),對(duì)象存儲(chǔ)更適合人工智能、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)、分析和云原生應(yīng)用等場(chǎng)景。云原生的技術(shù)更容易落地,更容易讓用戶看到業(yè)務(wù)加速的效果,人工智能、機(jī)器學(xué)習(xí)等技術(shù)的價(jià)值也都不言而喻,新技術(shù)在推動(dòng)著企業(yè)用上對(duì)象存儲(chǔ)。

有企業(yè)為新技術(shù)落地而選擇對(duì)象存儲(chǔ)。海通證券利用ECS對(duì)象存儲(chǔ)的擴(kuò)展性建立了存儲(chǔ)資源池,不僅降低了初期成本投入和TCO ,還解決了傳統(tǒng)磁帶庫(kù)性能低下、可靠性不足等問(wèn)題,同時(shí)還獲得了數(shù)據(jù)全生命周期管理能力,更為后續(xù)在業(yè)務(wù)中融入人工智能等技術(shù)做好了準(zhǔn)備。

胡淵汶認(rèn)為,企業(yè)在對(duì)舊的定制應(yīng)用系統(tǒng)做現(xiàn)代化改造時(shí),最好的做法是改變應(yīng)用使用存儲(chǔ)的方式。

因?yàn)榛贜AS文件存儲(chǔ)來(lái)開(kāi)發(fā)傳統(tǒng)應(yīng)用的體系其實(shí)非常復(fù)雜,有幾個(gè)應(yīng)用就需要對(duì)應(yīng)有幾套文件系統(tǒng),甚至還有五花八門的專有API,這導(dǎo)致應(yīng)用開(kāi)發(fā)和存儲(chǔ)管理的成本都很高。而且,許多應(yīng)用都只能本地使用,無(wú)法以Web應(yīng)用和移動(dòng)應(yīng)用方式來(lái)訪問(wèn),非常不現(xiàn)代化。

現(xiàn)代化的云原生應(yīng)用中直接使用對(duì)象存儲(chǔ)來(lái)存儲(chǔ)數(shù)據(jù),數(shù)據(jù)繞過(guò)Web服務(wù)器,直接通過(guò)API存取數(shù)據(jù)到對(duì)象存儲(chǔ),開(kāi)發(fā)過(guò)程簡(jiǎn)化。而且對(duì)象存儲(chǔ)的管理成本很低,一個(gè)人就能輕松管理PB級(jí)的數(shù)據(jù)。配合對(duì)象存儲(chǔ),云原生架構(gòu)會(huì)使得企業(yè)軟件的開(kāi)發(fā)迭代速度變得非??臁?/p>

從胡淵汶的介紹中了解到,國(guó)內(nèi)某大型商業(yè)銀行的手機(jī)銀行有許多新應(yīng)用需要大量頻繁迭代,于是,該銀行逐步把這部分業(yè)務(wù)轉(zhuǎn)型為云原生業(yè)務(wù),底層存儲(chǔ)中采用了ECS,存放著超過(guò)100億個(gè)對(duì)象,每天大概要接受2億左右的請(qǐng)求,在ECS之上部署了200多個(gè)應(yīng)用。

該銀行的應(yīng)用開(kāi)發(fā)部署的節(jié)奏明顯加快,最多一個(gè)季度上線了50個(gè)應(yīng)用這在以前是不可想象的,這是云原生架構(gòu)以及對(duì)象存儲(chǔ)技術(shù)的價(jià)值體現(xiàn)。

分享到

zhupb

相關(guān)推薦