2020年,戴爾與谷歌合作將Isilon的橫向擴展文件系統(tǒng)OneFS放到了谷歌云上,用于生產(chǎn)環(huán)境。
2021年的一份白皮書上,Dell PowerScale OneFS在微軟的Azure上提供計算密集型文件工作負載。
在許多人的想象中,公有云似乎無所不能,那為什么還會跟傳統(tǒng)本地存儲廠商進行合作呢?
戴爾大中華區(qū)非結構化數(shù)據(jù)存儲事業(yè)部總經(jīng)理劉志洪的一番話道出了背后的關鍵原因。
某國內(nèi)大型公有云服務商的負責人曾對劉志洪表示,任何公有云廠商想要做好分布式文件系統(tǒng),做好高性能分布式文件系統(tǒng),大概需要投入兩三億人民幣,需要兩三百個研發(fā)人員研發(fā)兩三年,做出來的方案還不一定比戴爾的分布式文件系統(tǒng)OneFS好。
OneFS是戴爾分布式NAS Isilon的操作系統(tǒng),Isilon最早是在2001年推出的,20多年的發(fā)展歷程中,經(jīng)歷了無數(shù)生產(chǎn)環(huán)境驗證,踩過的坑很難數(shù)清楚。如果要再造一個OneFS或者超越OneFS,也需要經(jīng)歷多年的打造和歷練,產(chǎn)品技術以外還得積累大量實戰(zhàn)經(jīng)驗。
在IDC的報告中,基于OneFS的PowerScale是排名第一的橫向擴展NAS平臺。在Gartner的魔力象限中,基于OneFS的存儲系統(tǒng)連續(xù)六年位居領導者象限的最右上角。市場上,基于OneFS的文件存儲系統(tǒng)已經(jīng)提供了17EB的容量空間,服務于數(shù)不清的企業(yè)用戶。
劉志洪的這番話梳理了公有云存儲和本地存儲之間的關系,優(yōu)勢差異,其實我們也完全可以從另一個角度來看兩者的關系。
十多年前,中國市場上的存儲服務提供商絕對以國際大廠的本地存儲為主,中國的存儲廠商只有少數(shù)幾家,而現(xiàn)在,在公有云如火如荼發(fā)展了十年后,中國存儲市場上的本地存儲廠商數(shù)量居然在增多。
在公有云發(fā)展的同時,本地存儲廠商也在巨大的市場空間下快速發(fā)育,其實,這些市場空間大部分都來自于數(shù)據(jù)量的爆炸性增長,特別是非結構化數(shù)據(jù)。
非結構化數(shù)據(jù)推動存儲市場發(fā)展
IDC預測,到2025年,全球數(shù)據(jù)量將達到181ZB,其中,80%的數(shù)據(jù)都是非結構化數(shù)據(jù)。得益于各行各業(yè)的數(shù)字化轉型進程,大數(shù)據(jù)、物聯(lián)網(wǎng)、機器學習等技術的應用和普及,企業(yè)和組織希望從數(shù)據(jù)中發(fā)現(xiàn)價值,提高企業(yè)和組織的運行效率。
劉志洪表示,2018年,戴爾在內(nèi)部發(fā)起了一個“10PB俱樂部”活動,用于表彰銷售容量達到10PB的銷售人員,推廣部署容量達到10PB的用戶案例,而當時很多人都覺得這一目標設定的太高了,以醫(yī)療行業(yè)為例,2018年普遍需要的容量都是幾十TB到幾百TB的水平。
而在最近兩年,醫(yī)療行業(yè)對于非結構化數(shù)據(jù)存儲,特別是醫(yī)療影像數(shù)據(jù)存儲需求爆炸式增長。去年,有一家醫(yī)院一次性采購了10PB的PowerScale用于存儲醫(yī)療影像數(shù)據(jù),而這還不是國內(nèi)最大的,國內(nèi)醫(yī)院最大的容量已經(jīng)達到20PB的水平了。
PowerScale是Isilon的升級版本,提供全閃節(jié)點、混合節(jié)點和歸檔節(jié)點,在某醫(yī)院一次性采購10PB存儲的項目中,既有大量全閃存節(jié)點,也有歸檔節(jié)點,前者負責支撐前端應用,后者用于長期歸檔數(shù)據(jù),也可用于大數(shù)據(jù)分析和人工智能等場景。
劉志洪對于未來趨勢也非常樂觀,認為在未來三到五年里,會有一些用戶一次性采購100PB規(guī)模的存儲,到時候,戴爾的10PB俱樂部就應該改成100PB俱樂部了。
在IDC的數(shù)據(jù)里,2020年全球數(shù)據(jù)量才64ZB,到2025年就要達到181ZB了,劉志弘說的100PB俱樂部或許并不遙遠。
但說到底,數(shù)據(jù)的增長只是現(xiàn)象,企業(yè)和組織說到底是為了從數(shù)據(jù)中挖掘價值,提升競爭力,所以,各行各業(yè)對數(shù)據(jù)的利用情況就非常關鍵。
非結構化數(shù)據(jù)在典型行業(yè)的典型用法
下圖是戴爾匯總的非結構化數(shù)據(jù)(UDS-Unstructured data storage)比較火的應用領域,總結的還是非常全面的,不難發(fā)現(xiàn),非結構化數(shù)據(jù)存儲對每個行業(yè)都越發(fā)重要。
戴爾大中華區(qū)非結構化數(shù)據(jù)解決方案部高級系統(tǒng)工程師高中耀介紹了非結構化數(shù)據(jù)在芯片設計和機器學習領域的用法。
從介紹中了解到,芯片設計和芯片制造環(huán)節(jié)會產(chǎn)出大量非結構化數(shù)據(jù),從存儲的角度看,設計10nm芯片前后需要600-700TB數(shù)據(jù),設計7nm芯片則需要大約1.2PB的數(shù)據(jù)。從計算的復雜度來看,每更新一代芯片進行仿真測試運算所需的CPU核數(shù)也會翻倍。
EDA芯片設計行業(yè)對于存儲的性能和容量都提出了要求。
芯片設計前期需要處理大量小文件,對于IOPS性能要求很高,而在做仿真測試驗證的時候,則會產(chǎn)生大量大文件,對于存儲系統(tǒng)的帶寬吞吐都提出了更高要求。最后,在設計完成后,則需要設計數(shù)據(jù)做長久歸檔,整個流程對存儲能力的要求非常均衡。
高中耀介紹稱,Dell PowerScale在芯片行業(yè)的應用非常普遍,全球排名TOP20的芯片設計企業(yè)里,有80%都采用了PowerScale的方案,PowerScale可以幫企業(yè)輕松應對芯片設計對IT的挑戰(zhàn)。
Dell PowerScale的可擴展性可真正實現(xiàn)彈性伸縮,可面向未來的設計需求,靈活根據(jù)需求調(diào)整集群大小。同時,PowerScale全閃存、混合、歸檔系列可以滿足芯片設計不同階段對于存儲的要求。
Dell PowerScale本身非常成熟和現(xiàn)代化,無需遷移數(shù)據(jù)就能完成升級換代,在可靠性方面,也都是行業(yè)標桿水平,能讓用戶更省心。
在AI和機器學習領域,PowerScale可以從容處理大量用于機器學習模型訓練非結構化數(shù)據(jù),閃存配置的PowerScale可應對對性能的更高要求,PowerScale豐富的存儲協(xié)議還可以統(tǒng)一對接各種存儲資源。
戴爾大中華區(qū)非結構化數(shù)據(jù)解決方案部高級系統(tǒng)工程師趙斌介紹了高性能數(shù)據(jù)分析(High Performance Data Analytics-HPDA)在油氣勘探場景對存儲提出的挑戰(zhàn)。
HPDA結合了高性能計算和大數(shù)據(jù)分析技術,本身對于實時性要求就比較高,油氣勘探行業(yè),隨著模型精度的提升,隨著采集頻次的提升,數(shù)據(jù)量呈幾何級的激增,采集的數(shù)據(jù)進入HPC系統(tǒng)后,需要極高的并行處理性能,而且要縮短數(shù)據(jù)處理的周期。
在油氣勘探場景中,支持多協(xié)議的PowerScale不僅能將各種數(shù)據(jù)快速導入,而且還能根據(jù)數(shù)據(jù)的冷熱程度進行自動分層,配合數(shù)據(jù)精簡功能還能提高數(shù)據(jù)存儲的效率,降低存儲的成本。
結束語
非結構化數(shù)據(jù)的用法可謂是多種多樣,各行各業(yè)的應用中,都是負責記錄豐富多樣的數(shù)據(jù),然后從數(shù)據(jù)中獲得洞察。
在可見的未來,數(shù)據(jù)的量會越來越大,對非結構化存儲的要求也會越來越多,也就有越來越大的市場空間。
在巨大的市場空間中,本地存儲和公有云上的存儲都將迎來發(fā)展機遇,兩者也將相互影響,相互促進。