數(shù)據(jù)、算法、算力和模型被認為是人工智能落地的四大要素,其中,算法、算力和模型的話題熱度很高,而對數(shù)據(jù)本身的討論,似乎也并不是機器學習專家的分內(nèi)的事兒。
當然,機器學習專家本身對于數(shù)據(jù)預處理還是很熟悉的,但通常并不了解數(shù)據(jù)存儲的部分,對于存儲系統(tǒng)在擴展性、性能、穩(wěn)定性方面并不在意。
從許多實踐來看,AI技術(shù)的成功與否,在很大程度上取決于支持數(shù)據(jù)科學流程的底層IT體系結(jié)構(gòu)。換句話說,想要順暢地訓練、測試和部署AI模型,需要靠譜的計算和存儲系統(tǒng)。
AI對存儲提出了哪些要求?
上圖來自戴爾的一份白皮書(《適用于AI的IT體系結(jié)構(gòu):從POC直到生產(chǎn)》),企業(yè)用的商務(wù)智能只需要少量的結(jié)構(gòu)化數(shù)據(jù),需要的算力也比較少,而深度學習則需要PB級的數(shù)據(jù),同時,對于計算和存儲性能也提出了更高要求。
白皮書概括了企業(yè)AI項目的落地流程。首先,要搞清楚具體要解決的業(yè)務(wù)問題,然后,就進入到POC驗證階段,需要將業(yè)務(wù)問題和數(shù)據(jù)科學問題來對應(yīng),過程中,需要建立一套IT基礎(chǔ)架構(gòu),IT架構(gòu)要可以重復使用、可擴展且足夠靈活。
眾所周知,機器學習的工作過程大致分為四個階段,涵蓋數(shù)據(jù)采集、數(shù)據(jù)準備(數(shù)據(jù)預處理)、模型訓練(包含訓練、評估、驗證)和模型推理四個階段,每個階段對于數(shù)據(jù)存儲的要求都不盡相同。
在數(shù)據(jù)采集階段,數(shù)據(jù)可能會從不同來源聚攏并存儲起來,數(shù)據(jù)的大小和格式都存在各種差異,而且,數(shù)據(jù)類型往往是以文件存儲或者對象存儲為主,都屬于非結(jié)構(gòu)化數(shù)據(jù)。
采集過程中,首先以順序?qū)懭霝橹?,從多個數(shù)據(jù)源傳入數(shù)據(jù),如果存儲寫性能跟不上,數(shù)據(jù)就可能會被丟棄,數(shù)據(jù)的完整度可能會影響模型的準確度。采集完成后,通常還要將收集來的數(shù)據(jù)放入更大的存儲池來進行統(tǒng)一管理,對讀性能要求也很高。
在數(shù)據(jù)準備階段,需要對不同格式和尺寸的數(shù)據(jù)進行規(guī)范化處理,處理的效率取決于計算以及存儲的性能。處理的過程中,通常會有順序讀寫、隨機讀寫等操作,在最極端的情形下,甚至可能是各占一半的讀寫混合。
而在訓練階段,往往需要高性能的GPU或者加速器等來執(zhí)行一系列的數(shù)學運算,對計算和存儲資源要求非常高,在做特定訓練時,AI訓練所需的時間取決于所部署的計算與高性能存儲的規(guī)模。
推理階段,對于存儲和計算性能的要求會比較多樣化,常見的各種邊緣場景,在機場和火車站的閘機,在手機的人臉識別系統(tǒng)中,對能耗比較敏感,而在大型模型的推理過程,對于計算和存儲性能的要求都會非常高。
總結(jié)而言,AI所需要的是非結(jié)構(gòu)化數(shù)據(jù)存儲,并且,對于存儲的擴展性、綜合性能以及擴展性都有比較更好的要求。同時,由于涉及的數(shù)據(jù)量會越來越多,對于數(shù)據(jù)存儲和管理的要求也會越來越高。
如果存儲無法滿足這些要求,輕則影響機器學習訓練的周期,影響業(yè)務(wù)迭代進度,影響企業(yè)對于AI戰(zhàn)略的信心。重則訓練出的模型可能無法用于生產(chǎn)環(huán)境,AI計劃宣告失敗。
戴爾幫助企業(yè)將AI落地
戴爾能為企業(yè)的AI體系結(jié)構(gòu)構(gòu)建從邊緣到核心再到云的數(shù)據(jù)環(huán)境,計算部分有Precision工作站、PowerEdge服務(wù)器和NVIDIA DGX服務(wù)器,而存儲部分則有PowerScale橫向擴展存儲和ECS對象存儲,其中,PowerScale還可在云端部署。
PowerScale非常適合存儲用于AI/ML/DL的大型數(shù)據(jù)集,服務(wù)于機器學習和數(shù)據(jù)分析場景。
PowerScale的高性能、高并發(fā)性能可滿足機器學習從數(shù)據(jù)采集、數(shù)據(jù)準備、模型訓練和模型推理各階段對存儲性能的要求,能更快完成AI模型的訓練和驗證。
PowerScale的可擴展性,使得從POC驗證到生產(chǎn)環(huán)節(jié)的所有數(shù)據(jù)都可以存放在PowerScale上,而且可以隨著數(shù)據(jù)量的增長隨時添加節(jié)點來擴容,從而可以避免費時費力進行數(shù)據(jù)遷移。
PowerScale提供豐富的企業(yè)級特性,它能將數(shù)據(jù)管理、性能管理、數(shù)據(jù)保護和數(shù)據(jù)安全有機地整合,從而提高數(shù)據(jù)存儲的經(jīng)濟性,降低擁有成本并減少風險。
PowerScale還提供了高效的管理能力,借助PowerScale自帶的數(shù)據(jù)管理工具 Dell EMC DataIQ,任何人都可以輕松地在跨本地和異地部署的,文件和對象數(shù)據(jù)平臺上查找和管理數(shù)據(jù)。
PowerScale既有全閃存配置,也有混合存儲和歸檔存儲配置,滿足用戶在性能、容量和成本之間的平衡,還與谷歌云、亞馬遜云以及微軟Azure合作將數(shù)據(jù)放到云上,利用云上的彈性資源進行機器學習的訓練和推理,為企業(yè)提供了豐富多樣的選擇。
此外,戴爾不僅提供了種類豐富的IT基礎(chǔ)架構(gòu),擁有多種參考體系結(jié)構(gòu)以及經(jīng)過驗證的計算和存儲解決方案,還提供了常用的AI/ML/DL工具和框架,包括大數(shù)據(jù)分析平臺Splunk、機器學習框架Caffe2、TensorFlow、PyTorch等,讓機器學習的流程更順暢。
結(jié)束語
可以說,戴爾存儲不僅能滿足機器學習各個階段,對存儲在性能和擴展性方面的要求。而且,還有可用于構(gòu)建服務(wù)于AI工作流的一整套IT基礎(chǔ)設(shè)施,更能將企業(yè)所需的安全、高效數(shù)據(jù)管理能力帶給企業(yè),是企業(yè)構(gòu)建AI能力的理想之選。