圖1 機器學習開發(fā)的幾個關鍵階段

數據集中與歸檔階段,首先需要采集產品用戶環(huán)境下不同來源的數據,包括外部來源的數據/數據集,并將數據轉換為機器學習模型所需要的格式,這個階段通常具有典型I/O密集的特征,要求高帶寬和大容量。

模型訓練階段,復雜的深度神經網絡需要利用高度并行的技術來實現,這些模型需要大量經過清洗和標記的數據來訓練,涉及到大量的隨機、小文件讀取操作,要求高帶寬和低時延。

推理階段,所部署訓練好的模型需要準實時的分析數據,要求低時延和高性能。

3.如何打破存儲系統性能瓶頸,充分發(fā)揮算力?

為了加快模型訓練速度,在機器學習開發(fā)中常常會使用一些特殊的硬件,如GPU。但是,由于存儲或網絡無法快速提供訓練的數據,不能很好的服務上層的GPU等訓練服務器,成為系統I/O瓶頸,導致昂貴的GPU無法充分發(fā)揮其價值。

綜合來看,隨著企業(yè)AI應用的快速發(fā)展,傳統存儲架構成為制約瓶頸,性能、容量無法滿足需求,管理和擴展復雜,存儲效率問題凸顯,很難勝任各種AI應用場景的要求。

針對AI應用,如何在數據存儲層面通過一套方案覆蓋AI應用所有存儲工作流,并且能夠全面平衡性能、容量、擴展性和易用性?目前,通過新型存儲軟件來滿足AI應用對存儲的需求,成為越來越多高成長性企業(yè)的選擇。

杉巖數據MOSFS,為AI應用提速增效

MOSFS,就是一款由杉巖數據為AI應用量身打造的智能分布式存儲解決方案。

如圖片無法顯示,請刷新頁面

圖2 MOSFS多源匯聚兼容多種存儲

首先,MOSFS的底座基于杉巖數據自研的海量分布式對象存儲(MOS),支持通過橫向擴展硬件節(jié)點線性增加系統容量與性能,滿足EB級存儲規(guī)模需求。系統提供File Ingestor、DB Ingestor等數據匯集功能,支持各種格式、各類來源的數據。同時MOSFS還支持對現有NAS存儲、對象存儲和HDFS存儲的納管,既充分利用客戶既有投資,又滿足客戶的業(yè)務規(guī)模增長需求。

其次,MOSFS不僅能夠容納匯聚各類數據,同時還可對上層應用提供標準POSIX接口,兼容Amazon S3協議接口,以及大數據服務接口,一套存儲支持多種協議接口,滿足AI訓練各階段對數據的訪問訴求,支撐AI數據處理的全套流程,構建了一個安全、共享、高效存取的“數據湖”。

最后,MOSFS針對AI訓練的特性,開發(fā)了多級分布式緩存架構,將熱點數據(如正在訓練的數據集)緩存在高性能介質中,如NVMe SSD、MEM等,將非熱點數據存儲在大容量介質中,既保證了極致的響應時延,充分釋放出GPU等特殊硬件的算力,橫向擴展帶來的近似線性增加的容量和性能又保障了高帶寬和超大的容量。

如下圖所示,在國內某AI領域獨角獸企業(yè)的選型測試過程中,通過采用杉巖數據MOSFS存儲解決方案,相比采用傳統分布式NAS存儲,訓練時長縮短了5倍,GPU利用率提升了近3個百分點。

如圖片無法顯示,請刷新頁面
如圖片無法顯示,請刷新頁面

注:訓練計算節(jié)點相同,數據集ImageNet分別存于本地(4TB SATA SSD)、MOSFS(960GB SATA SSD + 4T*10 SATA HDD)和某商用分布式NAS(6TB SAS)時,進行AI訓練,模型采用ResNet18。

隨著科技的進步,AI作為新一輪產業(yè)變革的核心驅動力,將催生新技術、新產品、新產業(yè)、新業(yè)態(tài)、新模式,實現社會生產力的整體提升。MOSFS作為杉巖數據針對AI、大數據等新型業(yè)務場景而打造的智能分布式存儲解決方案,針對傳統存儲在新業(yè)務場景下的痛點,全新設計優(yōu)化,實現了在性能、容量和擴展性之間的全面平衡,將助力企業(yè)進一步釋放數據潛能,加速數字化轉型,為AI在國民經濟各行各業(yè)中更好的落地開花貢獻力量。

分享到

songjy

相關推薦