現(xiàn)在反方來了,Hammerspace營銷高級副總裁Molly Presley還有AI和HPC領(lǐng)域數(shù)據(jù)基礎(chǔ)設(shè)施提供商VDURA的首席執(zhí)行官Ken Claffey都反對。VDURA為超級計算、機(jī)構(gòu)和企業(yè)高性能計算(HPC)提供并行文件系統(tǒng)。Ken Claffey認(rèn)為,將AI訓(xùn)練和推理市場中的文件與對象數(shù)據(jù)訪問問題視為非此即彼是錯誤的。
并且在Blocks & Files采訪中,Ken Claffey討論了這一話題。
1、是什么讓你開始思考這個問題的?
Ken Claffey: VAST Data的Jeff Denworth最近提出”沒有人需要文件系統(tǒng)用于AI訓(xùn)練”的觀點,S3基礎(chǔ)的對象存儲才是未來。雖然AI工作負(fù)載確實在不斷發(fā)展,但斷言文件系統(tǒng)已過時的說法最多只能說是誤導(dǎo)性的。
2、你認(rèn)為AI存儲的實際需求是什么,并行文件系統(tǒng)在大規(guī)模高性能AI訓(xùn)練中的作用是什么?
Ken Claffey:在VDURA,我們并不認(rèn)為AI存儲是一個在文件和對象之間二選一的問題。我們的架構(gòu)以高性能對象存儲為核心,前端是一個完全并行的文件系統(tǒng)。這意味著用戶可以兼得兩者的優(yōu)點:對象存儲的可擴(kuò)展性和持久性,以及AI訓(xùn)練所需的高性能訪問。
隨著最新v11版本的發(fā)布,我們進(jìn)一步通過整合高性能分布式鍵值存儲來增強(qiáng)平臺。這一新增功能優(yōu)化了元數(shù)據(jù)操作,實現(xiàn)了超快速索引,進(jìn)一步增強(qiáng)了AI和HPC工作負(fù)載的性能。
此外,VDURA提供了一個高性能S3接口,允許通過文件和對象協(xié)議無縫訪問相同的文件和數(shù)據(jù)。這確保了企業(yè)在擴(kuò)展AI基礎(chǔ)設(shè)施時的最大靈活性和投資保護(hù)。
3、對象存儲在這里的作用。
Ken Claffey: 微軟Azure的Glenn Lockwood最近指出,大規(guī)模AI語言模型越來越多地使用對象存儲進(jìn)行訓(xùn)練,而非文件存儲。他的觀點與日益向基于對象的架構(gòu)轉(zhuǎn)變的趨勢相一致,但在得出結(jié)論之前,重要的是要審視AI模型訓(xùn)練工作流程的細(xì)節(jié)。
Lockwood概述了AI模型訓(xùn)練的四個主要階段:數(shù)據(jù)攝取、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署與推理。雖然Lockwood斷言并行文件系統(tǒng)對于這些工作負(fù)載并非必需,但他的論點主要圍繞成本效益而非原始性能。對象存儲因其規(guī)模和成本效益,非常適合用于數(shù)據(jù)攝取和準(zhǔn)備。然而,對于模型訓(xùn)練和實時推理,像VDURA這樣的混合方法提供了最佳的解決方案。
4、如何看待英偉達(dá)在這個問題上的觀點?
Ken Claffey: 隨著英偉達(dá)發(fā)布新一代GPU和DGX平臺,他們繼續(xù)強(qiáng)調(diào)高性能存儲需求。根據(jù)英偉達(dá)自己的DGX指導(dǎo)方針,領(lǐng)先的AI平臺推薦的存儲配置是:“高性能、彈性、POSIX風(fēng)格的文件系統(tǒng),針對多節(jié)點上的多線程讀寫操作進(jìn)行了優(yōu)化。”而且英偉達(dá)從未指出AI訓(xùn)練應(yīng)完全依賴對象存儲。事實上,他們自己的高性能AI架構(gòu)是圍繞為分布式節(jié)點設(shè)計的文件系統(tǒng)構(gòu)建的,這些文件系統(tǒng)適用于多線程、高吞吐量訪問。
5、檢查點是否鼓勵使用對象存儲?
Ken Claffey:Denworth引用英偉達(dá)的“S3檢查點”作為AI訓(xùn)練轉(zhuǎn)向?qū)ο蟠鎯Φ淖C據(jù)。然而,他故意忽略了英偉達(dá)的一個關(guān)鍵細(xì)節(jié)。即異步特性目前不會檢查之前的異步保存是否完成,因此即使當(dāng)前保存失敗,也可能會刪除舊的檢查點?!?/p>
這在實踐中意味著什么?使用異步檢查點可能會導(dǎo)致恢復(fù)點更早。大大降低了檢查點的可靠性,增加了丟失訓(xùn)練進(jìn)度的風(fēng)險。并行文件系統(tǒng)經(jīng)過數(shù)十年的優(yōu)化,用于同步、一致的檢查點,其價值不容小覷。
6、如何優(yōu)化VDURA存儲?
Ken Claffey:VDURA構(gòu)建了一個整合了以下內(nèi)容的解決方案:高性能對象存儲用于高效處理大規(guī)模數(shù)據(jù)攝取和歸檔;完全并行的文件系統(tǒng)前端,用于優(yōu)化AI模型訓(xùn)練的低延遲、高帶寬訪問;分布式鍵值存儲,用于加速元數(shù)據(jù)查找、向量索引和推理;高性能S3接口,確保AI工作流程中的多協(xié)議訪問。這種架構(gòu)既解決了Lockwood的擔(dān)憂,又滿足了對性能和可擴(kuò)展性要求最高的企業(yè)的需求。雖然對象存儲發(fā)揮了關(guān)鍵作用,但完全否定并行文件系統(tǒng)忽略了大規(guī)模AI訓(xùn)練的實際需求。
7、如何看待AI存儲的未來?
Ken Claffey: Denworth和Lockwood都為對象存儲提出了有力的論點,但他們淡化了AI訓(xùn)練中性能關(guān)鍵的方面。AI存儲的未來是混合的:
并行文件系統(tǒng)為訓(xùn)練提供了必要的速度和效率。
對象存儲對于存檔、共享和檢索工作負(fù)載很有用。
多協(xié)議解決方案彌合了差距,但這并不意味著文件系統(tǒng)已經(jīng)過時——遠(yuǎn)非如此。
高性能分布式鍵值存儲增強(qiáng)了元數(shù)據(jù)管理和索引,進(jìn)一步優(yōu)化了人工智能工作流程。
VDURA的方法認(rèn)識到這一現(xiàn)實:以高性能對象存儲為核心,全并行文件系統(tǒng)前端,集成鍵值存儲,以及高性能S3接口——所有這些協(xié)同工作,為人工智能和高性能計算工作負(fù)載提供無與倫比的效率。與WEKA聲稱僅對象存儲就是未來這個觀點不同,我們認(rèn)識到大規(guī)模人工智能訓(xùn)練需要所有存儲范式的最佳組合。
大規(guī)模部署人工智能的企業(yè)需要一個真正滿足性能要求的存儲基礎(chǔ)設(shè)施,而不僅僅是理論上的靈活性。雖然對象存儲發(fā)揮著作用,但并行文件系統(tǒng)仍然是高性能人工智能基礎(chǔ)設(shè)施的支柱,提供當(dāng)今人工智能工作負(fù)載所需的速度、一致性和規(guī)模。
行業(yè)并沒有遠(yuǎn)離文件系統(tǒng) —— 它正在發(fā)展以采用最佳的技術(shù)組合。問題不是 “文件還是對象”,而是 “我們?nèi)绾巫詈玫貎?yōu)化存儲?”