現(xiàn)場(chǎng)簽售的著作作者——清華大學(xué)長(zhǎng)聘教授、閩江學(xué)院院長(zhǎng)舒繼武告訴大家,國(guó)內(nèi)系統(tǒng)介紹存儲(chǔ)領(lǐng)域的高校并不多,很多學(xué)校最多也就是把存儲(chǔ)系統(tǒng)作為計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的一章。為了讓高校更多學(xué)生能更清晰了解,兩年前,清華大學(xué)團(tuán)隊(duì)和華為著手聯(lián)合撰寫了這本書。
在當(dāng)天峰會(huì)上,舒繼武教授還發(fā)表了題為“低存儲(chǔ)稅的新型存儲(chǔ)系統(tǒng)設(shè)計(jì)與思考”的主題演講,并提出了“存儲(chǔ)稅”的概念。
何為“存儲(chǔ)稅”?舒繼武教授表示,存儲(chǔ)稅,就是將支持?jǐn)?shù)據(jù)存儲(chǔ)應(yīng)用需求的過(guò)程中,享受到的容量、帶寬、以及CPU算力、軟件管理等各種服務(wù)進(jìn)行分離并單獨(dú)計(jì)費(fèi)。
“從2016年開(kāi)始,芯片制造技術(shù)全面放緩,而網(wǎng)絡(luò)、存儲(chǔ)及硬件技術(shù)發(fā)展都呈現(xiàn)上升趨勢(shì),CPU與這種發(fā)展的不匹配,帶來(lái)了存儲(chǔ)稅的問(wèn)題?!?舒繼武教授說(shuō)。
眾所周知,當(dāng)前數(shù)字規(guī)模發(fā)展迅速,帶動(dòng)數(shù)據(jù)量急劇增長(zhǎng)。預(yù)計(jì)2025年我國(guó)總數(shù)據(jù)量將達(dá)到175ZB,同時(shí),自動(dòng)駕駛、VR/AR等應(yīng)用對(duì)數(shù)字的實(shí)時(shí)通訊和處理要求激增。預(yù)計(jì)到達(dá)2025年,實(shí)時(shí)性數(shù)據(jù)總量將達(dá)50ZB,在全球數(shù)據(jù)的占比將高達(dá)30%。
“存儲(chǔ)是數(shù)據(jù)的載體,云廠商巨頭,通過(guò)構(gòu)建超大規(guī)模數(shù)據(jù)中心,承載著海量數(shù)據(jù)?!笔胬^武教授舉例說(shuō),微軟Azure云存儲(chǔ)系統(tǒng)遍布全球59個(gè)地區(qū),阿里云盤古云存儲(chǔ)系統(tǒng)有數(shù)十萬(wàn)存儲(chǔ)節(jié)點(diǎn),F(xiàn)acebook建設(shè)有EB級(jí)超大規(guī)模存儲(chǔ)系統(tǒng)Tectonic。
海量的數(shù)據(jù),意味著龐大的系統(tǒng),會(huì)產(chǎn)生相應(yīng)的問(wèn)題。比如,構(gòu)建數(shù)據(jù)中心,要用到各種存儲(chǔ),大量的器件,一方面,傳統(tǒng)的硬盤與閃存盤,組成金字塔架構(gòu),在性能和容量上存在數(shù)量級(jí)的差別,軟件也跟不上硬件的發(fā)展,另一方面,隨著摩爾定律的終結(jié),芯片制造技術(shù)的發(fā)展全面放緩,但存儲(chǔ)、網(wǎng)絡(luò)技術(shù)發(fā)展勢(shì)頭迅猛,如數(shù)據(jù)中心網(wǎng)絡(luò)已正式邁入400Gbps大關(guān),PCIe Gen5 SSD帶寬高達(dá)12GB/s。這意味著,CPU已經(jīng)成為存儲(chǔ)系統(tǒng)中新的性能瓶頸。而且,規(guī)模大、數(shù)度快,并不意味著一切問(wèn)題的解決,至少,還有成本的問(wèn)題。
高企的存儲(chǔ)稅影響了數(shù)字經(jīng)濟(jì)的發(fā)展。清華大學(xué)開(kāi)始了這方面的工作。
舒繼武教授表示,降低存儲(chǔ)稅的辦法有很多種,涉及到很多相關(guān)的技術(shù),通常是從新接口、新能力和新編程三個(gè)角度考慮:通過(guò)硬件卸載,把應(yīng)用調(diào)配放在最適合處理它的硬件設(shè)備上,減少占用GPU的資源,基于新編程接口重構(gòu)軟件,大幅度降低開(kāi)銷。
從硬件接口角度,傳統(tǒng)的SSD提供的block接口,軟件開(kāi)銷效率比較低,優(yōu)化也比較難,但主要供應(yīng)商是三星、英特爾等,有一些雙接口SSD,既提供寬接口也提供自接接口,可大幅度降低效能,軟件性能也大幅度提高,代表廠商是英特爾,還有一種鍵值接口SSD,定向優(yōu)化鍵值存儲(chǔ),不兼容其它軟件(如文件系統(tǒng))主要供應(yīng)商是三星。
從硬件能力方面,雖然都是采用軟硬件協(xié)同設(shè)計(jì)方式,開(kāi)放通道SSD克服了普通SSD性能和可靠性問(wèn)題,性能隔離和定向優(yōu)化,但硬件需要大幅改動(dòng);分區(qū)SSD (ZNS),優(yōu)化了普通SSD的性能和可靠性,以用軟件管理來(lái)管理,硬件改動(dòng)較前者少,市場(chǎng)上接觸的比較快;可計(jì)算SSD具有存儲(chǔ)能力與計(jì)算的能力,在離存儲(chǔ)更近的地方計(jì)算,有的硬件甚至還具備網(wǎng)的能力,從而克服了設(shè)備與主機(jī)互連帶寬瓶頸,硬件改動(dòng)更小。
在編程模型的變化方面,在硬件提升比較慢的情況下,可采取基于輪詢(polling)的編程模式,以及NVMe SSD、RDMA、DPDK等設(shè)備編程庫(kù)。此舉相對(duì)來(lái)說(shuō)不存在太大難題,現(xiàn)實(shí)的情況下還可以處理新的一些事情,是比較好的方式。
針對(duì)低存儲(chǔ)稅的新型存儲(chǔ)系統(tǒng)設(shè)計(jì),清華大學(xué)在新接口、新能力以及新編程方面都取得了一定的研究成果。
在新接口方面,有面向數(shù)據(jù)復(fù)制的RDMA新抽象: Rowan、異步內(nèi)存存儲(chǔ)框架: EasylO;在新能力方面,是分布式持久性內(nèi)存文件系統(tǒng)Octopus、可計(jì)算存儲(chǔ)設(shè)備IO棧: 入-IO和寫優(yōu)化的分布式B+樹(shù): Sherman;新編程方面,低CPU開(kāi)銷的遠(yuǎn)程數(shù)據(jù)保序傳輸: RIO、基于RDMA原語(yǔ)的分布式范圍鎖: Citron和分離式內(nèi)存保護(hù)原語(yǔ): Patronus。這些科研成果,都是以降低存儲(chǔ)稅為目的。
如新的編程框架EasylO,這項(xiàng)工作主要的背景是面向存算分離的架構(gòu)為主當(dāng)然也包括其他的架構(gòu)的數(shù)據(jù)中心。分離式內(nèi)存往往具有高時(shí)延特性,進(jìn)一步加劇了CPU的等待,導(dǎo)致在數(shù)據(jù)搬運(yùn)過(guò)程中消耗了90%的CPU資源,從而引發(fā)高昂存儲(chǔ)稅,清華大學(xué)在能力方面提供了的優(yōu)化的分布式的比加數(shù),在接口方面提供了數(shù)據(jù)保護(hù)的存儲(chǔ),即通過(guò)DMA引擎取代Load/Store指令,進(jìn)行異步數(shù)據(jù)拷貝,并將DMA訪存的時(shí)間窗口用于執(zhí)行其他計(jì)算任務(wù),測(cè)試結(jié)果顯示,峰值的時(shí)候CPU資源占用降低了78.5%。
當(dāng)負(fù)載的寫比例增多時(shí),吞吐率和尾延遲嚴(yán)重惡化,原因是過(guò)多的網(wǎng)絡(luò)往返、低效的RDMA網(wǎng)卡原子指令,導(dǎo)致現(xiàn)有索引結(jié)構(gòu)部署在分離式內(nèi)存時(shí)寫效率低下。
這就是清華大學(xué)的第二項(xiàng)工作——Sherman,寫優(yōu)化分布式的B+樹(shù),它通過(guò)索引緩存,在計(jì)算端緩存樹(shù)的中間節(jié)點(diǎn),減少網(wǎng)絡(luò)遠(yuǎn)程訪問(wèn),同時(shí)也采取分層片上鎖方式,將鎖從樹(shù)節(jié)點(diǎn)剝離,存入網(wǎng)卡內(nèi)存,消除PCIe事務(wù)。
第三項(xiàng)工作是低CPU開(kāi)銷的遠(yuǎn)程數(shù)據(jù)保存?zhèn)鬏敗?/p>
順序性是存儲(chǔ)系統(tǒng)的重要語(yǔ)義,它保證了數(shù)據(jù)的可靠存儲(chǔ)。測(cè)試表明,為保證順序性,需要耗費(fèi)12倍以上的CPU資源才能達(dá)到無(wú)序數(shù)據(jù)傳輸?shù)男阅?。為此,清華大學(xué)認(rèn)為,I/O棧的分層設(shè)計(jì)加上異步并發(fā)的網(wǎng)絡(luò)和存儲(chǔ)設(shè)備,使得I/O棧與CPU流水線概念上十分類似,由是決定將CPU流水線設(shè)計(jì)引入到保序I/O路徑中,盡可能避免同步操作。
總體而言,降低存儲(chǔ)稅方面有大量對(duì)策,包括硬件卸載、軟件重構(gòu)等等。近期,清華大學(xué)研究團(tuán)隊(duì)將異步內(nèi)存存儲(chǔ)框架、可計(jì)算存儲(chǔ)設(shè)備IO棧,以及寫優(yōu)化的分布式B+樹(shù)作為研究對(duì)象并取得一定進(jìn)展。
期待清華大學(xué)更多的科研成果。
“2023中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)”共吸引了近1000名業(yè)界精英和專家學(xué)者現(xiàn)場(chǎng)參會(huì),圍繞“數(shù)智創(chuàng)新 AI未來(lái)”的主題,以及如何跨越數(shù)據(jù)和經(jīng)濟(jì)之間的鴻溝難題展開(kāi)深度交流與研討。
作為延續(xù)了18年、業(yè)內(nèi)最具影響力的盛會(huì)之一,中國(guó)數(shù)據(jù)存儲(chǔ)峰會(huì)為產(chǎn)學(xué)研用專業(yè)人士提供了交流學(xué)習(xí)的平臺(tái),也為全球存儲(chǔ)產(chǎn)業(yè)的發(fā)展提供了寶貴的經(jīng)驗(yàn)和建議;在展示中國(guó)處于全球存儲(chǔ)產(chǎn)業(yè)重要地位的同時(shí),也展現(xiàn)了中國(guó)企業(yè)和科研機(jī)構(gòu)在數(shù)據(jù)與存儲(chǔ)領(lǐng)域不斷進(jìn)步的實(shí)力。