天翼云科技有限公司 國(guó)際業(yè)務(wù)事業(yè)部存儲(chǔ)產(chǎn)品線專家 肖夏敏

國(guó)云筑基,智算建設(shè)新挑戰(zhàn)

近年來(lái),天翼云準(zhǔn)確把握人工智能發(fā)展機(jī)遇,全力打造智算云能力體系,在智算資源方面,規(guī)劃并建設(shè)全國(guó)“2+3+7+X”公共智算云池。不過(guò),在智算基礎(chǔ)設(shè)施建設(shè)過(guò)程中,天翼云也遇到了諸多挑戰(zhàn)。

架構(gòu)挑戰(zhàn)方面,GPU算力的顯著差異和分階段建設(shè)需求,使得硬件組合變得復(fù)雜,資源調(diào)度管理面臨困難。計(jì)算挑戰(zhàn)方面,為了滿足巨大的算力需求,必須構(gòu)建大規(guī)模的GPU服務(wù)器集群,這對(duì)計(jì)算存儲(chǔ)底座性能提出了極高要求。

網(wǎng)絡(luò)挑戰(zhàn)方面,隨著智算集群的擴(kuò)展,對(duì)高帶寬互聯(lián)的需求日益增長(zhǎng),對(duì)通信質(zhì)量、時(shí)延和穩(wěn)定性的要求也更為嚴(yán)格。存儲(chǔ)挑戰(zhàn)方面,在智算場(chǎng)景中,大模型訓(xùn)練需要高效的數(shù)據(jù)加載和存儲(chǔ)能力,對(duì)存儲(chǔ)系統(tǒng)的性能和容量提出了前所未有的挑戰(zhàn)。對(duì)此,天翼云以存儲(chǔ)資源盤活系統(tǒng)HBlock,應(yīng)對(duì)AI時(shí)代存儲(chǔ)新挑戰(zhàn)。

創(chuàng)新自研,智算存儲(chǔ)新范式

HBlock是輕量級(jí)存儲(chǔ)集群控制器,采用純軟件用戶態(tài)設(shè)計(jì),兼容異構(gòu)非對(duì)稱環(huán)境,實(shí)現(xiàn)與其他應(yīng)用的混合部署,充分利用其綠色、輕量、靈活、共生的特性,打造高可用、高可靠、高性能、高利用的存儲(chǔ)底座。

HBlock是業(yè)界唯一支持在線直接下載安裝的分布式存儲(chǔ)產(chǎn)品,一小時(shí)內(nèi)即可完成集群搭建和客戶端掛載,支持使用異構(gòu)通用服務(wù)器靈活調(diào)整存儲(chǔ)集群規(guī)模,充分發(fā)揮存量硬件的潛力。

HBlock的立體容災(zāi)機(jī)制,可確保數(shù)據(jù)副本存儲(chǔ)在不同的故障域,即使單個(gè)故障域整體損壞,卷數(shù)據(jù)仍然可讀寫;支持通過(guò)其他故障域進(jìn)行快速數(shù)據(jù)重建,確保故障后數(shù)據(jù)快速恢復(fù);單個(gè)故障域可寫入多個(gè)副本,進(jìn)一步加強(qiáng)數(shù)據(jù)可靠性。

HBlock的多存儲(chǔ)池機(jī)制,可將通用服務(wù)器性能提升到極限,卷讀寫時(shí)可將數(shù)據(jù)先寫入SSD組成的高速緩存池中,最終無(wú)感存入普通硬盤組成的普通存儲(chǔ)池中。在用戶有少量SSD和大量HDD資源的場(chǎng)景下,可以為用戶提供SSD的寫入體驗(yàn)和HDD的存儲(chǔ)規(guī)模。

HBlock的多存儲(chǔ)池機(jī)制

HBlock可以與并行文件系統(tǒng)混合部署在同一臺(tái)服務(wù)器上,以最少的節(jié)點(diǎn)提供高帶寬存儲(chǔ)服務(wù),助力AI場(chǎng)景落地,主備秒級(jí)切換,任何情況都能確保業(yè)務(wù)不斷。用戶使用少量通用服務(wù)器即可構(gòu)建高階存儲(chǔ)集群,平替高端磁盤陣列,降低智算池建設(shè)成本。

由此,HBlock建立了自主可控的新型智算存儲(chǔ)底座,軟件完全自研,硬件兼容各種國(guó)產(chǎn)服務(wù)器,以各種獨(dú)創(chuàng)自研技術(shù),為智算時(shí)代發(fā)展中的各類挑戰(zhàn)提供了創(chuàng)新解題思路。

降本增效,智存共生新時(shí)代

經(jīng)過(guò)多年的積累和實(shí)踐,天翼云HBlock已為金融、政務(wù)、教育等多個(gè)行業(yè)提供高效穩(wěn)定的存儲(chǔ)支持。

以某公司的智算資源池項(xiàng)目為例,在原本作為計(jì)算節(jié)點(diǎn)的GPU服務(wù)器中部署HBlock,將其轉(zhuǎn)為存儲(chǔ)服務(wù)器,支持各種異構(gòu)國(guó)產(chǎn)化通用服務(wù)器彈性擴(kuò)容,同時(shí)和并行文件服務(wù)(HPFS)混合部署,快速完成智算資源池?cái)U(kuò)容。該方案精簡(jiǎn)了智算池整體節(jié)點(diǎn)數(shù)量,實(shí)現(xiàn)降本增效的同時(shí),還助推“雙碳”目標(biāo)落地。

某公司智算資源池項(xiàng)目架構(gòu)圖

隨著數(shù)字化轉(zhuǎn)型的持續(xù)深入,各組織單位的數(shù)據(jù)量不斷擴(kuò)大,綠色存儲(chǔ)技術(shù)的價(jià)值也將持續(xù)凸顯。未來(lái),天翼云HBlock將持續(xù)在更多領(lǐng)域中落地,進(jìn)一步為智算基礎(chǔ)設(shè)施建設(shè)、行業(yè)智能化升級(jí)筑牢存儲(chǔ)底座,讓企業(yè)輕裝前行,揚(yáng)帆遠(yuǎn)航。

分享到

xiesc

相關(guān)推薦