華為大數(shù)據(jù)存算分離方案創(chuàng)新性的在存儲(chǔ)層實(shí)現(xiàn)了原生的HDFS的語(yǔ)義,打破了傳統(tǒng)大數(shù)據(jù)平臺(tái)計(jì)算存儲(chǔ)緊耦合的部署架構(gòu),不僅實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)建設(shè)成本的大幅降低,而且通過(guò)存儲(chǔ)層全分布式架構(gòu)和協(xié)議融合互通的能力,提升數(shù)據(jù)分析效率,完全滿足中國(guó)聯(lián)通對(duì)于大數(shù)據(jù)平臺(tái)的期望和要求。
華為大數(shù)據(jù)存算分離方案創(chuàng)新點(diǎn):
√ 計(jì)算存儲(chǔ)分離,按需擴(kuò)展
在存儲(chǔ)層構(gòu)建了原生HDFS能力,將存儲(chǔ)從服務(wù)器本地盤剝離,形成計(jì)算和存儲(chǔ)完全分離的方案,既滿足業(yè)務(wù)彈性擴(kuò)展需求,又避免資源浪費(fèi),為統(tǒng)一的大數(shù)據(jù)分析平臺(tái)打下技術(shù)基礎(chǔ)。
√ 大比例EC算法,提高存儲(chǔ)資源利用率
在大數(shù)據(jù)存算分離方案中,采用存儲(chǔ)層成熟的EC技術(shù),替代Hadoop的多副本,存儲(chǔ)資源利用率提升到91.6%,同樣的數(shù)據(jù)量,機(jī)柜數(shù)下降45%,大幅節(jié)省了運(yùn)維成本。
√ 全分布式NameNode,海量數(shù)據(jù)統(tǒng)一管理
采用存儲(chǔ)層提供的全分布式的NameNode架構(gòu),每個(gè)節(jié)點(diǎn)既是數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),也是元數(shù)據(jù)管理節(jié)點(diǎn),單個(gè)NameSpace能夠支撐百億文件的存儲(chǔ),為大數(shù)據(jù)平臺(tái)提供堅(jiān)實(shí)的數(shù)據(jù)存儲(chǔ)底座,很好的支撐了集團(tuán)的數(shù)據(jù)中臺(tái)戰(zhàn)略。
√ 原生HDFS,新老共存,保護(hù)投資
在大數(shù)據(jù)存儲(chǔ)層構(gòu)建了HDFS的納管功能——元數(shù)據(jù)網(wǎng)關(guān),通過(guò)納管現(xiàn)網(wǎng)已經(jīng)部署的HDFS,實(shí)現(xiàn)了應(yīng)用層數(shù)據(jù)訪問(wèn)的統(tǒng)一入口,且支持優(yōu)先寫入存儲(chǔ)層HDFS、基于配置選擇寫入HDFS、負(fù)載均衡寫入HDFS等多種寫入策略,真正做到了業(yè)務(wù)無(wú)感知的平滑演進(jìn)。
√ 企業(yè)級(jí)存儲(chǔ)數(shù)據(jù)保護(hù)技術(shù),提升可靠性
在存儲(chǔ)層,采用多故障域技術(shù),每個(gè)故障域都允許4個(gè)節(jié)點(diǎn)同時(shí)故障,上百個(gè)存儲(chǔ)節(jié)點(diǎn)集群,即能夠容忍12個(gè)節(jié)點(diǎn)同時(shí)故障,極大的延長(zhǎng)了維護(hù)周期。當(dāng)出現(xiàn)硬盤或節(jié)點(diǎn)故障時(shí),存儲(chǔ)層提供遠(yuǎn)高于傳統(tǒng)Hadoop的數(shù)據(jù)重構(gòu)速度,將故障修復(fù)時(shí)間從天級(jí)縮減至小時(shí)級(jí),進(jìn)一步加強(qiáng)數(shù)據(jù)層的可靠性。
由于是新技術(shù),中國(guó)聯(lián)通聯(lián)合華為制定了非常全面的測(cè)試計(jì)劃,同時(shí)搭建了存算一體和存算分離兩套測(cè)試環(huán)境,采用現(xiàn)網(wǎng)脫敏的真實(shí)業(yè)務(wù)數(shù)據(jù),通過(guò)鏡像對(duì)比,從功能、性能、可靠性、可擴(kuò)展性等多個(gè)維度,論證方案的可行性和價(jià)值。經(jīng)過(guò)數(shù)個(gè)月的聯(lián)合測(cè)試,測(cè)試結(jié)果得到中國(guó)聯(lián)通集團(tuán)信息化部數(shù)據(jù)中心的認(rèn)可,最終促成中國(guó)聯(lián)通對(duì)于華為OceanStor存儲(chǔ)Pacific系列的規(guī)模化采購(gòu)。
客戶價(jià)值
目前,基于存算分離技術(shù)建設(shè)的運(yùn)營(yíng)支撐平臺(tái)已正式上線,已經(jīng)承載了互聯(lián)網(wǎng)分析、IoT、日志等系統(tǒng)15PB的數(shù)據(jù)量,實(shí)現(xiàn)了聯(lián)通各省公司2/3/4/5G xDR、網(wǎng)絡(luò)信令、互聯(lián)網(wǎng)日志、IoT等數(shù)據(jù)的接入分析,日導(dǎo)入數(shù)據(jù)量超過(guò)70TB。
存算分離方案給中國(guó)聯(lián)通帶來(lái)如下顯著價(jià)值:
1) 節(jié)省成本:大幅降低采購(gòu)和運(yùn)維成本,總TCO降低30%,節(jié)省千萬(wàn)以上投資;
2) 運(yùn)營(yíng)效率提升:該項(xiàng)目投入運(yùn)營(yíng)后,分析效率提升20%,每年將帶來(lái)千萬(wàn)以上的收入增長(zhǎng)。
3) 提升可靠性:存儲(chǔ)層通過(guò)多故障域、快速重構(gòu)、亞健康檢測(cè)等技術(shù),可靠性提升30倍以上。
展望未來(lái)
未來(lái),華為將持續(xù)為中國(guó)聯(lián)通數(shù)據(jù)基礎(chǔ)設(shè)施創(chuàng)新注入動(dòng)力,結(jié)合華為OceanStor存儲(chǔ)Pacific系列的多協(xié)議融合互通的能力和開(kāi)放的數(shù)據(jù)分析生態(tài),實(shí)現(xiàn)BOM多域的數(shù)據(jù)融合,突破生產(chǎn)系統(tǒng)和分析系統(tǒng)之間的壁壘,建設(shè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)底座,降低數(shù)據(jù)的存儲(chǔ)成本,加速數(shù)據(jù)流動(dòng);在無(wú)狀態(tài)的計(jì)算基礎(chǔ)上,引入更加多樣的計(jì)算引擎,如BI、深度學(xué)習(xí)、圖計(jì)算、時(shí)空分析等新興引擎,快速推陳出新,支撐應(yīng)用系統(tǒng)快速創(chuàng)新。通過(guò)持續(xù)創(chuàng)新,共同打造存得下、流得動(dòng)、管得好的數(shù)據(jù)基礎(chǔ)設(shè)施,釋放海量數(shù)據(jù)的價(jià)值。