央國企數(shù)字化轉(zhuǎn)型正式進(jìn)入深水區(qū)。
近日,國資委明確表示,要加快構(gòu)建“1+98+X”國資央企大數(shù)據(jù)體系,全面增強(qiáng)國資央企用數(shù)能力。其中,“1”是國資央企大數(shù)據(jù)平臺, “98”即98戶中央企業(yè)自建的數(shù)據(jù)平臺,“X”是指國資委組建的國內(nèi)領(lǐng)域的大數(shù)據(jù)平臺。
實(shí)際上,構(gòu)建底層大數(shù)據(jù)基礎(chǔ)平臺已成大勢所趨。從數(shù)據(jù)資產(chǎn)管理出發(fā),首先得從底層把數(shù)據(jù)“存”起來,再進(jìn)行數(shù)據(jù)管理,最后實(shí)現(xiàn)數(shù)據(jù)的有效利用。
然而,現(xiàn)實(shí)情況是我們的數(shù)據(jù)量雖然不小,但真正有效利用的比例非常小。如何通過數(shù)據(jù)智能化平臺建設(shè),讓數(shù)據(jù)成為有效數(shù)據(jù),發(fā)揮數(shù)據(jù)價(jià)值,各個(gè)領(lǐng)域尤其是大型集團(tuán)企業(yè)開始爭相發(fā)力。
為何必須構(gòu)建湖倉一體數(shù)據(jù)平臺?
湖倉一體作為新一代數(shù)據(jù)智能技術(shù),為企業(yè)的數(shù)據(jù)平臺建設(shè)提供了最佳可能。
IDC數(shù)據(jù)研究預(yù)測:到2026 年,非結(jié)構(gòu)化數(shù)據(jù)預(yù)計(jì)將占IDC全球數(shù)據(jù)圈中90%以上的數(shù)據(jù)。也就是說,在過去的數(shù)據(jù)量以及數(shù)據(jù)狀態(tài)下,企業(yè)還能靠煙囪式架構(gòu)或者技術(shù)堆棧式服務(wù)來支撐業(yè)務(wù)發(fā)展,但隨著大量的視頻、圖片、文件等非結(jié)構(gòu)化數(shù)據(jù)走向?qū)嶋H業(yè)務(wù)場景,其數(shù)據(jù)規(guī)模和復(fù)雜度就超越了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)管理范圍。
為了快速響應(yīng)業(yè)務(wù)需求,構(gòu)建實(shí)時(shí)數(shù)據(jù)處理能力,企業(yè)必須進(jìn)行平臺架構(gòu)的提升,解決好海量數(shù)據(jù)的高并發(fā)和實(shí)時(shí)處理要求。但問題是為什么要構(gòu)建“湖倉一體平臺”?答案只有一個(gè),那就是大數(shù)據(jù)技術(shù)不斷演進(jìn)的結(jié)果。
早期,企業(yè)大多建設(shè)的是以關(guān)系模型為主的數(shù)據(jù)倉庫,如NewSQL具備可擴(kuò)展性、且支持ACID等優(yōu)勢。再之后,面向在線分析處理OLAP的組織級數(shù)據(jù)資源管理成為一股新興力量,底層的技術(shù)架構(gòu)也從關(guān)系模型為主的數(shù)據(jù)倉庫演化到跨模態(tài)的數(shù)據(jù)湖倉一體化平臺。
1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要。1999年,Oracle發(fā)布其數(shù)據(jù)倉庫產(chǎn)品,標(biāo)志著數(shù)據(jù)倉庫已經(jīng)成為關(guān)系模型下OLAP的主流技術(shù)產(chǎn)品。2011年,谷歌 BigQuery發(fā)布后,代表數(shù)據(jù)倉庫進(jìn)入云時(shí)代,SQL數(shù)據(jù)庫和以MapReduce并行處理模式的發(fā)展,提升了數(shù)據(jù)倉庫的應(yīng)用效果。2010年,美國商業(yè)數(shù)據(jù)分析工具企業(yè)Pentaho提出數(shù)據(jù)湖概念,將數(shù)據(jù)資源管理的范圍,從關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列),擴(kuò)展到半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志、XML、JSON)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)。2020年,Databricks提出Lakehouse湖倉一體概念,將數(shù)據(jù)倉庫和數(shù)據(jù)湖的優(yōu)勢結(jié)合,進(jìn)一步提升了數(shù)據(jù)質(zhì)量和性能,降低了成本。
回歸到央國企技術(shù)需求,從數(shù)據(jù)倉庫演化到跨模態(tài)的數(shù)據(jù)湖倉一體化平臺,也是必然趨勢。在數(shù)據(jù)量小、數(shù)據(jù)清晰的業(yè)務(wù)模式下,企業(yè)通過數(shù)據(jù)倉庫處理較小規(guī)模的精煉關(guān)系數(shù)據(jù),且模型統(tǒng)一,分析能力強(qiáng),更容易生成商業(yè)智能報(bào)告等;數(shù)據(jù)湖則可以處理超大規(guī)模、多模態(tài)、異構(gòu)原始數(shù)據(jù),可以低成本地統(tǒng)一數(shù)據(jù)存儲池,支持簡單的數(shù)據(jù)分析。
湖倉一體之所以更勝一籌,是因?yàn)榭梢匀诤蠑?shù)據(jù)倉庫和數(shù)據(jù)湖優(yōu)勢,底層多種數(shù)據(jù)模型并存,支持異構(gòu)數(shù)據(jù)的實(shí)時(shí)查詢和分析,流數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等。尤其當(dāng)企業(yè)的實(shí)時(shí)數(shù)據(jù)處理需求增多,湖倉一體的優(yōu)勢逐漸突顯。有數(shù)據(jù)統(tǒng)計(jì),隨著5G和物聯(lián)網(wǎng)等技術(shù)的發(fā)展,全球數(shù)據(jù)規(guī)模逐漸增大,其中實(shí)時(shí)數(shù)據(jù)的比例到2025年預(yù)計(jì)將達(dá)到30%。
而且,當(dāng)企業(yè)數(shù)據(jù)呈指數(shù)級增長,并行發(fā)展成第一要?jiǎng)?wù),企業(yè)需要根據(jù)處理需求的不同,同時(shí)處理不同的數(shù)據(jù),應(yīng)對多種不同的并行計(jì)算模型,包括:批處理、流處理、混合處理、圖處理。在實(shí)際應(yīng)用場景中,往往需要同時(shí)支持多種處理模式,既有批處理,也有流處理需求,但構(gòu)建兩套獨(dú)立的系統(tǒng)難協(xié)調(diào),資源利用率低,采用Lambda架構(gòu)系統(tǒng)復(fù)雜,難部署。而湖倉一體架構(gòu)可以海納百川,不管是小規(guī)模、低維、單源單模態(tài)的數(shù)據(jù)處理,還是海量、高維多源多模態(tài)的實(shí)時(shí)數(shù)據(jù)處理,都能在一套平臺體系下搞定。
多湖多租戶場景下的湖倉一體技術(shù)實(shí)踐
不過,相對單一湖倉單一租戶場景,大型集團(tuán)企業(yè)通常分總部、子公司,業(yè)務(wù)也有多部門,要面對的最大挑戰(zhàn)是多湖多租戶場景,這帶來一系列新的挑戰(zhàn):
第一,維護(hù)成本高。在多湖多租戶場景下,系統(tǒng)需要支持多個(gè)湖倉實(shí)例和多個(gè)租戶,這意味著需要更多的資源來維護(hù)和管理這些實(shí)例和租戶。
第二,安全需求高。大型集團(tuán)企業(yè)通常處理的是敏感數(shù)據(jù),數(shù)據(jù)安全和隔離將變得尤為重要。系統(tǒng)需要具備更強(qiáng)的數(shù)據(jù)保護(hù)措施,包括數(shù)據(jù)加密、訪問控制、審計(jì)等技術(shù),以確保不同湖倉實(shí)例和租戶之間的數(shù)據(jù)不會被泄露或者干擾。
第三,數(shù)據(jù)管理難度大。數(shù)據(jù)資源分布在不同的湖倉實(shí)例和租戶之中,每個(gè)湖倉實(shí)例和租戶都有自己獨(dú)立的數(shù)據(jù)模型和元數(shù)據(jù)管理方式,以確保不同湖倉實(shí)例和租戶之間的數(shù)據(jù)能夠正確地進(jìn)行交互和整合。
第四,需要更高的技術(shù)水平。央國企通常有更高的技術(shù)標(biāo)準(zhǔn)和安全需求,需要更高的技術(shù)水平來搭建和維護(hù)系統(tǒng),這涉及到更高級的技術(shù)領(lǐng)域,例如分布式系統(tǒng)、網(wǎng)絡(luò)安全、數(shù)據(jù)加密等。
面對這一新的場景需求,分布式數(shù)據(jù)湖技術(shù)方案提供了新的解決思路,既可管理海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),同時(shí)又可以通過數(shù)據(jù)目錄授權(quán)共享的方式實(shí)現(xiàn)跨湖查詢,支持更多樣化、更快速的數(shù)據(jù)分析需求。
具體來看,分布式數(shù)據(jù)湖可以支持海量數(shù)據(jù)的存儲和處理,能夠滿足不同規(guī)模、不同類型的數(shù)據(jù)需求;具有高度靈活性,可根據(jù)具體情況進(jìn)行部署和擴(kuò)展,支持多語言、多框架的應(yīng)用;強(qiáng)調(diào)數(shù)據(jù)的自描述性和元數(shù)據(jù)管理,使數(shù)據(jù)更易于理解、管理和利用。
以滴普科技實(shí)時(shí)湖倉平臺FastData為例,主要提供了分布式數(shù)據(jù)湖+統(tǒng)一Catalog管理的思路,它可以實(shí)現(xiàn)多種數(shù)據(jù)源和數(shù)據(jù)湖的統(tǒng)一,核心能力包含:
提供物理湖(租戶)/邏輯湖/項(xiàng)目空間的多級靈活設(shè)計(jì),滿足了復(fù)雜的業(yè)務(wù)場景
統(tǒng)一Catalog管理能力,連接數(shù)據(jù)孤島,統(tǒng)一數(shù)據(jù)語義,提供統(tǒng)一權(quán)限管控能力
統(tǒng)一SQL引擎,滿足查詢加速、聯(lián)邦查詢和數(shù)據(jù)處理的需求
特別是基于DLink Mesh能力擴(kuò)展支持多級分布式數(shù)據(jù)湖架構(gòu),連接多個(gè)數(shù)據(jù)孤島實(shí)現(xiàn)多湖管理,并具備統(tǒng)一的多租戶權(quán)限和安全管控機(jī)制,實(shí)現(xiàn)加速查詢和聯(lián)邦數(shù)據(jù)分析。在滴普科技看來,構(gòu)建多級數(shù)據(jù)湖的重點(diǎn),就是以物理或者邏輯的方式實(shí)現(xiàn)租戶間的元數(shù)據(jù)隔離,同時(shí)還能保持元數(shù)據(jù)在權(quán)限控制下的分享和互通,而FastData基于物理湖(多租戶)/邏輯湖/項(xiàng)目空間的多級靈活設(shè)計(jì),滿足多業(yè)務(wù)層級下的跨域數(shù)據(jù)湖使用需求。
湖倉一體數(shù)據(jù)技術(shù)架構(gòu)帶來更多可能
放眼未來,滿足大型集團(tuán)企業(yè)數(shù)據(jù)智能化需求的新一代大數(shù)據(jù)平臺,還需覆蓋幾個(gè)關(guān)鍵能力:
1、事務(wù)支持
Lakehouse在企業(yè)級應(yīng)用中,許多數(shù)據(jù)管道通常會同時(shí)讀取和寫入數(shù)據(jù)。通常多方同時(shí)使用SQL讀取或?qū)懭霐?shù)據(jù),Lakehouse保證支持ACID事務(wù)的一致性。
2、模式實(shí)施和治理
Lakehouse應(yīng)該有一種支持模式實(shí)施和演變的方法,支持DW模式規(guī)范,例如star/snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機(jī)制。
3、BI支持
Lakehouse可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少延遲,提升數(shù)據(jù)實(shí)時(shí)性,并且降低必須在數(shù)據(jù)湖和倉庫中操作兩個(gè)數(shù)據(jù)副本的成本。
4、存儲與計(jì)算分離
事實(shí)上,這意味著存儲和計(jì)算使用單獨(dú)的群集,因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。
5、兼容性
Lakehouse使用的存儲格式滿足開放和標(biāo)準(zhǔn)化需求,例如Parquet,并且它提供了多種API,包括機(jī)器學(xué)習(xí)和Python/R庫,因此各種工具和引擎都可以直接有效地訪問數(shù)據(jù),并且支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型。
就目前來看,國內(nèi)外各大廠商都已經(jīng)在重兵部署“湖倉一體”技術(shù)方案,如亞馬遜云科技的Redshift Spectrum、微軟的Azure Data Lake、Databricks、華為云的FusionInsight、滴普科技的FastData等,并賦能各行業(yè)數(shù)據(jù)平臺建設(shè)。
作為湖倉一體數(shù)據(jù)智能基礎(chǔ)軟件獨(dú)角獸,滴普科技憑借新一代湖倉一體、流批一體優(yōu)勢,為諸多央國企提供了數(shù)據(jù)平臺建設(shè)方案。以某能源集團(tuán)為例,該集團(tuán)是以油氣業(yè)務(wù)、工程技術(shù)服務(wù)、石油工程建設(shè)、石油裝備制造等為主營業(yè)務(wù)的綜合性國際能源公司,該集團(tuán)希望由離線數(shù)倉升級為新一代實(shí)時(shí)湖倉,實(shí)現(xiàn)全量油田數(shù)據(jù)入湖?;诖耍纹湛萍紝Link實(shí)時(shí)湖倉引擎與該集團(tuán)現(xiàn)有平臺進(jìn)行集成,支持結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)匯聚,同時(shí)能夠?qū)崿F(xiàn)數(shù)據(jù)實(shí)時(shí)計(jì)算、聯(lián)邦查詢等高級特性。
通過滴普科技的湖倉一體技術(shù)賦能,為該能源集團(tuán)提供了11大類全量油田數(shù)據(jù)入湖服務(wù),并基于滴普科技DLink Mesh提升油田勘探開發(fā)數(shù)據(jù)服務(wù)的時(shí)效性,及主數(shù)據(jù)湖和分布式區(qū)域湖管理等能力,支撐八大油氣數(shù)據(jù)應(yīng)用智能場景,以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)價(jià)值,讓數(shù)據(jù)實(shí)現(xiàn)可用、好用、易用。
小 結(jié)
技術(shù)創(chuàng)新為央國企的智能化創(chuàng)新帶來了更多可能性,而滿足新時(shí)代需求的湖倉一體,可以在海量數(shù)據(jù)處理、多模數(shù)據(jù)入湖和存儲、湖倉數(shù)據(jù)應(yīng)用、數(shù)據(jù)全鏈路追蹤等方面,有更卓越表現(xiàn),真正滿足企業(yè)在大數(shù)據(jù)分析過程中遇到的敏捷性和實(shí)時(shí)性等特定場景要求。
從這個(gè)角度看,湖倉一體掀起央國企數(shù)據(jù)智能化創(chuàng)新浪潮,不是沒有可能。要想以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)價(jià)值,讓數(shù)據(jù)可用、好用、易用,“湖倉一體”自然是大數(shù)據(jù)平臺的首選。未來,隨著央國企數(shù)字化轉(zhuǎn)型進(jìn)程加快,“湖倉一體”的發(fā)展前景或?qū)⒉豢晒懒俊?/p>