2.Hype Cycle 2021
Hype Cycle 2021評(píng)測(cè)圖表如下:
曲線的坐標(biāo)為“時(shí)間”,表示技術(shù)將隨時(shí)間發(fā)展經(jīng)歷的階段??v坐標(biāo)為“預(yù)期”,即受關(guān)注程度,代表市場(chǎng)對(duì)技術(shù)未來(lái)價(jià)值的預(yù)估。坐標(biāo)點(diǎn)的形狀,代表該技術(shù)進(jìn)入成熟期的預(yù)計(jì)時(shí)間。
在Gartner模型中,可以從兩個(gè)維度來(lái)量化新技術(shù)的成熟度:功能豐富性和主流性。Gartner認(rèn)為,新技術(shù)從誕生到最終成熟商用,一般都會(huì)經(jīng)歷5個(gè)階段:
技術(shù)成熟度曲線的不同形狀呈現(xiàn)了響應(yīng)技術(shù)在發(fā)展過(guò)程中的價(jià)值預(yù)期隨時(shí)間的變化情況,能夠準(zhǔn)確地反映隨技術(shù)發(fā)展出現(xiàn)高峰的更深層根本原因和性質(zhì)。
在Gartner看來(lái),如今整體上數(shù)據(jù)管理技術(shù)已經(jīng)逐步趨于成熟,其中大約有一半都處在爬升期。這些進(jìn)入者中的大多數(shù)將在兩年內(nèi)進(jìn)入穩(wěn)步發(fā)展的成熟期。這意味著,技術(shù)決策者們,可以優(yōu)先考慮采用這些新技術(shù),因?yàn)橄鄬?duì)較高的成熟度,即具有很高的業(yè)務(wù)價(jià)值和最小的技術(shù)風(fēng)險(xiǎn)。
關(guān)于數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),Gartner認(rèn)為,LDW(邏輯數(shù)據(jù)倉(cāng)庫(kù))已成為最主流的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。這是因?yàn)樗梢造`活適應(yīng)許多架構(gòu)變化,通過(guò)其邏輯層,將底層復(fù)雜且差異化的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境實(shí)現(xiàn)統(tǒng)一。而作為數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的重要組件,Data Lake、Data Hub Strategy和Lakehouse,還有較長(zhǎng)的路要走。(注:在成熟度曲線中,三者的定位為:Data lake-即將走出低谷期,走向成熟;Data Hub Strategy-經(jīng)過(guò)泡沫期的爆發(fā),正走向低谷期;Lakehouse-仍處于啟動(dòng)階段,是等待探索的新技術(shù))
3.Gartner對(duì)于「湖倉(cāng)一體」的分析
定義:
重要意義:
商業(yè)影響:
技術(shù)驅(qū)動(dòng)力:
主要難題:
4.「湖倉(cāng)一體」在國(guó)內(nèi)外的技術(shù)探索
在我看來(lái),「湖倉(cāng)一體」的出現(xiàn),降低了大數(shù)據(jù)分析的技術(shù)復(fù)雜度和成本,同時(shí)滿足了用戶對(duì)性能和易用性的更高要求。
在艾瑞發(fā)布的《2021年中國(guó)數(shù)據(jù)庫(kù)行業(yè)研究報(bào)告》中,「湖倉(cāng)一體」也被看作是未來(lái)數(shù)據(jù)庫(kù)發(fā)展的新趨勢(shì)。
在國(guó)外,Snowflake、Databricks等數(shù)據(jù)庫(kù)公司,作為「湖倉(cāng)一體」理念的先行者,憑借其前沿的技術(shù)特性和豐富的技術(shù)生態(tài),獲得了迅猛發(fā)展,已經(jīng)成為了「湖倉(cāng)」領(lǐng)域的技術(shù)引領(lǐng)者。國(guó)內(nèi)方面,巨杉SequoiaDB作為原生的分布式數(shù)據(jù)庫(kù),憑借多年的產(chǎn)品打磨和行業(yè)深耕,已經(jīng)有了較為成熟的「湖倉(cāng)一體」落地案例。
此外,隨著越來(lái)越多企業(yè)客戶的IT架構(gòu)從本地?cái)?shù)據(jù)中心轉(zhuǎn)向云端,云原生正在成為新一代數(shù)據(jù)架構(gòu)的主流標(biāo)準(zhǔn),大數(shù)據(jù)領(lǐng)域也將加速“一體化”新方向的演進(jìn)。各大云廠商陸續(xù)提出自己的「湖倉(cāng)一體」技術(shù)方案,同樣受到了業(yè)界的普遍關(guān)注,我們也因此看到了更多的技術(shù)探索案例。
4.1 Snowflake
Snowflake,是完全構(gòu)建在云上的企業(yè)級(jí)「湖倉(cāng)一體」解決方案。它基于云環(huán)境進(jìn)行了根本性地重新設(shè)計(jì),處理引擎和其他大部分組件均為自主研發(fā)。Snowflake從2012 年開(kāi)始投入研發(fā),到 2015年6月完成了初步商用。目前,Snowflake 已經(jīng)被越來(lái)越多的組織采用,每天承載PB級(jí)的數(shù)據(jù)存儲(chǔ)及超過(guò)上千萬(wàn)次的查詢。
Snowflake本是「云數(shù)倉(cāng)」提供商,主要面向結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù)分析。伴隨著Lakehouse概念的誕生,Snowflake逐步增強(qiáng)其數(shù)據(jù)湖相關(guān)能力,例如第三方數(shù)據(jù)源接入、IoT/流處理等多種工作負(fù)載,以及已經(jīng)實(shí)現(xiàn)的跨云部署等。2021年6月,Snowflake更正以Private Perview的方式對(duì)部分客戶提供Unstructured Data非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)及處理能力的技術(shù)預(yù)覽,以解鎖全新的數(shù)據(jù)價(jià)值。
4.2 Databricks
Databricks早期,是將Azure的云存儲(chǔ)掛載為DBFS(Databricks File System),借助Spark的計(jì)算實(shí)現(xiàn)基本的表存儲(chǔ)和SQL簡(jiǎn)單處理。而到了現(xiàn)在已經(jīng)提供了基于SQL/Python/R/Scala的成熟BI工具,并在AI和ML的擴(kuò)展支持方面做了大量的投入。
Databricks現(xiàn)已經(jīng)支持AWS、Azure、Google三家公有云,且部署在全球超過(guò)50個(gè)Region。相比于Snowflake,Databricks的發(fā)展路徑,更接近于從數(shù)據(jù)湖逐步走向「湖倉(cāng)一體」。Delta Lake 及 Delta Engine是Databricks的兩大重要組成部分。
Delta Lake作為可靠的開(kāi)源存儲(chǔ)層,與 Apache Spark API完全兼容,提供ACID事務(wù),且支持可縮放元數(shù)據(jù)處理、版本管理、Schema管理、審計(jì)等一系列數(shù)據(jù)管理功能等,可輕松實(shí)現(xiàn)流處理和批數(shù)據(jù)的統(tǒng)一。此外,可以根據(jù)實(shí)際工作負(fù)載對(duì)Delta Lake進(jìn)行靈活地配置。
Delta Engine作為高性能的數(shù)據(jù)處理引擎,提供了對(duì)Apache Spark的良好兼容性。Delta Engine在數(shù)據(jù)查詢方面的全面優(yōu)化,可加快數(shù)據(jù)湖的操作效率,并支持豐富的工作負(fù)載類型,從大規(guī)模ETL處理到交互式查詢均可勝任。Databricks典型部署架構(gòu)如下:
4.3 巨杉SequoiaDB,湖倉(cāng)一體數(shù)據(jù)平臺(tái)
基于100%自研的分布式數(shù)據(jù)庫(kù)內(nèi)核,巨杉數(shù)據(jù)庫(kù)SequoiaDB提供了「湖倉(cāng)一體」數(shù)據(jù)平臺(tái)。目前在銀行、保險(xiǎn)、證券等各行業(yè),已經(jīng)擁有豐富的最佳實(shí)踐及案例,幫助客戶構(gòu)建起數(shù)據(jù)平臺(tái)最佳底座。
巨杉數(shù)據(jù)庫(kù)基于「湖倉(cāng)一體」的架構(gòu)特性,構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái),整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)與管理,為面向全量數(shù)據(jù)業(yè)務(wù)提供:SQL、NoSQL、Object多種接口。
此外,通過(guò)特有的跨引擎事務(wù)能力,可以有效簡(jiǎn)化多團(tuán)隊(duì)開(kāi)發(fā)流程中對(duì)不同引擎、不同結(jié)構(gòu)的數(shù)據(jù)管理,打通ACID事務(wù)支持,提升業(yè)務(wù)開(kāi)發(fā)、數(shù)據(jù)處理、運(yùn)維管理能力,釋放全量數(shù)據(jù)價(jià)值,提升企業(yè)數(shù)據(jù)處理的“人效”及“能效”。
在金融銀行業(yè)生產(chǎn)環(huán)境中,最早的巨杉數(shù)據(jù)庫(kù)集群已經(jīng)連續(xù)運(yùn)行超過(guò)7年,最大單客戶集群規(guī)模達(dá)300臺(tái)物理服務(wù)器,所管理的單集群最大數(shù)據(jù)量達(dá)到1.2萬(wàn)億條,助力客戶實(shí)現(xiàn)提升數(shù)據(jù)管理水平、降低成本、提升運(yùn)營(yíng)效率、提升用戶體驗(yàn)等目標(biāo)。
5.結(jié)語(yǔ)
伴隨著20年的大數(shù)據(jù)發(fā)展史,我們看到了數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的不斷發(fā)展和創(chuàng)新,業(yè)界也認(rèn)識(shí)到以湖倉(cāng)一體化為核心的技術(shù)架構(gòu),對(duì)企業(yè)大數(shù)據(jù)的價(jià)值發(fā)揮帶來(lái)了更為重要的現(xiàn)實(shí)意義。
數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù),原本是大數(shù)據(jù)技術(shù)條件下構(gòu)建分布式系統(tǒng)的兩種數(shù)據(jù)架構(gòu)設(shè)計(jì)取向。而融合后的「湖倉(cāng)一體」,為業(yè)界和用戶展現(xiàn)了一種「湖」與「?jìng)}」互相補(bǔ)充、協(xié)同工作的架構(gòu)。、
在“2021年大數(shù)據(jù)前沿技術(shù)及產(chǎn)業(yè)論壇”中,報(bào)告《研究大數(shù)據(jù)產(chǎn)品融合演進(jìn)之路》指出:在數(shù)字化驅(qū)動(dòng)下,「湖倉(cāng)一體」或?qū)⒊蔀榇髷?shù)據(jù)技術(shù)發(fā)展的下一跳,而支撐這一技術(shù)架構(gòu)的基礎(chǔ),將是如何更好地將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的能力相結(jié)合,具備完善的數(shù)據(jù)存儲(chǔ)及高性能的聯(lián)機(jī)處理能力。
毫無(wú)疑問(wèn),「湖倉(cāng)一體」代表了未來(lái)技術(shù)演進(jìn)的方向。未來(lái),「湖倉(cāng)一體」將會(huì)更好地助力企業(yè)降低成本、提升運(yùn)營(yíng)效率、豐富業(yè)務(wù)模式探索,從而釋放全量數(shù)據(jù)的價(jià)值,提升數(shù)據(jù)處理的“能效”和“人效”。