2.Hype Cycle 2021
Hype Cycle 2021評測圖表如下:

曲線的坐標為“時間”,表示技術將隨時間發(fā)展經歷的階段??v坐標為“預期”,即受關注程度,代表市場對技術未來價值的預估。坐標點的形狀,代表該技術進入成熟期的預計時間。
在Gartner模型中,可以從兩個維度來量化新技術的成熟度:功能豐富性和主流性。Gartner認為,新技術從誕生到最終成熟商用,一般都會經歷5個階段:

技術成熟度曲線的不同形狀呈現(xiàn)了響應技術在發(fā)展過程中的價值預期隨時間的變化情況,能夠準確地反映隨技術發(fā)展出現(xiàn)高峰的更深層根本原因和性質。
在Gartner看來,如今整體上數(shù)據(jù)管理技術已經逐步趨于成熟,其中大約有一半都處在爬升期。這些進入者中的大多數(shù)將在兩年內進入穩(wěn)步發(fā)展的成熟期。這意味著,技術決策者們,可以優(yōu)先考慮采用這些新技術,因為相對較高的成熟度,即具有很高的業(yè)務價值和最小的技術風險。
關于數(shù)據(jù)倉庫架構,Gartner認為,LDW(邏輯數(shù)據(jù)倉庫)已成為最主流的數(shù)據(jù)倉庫架構。這是因為它可以靈活適應許多架構變化,通過其邏輯層,將底層復雜且差異化的數(shù)據(jù)倉庫環(huán)境實現(xiàn)統(tǒng)一。而作為數(shù)據(jù)倉庫架構的重要組件,Data Lake、Data Hub Strategy和Lakehouse,還有較長的路要走。(注:在成熟度曲線中,三者的定位為:Data lake-即將走出低谷期,走向成熟;Data Hub Strategy-經過泡沫期的爆發(fā),正走向低谷期;Lakehouse-仍處于啟動階段,是等待探索的新技術)

3.Gartner對于「湖倉一體」的分析
定義:
重要意義:
商業(yè)影響:
技術驅動力:
主要難題:

4.「湖倉一體」在國內外的技術探索
在我看來,「湖倉一體」的出現(xiàn),降低了大數(shù)據(jù)分析的技術復雜度和成本,同時滿足了用戶對性能和易用性的更高要求。
在艾瑞發(fā)布的《2021年中國數(shù)據(jù)庫行業(yè)研究報告》中,「湖倉一體」也被看作是未來數(shù)據(jù)庫發(fā)展的新趨勢。

在國外,Snowflake、Databricks等數(shù)據(jù)庫公司,作為「湖倉一體」理念的先行者,憑借其前沿的技術特性和豐富的技術生態(tài),獲得了迅猛發(fā)展,已經成為了「湖倉」領域的技術引領者。國內方面,巨杉SequoiaDB作為原生的分布式數(shù)據(jù)庫,憑借多年的產品打磨和行業(yè)深耕,已經有了較為成熟的「湖倉一體」落地案例。
此外,隨著越來越多企業(yè)客戶的IT架構從本地數(shù)據(jù)中心轉向云端,云原生正在成為新一代數(shù)據(jù)架構的主流標準,大數(shù)據(jù)領域也將加速“一體化”新方向的演進。各大云廠商陸續(xù)提出自己的「湖倉一體」技術方案,同樣受到了業(yè)界的普遍關注,我們也因此看到了更多的技術探索案例。
4.1 Snowflake
Snowflake,是完全構建在云上的企業(yè)級「湖倉一體」解決方案。它基于云環(huán)境進行了根本性地重新設計,處理引擎和其他大部分組件均為自主研發(fā)。Snowflake從2012 年開始投入研發(fā),到 2015年6月完成了初步商用。目前,Snowflake 已經被越來越多的組織采用,每天承載PB級的數(shù)據(jù)存儲及超過上千萬次的查詢。
Snowflake本是「云數(shù)倉」提供商,主要面向結構化及半結構化的數(shù)據(jù)分析。伴隨著Lakehouse概念的誕生,Snowflake逐步增強其數(shù)據(jù)湖相關能力,例如第三方數(shù)據(jù)源接入、IoT/流處理等多種工作負載,以及已經實現(xiàn)的跨云部署等。2021年6月,Snowflake更正以Private Perview的方式對部分客戶提供Unstructured Data非結構化數(shù)據(jù)的存儲及處理能力的技術預覽,以解鎖全新的數(shù)據(jù)價值。

4.2 Databricks
Databricks早期,是將Azure的云存儲掛載為DBFS(Databricks File System),借助Spark的計算實現(xiàn)基本的表存儲和SQL簡單處理。而到了現(xiàn)在已經提供了基于SQL/Python/R/Scala的成熟BI工具,并在AI和ML的擴展支持方面做了大量的投入。
Databricks現(xiàn)已經支持AWS、Azure、Google三家公有云,且部署在全球超過50個Region。相比于Snowflake,Databricks的發(fā)展路徑,更接近于從數(shù)據(jù)湖逐步走向「湖倉一體」。Delta Lake 及 Delta Engine是Databricks的兩大重要組成部分。
Delta Lake作為可靠的開源存儲層,與 Apache Spark API完全兼容,提供ACID事務,且支持可縮放元數(shù)據(jù)處理、版本管理、Schema管理、審計等一系列數(shù)據(jù)管理功能等,可輕松實現(xiàn)流處理和批數(shù)據(jù)的統(tǒng)一。此外,可以根據(jù)實際工作負載對Delta Lake進行靈活地配置。
Delta Engine作為高性能的數(shù)據(jù)處理引擎,提供了對Apache Spark的良好兼容性。Delta Engine在數(shù)據(jù)查詢方面的全面優(yōu)化,可加快數(shù)據(jù)湖的操作效率,并支持豐富的工作負載類型,從大規(guī)模ETL處理到交互式查詢均可勝任。Databricks典型部署架構如下:

4.3 巨杉SequoiaDB,湖倉一體數(shù)據(jù)平臺
基于100%自研的分布式數(shù)據(jù)庫內核,巨杉數(shù)據(jù)庫SequoiaDB提供了「湖倉一體」數(shù)據(jù)平臺。目前在銀行、保險、證券等各行業(yè),已經擁有豐富的最佳實踐及案例,幫助客戶構建起數(shù)據(jù)平臺最佳底座。

巨杉數(shù)據(jù)庫基于「湖倉一體」的架構特性,構建數(shù)據(jù)基礎設施平臺,整合結構化、半結構化、非結構化數(shù)據(jù)的統(tǒng)一存儲與管理,為面向全量數(shù)據(jù)業(yè)務提供:SQL、NoSQL、Object多種接口。
此外,通過特有的跨引擎事務能力,可以有效簡化多團隊開發(fā)流程中對不同引擎、不同結構的數(shù)據(jù)管理,打通ACID事務支持,提升業(yè)務開發(fā)、數(shù)據(jù)處理、運維管理能力,釋放全量數(shù)據(jù)價值,提升企業(yè)數(shù)據(jù)處理的“人效”及“能效”。

在金融銀行業(yè)生產環(huán)境中,最早的巨杉數(shù)據(jù)庫集群已經連續(xù)運行超過7年,最大單客戶集群規(guī)模達300臺物理服務器,所管理的單集群最大數(shù)據(jù)量達到1.2萬億條,助力客戶實現(xiàn)提升數(shù)據(jù)管理水平、降低成本、提升運營效率、提升用戶體驗等目標。
5.結語
伴隨著20年的大數(shù)據(jù)發(fā)展史,我們看到了數(shù)據(jù)湖與數(shù)據(jù)倉庫的不斷發(fā)展和創(chuàng)新,業(yè)界也認識到以湖倉一體化為核心的技術架構,對企業(yè)大數(shù)據(jù)的價值發(fā)揮帶來了更為重要的現(xiàn)實意義。
數(shù)據(jù)湖和數(shù)據(jù)倉庫,原本是大數(shù)據(jù)技術條件下構建分布式系統(tǒng)的兩種數(shù)據(jù)架構設計取向。而融合后的「湖倉一體」,為業(yè)界和用戶展現(xiàn)了一種「湖」與「倉」互相補充、協(xié)同工作的架構。、

在“2021年大數(shù)據(jù)前沿技術及產業(yè)論壇”中,報告《研究大數(shù)據(jù)產品融合演進之路》指出:在數(shù)字化驅動下,「湖倉一體」或將成為大數(shù)據(jù)技術發(fā)展的下一跳,而支撐這一技術架構的基礎,將是如何更好地將數(shù)據(jù)湖和數(shù)據(jù)倉庫的能力相結合,具備完善的數(shù)據(jù)存儲及高性能的聯(lián)機處理能力。
毫無疑問,「湖倉一體」代表了未來技術演進的方向。未來,「湖倉一體」將會更好地助力企業(yè)降低成本、提升運營效率、豐富業(yè)務模式探索,從而釋放全量數(shù)據(jù)的價值,提升數(shù)據(jù)處理的“能效”和“人效”。