對此可以看到有三個維度的明顯變化,在數(shù)據(jù)類型方面,交易核心數(shù)據(jù)庫往往需要處理單一的結(jié)構(gòu)化的交易結(jié)果數(shù)據(jù),如余額、交易帳單等。而在數(shù)據(jù)核心中,需要保存的則是在每次余額并發(fā)、交易帳單生成的背后所伴隨的大量結(jié)構(gòu)化、半結(jié)構(gòu)化流水記錄等等。從整體來看,數(shù)據(jù)類型呈現(xiàn)更加多元化。

在實效性方面,交易核心數(shù)據(jù)庫更注重的是單個賬務(wù)交易系統(tǒng)中,低延時處理事務(wù)的并發(fā)性能。而在數(shù)據(jù)核心中,更注重的是在復(fù)雜的跨業(yè)務(wù)的場景中,對靈活可變的數(shù)據(jù)類型進行處理,并為前后端業(yè)務(wù)提供高并發(fā)的全量數(shù)據(jù)實時查詢能力。

在業(yè)務(wù)范圍方面,交易核心數(shù)據(jù)庫往往僅為某個單個系統(tǒng)的業(yè)務(wù)系統(tǒng)單獨建設(shè)。而面向全量數(shù)據(jù)的數(shù)據(jù)核心系統(tǒng),由于存放了企業(yè)的全量數(shù)據(jù),將成為數(shù)10個甚至數(shù)百個的數(shù)據(jù)基礎(chǔ)設(shè)施,而不再是煙囪式的獨立建設(shè)。

對于全量數(shù)據(jù)的離線使用,不少企業(yè)中已經(jīng)有了比較成熟的解決方案,市場上目前主要是通過MPP數(shù)據(jù)倉庫,結(jié)合Hadoop大數(shù)據(jù)平臺來處理全量數(shù)據(jù),來構(gòu)建數(shù)據(jù)湖系統(tǒng)。而在數(shù)字化經(jīng)濟的發(fā)展下,全量數(shù)據(jù)的實時對個查詢以及分析能力是提升客戶滿意度的關(guān)鍵因素。但因為MPP數(shù)據(jù)倉庫及Hadoop架構(gòu)的限制,實際上我們難以在這類平臺下提供高并發(fā)的實時對客查詢能力。因此,此時的數(shù)據(jù)價值僅停留于對內(nèi)部系統(tǒng)提供離線的數(shù)據(jù)分析、統(tǒng)計、加工等能力,而無法全面有效的釋放價值。

那么,如何讓一部離線的全量數(shù)據(jù)充分釋放其價值呢?巨杉數(shù)據(jù)庫通過湖倉一體架構(gòu),在數(shù)據(jù)流入以及數(shù)據(jù)高并發(fā)對客兩個方向提供實時能力。

數(shù)據(jù)入湖后,除了可以進行實時分析、統(tǒng)計、加工以外,更可以提供結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的實時對客高并發(fā)查詢以及對象數(shù)據(jù)的實時存儲服務(wù),從而讓全量數(shù)據(jù)從異步離線的使用模式轉(zhuǎn)向?qū)崟r對客,進一步釋放全量數(shù)據(jù)價值。

中國是世界上人口最多的國家,眾多的人口以及領(lǐng)先的移動互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展,也讓中國成為數(shù)字化創(chuàng)新最快的國家。金融行業(yè)的科技發(fā)展更是催生于領(lǐng)先全球的行業(yè)需求。10年前,在巨杉數(shù)據(jù)庫萌芽之初,我們的創(chuàng)始團隊發(fā)現(xiàn),以Hadoop為代表的Spark產(chǎn)品,雖可以存放大量數(shù)據(jù),但無法支持實時對客的服務(wù)能力。

為了解決這個問題,我們沒有選擇基于開源產(chǎn)品二次開發(fā)的道路。而是憑借IBM、DB2等歸國分布式數(shù)據(jù)庫研發(fā)專家和華為分布式存儲研發(fā)專家組成的創(chuàng)始團隊開始了自研內(nèi)核的開發(fā)。

從2013年正式商業(yè)化起,伴隨著客戶對于多模數(shù)據(jù)處理、實時高并發(fā)以及數(shù)據(jù)分析的業(yè)務(wù)需求,巨杉數(shù)據(jù)庫從多模數(shù)據(jù)湖、實時數(shù)據(jù)湖發(fā)展到湖倉一體??梢哉f巨杉數(shù)據(jù)庫背后的技術(shù)創(chuàng)新來自于我們與中國金融銀行客戶的持續(xù)合作,這些需求推動著巨杉從數(shù)據(jù)湖到“湖倉一體”的持續(xù)演變,也推動著我們與國際競品同期發(fā)展。

10年來,我們初心不改,繼續(xù)面向海量、實時、多模的需求,提升全量數(shù)據(jù)場景下的查詢以及分析性能,釋放全量數(shù)據(jù)價值。眾所周知,金融銀行業(yè)對于數(shù)據(jù)庫的要求是十分嚴(yán)格的。巨杉在過去的10年里獲得了行業(yè)大型企業(yè)規(guī)?;瘧?yīng)用,不少客戶部署規(guī)模達(dá)到200臺~400臺物理服務(wù)器,數(shù)據(jù)容量達(dá)PB級別,數(shù)據(jù)記錄數(shù)更是突破萬億。

與此同時,我們可以看到客戶接入到巨杉數(shù)據(jù)庫的各類生產(chǎn)業(yè)務(wù)系統(tǒng)超過100個之多,這說明說明巨杉數(shù)據(jù)庫并不是替代原有生產(chǎn)系統(tǒng)交易核心數(shù)據(jù)庫,而是通過成為數(shù)據(jù)底座,為交易系統(tǒng)提供了全企業(yè)跨業(yè)務(wù)視角的多模、實時、全量數(shù)據(jù),逐步成為客戶全新的數(shù)據(jù)核心。

當(dāng)前,巨杉數(shù)據(jù)庫產(chǎn)品已經(jīng)在超過100家金融行業(yè)客戶規(guī)模化生產(chǎn)戰(zhàn)線,除金融行業(yè)外,巨杉數(shù)據(jù)庫還廣泛應(yīng)用于政府、能源、運輸?shù)榷鄠€行業(yè)。

在今年的7月底巨杉數(shù)據(jù)庫發(fā)布了最新的5.2版,重點在實施能力上進行了提升,主要體現(xiàn)在以下四點。

首先,面向結(jié)構(gòu)化數(shù)據(jù),巨杉數(shù)據(jù)庫提供深度的Join優(yōu)化+列存微分區(qū)技術(shù),在多個查詢場景下,性能達(dá)到了毫秒級的實時返回。分析場景中,性能更獲得了10倍以上的性能提升,讓查詢分析更實時。

其次,面向非結(jié)構(gòu)化的數(shù)據(jù),巨杉數(shù)據(jù)庫通過分片并發(fā)以及可分片大小技術(shù),相比原有版本吞吐量提升30%,讓非結(jié)構(gòu)化數(shù)據(jù)的存儲更實時。

這兩個部分也是今天分享的重點,將來有機會的時候會再與大家分享這里所提到的生命周期管理以及鏈路監(jiān)控方面的話題。

首先讓我們來看看Join優(yōu)化的提升。前面提到,企業(yè)承接的技術(shù)方案中,會通過Hadoop構(gòu)建數(shù)據(jù)平臺以存存放全量數(shù)據(jù)。但這些數(shù)據(jù)只能為離線的數(shù)據(jù)分析、BI報告等提供服務(wù),無法提供對客的實時服務(wù),導(dǎo)致數(shù)據(jù)價值無法充分釋放。

對此,巨杉數(shù)據(jù)庫通過專門針對高并發(fā)查詢優(yōu)化的分布式存儲結(jié)構(gòu)以及Sequoia實時查詢引擎,實現(xiàn)了面向企業(yè)全量數(shù)據(jù)的高并發(fā)對客服務(wù),讓全量數(shù)據(jù)的價值從內(nèi)部離線分析向?qū)蛯崟r查詢進一步釋放。

在某全國性股份制銀行的生產(chǎn)案例中,我們?yōu)槿写鎯Τ^1.4萬億的數(shù)據(jù),物理服務(wù)器達(dá)到了400臺,共計對接超過120個生產(chǎn)系統(tǒng)。一方面通過分布式數(shù)據(jù)提供高并發(fā)的對客查詢服務(wù),包括借記卡、信用卡、實時批量查詢的工作復(fù)診,從大機以及小機的查詢流量下云。有效的降低了主機內(nèi)部式消耗,同時獲得更大的并發(fā)支持以及橫向擴展能力。響應(yīng)時間方面,實時查詢保障100毫秒以內(nèi)。批量查詢表現(xiàn)也與原主機系統(tǒng)相當(dāng)。

另外一方面,金融機構(gòu)匯集多個業(yè)務(wù)系統(tǒng)的全量歷史以及流水?dāng)?shù)據(jù),為客戶提供跨業(yè)務(wù)的流水查詢、客戶資產(chǎn)視圖、客戶成長等系統(tǒng)的數(shù)據(jù)底座。

以對客業(yè)務(wù)流水查詢?yōu)槔?,過去客戶的歷史數(shù)據(jù),往往因為數(shù)據(jù)量過于龐大,業(yè)務(wù)系統(tǒng)無法存放而推送到離線系統(tǒng),甚至磁帶冷存儲。以往針對業(yè)務(wù)的數(shù)據(jù)延遲,往往達(dá)到小時級甚至需要數(shù)天時間,需要從磁盤去恢復(fù),耗費大量的技術(shù)能力。

而基于巨杉分布式數(shù)據(jù)庫的“湖倉一體”架構(gòu),客戶可以幾乎無限的擴展存儲空間,同時所有數(shù)據(jù)可對客提供高并發(fā)毫秒級的訪問。底層技術(shù)能力的提升,使得銀行獲得更實時的業(yè)務(wù)能力,有效提升了客戶體驗,提升了數(shù)字化轉(zhuǎn)型下的競爭優(yōu)勢。

面對客戶對于實時數(shù)據(jù)查詢需求的提升,巨杉數(shù)據(jù)庫在巨杉5.2的版本中,針對Join進行了深度的優(yōu)化,特別是在BKI Join 和Index Merge方面進行了深度優(yōu)化。

在實時對客業(yè)務(wù)中,并不是所有操作都只需要進行單表查詢,很多中后的業(yè)務(wù)也往往需要進行Join處理。在分布式架構(gòu)下,這類處理往往會消耗大量的網(wǎng)絡(luò)IO,一方面導(dǎo)致查詢響應(yīng)緩慢,另一方面,由于大量的占用網(wǎng)絡(luò)IO,甚至?xí)鹫麄€分布數(shù)據(jù)庫的堵塞。

在巨杉5.2版本中,在實際的客戶場景下,我們在客戶數(shù)億計的查詢中,對于多字段關(guān)聯(lián)查詢,多類應(yīng)用場景等查詢性能均實現(xiàn)了毫秒級返回。這主要是來自于我們在新版本中,對BKA-Join方面進行了有效提升。當(dāng)Join操作內(nèi)表有可用的數(shù)據(jù)進行訪問時,5.2首先使用緩沖區(qū),累計Join外表查詢記錄,再批量拉取內(nèi)表結(jié)果,與緩沖區(qū)Hadoop查找匹配,性能表現(xiàn)可獲得巨大的提升。在Index使用上,在特定的Index Merge場景下,5.2版通過避免回表操作,減少網(wǎng)絡(luò)I/O,以提升查詢性能。在不同場景下同樣獲得了十分顯著的性能提升。

為了讓高并發(fā)的對客實時查詢更加平穩(wěn),巨杉提供了多維分區(qū)技術(shù)?;凇皵?shù)據(jù)域”按需基于時間、范圍、分類等條件,實現(xiàn)數(shù)據(jù)的精準(zhǔn)定位,可以有效提升查詢性能。在基于條件的范圍查詢中,避免形成全標(biāo)的數(shù)據(jù)偏離,降低網(wǎng)絡(luò)消耗,提升并發(fā)效率。

通過Join優(yōu)化以及多維切片技術(shù),巨杉數(shù)據(jù)庫持續(xù)為全量的對客實時查詢提供穩(wěn)定的高并發(fā)支持。在數(shù)據(jù)庫,特別是分布式數(shù)據(jù)庫中,刷新引擎是性能的關(guān)鍵。我們將持續(xù)在這方面深度優(yōu)化,為客戶提供更實時的操作體驗。

為了有效示范全量數(shù)據(jù)價值,我們不但要有更實時的查詢,更需要提供實時的分析能力。而巨杉5.2版本將提供列存及微分區(qū)架構(gòu),來進一步提供分析的性能。

回到巨杉數(shù)據(jù)庫“湖倉一體”的業(yè)務(wù)示意圖。在全新的數(shù)據(jù)核心中,結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù),不但需要滿足實時的對客查詢,還需要面向?qū)ο髷?shù)據(jù)提供實時的對客存儲能力。不僅如此,我們對于統(tǒng)計分析、數(shù)據(jù)加工及BI報表生成的時效性要求也越來越高。比如在我們的監(jiān)管報送場景下,客戶需要越來越短的報送時間間隔周期。而決策支持體系則更需要實時的數(shù)據(jù)來對應(yīng)瞬息萬變的市場競爭。

“湖倉一體”架構(gòu)可以幫助客戶在統(tǒng)一的數(shù)據(jù)管理體系中兼顧查詢級分析能力,幫助企業(yè)釋放數(shù)據(jù)價值。

巨杉數(shù)據(jù)庫在此前的版本中是通過SparkSQL來實現(xiàn)我們的準(zhǔn)實時和批量數(shù)據(jù)入庫能力。通過對接巨杉數(shù)據(jù)庫,使用分布式的高并發(fā)插入能力,我們可以實現(xiàn)秒級入庫以及通過SQL引擎實現(xiàn)準(zhǔn)實時的數(shù)據(jù)查詢能力。同時,我們對接了SparkSQL,能夠直接使用Spark Streaming,訪問行存中結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)高效的分析能力。

在此基礎(chǔ)之上,巨杉數(shù)據(jù)庫5.2版,進一步對接業(yè)界的領(lǐng)先技術(shù),實現(xiàn)“流批一體”的數(shù)據(jù)入湖能力。我們對接了Flink SQL,采用巨杉數(shù)據(jù)庫Flink Connector,實現(xiàn)了更低延時的數(shù)據(jù)入庫,把數(shù)據(jù)準(zhǔn)實時的注入到的行存引擎當(dāng)中。同時我們對接了列存引擎,使得SparkSQL分析批量能力得到了進一步的提升。

接下來的版本當(dāng)中,我們將提供行列轉(zhuǎn)換的能力,同時也可以提供對外的增量數(shù)據(jù)輸出能力,實現(xiàn)湖對下游提供數(shù)據(jù)服務(wù),這樣我們就可以實現(xiàn)端到端打通。從前端數(shù)據(jù)實時租入到按需行列轉(zhuǎn)換以及近實時的統(tǒng)計分析能力,從數(shù)據(jù)湖到“湖倉一體”,實現(xiàn)端到端的“湖倉數(shù)據(jù)一體化”。

讓我們看一看在實際客戶場景下“湖倉分析”的性能提升。在多張500個以上的大表關(guān)聯(lián)場景中,通過列存,結(jié)合列上微分區(qū)的預(yù)統(tǒng)計信息,我們實現(xiàn)了3~10倍的性能提升,讓數(shù)據(jù)分析更實時。除了結(jié)構(gòu)化數(shù)據(jù)需要對并發(fā)查詢級復(fù)雜分析進行優(yōu)化以外,非結(jié)構(gòu)化數(shù)據(jù)的管理性能提升也是“湖倉一體”的重要課題。

巨杉數(shù)據(jù)庫的“湖倉一體”架構(gòu)是以數(shù)據(jù)湖為基礎(chǔ)向數(shù)據(jù)倉庫的能力延伸。數(shù)據(jù)湖中除了要管理結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)的管理同樣需要更實時的能力,以應(yīng)對數(shù)據(jù)核心的全新要求。對此,巨杉數(shù)據(jù)庫通過“分片并發(fā)+可分片大小”,持續(xù)提升對非結(jié)構(gòu)化數(shù)據(jù)的管理性能,讓非結(jié)構(gòu)化數(shù)據(jù)的訪問更實時。

首先我們來介紹一下分片并發(fā)的技術(shù)。在巨杉數(shù)據(jù)庫中,我們通過數(shù)據(jù)引擎層和存儲引擎層兩部分進行非結(jié)構(gòu)化數(shù)據(jù)的管理和訪問。為了獲得高性能的非結(jié)構(gòu)化的數(shù)據(jù)處理能力,數(shù)據(jù)引擎層以及存儲引擎層分別形成專門的數(shù)據(jù)處理優(yōu)化。當(dāng)業(yè)務(wù)系統(tǒng)向數(shù)據(jù)引擎層寫入對象時,高速數(shù)據(jù)通道減少對象數(shù)據(jù)在各模塊中的網(wǎng)絡(luò)傳輸,通過緩存共享、壓縮等技術(shù),提升數(shù)據(jù)的流通效率,極大的縮短響應(yīng)延時。

而在存儲引擎層,傳入的對象則是根據(jù)分區(qū)、元數(shù)據(jù)緩存進行哈希分片管理。分片數(shù)據(jù)打包分發(fā)給各個存儲節(jié)點并發(fā)處理,極大提升了性能。同時,這是基于哈希算法實現(xiàn)快速存儲,最大限度利用了順序IO的能力,降低IO的訪問次數(shù),實現(xiàn)了性能的提升。

此外,我們知道數(shù)據(jù)分片有其并發(fā)的優(yōu)勢,也有其明顯的缺點。分片太小,IO會過于碎片化,IO能力不升反降,分片過大了,則會導(dǎo)致大量的空間浪費。因此,業(yè)界的很多系統(tǒng)采用了后臺合并技術(shù),來重新壓縮空間,解決空間浪費的問題。這就帶來了大量的IO放大和分片存儲的IO次數(shù)增加,對生成業(yè)務(wù)讀寫帶來很大的性能波動。

巨杉數(shù)據(jù)庫采用可分片大小的技術(shù),能夠根據(jù)對象自身的大小,在4K至4MB/片之間自適應(yīng)的調(diào)整分片大小。在并發(fā)性能和空間利用率上取得了很好的平衡效果。在保障業(yè)務(wù)讀寫的性能穩(wěn)定性的同時,提升非結(jié)構(gòu)化數(shù)據(jù)的實時吞吐能力。分片并發(fā)級可分片大小技術(shù),有效提升了非結(jié)構(gòu)化數(shù)據(jù)的處理能力,并且伴隨并發(fā)量和系統(tǒng)規(guī)模的增長,具有良好的新興擴展能力。

相比此前版本,5.2版,無論是在200K、400K還是1M吞吐量中都有明顯的性能提升,有助于為業(yè)務(wù)提供更實時的非結(jié)構(gòu)化存儲性能。

接下來讓我們通過兩個巨杉數(shù)據(jù)庫的典型應(yīng)用場景來看看巨杉數(shù)據(jù)庫是如何基于客戶需求的演進,在多模、實時的能力上持續(xù)發(fā)展的。

首先,讓我們看看多模能力在新一代影像數(shù)據(jù)平臺的使用。

影像系統(tǒng)是金融行業(yè)重要的數(shù)據(jù)管理系統(tǒng),管理著海量的憑單、支票、合約、身份證明信息等內(nèi)容。這些數(shù)據(jù)包括影像文件本身,同時也包括其包括其背后的影像元數(shù)據(jù)、影像標(biāo)簽數(shù)據(jù)。

在傳統(tǒng)的技術(shù)架構(gòu)中,我們需要為不同的結(jié)構(gòu)模型構(gòu)建各自獨立的數(shù)據(jù)庫進行管理。例如用結(jié)構(gòu)化的MySQL管理影像元數(shù)據(jù),基于JSON DB管理持續(xù)變化的標(biāo)簽數(shù)據(jù),以及通過NAS或者對象存儲非結(jié)構(gòu)化的數(shù)據(jù)。

以往影像系統(tǒng)僅作于存單使用,但隨著業(yè)務(wù)的互聯(lián)網(wǎng)化,影像系統(tǒng)管理的非結(jié)構(gòu)化數(shù)據(jù)已成為A類交易系統(tǒng)背后重要的技術(shù)平臺,往往要求更嚴(yán)格的容錯能力。傳統(tǒng)架構(gòu)下,各個數(shù)據(jù)系統(tǒng)需要單獨搭建HA容災(zāi)結(jié)構(gòu),極大的的提升了運維團隊的管理難度。同時各個數(shù)據(jù)系統(tǒng)間的數(shù)據(jù)依次性需要運用系統(tǒng)執(zhí)行管理,也大大提升了開發(fā)團隊的研發(fā)難度。這對于企業(yè)技術(shù)團隊的人效是巨大的浪費。

巨杉數(shù)據(jù)庫的多模能力既涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),也涵蓋了非結(jié)構(gòu)化數(shù)據(jù),并可進行統(tǒng)一的容災(zāi)管理。不僅可以提供同城摘備、同城雙核、“兩地三中心”、“三地五中心”等多種在線容災(zāi)策略。多模數(shù)據(jù)統(tǒng)一容災(zāi),且保證一致性,極大簡化了開發(fā)及運維的難度。

第二個場景,讓我們一起看看巨杉數(shù)據(jù)庫在數(shù)據(jù)核心場景的應(yīng)用。

在這里我想再次強調(diào),巨杉數(shù)據(jù)庫并不是為了以傳統(tǒng)交易核心數(shù)據(jù)庫形成替換的競爭。而是通過基于原生分布式數(shù)據(jù)庫的“湖倉一體”技術(shù)架構(gòu),解決傳統(tǒng)交易核心數(shù)據(jù)庫所無法管理的海量數(shù)據(jù)級多模數(shù)據(jù)處理的綜合需求,從而與傳統(tǒng)交易核心數(shù)據(jù)庫形成有效系統(tǒng)。

左邊是在線的賬戶類系統(tǒng),如核心分戶賬,前置柜面以及各類交易系統(tǒng)。這些系統(tǒng)通常會使用各自獨立的數(shù)據(jù)庫。由于其事物敏感性以及數(shù)據(jù)獨立性,各個系統(tǒng)間一般不會共用同一個數(shù)據(jù)庫進行業(yè)務(wù)交易。右邊是離線的大數(shù)據(jù)以及數(shù)據(jù)倉庫,左邊核心數(shù)據(jù)的數(shù)據(jù)通過ETL清洗加工后再存放到右邊的大數(shù)據(jù)和數(shù)據(jù)倉庫中,然后再提供T+1甚至更高延遲的離線數(shù)據(jù)訪問以及數(shù)據(jù)分析挖掘能力。

然而,伴隨著業(yè)務(wù)適時能力的發(fā)展,在手機移動端業(yè)務(wù),跨系統(tǒng)綜合實時查詢,客戶實時資產(chǎn)識圖等場景中提出了“T+0全量數(shù)據(jù)實時服務(wù)”的需求。需要數(shù)據(jù)庫系統(tǒng)在存放全量數(shù)據(jù)的前提下提供高并發(fā)查詢能力。

在這個需求下,傳統(tǒng)架構(gòu)都有著不可避免的短版。左邊專注于交易核心的關(guān)系型數(shù)據(jù)庫,顯然無法存儲跨業(yè)務(wù)系統(tǒng)的多模全量數(shù)據(jù)。右邊的Hadoop及各類NPP數(shù)據(jù)倉庫產(chǎn)品又受到架構(gòu)的限制。雖然可以存放多模的全量數(shù)據(jù),卻無法提供高并發(fā)的實時的對客處理能力。

過去的幾年里,巨杉數(shù)據(jù)庫提供實時數(shù)據(jù)庫能力,為眾多客戶提供了有效的解決方案。巨杉數(shù)據(jù)庫可實現(xiàn)在萬億級數(shù)據(jù)量下,100毫秒級別的查詢響應(yīng)能力。而擴展性方面,和Hadoop一樣,可提供高達(dá)PB級數(shù)量橫向擴展,可同時支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),為開發(fā)者提供SQL,節(jié)省S3等多模引擎接口。

巨杉數(shù)據(jù)庫的實時數(shù)據(jù)湖,相當(dāng)于提供了一個可無限擴展、無須定期刪除數(shù)據(jù)的包大型ODS。既能夠提供高并發(fā)全量數(shù)據(jù)查詢能力,為對客實時移動業(yè)務(wù),跨系統(tǒng)綜合實時查詢,客戶實時資產(chǎn)視圖等系統(tǒng)提供有效的支持。又能夠讓各類手機及終端的綜合業(yè)務(wù)運行更實時,幫助提升用戶的滿意度。

在此基礎(chǔ)上,我們今年正式提供“微分區(qū)+列存”的分析能力。當(dāng)前已經(jīng)在部分戰(zhàn)略合作客戶中試運行落地。在實時數(shù)據(jù)湖的基礎(chǔ)上,提供可靈活配制的高性能列存分析引擎,進一步提升巨杉數(shù)據(jù)庫“湖倉一體”的全量數(shù)據(jù)分析能力。讓客戶可在巨杉數(shù)據(jù)庫系統(tǒng)中進行一體化實時數(shù)據(jù)探索,并提供更豐富的能力支持,為客戶全面提供數(shù)據(jù)核心所需的全量、多模、實時能力。

通過以上我們的技術(shù)介紹,相信大家對巨杉數(shù)據(jù)庫的多模技術(shù)特性都有了更進一步的了解。數(shù)據(jù)庫的發(fā)展不但需要技術(shù)的創(chuàng)新迭代,同時也需要建立良好的技術(shù)生態(tài)。

在人才培養(yǎng)方面,巨杉建立了自有的數(shù)據(jù)庫技術(shù)培訓(xùn)體系以及課程,并在2021年發(fā)布了首本《以分布式數(shù)據(jù)庫為一體的巨杉分布式數(shù)據(jù)庫權(quán)威指南》。通過數(shù)據(jù)以及線上的課程,為市場培養(yǎng)具備動手能力的數(shù)據(jù)管理級開發(fā)人才。

當(dāng)前,通過巨杉數(shù)據(jù)庫培訓(xùn)認(rèn)證的技術(shù)工程師已經(jīng)超過了1萬人。在過去的1年里,巨杉數(shù)據(jù)庫先后在華南理工大學(xué)、深圳大學(xué)設(shè)立長期的巨杉數(shù)據(jù)庫獎學(xué)金,推動中國分布式數(shù)據(jù)庫人才的培育,為客戶級上下游合作伙伴提供更多優(yōu)質(zhì)的分布式數(shù)據(jù)庫人才。

與此同時,2021年我們與華為、微軟一同支持了全球三大數(shù)據(jù)庫頂級會議之一的ACM SIGMOD/PODS全球三大數(shù)據(jù)庫學(xué)術(shù)會議之一,在西安舉辦。吸引了來自全球數(shù)千名數(shù)據(jù)庫學(xué)者,共同討論全球數(shù)據(jù)庫技術(shù)的發(fā)展。

未來,巨杉數(shù)據(jù)庫將積極投入產(chǎn)學(xué)研的多邊合作,與客戶及上下游合作伙伴一道構(gòu)建更完善的產(chǎn)業(yè)生態(tài)。

(本文基于巨杉數(shù)據(jù)庫SequoiaDB 首席架構(gòu)師程祺演講速記整理而成,未經(jīng)本人審閱)

分享到

songjy

相關(guān)推薦