批流融合及全鏈路CDC需要同時(shí)滿足實(shí)時(shí)和批量的數(shù)據(jù)處理能力,降低企業(yè)維護(hù)的成本和復(fù)雜性,擴(kuò)大最佳的資源使用效能;需要滿足全鏈路CDC,端到端實(shí)現(xiàn)從數(shù)據(jù)源到湖倉(cāng)數(shù)據(jù)的增量分析,兼?zhèn)鋵?shí)時(shí)數(shù)據(jù)分析的全面性和準(zhǔn)確性。
事務(wù)ACID一致性需要提供ACID保證數(shù)據(jù)寫入一致性;提供快照保證讀寫的并發(fā);提供upsert/merge into能力極大地縮小數(shù)據(jù)庫(kù)入庫(kù)延遲。對(duì)象存儲(chǔ)不支持文件原地更新,新的記錄以 append 的方式寫入新文件,即使對(duì)文件中的一行記錄進(jìn)行更改,也要重寫整個(gè)文件,并且多線程并發(fā)讀寫也可能造成數(shù)據(jù)不一致。湖倉(cāng)一體通過(guò)多版本的方式保證事務(wù)讀寫并發(fā)不沖突,通過(guò)將修改記錄在 change file 中通過(guò)合并 base 文件的方式提升記錄更改效率。
DataOps提供數(shù)據(jù)統(tǒng)一服務(wù)、數(shù)據(jù)沙箱、數(shù)據(jù)開(kāi)發(fā)、代碼版本管理、CI/CD、工程化運(yùn)維的流程化和自動(dòng)化。
統(tǒng)一元數(shù)據(jù)管理支持異構(gòu)數(shù)據(jù)的統(tǒng)一元數(shù)據(jù)管理,實(shí)現(xiàn)端到端的數(shù)據(jù)鏈路的自動(dòng)化元數(shù)據(jù)采集,支持全鏈路血緣,一鍵式分析技術(shù)、業(yè)務(wù)、操作元數(shù)據(jù)詳情,為數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和數(shù)據(jù)質(zhì)量提供重要支撐。湖倉(cāng)一體中的 Catalog 是統(tǒng)一的元數(shù)據(jù)目錄,它可以幫助我們讓數(shù)據(jù)發(fā)現(xiàn)變的更簡(jiǎn)單,更加快速的查找到你想要的數(shù)據(jù),同時(shí)提供面向多引擎(Hive Spark flinktrino 等)的公共元數(shù)據(jù)存儲(chǔ)和統(tǒng)一元數(shù)據(jù)服務(wù)。
基于云原生架構(gòu),與主流云廠商深度連接,提供基于多云架構(gòu)的統(tǒng)一數(shù)據(jù)平臺(tái),幫助企業(yè)以最優(yōu)成本、最敏捷的方式搭建數(shù)據(jù)資產(chǎn)和數(shù)據(jù)分析的全鏈路,更加精細(xì)化實(shí)現(xiàn)數(shù)據(jù)價(jià)值。FastData 2.0面向企業(yè)高密度數(shù)據(jù)應(yīng)用場(chǎng)景,立足數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),圍繞提升客戶業(yè)務(wù)價(jià)值的核心目標(biāo),將湖倉(cāng)一體作為產(chǎn)品升級(jí)迭代的核心架構(gòu),同時(shí)全面整合了從數(shù)據(jù)源、數(shù)據(jù)分析到數(shù)據(jù)價(jià)值實(shí)現(xiàn)的完整鏈路,對(duì)產(chǎn)品能力進(jìn)行了全面深入的升級(jí)優(yōu)化。
從產(chǎn)品形態(tài)與服務(wù)上來(lái)看,產(chǎn)品可實(shí)主流公有云環(huán)境的靈活部署,包括AWS、Azure、華為云、阿里云等云上環(huán)境;提供實(shí)時(shí)湖倉(cāng)引擎,將結(jié)構(gòu)化、非/半結(jié)構(gòu)化源數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)湖中,調(diào)動(dòng)分析引擎進(jìn)行數(shù)據(jù)計(jì)算,最終將計(jì)算數(shù)據(jù)存儲(chǔ)到湖倉(cāng)的表引擎中;此外,F(xiàn)astData還重點(diǎn)拓展了支持機(jī)器學(xué)習(xí)的數(shù)據(jù)智能開(kāi)發(fā)能力,并將湖倉(cāng)中的數(shù)據(jù)通過(guò)可視化技術(shù)將業(yè)務(wù)運(yùn)維要求實(shí)時(shí)反映出來(lái),真正幫助企業(yè)用好數(shù)據(jù),高效釋放數(shù)據(jù)價(jià)值,驅(qū)動(dòng)企業(yè)業(yè)務(wù)的發(fā)展。
FastData 2.0產(chǎn)品線全面升級(jí)
升級(jí)后的FastData2.0,從底層的實(shí)時(shí)湖倉(cāng)引擎DLink,到中間Dataops的數(shù)據(jù)智能開(kāi)發(fā)平臺(tái)DataFacts,再到上層面向商業(yè)應(yīng)用及數(shù)據(jù)應(yīng)用的數(shù)據(jù)分析平臺(tái)DataSense,已形成完整的湖倉(cāng)體系。
解決數(shù)據(jù)存儲(chǔ)、處理及分析效率——實(shí)時(shí)湖倉(cāng)引擎FastDataDLink
搭建企業(yè)級(jí)流批一體、湖倉(cāng)一體分布式數(shù)據(jù)庫(kù),提供多種數(shù)據(jù)類型的統(tǒng)一存儲(chǔ)能力,支持流批一體數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等多工作負(fù)載。采用存算分離架構(gòu),彈性擴(kuò)展、高并發(fā)、低延時(shí),支持EB級(jí)多模數(shù)據(jù)存儲(chǔ)與處理,無(wú)縫連接大數(shù)據(jù)生態(tài),提供一站式數(shù)據(jù)探索與數(shù)據(jù)開(kāi)發(fā)能力。
解決數(shù)據(jù)開(kāi)發(fā)效率及數(shù)據(jù)管理問(wèn)題——數(shù)據(jù)智能開(kāi)發(fā)平臺(tái)FastDataDataFacts
降低企業(yè)數(shù)字化轉(zhuǎn)型實(shí)施門檻,實(shí)現(xiàn)數(shù)據(jù)價(jià)值可持續(xù)釋放,為數(shù)據(jù)工程師提供數(shù)據(jù)集成、數(shù)據(jù)建模、數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等開(kāi)箱即用的服務(wù)能力,降低企業(yè)數(shù)字化轉(zhuǎn)型實(shí)施門檻,提升數(shù)據(jù)智能平臺(tái)構(gòu)建效率,賦能企業(yè)數(shù)據(jù)資產(chǎn)持續(xù)沉淀,從而實(shí)現(xiàn)數(shù)據(jù)價(jià)值可持續(xù)釋放。
解決“數(shù)據(jù)最后一公里”——數(shù)據(jù)分析平臺(tái)FastDataDataSense
用數(shù)據(jù)透視業(yè)務(wù),助力精準(zhǔn)決策。DataSense是基于統(tǒng)一業(yè)務(wù)語(yǔ)義的數(shù)據(jù)分析平臺(tái),通過(guò)無(wú)代碼開(kāi)發(fā)的數(shù)據(jù)工廠Metric Store提升資產(chǎn)開(kāi)發(fā)效率,為企業(yè)各類業(yè)務(wù)應(yīng)用提供組裝式的數(shù)據(jù)分析服務(wù)能力。
致力于打造更加堅(jiān)實(shí)靈活的湖倉(cāng)一體,存算分離數(shù)據(jù)平臺(tái)底座,是FastData 2.0的全線產(chǎn)品升級(jí)的目標(biāo)。支持同時(shí)滿足實(shí)時(shí)和批量的數(shù)據(jù)處理能力,實(shí)現(xiàn)數(shù)據(jù)智能開(kāi)發(fā)與可視化增強(qiáng)分析,幫助企業(yè)以最優(yōu)成本、最敏捷的方式搭建數(shù)據(jù)資產(chǎn)和數(shù)據(jù)分析的全鏈路,更加精細(xì)化實(shí)現(xiàn)數(shù)據(jù)價(jià)值。滴普科技產(chǎn)品線總裁楊磊表示:“客戶的核心邏輯都是基于業(yè)務(wù)考慮,在這個(gè)過(guò)程中,如何打通數(shù)據(jù)鏈路,持續(xù)優(yōu)化企業(yè)內(nèi)部的運(yùn)營(yíng)效率,是核心關(guān)注點(diǎn)”。