為了應(yīng)對(duì)數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用的問題,越來越多的企業(yè)選擇了數(shù)據(jù)湖方案(DataLake)。

我一直覺得DataLake的中文翻譯非常傳神,在漢語文化中,“江河湖海”哥兒四個(gè),個(gè)頂個(gè)兒的非常大,數(shù)據(jù)湖也如上圖所示,功能很強(qiáng)大,能做的事情非常多,而且,還有很強(qiáng)的包容性。

包容性體現(xiàn)在三個(gè)方面:

首先,容量特別大,互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)洪流經(jīng)常有突發(fā)性和不可預(yù)測(cè)性,比如新浪微博上的明星戀愛、結(jié)婚、分手、離婚新聞就有突然性。從數(shù)據(jù)的角度看,好比夏天突如其來的暴雨,它可能會(huì)帶來洪澇災(zāi)害,而有個(gè)湖就能將降水蓄積起來,數(shù)據(jù)湖能做到這點(diǎn),來多少數(shù)據(jù)都不怕。

其次,能容納的數(shù)據(jù)類型非常多,無論是原始的未經(jīng)處理的數(shù)據(jù),還是結(jié)構(gòu)化的數(shù)據(jù),還是非結(jié)構(gòu)化的數(shù)據(jù),只要是能以0101的方式存在硬盤里的數(shù)據(jù),數(shù)據(jù)湖都能存進(jìn)來。

第三點(diǎn),能干的事兒多,數(shù)據(jù)湖不僅能做以前數(shù)據(jù)倉庫(DataWareHouse)做的工作,包括數(shù)據(jù)分類提煉還有數(shù)據(jù)分析之類的,而且還有各種方法對(duì)這些數(shù)據(jù)可以進(jìn)行查詢,所以能對(duì)接機(jī)器學(xué)習(xí),人工智能這類新型應(yīng)用。

數(shù)據(jù)湖這么強(qiáng)大,強(qiáng)大意味著復(fù)雜,如何以最簡(jiǎn)單的方式構(gòu)建數(shù)據(jù)湖呢?答案是基于云的數(shù)據(jù)湖方案。

AWS的云上數(shù)據(jù)湖方案

作為公有云領(lǐng)頭羊的AWS在許多技術(shù)方案方面都非常有代表性,是許多云廠商爭(zhēng)相研究和對(duì)比的標(biāo)桿,AWS的數(shù)據(jù)湖是怎樣的存在呢?

AWS的數(shù)據(jù)湖平臺(tái)有多種多樣的服務(wù),能以多種多樣的方式獲取多種多樣來源的數(shù)據(jù),然后存起來進(jìn)行多種多樣的分析利用。

首先,解決數(shù)據(jù)從哪兒來的問題。

AWS有一系列的數(shù)據(jù)遷移工具,比如做數(shù)據(jù)庫遷移的AWS Database Migration Service數(shù)據(jù)庫遷移服務(wù) (DMS),還有數(shù)據(jù)快遞箱AWS Snowball (雪球),還有混合云場(chǎng)景下的AWS Storage Gateway存儲(chǔ)網(wǎng)關(guān),還有AWS Backup數(shù)據(jù)備份方案。

然后,解決數(shù)據(jù)存儲(chǔ)的問題。

AWS的數(shù)據(jù)湖方案的核心是Amazon S3存儲(chǔ),作為AWS第一個(gè)云服務(wù),AWS的S3樹立了對(duì)象存儲(chǔ)的標(biāo)準(zhǔn),另外,S3 Bucket(桶)的概念也是一個(gè)神命名,桶作為生活常用容器可以裝各種東西,作為數(shù)據(jù)存儲(chǔ)可以存各種二進(jìn)制的數(shù)據(jù)。

作為一個(gè)能存放大量數(shù)據(jù)的容器,價(jià)格自然得親民,為了降低價(jià)格,S3衍生出的Amazon Glacier讓價(jià)格降了一大截兒,后來又推出了Amazon S3 Glacier Deep Archive歸檔方案,價(jià)格又降了一大截兒。

數(shù)據(jù)湖方案里的數(shù)據(jù)庫類型可以說是應(yīng)有盡有,包括有鍵值數(shù)據(jù)庫Amazon DynamoDB,還有支持SQL Server、Oracle、MariaDB、PostgreSQL和MySQL托管的關(guān)系型數(shù)據(jù)庫服Amazon 務(wù)RDS,還有AWS專屬的Amazon Aurora數(shù)據(jù)庫,AWS一再強(qiáng)調(diào)Amazon Aurora是增長最快的一個(gè)服務(wù),但目前尚不清楚與別的數(shù)據(jù)庫相比的概況。

以上幾個(gè)方面,包括S3存儲(chǔ)和各種數(shù)據(jù)庫解決了數(shù)據(jù)存的問題。第三點(diǎn),數(shù)據(jù)要如何使用起來呢?

Amazon Redshift是AWS的數(shù)據(jù)倉庫,據(jù)說成本是傳統(tǒng)數(shù)據(jù)倉庫的十分之一;Amazon EMR是AWS的MapReduce集群,可以運(yùn)行包括Spark,Hadoop,Hive,Hbase等大數(shù)據(jù)分析工具。Amazon Elasticsearch是做一些運(yùn)維分析;Amazon Kinesis可以做實(shí)時(shí)的數(shù)據(jù)分析。

AWS的數(shù)據(jù)分析方案并不是簡(jiǎn)單把別人做過的開源的方案放到云上,同時(shí),AWS也按照自己的理解提供自己獨(dú)有的分析方案,這是AWS在很多方案上都慣用的策略。

比如,AWS Glue(膠水)是一個(gè)專業(yè)的ETL工具,能做數(shù)據(jù)分析的準(zhǔn)備工作。AWS Glue首先是一個(gè)Servless服務(wù),成本比較低,它能為數(shù)據(jù)生成數(shù)據(jù)目錄(DataCatalog),能自動(dòng)完成ETL操作將數(shù)據(jù)傳遞給數(shù)據(jù)倉庫,它支持對(duì)AWS上的各種關(guān)系型數(shù)據(jù)庫,S3對(duì)象存儲(chǔ)的數(shù)據(jù)進(jìn)行操作,作為一個(gè)ETL工具,Glue非常簡(jiǎn)單易用。

ETL是一個(gè)非常復(fù)雜,非常難的操作,基于數(shù)據(jù)倉庫的工作中,大部分時(shí)間可能都在做ETL,ETL的工具非常多,好用的特別貴,便宜的非常不好用,AWS的AWS Glue把一些共性的東西做出來,以Serveless的方式提供,可以說是AWS數(shù)據(jù)湖方案里的一大亮點(diǎn)了。也可以說是很多人想用AWS數(shù)據(jù)湖方案的一個(gè)原因。

又比如,Amazon Athena是一個(gè)Servless服務(wù),它提供的是一個(gè)交互式的數(shù)據(jù)查詢服務(wù),可以用它對(duì)S3里的數(shù)據(jù)進(jìn)行查詢,支持用標(biāo)準(zhǔn)的SQL語句進(jìn)行查詢,做數(shù)據(jù)分析用,使用起來非常簡(jiǎn)單。3月24日,AWS宣布AWS Glue和Amazon Athena在中國(寧夏)區(qū)域上線,已經(jīng)可以上手使用了。

數(shù)據(jù)湖是處理數(shù)據(jù)的技術(shù),而人工智能是非常依賴數(shù)據(jù)的,如果想用數(shù)據(jù)湖的數(shù)據(jù)做一些人工智能的項(xiàng)目,Amazon SageMaker等AI服務(wù)也支持從數(shù)據(jù)庫拿數(shù)據(jù)進(jìn)行訓(xùn)練。這點(diǎn)在AWS上也是水到渠成的。

以上,就是AWS數(shù)據(jù)分析組件的大部分內(nèi)容,大致的邏輯關(guān)系可以參照上圖。

AWS提供的各種服務(wù)之間可以在云上相互協(xié)作,從而組合而成數(shù)據(jù)湖方案,不過,光是看到有這么多服務(wù)就知道這事兒其實(shí)還是有點(diǎn)費(fèi)勁。為了簡(jiǎn)化數(shù)據(jù)湖的構(gòu)建過程,AWS還推出了一個(gè)叫AWS Lake Formation的服務(wù),可以自動(dòng)構(gòu)建一個(gè)數(shù)據(jù)湖。目前中國區(qū)暫時(shí)還不提供Lake Formation,AWS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠博士表示中國區(qū)很快就會(huì)有。

他們?cè)趺从肁WS數(shù)據(jù)湖方案

遷移上公有云的用戶越來越多了,云計(jì)算也越來越成熟了,包括Amazon EC2,Amazon S3等基礎(chǔ)性服務(wù)用戶已經(jīng)非常熟悉了,在AWS上,像數(shù)據(jù)庫已經(jīng)能對(duì)Oracle進(jìn)行替代了。這些都已經(jīng)經(jīng)過亞馬遜電商平臺(tái)的實(shí)戰(zhàn)驗(yàn)證了,AWS推出的方案成熟度非常高。

張俠博士介紹說,亞馬遜曾經(jīng)是Oracle全球數(shù)據(jù)庫最大的用戶,它用了75PB的數(shù)據(jù)庫容量,7500多個(gè)數(shù)據(jù)庫,整個(gè)亞馬遜里1000多個(gè)不同的團(tuán)隊(duì)原本都是用Oracle的數(shù)據(jù)庫。過去一年半到兩年時(shí)間,亞馬遜全方位將Oracle數(shù)據(jù)庫遷移到了自己對(duì)應(yīng)的產(chǎn)品,不僅如此,遷移過程并不困難,費(fèi)用方面,數(shù)據(jù)庫成本減少60%,管理費(fèi)用減少70%,性能提升高達(dá)40%。

亞馬遜電商的核心競(jìng)爭(zhēng)之一就是在內(nèi)部使用的一個(gè)叫Galaxy(銀河)的數(shù)據(jù)湖,這就是亞馬遜有時(shí)候比你自己還了解你自己的秘密武器。這個(gè)數(shù)據(jù)湖里有50PB到100PB數(shù)據(jù),可以把亞馬遜的數(shù)據(jù)進(jìn)行整合后做大數(shù)據(jù)分析,亞馬遜每天有60多萬的分析任務(wù),從用戶推薦、運(yùn)營信息、庫存信息、購買信息、物價(jià)信息等等,都依賴于數(shù)據(jù)湖。這個(gè)數(shù)據(jù)湖就是AWS數(shù)據(jù)湖方案構(gòu)成的。

FINRA是一家美國的金融監(jiān)管機(jī)構(gòu),每天有超過1500億的事件,每天要監(jiān)測(cè)20PB的市場(chǎng)活動(dòng)數(shù)據(jù),F(xiàn)INRA使用AWS的數(shù)據(jù)湖方案,把所有金融交易的信息都整合在一起進(jìn)行分析,與原來相比,每年節(jié)省1000萬美元到2000萬美元的費(fèi)用。

納斯達(dá)克每天要處理300-500億次付款、交易、詢價(jià)操作,而且要能查詢這些記錄,此前,多種數(shù)據(jù)散落在不同的系統(tǒng)中,在采用AWS的數(shù)據(jù)湖方案之后,能處理歷史數(shù)據(jù)并進(jìn)行交互式查詢,對(duì)納斯達(dá)克來說,不僅降低了成本,而且把上市時(shí)間縮短為原來的三分之一。

Club Factory是一家中國的跨境電商平臺(tái),它的業(yè)務(wù)需要做個(gè)性化推薦、內(nèi)部運(yùn)營分析以及供應(yīng)商管理等場(chǎng)景,每天要處理15億條行為日志,支撐180個(gè)活躍數(shù)據(jù)分析調(diào)度,每天需要把4000多個(gè)業(yè)務(wù)數(shù)據(jù)同步到AWS的數(shù)據(jù)倉庫Redshift。AWS的數(shù)據(jù)湖滿足了其業(yè)務(wù)增長需求,同時(shí)成本也有優(yōu)化,Club Factory還特別提到了Glue自動(dòng)化ETL操作帶來的便利性。

AWS的數(shù)據(jù)湖方案也是不錯(cuò)的選擇

云體驗(yàn)好就好在,它極大降低了安裝部署方案的復(fù)雜性,云計(jì)算本身就是最佳推薦配置和方案,云上方案的安裝部署配置能滿足絕大多數(shù)人的需求,而且,在規(guī)模效應(yīng)的加持下,成本會(huì)越來越有競(jìng)爭(zhēng)力。

從個(gè)人學(xué)習(xí)或者企業(yè)嘗試新方案的角度講,在不夠充分了解一些新事物的時(shí)候,在云端走一遍是最快捷,最廉價(jià),最高效的學(xué)習(xí)途徑。當(dāng)然,理論上技術(shù)愛好者自己搭建一些方案也是可行的,但企業(yè)生產(chǎn)環(huán)境容不下嘗試性的方案。

筆者一直以來都認(rèn)為,云上的數(shù)據(jù)分析是數(shù)據(jù)分析的最佳實(shí)踐環(huán)境,無論是企業(yè)還是個(gè)人,如果致力于從數(shù)據(jù)中挖掘價(jià)值,那么云上數(shù)據(jù)分析一定是繞不開的。

云計(jì)算是講究規(guī)模效應(yīng)的,不是因?yàn)檫x擇AWS的用戶多AWS就一定好,用戶多,規(guī)模大,AWS可以用更先進(jìn)的技術(shù)進(jìn)行降本增效,AWS的Nitro和即將推出的ARM服務(wù)器都是降本增效的典型例子,這讓AWS的方案更有成本優(yōu)勢(shì)。

云計(jì)算作為公開的服務(wù)形式,用戶可以對(duì)其服務(wù)進(jìn)行評(píng)價(jià)和反饋,AWS的企業(yè)文化能接受這些反饋并作用于產(chǎn)品中,AWS從不畫大餅講未來的Roadmap,有的只是聽需求,然后評(píng)估之后做產(chǎn)品方案,這會(huì)讓產(chǎn)品和服務(wù)的體驗(yàn)變得越來越好。

有鑒于這兩點(diǎn),我覺得AWS云計(jì)算是一個(gè)不錯(cuò)的選擇,數(shù)據(jù)湖方案里,AWS的數(shù)據(jù)湖方案也是不錯(cuò)的選擇。

分享到

zhupb

相關(guān)推薦