上圖中,精確數(shù)據(jù)是指每條數(shù)據(jù)都有著準(zhǔn)確的含義和確定的價(jià)值,表達(dá)很明確的信息。比如,制造業(yè)的一條生產(chǎn)記錄。傳統(tǒng)關(guān)系型數(shù)據(jù)庫以處理這類數(shù)據(jù)。并基于此類數(shù)據(jù)通過復(fù)雜邏輯分析推演出業(yè)務(wù)價(jià)值為強(qiáng)項(xiàng)。
大數(shù)據(jù)時(shí)代數(shù)據(jù)的特點(diǎn)是大量模糊數(shù)據(jù)。單條數(shù)據(jù)沒有確定的價(jià)值和明確的含義。比如,一個(gè)網(wǎng)頁的點(diǎn)擊記錄。Hadoop的優(yōu)勢(shì)是能對(duì)海量模糊數(shù)據(jù)進(jìn)行匯總排序比對(duì)等操作,把他們變成有意義的數(shù)據(jù),再通過海量的樣本比對(duì)等方式歸納產(chǎn)生業(yè)務(wù)價(jià)值。
所以,從本質(zhì)上說這是兩種針對(duì)不同場(chǎng)景不同對(duì)象的不同技術(shù)。如果要采用Hadoop去取代RISC架構(gòu)的數(shù)據(jù)庫,BI應(yīng)用。那么必須打破原來企業(yè)經(jīng) 典的沿用幾十年的數(shù)據(jù)結(jié)構(gòu),重新定義數(shù)據(jù)模型,表結(jié)構(gòu)等等。還是我以前提過的,就是要重新從頭練另一門武功。但那樣下來效率是否一定就會(huì)比以前高, 效果是否一定比以前好,從我?guī)讉€(gè)項(xiàng)目試驗(yàn)的結(jié)果來看也并不樂觀。
但是,在某些情況下大數(shù)據(jù)技術(shù)也能比RISC架構(gòu)更好的解決一些傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)問題,比如ETL。在一些行業(yè)里,ETL工作往往需要一個(gè)很長的處 理流程。利用Map/Reduce技術(shù)可以大大縮短ETL的工作流程,提高效率,而且隨著數(shù)據(jù)量的不斷增長,這種優(yōu)勢(shì)會(huì)越來越明顯。所以說,是否用 Hadoop去嘗試替代原先的RISC架構(gòu),關(guān)鍵還是看數(shù)據(jù)量是否夠大以及數(shù)據(jù)類型是否多樣化。
以上這張圖取自BI Reasrch。以數(shù)據(jù)查詢的延遲性需求為縱軸,數(shù)據(jù)量和結(jié)構(gòu)化程度為橫軸列出了Hadoop技術(shù)和傳統(tǒng)關(guān)系型即RDBMS的應(yīng)用場(chǎng)景區(qū)別。Hadoop 之所以會(huì)出現(xiàn)其實(shí)就是為了應(yīng)付海量的非結(jié)構(gòu)化數(shù)據(jù)的離線分析的。所以其應(yīng)用場(chǎng)景也基本是以此類為強(qiáng)項(xiàng),即數(shù)據(jù)量大,結(jié)構(gòu)化程度低,分析的實(shí)時(shí)性要求不高。 當(dāng)然隨著其技術(shù)的發(fā)展,外沿通過不同組件如Hive的補(bǔ)充有所拓展。但要其完全取代原先的RDBMS基本是不可能的事情。
正如第一張圖所說,大數(shù)據(jù)時(shí)代,沒有一種方案是可以包打天下的。企業(yè)內(nèi)部未來也必將是多種方案并存來處理各類不同類型數(shù)據(jù)的環(huán)境。下面試著將目前數(shù) 據(jù)庫的幾類應(yīng)用場(chǎng)景分分類,同時(shí)列出了每一類國內(nèi)外的一些解決方案名字。國外的方案我為了簡(jiǎn)單起見,只列出特性比較鮮明的。沒有寫Exadata是因?yàn)樗?有點(diǎn)屬于混合方案,把它簡(jiǎn)單定位在一個(gè)領(lǐng)域有點(diǎn)不太合適。而且國內(nèi)可以和它具備相同類型的方案也沒有,就先不提了。改天有空我再整理下我對(duì)于 Exadata的一 些粗淺認(rèn)識(shí)給大家來噴一下。 關(guān)于國內(nèi)方案,我列出的是僅限于我知道的或是合作過的方案提供商,當(dāng)然還有很多遺漏的。當(dāng)然也有些我認(rèn)為特色不鮮明沒有什么核心技術(shù)的也就不提了。這里只 列出他們的名字和專注領(lǐng)域類型,詳細(xì)的一些介紹就不在這里貼出來了,反正他們都可以在新浪微博里找到,呵呵。
當(dāng)然,上圖所列出的場(chǎng)景所針對(duì)的解決方案也不是唯一的。一些場(chǎng)景是多個(gè)方案都可以勝任的。
比如Mongo DB也可以做MAP/Reduce的工作。Hive能夠?yàn)镠adoop體系提供SQL的接口等等
最后,再談一下我對(duì)國內(nèi)大數(shù)據(jù)解決方案提供商的一些總體感覺。當(dāng)然,還是那句話,這些觀點(diǎn)只是在我接觸過的幾個(gè)方案中得出的,并不代表國內(nèi)總體的情況,我沒有這么多的精力去了解,也沒有這個(gè)能力。這些感覺僅供參考。
關(guān)于適宜客戶群,我上面說的也只是我個(gè)人的一些建議。我覺得,這些國內(nèi)解決方案的供應(yīng)商,需要通過一些實(shí)際企業(yè)應(yīng)用案例實(shí)施的磨練,以及一些合作伙 伴的幫助,才能真正走向成熟,走向商用,去挑戰(zhàn)那些國外的知名產(chǎn)品。我覺得從目前來看,技術(shù)不是問題,路線方向也沒有什么錯(cuò)誤。關(guān)鍵是 對(duì)自身的規(guī)劃和技術(shù)走向商用,走向產(chǎn)品化流程化的運(yùn)作能力。我也真心希望國內(nèi)的那些大企業(yè)大公司能夠給國內(nèi)的這些有技術(shù)有想法的方案提供商一些機(jī)會(huì),讓他 們能夠積累經(jīng)驗(yàn),成長壯大。
先寫這些吧。還有一部分關(guān)于國內(nèi)那些大數(shù)據(jù)方案同國外方案的對(duì)比,以及Intel Hadoop方案同Cloudera的對(duì)比,目前我寫的主要還是針對(duì)我們公司內(nèi)部分享的用途,就不對(duì)外公開了。有興趣的朋友我們下次可以口頭討論。還有幾個(gè)我自己親身參與的行業(yè)案例,回頭如果得到那些公司許可了再公開給大家分享吧。