大數(shù)據(jù)不會推翻我們傳統(tǒng)構(gòu)建的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的堡壘,特別是普遍應(yīng)用在企業(yè)數(shù)據(jù)中心的關(guān)系型數(shù)據(jù)庫,仍然會是處理結(jié)構(gòu)化數(shù)據(jù)的主要工具。但在大數(shù)據(jù)時代,我們更應(yīng)該聚焦非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)已經(jīng)有了不錯的歸宿,非結(jié)構(gòu)化數(shù)據(jù)才是我們處理的難題。據(jù)預(yù)測,到2020年,非結(jié)構(gòu)化數(shù)據(jù)將數(shù)十倍于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),成為大數(shù)據(jù)最主要的數(shù)據(jù)來源。Hadoop在大數(shù)據(jù)時代如日中天,成為很多企業(yè)追逐的對象,因為今天的Hadoop是非結(jié)構(gòu)化數(shù)據(jù)的一大福音,通過Hadoop可以輕松掌控非結(jié)構(gòu)化數(shù)據(jù)。
但是我們要充分認識到大數(shù)據(jù)確實不是傳統(tǒng)關(guān)系型數(shù)據(jù)庫能夠輕松應(yīng)對的,由于非結(jié)構(gòu)化數(shù)據(jù)的來臨,傳統(tǒng)關(guān)系型數(shù)據(jù)庫立馬力不從心。同時,實時數(shù)據(jù)要求的低延遲、數(shù)據(jù)流處理也是傳統(tǒng)數(shù)據(jù)庫的軟肋。當然,靈活模式、云架構(gòu)以及海量數(shù)據(jù)處理要求,都導(dǎo)致傳統(tǒng)關(guān)系型數(shù)據(jù)庫陷入困頓,只能尋找新的數(shù)據(jù)處理模式,比如Hadoop等,這也是開源的Hadoop如此受業(yè)界追捧的主要原因。
企業(yè)邁向大數(shù)據(jù)時代之五部曲
當然,從傳統(tǒng)數(shù)據(jù)庫模式走到大數(shù)據(jù)時代是每個企業(yè)都需要經(jīng)歷的一次涅槃,下圖給出了常見的五部曲:
1)大數(shù)據(jù)收集。如果你大數(shù)據(jù)在手,恭喜你,至少你已經(jīng)有了穩(wěn)定的數(shù)據(jù)源。如果你沒有大數(shù)據(jù),可能你需要想想哪些環(huán)節(jié)的重要數(shù)據(jù)從你指間溜走,你要開始部署新的工具攔住這些流失的數(shù)據(jù),為他們找個收容所。當然,大數(shù)據(jù)收集最重要的是要確保數(shù)據(jù)質(zhì)量,沒有質(zhì)量的數(shù)據(jù)堅決杜絕,因為沒有意義的數(shù)據(jù)只會增加系統(tǒng)的復(fù)雜性,無形中增加成本。當然,大數(shù)據(jù)的價值密度本來就很低,如何辨別有質(zhì)量的大數(shù)據(jù)就不是輕松的一個環(huán)節(jié),要花大力氣來解決。
2)混合云或者數(shù)據(jù)的全局保障。收集數(shù)據(jù)要依賴于基礎(chǔ)架構(gòu),云計算是一個重要平臺,通過軟件及服務(wù),實現(xiàn)全公司數(shù)據(jù)的完整覆蓋,包括各種類型、多種應(yīng)用的數(shù)據(jù),不漏掉任何有價值的數(shù)據(jù),也不讓垃圾數(shù)據(jù)混入其中。
3)實現(xiàn)分析工具實時、平民化和可視化。將復(fù)雜的、臃腫的、不能實時分析的工具統(tǒng)統(tǒng)扔進歷史的垃圾桶,只有大數(shù)據(jù)分析工具的革新才能真正實時挖掘出大數(shù)據(jù)的價值。傳統(tǒng)的分析工具會被大數(shù)據(jù)淹沒,成為企業(yè)的負擔(dān),不能產(chǎn)生應(yīng)有的價值。
4)虛擬化可實現(xiàn)管理自動化,降低運營成本。一個使用復(fù)雜、成本昂貴的大數(shù)據(jù)平臺會成為數(shù)據(jù)中心的新負擔(dān),帶來的價值可能會被復(fù)雜的平臺本身直接消耗殆盡。隨著虛擬化,特別是軟件定義的數(shù)據(jù)中心時代的到來,輕型、便捷的新平臺成為大數(shù)據(jù)處理的首選平臺,不僅大幅度降低成本,也為大數(shù)據(jù)處理提供了高度的彈性、管理能力等,讓大數(shù)據(jù)處理成為企業(yè)新價值的發(fā)動機,成為企業(yè)競爭力的助推器,成為CIO的新頭腦。
5)開源軟件也將成為歷史潮流。大數(shù)據(jù)從電商企業(yè)、移動互聯(lián)網(wǎng)起家,因此生于開源,長于開源,開源成為大數(shù)據(jù)平臺的重要基因,這也是開源的Hadoop紅火的另一個重要原因。當然,開源并不意味著回到“手工作坊”時代,每個企業(yè)都要打造自己的“開源”大數(shù)據(jù)平臺,而是要有充分的開放性,基于開源的理念和架構(gòu),提供成本低廉、穩(wěn)定可靠的選擇。就像今天的開源Linux,一般企業(yè)還是選擇第三方企業(yè)包裝測試好的Linux平臺,而不是一個客戶完全自主研發(fā)的Linux平臺。通過這五部曲,企業(yè)可以輕松實現(xiàn)從傳統(tǒng)的關(guān)系型數(shù)據(jù)庫時代步入數(shù)據(jù)云時代,也就是走進新的大數(shù)據(jù)時代。
總之,大數(shù)據(jù)不是遙遠的神話,大數(shù)據(jù)是CIO為企業(yè)提供大價值的神器,機遇與挑戰(zhàn)并存。只要善用大數(shù)據(jù),大數(shù)據(jù)定能為您的企業(yè)帶來不斷的新驚喜:大數(shù)據(jù)能讓你在從來不知道你有機會的地方找到機會;大數(shù)據(jù)的快速分析能讓你在機會消失之前把握住機會;大數(shù)據(jù)的有效應(yīng)用能夠產(chǎn)生前所未有的商業(yè)新模式。
本文作者張振倫先生是VMware公司大中華區(qū)技術(shù)總監(jiān),用微信關(guān)注公眾號“中國云夢”,可與作者微信互動。