▲EMC數(shù)據計算產品部大中華區(qū)總經理劉偉光先生
據劉偉光介紹,他于2011年11月加入EMC公司,負責數(shù)據計算事業(yè)部大中國區(qū)整體的運營。此前曾在Oracle工作將近八年的時間,從系統(tǒng)架構師開始起步,后來做到大中國區(qū)企業(yè)架構團隊的高級經理,2010年成為Exadata大中國區(qū)產品事業(yè)部的總監(jiān)。劉偉光所在的EMC數(shù)據計算產品部門前身是EMC收購的Greenplum公司。Greenplum是分布式數(shù)據庫的全球領導者,EMC看重它未來的商業(yè)價值,尤其在大數(shù)據市場的巨大潛力,因此收購Greenplum公司。在全球成立獨立運作的事業(yè)部,即數(shù)據計算事業(yè)部。劉偉光作為這個事業(yè)部大中國區(qū)的經理,主要負責這個產品的在中國整體的業(yè)務推廣,包括銷售、售前、服務、品牌推廣等一系列工作。
數(shù)據庫發(fā)展的三個里程碑
談到數(shù)據庫應用的發(fā)展進程,劉偉光表示,回溯中國大型企業(yè)IT建設經歷過的十五年,大致有三個里程碑:第一個里程碑是面向交易型的關系型數(shù)據庫,90年代末到2000年初是中國IT系統(tǒng)建設發(fā)展最快、建設力度最廣、投資最大的幾年。中國IT建設從一個相對落后的階段,走向一個新的發(fā)展歷程,越來越多的國外企業(yè)進入中國。中國IT系統(tǒng)建設,尤其在電信、銀行和政府領域經歷了一場大規(guī)模的變革。傳統(tǒng)數(shù)據庫一般來講都是OLTP,即面向事務處理和交易的數(shù)據庫,通常是支持系統(tǒng)的基本業(yè)務功能操作和企業(yè)最基本的信息化需求,電信行業(yè)建設計費系統(tǒng)、CRM系統(tǒng)、客服系統(tǒng),銀行行業(yè)建設前臺核心系統(tǒng),其他行業(yè)建設基本的客戶管理、營銷系統(tǒng)。這種系統(tǒng)的主要功能是存儲數(shù)據,面向客戶提供一些服務,就如同解決人們生活的溫飽問題,這種數(shù)據庫就是支持聯(lián)機事務處理型的數(shù)據庫。
第二個里程碑是數(shù)據倉庫,也可以比喻成IT建設解決溫飽問題之后更高層次的需求。在這個階段,企業(yè)的IT運營達到一定的水平,積累了很多經驗。企業(yè)發(fā)現(xiàn)數(shù)據是非常重要的資產,但是并沒有將常年積累的數(shù)據變成指導企業(yè)運營的技術基礎。在這個階段,很多大型企業(yè)開始建設數(shù)據倉庫。數(shù)據倉庫的前身是分析報表系統(tǒng),即把數(shù)據從數(shù)據庫中抽取出來形成統(tǒng)計報表,但這個報表通常不會對企業(yè)運營和決策分析做指導。到了數(shù)據倉庫的階段,數(shù)據不僅形成報表,還要根據各種主題、企業(yè)內部需求進行加工、分析,進而形成決策支撐的數(shù)據來源。經過存儲數(shù)據、挖掘數(shù)據、加工數(shù)據、展現(xiàn)數(shù)據的過程,數(shù)據產生的結果成為企業(yè)下一步運營和制定市場策略最重要的技術輸入。
第三個里程碑是大數(shù)據。最近幾年云計算如火如荼,云計算和大數(shù)據在很多層面都是相輔相成的關系。在這個階段,隨著新技術的沖擊和技術手段的推陳出新,以及互聯(lián)網技術對IT行業(yè)發(fā)展的影響日益顯現(xiàn)。云計算的出現(xiàn)對數(shù)據倉庫產生巨大的挑戰(zhàn),如何處理傳統(tǒng)關系型數(shù)據庫不能處理的數(shù)據,是新技術面臨的最大挑戰(zhàn)。海量數(shù)據與大數(shù)據是不同概念,海量數(shù)據通常指的是在按照數(shù)據庫表結構設計處理之后,存儲到傳統(tǒng)的關系型數(shù)據庫當中的數(shù)據集合。大數(shù)據在數(shù)據容量上也比海量數(shù)據更大。另外,大數(shù)據的數(shù)據來源非常豐富,數(shù)據類型更為繁多,其中包括來自互聯(lián)網和傳統(tǒng)企業(yè)的高度信息化后產生的非結構化和半結構化數(shù)據,以及不斷產生的歷史歸檔數(shù)據,這些數(shù)據遠遠不是現(xiàn)在的技術能夠快速加載的,而且也不是傳統(tǒng)的數(shù)據庫和數(shù)據倉庫所能存儲管理和分析的。
大數(shù)據蘊藏商業(yè)價值
現(xiàn)在很多公司都在談論大數(shù)據,專家對大數(shù)據都有著各自的看法,劉偉光認為大數(shù)據主要包括四個特征:第一,大數(shù)據的數(shù)據量非常大;第二,大數(shù)據有非常復雜的數(shù)據來源;第三,大數(shù)據有非常復雜的數(shù)據結構,并不是傳統(tǒng)關系型數(shù)據庫能夠處理的數(shù)據集合;第四,大數(shù)據的實效比很低,即在單位時間內處理數(shù)據的價值是相對較低,但如果能達到快速處理和分析單位時間內的大數(shù)據,就將產生無法預期的商業(yè)價值。
盡管大數(shù)據的實效比很低,往往需要大量計算能力,但是大數(shù)據蘊藏的商業(yè)價值不可小覷,劉偉光非??春么髷?shù)據的市場發(fā)展前景。首先從商業(yè)價值角度分析,在金融業(yè)領域,通過挖掘和分析客戶的各種交易信息,可以通過決策分析而最大化的提高企業(yè)銷售利潤。從正面角度看,這種方式可以找到高價值的客戶,將相應的產品進行準確的營銷;從反面角度看,還可以進行反欺詐分析,降低企業(yè)的運營風險。
在電信領域,最常見的大數(shù)據應用就是通過對用戶信令數(shù)據的分析,為漫游用戶發(fā)送歡迎短信。隨著電信行業(yè)大數(shù)據分析的不斷深入,分析用戶行為數(shù)據進行精確營銷將逐步成為運營商新興業(yè)務類型。這種精確營銷體現(xiàn)出大數(shù)據的一個新特征:低價值轉換率,就是要在很短的時間內分析處理大量數(shù)據,為每個人提供有價值的增值服務,挖掘潛在商機。除了傳統(tǒng)的電信和金融行業(yè),科研機構在大數(shù)據領域的應用同樣具有廣闊前景,科研機構把塵封的數(shù)據拿出來利用新的技術進行挖掘分析,解決科研工作中的難題。
EMC Greenplum的大數(shù)據戰(zhàn)略
目前,EMC已經不再只是傳統(tǒng)的硬件廠商,而是通過數(shù)據存儲,幫助企業(yè)有效的管理內部的數(shù)據資產,創(chuàng)造更高的商業(yè)價值。據劉偉光介紹,EMC一直倡導“數(shù)據改變商業(yè)模式”的理念,把存儲的數(shù)據變成一種商業(yè)價值,這就是EMC的大數(shù)據戰(zhàn)略。具體來說包括三個層次:第一,EMC能夠提供快捷的、高可用的、能夠橫向擴展的大數(shù)據存儲架構;第二,EMC不僅能夠處理傳統(tǒng)數(shù)據庫處理的結構化數(shù)據,還能支持半結構化和非結構化的數(shù)據的存儲管理;第三,數(shù)據分析。Greenplum承擔最上層的面向大數(shù)據的高性能分析。
EMC Greenplum統(tǒng)一分析平臺(UAP)是EMC Greenplum大數(shù)據戰(zhàn)略中至關重要的一環(huán)。EMC Greenplum統(tǒng)一分析平臺結合Greenplum Database 、Greenplum Hadoop、Greenplum DCA、Greenplum Chrous為企業(yè)構建高效處理結構化,半結構化,非結構化數(shù)據的大數(shù)據分析平臺。并且客戶可以以此平臺為基礎利用Greenplum行業(yè)和數(shù)學統(tǒng)計方面的專家,充分挖掘自身數(shù)據價值,實現(xiàn)數(shù)據資產從成本中心到利潤中心的轉變,以數(shù)據驅動業(yè)務。其中,Greenplum Chrous在行業(yè)中處于領先地位,它的操作使用習慣非常類似Facebook、開心網的社交模式。通過Greenplum Chrous可以建立數(shù)據沙箱,將一定的數(shù)據變成一個集合,用戶都可以對這個集合利用工具進行處理和分析,共享數(shù)據庫的分析結果。讓這個數(shù)據分析和挖掘,不再是專業(yè)人士做的事情,并且增加趣味性,各種角色可以進行交互,形成一個數(shù)據社交圈。
EMC Greenplum統(tǒng)一分析平臺還包括一個重要的方面,就是“數(shù)據科學家計劃”,它將人的智慧與技術產品相結合。數(shù)據科學家不僅需要具有數(shù)據本身的知識,還要求有一定的數(shù)學建模能力,同時要懂得企業(yè)內部的運轉流程。所以數(shù)據科學家是能夠靈活利用各種工具去抓取數(shù)據,形成數(shù)據集合、數(shù)據沙箱,進行快速的實時分析和展現(xiàn)的一種角色,幫助企業(yè)將數(shù)據變成商業(yè)價值。
真正的數(shù)據庫云平臺
EMC Greenplum也被稱為數(shù)據庫云平臺。談到Greenplum與云計算的關系,劉偉光表示,云計算的技術架構中很重要的一個特征就是“分布式計算”,而Greenplum是一個100%分布式計算的數(shù)據產品。相比傳統(tǒng)的企業(yè)應用環(huán)境,今天的分布式計算將所有應用都部署在集群上,這個集群完全采用相對廉價的X86服務器,搭建一個可以無限擴展的平臺。分布式計算只需增加相應的節(jié)點,就能滿足業(yè)務能力增長的需求;當任何一個節(jié)點宕掉的時候,其他節(jié)點自動接管業(yè)務請求。在云計算的實踐當中,在數(shù)據庫層面實現(xiàn)分布式平臺是一個非常重要的一個步驟,它將帶給企業(yè)的技術變革的重大創(chuàng)新,提供更強有力和可預見的技術基礎平臺,EMC Greenplum就是這樣一個真正的數(shù)據庫云平臺。
EMC Greenplum還采用了很多開源技術,其本身就是基于PostgreSQL開發(fā)的,隨著大數(shù)據的發(fā)展,Hadoop也成為Greenplum的工具之一。Greenplum Hadoop與開源Hadoop有著很大的區(qū)別,主要體現(xiàn)在兩個方面:其一,Greenplum Hadoop對企業(yè)的高可用性和安全性有很強的保障機制;其二,傳統(tǒng)企業(yè)希望購買商用Hadoop產品,以延續(xù)使用傳統(tǒng)技術的習慣。即使是擁有強大研發(fā)團隊的大型互聯(lián)網企業(yè),也希望在某些關鍵性交易系統(tǒng)中采用商業(yè)Hadoop。另外,Greenplum Database與Greenplum Hadoop兩個產品的結合度是全世界領先的,結構化、半結構化、非結構化數(shù)據能夠在這兩個產品之間動態(tài)的切入。EMC的理念是用數(shù)據庫技術對Hadoop進行操作,讓用戶感知不到數(shù)據是存儲在數(shù)據庫還是Hadoop中。外部表是解決這一問題的關鍵技術,與其他廠商采用中間轉換工具的方式不同,外部表可以把Hadoop當成Greenplum數(shù)據庫中的一個表進行操作。
小結
EMC傳統(tǒng)存儲硬件廠商的身份已深入人心,兩年前收購Greenplum的舉動被看作EMC完整大數(shù)據戰(zhàn)略的重要里程碑。隨著EMC與Greenplum的進一步融合,Greenplum在數(shù)據分析處理上的優(yōu)勢也會日益顯現(xiàn),軟硬結合的大數(shù)據戰(zhàn)略將幫助EMC完成由硬件廠商向整體解決方案提供商的轉型。由此可見,大數(shù)據改變的不只是商業(yè)模式。