首先,未來我們的商業(yè)智能系統(tǒng)會逐漸地走向移動化,從現(xiàn)在的兩級架構變成了全網(wǎng)一級。同時,實現(xiàn)數(shù)據(jù)模型的標準化,把各系統(tǒng)的數(shù)據(jù)進行統(tǒng)一的處理,把很多的詳單數(shù)據(jù)進行統(tǒng)一處理。這樣的好處是首先通過集約化實現(xiàn)數(shù)據(jù)的標準化。

第二,通過數(shù)據(jù)集中化來實現(xiàn)各系統(tǒng)的綜合分析,同時也有利于快速地進行數(shù)據(jù)分析和決策支持。因為現(xiàn)在很多的數(shù)據(jù)應該說是在二級、省內或者是地市系統(tǒng)里?,F(xiàn)在如果從公司整體來說做數(shù)據(jù)分析和決策支持,往往是需要省公司定期地提供一些匯總數(shù)據(jù)。所以這實際上對分析的實時響應還是存在一定的問題。集中化的商業(yè)智能系統(tǒng)首先面臨著海量數(shù)據(jù)存儲的壓力。集中化的商業(yè)智能系統(tǒng)一方面面臨著數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復雜,同時不同類的用戶存在著混合負載的問題。

首先從數(shù)據(jù)規(guī)模上來說,我們預測到2015年的時候,結構化的數(shù)據(jù)是需要3.7P,非結構化數(shù)據(jù)是4.4P。這是保守的需求,我們數(shù)據(jù)存放的時間是非常短的。但正像前面所說的,有很多的數(shù)據(jù)是企業(yè)的戰(zhàn)略資產,有很多的互聯(lián)網(wǎng)公司對這類數(shù)據(jù)是永遠不刪除的。實際上運營商未來數(shù)據(jù)存儲的容量需求應該還是不斷地擴大的。目前我們采用的傳統(tǒng)的數(shù)據(jù)倉庫成本還是很高的,目前公司擴容的壓力還比較大。

第二是數(shù)據(jù)處理的復雜性。目前我們面臨著很多新型數(shù)據(jù)的處理,包括非結構化和半結構化的數(shù)據(jù),所以這方面是需要引入新的技術來進行處理的。同時,還需要對結構化和非結構化數(shù)據(jù)進行混合深度的數(shù)據(jù)挖掘。最后是混合負載的多樣性,傳統(tǒng)的數(shù)據(jù)倉庫和我們的商業(yè)智能的應用大部分是屬于固定應用,屬于報表類的應用。目前以數(shù)據(jù)倉庫為核心的架構現(xiàn)在還不能滿足業(yè)務要求。
這就決定了,應用開發(fā)實際上跟下面的平臺是沒有辦法非常完美地優(yōu)化和設計的。
對潛在的幾種技術做了分析,包括傳統(tǒng)的數(shù)據(jù)倉庫,指通過小型機加盤陣的高性能的硬件,也包括了軟硬件一體化的新型的數(shù)據(jù)倉庫。我們都歸為基于高性能硬件的數(shù)據(jù)倉庫。

第二種是新型的基于X86的數(shù)據(jù)庫。第三類是Hadoop分布式系統(tǒng)。從復雜多表關聯(lián)分析這方面來看,目前關系型數(shù)據(jù)倉庫這方面會有更的優(yōu)勢,因為通過這種索引和分區(qū)建的技術保證多表關聯(lián)的效率會比較高,而Hadoop目前缺少高效索引,因為現(xiàn)在我們無法支持次級索引。

關系型數(shù)據(jù)倉庫是為結構化數(shù)據(jù)處理,當然很多的數(shù)據(jù)倉庫目前跟Hadoop相集成提供一些非結構化數(shù)據(jù)庫的處理能力。但關系型數(shù)據(jù)倉庫是不支持非結構化數(shù)據(jù)的處理的,而Hadoop的能力非常強。

實時相應有關關系型數(shù)據(jù)倉庫和X86的通用平臺都有比較好的整體優(yōu)化,Hadoop目前的優(yōu)化比較少,所以實時性這塊差一些。而且做單相查詢的性能是比較好的。

第三,在數(shù)據(jù)的ETL采集預處理的環(huán)節(jié),我們會盡量多地采用Hadoop和分布式ETL的方式,提高數(shù)據(jù)轉換的效率,同時降低成本。

最后,考慮到運營商實際上是比較龐大和分散的組織架構,我們公司對商業(yè)智能的需求也是比較多。所以,前面幾位專家提到的,我們把云計算的概念引入到大數(shù)據(jù)里面,未來形成一個商業(yè)智能的pass平,這個平臺會實現(xiàn)平臺建設和數(shù)據(jù)存儲的集中。但應用開發(fā)可以讓各個省公司和地市公司自行進行應用開發(fā)。上載到平臺上分析出結果。這可以很好地解決平臺集中化和應用需求分散化的矛盾。

分享到

renxinbo

相關推薦