Teradata天睿公司大中華區(qū)解決方案總監(jiān) 姜欣
近日,Teradata天睿公司大中華區(qū)解決方案總監(jiān)姜欣向記者展示了最新的UDA全景圖,從而為了解Teradata和把握企業(yè)大數(shù)據(jù)分析提供了參考。
印象中,Teradata天睿公司先后發(fā)布過不同版本的統(tǒng)一數(shù)據(jù)架構(gòu),顯然,最新的UDA最全面地詮釋了企業(yè)大數(shù)據(jù)分析支撐能力的要素。
當前,企業(yè)尤其是大中型企業(yè),要真正建立大數(shù)據(jù)分析能力,前提是支撐能力的建設(shè)。何為支撐能力?這包括數(shù)據(jù)采集、儲存、計算到分析等各個方面。毋庸置疑,這個支撐能力建設(shè)的過程,沒有任何一家企業(yè)能一蹴而就。
UDA的價值,一方面表達了該領(lǐng)域主流供應商對于企業(yè)大數(shù)據(jù)分析支撐能力的專業(yè)視角,這個視角也沒有局限于自身的解決方案;另一方面,UDA所隱含的方法論,在目前大數(shù)據(jù)應用探索階段具有普適性,從而具有參考價值。
既是Teradata統(tǒng)一數(shù)據(jù)架構(gòu),也是大數(shù)據(jù)分析路線圖
上圖是Teradata最新的統(tǒng)一數(shù)據(jù)架構(gòu)的全景圖的板塊劃分,它從數(shù)據(jù)架構(gòu)層面,從技術(shù)層面來支撐起“感知型企業(yè)”的五大能力。
所謂感知型企業(yè),它是Teradata在2015年年底總結(jié)出來的一個概念。意指新型企業(yè)如果想要具有競爭力,必須具備五大核心能力:打造敏捷彈性IT平臺;看重行為數(shù)據(jù)分析而不僅僅是交易數(shù)據(jù);強調(diào)不同部門之間的協(xié)同思維;數(shù)據(jù)分析結(jié)果呈現(xiàn)的自助與交互;建立算法模型庫提升決策速度與能力。
姜欣提示,統(tǒng)一數(shù)據(jù)架構(gòu)UDA有幾個特征。
第一個特征,UDA不完全是Teradata自己的產(chǎn)品,也就是兼容并包,包含了很多開源的內(nèi)容,比如Spark,甚至是SaaS和SPSS等數(shù)據(jù)挖掘工具,以及數(shù)據(jù)湖,數(shù)據(jù)湖可以基于Hadoop,還可以基于一些低成本的技術(shù)。
第二個特征,不同的系統(tǒng)和應用,整合進來不能變成煙囪,還要把它們互相聯(lián)系起來、打通起來,數(shù)據(jù)要互相交互,所以系統(tǒng)之間有很多連接器。這個連接器,即指Teradata QueryGird。
第三,整合起來之后,還要進行很好的管理,比如監(jiān)控、配置,但從運維的角度,需要一個統(tǒng)一監(jiān)控的界面。這個統(tǒng)一監(jiān)控的界面怎么實現(xiàn),就是借助基于Web的系統(tǒng)管理解決方案Teradata Viewpoint。
可以看到,UDA涵蓋了六大能力:采集能力、存儲和計算能力、分析能力、服務開發(fā)及展現(xiàn)能力、統(tǒng)一管控能力、云化部署能力。
姜欣表示:“只要是企業(yè)想搭建一個大數(shù)據(jù)平臺,一定是這個圖的子集,企業(yè)可以選擇適應自己的一部分內(nèi)容來建設(shè),或者按照一個路線圖分步建設(shè)都可以?!?/p>
前文提到,Teradata在不同的發(fā)展階段,先后提出過不同的UDA,那么,最新公布的UDA,新在何處?
這就涉及到UDA中最下面的“云化部署”板塊。
實現(xiàn)異構(gòu)環(huán)境的無差異化部署
在很多企業(yè),數(shù)據(jù)的產(chǎn)生、采集、存儲和分析不會只采用一種管理和部署模式,原因在于數(shù)據(jù)、應用、工作負載的彈性運營與管理需求。正因為如此,數(shù)據(jù)分析解決方案商需要以正確的姿勢跟上這一需求甚至是走在用戶前面。
如前所述,UDA提供了企業(yè)大數(shù)據(jù)分析能力的六種能力思路:采集、存儲和計算、分析、服務開發(fā)及展現(xiàn)、統(tǒng)一管控和云化部署。多年來,Teradata 一直在前五個部分陸續(xù)部署,已形成相應的解決方案,新的Teradata UDA的主要變化,就體現(xiàn)在“云化部署”上,這就是Teradata Everywhere、Teradata無邊界分析等內(nèi)容。
那么,Teradata Everywhere、Teradata無邊界分析又是什么?
先看看Teradata Everywhere,姜欣表示“這是一種部署技術(shù)”?;蛘撸覀儼阉斫獬刹渴鸱绞娇赡芨侠??
第一,專業(yè)平臺部署,比如客戶進行本地化部署在Teradata 負載專用平臺系統(tǒng)一體機上;
第二,私有云部署,客戶基于X86或者虛擬化的一個技術(shù),上面再運行Teradata Database;
第三,托管云,基于Teradata自己的數(shù)據(jù)中心,提供SaaS或者PaaS服務,用戶按使用付費;
第四,公有云,支持AWS,今年Q4也可以支持Azure,客戶可以通過公有云直接安裝和部署Teradata Database;
第五,最重要的,這四種部署方式全部都是統(tǒng)一的,能力完全一樣,沒有任何剪裁或者選項。當然,這四種部署,它們之間是可以互相打通的。
此前,有資料提出Teradata Everywhere是一種數(shù)據(jù)庫,顯然是一種錯誤的認識。
混合云架構(gòu)的無差異化部署,關(guān)鍵的技術(shù)有兩點:一是MAPS架構(gòu)本身帶來的彈性便于用戶擴展或縮小Database規(guī)模;二是Teradata數(shù)據(jù)庫適配性優(yōu)化器(Adaptive Optimizer),按部署環(huán)境自動調(diào)整,從而對前端的查詢與應用提供支持。
這或許是就是“Everywhere”的由來吧,無所不在。
筆者認為,實現(xiàn)異構(gòu)環(huán)境的無差異化彈性部署,對Teradata來說是戰(zhàn)略性的。但是,對于用戶而言,即使在混合云環(huán)境下部署或配置完成相應的Database,如果要實現(xiàn)無差異化應用,還缺一步。這就是上文提到的Teradata無邊界分析。
實現(xiàn)統(tǒng)一入口和負載均衡
無邊界分析,與Teradata Everywhere其實是同一個概念下的不同視角。Teradata Everywhere從技術(shù)部署方式上使企業(yè)具備分析的能力;無邊界分析表達的是怎么用、有哪些典型場景、跨平臺應用到底怎么用,等等。
資料顯示,無邊界分析主要通過兩個軟件,分別是Teradata QueryGird和Teradata Unity來實現(xiàn)這種無縫的體驗。
如果要簡單理解,QueryGrid就是一個統(tǒng)一的查詢?nèi)肟?,實現(xiàn)了不同平臺環(huán)境的透明化;從體驗上講,沒有平臺差異;從實現(xiàn)角度,可以說是一個連接器。具體而言,QueryGrid基于不同平臺,不管是Hadoop、Aster、Teradata或者是其他廠商的平臺,或者是客戶自己寫的SQL,提交命令之后,QueryGrid會自動選擇合適的平臺去運行,而且還可以跨平臺把數(shù)據(jù)結(jié)果進行連接、融合和展現(xiàn)。
而Teradata Unity則幫助不同平臺實現(xiàn)工作負載的自動化分配,Unity有四大組件,負載均衡只是功能之一。但是,Unity是針對Teradata系統(tǒng)進行管理、數(shù)據(jù)加載、數(shù)據(jù)同步、負載均衡。
針對無邊界分析,Teradata提煉了三個主要的應用場景,分別是云爆發(fā)、云數(shù)據(jù)實驗室和云容災。
首先是云爆發(fā)。比如客戶會在自己機房里部署一套本地的一體化設(shè)備,存儲最重要的數(shù)據(jù)、最關(guān)鍵的數(shù)據(jù),比如客戶隱私數(shù)據(jù)等。但是對那些體量大、價值密度低的日志、某些非結(jié)構(gòu)化數(shù)據(jù),本地存儲就不經(jīng)濟,所以會考慮放在云端。這種情況下,兩個系統(tǒng)要經(jīng)常連接,因此需要把兩個平臺看成一個整體來使用,中間通過Unity的一個組件Data Mover進行數(shù)據(jù)同步。
第二是云數(shù)據(jù)實驗室??蛻魰岩恍v史數(shù)據(jù)或者一些實驗數(shù)據(jù)放在云端,最重要的數(shù)據(jù)放在機房。這樣云端就可以按運行一些很復雜的應用。但當云端需要使用本地機房數(shù)據(jù)的時候,就可以通過QueryGrid進行連接。
第三是云容災。如果客戶需要在云平臺上進行機房數(shù)據(jù)的備份也就是搭建容災系統(tǒng),這就經(jīng)常需要用到數(shù)據(jù)同步或者數(shù)據(jù)備份的功能,這也是通過Data Mover來完成。
以上,就是Teradata統(tǒng)一數(shù)據(jù)架構(gòu)UDA的主要變化。
Teradata的五級轉(zhuǎn)型
根據(jù)資料,Teradata統(tǒng)一數(shù)據(jù)架構(gòu)UDA包括異常豐富的軟件與硬件組合,如前文所述,其中大部分是在最近5年完成的布局。UDA的軟件包括Viewpoint、Connectors以及Vital Infrastructure;硬件包括數(shù)據(jù)庫專用平臺和Aster高級分析產(chǎn)品組合,以及Portfolio for Hadoop組件。
從市場角度看,Teradata將業(yè)務劃分為美洲區(qū)和國際集團(除美洲區(qū)之外其他區(qū)域),而亞太市場隸屬國際集團,其中亞太市場是連續(xù)增長的,并且,中國市場據(jù)稱是除了美國之外的第二大市場。
今年9月,Teradata正式推出敏捷型分析業(yè)務咨詢服務(Rapid Analytic Consulting Engagement,RACE),該服務是一套敏捷、技術(shù)中立的方法論。該服務的核心稱為“Teradata業(yè)務價值框架”。
歷史上,Teradata一直以一體機為主,“而現(xiàn)在同時在發(fā)力云和咨詢服務,可以期待業(yè)績將會有一個大的提升。但在同時,數(shù)據(jù)庫只會加強,不會削弱?!苯勒f。
以上的這個變化,從Teradata整體上看,是一個“五級轉(zhuǎn)型”。
第一,堅定地走一體化數(shù)據(jù)分析平臺的專業(yè)化道路。
第二,向云轉(zhuǎn)型,以及在云生態(tài)下提供咨詢和開發(fā)部署的服務。
第三,打造分析生態(tài)系統(tǒng),包括統(tǒng)一數(shù)據(jù)架構(gòu)、Unity、QueryGrid,還有Listener數(shù)據(jù)采集工具,以及AppCenter、開源等等。所有配套的這些軟件,整合起來變成一個大數(shù)據(jù)生態(tài)。
第四,技術(shù)中立做咨詢服務,比如大數(shù)據(jù)戰(zhàn)略規(guī)劃技術(shù),包括RACE,快速迭代、敏捷開發(fā)、數(shù)據(jù)建模,不局限于Teradata平臺。
第五,客戶至上。
大數(shù)據(jù)分析的挑戰(zhàn)
當前,數(shù)據(jù)分析混合云部署對于很多行業(yè)的關(guān)鍵業(yè)務或創(chuàng)新業(yè)務有著戰(zhàn)略性的意義,而這種部署是存在不同的挑戰(zhàn)的。作為數(shù)據(jù)分析領(lǐng)域的老牌廠商,Teradata怎么看這種挑戰(zhàn)呢?
姜欣表示,這種挑戰(zhàn)有幾個層面:
首先是架構(gòu)如何設(shè)計。架構(gòu)要考慮技術(shù)架構(gòu)、應用架構(gòu)和數(shù)據(jù)架構(gòu)。技術(shù)架構(gòu)牽涉到到底用什么技術(shù)實現(xiàn)多平臺的數(shù)據(jù)分析的支撐,是私有云還是混合云,混合
云用哪家公有云,等等。
其次是應用。客戶要考慮哪些應用是在數(shù)據(jù)中心部署,哪些應用要在云端部署,應用負載怎么平衡。
第三要考慮數(shù)據(jù)架構(gòu)。數(shù)據(jù)到底怎么分布?比如數(shù)據(jù)中心機房里分布什么數(shù)據(jù),在云端分布什么數(shù)據(jù),它們之間如何進行同步,數(shù)據(jù)質(zhì)量如何保證一致性。
第四要考慮管理方面的規(guī)劃。比如牽扯到人員、崗位、流程的變更安排。
第五是一個比較大的規(guī)劃,業(yè)務戰(zhàn)略目標層面。比如企業(yè)未來發(fā)展到底是不是要創(chuàng)建一些新的模式。從一些大數(shù)據(jù)分析已經(jīng)走過好多年的客戶案例來看,先有一個業(yè)務戰(zhàn)略規(guī)劃是非常重要的。