Serengeti項目結(jié)構圖
Serengeti項目不僅了解如何對核心Hadoop服務器進行虛擬化及復制,在處理HDFS之上的HBase數(shù)據(jù)庫倉儲系統(tǒng)方面同樣得心應手。它能以主動及熱備份副本方式處理HMaster節(jié)點的數(shù)據(jù)倉儲內(nèi)容,更能在數(shù)據(jù)倉儲與HDFS相結(jié)合時實現(xiàn)HBase RegionaServer的向外擴展。這些功能都已經(jīng)在今年四月Serengeti 0.8.0版本中出現(xiàn)。
現(xiàn)在,VMware正加緊時間將Serengeti投付生產(chǎn)。在今天于圣何塞舉辦的Hadoop峰會上,虛擬化巨頭將公布一套ESXi管理程序子集的測試版本以及名為Big Data Extensions的vSphere插件(這是第一款針對Serengeti的商用支持方案)。VMware公司產(chǎn)品管理高級主管Fausto Ibarra在接受El Reg網(wǎng)站采訪時指出,Big Data Extensions將以免費形式出現(xiàn)在vSphere的下一個版本中——“免費”這個詞從VMware嘴里說出來可有點新鮮。預計vSphere新版本(可能是5.2)將在8月底的VMworld大會上亮相,并于秋末正式上市。
大家可以點擊此處下載該插件,并將其與ESXi及vSphere 5.1配合使用。
根據(jù)Ibarra的說明,商用Serengeti軟件無需VMware的分布式資源調(diào)度(簡稱DRS)插件的支持即可直接與ESXi或者vCenter控制機制協(xié)作,從而在HDFS及HBase上實現(xiàn)彈性功能。但配合DRS,“它將可以更好地發(fā)揮作用。”其中含義目前尚不明確。
Big Data Extensions已經(jīng)確定可與開源Apache Hadoop 1.2堆棧、Cloudera CDH 3.X與4.2、MapR 2.1.3、Hortonworks Data Platform 1.3以及Pivotal 1.3全系列并行協(xié)作。
零售商、高科技客戶以及金融機構已經(jīng)開始使用該項目
Ibarra同時指出,有趣的是客戶們已經(jīng)開始通過兩種途徑接納Serengeti。那些對ESXi較為熟悉的客戶利用它對服務器進行虛擬化,從而將Hadoop引入虛擬存儲池。而另一些擁有物理Hadoop集群的客戶則開始嘗試利用VMware的管理程序及工具對Hadoop及其它工作負載進行虛擬化。
Ibarra并未透露將Serengeti作為原型方案或引入生產(chǎn)系統(tǒng)的企業(yè)客戶的具體數(shù)量,但大型零售商、高科技產(chǎn)品制造商、金融服務企業(yè)以及新興企業(yè)已經(jīng)開始在商業(yè)版本推出之前著手嘗試。
鑒于Hadoop的開源特性,Serengeti在起步階段的表現(xiàn)至關重要。開源項目對于客戶往往具備強大的吸引力,而Hadoop發(fā)行商Hortonworks、Linux發(fā)行商紅帽以及OpenStack云控制器發(fā)行商Mirantis已經(jīng)準備聯(lián)手推出Svanna項目,旨在以OpenStack及KVM管理程序為基礎實現(xiàn)Hadoop虛擬化。
除了帶來生產(chǎn)級Serengeti工具前瞻之外,VMware還將在今天公布大型大數(shù)據(jù)處理方案Pivotal HD 1.0發(fā)行版,這是VMware開發(fā)的首個支持Hadoop Virtual Extensions(簡稱HVE)代碼的商用版本,可以算作贈予Apache Hadoop項目的一份厚禮。HVE不僅能使Hadoop模塊實現(xiàn)虛擬化識別能力,更是Serengeti良好起效的必要前提。
下面我們通過實例看看HVE的工作機制。如果大家在Hadoop集群中擁有兩個虛擬數(shù)據(jù)節(jié)點,且二者處于同一臺物理服務器當中,那么它們彼此能夠識別出對方的存在;這意味著它們可以通過內(nèi)存總線進行通信,從而獲得比傳統(tǒng)虛擬化網(wǎng)絡端口更快的溝通速度。
再來看另一個例子。Hadoop習慣為數(shù)據(jù)塊保留三份副本,這主要是出于性能及可靠性的考量。HVE會將其中兩份數(shù)據(jù)副本保存在同一臺物理服務器當中,但對于第三份副本則會刻意保存在另一臺位于其它機架中的服務器端。
Ibarra表示,HVE代碼是Apache Hadoop項目的一部分,所有發(fā)行版都將在未來幾個月內(nèi)將其納為自身方案的組成部分。我們還不清楚HVE會對Savanna項目造成何種影響,但它也許能夠以相同的方式與KVM及OpenStack相對接。
通過上周MapR Hadoop發(fā)行版及數(shù)周前Cloudera的認證,Pivotal HD 1.0已經(jīng)確定能夠運行在ESXi環(huán)境下。目前Hortonworks發(fā)行版是否受到支持還沒有定論,但鑒于Savanna項目與Serengeti/BDE的競爭關系,二者之間恐怕很難攜起手來。