•整合和虛擬化的目的
•主要挑戰(zhàn)
•設(shè)置和配置程序
•P2V 遷移
•轉(zhuǎn)型的現(xiàn)狀
•未來計劃

整合和虛擬化

服務(wù)器和存儲整合通過提高運行效率和有效性可以降低成本,虛擬化則通過提高自動化、可擴展性以及從一個單一平臺提供多種功能或服務(wù)使服務(wù)器和存儲技術(shù)的價值達到最大化。我們新的數(shù)據(jù)中心正在向虛擬化的模式邁進,該模式將使我們能夠利用更加強大的技術(shù)滿足不斷變化的工程應(yīng)用需求,滿足業(yè)務(wù)增長或者降低的要求。虛擬化技術(shù)為我們的數(shù)據(jù)中心增加了價值,提高了靈活性、可擴展性、易管理性以及響應(yīng)能力。

虛擬化使 IT 能夠在更加經(jīng)濟的規(guī)模下運行,最大化利用現(xiàn)有資源,就算基礎(chǔ)設(shè)施的增長速度非常快,也能夠有效地被管理。我們在決定選用 VMware 配合 NetApp® 存儲之前評估了多個虛擬化解決方案。最后我們選擇 VMware,原因是它支持的客戶運行系統(tǒng)的范圍很廣,這對我們這個項目非常關(guān)鍵。

最初的挑戰(zhàn)

在起始階段,要推進項目我們必須解決眾多結(jié)構(gòu)和技術(shù)方面的挑戰(zhàn)。

有限的預(yù)算。首先,由于我們的預(yù)算是有限的,這個虛擬化項目必須以最少的設(shè)備開始。項目最初是以兩臺租用的服務(wù)器(已安裝有 VMware ESX 服務(wù)器)和一個獨立 NetApp FAS3050 存儲系統(tǒng)開始。這使我們有足夠的設(shè)備做一個概念驗證(proof of concept,即POC)。這些租用的服務(wù)器通過加大的內(nèi)存進行了升級,所以可以處理更多的虛擬機。

工程師們的擔心。工程師們在開始的時候持懷疑態(tài)度。他們不相信一個虛擬的機器能夠處理他們原來習慣使用的物理服務(wù)器所處理的工作。而且每個工程項目的需求都是獨特的,所以更增加了這個問題的復(fù)雜性。然而,使用僅僅兩臺最初的虛擬服務(wù)器,我們成功地說服了大部分工程師,使項目得以進行下去。

網(wǎng)絡(luò)集成。掃除了這個障礙后,我們開始商量如何在現(xiàn)有環(huán)境中集成一個虛擬服務(wù)器。工程應(yīng)用實驗室網(wǎng)絡(luò)的設(shè)計旨在最小化第 2 層廣播。接入層交換機配置了多重 VLAN,向上連接至使用第3層的核心骨干交換機。(這個網(wǎng)絡(luò)架構(gòu)相當于一個校園網(wǎng),每個功能/院系使用一個單獨的 VLAN。)

我們有兩個選擇:在每個 VLAN 上提供一個單獨的 ESX 服務(wù)器,或修改網(wǎng)絡(luò)布局。如果是前一種情況,資源將無法完全利用。我們會需要更多的 ESX 授權(quán),而且管理也會更加困難。但是,第二種方案更加復(fù)雜,而且需要很長的宕機時間來完成。

在與我們的網(wǎng)絡(luò)合作伙伴和工程客戶進行大量的討論后,我們最后決定采用包含有一個整合虛擬服務(wù)器群的解決方案,可以放置我們所有的 ESX 服務(wù)器、存儲系統(tǒng)和網(wǎng)絡(luò)閘,而且可連接至每個項目的 VLAN。


 
圖1)虛擬服務(wù)器群和網(wǎng)絡(luò)設(shè)置

虛擬服務(wù)器群設(shè)置和配置

在設(shè)計這個設(shè)置的時候,我們遵從 TR-3428:NetApp 和 VMware 虛擬基礎(chǔ)架構(gòu) 3:存儲最佳實踐。我們的虛擬基礎(chǔ)架構(gòu)已經(jīng)擁有一個由8 個服務(wù)器組成的群和一個 NetApp FAS3050 集群,擁有 436 臺虛擬機,支持 17 個工程團隊。至今我們已經(jīng)完成了 150 個物理至虛擬(P2V)轉(zhuǎn)換和 100 個 GSX 至 ESX 遷移。以前我們曾在一些項目上采用 VMware GSX 很有限、分散地進行過虛擬化。基本上我們是每個物理服務(wù)器擁有 4-5 個虛擬機。

資源池通過 VMware Virtual Center 設(shè)置,以聚合和管理多組以組為單位的虛擬機。每個組的網(wǎng)絡(luò)連接由 2 個 1GB 的網(wǎng)絡(luò)端口提供,兩個端口組合在一起以進行負載平衡和冗余。
我們的集群 FAS3050 配備有 4 個磁盤架,采用 300GB FC 驅(qū)動和多路徑,以應(yīng)對存儲故障。該存儲系統(tǒng)的網(wǎng)絡(luò)端口采用 NetApp VIF,以處理冗余和進行負載均衡。

所有 ESX 數(shù)據(jù)存儲都采用 NFS 在該存儲系統(tǒng)中進行。我們選擇 NFS 因為它性價比高,而且很容易配置和管理。光纖通道數(shù)據(jù)存儲可能需要額外的硬件,如 FC 交換機、HBA、線纜,而我們由于預(yù)算有限所以可能無法滿足。此外,采用 NFS 數(shù)據(jù)存儲的性能與 FC 的性能是具有可比性的。

新的虛擬機配置有 NetApp rapid cloning utility version 1。該過程利用了NetApp FlexClone®,因此類似的虛擬機可以分享同一個存儲,而無須浪費很多的空間重存儲同一個操作系統(tǒng)的文件。你可以在最近的一篇 Tech OnTap 文章中了解更多該過程,該文章介紹了同樣的過程,只不過針對的是 VMware 虛擬桌面。

從物理機遷移至虛擬機

由于工程應(yīng)用團隊要求現(xiàn)有服務(wù)器配置保持不變,當我們在將服務(wù)器從物理機遷移至虛擬機的過程中,我們面臨保持主機命名、IP 地址、操作系統(tǒng)配置不變的挑戰(zhàn)。

為了完成這些遷移,我們首先將每個組的數(shù)據(jù)網(wǎng)絡(luò)擴展至虛擬服務(wù)器群。P2V 轉(zhuǎn)換通過使用 VMware Virtual Center 實現(xiàn)。大部分遷移在周末或節(jié)假日進行,以降低宕機時間。定期檢測新的虛擬機,確保性能。我們還與團隊密切合作,以防止出現(xiàn)性能問題,并在需要的情況下分配更多的資源給虛擬機。

現(xiàn)狀

我們定期監(jiān)測虛擬機的增長和物理服務(wù)器的逐漸退役數(shù)量,并且用圖表標注出來。我們計劃在未來 6 至 9 個月內(nèi)把物理服務(wù)器的數(shù)目降低至 500 臺。同期虛擬機數(shù)量預(yù)計將增至 1,500。我們預(yù)計將所有 1,500 臺虛擬機放置至 20 臺 VMware ESX 服務(wù)器。我們現(xiàn)在 8 臺服務(wù)器支持 450 個虛擬機,平均的 CPU 和內(nèi)存使用率約為 30%,因此有很多余量支持更多的虛擬機。


 
圖 2)轉(zhuǎn)型進程

未來計劃

我們對目前所取得的進展感到非常高興,而且已經(jīng)能夠看到因為虛擬環(huán)境所帶來的額外的機會:

•多平臺支持。我們目前的環(huán)境僅僅包括基于 Intel® 的服務(wù)器。我們也希望能夠支持采用 IBM 邏輯分區(qū)(LPAR)的PowerPC 平臺和 AIX 操作環(huán)境虛擬,以及采用 Solaris™ container 的 SPARC。

•單一儀表板。我們目前的管理環(huán)境主要依賴 Virtual Center 檢測和管理 VMware 服務(wù)器/虛擬機,以及 NetApp Operations Manager 檢測和管理存儲?,F(xiàn)在我們正在積極采用 NetApp SANscreen,以使我們能夠在單一的儀表板上既能看到服務(wù)器也能看到存儲。

•業(yè)務(wù)連續(xù)性。在物理服務(wù)器環(huán)境中進行恢復(fù)是很難的。新的虛擬環(huán)境使我們能夠提供更高水平的業(yè)務(wù)連續(xù)性。我們希望采用 SnapMirror 將所有虛擬機數(shù)據(jù)鏡像至一個單一的 NetApp NearStore® 系統(tǒng)。這樣一來,我們將能夠迅速地從任何服務(wù)器或存儲硬件錯誤中進行恢復(fù),提供數(shù)據(jù)的異地副本進行站點恢復(fù)。

•按需分配服務(wù)器與存儲。我們的最終夢想是創(chuàng)造一個自主服務(wù)的環(huán)境,實現(xiàn)工程師能夠在線詢問服務(wù)器和存儲資源,而且資源無需管理員的參與即可被自動配置。

結(jié)論

雖然我們的轉(zhuǎn)型只進行了一半,但我們已經(jīng)看到虛擬環(huán)境所帶來了大量好處:

•更快的配置。由于我們快速的增長,以前要走在需求前面或者滿足預(yù)料之外的要求很困難。如果一個工程項目需要多個附加的服務(wù)器進行測試,可能需要長達 4 個星期去準備和配置所需要的硬件?,F(xiàn)在我們幾分鐘就可以配置新的虛擬服務(wù)器。

•負載平衡。與配置相似,如果一臺物理服務(wù)器負載過重,通常會是一個痛苦而且很長的重新配置過程?,F(xiàn)在,我們定時檢測 VM,查看性能,如果需要就盡快采用 VMware 工具迅速增補資源。如果某一個 VMware 服務(wù)器負載過高,我們可以使用 VMotion® 移動虛擬機,在最小的間斷內(nèi)重新平衡負載。

•彈性提高。我們現(xiàn)在可以更快地從服務(wù)器/操作系統(tǒng)錯誤中恢復(fù)。如果一個物理服務(wù)器有了硬件錯誤,這顯然會很費時間。如果在 VM 上出現(xiàn)一個錯誤,我們可以很快地重啟。如果一個虛擬服務(wù)器要出現(xiàn)錯誤,我們可以采用 VM 移植快速地在其它虛擬服務(wù)器上重啟它的負載。

•減少宕機時間。VMware 和 NetApp 存儲的維護特點使我們的維護幾乎沒有宕機時間,減少了對工程師的影響。

這些改進最直接的結(jié)果就是一個更加靈活、有彈性的開發(fā)和測試環(huán)境,最終可以提高工程師的生產(chǎn)力,縮短上市時間。認識到這個方法的優(yōu)勢后,其它 NetApp 工程應(yīng)用實驗室也正在采取相似的辦法。

本文作者希望特別感謝整個 NetApp 班加羅爾工程應(yīng)用支持團隊的成員,是他們不知勞累的工作才使這個項目獲得成功。工程支持 Jim Harrigan和 NFS 產(chǎn)品經(jīng)理 Sunita Rao 提供了非常有價值的指導(dǎo)。

John Cherian

現(xiàn)場經(jīng)理,工程支持
NetApp 班加羅爾
John (中)于五年前作為獨立合作者加入班加羅爾工程應(yīng)用支持團隊時,該團隊僅支持五個機架的設(shè)備。作為現(xiàn)場經(jīng)理,他組建了一個目前擁有 24 個成員的團隊,負責約 360 個機架的設(shè)備。John 還在去年領(lǐng)導(dǎo)進行了工程支持全球技術(shù)運行的改進。他具有醫(yī)學教育背景,但出于對技術(shù)的熱衷于12 年前轉(zhuǎn)向 IT 行業(yè)。

Suresh Kumar
資深 UNIX 管理員

NetApp 班加羅爾
Suresh(右)作為 UNIX 管理員已經(jīng)8年,于兩年前加入 NetApp,此前在 HP 工作。在 NetApp,他主要致力于班加羅爾的工程數(shù)據(jù)中心,是 COLD 項目的主要貢獻者之一。

George Stephen
Windows 管理員

NetApp 班加羅爾

George(左)在 NetApp 擔任 Windows 管理員已有 3 年,近兩年專注于虛擬技術(shù)。

 

分享到

cuihao

相關(guān)推薦