•整合和虛擬化的目的
•主要挑戰(zhàn)
•設(shè)置和配置程序
•P2V 遷移
•轉(zhuǎn)型的現(xiàn)狀
•未來計劃
整合和虛擬化
服務(wù)器和存儲整合通過提高運行效率和有效性可以降低成本,虛擬化則通過提高自動化、可擴展性以及從一個單一平臺提供多種功能或服務(wù)使服務(wù)器和存儲技術(shù)的價值達到最大化。我們新的數(shù)據(jù)中心正在向虛擬化的模式邁進,該模式將使我們能夠利用更加強大的技術(shù)滿足不斷變化的工程應(yīng)用需求,滿足業(yè)務(wù)增長或者降低的要求。虛擬化技術(shù)為我們的數(shù)據(jù)中心增加了價值,提高了靈活性、可擴展性、易管理性以及響應(yīng)能力。
虛擬化使 IT 能夠在更加經(jīng)濟的規(guī)模下運行,最大化利用現(xiàn)有資源,就算基礎(chǔ)設(shè)施的增長速度非常快,也能夠有效地被管理。我們在決定選用 VMware 配合 NetApp® 存儲之前評估了多個虛擬化解決方案。最后我們選擇 VMware,原因是它支持的客戶運行系統(tǒng)的范圍很廣,這對我們這個項目非常關(guān)鍵。
最初的挑戰(zhàn)
在起始階段,要推進項目我們必須解決眾多結(jié)構(gòu)和技術(shù)方面的挑戰(zhàn)。
有限的預(yù)算。首先,由于我們的預(yù)算是有限的,這個虛擬化項目必須以最少的設(shè)備開始。項目最初是以兩臺租用的服務(wù)器(已安裝有 VMware ESX 服務(wù)器)和一個獨立 NetApp FAS3050 存儲系統(tǒng)開始。這使我們有足夠的設(shè)備做一個概念驗證(proof of concept,即POC)。這些租用的服務(wù)器通過加大的內(nèi)存進行了升級,所以可以處理更多的虛擬機。
工程師們的擔心。工程師們在開始的時候持懷疑態(tài)度。他們不相信一個虛擬的機器能夠處理他們原來習慣使用的物理服務(wù)器所處理的工作。而且每個工程項目的需求都是獨特的,所以更增加了這個問題的復(fù)雜性。然而,使用僅僅兩臺最初的虛擬服務(wù)器,我們成功地說服了大部分工程師,使項目得以進行下去。
網(wǎng)絡(luò)集成。掃除了這個障礙后,我們開始商量如何在現(xiàn)有環(huán)境中集成一個虛擬服務(wù)器。工程應(yīng)用實驗室網(wǎng)絡(luò)的設(shè)計旨在最小化第 2 層廣播。接入層交換機配置了多重 VLAN,向上連接至使用第3層的核心骨干交換機。(這個網(wǎng)絡(luò)架構(gòu)相當于一個校園網(wǎng),每個功能/院系使用一個單獨的 VLAN。)
我們有兩個選擇:在每個 VLAN 上提供一個單獨的 ESX 服務(wù)器,或修改網(wǎng)絡(luò)布局。如果是前一種情況,資源將無法完全利用。我們會需要更多的 ESX 授權(quán),而且管理也會更加困難。但是,第二種方案更加復(fù)雜,而且需要很長的宕機時間來完成。
在與我們的網(wǎng)絡(luò)合作伙伴和工程客戶進行大量的討論后,我們最后決定采用包含有一個整合虛擬服務(wù)器群的解決方案,可以放置我們所有的 ESX 服務(wù)器、存儲系統(tǒng)和網(wǎng)絡(luò)閘,而且可連接至每個項目的 VLAN。
圖1)虛擬服務(wù)器群和網(wǎng)絡(luò)設(shè)置
虛擬服務(wù)器群設(shè)置和配置
在設(shè)計這個設(shè)置的時候,我們遵從 TR-3428:NetApp 和 VMware 虛擬基礎(chǔ)架構(gòu) 3:存儲最佳實踐。我們的虛擬基礎(chǔ)架構(gòu)已經(jīng)擁有一個由8 個服務(wù)器組成的群和一個 NetApp FAS3050 集群,擁有 436 臺虛擬機,支持 17 個工程團隊。至今我們已經(jīng)完成了 150 個物理至虛擬(P2V)轉(zhuǎn)換和 100 個 GSX 至 ESX 遷移。以前我們曾在一些項目上采用 VMware GSX 很有限、分散地進行過虛擬化。基本上我們是每個物理服務(wù)器擁有 4-5 個虛擬機。
資源池通過 VMware Virtual Center 設(shè)置,以聚合和管理多組以組為單位的虛擬機。每個組的網(wǎng)絡(luò)連接由 2 個 1GB 的網(wǎng)絡(luò)端口提供,兩個端口組合在一起以進行負載平衡和冗余。
我們的集群 FAS3050 配備有 4 個磁盤架,采用 300GB FC 驅(qū)動和多路徑,以應(yīng)對存儲故障。該存儲系統(tǒng)的網(wǎng)絡(luò)端口采用 NetApp VIF,以處理冗余和進行負載均衡。
所有 ESX 數(shù)據(jù)存儲都采用 NFS 在該存儲系統(tǒng)中進行。我們選擇 NFS 因為它性價比高,而且很容易配置和管理。光纖通道數(shù)據(jù)存儲可能需要額外的硬件,如 FC 交換機、HBA、線纜,而我們由于預(yù)算有限所以可能無法滿足。此外,采用 NFS 數(shù)據(jù)存儲的性能與 FC 的性能是具有可比性的。
新的虛擬機配置有 NetApp rapid cloning utility version 1。該過程利用了NetApp FlexClone®,因此類似的虛擬機可以分享同一個存儲,而無須浪費很多的空間重存儲同一個操作系統(tǒng)的文件。你可以在最近的一篇 Tech OnTap 文章中了解更多該過程,該文章介紹了同樣的過程,只不過針對的是 VMware 虛擬桌面。
從物理機遷移至虛擬機
由于工程應(yīng)用團隊要求現(xiàn)有服務(wù)器配置保持不變,當我們在將服務(wù)器從物理機遷移至虛擬機的過程中,我們面臨保持主機命名、IP 地址、操作系統(tǒng)配置不變的挑戰(zhàn)。
為了完成這些遷移,我們首先將每個組的數(shù)據(jù)網(wǎng)絡(luò)擴展至虛擬服務(wù)器群。P2V 轉(zhuǎn)換通過使用 VMware Virtual Center 實現(xiàn)。大部分遷移在周末或節(jié)假日進行,以降低宕機時間。定期檢測新的虛擬機,確保性能。我們還與團隊密切合作,以防止出現(xiàn)性能問題,并在需要的情況下分配更多的資源給虛擬機。
現(xiàn)狀
我們定期監(jiān)測虛擬機的增長和物理服務(wù)器的逐漸退役數(shù)量,并且用圖表標注出來。我們計劃在未來 6 至 9 個月內(nèi)把物理服務(wù)器的數(shù)目降低至 500 臺。同期虛擬機數(shù)量預(yù)計將增至 1,500。我們預(yù)計將所有 1,500 臺虛擬機放置至 20 臺 VMware ESX 服務(wù)器。我們現(xiàn)在 8 臺服務(wù)器支持 450 個虛擬機,平均的 CPU 和內(nèi)存使用率約為 30%,因此有很多余量支持更多的虛擬機。
圖 2)轉(zhuǎn)型進程
未來計劃
我們對目前所取得的進展感到非常高興,而且已經(jīng)能夠看到因為虛擬環(huán)境所帶來的額外的機會:
•多平臺支持。我們目前的環(huán)境僅僅包括基于 Intel® 的服務(wù)器。我們也希望能夠支持采用 IBM 邏輯分區(qū)(LPAR)的PowerPC 平臺和 AIX 操作環(huán)境虛擬,以及采用 Solaris™ container 的 SPARC。
•單一儀表板。我們目前的管理環(huán)境主要依賴 Virtual Center 檢測和管理 VMware 服務(wù)器/虛擬機,以及 NetApp Operations Manager 檢測和管理存儲?,F(xiàn)在我們正在積極采用 NetApp SANscreen,以使我們能夠在單一的儀表板上既能看到服務(wù)器也能看到存儲。
•業(yè)務(wù)連續(xù)性。在物理服務(wù)器環(huán)境中進行恢復(fù)是很難的。新的虛擬環(huán)境使我們能夠提供更高水平的業(yè)務(wù)連續(xù)性。我們希望采用 SnapMirror 將所有虛擬機數(shù)據(jù)鏡像至一個單一的 NetApp NearStore® 系統(tǒng)。這樣一來,我們將能夠迅速地從任何服務(wù)器或存儲硬件錯誤中進行恢復(fù),提供數(shù)據(jù)的異地副本進行站點恢復(fù)。
•按需分配服務(wù)器與存儲。我們的最終夢想是創(chuàng)造一個自主服務(wù)的環(huán)境,實現(xiàn)工程師能夠在線詢問服務(wù)器和存儲資源,而且資源無需管理員的參與即可被自動配置。
結(jié)論
雖然我們的轉(zhuǎn)型只進行了一半,但我們已經(jīng)看到虛擬環(huán)境所帶來了大量好處:
•更快的配置。由于我們快速的增長,以前要走在需求前面或者滿足預(yù)料之外的要求很困難。如果一個工程項目需要多個附加的服務(wù)器進行測試,可能需要長達 4 個星期去準備和配置所需要的硬件?,F(xiàn)在我們幾分鐘就可以配置新的虛擬服務(wù)器。
•負載平衡。與配置相似,如果一臺物理服務(wù)器負載過重,通常會是一個痛苦而且很長的重新配置過程?,F(xiàn)在,我們定時檢測 VM,查看性能,如果需要就盡快采用 VMware 工具迅速增補資源。如果某一個 VMware 服務(wù)器負載過高,我們可以使用 VMotion® 移動虛擬機,在最小的間斷內(nèi)重新平衡負載。
•彈性提高。我們現(xiàn)在可以更快地從服務(wù)器/操作系統(tǒng)錯誤中恢復(fù)。如果一個物理服務(wù)器有了硬件錯誤,這顯然會很費時間。如果在 VM 上出現(xiàn)一個錯誤,我們可以很快地重啟。如果一個虛擬服務(wù)器要出現(xiàn)錯誤,我們可以采用 VM 移植快速地在其它虛擬服務(wù)器上重啟它的負載。
•減少宕機時間。VMware 和 NetApp 存儲的維護特點使我們的維護幾乎沒有宕機時間,減少了對工程師的影響。
這些改進最直接的結(jié)果就是一個更加靈活、有彈性的開發(fā)和測試環(huán)境,最終可以提高工程師的生產(chǎn)力,縮短上市時間。認識到這個方法的優(yōu)勢后,其它 NetApp 工程應(yīng)用實驗室也正在采取相似的辦法。
本文作者希望特別感謝整個 NetApp 班加羅爾工程應(yīng)用支持團隊的成員,是他們不知勞累的工作才使這個項目獲得成功。工程支持 Jim Harrigan和 NFS 產(chǎn)品經(jīng)理 Sunita Rao 提供了非常有價值的指導(dǎo)。
John Cherian 現(xiàn)場經(jīng)理,工程支持 |
Suresh Kumar NetApp 班加羅爾 |
George Stephen NetApp 班加羅爾 George(左)在 NetApp 擔任 Windows 管理員已有 3 年,近兩年專注于虛擬技術(shù)。 |