規(guī)劃數(shù)據(jù)中心搬遷通常會先由IT或數(shù)據(jù)中心運營部門起頭,近年來,隨著IT業(yè)的發(fā)展,數(shù)據(jù)中心的設備越來越多,耗電量居高不下,產(chǎn)生的熱量對制冷系統(tǒng)也提出了嚴格的要求,許多數(shù)據(jù)中心的基礎配套系統(tǒng)幾乎總是高負荷運轉。
這個現(xiàn)實是驅(qū)動數(shù)據(jù)中心搬遷的主要動力,在中小型數(shù)據(jù)中心,如機架數(shù)小于100,IT設備通常是隨意放置的,最初可能是按照某種邏輯分組方式放置的(如按應用,部門或功能),但隨時間推移,新增IT設備可能就不會嚴格遵循以前的邏輯放置了,也可能是按原來的邏輯根本沒有擺放位置了,因此時間久了,誰也說不清哪是哪了。
如果中間某條線路出現(xiàn)故障,很可能會引發(fā)連鎖反應,導致大面積服務中斷。制定數(shù)據(jù)中心搬遷計劃時會嚴重依賴于數(shù)據(jù)中心現(xiàn)有的說明文檔,那些文檔中未描寫的地方就只能依靠管理員和業(yè)主頭腦中的記憶,以及設計人員自己的經(jīng)驗了。
搬家方法多種多樣
搬遷的方法有多種,但通常使用下面三種方法:
1、升降式搬遷
這是最簡單的辦法,先驗證系統(tǒng)工作是否正常,然后對系統(tǒng)進行備份,備份成功后關機,再用運輸工具搬運到目的地,在目的地安裝好后加電啟動。
2、搖擺式搬遷
這個方法比較復雜,必須在目標數(shù)據(jù)中心建立臨時系統(tǒng),然后從源數(shù)據(jù)中心向目標復制數(shù)據(jù),數(shù)據(jù)轉移完后將源數(shù)據(jù)中心設備關閉,裝箱運輸?shù)侥繕藬?shù)據(jù)中心。
如果從源數(shù)據(jù)中心運輸過來的設備在目標數(shù)據(jù)中心工作正常,臨時系統(tǒng)的使命就算完成了,當運輸時間超過企業(yè)容忍的最長停機時間時,一般會采用這種方法。
3、邏輯搬遷
邏輯搬遷法不會移動物理設備,一般是針對虛擬機的轉移,或者是將原來的物理系統(tǒng)遷移到虛擬平臺,這種搬遷方法需要在目標數(shù)據(jù)中心建設虛擬機托管平臺,執(zhí)行P2V(物理到虛擬)轉換,或直接轉移源數(shù)據(jù)中心的虛擬機(VM),但在規(guī)劃邏輯搬遷時,必須列出源和目標的映射關系,特別是VM數(shù)量較多時,需要編號加以標識,同時還需要測量VM的工作負載,落實到每臺物理服務器上托管哪些VM,是否需要集群等。
一般說來,應先從邏輯上搬遷應用,數(shù)據(jù)庫或虛擬機等,然后再搬遷物理設備。
沒用的該扔就扔
許多組織發(fā)現(xiàn)有些設備不用轉移,因為這些設備可能已經(jīng)抵達其生命周期的末尾,也可能是因為通過虛擬化被取代了。
通過裝箱演習可以明確哪些設備需要搬遷,哪些不需要搬遷,需要什么設備進行周轉等,從而計算出目標數(shù)據(jù)中心需要準備多大的空間,電力和制冷容量。
此外,目標數(shù)據(jù)中心可能需要另外購置機架,因為從源數(shù)據(jù)中心拆卸,裝箱,運輸?shù)侥繕藬?shù)據(jù)中心再安裝,完成之后再安裝設備,這樣整個搬遷過程耗時可能會很長,一般情況下是不允許有這么長的停機時間的。
有些公司可能會保留源數(shù)據(jù)中心的全部機架,在新數(shù)據(jù)中心統(tǒng)一部署更先進的機架系統(tǒng),如帶傳感器的機架,不僅外形更加美觀,在安全性方面也有質(zhì)的飛躍。
在設計新數(shù)據(jù)中心時,應該將現(xiàn)數(shù)據(jù)中心暴露出來的缺點仔細研究,想法避免或克服,并汲取其它優(yōu)秀數(shù)據(jù)中心的設計精髓,提高新數(shù)據(jù)中心的服務能力。
一個需要特殊考慮的是線纜(OSI 1層),數(shù)據(jù)中心搬遷一般會重新規(guī)劃和部署新的線纜,在這一環(huán),必須注意線纜的顏色選擇和標記,明確每個機架的線纜來源和走線路徑,以后進行故障診斷和排除故障時,一個小小的標簽就可以節(jié)省大量的時間。
運輸途中小心磕碰
與做計劃比起來,實際執(zhí)行搬遷可能更加痛苦,特別是要找對物流合作伙伴,包括裝箱,搬運,卸載等都需要仔細和認真,與搬運一般的耐用品不一樣,稍有不慎,如摔倒,倒置等都可能損壞設備,此外,還應該制定精確的調(diào)度計劃和執(zhí)行時間表,總之要管理和協(xié)調(diào)好搬遷的物流工作。
調(diào)度需要與業(yè)務部門和最終用戶做好協(xié)調(diào)工作,制定調(diào)度計劃時必須考慮業(yè)務容許的最大停機時間。
當應用程序或數(shù)據(jù)庫脫機時就算開始停機了,總的停機時間包括搬遷設備,執(zhí)行和驗證備份,復制數(shù)據(jù)(需要時),關閉系統(tǒng),裝箱和運輸,重新上架和初始化需要的時間,在這個時間表上,還需要有相應的回滾計劃。
許多設備廠商都提供了搬遷服務,包括重新認證服務,但也有部分廠商的系統(tǒng)需要廠家工程師關機和初始化,這可能需要一定的上門服務費用。因此出現(xiàn)了專門的數(shù)據(jù)中心搬遷服務公司,選擇原廠搬遷服務還是選擇第三方搬遷服務就視具體情況而定了,一般說來第三方的搬遷服務成本相對要低一些。
對設備投保和安全運輸也很關鍵,前面已經(jīng)提到,數(shù)據(jù)中心設備都需要小心輕放,有的特殊設備還需要特殊包裝,如防靜電和電磁輻射,為此有必要對重要設備投保,尋找有經(jīng)驗的裝卸和運輸人員也很重要,選擇合適的運輸工具和運輸路線也很關鍵,一般應選擇集裝箱式的車輛和路況良好的運輸路線。
數(shù)據(jù)中心搬遷現(xiàn)狀
在過去的兩年里,我發(fā)現(xiàn)數(shù)據(jù)中心搬遷的需求越來越多,預計未來數(shù)年會一直延續(xù)這種趨勢,因為IT系統(tǒng)的急劇增長導致早期建設的數(shù)據(jù)中心被迫提前退休,我這兩年看到搬遷的數(shù)據(jù)中心大多服役了10年,一個典型的商業(yè)建筑規(guī)劃使用壽命也就20年,而且今天的設備功率密度在7-10年前是不可想象的,有些分析家預測以后單機架的功率會超過40kW,除非你現(xiàn)在的數(shù)據(jù)中心已經(jīng)能達到那種要求,否則再過幾年你的數(shù)據(jù)中心就會被迫搬遷了。
數(shù)據(jù)中心搬遷是一個高風險的行動,規(guī)劃階段工作做越細,實際執(zhí)行時遇到的問題就會越少,風險也越低。
從開始規(guī)劃到搬遷完畢都需要調(diào)集集體的力量,要知道每個人都與此相關,發(fā)揮集體的智慧才能將事情做好,同時應該成立一個由企業(yè)領導和各部門業(yè)務骨干組成的搬遷委員會,定期召開例會,公布最新進展,部署下一步工作計劃,協(xié)調(diào)各種資源,讓搬遷工作在一個有序組織的環(huán)境下順利開展,搬遷成功的機會才會更大。