Steve Lawler
NetApp技術(shù)營(yíng)銷(xiāo)工程師Steve 一直致力于高可用性存儲(chǔ)配置工作。他擁有 15 年以上的行業(yè)經(jīng)驗(yàn),以前曾在電信公司就職,取得了支持企業(yè)級(jí)客戶(hù)的豐富經(jīng)驗(yàn)。
Haripriya NetApp技術(shù)營(yíng)銷(xiāo)工程師
Haripriya 專(zhuān)攻存儲(chǔ)彈性領(lǐng)域,包括磁盤(pán)驅(qū)動(dòng)器和磁盤(pán)架。她曾在 Hewlett-Packard 公司就職,當(dāng)時(shí)主攻 RAID 和存儲(chǔ)問(wèn)題。Haripriya 擁有計(jì)算機(jī)科學(xué)碩士學(xué)位,目前正在攻讀 MBA。
經(jīng)過(guò)數(shù)年的努力,NetApp 存儲(chǔ)贏得了簡(jiǎn)單、易于管理、彈性以應(yīng)對(duì)影響數(shù)據(jù)可用性的問(wèn)題的美好聲譽(yù)。要達(dá)到最高的彈性級(jí)別,應(yīng)遵循各種最佳實(shí)踐。
NetApp 最近發(fā)布了一份技術(shù)報(bào)告,報(bào)告中提供了關(guān)于存儲(chǔ)彈性最佳實(shí)踐的完整詳細(xì)信息。在本文中我們介紹了一些提示,您可以利用這些提示來(lái)增強(qiáng)您的 NetApp 存儲(chǔ)彈性:
多路徑高可用性為單控制器和雙主動(dòng)模式配置提供存儲(chǔ)控制器與磁盤(pán)之間的冗余路徑。擁有第二條通向存儲(chǔ)的路徑,就可以在各種潛在故障發(fā)生之時(shí)予以保護(hù),例如:
圖 1) 主動(dòng)/主動(dòng)控制器配置中的多路徑 HA |
即使在群集的 NetApp 存儲(chǔ)系統(tǒng)(主動(dòng)/主動(dòng)或 HA 配置)中,多路徑 HA 也可以降低故障轉(zhuǎn)移的發(fā)生機(jī)率,提高可用性。 通過(guò)提供通向存儲(chǔ)的雙倍帶寬,在光纖通道至磁盤(pán)架的路徑過(guò)載的情況下,多路徑 HA 還可提供潛在的性能優(yōu)勢(shì)。在需要重建的時(shí)候以及在使用 1Gbit/sec 光纖通道連接的舊系統(tǒng)中,這一性能優(yōu)勢(shì)尤其重要。 在許多情況下,存儲(chǔ)系統(tǒng)上的空閑 FC 端口已經(jīng)可用,因此新增一部分電纜費(fèi)用即可添加多路徑 HA。這是一筆很小的支出,但可帶來(lái)潛在的巨額彈性回報(bào)。 |
在 NetApp 存儲(chǔ)中,如果磁盤(pán)發(fā)生故障,則會(huì)自動(dòng)觸發(fā)將受影響的數(shù)據(jù)奇偶校驗(yàn)重建到熱備用磁盤(pán)中,前提是假設(shè)備用磁盤(pán)可用。如果沒(méi)有備用磁盤(pán)可用,則不可能執(zhí)行自我修復(fù)操作。系統(tǒng)將以降級(jí)模式運(yùn)行(通過(guò)使用奇偶校驗(yàn)信息重建數(shù)據(jù)的方式來(lái)滿(mǎn)足對(duì)故障磁盤(pán)上的數(shù)據(jù)請(qǐng)求),直至提供備用磁盤(pán)或更換了故障磁盤(pán)。在此期間,萬(wàn)一再次發(fā)生故障,您的數(shù)據(jù)丟失的風(fēng)險(xiǎn)大大增加。(如果采用 NetApp RAID-DPTM,以降級(jí)模式運(yùn)行的 RAID 組可承受再次發(fā)生的磁盤(pán)故障,并且數(shù)據(jù)不會(huì)丟失。)
所需的備用盤(pán)數(shù)量隨連接到存儲(chǔ)系統(tǒng)的磁盤(pán)驅(qū)動(dòng)器數(shù)量而變化。對(duì)于使用單個(gè)磁盤(pán)架的較低端 FAS200 或 FAS2000,一個(gè)備用磁盤(pán)足以滿(mǎn)足要求(如果要使用維護(hù)中心,則配置兩個(gè))。在 FAS6080 上,在 1,176 個(gè)磁盤(pán)的最大盤(pán)數(shù)下,需要更多備用磁盤(pán)來(lái)確保最大的存儲(chǔ)彈性,尤其是對(duì)于重建時(shí)間更長(zhǎng)的更大容量的 SATA 磁盤(pán),更是如此。
NetApp 建議為每個(gè)磁盤(pán)類(lèi)型(每 100 個(gè)磁盤(pán)驅(qū)動(dòng)器)使用兩個(gè)備用磁盤(pán),磁盤(pán)類(lèi)型由唯一的接口類(lèi)型(FC、SATA 或 SAS)、容量和轉(zhuǎn)速來(lái)確定。例如,您有一個(gè)系統(tǒng),系統(tǒng)中包含 28 個(gè) 300GB 15K FC 磁盤(pán)以及 28 個(gè) 144GB 15K FC 磁盤(pán),則應(yīng)提供四個(gè)備用磁盤(pán):兩個(gè) 300GB 容量,兩個(gè) 144GB 容量。
以后每添加 84 個(gè)磁盤(pán),還應(yīng)當(dāng)再分配一個(gè)熱備盤(pán)到備用池。下表提供了一些附加示例來(lái)說(shuō)明此方案。(下表假設(shè)所有磁盤(pán)的類(lèi)型相同。)
磁盤(pán)架數(shù) |
磁盤(pán)數(shù) |
建議的備用盤(pán)數(shù) |
6 |
84 |
2 |
8 |
112 |
3 |
12 |
168 |
3 |
24 |
336 |
4 |
36 |
504 |
6 |
72 |
1,008 |
12 |
2 |
28 |
2 |
表 1) 根據(jù)相同類(lèi)型的給定磁盤(pán)數(shù)選擇合適的備用盤(pán)數(shù)。 |
請(qǐng)注意,如果正在使用 NetApp 維護(hù)中心,則至少需要為系統(tǒng)中的每種磁盤(pán)類(lèi)型提供兩個(gè)備用磁盤(pán)。維護(hù)中心會(huì)對(duì)磁盤(pán)驅(qū)動(dòng)器執(zhí)行主動(dòng)的運(yùn)行狀況監(jiān)控,當(dāng)達(dá)到某些事件閾值時(shí),它會(huì)嘗試對(duì)可疑磁盤(pán)驅(qū)動(dòng)器進(jìn)行預(yù)防性維護(hù)。需要兩個(gè)備用磁盤(pán),可疑磁盤(pán)驅(qū)動(dòng)器才能進(jìn)入維護(hù)中心進(jìn)行診斷。
如果需要的彈性級(jí)別甚至高于 HA 和 RAID-DP 提供的彈性級(jí)別,請(qǐng)考慮使用本地或 MetroCluster 配置的 SyncMirror。
本地 SyncMirror 提供同一個(gè)存儲(chǔ)控制器上兩個(gè)不同傳統(tǒng)卷或聚合之間的同步鏡像,以確保數(shù)據(jù)的重復(fù)副本存在。自 Data ONTAP® 6.2 起此功能可用。SyncMirror 提供的鏡像在 RAID 層保護(hù)(V 系列中的 RAID 4、RAID-DP 或 RAID 0)之上。
SyncMirror 在兩個(gè)鏡像的存儲(chǔ)池(稱(chēng)為叢)之間條帶化數(shù)據(jù),這樣可以改善磁盤(pán)負(fù)荷的讀取性能。它可以在鏡像間的多個(gè)磁盤(pán)同時(shí)發(fā)生故障時(shí)提供更強(qiáng)保護(hù)。使用 RAID-DP 的 SyncMirror 的容錯(cuò)能力很強(qiáng),它可在鏡像的 RAID 組中有多達(dá)五個(gè)磁盤(pán)同時(shí)發(fā)生故障時(shí)仍確保數(shù)據(jù)的可用性。由于 SyncMirror 采用本機(jī) NetApp SnapshotTM 技術(shù)來(lái)維護(hù)同步的檢查點(diǎn),在與一個(gè)叢的連接丟失之后重新同步所花費(fèi)的時(shí)間將更少。只有在最新的 Snapshot 檢查點(diǎn)之后更改過(guò)的數(shù)據(jù)才需要同步。
如果與 MetroCluster 配合使用,SyncMirror 還提供地理災(zāi)害的容災(zāi)能力。SyncMirror 需要作為 MetroCluster 的一部分,才能確保在源數(shù)據(jù)中心不可用時(shí),遠(yuǎn)程數(shù)據(jù)中心中仍存在一份相同的數(shù)據(jù)副本。如果在主動(dòng)/主動(dòng)模式配置中使用,SyncMirror 可提供最高的彈性級(jí)別,以確保數(shù)據(jù)持續(xù)可用。
配置存儲(chǔ)系統(tǒng)具有主動(dòng)/主動(dòng)存儲(chǔ)控制器的 HA 架構(gòu),是消除單點(diǎn)故障和提高彈性的好方法。除消除潛在的計(jì)劃外停機(jī)時(shí)間之外,這些配置還可以減少在不間斷升級(jí)期間的計(jì)劃停機(jī)時(shí)間。
不間斷升級(jí) (NDU) 使您可以通過(guò)執(zhí)行滾動(dòng)升級(jí),在盡可能不中斷客戶(hù)端數(shù)據(jù)訪(fǎng)問(wèn)的情況下透明地升級(jí)主動(dòng)/主動(dòng)存儲(chǔ)系統(tǒng)中的任何組件(軟件、磁盤(pán)和磁盤(pán)架固件、硬件組件等)。為執(zhí)行不間斷升級(jí),開(kāi)始之時(shí)應(yīng)從各項(xiàng)因素(包括許可證、網(wǎng)絡(luò)訪(fǎng)問(wèn)和配置的協(xié)議)確定兩個(gè)存儲(chǔ)控制器是相同的。您可以從最新的技術(shù)報(bào)告中了解關(guān)于 NDU 的更多信息。
確保升級(jí)順暢進(jìn)行的最佳做法是預(yù)先妥善檢查系統(tǒng),以確保系統(tǒng)符合 NDU 要求。如果符合這些要求,則還應(yīng)確保 HA 系統(tǒng)采用優(yōu)化配置,以提供可能的最大彈性和數(shù)據(jù)可用性。NetApp 提供了一組自動(dòng)化工具使此想法成為可能,如下節(jié)所述。
不管是采用群集的 HA 存儲(chǔ)系統(tǒng)還是單控制器配置,特別是在升級(jí)之前,請(qǐng)務(wù)必確保安裝的硬件、固件和軟件是正確的。您可能有數(shù)十個(gè)磁盤(pán)架和數(shù)百或數(shù)千個(gè)磁盤(pán),此任務(wù)可不是小菜一碟。幸運(yùn)的是,NetApp 全球服務(wù) (NGS) 開(kāi)發(fā)了一組工具以將這些流程自動(dòng)化,否則這可真是一件乏味而易出錯(cuò)的工作。定期運(yùn)行這些工具可以提高存儲(chǔ)系統(tǒng)的彈性并簡(jiǎn)化操作。
此工具將檢測(cè)并找出故障轉(zhuǎn)移問(wèn)題的最常見(jiàn)配置原因:
群集配置檢查程序也可作為 NetApp Operations Manager 的一部分提供。
升級(jí)顧問(wèn)設(shè)計(jì)為一次性解決方案,以使存儲(chǔ)系統(tǒng)符合 Data ONTAP 升級(jí)要求。此工具使用實(shí)時(shí)的 AutoSupport 數(shù)據(jù),首先將確定系統(tǒng)合格相關(guān)的每條警告和要求的過(guò)程(通常是一個(gè)痛苦的手工過(guò)程)自動(dòng)化,然后生成逐步升級(jí)計(jì)劃,以在升級(jí)和停止升級(jí)時(shí)使用。
升級(jí)顧問(wèn)的公共版本通過(guò) Premium AutoSupport 界面向客戶(hù)提供,后者在購(gòu)買(mǎi) SupportEdge Premium 時(shí)已包括在內(nèi)。其他客戶(hù)可通過(guò) NGS 或 NetApp 專(zhuān)業(yè)服務(wù),間接使用升級(jí)顧問(wèn)讓他們的環(huán)境符合要求。
圖 2) 升級(jí)顧問(wèn) |
除非太遲,否則請(qǐng)勿認(rèn)為存儲(chǔ)系統(tǒng)理所當(dāng)然是有彈性的。采取本文所述的一些前瞻性步驟,可以進(jìn)一步提高存儲(chǔ)系統(tǒng)的彈性。多路徑 HA 消除了至后端存儲(chǔ)的單點(diǎn)故障,有助于改進(jìn)性能的一致性。配置合適的備用盤(pán)數(shù)可確保當(dāng)磁盤(pán)發(fā)生故障時(shí)立即開(kāi)始磁盤(pán)重建,限制無(wú)保護(hù)風(fēng)險(xiǎn)。SyncMirror 為關(guān)鍵數(shù)據(jù)操作提供可能的最大彈性。NDU 減少或消除了升級(jí)和增強(qiáng)期間的計(jì)劃停機(jī)時(shí)間,使用自動(dòng)化工具的定期系統(tǒng)驗(yàn)證可確保配置正確無(wú)誤,同時(shí)簡(jiǎn)化升級(jí)規(guī)劃。