數據是企業(yè)的命脈,因此保護數據至關重要。數據庫系統(tǒng)已成為最主流的數據處理工具之一,并且是企業(yè)處理數據時工作流程的核心。中國信通院曾預計,全球數據庫市場在 2025 年將達到 798 億美元,中國數據庫市場將達到 688 億元人民幣,復合年增長率(CAGR)將達到 23.4%。
數據庫備份是數據庫管理員(DBA)用來確保數據持續(xù)可用的方法之一。這個過程包括從數據庫中復制數據和模式,并保存在其他地方以便日后檢索。但如同其他 IT 流程,企業(yè)在備份數據庫時也需要考慮成本、收益和相關的風險。
為什么備份數據庫十分重要?
備份數據在恢復數據時發(fā)揮著巨大的作用。根據 IDC 的報告,2021 年上半年中國數據備份與恢復市場與去年同期相比增長了 22.5%,市場規(guī)模達到了 2.5 億美元,顯示出中國在數據備份和恢復方面的旺盛需求。如果沒有備份數據庫,一旦出了問題,企業(yè)就無法恢復數據,可能會導致?lián)p失慘重的后果。盡管無法恢復數據十分危險,這個情況卻很常見。比如我們?yōu)g覽論壇時,經常會發(fā)現網上到處都有人在問他們的數據去了哪里,以及如何才能找回數據。如果他們最近沒有備份,那就肯定找不回數據。
備份數據庫的另一個重要原因是數據安全。假如一家企業(yè)遭受勒索軟件攻擊,就必須把攻擊前后的重要數據劃分清楚。數據恢復可以提供一份未被攻擊過的原始數據,讓企業(yè)“倒轉時間”。如果勒索軟件攻擊加密了一家企業(yè)的數據并造成了系統(tǒng)癱瘓,該企業(yè)可以將備份恢復成全新的系統(tǒng)來規(guī)避攻擊。但如果沒有備份,企業(yè)就無法恢復數據,也就無法維持其業(yè)務運行。
企業(yè)備份數據的成本
不同的企業(yè)對于數據庫備份的成本有著不同的考量。
例如,負責系統(tǒng)的數據庫管理員知道其公司在今年的前三周沒有進行任何備份。那么一旦出了問題,數據庫管理員就必須向公司解釋為什么需要重新輸入這三周的交易記錄——畢竟他們只能恢復截止到 12 月 31 日的數據。如果數據庫管理員在出問題之前沒有做好備份,企業(yè)就得考慮重新輸入大量數據的成本。
這也會給數據庫管理員帶來成本。如果他們負責經常備份數據庫,沒有備份就可能帶來不良影響。無論是面對憤怒的經理還是丟掉工作,不備份數據庫都會給數據管理員個人帶來很高的損失成本。
另一個需要考慮的成本是數據存儲成本,即企業(yè)用于備份數據庫的媒介。無論企業(yè)購買的是異地存儲還是云存儲,都會產生相應成本。另外,企業(yè)必須考慮與其恢復時間目標(RTO)相關的成本——如果一個重要環(huán)節(jié)癱瘓了一小時,企業(yè)會遭受多少損失?在這段時間內又會損失多少銷售額?
企業(yè)需要實現一種微妙的平衡:為了更好地存儲數據而支付更多的錢,并進行更頻繁的數據庫備份,可以幫助企業(yè)減少恢復數據時可能失去的業(yè)務,但這是否抵得上最初投入的成本?這是所有企業(yè)都應該考慮的問題,尤其是在數據量不斷增加的情況下。值得慶幸的是,企業(yè)可以采取一些措施來經濟有效地管理數據庫備份。
從備份中恢復數據庫
數據庫管理員的一項重要工作,是通過定期恢復數據庫來保證在關鍵時刻也可以及時恢復數據。如果數據庫管理員要負責成千上萬個數據庫該怎么辦?不可能每次把每個數據庫都恢復一遍,這樣做也不值得。
由于不可能每次都恢復所有的數據庫,所以數據庫管理員必須明確需要定期恢復的數據庫數量,以實現成本最小化,同時在出現問題時最大化恢復所有數據庫的概率。根據統(tǒng)計抽樣,在任意一天恢復少量隨機選擇的數據庫(也許只有幾十個),就可以讓數據庫管理員有 95% 的概率恢復所有備份。
另一個與此相關的成本是時間成本——需要時間來確定數據恢復的流程并定期測試這種隨機恢復。但如果數據庫管理員沒有建立這個流程,企業(yè)會付出怎樣的代價?顯而易見,一旦在沒有有效備份的情況下出錯,企業(yè)就會遭受巨大的損失。所以數據庫管理員對于數據備份的堅持不是毫無道理的,對于他們來說,最糟糕的事情就是丟失企業(yè)的所有數據,同時因為沒有備份而束手無策。
常見和最佳的數據庫備份措施
一些常見的數據庫備份措施并不是最佳的。我們有時候有捷徑可走,有時候又常常不知道自己應該如何開始。下面是一些企業(yè)在大部分(但不是全部)情況下可以采用的最佳實踐:
數據庫管理員可以采用的一個最佳方案是對其數據庫備份文件進行加密或密碼保護。但數據庫管理員一般不這么做,而大多數 IT 人員也只是進行本地備份。
盡管如此,對備份數據進行加密仍然非常重要。如果有人得到了備份的訪問權限,他們就可以拿走所有數據并在另一個系統(tǒng)中恢復。使用密碼保護文件至少有助于保證數據的安全。當然,加密備份文件也會產生相應成本。企業(yè)必須考量為了避免備份后被盜而付出這個成本是否值得。
另一個需要牢記的最佳方案是確保備份不干擾其他工作負載。理論上,備份不應當影響機器內部發(fā)生的任何其他操作。如果備份正在被寫入一個與其他共享系統(tǒng)一起存儲的文檔,那么整個寫入過程都可能成為巨大的瓶頸。
備份還會占用網絡帶寬。如果數據庫管理員每天在同一時間運行備份,就會拖慢其他人的工作。交錯備份(比如在凌晨 1 點備份一批服務器,在凌晨 2 點備份另一批,以此類推)可以幫助數據庫管理員避免占用網絡和給其他系統(tǒng)帶來問題。
如同其他 IT 流程,企業(yè)在備份數據庫時也需要考慮成本、收益和相關風險。定期備份和恢復會有經濟成本,而完全不備份則會影響企業(yè)的收入和聲譽。數據庫管理員最不希望在出現問題時,因為沒有備份而產生數據丟失風險。企業(yè)必須了解數據備份解決方案的重要性,才能謹慎地平衡成本與風險。