IBM 系統(tǒng)與科技事業(yè)部大中華區(qū)總工程師 陳國豪先生為參會用戶帶來了IBM高可用性解決方案以提高業(yè)務(wù)連續(xù)性。

    陳國豪:我在IBM工作主要把一些成熟的產(chǎn)品,成熟的技術(shù),IBM技術(shù)IBM產(chǎn)品跟友商技術(shù)融合在一起,所以我今天的題目是業(yè)務(wù)連續(xù)方面分享我的經(jīng)驗,和大家報告一下業(yè)績成熟的方案和技術(shù)。

    我跟大家報告一下行業(yè)趨勢,我在三個方面一個是高可用性,一個災(zāi)備,和業(yè)務(wù)連續(xù)性來跟各位分享一下。停機對業(yè)務(wù)影響非常嚴(yán)重,我們影響停機和業(yè)務(wù)生產(chǎn)我們總裁都是非常生氣的,這是一個在美國的調(diào)查,大家可能有一個感覺,不同行業(yè)停機影響的應(yīng)用成本是不一樣的,但都是非常嚴(yán)重的,比如我們看一下能源業(yè),停一個小時在美國2001年的時候影響生產(chǎn)280萬美金的成本,銀行業(yè),金融服務(wù)停一小時影響生產(chǎn)成本150萬美金。整體來說整個美國每停一小時企業(yè)就會損失1百萬美金,不同行業(yè)每一個員工平均影響生產(chǎn)力200塊美金一個人,所以影響非常嚴(yán)重。

    所以在過去30年,有不同領(lǐng)域有不同的方式保護我們的生產(chǎn),70年代對數(shù)據(jù)備份做一些保護,到80年代擴展到機房里面高可用性,高可靠性的保護,到90年代談到災(zāi)難備份,現(xiàn)在2000年談到應(yīng)用的連續(xù),每一個階段我們需要了解不同的公司里面的應(yīng)用技術(shù),除了我們技術(shù),我們還需要明白應(yīng)用、流程和公司里面不同部門的關(guān)系,以及了解業(yè)務(wù)的策略是怎樣的。

    在業(yè)界把災(zāi)備分成了七個級別,要是級別比較低,實施的成本也比較低,級別比較高我們實施的方案成本也比較高,在一般的高端企業(yè)面向第六級或第七級。我們進行災(zāi)難恢復(fù)或數(shù)據(jù)恢復(fù)的方案,其實我們IT同仁、企業(yè)IT部門經(jīng)理看重什么因素呢?他們看重應(yīng)用的連續(xù)性,另外看重的是數(shù)據(jù)的備份,這兩個東西非常重要的,90%以上IT同仁都會看重業(yè)務(wù)連續(xù)、數(shù)據(jù)的備份。

    今天全球企業(yè)級用戶做了什么?我們看到40%用戶做了數(shù)據(jù)備份,還沒有做到六級、七級的災(zāi)備,在中國有2/3企業(yè)級用戶有一個災(zāi)備中心,他做了數(shù)據(jù)級別的保護。看一下大型企業(yè)和中小型企業(yè)的分別,有一半大型企業(yè)分別有一個數(shù)據(jù)的災(zāi)備,還有一個災(zāi)備中心,而中小型企業(yè)就沒有一個災(zāi)備中心,可能只有一個數(shù)據(jù)的保護。

    這個是業(yè)界趨勢,有三方面的方案,首先是高可靠性的方案,高可靠性的方案定位就是同一個機房里面所有東西都要冗余保持高可靠性。機房里面有四個不同的模塊,最上面是邊界冗余,下來是服務(wù)器、數(shù)據(jù)服務(wù)器冗余,也有網(wǎng)絡(luò),SAN的冗余,最后是在市場上看到存儲方面的冗余,所以有四個不同的程序,我把在業(yè)界里面跟各位分享成熟的方案和成熟的技術(shù)在這四方面是什么?

    服務(wù)器冗余不同平臺有不同的科技。周邊冗余比較簡單就是第四到第七層交換,還有負(fù)載平衡的環(huán)境。最后看到最近一兩年很多高端企業(yè)都談到存儲的冗余。

    這是簡單的服務(wù)器冗余,在Unix平臺上,雙冗余的服務(wù)器,一個服務(wù)器死掉,我們可以把應(yīng)用擺過來,等修復(fù)好以后可以切回到原來的服務(wù)器里面,這是服務(wù)器冗余。在PC服務(wù)器上也配合做一些PC服務(wù)器需求。在過去一兩年高端企業(yè)對數(shù)據(jù)存儲保護看的很重的,如果服務(wù)器停機一小時之內(nèi)可以備份出來,一旦存儲壞了,我的經(jīng)驗可能運氣好兩小時,運氣不好要一兩天。所以在一些高端行業(yè),全球也開始慢慢做這樣一個方案,有雙冗余在存儲方面,當(dāng)然有不同的做法,左手邊是雙磁盤,右邊是存儲的拷貝來保護。

    同一個中心就可能看到災(zāi)備的環(huán)境,災(zāi)備是非常重要的,回顧過去15年有很多災(zāi)難的事情,美國9.11,去年Hurricane Katrina(Katrina颶風(fēng))在美國,所以災(zāi)難備份對企業(yè)滿需要的,災(zāi)難備份在某個生產(chǎn)周期里面多加一個、兩個災(zāi)備中心。這兩個中心可能同城異地,去實施災(zāi)備的時候,我能允許發(fā)生災(zāi)難的允許掉多少時間的數(shù)據(jù),一秒鐘,還是完全不能掉,還是三、五分鐘可以。通過分析后之后就把剛才定位的七層,可以定位到我需要的災(zāi)備是哪一層。

    要是在企業(yè)級別看到的需求,一般都是第六、第七層災(zāi)備進行的,這里面有四個不同的技術(shù)模塊。第一個是存儲的拷貝,我們需要從一個中心通過存儲的拷貝把數(shù)據(jù)拷貝到另外一個災(zāi)備中心。當(dāng)然拷貝不一定是通過硬件來實現(xiàn)的,也可以通過軟件來實現(xiàn),通過軟件實現(xiàn)的好處是網(wǎng)絡(luò)要求比較低,當(dāng)然它的數(shù)據(jù)丟失可能比較多。有一個很重要的東西,有很多時候都沒有考慮到就是數(shù)據(jù)一致性,要求多臺的存儲在生產(chǎn)中心,要是沒有考慮數(shù)據(jù)一致性,災(zāi)備中心一旦發(fā)生事故,我的數(shù)據(jù)一點沒有丟失,如果沒有數(shù)據(jù)一致性,我的應(yīng)用可能起不來了,所以必須要進行數(shù)據(jù)一致性的考慮,需要不同的技術(shù)來進行這樣的部署,IBM有TPC,重要功能就是做數(shù)據(jù)一致性,IBM高端存儲DS8000可以做到數(shù)據(jù)一致性,所以不同平臺,不同需求有不同的技術(shù)。最后就是自動化,我們在9.11的時候,美國很多中心、很多行業(yè)在紐約都有數(shù)據(jù)災(zāi)備中心,但是起不來,起不來的原因是當(dāng)時IT人員都找不到了,也沒有實施自動化的流程,所以就一天、兩天過去,三天都起不來。所以9.11以后所有行業(yè)都非常重視自動化。

    數(shù)據(jù)拷貝就不多談了,只有兩個可選的東西,一個是同步,一個是異步,同步?jīng)]有數(shù)據(jù)丟失,異步是一點數(shù)據(jù)丟失,IBM一千公里可能丟失3到5秒的數(shù)據(jù),這看你的業(yè)務(wù)量是多少,IBM在大中華區(qū)最遠的一個異步方案是200公里。通過軟件拷貝的解決方案也很多,不同廠家有不同的方案,IBM在高端存儲,高端服務(wù)器有GDPS,通過軟件來進行拷貝的工具,我們在中國大的軟件都是通過軟件的拷貝工具來進行北京上海、或者上海廣州,廣州深圳的數(shù)據(jù)傳輸,支持的數(shù)據(jù)量非常多的,用軟件的好處對網(wǎng)絡(luò)的要求是比較低,比如甲骨文的軟件,有可能15分鐘的數(shù)據(jù)丟失,有可能半個小時。那東西蠻重要的,盡管沒有數(shù)據(jù)丟失我們?yōu)膫渲行暮芸赡芷鸩粊?。給大家一個案例,右手邊流程是我們測試一家國營企業(yè)的銀行,它數(shù)據(jù)非常多是全國的數(shù)據(jù),我們做了一個測試,它有很多臺服務(wù)器,有很多臺的存儲,它的中心是1200公里的距離,自動化工具能在100分鐘之內(nèi)把所有的服務(wù)器重啟、所有的應(yīng)用服務(wù)器啟動,所有的存儲恢復(fù)100分鐘之內(nèi),沒有自動化工具最少要六個小時。所以自動化是非常重要的一個工具,IBM有根據(jù)不同平臺的不同的解決方案,有一些是IBM自己的方案,有一些是我們和友商合作的方案。

    IBM最近提供一些所謂端到端的方案,把友商的科技,把我們的服務(wù),打成一個包,這個包一般面向中小型客戶,這個包做什么?我用一個視頻來說明。 剛才談的是一個服務(wù)包,這是一個打包的端到端的整體服務(wù)解決方案,在Windows平臺,在Unix服務(wù)平臺,我們還有一個在Windows平臺能進行災(zāi)備的方案。

    最后一個方案是業(yè)務(wù)的連續(xù)性,剛才看到高可用性都是面向硬件故障的,都是面向一些災(zāi)難,硬件故障的,其實業(yè)界發(fā)生故障的時候65%不是跟硬件有關(guān)系的,有可能是人工錯誤,或者應(yīng)用發(fā)生問題,有可能是變更管理做得不好,發(fā)生數(shù)據(jù)丟失,那樣的情形導(dǎo)致生產(chǎn)停止的。

    在最近一兩年整個業(yè)界都談到業(yè)務(wù)連續(xù)性,業(yè)務(wù)連續(xù)性是怎樣一個東西?它是從整個企業(yè)考慮,不光是主機和應(yīng)用,不光是人員和流程是整體來考慮的。每個東西都有不同的模塊,在最近幾年在業(yè)務(wù)連續(xù)性方面看到四個不同的方面,一個是信息生命周期管理,另外一個是策略咨詢服務(wù),我們該做什么,不該作什么?什么東西用不同的方法保護,這是IT的決策咨詢服務(wù)。第三個是IT安全與監(jiān)督,我們怎么管理一個數(shù)據(jù)中心,最后就是有很多用戶做的,不同的行業(yè)有不同的安全指標(biāo)的要求,在醫(yī)院都有HIPAA的標(biāo)準(zhǔn)需要去滿足,那些需要被盡量減少人工錯誤,所以有一些安全的標(biāo)準(zhǔn)要滿足。在銀行有Basel II這個標(biāo)準(zhǔn),所有行業(yè)我們看到Sarbanes-Oxley Act (SOX),滿足這標(biāo)準(zhǔn)證明你管理的機制很好,所以很多需要都會找一些基準(zhǔn)服務(wù)來滿足這個行業(yè)的標(biāo)準(zhǔn)。

    我談一下信息生命周期管理,IBM做的事情就是兩個目標(biāo),一個是發(fā)生意外的時候,發(fā)生手工的故障的時候,我能回到某一個時間段的數(shù)據(jù),數(shù)據(jù)的備份。另外一個主要的功能就是作為歷史數(shù)據(jù)的處理,比如我一年,或者五年的數(shù)據(jù)以前就扔掉了,現(xiàn)在SOX的標(biāo)準(zhǔn),要保留七年以上的數(shù)據(jù),這些東西不能說永遠都在一個硬盤里面,那太貴了,可能需要進行不同級別的存儲,生產(chǎn)放在全球,歷史的放到磁帶庫。

    當(dāng)然也有一些行業(yè)的服務(wù),BCP(業(yè)務(wù)連續(xù)性計劃)做的東西在這圖上看到是風(fēng)險管理,業(yè)務(wù)影響的方式,什么業(yè)務(wù)需要做哪幾個層次的保護,就在這樣一個風(fēng)險分析出來的結(jié)果,我們應(yīng)該用哪些產(chǎn)品哪些技術(shù)。我們有一個很好的方案,很好的技術(shù),很好的流程,但是我們需要一個很好的管理,所以慢慢看數(shù)據(jù)中心管理里面不同的環(huán)節(jié),比如變更管理,恢復(fù)管理,災(zāi)備管理,整體的流程是怎么弄到一起的,這些是非常重要的。

    最后總結(jié)一下我今天說的題目,要做一個很好的業(yè)務(wù)連續(xù)性方案,除了看場地,數(shù)據(jù)、網(wǎng)絡(luò)、硬件、軟件以外,在這上面還有兩層,一個要知道我們有什么樣的業(yè)務(wù)需求,我們針對這個需求有一個管理的機制,我們有組織去實現(xiàn)這個需求,我們有很好的布置,下來我們才選擇服務(wù)、網(wǎng)絡(luò)、這樣我們有一個很好的布局。我今天就談到這里,謝謝各位!

分享到

多易

相關(guān)推薦