?
內(nèi)容摻雜著這位存儲老兵的很多思考,干貨十足,以下內(nèi)容根據(jù)現(xiàn)場速記整理,為便于閱讀有所刪減,未經(jīng)演講人確認,僅供參考學習:
?
董唯元是存儲業(yè)內(nèi)資深專家,而現(xiàn)在在先智數(shù)據(jù)現(xiàn)在做的事情有點脫離存儲,但在此之前也曾做過自有品牌的超融合,對超融合有一些感情,而今做的事情更多面向智能運維。
?
早在14年的時候開始做超融合,對超融合了解的比較多,大會上他分享了幾個關于架構演進的感受和看法。
?
從1999年的時候開始做存儲和基礎架構相關的事情,那個年代還沒有分布式,那時候的存儲主要看性能、可靠性,那個年代討論基礎架構解決方案的人經(jīng)常是用戶CIO,由于他還做過一些整體咨詢的工作,所以經(jīng)常跟CIO聊,而現(xiàn)在,他發(fā)現(xiàn)很少有CIO聊基礎架構了。他覺得基礎架構在用戶眼里的地位有一點邊緣化。
??
他還發(fā)現(xiàn),有了云計算之后,CIO要操心的事突然變得更多了。如圖上所示,以前的IT相對來說比較規(guī)范,各行業(yè)的IT模式都差不多。但現(xiàn)在的IT要關注的東西特別多,經(jīng)過一段時間的探討,業(yè)界出現(xiàn)了所謂的雙模概念,傳統(tǒng)IT架構不能完全拋棄,同時大家需要互聯(lián)網(wǎng)化和業(yè)務敏捷IT,兩者需要融合。
?
云計算已經(jīng)出現(xiàn)了10多年,而CIO都在想怎么選才能適合自己的業(yè)務,CIO的關注點原來就存在,只是在新的時代下又以新的面貌出現(xiàn)了,解決方式就是業(yè)內(nèi)比較認可的中臺策略,或者叫平臺化,也有的叫行業(yè)云,命名雖無法統(tǒng)一,但其目標就是融合雙模IT,傳統(tǒng)IT靠僵化固話的策略做可靠性,但喪失了敏捷,如果傳統(tǒng)IT追求敏捷對于大部分的傳統(tǒng)業(yè)務風險又太大,這個問題需要CIO來決策取舍。
?
可靠性和敏捷性的取舍,董唯元認為可以參考汽車行業(yè),汽車的可靠性也非常重要,同時也需要一定的敏捷能力,需要一些個性化能力,汽車行業(yè)的做法是讓工廠把標準件做得非常可靠,符合各種規(guī)范流程,同時也能快速完成拼裝,賣給用戶。
?
對應到IT里就是中臺,后端各種資源和服務都遵守一定的規(guī)范性和可靠性,這就相當于汽車行業(yè)的標準可靠零件,然后需要一種面向業(yè)務的服務編排能力,這就是汽車組裝環(huán)節(jié),需要的是打通若干環(huán)節(jié)的能力,最后創(chuàng)建一個業(yè)務應用,這是一種模式。
?
這個模式比較常見,理論上是成立的,作為咨詢行業(yè)的專家,董唯元發(fā)現(xiàn)有時候這些理論有時候是站著說話不腰疼,方法論在這里,但如果要說落地,各種實際問題就出現(xiàn)了。最大的沖突還來自于敏捷和可靠,這兩個要求在日常習慣上就不一樣,相當于強行把一群年輕精力旺盛的年輕人和一群老態(tài)龍鐘的老人關在一起,但想讓這兩撥人互動那就有問題了。
?
傳統(tǒng)企業(yè)企業(yè)要互聯(lián)網(wǎng)化,要敏捷,相當于原來坐火車的人現(xiàn)在自己開汽車了,自己把握方向盤自己決定方向,可能性多了N倍,問題了多了N倍。不是所有業(yè)務都需要互聯(lián)網(wǎng)化和敏捷能力的。當可靠和敏捷放在一起做IT運維的時候,流程設計、管理模式其實都是問題,有時候,技術只是一小部分問題,重要的還有如何重塑管理流程等等。
現(xiàn)在的IT架構中采用云架構不一定省錢,而且反而更加費錢,其中包括運維的原因,互聯(lián)網(wǎng)化之后運維不到位,底層沒有打通,管理不到位、資源浪費都是問題,很多人會發(fā)現(xiàn),上了云之后運維人員的數(shù)量要翻3—5倍。如果原來有2000萬預算基于傳統(tǒng)IT架構搭建,那么可能大概需要兩個運維人員,現(xiàn)在如果有2000萬預算的話,可以買兩卡車的超融合,運維機柜處理故障等這類運維人員的數(shù)量也會有所增長。這是云化之后的最直接感受。公有云也是一樣,資源是否浪費,利用率如何最后都是成本的問題。
?
當系統(tǒng)越來越復雜,業(yè)務盤根錯節(jié),用戶也很難搞清楚到底該怎么做了。超融合可以說是IT領域的一大創(chuàng)新,而現(xiàn)在,超融合本身不再是基礎設施領域的熱點,如今的熱點是DevOps,微服務相關內(nèi)容,要解決的問題其重點在于運維管理上,結合一些咨詢機構的研究董唯元認為,未來基礎架構領域的核心是用AI做創(chuàng)新,AI可以做預測性運維,可以做服務編排,這也是我所在的公司先智數(shù)據(jù)做的事情。
先智數(shù)據(jù)用人工智能在運維管理方面有很多細節(jié)的東西,可以讓系統(tǒng)管理員有一個穿越的能力?,F(xiàn)有系統(tǒng)非常復雜,相互之間又有調用,能找到過去某個時間點發(fā)生的事情的細節(jié),原景重現(xiàn)可以幫助定位問題。
?
人工智能另一個能力是預測未來,如果未來有一些值得注意的事情的話,用戶可以看到未來時間點上當前系統(tǒng)的狀態(tài),比如會發(fā)現(xiàn)一些硬盤故障,未來系統(tǒng)的性能狀態(tài)等等。人力也能做傳統(tǒng)運維監(jiān)控,但AI能在各種數(shù)據(jù)指標之間建立一些關系,AI能對所有指標進行參考,而人智能憑借經(jīng)驗來判斷。
?
??
先智數(shù)據(jù)的方案可以高精準度的預測磁盤的故障,上圖列出了未來一段時間可能會出現(xiàn)故障的盤。除了硬盤,可以預測的還有業(yè)務負載,物理機的占用,任何一個構想在當前系統(tǒng)里都可以做預測。
?
預測能力可以做很多事情,比如可以做容器的調度,大量容器的快速啟停,在私有云、公有云以及各種資源范圍做調度控制,還可針對容器的異常狀態(tài)進行一些調整,比如自動回收一些卡死的容器等等,系統(tǒng)在做一些耗費資源的故障修復操作時,會影響到性能,先智數(shù)據(jù)的智能系統(tǒng)還能自動錯開業(yè)務高峰期進行這類操作。
?
在可靠性方面,幾十個節(jié)點的超融合和分布式存儲無需額外關注太多,但規(guī)劃一千節(jié)點左右的數(shù)據(jù)中心時就需要多加考慮了,上規(guī)模后一些保護機制可能會出問題,比如,一旦一個集群規(guī)模超過了50個節(jié)點,使用體驗會非常差,一般都會限制到30個節(jié)點,有的幾百節(jié)點的超融合容錯率其實很小。
??
?
上圖統(tǒng)計了節(jié)點數(shù)和副本數(shù)對于SDS可靠性的影響,縱軸說的是容錯域,越高越好,三副本比二副本可靠性要強,橫軸說的是節(jié)點數(shù),節(jié)點少的比節(jié)點多的可靠性要強,副本一定的情況下,可靠性的X個9是一條變化的曲線,從圖中可見,節(jié)點越多容錯率,容錯能力越低。
?
故障預測不能改變故障出現(xiàn)的次數(shù),但是故障本身是可以預測的,預測到之后就可以提前做準備來減少故障影響,先智數(shù)據(jù)的故障準確率可以到90%,有了故障預測能力之后,可靠性有所很大提升,圖中開始出現(xiàn)7個9了。
?
以上就是先智數(shù)據(jù)董唯元介紹的主要內(nèi)容。
分享到

zhupb

相關推薦