国产又粗又猛又爽又黄,亚洲乱码一卡二卡三卡

以下為演講文字整理：

各位嘉賓下午好！很榮幸參加DOIT主辦的SDSS峰會(huì)，我是郭建楠，來(lái)自中國(guó)移動(dòng)蘇州研發(fā)中心，今天給大家?guī)?lái)的分享題目是Ceph在中國(guó)移動(dòng)大規(guī)模應(yīng)用實(shí)踐。

首先跟大家介紹一下Ceph在中國(guó)移動(dòng)的應(yīng)用情況，第二、第三章節(jié)介紹分布式塊和對(duì)象的實(shí)踐，針對(duì)我們生產(chǎn)實(shí)踐和運(yùn)維過(guò)程中碰到的問(wèn)題以及對(duì)Ceph的期待跟大家做分享，主要是體現(xiàn)Ceph在場(chǎng)景化中可能面臨的和急需解決的問(wèn)題。

中移蘇州軟件技術(shù)有限公司是中國(guó)移動(dòng)全資子公司，注冊(cè)資本7億，我Base在云技術(shù)產(chǎn)品部，主要做一些云計(jì)算標(biāo)準(zhǔn)化、定制化的產(chǎn)品、解決方案，承接云計(jì)算的軟硬件的集成服務(wù)和技術(shù)支撐，也可以做一些云計(jì)算相關(guān)應(yīng)用的云化遷移。存儲(chǔ)團(tuán)隊(duì)分為四個(gè)研發(fā)方向：塊、對(duì)象、文件、數(shù)據(jù)庫(kù)存儲(chǔ)。前面三個(gè)基于軟件定義存儲(chǔ)做的，最后的數(shù)據(jù)庫(kù)場(chǎng)景是我們最近才開(kāi)始的，主要提供一體機(jī)的解決方案。

這是移動(dòng)云整體的解決方案，我們可以提供IaaS、SaaS應(yīng)用，還可以做一些統(tǒng)一的運(yùn)營(yíng)、運(yùn)維的管理平臺(tái)以及安全管理平臺(tái)，承載的業(yè)務(wù)可以按公有云、私有云、金融云、政務(wù)云進(jìn)行區(qū)分。

以一個(gè)具體的案例看一下，這是我們移動(dòng)自己的公有云的建設(shè)情況，2015年開(kāi)始中國(guó)移動(dòng)集團(tuán)規(guī)劃公眾服務(wù)云的平臺(tái)，對(duì)內(nèi)打造自己產(chǎn)品的云化，達(dá)到降本增效的目的。對(duì)外服務(wù)于全網(wǎng)的政企客戶和互聯(lián)網(wǎng)用戶。2015年我們開(kāi)始承建移動(dòng)云，最早是在中國(guó)移動(dòng)的南方基地開(kāi)放資源池，2016年在北京信息港實(shí)現(xiàn)資源池的布局，實(shí)現(xiàn)南北資源池的布局。2017年在湖南的長(zhǎng)沙、內(nèi)蒙古的呼和浩特、黑龍江的哈爾濱實(shí)現(xiàn)多節(jié)點(diǎn)的部署，后續(xù)納管各省級(jí)的資源池，建設(shè)規(guī)模涉及虛機(jī)10萬(wàn)臺(tái)。

在服務(wù)移動(dòng)內(nèi)部客戶的同時(shí)，我們也會(huì)為外部客戶承建部分的基礎(chǔ)設(shè)施，如為某國(guó)有銀行做的金融云案例，總的建設(shè)規(guī)模超過(guò)1500個(gè)節(jié)點(diǎn)，虛機(jī)涉及3萬(wàn)個(gè)左右，上海、北京兩地三中心的生產(chǎn)環(huán)境，承載該銀行個(gè)人網(wǎng)銀、企業(yè)網(wǎng)人、電子支付、紀(jì)念幣預(yù)約等互聯(lián)網(wǎng)應(yīng)用。除了生態(tài)云，也為他們承接了測(cè)試云和開(kāi)發(fā)云，OpenStack平臺(tái)十幾套，現(xiàn)在達(dá)到一共40套的規(guī)模。

聚焦到云產(chǎn)品，主要在軟件定義方面塊存儲(chǔ)、文件存儲(chǔ)、對(duì)象存儲(chǔ)，存儲(chǔ)方案選型也是基于開(kāi)源做的，塊是基于Ceph。我們?cè)谶x型開(kāi)源產(chǎn)品的同時(shí)也積極的回饋社區(qū)，在Ceph全版本過(guò)程中，中國(guó)移動(dòng)貢獻(xiàn)國(guó)內(nèi)排名第三，全球排名13位。雖然做存儲(chǔ)的團(tuán)隊(duì)不多，但也想盡一份力量，把開(kāi)發(fā)的功能盡可能的回饋社區(qū)。

我自己是做研發(fā)的，有些涉及細(xì)節(jié)，這幅圖是邏輯架構(gòu)圖，引擎層是基于Ceph開(kāi)源方案直接應(yīng)用塊構(gòu)建，總體來(lái)說(shuō)Ceph確實(shí)是一款非常優(yōu)秀的開(kāi)源軟件，可以提供豐富、穩(wěn)定的功能。我們可以直接拿來(lái)使用，不光是這些，在生產(chǎn)上確實(shí)不夠，我們也可以做一些周邊的工作，可以建SSD，也在做一些兼容性的驗(yàn)證。磁盤(pán)控制器和磁盤(pán)的錯(cuò)誤檢查，網(wǎng)卡的檢測(cè)、SSD的壽命監(jiān)控，都是生產(chǎn)上需要的功能。服務(wù)層結(jié)合一些業(yè)務(wù)場(chǎng)景，開(kāi)發(fā)一些特性，Ceph現(xiàn)在基于QEMU的熱遷移功能。除了QEMU，我們也可以使用NBD對(duì)接開(kāi)發(fā)，也可以用ISCSI。除了這之外，右邊還是展示了我們自己的管理平臺(tái)，可視化的方式可以進(jìn)行資源的監(jiān)控、性能監(jiān)控、集群的再現(xiàn)滾動(dòng)升級(jí)和在線擴(kuò)容。

Ceph在塊存儲(chǔ)方面，在移動(dòng)的部署方式。我們知道數(shù)據(jù)是有熱度的，頻繁訪問(wèn)我們稱為熱數(shù)據(jù)，它需要存儲(chǔ)性能。訪問(wèn)低一點(diǎn)的是冷數(shù)據(jù)，需要的存儲(chǔ)容量更節(jié)約存儲(chǔ)成本，我們把生產(chǎn)環(huán)境的Ceph集群分為三類(lèi)：容量型、緩存型、性能型。容量型是更低的存儲(chǔ)成本，更大的存儲(chǔ)容量，性能型更好的存儲(chǔ)體驗(yàn)和更高的存儲(chǔ)性能，緩存型介于兩者之間，實(shí)現(xiàn)更高的存儲(chǔ)性價(jià)比。上面列出了一些典型的配置，主要是依據(jù)中國(guó)移動(dòng)集團(tuán)的服務(wù)器系集采，中國(guó)移動(dòng)的服務(wù)器是有集中采購(gòu)的，一般是在里面進(jìn)行選型，比如說(shuō)緩存型、性能型的，我們選擇性不大，基于現(xiàn)有的典型配置，我們梳理出一些可行的方案，一般控制在3%。緩存型把緩存比控制在13%左右，性能型就是上面的SSID。

下面是三種模式的抽象、概要的樹(shù)圖，容量型和性能型比較簡(jiǎn)單，我們現(xiàn)在生產(chǎn)上批量推的還是Filestore，它還要跟普通的HDD進(jìn)行綁定形成一個(gè)邏輯設(shè)備，構(gòu)成具備緩存功能的邏輯盤(pán)。

再介紹下緩存方案，緩存簡(jiǎn)單來(lái)說(shuō)就是為了實(shí)現(xiàn)數(shù)據(jù)的冷熱遷移，我們用小容量的、高性能的SSD承載頻繁訪問(wèn)的熱點(diǎn)數(shù)據(jù)，用機(jī)械盤(pán)承載訪問(wèn)頻次比較低的數(shù)據(jù)達(dá)到性能和成本的均衡，邏輯上的抽象概念就是右邊這幅圖，這套方案怎么讀寫(xiě)SSD、HDD，數(shù)據(jù)在SSD和HDD之間怎么遷移。

左下角是LinuxIO的路徑圖，上面是虛擬文件系統(tǒng)、通用塊到驅(qū)動(dòng)再到最終的設(shè)備，調(diào)動(dòng)層、驅(qū)動(dòng)層再到設(shè)備層，我們說(shuō)的緩存方案一般集中在通用塊層，通用塊層有很多開(kāi)源可以借鑒的項(xiàng)目，Google開(kāi)源的Bcache、Facebook的開(kāi)源flashcache，Enhance，我們對(duì)flashcache進(jìn)行調(diào)研，就是把HDD的存儲(chǔ)空間按塊劃成SSD，做成數(shù)據(jù)的冷熱管理。效果圖比較直觀，數(shù)據(jù)性能比較高，基本上可以達(dá)到SSID的性。

右邊是Bcache的模式，使用B數(shù)和B+數(shù)的明顯，B+數(shù)的夜節(jié)點(diǎn)是BIO，每個(gè)IO的請(qǐng)求根據(jù)訪問(wèn)進(jìn)行排序，因?yàn)樗褂玫腂+數(shù)，其實(shí)有一個(gè)指針可以達(dá)到迅速的連起來(lái)，對(duì)于數(shù)據(jù)的索引會(huì)特別方便，可以把它依照我們HDD的文件算法一次就達(dá)到盡量多的刷下去，這也是緩存的優(yōu)勢(shì)、特性。Bcache的緩存效果比f(wàn)lashcache更優(yōu)秀一些，它的性能有比較高的輸出，即使寫(xiě)滿了，也可以直接回歸到HDD盤(pán)的性能，是有小幅下降，還是有很好的加速效果。

flashcache和Bcache在現(xiàn)網(wǎng)有具體的使用，Bcache我們想作為主推的方案，對(duì)于Bcache也做了很多的優(yōu)化，它在做性能匹配輸出的時(shí)候還有很多的毛刺，尤其是幾根比較長(zhǎng)的，像針一樣的插在下面，就是Bcache的影響，我們也是改變了算法，讓曲線更加的平緩輸出。

塊存儲(chǔ)的典型部署場(chǎng)景，我們知道Ceph在四、五年迅速進(jìn)入大家的視野，OPENSTACK新的組件主要是提供卷，除了OPENSTACK以外，我們也充分發(fā)揮云接口的特性，可以把它產(chǎn)品化，可以提供虛擬化的對(duì)接，雖然Ceph方案比較曲折，我們也是兩套方案都在做，目前在LinuxIO的投入比較大，現(xiàn)在還有一些小的問(wèn)題需要后續(xù)優(yōu)化改善，中國(guó)移動(dòng)做了很多的工作，幫助方案進(jìn)行落地。

對(duì)象存儲(chǔ)，基于OPENSTACKSwift，文件的結(jié)構(gòu)以NFS、CFS的接口，經(jīng)過(guò)負(fù)載均衡把請(qǐng)求發(fā)到RGW，社區(qū)的存儲(chǔ)引擎包括兩種，基于典型的部署方案指導(dǎo)，我們對(duì)部署方案進(jìn)行了一些實(shí)例化，負(fù)載均衡是有RVS，引擎層我們把數(shù)據(jù)類(lèi)似于剛才塊的緩存一樣，也是做了存儲(chǔ)池之間的緩存，對(duì)象上傳的時(shí)候加了一個(gè)標(biāo)簽，是訪問(wèn)頻度較高還是較低，多少天之后會(huì)轉(zhuǎn)變?cè)L問(wèn)頻次較低的存儲(chǔ)，對(duì)象上傳的時(shí)候指定熱度和生命周期，訪問(wèn)頻次比較高就會(huì)放在副本的存儲(chǔ)池比較高效，訪問(wèn)頻次比較低就著存儲(chǔ)放在糾刪碼的存儲(chǔ)池。上傳有生命周期的概念，把到達(dá)生命周期副本池的數(shù)據(jù)遷移到糾刪碼的存儲(chǔ)池，熱點(diǎn)數(shù)據(jù)的性能和冷存儲(chǔ)數(shù)據(jù)的存儲(chǔ)成本得到兼顧和均衡。

這個(gè)是對(duì)象存儲(chǔ)的應(yīng)用場(chǎng)景，對(duì)象存儲(chǔ)和OPENSTACK結(jié)合不是那么緊密，它也是有了存儲(chǔ)的池化，我們對(duì)象存儲(chǔ)主要是應(yīng)用于文件共享、靜態(tài)網(wǎng)站的托管、備份歸檔，我們也形成解決方案做CDN后端的數(shù)據(jù)持久化存儲(chǔ)。

我們使用Ceph也是有兩年左右的時(shí)間，我們2016年轉(zhuǎn)型使用Ceph，對(duì)于生產(chǎn)實(shí)踐中也碰到一些問(wèn)題，對(duì)于Ceph也有一些期望。我們列了一些問(wèn)題，并不是說(shuō)Ceph不好，Ceph是作為開(kāi)源的軟件，它的正常運(yùn)行要求有比較穩(wěn)定、比較健康的硬件環(huán)境。Ceph本身也做了很多的邊界條件的處理，我們生產(chǎn)端也遇到一些問(wèn)題，Ceph目前是沒(méi)法處理的，這些邏輯不太適合做到Ceph中，如果有做Ceph產(chǎn)品化的公司我們達(dá)到分享的目的。

硬件故障比例的問(wèn)題，主要是網(wǎng)絡(luò)磁盤(pán)，完整的故障Ceph都能處理，主要是一些極個(gè)別故障和亞健康的故障，我們知道Ceph對(duì)于一個(gè)節(jié)點(diǎn)網(wǎng)絡(luò)是有一個(gè)機(jī)制的，可以通過(guò)仲裁機(jī)制進(jìn)行集群，我們碰到一個(gè)集群是這樣的，兩臺(tái)服務(wù)器的集群不通，這兩個(gè)節(jié)點(diǎn)互相報(bào)對(duì)方離線了，收到這個(gè)信息以后一人一票不能根據(jù)節(jié)點(diǎn)的方式PK掉，影響了集群的正常使用，輔助存儲(chǔ)管理人做故障的排查。

服務(wù)器網(wǎng)卡丟包，亞健康監(jiān)控要有，這些不一定夠，奇葩的問(wèn)題，機(jī)柜有堆疊交換機(jī)，光模塊出現(xiàn)光衰弱，影響范圍是這兩臺(tái)交換機(jī)下面所有的存儲(chǔ)服務(wù)器的網(wǎng)卡都是偶發(fā)性的丟包、使用高，導(dǎo)致兩個(gè)機(jī)柜下的結(jié)點(diǎn)OSD時(shí)而DOWN，時(shí)而UP，這一類(lèi)也是比較典型的問(wèn)題。磁盤(pán)類(lèi)的故障，壞扇區(qū)，磁盤(pán)廠商對(duì)偶爾兩個(gè)壞扇區(qū)不認(rèn)為是什么問(wèn)題，在我們的實(shí)踐來(lái)看，實(shí)際上是寫(xiě)時(shí)觸發(fā)的，對(duì)這個(gè)壞塊進(jìn)行再次寫(xiě)之前，對(duì)它的讀操作一直會(huì)出現(xiàn)異常，這個(gè)異常包括可能讀不出來(lái)，可能讀得不完整，可能讀得速度相當(dāng)慢，都會(huì)導(dǎo)致集群使用上的異常，而且集群還會(huì)伴隨Ceph在IO訪問(wèn)時(shí)告警。我們通過(guò)告警輸出查一下有沒(méi)有壞塊，如果有及時(shí)提醒管理人關(guān)注或是換盤(pán)。

慢速磁盤(pán)，也遇到很多，慢的程度不一樣，幾十兆、幾兆、幾十K的都有，生產(chǎn)上總結(jié)下來(lái)不能應(yīng)對(duì)所有的慢盤(pán)故障，要有Ceph周邊管理平臺(tái)做一些監(jiān)控。還有一類(lèi)比較詭異的是Raid卡故障，Raid卡是磁盤(pán)連接到服務(wù)器的一種方式這也是我們遇到的故障，比如說(shuō)這個(gè)故障是我們運(yùn)維某銀行雙11保障全天存儲(chǔ)運(yùn)行正常，晚上11點(diǎn)左右這個(gè)集群的時(shí)延，每七分鐘沖高一次，系統(tǒng)的ROBS和帶寬沒(méi)有明顯的業(yè)務(wù)壓力變化，我們也是排查了將近幾個(gè)小時(shí)，最后從Raid卡里導(dǎo)出每七分鐘出現(xiàn)一次，和集群沖高剛好對(duì)應(yīng)上，這類(lèi)的問(wèn)題更容易做到Ceph里，如果是HDA卡、Raid卡，涉及到監(jiān)控列表的問(wèn)題，如果是產(chǎn)品化，這是要在管理系統(tǒng)外圍的方式上做一些強(qiáng)化，否則這個(gè)Ceph集群像演講中說(shuō)的，沒(méi)有降落傘的保障，遇到這些問(wèn)題比較難排查。

我們對(duì)Ceph的期望，備份容災(zāi)的能力，耿航先生說(shuō)了，存儲(chǔ)可以實(shí)現(xiàn)多數(shù)據(jù)中心的源數(shù)據(jù)和數(shù)據(jù)的同步功能，塊的這塊雖然也有應(yīng)用的功能，實(shí)測(cè)下來(lái)看比較難取舍，如果用的話安全性會(huì)高一點(diǎn)，性能下降得也比較多。對(duì)于Ceph的問(wèn)題、期望總結(jié)如上。

中國(guó)移動(dòng)的蘇研代表中國(guó)移動(dòng)在今年成為Ceph基金會(huì)全球首批頂級(jí)會(huì)員，我們會(huì)盡我們的力量助力Ceph開(kāi)源技術(shù)產(chǎn)品化，我的分享就是這些，謝謝大家！

分享到

Ceph 云存儲(chǔ)云計(jì)算移動(dòng)軟件定義

Fred

baiyan

Fred

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽