一場電商大促,涉及到的數(shù)據(jù)量有多大?
以一個消費者的購買過程為例,一次下單行為,對于后端數(shù)據(jù)庫就有多次讀寫調(diào)用;如果是秒殺場景就會產(chǎn)生“熱點更新”的問題,更是對數(shù)據(jù)庫內(nèi)核優(yōu)化能力的一種“洗禮”;跨店鋪結(jié)算、資金金額,涉及到存儲核心交易數(shù)據(jù)的數(shù)據(jù)庫,每一個字符都代表著真金白銀,下單失敗要進行回滾,更是對后端系統(tǒng)多個組件的考驗;還有物流數(shù)據(jù)庫等都在支撐著整個電商交易環(huán)節(jié)…
這還只是一個用戶的行為,618當(dāng)天,有上億人都在重復(fù)這個動作,想象一下這個數(shù)據(jù)量級:一個下單動作會涉及幾十條、甚至上百條的數(shù)據(jù)庫讀寫操作,如果保守估計按1億人參與大促來計算,618數(shù)據(jù)庫涉及上百億次的查詢或讀寫要求。
騰訊云服務(wù)了京東、唯品會、蘑菇街、每日優(yōu)鮮、貝店、什么值得買等主流電商客戶,是國內(nèi)服務(wù)電商客戶數(shù)量最多、范圍最廣的云廠商。一到大促節(jié)點,數(shù)據(jù)量級就會幾何級增長。
據(jù)不完全統(tǒng)計,今年騰訊云數(shù)據(jù)庫為電商客戶承載了十億級別的QPS(每秒查詢數(shù))、PB級別的數(shù)據(jù)存儲量,整個大促期間數(shù)據(jù)庫平穩(wěn)有序運行。
預(yù)先評估、讀寫分離、一鍵擴容等系統(tǒng)能力為618保駕護航
每次大促前至少一個月,騰訊云數(shù)據(jù)庫團隊都要和電商客戶一起評估資源:業(yè)務(wù)量會增長多少,同比、環(huán)比是否有增長預(yù)期。如果預(yù)計流量會翻3-5倍,團隊就會和客戶一起去考量現(xiàn)有數(shù)據(jù)庫整體性能是否能滿足資源,以及需要做多少擴容準備。
這個時間周期有可能會拉長到提前2個月,擴容這一關(guān)鍵步驟確定后,準備工作即告一段落。
騰訊云數(shù)據(jù)庫可支持秒級彈性擴容。以騰訊云數(shù)據(jù)庫Redis為例,Redis通過提供大規(guī)模的集群產(chǎn)品,為電商客戶提供穩(wěn)定的高并發(fā)低延遲的緩存服務(wù),操作起來也極為簡便,運維人員僅需在控制臺點擊一個按鈕,即可操作完成數(shù)倍業(yè)務(wù)規(guī)格增長的彈性擴展。
在本輪618之前,Redis數(shù)據(jù)庫曾支持過騰訊會議高并發(fā)的考驗:在八天時間內(nèi)騰訊會議完成了100萬核云服務(wù)器擴展的同時,Redis集群僅在半小時以內(nèi)就高效完成了數(shù)十倍規(guī)模的擴容,單集群的擴容流程后臺處理時間不超過30分鐘,同時保持了100%的系統(tǒng)可用性,在整個資源擴展過程中,騰訊會議服務(wù)始終保持著大規(guī)模的在線運行,海量用戶無感知,依然能夠高清流暢無卡頓的進行會議。
騰訊云Redis是國內(nèi)唯一一款具備無損擴容能力的Redis數(shù)據(jù)庫產(chǎn)品??胺Q一鍵“加油”。
618當(dāng)天,最緊張的時刻就要來臨了。
現(xiàn)場調(diào)度、后端運維、研發(fā)團隊等都會全力保駕護航。數(shù)據(jù)庫團隊也會專人去客戶現(xiàn)場,責(zé)任到人、排好班,后端研發(fā)運維團隊也會做到萬無一失,24小時前所有人員就位,預(yù)檢開始。
零點時分峰值飆升,凌晨2點、早上8點、10點……數(shù)據(jù)峰值呈現(xiàn)出波形趨勢。騰訊云數(shù)據(jù)庫團隊會實時觀測數(shù)據(jù)和大盤。
一些細節(jié)很能說明問題,比如大盤CPU,實時CPU會緩慢爬升,10%、20%… 隨著搶購進入高潮,實時CPU上升接近50%時,運維人員就需要發(fā)出預(yù)警。超過50%,團隊就要和客戶一起想辦法,采取擴容等策略,爭取把問題消除在萌芽狀態(tài)。
另外一個核心指標是線程數(shù),這是衡量一個數(shù)據(jù)庫運轉(zhuǎn)是否健康的重要指標,即有多少個線程在同步運轉(zhuǎn)。一旦發(fā)現(xiàn)超出正常運行的線程數(shù),立即排查處理。
在高峰期,云原生數(shù)據(jù)庫TDSQL-C(原CynosDB)的“日志即數(shù)據(jù)庫”的計算與存儲分離架構(gòu)將系統(tǒng)可能出現(xiàn)的問題消弭于無形,計算層和存儲層可以分別獨立彈性擴展,支持秒級升降配和故障恢復(fù)。
TDSQL-C完全兼容MySQL以及PostgreSQL等開源協(xié)議的產(chǎn)品特性,使得企業(yè)業(yè)務(wù)“零”改造就可以平滑地遷移到TDSQL-C,幫助用戶業(yè)務(wù)快速上云:TDSQL-C擁有130萬QPS的高性能和128TB海量存儲能夠充分滿足企業(yè)長期的業(yè)務(wù)需求。
另外TDSQL-C 支持Serverless形態(tài),是國內(nèi)首款計算和存儲全Serverless架構(gòu)的云原生MySQL數(shù)據(jù)庫,讓用戶像使用水、電、煤一樣使用數(shù)據(jù)庫。
自動化運維已成為電商大促常態(tài)
歷經(jīng)數(shù)十年發(fā)展,數(shù)據(jù)庫運維已經(jīng)度過石器時代、工具時代、專家時代,隨著工具的日趨成熟,低價值的工作量得以解放,DBA價值不斷提升,數(shù)據(jù)庫運維進入了智能時代。
為了最大程度降低618大促期間的成本及消耗,騰訊云數(shù)據(jù)庫智能運維管家DBbrain能夠幫客戶做巡檢、運維和優(yōu)化的工作。
DBbrain是騰訊云結(jié)合前沿人工智能技術(shù)推出的一款數(shù)據(jù)庫智能診斷和優(yōu)化產(chǎn)品。DBbrain支持多款 SQL、NoSQL、NewSQL 數(shù)據(jù)庫類型,可以為用戶提供7*24小時數(shù)據(jù)庫異常發(fā)現(xiàn)、診斷分析等數(shù)據(jù)庫自治能力,并通過智能化告警服務(wù)及時觸達用戶;同時提供專家建議和一鍵優(yōu)化功能,利用AI技術(shù)為用戶提供在線自動優(yōu)化數(shù)據(jù)庫性能的服務(wù),針對業(yè)務(wù)訪問特性定制化生成最優(yōu)配置,大幅提高數(shù)據(jù)庫運維效率。
除了7*24小時的實時診斷優(yōu)化,DBbrain還具有安全威脅識別、混合云管理數(shù)據(jù)庫和掌上數(shù)據(jù)庫運維等功能。依托騰訊云專業(yè)的深度學(xué)習(xí)算法模型和海量樣本訓(xùn)練環(huán)境,它可以應(yīng)對變化多端的攻擊場景,對各類變體攻擊以及非常見威脅操作實現(xiàn)監(jiān)控和告警。比如,訪問量超標,或者系統(tǒng)出現(xiàn)故障。
同時DBbrain能夠適用于云上、云下數(shù)據(jù)庫場景,不僅為騰訊云數(shù)據(jù)庫實例提供診斷優(yōu)化服務(wù),也支持用戶自建的數(shù)據(jù)庫和其他云部署的數(shù)據(jù)庫實例,為用戶打造數(shù)據(jù)庫混合云管理的場景提供助力。另外,騰訊云還聯(lián)合微信團隊將DBbrain的監(jiān)控、異常診斷、優(yōu)化建議以及數(shù)據(jù)庫管理功能集中在了移動端,運維通過手機便可直接完成。極大地降低了電商客戶的運維成本。