在Switch Gear(配電控制系統(tǒng))和UPS系統(tǒng)的優(yōu)化改造中,AWS通過自己寫軟件控制系統(tǒng),刪除一些沒用的、添加部分對AWS有用的功能后,降低了系統(tǒng)復雜度,提升了系統(tǒng)的可靠性。在UPS系統(tǒng)改造中,標準使用小容量的電池,從而降低電池爆炸造成的危害,從而降低爆炸半徑。
2000年左右,那是一個還沒有AWS的時代,Amazon在美國西雅圖有一個數(shù)據(jù)中心,隨著業(yè)務規(guī)模的擴大,亞馬遜開始意識到海嘯和地震的潛在風險,不能把所有東西都放這里,于是就想在沒有地震海嘯威脅的美國東海岸建一個數(shù)據(jù)中心。
兩個數(shù)據(jù)中心放的太近,可能遭受同一個自然災害的侵襲,如果離得太遠,延遲會帶來數(shù)據(jù)同步的問題也同樣不可接受,美國東西海岸的距離就會造成這一問題。所以,數(shù)據(jù)中心之間需要保持一定的安全距離,而且要保證一毫秒以內(nèi)的延遲。
類似的,AWS強調(diào)多AZ(Avaibable Zone)與多機房的概念不一樣,AWS每個Region有至少三個AZ,AWS認為多個AZ相互間要有一定的距離,以此來降低外部環(huán)境同時對多個AZ造成影響,來提升服務的可用性。
從Region的角度看,AWS為了減少Region間可能造成的干擾,設(shè)計原則上是將各個Region獨立運作,一個Region出的問題不會傳遞到別的Region,在Region的級別提供冗余。
AWS供應鏈保障
2020年是黑天鵝滿天飛的一年,突如其來的疫情,急劇增長的在線業(yè)務量,逼著所有云廠商在加班加點忙著擴容資源,AWS也不例外,就AWS的規(guī)模來猜測,擴容規(guī)模要遠大于大部分云廠商。
為了保障擴容的順利進行,AWS在供應鏈采購管理上采取了多元化策略,供應商的數(shù)量,供應商覆蓋的國家和地區(qū)在數(shù)量上有了很大提升。如今,AWS的供應鏈系統(tǒng)覆蓋7個國家,86家供應商,以此來暴漲供應鏈的穩(wěn)定。
在疫情在全球爆發(fā)的2020年,多元化管理策略確實挺有價值,疫情的不確定性給供應鏈帶來很大挑戰(zhàn),許多國家的生產(chǎn)環(huán)節(jié)和清關(guān)效率都出了很大問題,對此,周舸表示深有體會。
寫在最后
在可用性方面,公有云作為公開可見的服務,更容易受到公眾關(guān)注,造成公有云更容易出故障的印象。
拋開客觀感受不說,由于公有云作為一種服務,而不是一個個on-premise產(chǎn)品盒子,要考慮的內(nèi)容更多一些,比如供電,比如網(wǎng)絡,比如運營能力等,確實非??简炘茝S商的綜合實力,需要有數(shù)不清的技術(shù)創(chuàng)新來打造更高的可用性和業(yè)務連續(xù)性。
隨著一步步迭代和發(fā)展,技術(shù)只會更成熟,運營經(jīng)驗會更豐富。