在2024亞馬遜云科技中國峰會上,亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞表示,“只有在云計算的環(huán)境下,才有機會做這樣的從應(yīng)用到CPU的全棧創(chuàng)新。自建機房和云服務(wù)的區(qū)別是柴油發(fā)電機和電網(wǎng)服務(wù)的區(qū)別?!?/p>
在代聞看來,亞馬遜云科技提供的是云計算服務(wù),所以能夠在不斷提升服務(wù)能力的前提下,保持內(nèi)部全棧創(chuàng)新的靈活性。同時能了解到使用最多的應(yīng)用及其資源消耗模式,以此來挑選對用戶來說收益最高的技術(shù)點來優(yōu)化,快速改進軟件和硬件堆棧,甚至CPU設(shè)計。
確實如代聞所言,這樣的迭代在傳統(tǒng)的軟件硬件協(xié)作割裂的物理機房時代是不可想象的。說白了,云服務(wù)提供的本質(zhì)上是服務(wù),它天生與用戶和用戶應(yīng)用的關(guān)聯(lián)度更高,云服務(wù)商更懂用戶需求,所以能進行更有針對性的創(chuàng)新。
我想,這就是云計算能持續(xù)、快速推動技術(shù)創(chuàng)新的根本原因吧。
在2024年的亞馬遜云科技中國峰會上,代聞發(fā)表了題為《架構(gòu)演進連接未來想象》的主題演講,詳細(xì)介紹了技術(shù)架構(gòu)演進的三大主題需求:“基礎(chǔ)組件能力”、“架構(gòu)體系創(chuàng)新”和“多元技術(shù)融合”,并呼吁技術(shù)人員,要看清變化的技術(shù)和不變的需求,積極推進架構(gòu)演進。
基礎(chǔ)組件能力決定了架構(gòu)設(shè)計
所謂“基礎(chǔ)組件能力”是指的是云計算的最基礎(chǔ)組件,包括計算、存儲和網(wǎng)絡(luò),其中,又以計算作為最核心的組件。
說到亞馬遜云科技的計算,不得不提的有兩大創(chuàng)新,一個是Amazon Nitro系統(tǒng),一個就是自研的Arm處理器Graviton。
Amazon Nitro系統(tǒng)實現(xiàn)了計算資源的高效利用,它將虛擬化管理、網(wǎng)絡(luò)和存儲卸載到專用硬件上,幾乎消除了主機性能損耗。這種創(chuàng)新不僅提升了計算性能,還為用戶提供了更高的靈活性和安全性。
沒有Amazon Nitro之前,亞馬遜云科技用11年時間開發(fā)了70個EC2主機類型。而有了Amazon Nitro之后的6年時間里,EC2主機SKU就從70個擴張到了750個??梢哉f,Amazon Nitro大大加速了EC2主機的開發(fā)速度。
其實,亞馬遜云科技的存儲和網(wǎng)絡(luò)也都從Amazon Nitro中受益。
存儲部分,在最新的 Nitro 平臺支持下,單個虛擬機的最大 IOPS 可以到 400K,存儲帶寬可以到 100Gbps。亞馬遜云科技重寫了閃存轉(zhuǎn)換層(FTL)算法,并且將它是放到 Amazon Nitro 系統(tǒng)的芯片里,將SSD訪問延遲降低了60%,抖動減少了75%。
網(wǎng)絡(luò)部分,Amazon Nitro讓主機獲得了更高的帶寬,從100Gbps、400Gbps,到現(xiàn)在的6.4Tbps。并且,最新Nitro支持的包轉(zhuǎn)發(fā)達(dá)到了30Mpps(Packets Per Second),即每秒處理三千萬個數(shù)據(jù)包。
除此之外,亞馬遜云科技還開發(fā)了SRD(Scalable Reliable Datagram)提高了網(wǎng)絡(luò)的利用率。重新開發(fā)了數(shù)據(jù)中心路由協(xié)議SIDR(Scalable Intent Driven Routing)來進一步擴大數(shù)據(jù)中心網(wǎng)絡(luò)的規(guī)模。
Amazon Nitro配合SRD以及SIDR技術(shù),支持亞馬遜云科技建成超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò) UltraCluster。它支持的GPU實例可以到兩萬臺,如果使用亞馬遜自研的機器學(xué)習(xí)訓(xùn)練Trn1實例,可以支持?jǐn)U展到三萬個Trainium 加速器。
至于Graviton處理器則是業(yè)內(nèi)另外一個傳奇。過去5年間,亞馬遜云科技發(fā)布了四代Graviton處理器,創(chuàng)建了150個EC2 實例種類,使用了超過 200 萬個處理器,擁有超過 50000 家客戶,這些客戶涵蓋了 EC2 最大的前 100 個客戶。
基于Graviton處理器的實例提供了非常高的性價比,是用戶降本增效的有力幫手。而且,其基于單物理核心提供單線程的技術(shù)可以提供更穩(wěn)定的性能表現(xiàn),配合多核心的優(yōu)勢,具備很高的擴展性。
亞馬遜云科技的Graviton處理器是Arm服務(wù)器處理器陣營里的一面旗幟,它證明了 Arm服務(wù)器的可信性,也帶動了Arm技術(shù)生態(tài)。Graviton之后,如今三大云服務(wù)商也全都推出了基于Arm的自研處理器芯片,甚至也有第三方的Arm芯片服務(wù)商。
代聞表示,這些創(chuàng)新的基礎(chǔ)組件能力決定了架構(gòu)設(shè)計,而架構(gòu)體系創(chuàng)新可以拓展核心能力。那么,架構(gòu)體系的創(chuàng)新拓展了哪幾個核心能力?又是如何拓展核心能力的呢?
架構(gòu)體系創(chuàng)新拓展核心能力
在談到核心能力時,代聞提到了韌性、彈性與效率。那么,要如何提高服務(wù)的韌性,提高服務(wù)的彈性與效率呢?
亞馬遜云科技通過Amazon IAM和單元架構(gòu)確保其系統(tǒng)的高韌性。Amazon IAM通過將系統(tǒng)設(shè)計為控制平面和數(shù)據(jù)平面兩部分,確保即使控制平面故障,各區(qū)域的身份驗證和授權(quán)仍能正常運行,提供高可靠的訪問控制服務(wù)。
此外,單元架構(gòu)(Cell-based Architecture)將數(shù)據(jù)平面細(xì)分為多個獨立單元,減少單點故障風(fēng)險,降低“爆炸半徑”。這種設(shè)計被廣泛應(yīng)用于Amazon EC2、Amazon EBS和Amazon Aurora等服務(wù),進一步提升了系統(tǒng)的整體韌性和可靠性。
在提高彈性和效率方面,亞馬遜云科技提到了Firecracker、Amazon Lambda SnapStart和Caspian。
Firecracker是一種輕量級虛擬化技術(shù),可以快速啟動和管理容器化工作負(fù)載。它基于KVM構(gòu)建微虛擬機,具備多層隔離和保護,顯著提升資源利用效率和安全性。
為了改善Java函數(shù)的冷啟動問題,亞馬遜云科技推出了Amazon Lambda SnapStart。該技術(shù)通過Firecracker快照技術(shù),將啟動速度提高了10倍,并且,完全無需修改代碼。
Caspian技術(shù)實現(xiàn)了Serverless數(shù)據(jù)庫的高效內(nèi)存管理,通過虛擬化和熱管理系統(tǒng),動態(tài)調(diào)整內(nèi)存分配和數(shù)據(jù)庫實例遷移,提升彈性和資源利用效率。
這些技術(shù)共同提高了云服務(wù)的韌性、彈性和效率,為用戶提供更高效、安全的解決方案,構(gòu)建了云服務(wù)體系中的核心能力。
多元技術(shù)融合驅(qū)動架構(gòu)創(chuàng)新
在更靠近應(yīng)用的層面上,代聞強調(diào)要將多元技術(shù)融合來驅(qū)動架構(gòu)創(chuàng)新。
以生成式AI為代表的現(xiàn)代化應(yīng)用通常需要融合多種技術(shù),如果在企業(yè)落地智能聊天機器人,就需要底層技術(shù)能夠管理所有與AI對話相關(guān)的數(shù)據(jù)。代聞表示,面對這類復(fù)雜需求,先要拆解需求,再使用專門構(gòu)建的服務(wù)各個擊破,專門構(gòu)建的服務(wù)可以提供最優(yōu)的性能和成本。
生成式AI對數(shù)據(jù)架構(gòu)提出了新的要求。在用戶交互側(cè),要能做到更快的響應(yīng)。在后端處理環(huán)節(jié)會涉及數(shù)據(jù)流的更新和ETL處理,處理的過程要盡可能高效且可靠。在大模型和上下文數(shù)據(jù)管理方面,數(shù)據(jù)也要被有效管理,以確保模型能夠準(zhǔn)確、及時地提供所需的信息。
亞馬遜云科技通過RAG工程化手段融合多種數(shù)據(jù)庫。RAG技術(shù)需要協(xié)調(diào)多個數(shù)據(jù)源和架構(gòu)組件來實現(xiàn)高效的數(shù)據(jù)處理和知識提取。不同的應(yīng)用場景對平臺服務(wù)有不同的要求,這要求RAG技術(shù)能夠根據(jù)這些需求提供合適的解決方案。
為了解決數(shù)據(jù)同步問題,亞馬遜云科技推出了Zero-ETL技術(shù),它避免了傳統(tǒng)ETL過程的復(fù)雜性和低效性,通過自動數(shù)據(jù)流動實現(xiàn)高效的數(shù)據(jù)同步。目前,亞馬遜云科技已提供六項專門構(gòu)建的Zero-ETL能力,極大地提高了數(shù)據(jù)同步的效率。
隨后,代聞提到了亞馬遜云科技的優(yōu)良架構(gòu)體系(Well-Architected Framework),它涵蓋卓越運營、安全、可靠、性能效率、可持續(xù)發(fā)展和成本優(yōu)化六個維度。架構(gòu)師在設(shè)計應(yīng)用架構(gòu)時,需要在不同場景下對各種需求進行折中和優(yōu)化。通過不斷演進和優(yōu)化,幫助企業(yè)在云上實現(xiàn)高效、安全和可持續(xù)的發(fā)展。
結(jié)束語
在代聞看來,“基礎(chǔ)組件能力”、“架構(gòu)體系創(chuàng)新”和“多元技術(shù)融合”這三大需求是不會變的,會變的只會是具體的技術(shù)。他認(rèn)為,我們應(yīng)該看清變化的技術(shù)和不變的需求,積極推進架構(gòu)演進,連接未來的想象。
最后,代聞向架構(gòu)師、工程師,以及任何有技術(shù)信仰的構(gòu)建者發(fā)出呼吁:你的每一行代碼,你的每一種選擇,你的每一個決定,都是寫給未來的信。
過去十年,云計算為創(chuàng)新和創(chuàng)業(yè)提供了前所未有的便利,未來十年,生成式AI讓我們有機會一起重塑各行各業(yè),想想10年后回首現(xiàn)在的自己,在這個特殊的時間點,What Will You Build?