阿里云北京冬奧云數據中心

當用戶在阿里云選擇高性能云盤ESSD、云原生數據庫POLARDB、云超算SCC、機器學習PAI等產品時,均運行在RDMA網絡之上。也正因為如此,這些廣受歡迎的創(chuàng)新產品背后已經共享了網絡的技術紅利。

RDMA是目前業(yè)內最受歡迎的高性能網絡技術,能大大節(jié)約數據傳輸時間,被認為是提高人工智能、超算等效率的關鍵。數據顯示,在未使用RDMA網絡時,語音識別訓練每次迭代任務時長為650ms至700ms,其中通信時延就占400ms。

為了提高數據傳輸速度、滿足用戶需求,亞馬遜、微軟等主要云廠商都在投入該技術的研發(fā)和部署,但鮮有企業(yè)實現RDMA在數據中心的大規(guī)模應用。

在2016年,阿里巴巴開始投入專項研究,以改造RDMA、提高傳輸性能。從網卡底層開始設計滿足大規(guī)模應用的網絡,并結合阿里自研交換機實現性能最大化,最終建成全球最大規(guī)模數據中心內的”高速網”,使得集群極大地突破了傳輸速度瓶頸,并將時延顯著降低90%。

以2018年天貓雙11為例,基于RDMA網絡技術的云存儲和電商數據庫服務器可以從容地應對峰值流量考驗。

而上汽集團乘用車也正采用加入高速RDMA互聯支持的云超算SCC集群進行模擬仿真,整體提升效率25%。

“RDMA網絡已經成為人工智能、科學計算等高性能計算、存儲業(yè)務的必備技術,我們將繼續(xù)探索更高帶寬的網絡技術,未來將部署 100G高速網絡,為企業(yè)提供穩(wěn)定、低延時的網絡服務。” 阿里巴巴基礎設施首席網絡架構師蔡德忠向記者表示。

作為全球前三、國內第一的云服務商,阿里云在全球19個地域擁有56個可用區(qū),網絡總帶寬已達到 PB 級別超大規(guī)模,目前正在測試400G 網絡的研發(fā),推出的 400G QSFP-DD行業(yè)標準已受到全球企業(yè)廣泛支持。

分享到

xiesc

相關推薦