阿里云提交的論文名為《Scaling Large Production Clusters with Partitioned Synchronization》(PDF版),探討了飛天如何解決大規(guī)模計算資源的調(diào)度問題,被收錄并榮獲最佳論文獎,這也是ATC最佳論文首次出現(xiàn)中國公司的身影。飛天是阿里云自研的超大規(guī)模云計算操作系統(tǒng),可將遍布全球的百萬級服務器連成一臺超級計算機,以在線公共服務的方式為社會提供計算能力。飛天的核心服務包括分布式計算、存儲、數(shù)據(jù)庫、網(wǎng)絡等,本次獲獎的論文就是其中的資源調(diào)度服務。

據(jù)悉,阿里云提交的關于飛天分布式調(diào)度系統(tǒng)“fuxi2.0”是阿里學術(shù)合作創(chuàng)新研究計劃(AIR)與香港中文大學James cheng老師的項目成果。該論文討論了業(yè)界分布式調(diào)度架構(gòu)資源沖突嚴重和調(diào)度性能差的問題,創(chuàng)造性地提出了一套資源沖突解決機制,實現(xiàn)了調(diào)度器在集群規(guī)模上的可擴展性,同時保證極佳的調(diào)度性能和調(diào)度效果,支撐了飛天大數(shù)據(jù)平臺MaxCompute單集群10萬節(jié)點的規(guī)模,4萬作業(yè)/秒的并發(fā)能力。

云計算最核心的問題是如何把成千上萬,甚至更大規(guī)模的機器高效地組織起來,靈活進行任務調(diào)度和管理,使用戶可以像使用一臺機器一樣使用云計算。隨著數(shù)據(jù)和計算量越來越大,云計算場景也變得超大規(guī)?;郧皞鹘y(tǒng)的基于中心架構(gòu)的調(diào)度器受限于單點處理能力,無法在規(guī)模上實現(xiàn)可擴展。

阿里云計算平臺事業(yè)部研究員關濤表示:“分布式系統(tǒng)領域有一個說法,每當規(guī)模擴大一個數(shù)量級,就變成了一個全新的問題。規(guī)模、利用率和公平性是調(diào)度系統(tǒng)的三個核心,本次的論文基于阿里云飛天系統(tǒng)的部分工作,在不損失利用率和公平性的情況下,探索調(diào)度系統(tǒng)在超大規(guī)模的可擴展性能力”。

近幾年,飛天操作系統(tǒng)多項研究成果被國際頂會錄?。?019年,數(shù)據(jù)調(diào)度論文Yugong被數(shù)據(jù)庫頂級會議VLDB錄??;2020年,機器學習&單機調(diào)度論文AntMan被操作系統(tǒng)頂級會議OSDI錄??;2021年,計算調(diào)度論文Fangorn被數(shù)據(jù)庫頂級會議VLDB錄取。

分享到

xiesc

相關推薦