阿里云提交的論文名為《Scaling Large Production Clusters with Partitioned Synchronization》(PDF版),探討了飛天如何解決大規(guī)模計算資源的調(diào)度問題,被收錄并榮獲最佳論文獎,這也是ATC最佳論文首次出現(xiàn)中國公司的身影。飛天是阿里云自研的超大規(guī)模云計算操作系統(tǒng),可將遍布全球的百萬級服務(wù)器連成一臺超級計算機(jī),以在線公共服務(wù)的方式為社會提供計算能力。飛天的核心服務(wù)包括分布式計算、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)等,本次獲獎的論文就是其中的資源調(diào)度服務(wù)。

據(jù)悉,阿里云提交的關(guān)于飛天分布式調(diào)度系統(tǒng)“fuxi2.0”是阿里學(xué)術(shù)合作創(chuàng)新研究計劃(AIR)與香港中文大學(xué)James cheng老師的項目成果。該論文討論了業(yè)界分布式調(diào)度架構(gòu)資源沖突嚴(yán)重和調(diào)度性能差的問題,創(chuàng)造性地提出了一套資源沖突解決機(jī)制,實現(xiàn)了調(diào)度器在集群規(guī)模上的可擴(kuò)展性,同時保證極佳的調(diào)度性能和調(diào)度效果,支撐了飛天大數(shù)據(jù)平臺MaxCompute單集群10萬節(jié)點的規(guī)模,4萬作業(yè)/秒的并發(fā)能力。

云計算最核心的問題是如何把成千上萬,甚至更大規(guī)模的機(jī)器高效地組織起來,靈活進(jìn)行任務(wù)調(diào)度和管理,使用戶可以像使用一臺機(jī)器一樣使用云計算。隨著數(shù)據(jù)和計算量越來越大,云計算場景也變得超大規(guī)?;?,以前傳統(tǒng)的基于中心架構(gòu)的調(diào)度器受限于單點處理能力,無法在規(guī)模上實現(xiàn)可擴(kuò)展。

阿里云計算平臺事業(yè)部研究員關(guān)濤表示:“分布式系統(tǒng)領(lǐng)域有一個說法,每當(dāng)規(guī)模擴(kuò)大一個數(shù)量級,就變成了一個全新的問題。規(guī)模、利用率和公平性是調(diào)度系統(tǒng)的三個核心,本次的論文基于阿里云飛天系統(tǒng)的部分工作,在不損失利用率和公平性的情況下,探索調(diào)度系統(tǒng)在超大規(guī)模的可擴(kuò)展性能力”。

近幾年,飛天操作系統(tǒng)多項研究成果被國際頂會錄?。?019年,數(shù)據(jù)調(diào)度論文Yugong被數(shù)據(jù)庫頂級會議VLDB錄?。?020年,機(jī)器學(xué)習(xí)&單機(jī)調(diào)度論文AntMan被操作系統(tǒng)頂級會議OSDI錄?。?021年,計算調(diào)度論文Fangorn被數(shù)據(jù)庫頂級會議VLDB錄取。

分享到

xiesc

相關(guān)推薦