神威·太湖之光超級計算機 ?搜狗百科

  過去,超級計算機主要用于科學與工程計算,還比較缺乏面向超大規(guī)模數(shù)據(jù)分析的非數(shù)值計算應用。圖(Graph)能夠表達豐富關聯(lián)的關系,是搜索和人工智能領域中常用的數(shù)據(jù)結構之一。基于圖的數(shù)據(jù)挖掘算法已經(jīng)廣泛應用于搜索系統(tǒng)的網(wǎng)頁鏈接關系分析、文檔主題建模、用戶點擊行為分析、實體與關系挖掘、搜索意圖理解等任務中?;ヂ?lián)網(wǎng)應用的數(shù)據(jù)規(guī)模和用戶使用頻度均在持續(xù)快速增長,這對圖計算系統(tǒng)的橫向擴展能力提出了全新挑戰(zhàn)。現(xiàn)有分布式圖計算系統(tǒng)普遍采用按點劃分或按邊劃分的分布計算模式,但由于互聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)分布遵從冪律分布,頂點度數(shù)存在極大的不平衡性,兩種方式都面臨嚴重的性能問題。超級計算機先進的體系架構和超高的計算能力為超大規(guī)模圖計算任務既帶來了機遇,也提出了挑戰(zhàn)。

例:網(wǎng)頁鏈接圖 ? Marcel Salathe

  從2017年開始,搜狗搜索聯(lián)合清華大學計算機系等單位,共同研發(fā)了面向超大規(guī)模圖計算的神圖系統(tǒng)。研發(fā)團隊通過深入分析神威·太湖之光的系統(tǒng)大容量的內(nèi)存、領先的通信能力、以及大容量且能快速訪問的外存系統(tǒng)的優(yōu)勢,并同時充分結合超大規(guī)模圖算法的實際需要,創(chuàng)新性地提出分化的消息傳播技術、基于分組的消息分發(fā)技術、無鎖數(shù)據(jù)分發(fā)技術、基于內(nèi)存檢查點的高可用系統(tǒng)等多項新技術,成功研發(fā)出可支持BFS/WCC/PageRank等核心圖計算算法的神圖系統(tǒng),計算規(guī)??梢詳U展到神威·太湖之光全部4萬個節(jié)點。在實際應用中,神圖能夠充分利用上千萬核的運算能力和各節(jié)點之間通信網(wǎng)絡,在12萬億條邊的真實中文網(wǎng)頁圖上完成PageRank算法的一輪計算迭代僅需21秒,與文獻中報道的業(yè)界最先進水平系統(tǒng)相比,(如微軟的GraM系統(tǒng)處理1.2萬億條邊的合成圖每輪PageRank迭代需要140秒),所處理圖數(shù)據(jù)規(guī)模增加了一個數(shù)量級,計算耗時反而縮短了一個數(shù)量級,綜合性能提升超過百倍,實現(xiàn)了圖計算節(jié)點規(guī)模、圖數(shù)據(jù)規(guī)模以及運行速度上的巨大突破。

神圖系統(tǒng)的研發(fā)成功,在擴展了國產(chǎn)超級計算機在大數(shù)據(jù)分析領域的應用能力的同時,提供了更加迅捷的實驗、優(yōu)化超大規(guī)模圖算法的運算環(huán)境。神圖系統(tǒng)更加強大的計算能力給人工智能等相關領域提供了更廣闊的探索空間。

搜狗搜索研發(fā)團隊已經(jīng)將神圖系統(tǒng)集成、滲透到搜索大數(shù)據(jù)平臺中,新系統(tǒng)將為搜狗搜索持續(xù)優(yōu)化提供強有力的技術支撐和系統(tǒng)保障,為用戶實現(xiàn)更精準便捷的搜索體驗。同時,搜狗搜索作為人工智能領域的領跑者,將繼續(xù)致力于推進國產(chǎn)超級計算機和國產(chǎn)處理器產(chǎn)業(yè),加速扭轉我國計算機領域核心技術和信息安全上受制于人的局面。

分享到

zhangnn

相關推薦