華為中國政企媒資系統部總經理李騰
領獎“ODCC優(yōu)秀合作伙伴”
在華為看來,要實現低碳前提下的算力發(fā)展,簡單來看是個PUE問題,但真正標本兼治的答案則是多樣算力的融合發(fā)展。通過將多樣算力合而為一、綜合運用,數據中心便有能力在不同的業(yè)務負載類型和專業(yè)化的算力硬件之間實現精確匹配,從而讓不同類型的基礎架構盡可能的處理自己所擅長的任務、始終工作在高效區(qū)間;由此,數據中心的服務產出和能源消耗才能實現一升一降,低碳與算力兩大目標才能兼得。
對此,華為計算產品線品牌及產業(yè)營銷總監(jiān)白晨表示,實現低碳發(fā)展、促進多樣性算力的融合發(fā)展絕非傳統算力和AI算力的簡單堆砌,而是需要算力、通訊、操作系統、應用使能等多重因素的通盤考量;其實踐方法便是“硬件一體、軟件融合”。
達成這一目標并非易事,但好在華為已經蹚出了一條頗具可行性的實踐路徑。
DC as a Computer,讓下一代數據中心像電腦一樣高度協同
“2021年底,我國數據中心機架規(guī)模達到520萬架,近5年復合增長率超過30%。此外,對非結構化數據的處理及AI計算需求仍在快速增長;到2030年,人工智能算力需求將達到目前的500倍?!?/p>
這是白晨在ODCC主論壇的分享環(huán)節(jié)所給出的一組數字,既闡釋了數據中心重要性,也表明了多樣化算力發(fā)展的巨大前景。但在進行算力擴張的同時,數據中心還應該提前做好規(guī)劃,為異構算力的高效應用鋪平道路。
在這一領域,華為的解題思路是“硬件一體、軟件融合”。
1、硬件一體
針對很多數據中心所面臨的能效、部署周期、管理和空間挑戰(zhàn),華為攜手伙伴,推出了全新的液冷集群整機柜產品。通過計算平臺、服務器節(jié)點、供電、網絡、布線、散熱等層面的一體化設計,新的集群整機柜不僅在性能方面能夠做到“一柜頂四柜”,節(jié)約70%機房空間,更能通過冷板式液冷散熱技術、集中供電、全背板總線等設計實現能效、部署和運維表現的全維升級。而以機柜為單位進行預制、交付和部署,數據中心用戶的產品交付周期也能從過去的3-4月縮短至1周,并在安裝過程中做到0水管連接、0電源線連接、0信號線連接的極簡部署。
2、軟件融合
與硬件系統的通盤考慮一樣,華為也在系統和軟件層面不遺余力;而其發(fā)力點則是歐拉生態(tài)和北冥多樣性計算融合架構以及鴻蒙、openGauss等一系列基礎軟件的相互加持。
過去兩年中,華為完成了歐拉操作系統的開源,并將歐拉捐贈給開放原子開源基金會。而由此,歐拉也從創(chuàng)始企業(yè)主導的開源項目演進到產業(yè)共建,社區(qū)自治,以更加開放的模式整合全球開發(fā)者貢獻,openEuler生態(tài)體系保持快速發(fā)展。在眾多生態(tài)伙伴的貢獻之下,目前openEuler已經實現ARM、x86、RISC-V等主流處理器指令集+GPU、NPU、DPU等多種異構算力的計算架構100%支持覆蓋,適配超100款整機和300余款板卡。
可以說,openEuler已經成為最佳支持多樣性算力的數字基礎設施開源操作系統。
而在極速成長的AI計算領域,華為則通過北冥多樣性計算融合架構的持續(xù)更新,進一步拓展了昇騰AI的能力、效率和適用場景。北冥多樣性計算融合架構能在基礎架構層面支持算力的統一調度,形成基礎使能層;此外,還提供了統一的開發(fā)工具鏈和管理軟件,讓開發(fā)者、算力使用者和數據中心都能在一套框架內高效協作,實現“書同文、車同軌”的效果。
從傳統計算平臺到以用于各類場景的多種加速卡,從服務器和存儲產品生態(tài)到兼顧算力、密度和能效的液冷集群整機柜,從服務器所使用的操作系統到輔助多樣算力協作發(fā)揮效能的計算架構,華為正在攜手生態(tài)為整個數據中心產業(yè)上下游提供相互兼容、運行高效且快速迭代的產品、解決方案體系,讓復雜、龐大、應用多樣的數據中心也能像一臺電腦一樣有機高效運行。這正是從更高維度解決應用需求、算力發(fā)展和綠色節(jié)能等一系列復雜問題的靠譜解題思路。
多點發(fā)力,為算力的高效與安全筑牢根基
算力方面的問題給出答案之后,我們也同樣要重視數據中心在網絡通信、安全可靠等所面臨的眾多實際挑戰(zhàn)。
在從系統網絡結構上,數據中心當的每個節(jié)點都有1-4顆處理器以及0-N個GPU、NPU或DPU;而這樣的節(jié)點,數據中心里有成千上萬,甚至十余萬個。并且伴隨分布式軟件架構的迅速普及,數據中心所要面對的業(yè)務很多時候已不再是節(jié)點內或單節(jié)點對單節(jié)點資源協同,而是多對多的大規(guī)??绻?jié)點協作。
要解決如此規(guī)模、如此復雜的問題,我們當然需要更先進的數據中心通訊技術。
在本次峰會的新技術與測試組分論壇當中,華為DCN標準代表呂云屏女士則為與會嘉賓分享了解決這一問題的最新方法——NDMA(NetworkDMA)技術。呂云屏女士表示:NDMA技術以降低多對多集合通信任務完成時間為優(yōu)化目標;通過端網協同構建統一的傳輸框架,將多對多通信邏輯下沉到網絡/傳輸層。相比點到點傳輸,如RDMA、NDMA降低額外系統開銷,最優(yōu)化多對多通信吞吐與時延性能, 打破分布式系統性能擴展天花板,為大規(guī)模數據中心內部的多算力協同和分布式業(yè)務系統持續(xù)演進提供了更強大的支撐。
而在安全層面,華為安全解決方案首席架構師王雨晨則在本次峰會的安全分論壇中分享了全新的“韌性”安全理念。王雨晨表示:當前,由于安全只以防御威脅為目標,造成系統一定會被攻破的必然結果。華為的“韌性”安全架構,不以盡力而為地對抗威脅為目標,而是致力于通過“三維度”技術體系,構建可信與韌性的網絡安全環(huán)境,保證系統行為始終處于可預期、可驗證的安全狀態(tài)。從而保證關鍵信息系統在“漏洞開放、威脅存在、防御失效”的極限條件下,確保業(yè)務安全底線。
同時,在本次峰會上,華為參與制定的《分布式存儲多協議融合互通技術規(guī)范》正式發(fā)布。這一規(guī)范的誕生打破了當前多種分布式存儲系統在綜合部署時經常面對的數據格式壁壘,能夠幫助用戶以0拷貝實現數據格式的轉換,能夠大幅提升多樣性數據的分析效率。
展臺展示
在華為展示區(qū),圍繞數據中心計算、數據中心網絡及數字基礎設施操作系統精煉的展示了最新技術成果及生態(tài)進展。展現了“多樣算力,筑根DC”理念。
硬件一體、軟件融合、多點發(fā)力;為數據中心持續(xù)高速發(fā)展鋪平道路
從整個市場趨勢來看,2030年前,方興未艾的AI市場還將迎來500倍的算力擴張,而已經擁有龐大體量的通用算力市場也仍將獲得10倍算力的規(guī)模增長。誠然,在如此速度的增長之下,數據中心行業(yè)還要面臨很多挑戰(zhàn)、還要解決眾多具體問題;我們希望通過硬件一體、軟件融合、多點發(fā)力思路,助力ICT產業(yè)快速進化,構筑安全穩(wěn)固的互聯網基礎設施,讓數字經濟基于技術和算力的持續(xù)進步而獲得快速躍遷的能力。