為了產(chǎn)生有用的業(yè)務價值,需要處理大量數(shù)據(jù)集,然而如今,任何單獨的處理單元都無法做到這點。相反,我們需要的是優(yōu)化整個棧中的計算、存儲、網(wǎng)絡和應用程序等所有元素,使它們能夠協(xié)同工作以建立一個數(shù)據(jù)中心級的計算機,用整個集群來提供服務。這需要數(shù)據(jù)為機器編程,而不是由人為機器來編程。正如由數(shù)百萬只螞蟻的經(jīng)驗匯聚而成的大量數(shù)據(jù)將會激活和產(chǎn)生智能,并能建設性的進行項目開發(fā);機器學習也是從海量物聯(lián)網(wǎng)數(shù)據(jù)中挖掘出其意義和相關(guān)性,并創(chuàng)造出新的、高效的應用程序。

從群體到云

這是關(guān)于云的介紹,云的出現(xiàn)改變了計算的交付形式,云正在將計算從服務器轉(zhuǎn)向服務。如果你家里有電,這意味著你插上了插座,獲得了電力,就像打開水龍頭接通水管一樣。如果你家里有一臺電腦,傳統(tǒng)意義上這意味著你有一個充滿計算能力的箱子,你要負責讓箱子里的一切都能正常運行。但云計算讓我們更接近于取電的方式,在這種模式下,計算機不再固定于辦公桌上,而更像是一個插座,你可以通過它獲取服務。我們需要跳出計算機的思維定勢,才能理解這種變化的含義。

如果你對通信的想象僅限于用信鴿來傳遞信息,那么你的創(chuàng)造力可能會局限在一個維度上,尋找飛的更快的信鴿。但如今的視頻會議帶來的不僅僅是快速的溝通,它還可以使在不同位置的人同時看到和聽到,甚至可以實現(xiàn)不同語言之間的機器翻譯。因此,要在性能上實現(xiàn)真正的巨大突破,你需要跳出固有思維。

我們與 Oracle 合作的關(guān)于Oracle集群數(shù)據(jù)庫系統(tǒng)的改造就是一個不錯的例子。他們最初使用傳統(tǒng)網(wǎng)絡技術(shù),但無論如何優(yōu)化他們的系統(tǒng),通信軟件開銷總是瓶頸,性能改進非常有限。然后,在采用了具有 RDMA(遠程直接內(nèi)存訪問)功能的更加智能的網(wǎng)絡后,他們終于取得了突破。使用這項技術(shù)可以消除網(wǎng)絡開銷,并使訪問遠程資源的成本與訪問本地資源的成本相似,Oracle 利用這項技術(shù)大大提升了系統(tǒng)資源的效率。經(jīng)過重新設計的 Oracle 系統(tǒng),網(wǎng)絡帶寬從 10 Gb/s 提高到 了40 Gb/s,實現(xiàn)了 4 倍的提升;通過采用 RDMA 技術(shù)消除了傳統(tǒng)的網(wǎng)絡軟件開銷,他們得到的不僅是這 4 倍的速度提升,而是 50 倍的性能改進。這和更好、更高效的智能網(wǎng)絡是分不開的。

智能網(wǎng)絡

智能網(wǎng)絡不僅僅是通過線纜移動數(shù)據(jù)的速度有多快,而是在網(wǎng)絡的任何地方都變得越來越智能。秘訣就是在數(shù)據(jù)移動過程中對其進行處理。蟻群中的每只螞蟻都會接收自身感知到的數(shù)據(jù),以及通過嗅覺感知到來自其他螞蟻的數(shù)據(jù);螞蟻自己會處理這些數(shù)據(jù),并通過氣味將自己的信號發(fā)送出去,這些信號在網(wǎng)絡中不斷級聯(lián),逐漸在蟻群被賦予了意義和普適性。同樣,在我們最先進的網(wǎng)絡產(chǎn)品中,每個交換機內(nèi)都有計算單元,因此我們在數(shù)據(jù)移動過程中進行數(shù)據(jù)聚合。

如今,這項技術(shù)正在被用于 HPC 和機器學習。當我們對神經(jīng)網(wǎng)絡模型的多個實例中的數(shù)據(jù)集進行神經(jīng)網(wǎng)絡訓練時,在單獨的訓練后,訓練結(jié)果需要被整合,這通常需要花費與訓練本身同樣多的時間,分布式執(zhí)行該過程可將“參數(shù)服務器”的處理速度加快 10 倍,從而將訓練的時間從數(shù)天縮短到數(shù)小時,或從數(shù)周縮短到數(shù)天。我們稱其為 SHARP — 可擴展分層聚合和歸約協(xié)議。其它網(wǎng)絡只會在計算單元之間移動數(shù)據(jù),SHARP 卻可以在數(shù)據(jù)通過網(wǎng)絡時對其進行處理和計算,有效地將網(wǎng)絡本身變成了一個功能強大的協(xié)處理器,從而顯著提高應用性能。

對于存儲網(wǎng)絡,我們提供 SNAP — 基于軟件定義的網(wǎng)絡加速處理。我們的 Bluefield 智能網(wǎng)卡虛擬化技術(shù)可以將云中的資源模擬為的本地設備,而不再是需要在主機上更改 API 的網(wǎng)絡設備。SNAP 支持各種基于傳統(tǒng)操作系統(tǒng)的機器,它能夠神奇地將各種東西轉(zhuǎn)變成本地設備。因此,采用我們的智能網(wǎng)卡,可以調(diào)用網(wǎng)絡中的不同機器的資源,將它們作為本地存儲設備來使用,或本機上的本地存儲服務來使用。我們正在與主要云廠商進行試點合作,并計劃在一年后投入生產(chǎn)(見圖 2)。

再舉一個有效利用資源的例子:網(wǎng)絡功能虛擬化(NFV)是一種強大的技術(shù),可以通過將各種進程整合到裸金屬服務器上以減少到處都是盒子,但這會使負載都集中到服務器,從應用的角度來看,這會降低數(shù)據(jù)中心的效率,因為它會消耗大量的計算資源。要解決這個問題,你可以將大部分的網(wǎng)絡虛擬化操作卸載到智能網(wǎng)卡上 — SmartNIC。

這樣安全嗎?

但這能在不犧牲安全性的前提下實現(xiàn)嗎?傳統(tǒng)的數(shù)據(jù)中心主要在使用M&M 安全模型,這個模型的特色是外強內(nèi)弱,主要在數(shù)據(jù)中心邊緣進行保護。在云應用中,我們允許在運行我們的安全策略的同一臺機器上運行不受我們控制的應用程序。一旦惡意軟件在我們的計算服務器上運行,它可能會接管我們的安全策略,從而接管數(shù)據(jù)中心。就這樣,整個數(shù)據(jù)中心被我們許可的在機器上運行的程序接管了。

為了保護我們的數(shù)據(jù)中心,我們必須確保攻擊者和受害者不在同一臺計算機上,我們需要改變安全模型,將外強內(nèi)弱改為外強內(nèi)也強,數(shù)據(jù)中心的每臺機器都必須受到保護。

BlueField的SNAP 技術(shù)允許將安全策略運行在BlueField 卡自己的操作系統(tǒng)上,將其應用程序服務器分離出來。借助 BlueField,我們可以將基礎架構(gòu)計算和應用程序計算分層隔離。此外,我們還可以完全獨立地升級計算服務器和基礎架構(gòu)服務器 ,互不影響。這樣更安全,也更高效。

結(jié)論

我們在當下以及未來將面臨的情況是:大量的非結(jié)構(gòu)化數(shù)據(jù)要求機器學習的能力越老越強,將會產(chǎn)生超出我們想象的新應用程序。

估值達 4 萬億美元的盈利商機正等著我們攫取。而跳出計算機的思維定勢將是我們面臨的挑戰(zhàn)。

文章轉(zhuǎn)自Mellanox CTO Michael Kagan

分享到

崔歡歡

相關(guān)推薦