數(shù)盾科技AI事業(yè)部 總經(jīng)理樊笑冰 

數(shù)盾科技AI事業(yè)部總經(jīng)理樊笑冰在峰會“安全可控論壇”上發(fā)表了題為深度學(xué)習(xí)計算機(jī)存儲一體機(jī)方案的主題演講,介紹了 數(shù)盾科技基于英偉達(dá)DGX Station 推出的數(shù)盾POD ,以優(yōu)秀的性價比為高校和科研場所、醫(yī)院搭建深度學(xué)習(xí)的平臺客戶提供 人臉識別、車輛識別、動作行為識別等方面的AI幫助。

以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。

樊笑冰:大家下午好,我聲明一下,今天的主題和信息安全的關(guān)系并不大,我來自數(shù)盾科技,負(fù)責(zé)AI事業(yè)部,之所以把我們分到這個論壇,我想是因為數(shù)盾科技的主業(yè)是做密碼產(chǎn)品。

今天講的主題是在深度學(xué)習(xí)的平臺下計算和存儲如何做結(jié)合方案。大會的主題是存儲和數(shù)據(jù)的峰會,所以也不算跑題。

首先講一下GPU計算的背景。

大家知道,現(xiàn)在人工智能、深度學(xué)習(xí)底層的硬件用的都是GPU的處理能力,藍(lán)色的線。在前面幾十年,CPU的計算能力是跟著摩爾定律的趨勢走,每18個月翻一倍,但到2008、2009年時,這條線撐不住了,開始平穩(wěn)下來,后來它每年漲10%。GPU是異軍突起,在2005年左右,它的起點(diǎn)就比CPU的數(shù)據(jù)高,基本這些年也都是按照每18個月翻一番的計算線在走,大概到2025年左右,GPU的處理能力會比CPU快1000倍。左邊是一個平臺架構(gòu),大家可以看到,下面通常是我們跑深度學(xué)習(xí),底層的硬件應(yīng)該有CPU搭配GPU,CPU上跑操作系統(tǒng),GPU跑具體的高強(qiáng)度的平衡計算。再往上有自己的系統(tǒng),有人工智能的算法,最上面是應(yīng)用,中間還有一塊能充分的把GPU的速度調(diào)動起來。

這是深度學(xué)習(xí)的垂直架構(gòu),剛才講到底層有CPU也有GPU的模組,或者有GPU搭起來的服務(wù)器,包括BGX的服務(wù)器,以及IBM、戴爾搭起來的品牌GPU服務(wù)器。這邊是在亞馬遜的AWS等上的虛擬GPU,中間是深度學(xué)習(xí)的框架,現(xiàn)在可能比較常用的有很多,右邊的是在高性能計算或者是在一些圖像影像處理和分析,我們的重點(diǎn)是在左邊,在深度學(xué)習(xí)這一塊。

在這上面是深度學(xué)習(xí)的應(yīng)用場景,在醫(yī)學(xué)影像、制造業(yè)方面,有很多計算機(jī)視覺的應(yīng)用,科大訊飛在自然語言處理上,不管是語音處理還是翻譯現(xiàn)在都有很好的產(chǎn)品;在電商有機(jī)器人,在金融業(yè)有反欺詐,這些都是人工智能在各個行業(yè)的應(yīng)用。

剛才講那么多主要是想鋪墊一個背景,為什么我們的存儲跟GPU的硬件要做搭配,因為大家可以看到GPU的處理能力越來越快,如果要把GPU的計算性能或者處理能力充分發(fā)揮出來,存儲就要有相應(yīng)匹配,尤其是如果是外接存儲的話對存儲的要求就非常高。

先重點(diǎn)講一下英偉達(dá)的人工智能硬件。

大家知道,英偉達(dá)現(xiàn)在在全世界這個產(chǎn)業(yè)算是頭把交椅。在人工智能硬件方面,主要可以把它分成二組,一組用來做深度學(xué)習(xí)的訓(xùn)練,另一組是做推理。訓(xùn)練是為了把一個算法或者一個模型從無到有的通過樣本和訓(xùn)練平臺,把一個算法給訓(xùn)練出來,推理是把訓(xùn)練好的算法裝在實(shí)際應(yīng)用的系統(tǒng)上,做實(shí)際的不管是圖像識別還是聲音識別、聲音翻譯這些具體的應(yīng)用。

在訓(xùn)練方面,英偉達(dá)推出了DGX系列產(chǎn)品,包括DGX1、DGX2以及其它,這些算是最高端最快的產(chǎn)品,像DGX1,一臺服務(wù)器的計算性能可以達(dá)到500個,這是非常驚人的計算性能和速度,但他們的成本相對來說也非常高,后面的網(wǎng)絡(luò)通常是10萬MB。DGX Station相對來說低端一些,成本也差很多。

通常搭建一個深度學(xué)習(xí)的訓(xùn)練平臺時,會面臨一個選擇——是在云上做平臺還是在本地的數(shù)據(jù)中心做深度學(xué)習(xí)的應(yīng)用。

很多客戶或者合作伙伴在早期探索時采取的方式是在云上做,現(xiàn)在國內(nèi)的阿里云,國外的亞馬遜AWS,他們都有GPU云,在GPU做虛擬化之后,把資源分配出來,剛開始早期探索時可以租一臺GPU的虛擬機(jī),數(shù)據(jù)級也比較少,跑一些運(yùn)算,做一些模型訓(xùn)練。GPU虛擬機(jī)的成本不低,所以每次運(yùn)行時都要做認(rèn)真的準(zhǔn)備,來節(jié)省成本。

當(dāng)這條路走出來,知道深度學(xué)習(xí)的路徑已經(jīng)是可行的,就會搭建自己的本地的數(shù)據(jù)中心,剛開始可以搭一臺或者二臺的GPU服務(wù)器,這樣可以做比較頻繁、快速的實(shí)驗。當(dāng)數(shù)據(jù)量越來越大,人工智能算法或者模型越來越準(zhǔn)的時候,可以再增添新的服務(wù)器來做擴(kuò)展。

搭建深度學(xué)習(xí)訓(xùn)練平臺時,通常來說都是面臨這些挑戰(zhàn),首先是剛開始做設(shè)計時就要把它預(yù)備好是一個可擴(kuò)展的系統(tǒng),數(shù)據(jù)量有多大,人工智能的算法會有多復(fù)雜,都要先預(yù)測好,為以后的擴(kuò)展做準(zhǔn)備。IT人員在購買、安裝、實(shí)施這些設(shè)備時會面臨不同的方面,包括計算、存儲、網(wǎng)絡(luò)、軟件,系統(tǒng)軟件和應(yīng)用軟件的不同故障,所以IT人員也頭痛,面臨的技術(shù)支持也是多個點(diǎn),計算、存儲、網(wǎng)絡(luò)、軟件,每個部分都有自己的供應(yīng)商,需要解決不同的問題時面臨的基礎(chǔ)支撐也是多個點(diǎn),會面臨到的許多挑戰(zhàn)。

從硬件到GPU服務(wù)器、操作系統(tǒng)、深度學(xué)習(xí)平臺,這些不同的平臺,IT人員會面臨很多不同領(lǐng)域的問題。

既然搭建深度學(xué)習(xí)平臺會遇到這么多問題,業(yè)界現(xiàn)有的解決方案有哪些?英偉達(dá)的解決方案叫DGX POD,說白了就是把GPU服務(wù)器、網(wǎng)絡(luò)、存儲等打包,由他們的工程師把這一套系統(tǒng)提前做好適配、安裝、調(diào)優(yōu),所有的工作都做完之后有統(tǒng)一的技術(shù)支持接口。剛才提到的各個客戶或者各個IT人員所遇到的各種問題,基本有這個POD就能解決,優(yōu)點(diǎn)很明顯,但缺點(diǎn)也非常明顯,非常貴,如果這是一臺一體機(jī),大概要賣幾百萬。

DGX—1的GPU服務(wù)器,每一臺里有5個SSD,一個做操作系統(tǒng),另外4塊是數(shù)據(jù),加起來是8TB的容量,在深度學(xué)習(xí)中,通常來說這樣的容量是不夠的,所以需要接外界的存儲,這也是為什么英偉達(dá)推出了POD服務(wù)器,整個打包做。外界的服務(wù)器,我剛開始做了鋪墊,要把它的性能充分發(fā)揮出來,外界的I/O一定要跟得上,這是在不同場景下所需要的性能能力推薦。如果做數(shù)據(jù)分析的話,大概萬兆的網(wǎng)絡(luò)就可以,如果做到高性能計算,可能就要從萬兆到10萬兆。

下面幾個是做圖像處理,現(xiàn)在人工智能最多的應(yīng)用是計算機(jī)視覺,比如人臉識別、車輛識別、動作行為識別、視頻里的物質(zhì)分類,圖片處理是人工智能里用到最多的一個應(yīng)用場景,在不同的圖片大小中,如果是256*256,4K無壓縮的,在不同圖片大要的情況下,需要推薦的外界存儲網(wǎng)絡(luò)類型或者I/O類型都有推薦。在不同的應(yīng)用場景下,從萬兆網(wǎng)絡(luò)再到4萬兆在到IB網(wǎng)絡(luò),都會有不同的需求。外界存儲文件系統(tǒng)方面,用NFS就可以解決絕大多數(shù)的需求。如果圖片比較大,可能會用到高行僧的NFS。在這種場景下,剛才講到的DGX1本身帶的那四款SSD就是做緩存,外界的存儲用來儲存大量的數(shù)據(jù)。

英偉達(dá)+第三方合作伙伴的POD方案,是一個所謂的參考架構(gòu),歡迎不同的存儲廠商一起合作,推出不同的POD方案,目前為止已經(jīng)有四五家和英偉達(dá)合作,包括IBM等都和他們有POD方案。但方案都比較類似,都是剛才提到的一個大而全的方案,里面包括DGX 1的GPU服務(wù)器,包括網(wǎng)絡(luò)、外界存儲。優(yōu)點(diǎn)非常明顯,免除了系統(tǒng)整合工作,快速、簡單的部署,一站式技術(shù)支持,高性能高擴(kuò)展性,缺點(diǎn)是非常貴。

在此背景下,數(shù)盾科技推出了數(shù)盾POD。

對市場做了分析之后,數(shù)盾科技發(fā)現(xiàn)深度學(xué)習(xí)有很多不同的應(yīng)用場景,很多客戶,尤其是高校和科研場所,甚至是醫(yī)院,非常需要搭建深度學(xué)習(xí)的平臺,但他們的數(shù)據(jù)量并沒有那么大,或者他們的預(yù)算本身也沒有那么高,通常來說如果能達(dá)到50TB的存儲容量就夠現(xiàn)在的需求,訓(xùn)練自己人工智能算法需求就可以滿足。在剛才提到的非常高端的英偉達(dá)的POD和客戶需求之間有落差,我們找到了這樣的市場空間。

我們的做法是用相對便宜很多的英偉達(dá)DGX Station,用萬兆的網(wǎng)絡(luò)做直連,只連一臺數(shù)盾的存儲,做了適配測試以及容器化的部署,這樣搭建出來的平臺叫數(shù)盾POD,它的成本非常低,連交換機(jī)的成本都可以省下來,一臺存儲的原始容量是100TB,做雙副本之后是50TB,大部分客戶的需求已經(jīng)夠了。

這樣的系統(tǒng)加下來是50萬左右,和英偉達(dá)的POD比起來有幾個優(yōu)點(diǎn),和動輒大幾百萬的比起來成本低了非常多,性價比也非常高,現(xiàn)在我們做萬兆的網(wǎng)絡(luò),兩條可以跑滿,開箱即用,我們工程師已經(jīng)把這套系統(tǒng),已經(jīng)把容器做完了測試、適配和安裝。容器化,大家常用到的深度學(xué)習(xí)的框架,都可以以容器化的方式在上面安裝部署好。

現(xiàn)在GPU的性能越來越高,如果要把GPU的性能充分發(fā)揮出來,存儲要相應(yīng)的能跟上去,但現(xiàn)在市場上大部分的方案,整體系統(tǒng)的造價非常高。我負(fù)責(zé)的AI事業(yè)部在做市場分析之后,推出了這樣一個方案,可以做到相對來說低成本、高性價比,又能把GPU的處理能力充分發(fā)揮出來的一套系統(tǒng)。

這是我今天演講的內(nèi)容,謝謝大家!

分享到

xiesc

相關(guān)推薦