數(shù)盾科技AI事業(yè)部 總經(jīng)理樊笑冰 

數(shù)盾科技AI事業(yè)部總經(jīng)理樊笑冰在峰會(huì)“安全可控論壇”上發(fā)表了題為深度學(xué)習(xí)計(jì)算機(jī)存儲(chǔ)一體機(jī)方案的主題演講,介紹了 數(shù)盾科技基于英偉達(dá)DGX Station 推出的數(shù)盾POD ,以優(yōu)秀的性價(jià)比為高校和科研場所、醫(yī)院搭建深度學(xué)習(xí)的平臺(tái)客戶提供 人臉識(shí)別、車輛識(shí)別、動(dòng)作行為識(shí)別等方面的AI幫助。

以下內(nèi)容根據(jù)速記整理,未經(jīng)本人審定。

樊笑冰:大家下午好,我聲明一下,今天的主題和信息安全的關(guān)系并不大,我來自數(shù)盾科技,負(fù)責(zé)AI事業(yè)部,之所以把我們分到這個(gè)論壇,我想是因?yàn)閿?shù)盾科技的主業(yè)是做密碼產(chǎn)品。

今天講的主題是在深度學(xué)習(xí)的平臺(tái)下計(jì)算和存儲(chǔ)如何做結(jié)合方案。大會(huì)的主題是存儲(chǔ)和數(shù)據(jù)的峰會(huì),所以也不算跑題。

首先講一下GPU計(jì)算的背景。

大家知道,現(xiàn)在人工智能、深度學(xué)習(xí)底層的硬件用的都是GPU的處理能力,藍(lán)色的線。在前面幾十年,CPU的計(jì)算能力是跟著摩爾定律的趨勢走,每18個(gè)月翻一倍,但到2008、2009年時(shí),這條線撐不住了,開始平穩(wěn)下來,后來它每年漲10%。GPU是異軍突起,在2005年左右,它的起點(diǎn)就比CPU的數(shù)據(jù)高,基本這些年也都是按照每18個(gè)月翻一番的計(jì)算線在走,大概到2025年左右,GPU的處理能力會(huì)比CPU快1000倍。左邊是一個(gè)平臺(tái)架構(gòu),大家可以看到,下面通常是我們跑深度學(xué)習(xí),底層的硬件應(yīng)該有CPU搭配GPU,CPU上跑操作系統(tǒng),GPU跑具體的高強(qiáng)度的平衡計(jì)算。再往上有自己的系統(tǒng),有人工智能的算法,最上面是應(yīng)用,中間還有一塊能充分的把GPU的速度調(diào)動(dòng)起來。

這是深度學(xué)習(xí)的垂直架構(gòu),剛才講到底層有CPU也有GPU的模組,或者有GPU搭起來的服務(wù)器,包括BGX的服務(wù)器,以及IBM、戴爾搭起來的品牌GPU服務(wù)器。這邊是在亞馬遜的AWS等上的虛擬GPU,中間是深度學(xué)習(xí)的框架,現(xiàn)在可能比較常用的有很多,右邊的是在高性能計(jì)算或者是在一些圖像影像處理和分析,我們的重點(diǎn)是在左邊,在深度學(xué)習(xí)這一塊。

在這上面是深度學(xué)習(xí)的應(yīng)用場景,在醫(yī)學(xué)影像、制造業(yè)方面,有很多計(jì)算機(jī)視覺的應(yīng)用,科大訊飛在自然語言處理上,不管是語音處理還是翻譯現(xiàn)在都有很好的產(chǎn)品;在電商有機(jī)器人,在金融業(yè)有反欺詐,這些都是人工智能在各個(gè)行業(yè)的應(yīng)用。

剛才講那么多主要是想鋪墊一個(gè)背景,為什么我們的存儲(chǔ)跟GPU的硬件要做搭配,因?yàn)榇蠹铱梢钥吹紾PU的處理能力越來越快,如果要把GPU的計(jì)算性能或者處理能力充分發(fā)揮出來,存儲(chǔ)就要有相應(yīng)匹配,尤其是如果是外接存儲(chǔ)的話對存儲(chǔ)的要求就非常高。

先重點(diǎn)講一下英偉達(dá)的人工智能硬件。

大家知道,英偉達(dá)現(xiàn)在在全世界這個(gè)產(chǎn)業(yè)算是頭把交椅。在人工智能硬件方面,主要可以把它分成二組,一組用來做深度學(xué)習(xí)的訓(xùn)練,另一組是做推理。訓(xùn)練是為了把一個(gè)算法或者一個(gè)模型從無到有的通過樣本和訓(xùn)練平臺(tái),把一個(gè)算法給訓(xùn)練出來,推理是把訓(xùn)練好的算法裝在實(shí)際應(yīng)用的系統(tǒng)上,做實(shí)際的不管是圖像識(shí)別還是聲音識(shí)別、聲音翻譯這些具體的應(yīng)用。

在訓(xùn)練方面,英偉達(dá)推出了DGX系列產(chǎn)品,包括DGX1、DGX2以及其它,這些算是最高端最快的產(chǎn)品,像DGX1,一臺(tái)服務(wù)器的計(jì)算性能可以達(dá)到500個(gè),這是非常驚人的計(jì)算性能和速度,但他們的成本相對來說也非常高,后面的網(wǎng)絡(luò)通常是10萬MB。DGX Station相對來說低端一些,成本也差很多。

通常搭建一個(gè)深度學(xué)習(xí)的訓(xùn)練平臺(tái)時(shí),會(huì)面臨一個(gè)選擇——是在云上做平臺(tái)還是在本地的數(shù)據(jù)中心做深度學(xué)習(xí)的應(yīng)用。

很多客戶或者合作伙伴在早期探索時(shí)采取的方式是在云上做,現(xiàn)在國內(nèi)的阿里云,國外的亞馬遜AWS,他們都有GPU云,在GPU做虛擬化之后,把資源分配出來,剛開始早期探索時(shí)可以租一臺(tái)GPU的虛擬機(jī),數(shù)據(jù)級(jí)也比較少,跑一些運(yùn)算,做一些模型訓(xùn)練。GPU虛擬機(jī)的成本不低,所以每次運(yùn)行時(shí)都要做認(rèn)真的準(zhǔn)備,來節(jié)省成本。

當(dāng)這條路走出來,知道深度學(xué)習(xí)的路徑已經(jīng)是可行的,就會(huì)搭建自己的本地的數(shù)據(jù)中心,剛開始可以搭一臺(tái)或者二臺(tái)的GPU服務(wù)器,這樣可以做比較頻繁、快速的實(shí)驗(yàn)。當(dāng)數(shù)據(jù)量越來越大,人工智能算法或者模型越來越準(zhǔn)的時(shí)候,可以再增添新的服務(wù)器來做擴(kuò)展。

搭建深度學(xué)習(xí)訓(xùn)練平臺(tái)時(shí),通常來說都是面臨這些挑戰(zhàn),首先是剛開始做設(shè)計(jì)時(shí)就要把它預(yù)備好是一個(gè)可擴(kuò)展的系統(tǒng),數(shù)據(jù)量有多大,人工智能的算法會(huì)有多復(fù)雜,都要先預(yù)測好,為以后的擴(kuò)展做準(zhǔn)備。IT人員在購買、安裝、實(shí)施這些設(shè)備時(shí)會(huì)面臨不同的方面,包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件,系統(tǒng)軟件和應(yīng)用軟件的不同故障,所以IT人員也頭痛,面臨的技術(shù)支持也是多個(gè)點(diǎn),計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件,每個(gè)部分都有自己的供應(yīng)商,需要解決不同的問題時(shí)面臨的基礎(chǔ)支撐也是多個(gè)點(diǎn),會(huì)面臨到的許多挑戰(zhàn)。

從硬件到GPU服務(wù)器、操作系統(tǒng)、深度學(xué)習(xí)平臺(tái),這些不同的平臺(tái),IT人員會(huì)面臨很多不同領(lǐng)域的問題。

既然搭建深度學(xué)習(xí)平臺(tái)會(huì)遇到這么多問題,業(yè)界現(xiàn)有的解決方案有哪些?英偉達(dá)的解決方案叫DGX POD,說白了就是把GPU服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等打包,由他們的工程師把這一套系統(tǒng)提前做好適配、安裝、調(diào)優(yōu),所有的工作都做完之后有統(tǒng)一的技術(shù)支持接口。剛才提到的各個(gè)客戶或者各個(gè)IT人員所遇到的各種問題,基本有這個(gè)POD就能解決,優(yōu)點(diǎn)很明顯,但缺點(diǎn)也非常明顯,非常貴,如果這是一臺(tái)一體機(jī),大概要賣幾百萬。

DGX—1的GPU服務(wù)器,每一臺(tái)里有5個(gè)SSD,一個(gè)做操作系統(tǒng),另外4塊是數(shù)據(jù),加起來是8TB的容量,在深度學(xué)習(xí)中,通常來說這樣的容量是不夠的,所以需要接外界的存儲(chǔ),這也是為什么英偉達(dá)推出了POD服務(wù)器,整個(gè)打包做。外界的服務(wù)器,我剛開始做了鋪墊,要把它的性能充分發(fā)揮出來,外界的I/O一定要跟得上,這是在不同場景下所需要的性能能力推薦。如果做數(shù)據(jù)分析的話,大概萬兆的網(wǎng)絡(luò)就可以,如果做到高性能計(jì)算,可能就要從萬兆到10萬兆。

下面幾個(gè)是做圖像處理,現(xiàn)在人工智能最多的應(yīng)用是計(jì)算機(jī)視覺,比如人臉識(shí)別、車輛識(shí)別、動(dòng)作行為識(shí)別、視頻里的物質(zhì)分類,圖片處理是人工智能里用到最多的一個(gè)應(yīng)用場景,在不同的圖片大小中,如果是256*256,4K無壓縮的,在不同圖片大要的情況下,需要推薦的外界存儲(chǔ)網(wǎng)絡(luò)類型或者I/O類型都有推薦。在不同的應(yīng)用場景下,從萬兆網(wǎng)絡(luò)再到4萬兆在到IB網(wǎng)絡(luò),都會(huì)有不同的需求。外界存儲(chǔ)文件系統(tǒng)方面,用NFS就可以解決絕大多數(shù)的需求。如果圖片比較大,可能會(huì)用到高行僧的NFS。在這種場景下,剛才講到的DGX1本身帶的那四款SSD就是做緩存,外界的存儲(chǔ)用來儲(chǔ)存大量的數(shù)據(jù)。

英偉達(dá)+第三方合作伙伴的POD方案,是一個(gè)所謂的參考架構(gòu),歡迎不同的存儲(chǔ)廠商一起合作,推出不同的POD方案,目前為止已經(jīng)有四五家和英偉達(dá)合作,包括IBM等都和他們有POD方案。但方案都比較類似,都是剛才提到的一個(gè)大而全的方案,里面包括DGX 1的GPU服務(wù)器,包括網(wǎng)絡(luò)、外界存儲(chǔ)。優(yōu)點(diǎn)非常明顯,免除了系統(tǒng)整合工作,快速、簡單的部署,一站式技術(shù)支持,高性能高擴(kuò)展性,缺點(diǎn)是非常貴。

在此背景下,數(shù)盾科技推出了數(shù)盾POD。

對市場做了分析之后,數(shù)盾科技發(fā)現(xiàn)深度學(xué)習(xí)有很多不同的應(yīng)用場景,很多客戶,尤其是高校和科研場所,甚至是醫(yī)院,非常需要搭建深度學(xué)習(xí)的平臺(tái),但他們的數(shù)據(jù)量并沒有那么大,或者他們的預(yù)算本身也沒有那么高,通常來說如果能達(dá)到50TB的存儲(chǔ)容量就夠現(xiàn)在的需求,訓(xùn)練自己人工智能算法需求就可以滿足。在剛才提到的非常高端的英偉達(dá)的POD和客戶需求之間有落差,我們找到了這樣的市場空間。

我們的做法是用相對便宜很多的英偉達(dá)DGX Station,用萬兆的網(wǎng)絡(luò)做直連,只連一臺(tái)數(shù)盾的存儲(chǔ),做了適配測試以及容器化的部署,這樣搭建出來的平臺(tái)叫數(shù)盾POD,它的成本非常低,連交換機(jī)的成本都可以省下來,一臺(tái)存儲(chǔ)的原始容量是100TB,做雙副本之后是50TB,大部分客戶的需求已經(jīng)夠了。

這樣的系統(tǒng)加下來是50萬左右,和英偉達(dá)的POD比起來有幾個(gè)優(yōu)點(diǎn),和動(dòng)輒大幾百萬的比起來成本低了非常多,性價(jià)比也非常高,現(xiàn)在我們做萬兆的網(wǎng)絡(luò),兩條可以跑滿,開箱即用,我們工程師已經(jīng)把這套系統(tǒng),已經(jīng)把容器做完了測試、適配和安裝。容器化,大家常用到的深度學(xué)習(xí)的框架,都可以以容器化的方式在上面安裝部署好。

現(xiàn)在GPU的性能越來越高,如果要把GPU的性能充分發(fā)揮出來,存儲(chǔ)要相應(yīng)的能跟上去,但現(xiàn)在市場上大部分的方案,整體系統(tǒng)的造價(jià)非常高。我負(fù)責(zé)的AI事業(yè)部在做市場分析之后,推出了這樣一個(gè)方案,可以做到相對來說低成本、高性價(jià)比,又能把GPU的處理能力充分發(fā)揮出來的一套系統(tǒng)。

這是我今天演講的內(nèi)容,謝謝大家!

分享到

xiesc

相關(guān)推薦