伊人情人网综合,最近中文字幕mv免费看

數(shù)盾科技AI事業(yè)部總經(jīng)理樊笑冰

數(shù)盾科技AI事業(yè)部總經(jīng)理樊笑冰在峰會(huì)“安全可控論壇”上發(fā)表了題為《深度學(xué)習(xí)計(jì)算機(jī)存儲一體機(jī)方案》的主題演講，介紹了數(shù)盾科技基于英偉達(dá)DGX Station 推出的數(shù)盾POD ，以優(yōu)秀的性價(jià)比為高校和科研場所、醫(yī)院搭建深度學(xué)習(xí)的平臺客戶提供人臉識別、車輛識別、動(dòng)作行為識別等方面的AI幫助。

以下內(nèi)容根據(jù)速記整理，未經(jīng)本人審定。

樊笑冰：大家下午好，我聲明一下，今天的主題和信息安全的關(guān)系并不大，我來自數(shù)盾科技，負(fù)責(zé)AI事業(yè)部，之所以把我們分到這個(gè)論壇，我想是因?yàn)閿?shù)盾科技的主業(yè)是做密碼產(chǎn)品。

今天講的主題是在深度學(xué)習(xí)的平臺下計(jì)算和存儲如何做結(jié)合方案。大會(huì)的主題是存儲和數(shù)據(jù)的峰會(huì)，所以也不算跑題。

首先講一下GPU計(jì)算的背景。

大家知道，現(xiàn)在人工智能、深度學(xué)習(xí)底層的硬件用的都是GPU的處理能力，藍(lán)色的線。在前面幾十年，CPU的計(jì)算能力是跟著摩爾定律的趨勢走，每18個(gè)月翻一倍，但到2008、2009年時(shí)，這條線撐不住了，開始平穩(wěn)下來，后來它每年漲10%。GPU是異軍突起，在2005年左右，它的起點(diǎn)就比CPU的數(shù)據(jù)高，基本這些年也都是按照每18個(gè)月翻一番的計(jì)算線在走，大概到2025年左右，GPU的處理能力會(huì)比CPU快1000倍。左邊是一個(gè)平臺架構(gòu)，大家可以看到，下面通常是我們跑深度學(xué)習(xí)，底層的硬件應(yīng)該有CPU搭配GPU，CPU上跑操作系統(tǒng)，GPU跑具體的高強(qiáng)度的平衡計(jì)算。再往上有自己的系統(tǒng)，有人工智能的算法，最上面是應(yīng)用，中間還有一塊能充分的把GPU的速度調(diào)動(dòng)起來。

這是深度學(xué)習(xí)的垂直架構(gòu)，剛才講到底層有CPU也有GPU的模組，或者有GPU搭起來的服務(wù)器，包括BGX的服務(wù)器，以及IBM、戴爾搭起來的品牌GPU服務(wù)器。這邊是在亞馬遜的AWS等上的虛擬GPU，中間是深度學(xué)習(xí)的框架，現(xiàn)在可能比較常用的有很多，右邊的是在高性能計(jì)算或者是在一些圖像影像處理和分析，我們的重點(diǎn)是在左邊，在深度學(xué)習(xí)這一塊。

在這上面是深度學(xué)習(xí)的應(yīng)用場景，在醫(yī)學(xué)影像、制造業(yè)方面，有很多計(jì)算機(jī)視覺的應(yīng)用，科大訊飛在自然語言處理上，不管是語音處理還是翻譯現(xiàn)在都有很好的產(chǎn)品；在電商有機(jī)器人，在金融業(yè)有反欺詐，這些都是人工智能在各個(gè)行業(yè)的應(yīng)用。

剛才講那么多主要是想鋪墊一個(gè)背景，為什么我們的存儲跟GPU的硬件要做搭配，因?yàn)榇蠹铱梢钥吹紾PU的處理能力越來越快，如果要把GPU的計(jì)算性能或者處理能力充分發(fā)揮出來，存儲就要有相應(yīng)匹配，尤其是如果是外接存儲的話對存儲的要求就非常高。

先重點(diǎn)講一下英偉達(dá)的人工智能硬件。

大家知道，英偉達(dá)現(xiàn)在在全世界這個(gè)產(chǎn)業(yè)算是頭把交椅。在人工智能硬件方面，主要可以把它分成二組，一組用來做深度學(xué)習(xí)的訓(xùn)練，另一組是做推理。訓(xùn)練是為了把一個(gè)算法或者一個(gè)模型從無到有的通過樣本和訓(xùn)練平臺，把一個(gè)算法給訓(xùn)練出來，推理是把訓(xùn)練好的算法裝在實(shí)際應(yīng)用的系統(tǒng)上，做實(shí)際的不管是圖像識別還是聲音識別、聲音翻譯這些具體的應(yīng)用。

在訓(xùn)練方面，英偉達(dá)推出了DGX系列產(chǎn)品，包括DGX1、DGX2以及其它，這些算是最高端最快的產(chǎn)品，像DGX1，一臺服務(wù)器的計(jì)算性能可以達(dá)到500個(gè)，這是非常驚人的計(jì)算性能和速度，但他們的成本相對來說也非常高，后面的網(wǎng)絡(luò)通常是10萬MB。DGX Station相對來說低端一些，成本也差很多。

通常搭建一個(gè)深度學(xué)習(xí)的訓(xùn)練平臺時(shí)，會(huì)面臨一個(gè)選擇——是在云上做平臺還是在本地的數(shù)據(jù)中心做深度學(xué)習(xí)的應(yīng)用。

很多客戶或者合作伙伴在早期探索時(shí)采取的方式是在云上做，現(xiàn)在國內(nèi)的阿里云，國外的亞馬遜AWS，他們都有GPU云，在GPU做虛擬化之后，把資源分配出來，剛開始早期探索時(shí)可以租一臺GPU的虛擬機(jī)，數(shù)據(jù)級也比較少，跑一些運(yùn)算，做一些模型訓(xùn)練。GPU虛擬機(jī)的成本不低，所以每次運(yùn)行時(shí)都要做認(rèn)真的準(zhǔn)備，來節(jié)省成本。

當(dāng)這條路走出來，知道深度學(xué)習(xí)的路徑已經(jīng)是可行的，就會(huì)搭建自己的本地的數(shù)據(jù)中心，剛開始可以搭一臺或者二臺的GPU服務(wù)器，這樣可以做比較頻繁、快速的實(shí)驗(yàn)。當(dāng)數(shù)據(jù)量越來越大，人工智能算法或者模型越來越準(zhǔn)的時(shí)候，可以再增添新的服務(wù)器來做擴(kuò)展。

搭建深度學(xué)習(xí)訓(xùn)練平臺時(shí)，通常來說都是面臨這些挑戰(zhàn)，首先是剛開始做設(shè)計(jì)時(shí)就要把它預(yù)備好是一個(gè)可擴(kuò)展的系統(tǒng)，數(shù)據(jù)量有多大，人工智能的算法會(huì)有多復(fù)雜，都要先預(yù)測好，為以后的擴(kuò)展做準(zhǔn)備。IT人員在購買、安裝、實(shí)施這些設(shè)備時(shí)會(huì)面臨不同的方面，包括計(jì)算、存儲、網(wǎng)絡(luò)、軟件，系統(tǒng)軟件和應(yīng)用軟件的不同故障，所以IT人員也頭痛，面臨的技術(shù)支持也是多個(gè)點(diǎn)，計(jì)算、存儲、網(wǎng)絡(luò)、軟件，每個(gè)部分都有自己的供應(yīng)商，需要解決不同的問題時(shí)面臨的基礎(chǔ)支撐也是多個(gè)點(diǎn)，會(huì)面臨到的許多挑戰(zhàn)。

從硬件到GPU服務(wù)器、操作系統(tǒng)、深度學(xué)習(xí)平臺，這些不同的平臺，IT人員會(huì)面臨很多不同領(lǐng)域的問題。

既然搭建深度學(xué)習(xí)平臺會(huì)遇到這么多問題，業(yè)界現(xiàn)有的解決方案有哪些？英偉達(dá)的解決方案叫DGX POD，說白了就是把GPU服務(wù)器、網(wǎng)絡(luò)、存儲等打包，由他們的工程師把這一套系統(tǒng)提前做好適配、安裝、調(diào)優(yōu)，所有的工作都做完之后有統(tǒng)一的技術(shù)支持接口。剛才提到的各個(gè)客戶或者各個(gè)IT人員所遇到的各種問題，基本有這個(gè)POD就能解決，優(yōu)點(diǎn)很明顯，但缺點(diǎn)也非常明顯，非常貴，如果這是一臺一體機(jī)，大概要賣幾百萬。

DGX—1的GPU服務(wù)器，每一臺里有5個(gè)SSD，一個(gè)做操作系統(tǒng)，另外4塊是數(shù)據(jù)，加起來是8TB的容量，在深度學(xué)習(xí)中，通常來說這樣的容量是不夠的，所以需要接外界的存儲，這也是為什么英偉達(dá)推出了POD服務(wù)器，整個(gè)打包做。外界的服務(wù)器，我剛開始做了鋪墊，要把它的性能充分發(fā)揮出來，外界的I/O一定要跟得上，這是在不同場景下所需要的性能能力推薦。如果做數(shù)據(jù)分析的話，大概萬兆的網(wǎng)絡(luò)就可以，如果做到高性能計(jì)算，可能就要從萬兆到10萬兆。

下面幾個(gè)是做圖像處理，現(xiàn)在人工智能最多的應(yīng)用是計(jì)算機(jī)視覺，比如人臉識別、車輛識別、動(dòng)作行為識別、視頻里的物質(zhì)分類，圖片處理是人工智能里用到最多的一個(gè)應(yīng)用場景，在不同的圖片大小中，如果是256*256，4K無壓縮的，在不同圖片大要的情況下，需要推薦的外界存儲網(wǎng)絡(luò)類型或者I/O類型都有推薦。在不同的應(yīng)用場景下，從萬兆網(wǎng)絡(luò)再到4萬兆在到IB網(wǎng)絡(luò)，都會(huì)有不同的需求。外界存儲文件系統(tǒng)方面，用NFS就可以解決絕大多數(shù)的需求。如果圖片比較大，可能會(huì)用到高行僧的NFS。在這種場景下，剛才講到的DGX1本身帶的那四款SSD就是做緩存，外界的存儲用來儲存大量的數(shù)據(jù)。

英偉達(dá)+第三方合作伙伴的POD方案，是一個(gè)所謂的參考架構(gòu)，歡迎不同的存儲廠商一起合作，推出不同的POD方案，目前為止已經(jīng)有四五家和英偉達(dá)合作，包括IBM等都和他們有POD方案。但方案都比較類似，都是剛才提到的一個(gè)大而全的方案，里面包括DGX 1的GPU服務(wù)器，包括網(wǎng)絡(luò)、外界存儲。優(yōu)點(diǎn)非常明顯，免除了系統(tǒng)整合工作，快速、簡單的部署，一站式技術(shù)支持，高性能高擴(kuò)展性，缺點(diǎn)是非常貴。

在此背景下，數(shù)盾科技推出了數(shù)盾POD。

對市場做了分析之后，數(shù)盾科技發(fā)現(xiàn)深度學(xué)習(xí)有很多不同的應(yīng)用場景，很多客戶，尤其是高校和科研場所，甚至是醫(yī)院，非常需要搭建深度學(xué)習(xí)的平臺，但他們的數(shù)據(jù)量并沒有那么大，或者他們的預(yù)算本身也沒有那么高，通常來說如果能達(dá)到50TB的存儲容量就夠現(xiàn)在的需求，訓(xùn)練自己人工智能算法需求就可以滿足。在剛才提到的非常高端的英偉達(dá)的POD和客戶需求之間有落差，我們找到了這樣的市場空間。

我們的做法是用相對便宜很多的英偉達(dá)DGX Station，用萬兆的網(wǎng)絡(luò)做直連，只連一臺數(shù)盾的存儲，做了適配測試以及容器化的部署，這樣搭建出來的平臺叫數(shù)盾POD，它的成本非常低，連交換機(jī)的成本都可以省下來，一臺存儲的原始容量是100TB，做雙副本之后是50TB，大部分客戶的需求已經(jīng)夠了。

這樣的系統(tǒng)加下來是50萬左右，和英偉達(dá)的POD比起來有幾個(gè)優(yōu)點(diǎn)，和動(dòng)輒大幾百萬的比起來成本低了非常多，性價(jià)比也非常高，現(xiàn)在我們做萬兆的網(wǎng)絡(luò)，兩條可以跑滿，開箱即用，我們工程師已經(jīng)把這套系統(tǒng)，已經(jīng)把容器做完了測試、適配和安裝。容器化，大家常用到的深度學(xué)習(xí)的框架，都可以以容器化的方式在上面安裝部署好。

現(xiàn)在GPU的性能越來越高，如果要把GPU的性能充分發(fā)揮出來，存儲要相應(yīng)的能跟上去，但現(xiàn)在市場上大部分的方案，整體系統(tǒng)的造價(jià)非常高。我負(fù)責(zé)的AI事業(yè)部在做市場分析之后，推出了這樣一個(gè)方案，可以做到相對來說低成本、高性價(jià)比，又能把GPU的處理能力充分發(fā)揮出來的一套系統(tǒng)。

這是我今天演講的內(nèi)容，謝謝大家！

分享到

數(shù)盾科技

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽