雖然IPU與GPU都是為密集型計算而生,但又同而不同。Graphcore大中華區(qū)總裁兼全球首席營收官盧濤解釋稱,云端AI計算最大的主流,一部分在CPU上,一部分在GPU,還有一部分在IPU。這三類處理器相當于三個圓,各自中間都有交集的部分,但又都有彼此擅長的領域。
從芯片架構上來看,IPU與GPU有三個大的差異點。第一,計算內核更多,IPU擁有1400多個處理器內核,每個內核可以運行6個線程。
第二,存儲架構不同,數據讀取速度更快。GPU是層次化內存架構,讀取數據流程是片內緩存,然后是片外顯存或HBM。而IPU采用的是片內存儲,分布式架構,如GC200擁有900MB處理器內存儲。
第三通信調度優(yōu)化。在跨芯片多核通信調度時,GPU內的SM核最后是多核多線程呈現給開發(fā)者,程序員要關注通信怎么做到數據同步。Graphcore則采用一套BSP(Bulk Synchronous Parallel)軟硬件結合算法,讓一個芯片一千多個核,甚至多個芯片跨IPU連接。
就像一萬個人在排隊,先把隊伍整理好了再往前走,到下一個點把隊伍整理好再往前走,這樣當大規(guī)模并行處理時,就不需要把系統的復雜性顯示給程序員和開發(fā)者。
至于在不同AI應用領域的領先。2021年11月份,Graphcore參加了MLPerf 1.1,并針對機器學習進行了一系列基準測試,每年四次,兩次推理,兩次訓練,MLPerf 1.1是訓練1.1。其中,在GPU占據優(yōu)勢的模型ResNet-50上測試顯示,Graphcore的IPU-POD16在計算機視覺模型ResNet-50方面表現優(yōu)于NVIDIA的DGX A100。在DGX A100上訓練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時28.3分鐘。
單一主機服務器做自然語言訓練方面,也就是BERT,最快的是IPU-POD64系統。CPU和AI處理相解耦,基本在系統里就實現了針對目標應用的優(yōu)化,比如BERT是一臺兩個CPU的服務器對應64個IPU,CPU和IPU的比例是1:32,計算機視覺領域基本上比例可以做到1:8。而其他提交者,如英偉達GPU系統里是2個CPU對應8個GPU,1:4的固定配比,英特爾系統里,CPU和AI加速引擎是1:2的固定配比,而Graphcore可以針對不同場景靈活優(yōu)化。
在功耗上,同樣的算力,IPU的功耗比GPU更低,某種意義來看是在實現節(jié)能減排。回頭看看Graphcore和一些合作伙伴做的事,比如Graphcore與升哲科技發(fā)布了基于IPU的合作,也是主要基于IPU進行城市相關可持續(xù)發(fā)展的應用。
此外,金融保險方面,牛津-英仕曼在用IPU進行股票預測;Tractable在利用智能計算進行保險理賠方面的輔助工作;電信方面,Graphcore和韓國電信合作發(fā)布了IPU云;醫(yī)療、生命科學方面,Graphcore和斯坦福大學醫(yī)學院采用IPU對以“醫(yī)療+隱私計算”為核心的方向進行了研究和探索。
Graphcore擬未的2021年回顧篇
Graphcore中文名為擬未——類腦模擬,未來科技,起的名字格局是很大了。擬未是一家跨國企業(yè),企業(yè)規(guī)模700人。中國團隊是Graphcore過去一年團隊成長中很大的一部分,2020年年底,中國團隊有20人,現在達到了80人。全球布局方面,Graphcore在亞洲的辦公室分布在北京、上海、深圳、臺灣,以及韓國、日本、新加坡。在歐洲,除英國、挪威以外,在法國和印度也有辦公室,波蘭新開設了一個軟件研發(fā)中心。
偏個題,小編有參觀擬未在北京的辦公場地,桌椅都是從國外運來的,簡單舒適,桌子可以上下調節(jié)高度,設有游戲休閑區(qū),還有吊椅,慕了……
言歸正題。在2021年,Graphcore的IPU-POD系列有了產品擴展,當前IPU出貨量規(guī)模達到萬級以上。IPU-POD128、IPU-POD256已上市發(fā)售,用戶可以直接商用部署的平臺。并且擬未面向超算規(guī)模的AI集群或計算系統發(fā)布了兩款新品——IPU-POD128和IPU-POD256。
當前Graphcore擁有的硬件產品系列可滿足處于不同發(fā)展階段企業(yè)的算力需求,比如IPU-POD16,產品定位為“EXPLORE”,新型機器學習、AI用戶需要從較小的系統開始,IPU-POD16就是支持企業(yè)的初期探索型平臺。當企業(yè)逐漸到做一些生產型任務,從探索轉向“BUILD”建設型,構建自身的生產系統,再是“GROW”擴展系統,適配更高算力,IPU從16到64、到128、到256,針對不同業(yè)務,CPU和IPU的配比都非常靈活。
Graphcore的IPU提供高效AI計算,軟件Poplar具備易用性,軟硬件相結合加速系統中多種AI模型處理進程。中間的Poplar SDK(軟件開發(fā)工具包),粉色部分是Poplar的協議棧。淺粉色部分是Poplar和機器學習框架中間層的軟件,如XLA、圖編譯器、PopART等。
框架層有新增,PyTorch Lightning、百度飛槳、Hugging Face是2021年發(fā)布的。2020年,百度正式宣布Graphcore加入百度飛槳硬件生態(tài)圈。2021年,百度飛槳在Graphcore IPU上實現了訓練與推理全面支持。
前端是針對開發(fā)者,如Jupyter NoteBook,程序員像使用記事本一樣使用這個開發(fā)平臺。周圍是一些AI應用、開發(fā)者生態(tài),包括開發(fā)工具、可視化工具,可以幫助用戶對應用進行可視化優(yōu)化,右下角是系統級的軟件,從硬件的管理到IPU虛擬化到系統級別集群、任務的調度。
新的一年,Graphcore會一些AI應用領域進一步深入,比如AI輔助科研,自動駕駛等領域將是其在AI應用或垂直領域中的重要方向,自動駕駛行業(yè)相關的盆友可以關注一下,時刻保持行業(yè)競爭力嘛。
寫在最后
印象深刻的是,盧濤在談及如何做好計算型芯片,在行業(yè)保有競爭力時的回答——預判+冒一點風險+一點運氣。一家芯片公司生態(tài)至關重要。AI計算與傳統CPU市場有所不同,在過去的5-10年間,CPU業(yè)務十分明確且處于主導地位,而AI領域內,生態(tài)構建需要時間積累,但AI應用是動態(tài)化的,有很多創(chuàng)新技術研究,新的技術領域,Graphcore會基于當前應用合作和未來技術發(fā)展作出趨勢預判,提前投入研究,要對未來勇于判斷。由此看來,擬未是一家大膽創(chuàng)新的芯片初創(chuàng)公司,全球而言創(chuàng)始人團隊在芯片領域曾成功開發(fā)出11款微處理器,國內盧濤在芯片領域擁有20多年的經驗,此前曾任芯片制造商Cavium總經理并作為零號員工領導Cavium在中國的業(yè)務,強大的技術團隊支撐未來AI計算的趨勢判斷,當其AI生態(tài)逐步構建,GPU,可能真的要小心了。