存算一體化技術(shù)論壇

知存科技創(chuàng)始人王紹迪,作為百易傳媒(DOIT)特邀嘉賓和論壇出品人榮譽擔(dān)綱主持人,并發(fā)表精彩演講。

據(jù)了解,存算一體技術(shù)是最近幾年才出現(xiàn)的一種新的架構(gòu)。

在未來10年、20年,由于很難再看到摩爾定律持續(xù)向前發(fā)展,很多新技術(shù)的瓶頸無法再通過摩爾定律以縮小芯片尺寸工藝解決問題。比如做大算力,數(shù)據(jù)量很大的運算的時候發(fā)現(xiàn),存儲器和計算之間的數(shù)據(jù)瓶頸占了資源運算90%以上,而運算過程中傳感器和芯片的數(shù)據(jù)通路占了其他90%以上的運算資源、運算時間、運算功耗。也就是說,在先進工藝的情況下,運算瓶頸不再是計算本身,而是在各個不同模塊之間的數(shù)據(jù)搬運上,比如傳感器到存儲器到存儲機到計算單元都有各種的數(shù)據(jù)瓶頸。

這種情況下,存算一體和感存算一體應(yīng)運而生。

存算一體和感存算一體作為新型架構(gòu),是非常前沿和個性的技術(shù),需要產(chǎn)業(yè)和學(xué)術(shù)界共同推廣和發(fā)展。最近一兩年內(nèi),很多的創(chuàng)業(yè)公司以及大公司進入這個領(lǐng)域,也為未來十年二十年以后的主流存算一體和感存算一體做了非常好的鋪墊,更多公司上下游協(xié)作將會完成這樣的壯舉。

以無限算力改變世界:后摩智能異軍突起于存算一體解鎖超大算力

后摩智能聯(lián)合創(chuàng)始人兼戰(zhàn)略及市場、商務(wù)副總裁項之初以“無限算力 改變世界——存算一體解鎖超大算力”為題,介紹了后摩智能以及近期從事的超大算力方面的研究。

算力是國家之間的戰(zhàn)略級別的競爭,代表智能水平的指標(biāo)是TOPS,接近通用人工智能水平的數(shù)值是5000TOPS。國外領(lǐng)先企業(yè)從2018年的1TOPS發(fā)展到今天已經(jīng)254TOPS,兩年后的下一代芯片將會達到1000TPOS。

算力正在快速增長,越來越接近人類的認(rèn)知。面向這個擁有萬億級規(guī)模的廣闊市場,后摩智能也提出了這樣的目標(biāo)。

為什么要涉足存算一體?后摩智能的信心從何而來?后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項之初進行了闡述。

后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項之初

存算一體技術(shù)是最近幾年才出現(xiàn)的一種新的架構(gòu)。據(jù)項之初介紹,存算一體及其優(yōu)勢在于以下三個方面:一是存算一體功耗低。有數(shù)據(jù)預(yù)測,全球數(shù)據(jù)中心2025年的耗電量將達到總耗電量20%,而L5級無人駕駛所需的4000 TPOS算力水平,一年需要3萬多億度電,占全球發(fā)電量12%。又如AlphaGo下一盤棋打敗了人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦,這還不算無數(shù)的傳感器都與數(shù)據(jù)加總支持的算力所耗費的能量。只有低功耗基礎(chǔ)上的大算力才是可持續(xù)的,這也是國際國內(nèi)共同關(guān)注的話題。二是存算一體減少了數(shù)據(jù)遷移,降低了延時。在自動駕駛賽道,低延時可能意味著挽回生命。三是存算一體做大算力芯片可以更簡單,它的工程不像原來馮諾伊曼存儲和計算分離架構(gòu)下總線結(jié)構(gòu)復(fù)雜相連。國外龍頭企業(yè)團隊實力雄厚,研發(fā)時間長,積累了強大的工程經(jīng)驗,形成了知識產(chǎn)權(quán)壁壘。采用同樣的技術(shù)路徑,直道追趕極其困難,而存算一體繞開了巨頭壁壘,實現(xiàn)換道超車。

后摩智能是一家在南京、上海、北京都有研發(fā)中心的,年輕但實力強大的公司,其研發(fā)能力覆蓋從存算一體底層的器件層,電路設(shè)計到架構(gòu)全棧:在AI Core設(shè)計方面,有20年設(shè)計經(jīng)驗;在SoC層級,涉足從0.18微米和6納米芯片;軟件編譯器、AI算法到應(yīng)用場景有全棧的成熟和豐富的經(jīng)驗。基于自主研發(fā)的存算一體和先進工藝,面向無人終端以及邊緣及云端的訓(xùn)練和推理打造出效率高出10倍乃至數(shù)10倍以上的算力芯片。

項之初認(rèn)為,存算一體大算力芯片潛在的市場有兩個:邊緣端的推理和云端推理市場。無論是邊緣端的推理和云端推理市場,它們共同的痛點都是散熱和功耗。在數(shù)據(jù)中心,如果功耗降到1/10,可以多插90%的卡,那數(shù)據(jù)中心的計算密度就會成倍增加。這正是存算一體的芯片競爭力:大算力的芯片可以提升無人車和機器人的智能化,芯片的高能效比可以降低成本,滿足散熱等需求,甚至提升安全性。

可以說,AI時代為很多公司用另外一種方式超越國際領(lǐng)先水平提供了機會。

感知世界,傾聽未來: 每刻深思的近傳感模擬計算芯片

在傳統(tǒng)的方案里,手機CPU里面都有一個功能一直開著的,可以在前端鏈接各種不同的傳感器進行大量的監(jiān)測和交互,比如語音的識別和喚醒,觸覺視覺,但它最大的問題是因為它的主頻率一直開著,所以對整個系統(tǒng)產(chǎn)生數(shù)量級的功耗需求。

采用近傳感計算方式,意味著可以把功耗降低50到100倍,可以支持更多的應(yīng)用。總體而言,帶來的是1/3以上的成本下降。

這就是每刻深思最獨特優(yōu)勢的技術(shù)——近傳感模擬計算架構(gòu),最大化模擬計算功耗,消除了邊緣計算中,除了存儲器和處理器之間的瓶頸、傳感器和計算芯片之間的瓶頸,還降低了把數(shù)據(jù)從傳感器遷移到到處理器過程中能量的損耗。

每刻深思CEO鄒天琦

2012年成立以來,每刻深思不斷基于具體的場景為手機廠商,傳感器廠商設(shè)計芯片,今年第一季度做了一款數(shù)?;旌?、直接面向客戶IoT應(yīng)用需求的MKA1031芯片。每刻深思CEO鄒天琦表示,公司面向多傳感器集成的通用模擬計算IP平臺,其技術(shù)優(yōu)勢極具競爭力:

一是支持不同的傳感器的集成。為了做到這一點,每刻深思把自己平臺分為三大計算平臺,其一是基于連續(xù)時間信號處理的TDSP平臺,無論是做音頻還是做加速度傳感器,連續(xù)時間信號都可以在該平臺上處理;其二是陣列信號SDSP平臺,可以處理ToF、毫米波在陣列信號,其三是在2019年驗證過的Fusion的平臺,可以把前面兩種信號在一款芯片上實現(xiàn)。另外,每刻深思還提供了完整的SDK工具,以使得用戶可以很好的沿用以往的使用習(xí)慣來開發(fā)他自己的算法、進行參數(shù)的調(diào)優(yōu)。當(dāng)然,這個SDK同時是支持傳統(tǒng)的MySQL算法與大部分DNN深度學(xué)習(xí)。

第二大優(yōu)勢是可拓展性,為將來往大算力場景擴展做好準(zhǔn)備,第三大優(yōu)勢就是大幅降低功耗,這是解決客戶最核心的痛點的特性。

談到每刻深思未來的規(guī)劃,鄒天琦表示計劃分三步走:明年客戶基于Q4流片小規(guī)模量產(chǎn),之后基于兩種產(chǎn)品形態(tài)不斷推高出貨量,到2024年達到月出貨量超過3KK的目標(biāo),實現(xiàn)億元營收;到2026年之前以兩種產(chǎn)品形態(tài)復(fù)制和應(yīng)用到大量的場景,實現(xiàn)規(guī)?;膽?yīng)用。

每刻深思在視覺領(lǐng)域也展開了大量的工作,在光學(xué)處理過程中加載了基于陣列信號的處理,在2019年把連續(xù)時間信號和糾正時間信號兩種類型都融合在一塊芯片上,實現(xiàn)了融合感知。

“希望和各位一起合作建立全時域智能感知服務(wù)平臺,整合產(chǎn)業(yè)上下游,充分挖掘數(shù)據(jù)的價值,解決信息安全和隱私問題,以更低的成本服務(wù)于我們的客戶。” 鄒天琦說。

感存算一體:犀靈視覺的智能視覺傳感器

犀靈視覺致力于智能視覺傳感器開發(fā),以解決感存算一體的問題,在智能視覺方面有很深度的積累。通過圖片傳感器上增加運算功能,使得傳感器能輸出精簡關(guān)鍵的信息,直接輸出神經(jīng)網(wǎng)絡(luò)推理結(jié)果,幫助整個AI提升運算效力。犀靈視覺核心技術(shù)包括矩陣式CMD、處理單元、感存算一體等業(yè)界領(lǐng)先的關(guān)鍵技術(shù),實現(xiàn)高速與低功耗的芯片,芯片將于2022年2月份實現(xiàn)產(chǎn)品量產(chǎn)。

犀靈視覺創(chuàng)始人冉亮在演講中指出,將傳感、存儲、運算都放在一起的感存算的架構(gòu),解決了兩個問題:一個是馮諾伊曼架構(gòu)的數(shù)據(jù)來回搬運的功耗瓶頸,因為和傳感部分是一體化的,所以同時也解決了傳感器本身和邊緣AI之間的傳輸速度的瓶頸,實現(xiàn)超高速以及超低功耗的運行能力。

一個用180納米做的芯片,處理器的像素量65536,雖然是比較老的工藝節(jié)點,但是性能也可以每瓦535GOPS的算力,這個算力不能和AI芯片的算力劃等號,但和28納米的處理器做的簡單的手寫字符的神經(jīng)網(wǎng)絡(luò)的對比可以看到,推理的時間和推理的功耗數(shù)據(jù)并不差,體現(xiàn)了這樣的架構(gòu)的處理優(yōu)勢。

      犀靈視覺創(chuàng)始人冉亮

另外,犀靈視覺支持的算法比較豐富,包括計算機視覺算法CV和卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法,都可以在這樣一個陣列式的上面來實現(xiàn)。

目前的應(yīng)用場景比較豐富,包括手持的設(shè)備,家用的監(jiān)控機器人、工業(yè)相機以及自動駕駛,都有一些意向客戶在做前期的算法開發(fā)。

“經(jīng)常會有投資人或者客戶提出把邊緣AI一起做進去。考慮到自己定位于一個傳感器的公司,以超低功耗、超高速以及超高效率的特點來解決專門應(yīng)用場景的問題,不一定要把所有事情都包在傳感器上做,這并不是我們的目的?!?犀靈視覺創(chuàng)始人冉亮 說。

談到后續(xù)的規(guī)劃。目前第一顆產(chǎn)品還是用平面式的工藝,感光以及運算都在一張晶圓上。今年年底量產(chǎn)產(chǎn)品會用堆棧式的方式,也就是說上面是感光、下面是運算,通過堆棧式的方式來做芯片。這樣芯片的尺寸會做的比較小,分辨率也可以做得相對高一些。后續(xù)技術(shù)擴展性也比較高,可以通過用不同的memory的介質(zhì)做新的存和算,以及加一層硬件加速,來完成更多更加復(fù)雜的任務(wù)也是有可能的。遠期也在關(guān)注光子運算、類腦等一些未來的技術(shù)。

在傳感器上來做運算,業(yè)界蠻多公司都在做,剛才提到AISTORM是美國加州自一家公司,他們也在傳感器上做運算,我們和他們不一樣,我們是用電流做運算,他們是用電荷做運算,他們分辨率做不上去,但我們可以一直往上做,沒什么問題。所以我們認(rèn)為今后帶一定智能運算的傳感器應(yīng)該更加大有可為。

存算一體化的路徑及知存科技的WTM2101存算一體芯片

從事存算一體、感存算一體,起步很早,但最近幾年才開始真正做產(chǎn)業(yè)化,原因也是這些技術(shù)都涉及到模擬計算、存儲器這兩大難題,最重要的是在芯片設(shè)計中沒有針對存儲器、模擬計算很標(biāo)準(zhǔn)很成熟的經(jīng)驗和工具去快速實現(xiàn)存算一體、感存算一體以及模擬計算。

知存科技創(chuàng)始人、CEO 王紹迪介紹說,公司創(chuàng)始團隊2012年開始做存算一體技術(shù),2016年完成7次流片,完成國內(nèi)第一個基礎(chǔ)FLASH存算一體的芯片驗證,有了第一個驗證成功的成果,但距離產(chǎn)品還很遠。公司2017年創(chuàng)立, 2018年做了第一個存算一體芯片流片,2020年發(fā)布第一個產(chǎn)品,2021年第一代產(chǎn)品進行量產(chǎn),第二代產(chǎn)品也發(fā)布即將量產(chǎn),現(xiàn)在已經(jīng)完成大部分測試。

知存科技創(chuàng)始人、CEO 王紹迪

存算一體的內(nèi)存墻挑戰(zhàn)。內(nèi)存墻就是數(shù)據(jù)在計算、存儲之間需要不停地搬運,需要花的計算功耗,是從內(nèi)存把數(shù)據(jù)搬到芯片上消耗的功耗的600多倍,也就是說,真正計算的功耗很低,但是數(shù)據(jù)搬運的功耗是很高的。這些瓶頸一旦解決,芯片運算效率和速度都有數(shù)量級的提升。

為了解決這個問題,整個業(yè)界2010年開始就在嘗試各種方案。

一類是解決存的問題,一類是解決算的問題。

很多人困惑3D Xpoint是不是存算一體?它可以叫做以存儲為中心計算,它還是一個存儲器產(chǎn)品,可以在存儲和內(nèi)存的角度去結(jié)合兩者的優(yōu)勢,速度會比固態(tài)硬盤的SSD的FLASH快,密度會比內(nèi)存的DRAM大,所以它是基于中間的存儲器。整體來說,它一般叫內(nèi)容性存儲器,它還是存的問題,是解決存儲、解決馮諾伊曼架構(gòu)當(dāng)中提高存儲運算效率的方式。

另外一種是近存儲計算,比如CPU要做一個計算,去比較兩個很大的數(shù),在SSD里面,要把數(shù)據(jù)拿到CPU上,CPU要等1萬個時鐘周期才能把數(shù)據(jù)拿過來,而中間的一個計算只需要消耗一個時鐘,其實這個時間就白白浪費,整個芯片的效率和計算沒法做起來。所以近存儲的計算方式,就是說要比較這兩千萬個數(shù)和另外兩千萬個數(shù)誰大,與其把這個數(shù)據(jù)都拿到CPU中算,不如CPU把指令發(fā)到存儲的SSD里,SSD有了簡單的比較之后,把結(jié)果發(fā)回來就可以,不需要把幾千萬個數(shù)一個個搬過去,每搬過去一個,GPU都要空白一萬個核。所以近存儲計算也是解決存儲方面的事情。

存算一體中的算也有兩種方案。

一種是近內(nèi)存計算。內(nèi)存和CPU之間的數(shù)據(jù)搬運很慢,帶寬不夠大,功耗很高,把兩者距離拉近能不能解決這樣的問題?所以內(nèi)存和CPU之間就可以用先進封裝的方式,把中間的帶寬提高100倍。這種方式在顯卡以及未來的三星以及國內(nèi)內(nèi)存廠都在提出這種的解決方案。

存算一體是另外一種。此處的存算一體和很多人口中的存算一體不一樣,它或者叫存內(nèi)計算,實際上是用存儲器完成預(yù)算,直接用存儲單元完成運算,涉及到模擬預(yù)算。數(shù)字運算必須要邏輯模塊,必須要在馮諾伊曼架構(gòu)下進行,但存儲運算可以采用模擬的方式去完成運算,所大家都是在用模擬的運算去提高運算效率,去突破馮諾伊曼架構(gòu)中的內(nèi)存墻的瓶頸。

WTM2101是公司第二代產(chǎn)品,知存科技用它做端側(cè)運算,相當(dāng)于芯片在現(xiàn)有馮諾伊曼架構(gòu)中的功耗或者說相同成本的情況下,拓展更多的功能,算力也可以提高很多,比如語音識別、語音增強、聲紋識別、心電以及簡單的物體檢測。

上面的芯片是五角硬幣芯片的大小對比,是一個WCSP的封裝,這個芯片非常小,可以放在很多端側(cè)設(shè)備當(dāng)中。

右邊是采用WTM2101芯片做典型的應(yīng)用場景。其實在跟市場場景對比來看,整體會有10倍到30倍的效率提升,算力可以有一定程度的增加,同時功耗有一定程度的降低。芯片的最大算力可以達到50Gops,但是同類型市場芯片一般算力就是在1Gops左右。

WTM2101芯片的架構(gòu),左邊是存算一體的NPU,NPU里面有1.8MB權(quán)重單元,這是一個單核的計算,中間沒有做并行,所以算力可以存儲1.8MB神經(jīng)網(wǎng)絡(luò)參數(shù)。這個存算一體的CPU可以做運算,因為它是FLASH介質(zhì),片上的代碼和系統(tǒng)也用這個存算一體去實現(xiàn)。所以,它可以做運算又可以存參數(shù),還可以解決真正的代碼存儲,同時芯片也帶有Risc-V的CPU,支持CMD的指令,同時支持三個比較大的算法在芯片上運行起來。目前支持多個傳感器的輸入。當(dāng)然,最主要的優(yōu)勢還是存算一體的NPU部分,相對來說它在AI計算當(dāng)中可以把端側(cè)算力提高20-50倍左右。

芯片真正怎么用?有個MITIN Mapper工具,一個簡單的工具或者編譯器。存算一體的編譯器比起馮諾伊曼架構(gòu)的編譯器,區(qū)別是很大的,因為馮諾伊曼的CPU由指令集構(gòu)成,一般一個乘法運算可能需要四五個指令實現(xiàn),像一個大的深度學(xué)習(xí)網(wǎng)絡(luò)可能需要幾千萬個指令去實現(xiàn),挑戰(zhàn)難度很大。存算一體的編譯很大程度上是粗粒度的編譯,因為是用存儲器完成矩陣運算,所以真正做的編譯過程,就是把神經(jīng)網(wǎng)絡(luò)的運算轉(zhuǎn)化成矩陣,把矩陣映射到存儲器上。比如一個神經(jīng)網(wǎng)絡(luò)可以轉(zhuǎn)化成五個比較大的矩陣乘法運算,把五個矩陣優(yōu)化,占最小的面積,放到大的存儲器陣列上面,只需要5次操作就可以完成運算。比如說第一次選擇L1,這是一個大矩陣,可以直接用一次周期完成一層網(wǎng)絡(luò)的運算,第二次選擇第二層,第三次選擇第三層?,F(xiàn)在存算一體芯片里面同時可以支持最大896×1024的矩陣,小的矩陣也可以比它小,可以做配置,所以大小矩陣都可以通過配置的形式存在存儲器。真正去運算的時候,就是依次調(diào)用第一、第二、第三、第四、第五層,做五次存儲器讀取,五層網(wǎng)絡(luò)就完成了。目前在也映射30多層網(wǎng)絡(luò),就是做30多次或者到60多次存儲器讀寫。當(dāng)然,有一些網(wǎng)絡(luò)現(xiàn)在做到一百多次的矩陣。

舉一個例子,在做語音識別、喚醒、聲音檢測的時候,經(jīng)過芯片有一個特征提取,之后傳到存算一體里面,網(wǎng)絡(luò)一般會映射兩三個算法,比如說簡單的聲音檢測和語音識別,語音識別詞最多支持300個詞做識別,功耗一般都是在毫安級別,去做幾百個詞的識別。完成深度學(xué)習(xí)運算之后,再把運算的結(jié)果放出來。而幾百個詞的識別,一般在1毫安、2毫安功耗下,在傳統(tǒng)芯片只能完成10個左右的詞的識別,所以沒法做到這么多的詞的識別。所以存算一體在低功耗情況下,可以完成很大算力的運算。

另外,存算一體在完成深度學(xué)習(xí)運算時候的延遲很低。比如說做一個同樣大小的深度學(xué)習(xí)網(wǎng)絡(luò),假如涉及到幾百萬個參數(shù),它光讀存儲器就要讀5萬多次才能把數(shù)據(jù)讀取出來,時間很長。換算到存算一體,可能讀幾十次存儲器就把運算完成了,這樣延遲就可以做得很低。有了低延遲,就可以完成很多很復(fù)雜的深度學(xué)習(xí)運算,并且功耗很低。目前用的是FLASH,運算完了之后就可以斷電了,數(shù)據(jù)不會丟失。所以,可以用它以完成降噪類的計算。

存算一體的應(yīng)用場景可以很廣,針對不同場景有這樣的預(yù)測。因為存算一體跟傳統(tǒng)的計算特點區(qū)別是它的算力正比芯片的存儲空間,也就是說芯片中的存儲單元數(shù)量越多,它的算力就越大。美國一家MEcike的公司可以做到單芯片110多兆的存儲空間,單個芯片可以達到35TOPS的算力,這個還是僅僅在40納米工藝下完成的,想要達到單芯片35TOPS算力,一般都需要在12納米的芯片。

所以存算一體不同應(yīng)用場景需要的算力,包括算法容量大小,其實都在進行很多的改變。比如在移動終端,需要算力至少達到30TOPS以上,在AR/VR眼鏡上,這是挑戰(zhàn)最大的場景,因為它電池很小,散熱很小,但是它需要的存儲容量又很大,一般像本地的手勢識別、自然語言理解都要在本地理解,所以一般需要的存儲空間都需要在100TOPS左右,像自動駕駛、服務(wù)器需要的存儲空間就更大,需要上GB的存儲空間。

對于存儲器,這是很容易實現(xiàn)的,因為大家手里的U盤都有幾百個G的存儲。如果未來能夠把U盤這么大小里面的幾百個G都轉(zhuǎn)化成運算,它就可以達到上千TOPS的算力,超越現(xiàn)在所有的計算芯片能提供的最大算力。這也是一個發(fā)展的過程。

存算一體、感存算一體未來還有5-10年左右的發(fā)展,運算效率還會比現(xiàn)在再提高10-20倍,應(yīng)用場景也會越來越廣。隨著越來越多的人加入,越來越多的客戶試用存算一體、感存算一體的技術(shù),更多的場景就會把它用起來。

存算一體第一代量產(chǎn)的是40納米以上,目前做了小批量,在22、28納米上都有技術(shù)規(guī)劃,包括未來在Trplite和RRAM都有一些技術(shù)的驗證。

一個很強大的正向的生態(tài),對存算一體臚其實是非常重要的。因為存算一體的需求就是顛覆現(xiàn)有馮諾伊曼架構(gòu)芯片,而現(xiàn)有馮諾伊曼架構(gòu)的芯片已經(jīng)被大家用了七八十年的時間了。一個新的架構(gòu)去顛覆傳統(tǒng),不僅說要把算力提升一百倍、一千倍,同時還需要整個生態(tài)區(qū)用起來,包括客戶場景使用,去驅(qū)動這個芯片越做越好,在這個芯片基礎(chǔ)上開發(fā)更多的系統(tǒng)、更多的應(yīng)用、更多的算法,挑戰(zhàn)還是很大的。不是一個公司、幾個公司做的事情。

未來50%的場景甚至50%以上的場景都可以用到存算一體,所以它是非常大的市場。真正把這件事情做完,可能需要到400家公司,在未來的市場才夠大家分,因為未來可能有幾千億美元的最大的市場。所以目前每年可都有更多的指數(shù)級的玩家,包括客戶、上下游以及公司加入其中。預(yù)計未來5-10年存算一體包括感存算一體就可以分布到50%以上的AI以及大家使用的場景當(dāng)中。

當(dāng)天下午,來自后摩智能、 犀靈視覺、每刻深思和知存科技公司的四位嘉賓分別介紹了存算一體及相關(guān)技術(shù),浙江大學(xué)的四位教授也應(yīng)邀參與對話。

【以上內(nèi)容根據(jù)演講速記整理,未經(jīng)本人審定】

分享到

xiesc

相關(guān)推薦