2021年8月,三星公布了在合作伙伴系統(tǒng)中的測試結(jié)果。與賽靈思VirtexUltrascale+(Alveo)人工智能加速器一起使用時,PIM技術(shù)將語音識別神經(jīng)網(wǎng)絡(luò)的性能提升了近2.5倍,并且降低了62%的能耗。三星一直在提供樣本,將這項(xiàng)技術(shù)集成到當(dāng)前一代高帶寬DRAM(HBM2)中。該公司還在為下一代HBM3和用于移動設(shè)備的低功耗DRAM開發(fā)PIM,預(yù)計(jì)將于2022年上半年與固態(tài)技術(shù)協(xié)會(JEDEC)一起完成后者的標(biāo)準(zhǔn)制定。
將計(jì)算智能添加到存儲芯片中的方法有很多。三星選擇了一種既快速又簡單的設(shè)計(jì)。HBM由一個DRAM芯片堆棧組成,這些芯片通過硅通孔互連垂直連接。存儲芯片堆棧位于邏輯芯片之上,并由邏輯芯片充當(dāng)處理器的接口。
堆棧中最高的數(shù)據(jù)帶寬位于每塊芯片內(nèi),其次是硅通孔,最后是與處理器的連接處。因此,三星選擇將處理放在DRAM芯片上,以便利用其高帶寬。計(jì)算單元的設(shè)計(jì)目的是進(jìn)行最常見的神經(jīng)網(wǎng)絡(luò)計(jì)算(稱為乘積和累加),僅此而已。其他的設(shè)計(jì)則將人工智能邏輯放在接口芯片上或者使用了更復(fù)雜的處理核心。
三星的兩大競爭對手SK海力士和美光科技還沒有準(zhǔn)備好嘗試為HBM開發(fā)PIM,不過他們各自都在向其他類型的存儲計(jì)算一體化邁進(jìn)。
總部位于韓國利川的第二大DRAM供應(yīng)商SK海力士正在從多個角度探索PIM,其存儲解決方案產(chǎn)品開發(fā)副總裁兼主管樸一(Il Park)說。樸一還表示,目前該公司正在DRAM標(biāo)準(zhǔn)芯片中試驗(yàn)PIM,而不是可能更易于客戶采用的HBM。
對SK海力士來說,HBM PIM更可能是中長期目標(biāo)。目前,客戶在嘗試將HBM DRAM放置在物理上更靠近處理器的位置時,已經(jīng)要處理很多問題了。樸一說:“這一領(lǐng)域的許多專家都不想在忙于解決HBM問題的情況下,再增加更多重要的難題?!?/p>
盡管如此,2019年,SK海力士的研究人員還是與普渡大學(xué)的計(jì)算機(jī)科學(xué)家合作,全面設(shè)計(jì)了一款名為Newton的HBM-PIM產(chǎn)品。與三星的Aquabolt-XL一樣,它在存儲體中放置了乘積累加單元,以利用芯片本身的高帶寬。
與此同時,功耗問題也促使了加州圣何塞的Rambus公司去探索PIM,其研究員兼杰出發(fā)明家史蒂文?吳(Steven Woo)說。該公司設(shè)計(jì)了處理器和內(nèi)存之間的接口,片上系統(tǒng)及其HBM內(nèi)存消耗的功率有2/3用于在兩塊芯片之間水平傳輸數(shù)據(jù)。在HBM內(nèi)垂直傳輸數(shù)據(jù)消耗的能量少得多,因?yàn)榫嚯x更短。“要將數(shù)據(jù)傳回片上系統(tǒng),可能要在水平方向上移動10到15毫米才行。”史蒂文?吳說,“但在垂直方向上只需要移動幾百微米。”
Rambus的PIM試驗(yàn)設(shè)計(jì)在HBM堆棧的頂部額外添加了一層硅來進(jìn)行人工智能計(jì)算。為了避免HBM中央硅通孔的潛在帶寬瓶頸,該設(shè)計(jì)添加了幾個硅通孔來連接存儲體和人工智能層。史蒂文?吳認(rèn)為,在每塊存儲芯片中都設(shè)置一個專用的人工智能層可以使內(nèi)存制造商針對不同的應(yīng)用定制內(nèi)存。
PIM的采用速度將取決于人工智能加速器制造商對其提供的內(nèi)存帶寬釋放的渴望程度?!叭且呀?jīng)邁出了第一步?!盩echnalysis Research首席分析師鮑勃?奧唐納(Bob O’Donnell)說,“(PIM)能否在商業(yè)上取得成功還有待觀察?!?/p>
【 作者:Samuel K. Moore】