浪潮AI邊緣服務(wù)器前視圖
AI芯片是以模組方式而不是傳統(tǒng)的芯片方式供貨給設(shè)備商,而該模組主要應(yīng)用于IT場(chǎng)景,其140*78mm的尺寸是按照IT的大機(jī)柜場(chǎng)景設(shè)計(jì)的,在CT標(biāo)準(zhǔn)的狹小機(jī)箱內(nèi)實(shí)現(xiàn)32顆AI芯片是極具挑戰(zhàn)的。浪潮計(jì)劃采用8個(gè)1U寬,5U高的LC槽位,每槽位4顆AI芯片互連實(shí)現(xiàn)32顆AI芯片的規(guī)格。
受物理空間限制,一塊LC板上只能放置2個(gè)AI芯片模組,如何在這樣的槽位內(nèi)實(shí)現(xiàn)4個(gè)AI模組是達(dá)成該產(chǎn)品規(guī)格的關(guān)鍵問題。針對(duì)該問題,浪潮提出橋接,對(duì)扣,Retimer三種解決方案。由于芯片放置于AI模組上,模組同PCB連接時(shí)本身需要一對(duì)連接器,無(wú)論哪種方案都會(huì)涉及到AI芯片的25Gbps多次跨越連接器的問題。依據(jù)芯片廠家規(guī)范,4顆芯片無(wú)法多次跨越連接器,也就無(wú)法分布在兩塊單板上。但客戶需求是最強(qiáng)的AI算力,若不能實(shí)現(xiàn)單槽位4個(gè) AI芯片互聯(lián),服務(wù)器計(jì)算能力也會(huì)下降,無(wú)法滿足客戶需求。那就只剩一個(gè)選擇,突破廠家規(guī)范,解決25Gbps多次跨連接器的信號(hào)完整性問題,實(shí)現(xiàn)4顆芯片分布在2個(gè)板上互連。
三種芯片連接方案
跨板互連方案最大的技術(shù)挑戰(zhàn)是信號(hào)完整性設(shè)計(jì)。因?yàn)榭绨寤ミB方案不僅會(huì)導(dǎo)致信號(hào)傳輸距離大幅增加,而且當(dāng)25Gbps信號(hào)多次跨越連接器,會(huì)加大25Gbps信號(hào)之間的串?dāng)_,增大高速信號(hào)的抖動(dòng)。由于該應(yīng)用無(wú)法滿足芯片原廠對(duì)系統(tǒng)鏈路的設(shè)計(jì)規(guī)則要求,鮮有廠商敢于嘗試這項(xiàng)挑戰(zhàn)芯片廠商設(shè)計(jì)規(guī)則的研發(fā)任務(wù)。但為了服務(wù)用戶、滿足客戶邊緣端極致化的AI算力需求,浪潮承接了這項(xiàng)高難度的研發(fā)任務(wù)。
規(guī)范要向應(yīng)用妥協(xié)
要在1U的空間實(shí)現(xiàn)4顆AI芯片之間25Gbps跨板連接,就要解決信號(hào)跨板互連時(shí)的信號(hào)完整性問題。而造成信號(hào)失真的主要因素包括單板材料、傳輸長(zhǎng)度、連接器性能及數(shù)量等等。
芯片廠商對(duì)芯片板卡上的信號(hào)損耗、回?fù)p、串?dāng)_都會(huì)有明確的要求:
芯片系統(tǒng)的鏈路總插損要小于21dB,其中芯片模組本身會(huì)占據(jù)8dB,留給系統(tǒng)的損耗為13dB。
最好的PCB板材,信號(hào)布線最長(zhǎng)仍不能超過11英寸;
線路信號(hào)初始是900mV,到達(dá)接收端眼高會(huì)降低至0mV,需要靠芯片內(nèi)部的補(bǔ)償機(jī)制回復(fù)眼圖。傳輸過程多使用連接器傳輸距離就要變短,同時(shí)鏈路串?dāng)_要增加。每多使用1個(gè)連接器,就需要把總線長(zhǎng)縮短0.5英寸。同時(shí)鏈路串?dāng)_要小于7mV,多使用一次連接器,串?dāng)_會(huì)增加2mV左右。因此一般最多支持2個(gè)連接器。
“舉例來說,信號(hào)在PCB線路中傳輸就像冰壺在冰面上滑行,滑行的最長(zhǎng)距離取決于冰面本身的光滑程度,如果冰壺在冰面遇到障礙發(fā)生顛簸,或者和其他冰壺發(fā)生碰撞,就會(huì)減小冰壺滑行的最大距離。高速信號(hào)經(jīng)過信道中的連接器,就像冰壺遇到冰面的障礙,會(huì)引起信號(hào)的抖動(dòng)和衰減,可能會(huì)導(dǎo)致信號(hào)無(wú)法正確的傳輸?shù)浇邮斩?。”浪潮研發(fā)工程師侯紹錚解釋。
“但由于邊緣端空間受限,4個(gè)AI模塊無(wú)法放置于同一塊單板上,要跨板連接就不得不在鏈路中增加連接器,那么如何系統(tǒng)性的減少鏈路長(zhǎng)度、改善鏈路反射點(diǎn)性能、優(yōu)化信號(hào)間的串?dāng)_是架構(gòu)設(shè)計(jì)、信號(hào)完整性設(shè)計(jì)能力的重要指標(biāo),也是產(chǎn)品成功與否的關(guān)鍵能力?!?/p>
通過前期的仿真分析,浪潮選定背扣式,即方案二作為了設(shè)計(jì)方案。為了保持信號(hào)傳輸路徑最短,滿足插損要求,信號(hào)線的布線路徑不能如下圖左側(cè)黃線路徑設(shè)計(jì),必須從連接器內(nèi)部穿過。而這會(huì)導(dǎo)致25Gbps信號(hào)穿過25Gbps信號(hào)過孔(紅圈)之間發(fā)生串?dāng)_。浪潮工程師通過合理的布線層設(shè)計(jì)及創(chuàng)新性使用背鉆技術(shù),改變過孔的長(zhǎng)度,規(guī)避了線到孔的信號(hào)串?dāng)_。
高速信號(hào)過孔情況
依據(jù)芯片廠家的設(shè)計(jì)規(guī)則,要求AI模組端連接器有效過孔深度小于50mil,而跨板互連連接器又必須滿足stub小于10mil的要求,兩者在本方案中是沖突的。為了解決這一問題浪潮通過對(duì)有效孔長(zhǎng)及stub對(duì)信號(hào)完整性的影響逐一仿真分析,并根據(jù)項(xiàng)目具體鏈路情況建模,先后仿真分析了3種不同布線方案的24種布線方式,依據(jù)該項(xiàng)目仿真結(jié)果同廠家規(guī)范允許的鏈路設(shè)計(jì)進(jìn)行了對(duì)比,確定最終設(shè)計(jì)方案。
浪潮PCBA板布線方案
盡管項(xiàng)目的設(shè)計(jì)、器件選型、驗(yàn)證無(wú)論是難度還是復(fù)雜度都很高,但隨著設(shè)計(jì)方案逐漸明晰,設(shè)計(jì)中的技術(shù)風(fēng)險(xiǎn)被一一攻克,浪潮開發(fā)的背扣式AI模組跨板互連方案,成功實(shí)現(xiàn)4個(gè)AI模組多次跨連接器的25Gbps互連,不僅達(dá)成了客戶的規(guī)格需求,也完善了面向邊緣端AI應(yīng)用場(chǎng)景的服務(wù)器設(shè)計(jì)規(guī)范。
眼圖結(jié)果
從AI到邊緣,客戶應(yīng)用打破規(guī)范是未來的趨勢(shì)
2019年5G商用牌照正式下發(fā),5G剛剛開始,邊緣計(jì)算也剛剛開始。靠近網(wǎng)絡(luò)邊緣側(cè)的計(jì)算是場(chǎng)景化的,是高度應(yīng)用驅(qū)動(dòng)的,不論是一般性的計(jì)算還是邊緣AI,都需要在實(shí)際應(yīng)用中一步步探索。這個(gè)過程就是技術(shù)上創(chuàng)新的過程。
這種技術(shù)創(chuàng)新不單單是要滿足更強(qiáng)的計(jì)算性能,更低的時(shí)延,更寬的帶寬,更是一個(gè)以實(shí)際需求,客戶實(shí)際應(yīng)用驅(qū)動(dòng)的不同技術(shù)標(biāo)準(zhǔn)和規(guī)范碰撞和調(diào)整的過程??梢灶A(yù)見,隨著5G和AI等技術(shù)的發(fā)展,面對(duì)客戶不同的邊緣AI場(chǎng)景下海量的計(jì)算需求,將會(huì)有越來越多的廠商去打破行業(yè)規(guī)范,為邊緣數(shù)據(jù)中心提供更加多元和創(chuàng)新的解決方案。