◆64位元處理器
◆多核心設計
◆采用90nmSOI“絕緣硅”工藝
◆靈活的并行和分布式計算結(jié)構(gòu)
◆支持網(wǎng)格運算
◆可同時執(zhí)行多個作業(yè)系統(tǒng)
◆大幅提升的輸入輸出接口傳輸帶寬
◆強大的硬件化安全系統(tǒng)
一、深入了解Cell
1.Cell核心設計
Cell是以IBM研發(fā)的64位元Power微處理器為核心,結(jié)合8個獨立的浮點數(shù)運算單元所構(gòu)成的多核心處理器。它共有9個CPU內(nèi)核,一個Power架構(gòu)RISC型64位CPU內(nèi)核“PPE”和8個浮點處理用的32位8路SIMD型CPU內(nèi)核“SPE”(Synergistic Processing Element)。
Power微處理器內(nèi)核是Cell處理器的大腦,是運行設備的主操作系統(tǒng),并為8個“協(xié)處理器”分配任務。(不過Cell本身的結(jié)構(gòu)是極具變通性的,可根據(jù)具體需求增加、減少協(xié)處理器內(nèi)核)。
(圖01)
圖為Cell的核心電路分布。從圖中可清晰地看到Cell的9個內(nèi)核和L2 Cache。BEI(Element Interconnect Bus)總線是Cell的數(shù)據(jù)總線。圖中的FlexIO將在下文介紹。
Cell的基本構(gòu)成單元PPE可同時執(zhí)行2個線程的SMT架構(gòu)(類似于Intel的HT超線程技術),配備32kB的一級緩存(16kB指令緩存和16kB數(shù)據(jù)緩存)以及512kB的二級緩存。協(xié)處理核心SPE可同時執(zhí)行2條指令超標量,并配備有128位×128個的通用寄存器。1個SPE的最大單精度浮點運算速度為32G FLOPS。8個SPE合計為256G FLOPS。9個核心同步時鐘運行。
ISSCC的Tom Halfhill工程師分析認為,在芯片設計方面,Intel雖即將推出雙核心芯片,但Cell已在這方面早就走在英特爾之前。目前多核心芯片通行的做法是將單一的計算任務分配成幾個處理單元進行,而Cell由于使用了Multiple Core技術,處理單元“軟件內(nèi)核”可執(zhí)行完全獨立的任務,因此能以一個晶片完成需要多個晶片才能完成的任務。
Cell處理器將集成2.34億個晶體管,大小為221平方毫米,采用90nmSOI工藝生產(chǎn)。專業(yè)人士預計,隨著IBM公司在今年晚些時候推出65nm工藝,Cell處理器將轉(zhuǎn)而采用這一工藝。
(圖02)
圖為Cell處理器,左側(cè)為未封裝的Cell核心,中間是一顆封裝完畢的Cell處理器,右側(cè)為Cell背面,封裝的引腳數(shù)為1236個。這是個破記錄的數(shù)字,從這里也可看出Cell核心的復雜性。
Cell的8個SPE工作方式與普通的多核心處理器不同,各SPE分別在獨立的地址空間中運行。因此,每個SPE備有256kB的名為“Local Store”的內(nèi)存。由于Local Store算作SPE的內(nèi)存,所以不需進行類似SMP的緩存一致性(Cache Coherency)控制。連接各內(nèi)核的片上總線(OnChip Bus)采用環(huán)形,各個SPE之間的最大數(shù)據(jù)傳輸帶寬高達192GB/s。
Cell的多核心技術使得線程分配、資源管理等方面的程序模式具有了多種多樣的發(fā)展可能性。Cell的主性能處理內(nèi)核可處理雙線程,其余每個協(xié)處理器可處理一個線程,這樣Cell處理器總共可同時處理10個線程,怎樣最佳應用處理器資源是今后軟件工程師的一個重要研究課題。
Cell結(jié)構(gòu)根本上依賴兩大概念:“Apulet” ,由數(shù)據(jù)對象及必需的執(zhí)行代碼組成的包(Bundle);“處理元素(Processing Element)”,能在任何時間執(zhí)行Apulet的控制及流處理資源分層包(Bundle)。
Apulet在系統(tǒng)的處理元素中完全便攜,因此任務能通過將一個等待Apulet賦給一個可用的處理元素來動態(tài)執(zhí)行,通過添加處理元素可實現(xiàn)擴展。而在最高層級,這種架構(gòu)看上去像一個單元池(Pool of Cells)。系統(tǒng)中的所有單元都是一個明顯的同位體(Peer)。根據(jù)談及Cell設計的其中一篇論文透露,單一芯片執(zhí)行單一的處理元素。
2.Cell與網(wǎng)格運算
《福布斯》雜志預測,信息技術的下一波大浪潮將在2004~2005年度出現(xiàn),并造就2005~2020年共15年的黃金時代。到2020年,由此產(chǎn)生的互聯(lián)網(wǎng)將成長為一個20萬億美元產(chǎn)值的大工業(yè)。這一波的本質(zhì)特征,就是萬維網(wǎng)WWW(World Wide Web)升華為網(wǎng)格GGG(Great Global Grid)。
網(wǎng)格運算是伴隨著互聯(lián)網(wǎng)迅速發(fā)展起來的專門針對復雜科學計算的新型計算模式。它把分散在不同地理位置的計算機組織成一個“虛擬超級計算機”,其中每臺參與運算的計算機就是一個“節(jié)點”,整個運算網(wǎng)絡就是網(wǎng)格。
(圖03)
其實Cell在最初的內(nèi)核設計時就預料到了網(wǎng)格運算,并及時地在Cell中加入了網(wǎng)格零件。IBM公司的員工吉姆說,這種多內(nèi)核設計給予了軟件設計人員巨大的靈活性,使他們能在Cell處理器上運行多個操作系統(tǒng),并體驗網(wǎng)格計算。他表示,Cell處理器在設計之初就考慮到了聯(lián)網(wǎng)的需求。
Cell處理器支持網(wǎng)格運算,它還可在網(wǎng)絡中漫游,可執(zhí)行類似于網(wǎng)格計算的功能。一個以Cell為核心的計算機可借用網(wǎng)絡中閑置的其他平臺的計算資源。獨具匠心的架構(gòu)可使網(wǎng)格計算無所不在。如果在網(wǎng)絡中連入幾臺這樣的平臺,整個網(wǎng)絡都可執(zhí)行同一項任務。當年的萬維網(wǎng)改變了我們的生活,在它的標準上升華的網(wǎng)格,又將成為下一波浪潮的主線。支持網(wǎng)格運算是一個明智的選擇,現(xiàn)在Cell正抓住這一時機,大力發(fā)展自己。
3.Cell的運算速度
先說說Cell的頻率。首款Cell處理器的運行速度將超過4GHz,在2005年2月8日于美國舊金山舉行的ISSCC 2005上,發(fā)布Cell的4公司提前在會場的賓館內(nèi)舉行了一次記者招待會,并進行了4GHz運行演示。來自設計合作伙伴的報告稱,未來產(chǎn)品的頻率將定為4.6GHz。目前采用90nm工藝的Pentium 4處理器的最高速度才為3.8GHz。
運算速度是一款處理器最有價值的技術數(shù)據(jù),Cell的額定運算速度為每秒2500億次浮點數(shù)運算(256G FLOPS),PS2游戲主機采用了EE(Emotion Engine)處理器(速度為6.2G FLOPS),Cell的速度是EE的40倍以上。甚至單顆Cell處理器的運算速度,就足與跟90年代中期最強悍的超級電腦相比,或說是目前NVIDIA最強的3D顯示芯片的6倍。
(圖04,EE處理器)
用Cell搭建的電腦工作站試作機已進入實際運轉(zhuǎn)階段,這也是Cell處理器首次實際應用。根據(jù)測試,該工作站可在1個機柜(所使用的Cell處理器芯片數(shù)目為64個)規(guī)模下,達成每秒16兆次(16T FLOPS)的浮點數(shù)運算能力,相當于單顆PS2微處理器EE(Emotion Engine,每秒62億次浮點數(shù)運算)的2580倍之多。
4.功耗及散熱
據(jù)ISSCC的論文介紹,電源電壓為+1.1V、頻率4GHz的1個SPE因晶體管的開關動作所消耗的為4W。再加上漏電電流和時鐘信號傳送的耗電,實際耗電應在8W左右。電源電壓調(diào)至+1.2V以2GHz工作時,開關動作的耗電為2W,漏電電流引起的耗電為1.7W,時鐘信號傳送的耗電為1.3W,共計5W。8個SPE同時以2GHz工作時,推算值為40W。
同時,論文中顯示Cell將采用1.3V的核心電壓,工作溫度為85℃,使用氣冷方式運行。IBM研究員表示,首批采用Cell處理器的設備的尺寸不會比游戲機更小,因為第一個版本的Cell處理器的發(fā)熱量很高,需使用散熱風扇。
5.Cell生產(chǎn)
Cell處理器采用的柵長46nm的晶體管應用了SOI(Silicon On Insulator,絕緣體上外延硅)技術和應變硅技術。目前Cell進入最后的研發(fā)階段,生產(chǎn)技術已成熟,Cell芯片將會在2005年第一季度中旬推出。IBM位于紐約的East Fishkill 300mm晶圓工廠將會在2005年下半年小批量生產(chǎn)Cell芯片,而SONY在2006年將會在日本長崎的“Fab2”工廠采用尖端65nm技術進行生產(chǎn)。SONY公司還提到,打算將Cell商業(yè)化,今后推出更多基于Cell的產(chǎn)品。這可能意味著SCE會在下一代娛樂便攜機型中也采用Cell核心。
(圖05)
(圖06,試制Cell芯片的300mm晶圓,每個Cell的旁邊均設計有測試電路)
Cell使用定制電路設計的方法來提高總體性能,同時還支持精確的處理器時鐘控制功能,以節(jié)省電耗。Cell也使用了冗余電路布線來提高良品率,降低成本。綜上所述,Cell將在2006年正式量產(chǎn)鋪貨。
6.硬件化安全系統(tǒng)
Cell還采用了一系列芯片上的安全措施,主要是為了阻止對于版權內(nèi)容未經(jīng)授權的拷貝。通常類似任務都是由軟件來完成的,而Cell卻通過芯片的獨特設計將內(nèi)容按安全單元來分配存儲。這種安全存儲方式只允許經(jīng)過授權的訪問,可實現(xiàn)知識產(chǎn)權的智能保護。這種以硬件的方式保護版權還是第一次見到,相信它能被SCE的PS3所采用。
二、Cell與PS3
提到Cell就不得不提PS3。PS3是SCE用于代替PS2的游戲主機,它將使用Cell作為中央處理器,Rambus的XDR DRAM為內(nèi)存,顯示芯片為NVIDIA全新打造的GeForce6+α(預測命名)。關于Cell的第一輪新聞和抄做就是PS3引起的,所以從PS3的硬件規(guī)格可看出Cell的周邊設備搭配。
(圖07)
1.Rambus的XDR DRAM技術
Rambus的XDR DRAM內(nèi)存是PS3硬件“三大塊”中唯一成熟的技術。Rambus XDR DRAM是eXtreme Data Rate DRA(極限數(shù)據(jù)率動態(tài)隨機存取存儲器)的縮寫。它是目前最高性能的內(nèi)存子系統(tǒng)解決方案。它通過獨立使用地址線、數(shù)據(jù)線和控制線來提高內(nèi)存的傳輸性能。由于XDR DRAM可同時傳輸8路數(shù)據(jù),所以500MHz的XDR DRAM等效頻率為500MHz×8=4.0GHz,其16bit單通道帶寬為4.0GHz×16bit/8=8.0GB/s,這樣的帶寬的確很驚人,短時間內(nèi)DDRⅡ都無法超越。正因為如此,SCE決定采用Rambus的XDR DRAM作為PS3的內(nèi)存。
三星已宣布該公司在2005年開始生產(chǎn)XDR DRAM,首批開始量產(chǎn)的XDR DRAM是容量為256Mbit的規(guī)格。這次三星生產(chǎn)的也是4.0GHz的XDR DRAM,帶寬為8.0GB/s,是PS2所采用的雙通道PC800 Rambus DRAM(3.2GB/s)的2.5倍。由IBM采用Cell處理器技術設計的高端電腦工作站和服務器已使用XDR DRAM,NVIDIA今后的顯卡也將會采用XDR DRAM的設計工藝。
(圖08,PS2的Rambus內(nèi)存)
此外,Rambus還為SCE提供了輸入輸出接口的串行總線FlexIO和內(nèi)存接口總線XDR。XDR存儲界面可在3.2GHz的頻率下傳輸30GB/s數(shù)據(jù),而頻率為6.4GHz的FlexIO最大數(shù)據(jù)傳輸量為72GB/s。為配合Rambus的高速內(nèi)存,Cell具有2.5MB的嵌于芯片上的緩存,同時服務于9個核心,可通過XDR和FlexIO技術每秒向外部內(nèi)存調(diào)用或輸出大量數(shù)據(jù)。這在業(yè)內(nèi)是前所未有的超高速數(shù)據(jù)傳輸能力。
2.GeForce6+α顯示芯片
GeForce6+α是NVIDIA特別為PS3設計的特殊產(chǎn)品,就如同當初NVIDIA針對XBOX設計的“NV2A”芯片一樣。GeForce6+α是筆者的預測命名,因為NVIDIA并未公布PS3顯示芯片的技術細節(jié)。但可肯定的是,該芯片的規(guī)格、性能是界于NV40與NV50之間的。
GeForce6+α顯示芯片將使用NVIDIA在當前的NV40芯片上采用的技術及許多為下一代NV50芯片開發(fā)的技術。而且GPU中除了采用該公司桌面芯片的線路外,與Microsoft DirectX或OpenGL無關,并將使用SONY自己的API用于該控制臺。自然地,GeForce6+α顯示芯片將支持Rambus開發(fā)的XDR DRAM內(nèi)存作為顯存。
Cell+內(nèi)存總線XDR+XDR DRAM+“GeForce6+α”+FlexIO總線,有著如此強大的硬件規(guī)格,PS3很可能成為下一代游戲主機的霸主。
三、Cell的應用與展望
一款技術含量高的產(chǎn)品,如果沒有應用前景或沒有市場,那它就一文不值。Cell也是如此,雖然技術先進,但要想成為未來處理器的統(tǒng)領,必須有廣闊的應用范圍。
Cell采用靈活的架構(gòu)設計,使得它相對于傳統(tǒng)處理器提供了一種突破性的解決方案。Cell處理器的另一個優(yōu)勢是同時支持多重操作系統(tǒng),正是基于此,Cell可同時運行PC/WS操作系統(tǒng)及實時CE/Game操作系統(tǒng)。Cell的強兼容性可用于更廣泛的應用,從家用小型數(shù)字CE系統(tǒng)到用于播放電影的其他娛樂應用,直到超級計算機等大規(guī)??茖W應用等。
(圖09)
(圖10)
來自Cell的應用前景展望
◆來自IBM、索尼集團和東芝公司的一個工程師小組正在為Cell的設計和實施開展合作,該產(chǎn)品有望提供巨大的浮點處理功能、大量數(shù)據(jù)帶寬及類似于超級計算機的可擴展性能。
◆IBM為Cell規(guī)劃的第一種計算應用是其與SCEI共同開發(fā)、基于Cell處理器的工作站。
◆SCE希望推出其裝有Cell的新一代電腦娛樂系統(tǒng)(PS3),以實現(xiàn)電腦娛樂體驗的革命性變化。
◆索尼公司和東芝公司希望于2006年推出裝有Cell處理器的寬帶內(nèi)容及高清晰電視(HDTV)系統(tǒng)。
◆IBM高級副總裁John E.Kelly III博士講道,“現(xiàn)在,我們披露的只是該技術的冰山一角,我們認為它可使創(chuàng)新的Cell處理器成為新一代計算和娛樂產(chǎn)品的首要開放平臺?!?BR> ◆基于Cell(簡化核心)的掌上移動產(chǎn)品,也是IBM和SONY考慮的重點,這類產(chǎn)品目前正在飛速前進,將來很有發(fā)展前途。
◆繼Cell發(fā)布后,IBM成立Power架構(gòu)促進團體。該團體的成員包括索尼、美國Novell、Linux發(fā)行套件供應商美國Red Hat、中國上海貝嶺等15家各環(huán)節(jié)企業(yè)。
看來合作各方還是對Cell充滿信心的。綜上所述,Cell是一款具有跨時代意義的處理器,它結(jié)合了64位運算、多核心等前衛(wèi)的芯片技術,加上強大的性能和對網(wǎng)格運算的支持,Cell將能適應未來的運算環(huán)境和要求。
以Xeon、Itanium和Opteron為代表的CISC(復雜指令集計算機)結(jié)構(gòu)處理器快達到性能極限了,為達到更高性能,其核心設計已非常復雜。造成這種困難的部分原因在于處理器設計者、操作系統(tǒng)供應商和應用程序開發(fā)者結(jié)成了一個不合理的聯(lián)盟。IBM的Power架構(gòu)及其促進團體(Power.org),在這方面做得已相當完善,并逐步擴大著自己的影響力。
2006年是Cell大規(guī)模登陸市場的時間,屆時IBM、SONY、SCE與Toshiba將借助Cell與Intel、AMD的雙核心處理器正面沖突,IBM有可能借助Cell在處理器市場與Intel一決高下,多媒體娛樂和數(shù)碼產(chǎn)品領域的爭斗也將更加激烈、精彩。