真四核 不能做2+2
AMD皓龍(Opteron)最大的技術革新,在于摒棄了x86架構一貫追求更高主頻的做法,而借鑒了RISC處理器的CMP設計思路,將對更高帶寬的支持引入到x86架構中。同時通過獨創(chuàng)的直連架構和超傳輸總線技術,將CPU直接連接到內存、I/O,同時消除了傳統(tǒng)的前端總線瓶頸,降低內存訪問的延遲?;蛘哒f,正由于架構創(chuàng)新上的前瞻性,AMD在做單核的時候就考慮到了未來多核發(fā)展趨勢,因而在從單核到多核的過渡中比競爭對手顯得更自然順暢。這也是AMD始終強調自己的多核是“原生”的根源。
推出兩年后,雙核處理器的設計已經比較成熟,顯然實現(xiàn)四核處理器最簡單的辦法就是做加法:2+2,將兩個雙核處理器集成到一個封裝上就可以直接實現(xiàn)四核處理器,在這種實現(xiàn)方法中兩個雙核處理器幾乎是獨立運行甚少均衡負載的,在系統(tǒng)請求送達的時候CPU只需要簡單的安排向左走還是向右走即可。但顯然,這樣的四核架構并不能令四個核心達到最高運行效率和負載均衡。
AMD計劃年中推出的Barcelona四核設計,仍然采用CMP(單芯片多核心處理器)設計思路,不用2+2,而是采用1+1+1+1來實現(xiàn)四核:每個核心具備自己單獨的64KB的L1數據Cache、512KB的L2 Cache,然后四個核心共享2MB(或者更大)的L3 Cache。
從晶體管數目上看,四核Barcelona核心包含4.63億個晶體管,而雙核Brisbane核心只有1.54億個晶體管,2MB的L3緩存大約會占用1億左右的晶體管數目。簡單計算就可以知道Barcelona比兩個Brisbane核心加2MB的L3緩存還多出5500萬個晶體管。由此也可以看出,AMD的四核架構絕不是簡單疊加,在CMP架構中非常重要的仲裁/分配、I/O控制等部分都經過了強化設計。
當然,采用簡單的2+2模式來設計多核處理器,這是縮短產品研發(fā)周期的好辦法,但性能就會存在瓶頸――一旦共享的FSB帶寬吃緊,整個處理器性能將受到限制。我們看到,在有關CPU浮點性能的基準測試中,Barcelona的性能可以超過競爭產品50%以上。
電源管理 從齊步走到按需走
除了架構上的創(chuàng)新,Barcelona還有一系列領先的技術特性。
Barcelona的緩存部分新增了32路的2MB三級緩存,這是競爭對手所不具備的。在內存控制部分,過去K8架構的內存控制器是1個128位的界面,而K10h系列核心的內存控制器被拆分為2個64位的界面,且可以同時讀寫。這個拆分有利于多核心工作時更加靈活。在Barcelona上,內存控制器中除了有更多的緩沖區(qū)設計以外,還配置了新的預取器,這個預取器擁有自己的緩沖并不需要占用二級緩存或者三級緩存的空間,這很像主板北橋上的預取器,可以提升系統(tǒng)的性能。
Barcelona最受歡迎的或許是在能源管理上的創(chuàng)新,這將為用戶節(jié)省大量開支。首先發(fā)揮作用的是增強的Power Now!技術。現(xiàn)階段的多核心處理器的每個核心基本都是在相同的電壓下工作,就好像多個核心做著“齊步走”的操練;而10h系列核心的每個核心都能獨立進行5級P-State調節(jié),也就是說可以針對性地、獨立地設定每個物理核心的工作電壓和頻率,這對節(jié)能是非常有幫助的。
Barcelona電源管理的另一個領先特性是分隔電源層技術(Split Power Plane),使其內存控制器即使在全速運行時,也可以和處理器核心采用不同的電壓,這一特性不僅令超頻變得更加容易,還可以進行更多p-state 狀態(tài)的轉換,從而降低能耗。
Barcelona還提高了“時鐘門控”的數量,支持自動關閉邏輯電路中的非工作區(qū)域,以進一步節(jié)約能耗。其中“粗放門控”可以將閑置的整個邏輯電路塊關閉,而“精微門控”則可以在適當的時候關閉某些邏輯電路片段。
在普通用戶喜聞樂見的應用層面上,巴塞羅那已經準備好隨時支持DDR3、HT3.0等新一代技術,而對8核心處理器的支持也即將隨著4 HT通道技術的成熟而就緒。
根據AMD的計劃,Barcelona將于今年第三季度發(fā)布,而最近,AMD也在臺北的Computex展上確認了這一消息,那就讓我們拭目以待吧!