需要特別注意的是,這份路線圖展示的服務器產品規(guī)劃,和桌面上并不完全同步。一般來說,Intel的新工藝、新架構都是首先用在桌面領域,移動領域基本同時或者稍晚一些,而服務器領域則要延后很長一段時間,而且不同定位的系列產品也有很大差異。
Intel目前已經進入32nm工藝的鼎盛時期,服務器架構正在從上代Westmere向新的Sandy Bridge過渡,接下來就是22nm新工藝的改進版Ivy Bridge,以及未來的10nm Skymont。下面我們就來一起梳理一下Intel服務器架構這些年的發(fā)展路線。
Intel 65nm Core
因為市場需求,Intel高性能處理器產品線轉移。
停產的“扣肉”
早在2008年65nm Core就已經陸續(xù)停產,在此我們就不做過多贅述了。
Intel 45nm Penryn
Penryn核心
45nm的Penryn雖然同樣標示為65W TDP,在同一功耗下Penryn的性能將比65nm的Core更佳,全因Penryn核心頻率將會由3GHz起跳,雙核心將會擁有3MB及6MB :2版本,四核心則最高可達至12MB L2容量,雖然L2增加了,但由于采用上45納米,Wolfdale Die Size只有107平方毫米,相比上代Conroe的143平方毫米減少約25%,令成本進一步下降。
在電源管理方面,Intel在下一代Penryn微架構加入全新的power state,稱為Deep Down Power State。加上新的power state后,Penryn的C-State將增至五個。C0為正常狀態(tài),C2、C3及C4則為不同的省電模式。新增的Deep Down (C6)與C4模式類近,除關閉核心頻率、PLL及消除Cache外,在Deep Down模式下,整個Cache亦將會被關閉以達到更佳的省電效果。與C4相較,據稱 Deep Down耗電量將可減少達300%。
在下一代Penryn微架構中,Intel亦首次加入全新Intel Dynamic Acceleration(IDA)單線程加速技術于桌面處理器上,令系統(tǒng)在運作單線或串行多線程程序時,可提供自動超頻作運算,而另一顆則進入閑置狀態(tài)。
當雙核心處理器運作單線或串行行線程程序時,當中只有一顆核心是處于運算狀態(tài),而另一顆只會處于閑置(C3或更高的省電模式)時, IDA技術則可以在系統(tǒng)只需要運作一組串行的程序時,把運算中的核心的頻率提高,令系統(tǒng)可以提早完成這一組串行程序,而另一顆核心仍然保持閑置狀態(tài)。
雖然其中一顆核心頻率被自動超頻,但由于另一顆核心處于省電的C3或更高的閑置狀態(tài),因此處理器的最高功耗指不會因IDA技術而被提高,在不用增加成本的情況下,用家可獲得更優(yōu)秀的單線程運算效果。
>>
Intel 45nm Nehalem
Nehalem處理器同樣上一代的 Penryn至強一樣,都是采用了45nm的生產工藝,它屬于第二代的45nm產品,但它卻和上一代產品有著很大的區(qū)別。簡單說來,Nehalem還是基 本建立在Core微架構(Core Microarchitecture)的基礎上,外加增添了SMT、3層Cache、TLB和分支預測的等級化、IMC、QPI和支持DDR3等技術。
45nm晶圓
Intelligent Performance 超強的性能
首先,XEON 5500系列集成內存控制器(IMC),說到這里,我們不得不把時間拉回到XEON 5300系列的時代,由于其競爭對手AMD在其K8架構時代,就集成了內存控制器,正因為如此,這大大的提升了AMD處理器的性能,這也成了AMD驕傲的 資本,再來看看intel,CPU訪問內存的延遲,大大的影響了XEOn產品的性能,所以在XEON 5400時代,intel開發(fā)了一種高速全緩沖內存技術,就是我們通常說的Fully-buffer DIMM,他是在內存上面加載了一個處理芯片,來提高與CPU交換的速度,從實際情況來看,這確實為解決之法,但是,從另外的技術方面,我都為intel 捏了一把汗,這為治標不治本。從各大OEM廠商和使用者的回饋反應來分析:FBD內存發(fā)熱量大,為此還穿上了金屬的馬甲,功耗也比REG ECC內存高出許多。
集成內存控制器
其次是超線程技術,超線程技術是在一顆CPU同時執(zhí)行多個程序而共同分享一顆CPU的資源,理論上要像兩顆CPU一樣在同一時間執(zhí)行兩個線程,處理器需 要多加入一個Logical CPU Pointer(邏輯處理單元)。而其余部分如ALU(整數運算單元)、FPU(浮點運算單元)、L2 Cache(二級緩存)則保持不變,這些部分是被分享的。
雖然采用超線程技術能同時執(zhí)行兩個線程,但它并不象兩個真正的CPU那樣,每各CPU都具有獨立的資源。當兩個線程都同時需要某一個資源時,其中一個要暫時停止,并讓出資源,直到這些資源閑置后才能繼續(xù)。因此超線程的性能并不等于兩顆CPU的性能。
超線程技術
需要注意的是,含有超線程技術的CPU需要芯片組、軟件支持,才能比較理想的發(fā)揮該項技術的優(yōu)勢。
再次是XEON的自動超頻,Turbo Boost,(也叫渦輪推進技術),很多時候,CPU在處理數據或者在運行的時候,都達到了100% 的使用率,為了解決這個問題,在新一代的XEOn處理器中,可以自動實現(xiàn)2級超頻功能,從原來頻率基礎上,增加2個133M的頻率。
自動超頻Turbo Boost
不過,并不是所有的XEON都會支持這個功能,例如面對低端市場的XEON 5502和XEON5504,這兩個型號的CPU,也將會有可能只有2個核心的版本,共享了4M二級緩存,也不支持超線程技術,從這方面來看,intel 把改省的都省下了,呵呵。從中端的XEON E5506,到XEON E5540都支持了Turbo Boost。不同的是高功耗版本的XEON X5550,功耗達到了95W,它可以在使用2個核心的情況下,實現(xiàn)3級超頻功能,也就是133M×3。例如XEON X5570本來頻率是2.93G,如果四個核心同時使用,那么每個核心可以自動超頻到3.2G;如果只使用了2個核心,那么這2個核心可以自動超頻到 3.33G運行。
Automated Energy Efficiency 自動化能源控制
在XEON5500以前,通常情況下,一個企業(yè)使用的服務器都 是全天24小時運行,功耗基本上都是滿負荷狀態(tài)運行,在我們提倡節(jié)約能源的今天,這是一個巨大的浪費。不過,從這一代開始,處理器更加智能,能夠根據使用 時的狀態(tài),自動調節(jié)功耗。下面是一個企業(yè)一天中監(jiān)測服務器的功耗情況圖,可以看出在早上7點以前,晚上8點以后,功耗大大降低,為企業(yè)節(jié)省了不少的開支。
不同時段服務器的功耗并不相同
XEON 5400和XEON5500的對比情況:SPECpower_ssj2008是一個利用標準Java的JDK計算整體服務器性能,根據其中11個不同工作 負載區(qū)域段的功耗得出服務器的工作負載/能耗比的測試方式。是一個較為客觀的服務器的能耗標準:簡單說來,這一切只與服務器的節(jié)能設計有關,也就是 XEON5500的自動能源控制。
Nehalem架構的至強服務器明顯在節(jié)能方面有更好的表現(xiàn)
Flexible Virtualization 靈活的虛擬化技術
除此之外,英特爾還在強化了Flex-Magretion虛擬化技術。這一技術雖然在在Penryn里就已經實現(xiàn),但是英特爾在XEON5500里得到 了加強。相較于之前的英特爾VT技術,F(xiàn)lexMigration則更偏向傳統(tǒng)對虛擬化技術的定義,這種技術可以讓虛擬機上的應用在英特爾不同產品線的處 理器上進行動態(tài)遷移,提高處理器使用率。新一代的XEON5500 平臺上,包括了chipset芯片,還有network,都對虛擬化有了良好的支持,這使得整個服務器性能有了巨大的提升。>>
Intel 32nm Westmere
Westmere-EP采了 32納米第二代high-k金屬柵技術,先進的制程工藝使得Westmere-EP具備更多的處理核心抑或在保持同樣TDP封裝前提下提高處理器的主頻。 鑒于Thermal Police(熱量排放政策)的緣故,處理器的主頻都有所限制,英特爾計劃為Westmere-EP增加更多的處理核心以及緩存。
Westmere-EP芯片結構
具體而言,45納米向32納米的進步,使得Westmere-EP能增加兩個處理核心并且每個核心的三級緩存也增長了50%達到12MB之多。英特爾架 構事業(yè)部資深高級工程師Nasser Kurd確認Westmere-EP將支持Turbo Boost特性(智能加速技術),即在芯片其他芯片元素靜默狀態(tài)下小幅提高處理器核心的主頻。
總體而言,Westmere-EP的主頻和熱封裝范圍同現(xiàn)有的至強5500一樣,此外在處理器插槽、主板芯片組和DDR3內存的支持方面也同至強5500一樣,每個插槽都有著三個內存通道。
六核Westmere-EP處理器有著11.7億個晶體管,芯片面積為為240平方毫米。正如上圖所示,六個處理核心被一分為二,每組三個核心。處理核 心區(qū)域有著專門的時鐘頻率和電源供給,三級緩存和內存控制器在優(yōu)化設計之后歸為“uncore”(非核心)區(qū)域,有著獨立的功率門限(power gating)。在Nehalem家族芯片中,英特爾為每個核心的晶體管引入了功率門限,當核心處于閑置狀態(tài)時就會被自動關閉。核心狀態(tài)存儲于芯片緩存 中,但是非核心區(qū)域依舊保持全功率運行。但是在Westmere家族中,非核心區(qū)域也引入了功率門限,由此可以看出Westmere更加綠色節(jié)能。
Westmere-EP芯片保持了英特爾HyperThreading同步多線程特性,每一個核心都有著兩個虛擬線程,此外Westmere還具備新的 加密指令集在加密解密數據之時實現(xiàn)AES算法。另外一個新特性在于其嵌入式的內存控制器能夠支持低壓的DDR3內存,這樣在無需損失性能的前提下能夠減少 20%的熱量。
Intel 32nm Sandy Bridge
隨著鐘擺的又一次擺動,時間跨入了2011年。這將是制程-架構的又一次轉換,2011年英特爾的Tick-Tock發(fā)展戰(zhàn)略迎來了Sandy Bridge架構年的到來。桌面以及移動版的Sandy Bridge已經面世,服務器領域的至強版本也將在稍后登場。
與上一代架構各產品線相對應的Sandy bridge家族產品
從產品定位看
與現(xiàn)有至強產品線3000、5000、7000系不同,新一代Sandy Bridge產品線將劃分的更為明確。過去一路產品線由至強3000系獨占,而現(xiàn)在將被細化為面向入門級一路產品的Sandy Bridge-DT和主流一路/入門級兩路產品Sandy Bridge-EN構成,一部分原屬于過去雙路至強5500/5600系的市場將被劃歸這條產品線。而與此同時,主流級兩路產品則被劃歸到Sandry Bridge-EP產品線。在高端四路服務器市場則被細分為入門級四路產品和主流性能級四路產品,入門級產品線將由Sandry Bridge-EX占據。
從產品接口看
從圖中右側我們可以看到,QPI總線一定程度上了決定了產品定位不同,既多路的擴展性。接口也被劃分為一路產品LGA1156-Socket H2;兩路產品LGA1356-Socket B2;四路產品LGA 2011-Socket R。這與AMD在2010年的G34/C32平臺有異曲同工之處(皓龍6100支持2路與4路,皓龍4100支持1路與2路),在四路與兩路產品上不在做 明確劃分而是提供統(tǒng)一的芯片組,給用戶以彈性的選擇。按照如此定位的話,今年推出的Sandy Bridge-EX性能將不及我們已知的Westmere-EX。
到這里,筆者有了一定疑問,Socket R的市場將面向誰?生命周期依然是2年?相比起Westmere-EX提供更好的性價比?這個問題我們稍后再討論。
Sandy Bridge家族 從PC到Server1路、2路、4路產品
從圖中我們可以看出,從PC平臺到入門級服務器工作站平臺,同樣采用了LGA1155接口,雙通道內存,內置GPU核心等,唯一的區(qū)別在于對PCI-E通道數量的支持。LGA1155不支持QPI互聯(lián)架構。
而到了入門級兩路平臺LGA 1356 接口上Sandy Bridge-EN,提供了24條PCI-E通道,三通道內存(DDR3-1600,支持UDIMM和RDIMM,低電壓內存,最大38.4GB/S的內 存帶寬),更大的L3緩存等,與現(xiàn)有5500/5600至強相同,會根據占用內存通道數量不同,進行1600、1333、1066的降頻。提供1個QPI 用來進行擴展。
在LGA 2011接口上Sandy Bridge-EP/EX上,提供了40條PCI-E通道,四通道內存等,提供2個QPI用來進行擴展。
Westmere-EX與Sandy Bridge-EX連接上的區(qū)別
從圖中可以看出,Sandy Bridge的只有兩條QPI與相鄰CPU進行連接,而Nehalem/Westmere-EX則有4條QPI與其他CPU全部進行直連。每兩顆CPU共 享一個南橋與PCI通道進行通信。使得系統(tǒng)內的CPU通信效勞更高,而Sandy Bridge如果要訪問非相鄰的CPU數據則要多一個CPU通信環(huán)節(jié),一定程度上會降低效率。
Intel 22nm IvyBridge
雖然IvyBridge是SandyBridge的22nm工藝升級版,但IvyBridge并非僅僅是將工藝制程升級為22nm,同時它還帶來了諸多 新的特性,如原生支持USB3.0、支持ConfigurableTDP技術、同時還具有更強性能的顯示單元。配套主板方面,IvyBridge處理器將 搭配新一代PantherPoint7系列主板,但使用6系列主板可以通過更新BIOS的方式提供對IvyBridge的支持,為用戶升級提供了方便。
IvyBridge
IvyBridge除了將工藝制程升級為22nm為,其內部還采用了先進的Tri-Gate3D制造工藝,這也是自硅晶體管問世50多年來,3D結構晶體管史無前例的被投入批量生產。
與之前的32nm2D晶體管相比,22nm3D三柵極晶體管,可以在大量增加晶體管的同時有效得控制芯片的體積,同時在低電壓下可將性能提高37%。受 限于物理結構,傳統(tǒng)的2D型晶體管已經嚴重的制約了摩爾定律的進步與發(fā)展,而3D三柵極晶體管的出現(xiàn)無疑又為摩爾定律開啟了一個新的時代。
新一代HDGraphics圖形核心
IvyBridge采用了Intel新一代的HDGraphics圖形核心,EU執(zhí)行單元的數量較SandyBridge翻一番,達到最多24個,同時可支持DirectX11.0。
同時,IvyBridge還加入了FlexibleDisplayInterface技術,此技術可以支持用兩屏或者三屏輸出顯示。
原生支持USB3.0
IvyBridge處理器將搭配新一代PantherPoint7系列芯片組主板,該芯片組將加入XHCIUSB3.0控制器,可提供最多4個USB3.0接口。至此主板廠商無需再用第三方芯片。
同時,7系列芯片組中還集成了兩個EHCIUSB2.0控制器,可提供總共14個USB2.0接口的支持。
ConfigurableTDP技術
IvyBridge處理器還支持一項名為“ConfigurableTDP”的技術。我們知道,IntelTurboBoost技術可以根據系統(tǒng)負載情況,對處理器進行超頻,然而超頻的幅度始終不會超過TDP功耗的限制。
而ConfigurableTDP技術可在高負載時,更高幅度的超頻處理器,不會去考慮TDP功耗限制,但是如果溫度超過了界限,處理器又將降回安全的頻率。
Intel 22nm Haswell及未來
然后呢,22nm工藝上的新架構叫做“Haswell”,2014年上半年進入服務器領域(桌面2013年);次年制造工藝進化為14nm,新產品家族代號“Rockwell”。
繼續(xù)往后是又一個新的架構“Skylake”,還是14nm工藝,預計2016年下半年在服務器領域實現(xiàn)(桌面應該是2015年)。
等到了2017年底至2018年初,Intel將在服務器上為我們帶來10nm工藝,對應產品代號“Skymont”,至于桌面上可能會在2017年上半年就迎來這個10nmSkymont。那時候PCI-E4.0總線、100Gb網絡之類的技術應該也普及了。
如果繼續(xù)按照這樣的速度發(fā)展下去,Intel會在大約2019年把半導體工藝帶入到單位數字時代。