仔細(xì)看一下,這張圖片上是不是有2個(gè)“水印”?在此我們不方便解釋太多,總之EMC并沒有正式公開XtremSF閃存卡現(xiàn)在獲得了哪些客戶。
從發(fā)布到現(xiàn)在,我們看到的XtremSF照片大多是背面,為什么呢?不希望人們一下都能看出它的供應(yīng)商吧?記得去年EMC官方宣布VFCache的硬件OEM自美光,所以就是正面的照片。如今單獨(dú)賣卡而不只是捆綁緩存軟件的銷售方式,可能有一些需要顧忌的地方。不過在下文中我們還有更多的圖片能夠證明XtremSF的來源。
這一次推出的閃存卡包括XtremSF 2200(2.2TB)、1400(1.4TB)、700(700GB)和550(550GB)四款型號(hào),都是半高半長(zhǎng)的尺寸和eMLC閃存。至于113萬IOPS的性能只是個(gè)理論測(cè)試的數(shù)值,參見下表:
上表中的350GB和700GB SLC閃存卡應(yīng)該就是去年推出的,來自美光的產(chǎn)品。我們看到,2.2TB eMLC那一款的4KB隨機(jī)讀寫IOPS分別為34.3萬和10.5萬,性能大約只有700GB SLC的一半,而87μs和30μs的讀/寫延時(shí)也距離SLC版本有明顯的差距。550GB eMLC與350GB SLC相比的情況與之類似。
李君鵬表示:“閃存卡性能是它的第一指標(biāo)。EMC的XtremSF把邏輯地址與物理地址的映射、閃存管理等功能卸載到PCIe閃存卡上,所以對(duì)服務(wù)器的開銷是F品牌的一半,這樣讓我們比較寶貴的服務(wù)器CPU資源用在應(yīng)用程序上。
我們對(duì)比的是MLC的,對(duì)比的F品牌也是同等的MLC的,沒有拿SLC跟MLC比,那就不合適了。”
EMC通過各種內(nèi)部測(cè)試,來證明XtremSF在性能、CPU占用以及TCO等方面的表現(xiàn)優(yōu)于“F”品牌的閃存卡。在《輕硬而必須重軟:PCIe閃存的轉(zhuǎn)型之路》一文中,我們進(jìn)行了Host-based與Device-based的討論,據(jù)了解XtremSF閃存卡的OEM來源同樣是Host-based架構(gòu)的,不過也曾有外電中表示它的FTL(閃存轉(zhuǎn)換層)運(yùn)行在卡上?這里似乎還有進(jìn)一步討論的余地。
有記者朋友提問:“現(xiàn)在從這些網(wǎng)站(互聯(lián)網(wǎng)/電子商務(wù))的用戶來說,他們可能以后慢慢越來越習(xí)慣直接去找原始設(shè)備廠商采購。”
李君鵬:“我知道,他們購買的量級(jí)跟我們的量級(jí)肯定不一樣,我們的價(jià)錢肯定比他們好。
(對(duì)于某家國內(nèi)用戶)因?yàn)樗麄冇眠@種PCIe閃存卡用的時(shí)間比較長(zhǎng)了,用的廠家也比較多了,對(duì)價(jià)格也比較敏感了。但是現(xiàn)在碰到很多問題,做卡的解決不了,因?yàn)檫@不是卡的問題。EMC有很多專家,能幫助他們解決這些問題,他們可能會(huì)額外加點(diǎn)錢,可能比競(jìng)爭(zhēng)對(duì)手貴一點(diǎn),也會(huì)采用我們的方案。比如他們絕對(duì)不會(huì)再采購F品牌的卡,跟我們合作。”XtremSW緩存軟件:與FAST的協(xié)同仍在計(jì)劃中
看到上圖中的閃存卡,進(jìn)一步使我想起了Virident,大家可以參考一下Google圖片搜索的結(jié)果。
李君鵬:“XtremSW是EMC緩存方面的一套軟件,其中第一個(gè)產(chǎn)品就是XtremSW Cache(未來還會(huì)有第二個(gè)、第三個(gè)?),現(xiàn)在是1.5版本(沿襲VFCache的版本號(hào)),它可以將服務(wù)器的閃存從直連存儲(chǔ)——我們叫DAS,變成緩存。XtremSW Cache是直寫(write-through)緩存,所謂的直寫緩存是不會(huì)把(唯一的)數(shù)據(jù)寫到緩存卡里,而是寫到網(wǎng)絡(luò)存儲(chǔ)上面。XtremSW Cache是目前唯一的數(shù)據(jù)去重產(chǎn)品(提供重復(fù)數(shù)據(jù)刪除的PCIe閃存緩存),這樣我們可以使服務(wù)器的閃存卡提供額外至少20%的容量。再有一個(gè),XtremSW Cache與EMC的網(wǎng)絡(luò)存儲(chǔ),像EMC的VMAX實(shí)現(xiàn)了集成,從VMAX上面就可以看到XtremSW所管理的閃存卡的統(tǒng)計(jì)信息,看到哪一些卷使用了XtremSW的緩存,還有如果它有錯(cuò)誤信息,可以通過VMAX的管理軟件報(bào)警。”
ChinaByte比特網(wǎng):我記得EMC以前說過XtremSW Cache(VFCache)會(huì)跟FAST(全自動(dòng)存儲(chǔ)分層,包括FAST Cache)做進(jìn)一步的集成。
李君鵬:“跟FAST將來的集成,如果這個(gè)數(shù)據(jù)已經(jīng)是在服務(wù)器的(閃存)緩存里邊了,那就不要在混合陣列的緩存里了。還有一個(gè),如果這個(gè)數(shù)據(jù)我們看到的是順序的讀取,那我們就可能預(yù)先把數(shù)據(jù)提取(預(yù)讀)給服務(wù)器的閃存卡,這是跟FSAT的集成,現(xiàn)在還沒到那個(gè)階段,但是現(xiàn)在正朝那個(gè)方向走。”
一年多以前,我們?cè)岬竭^VFCache(即XtremSW Cache的前身)具備一種“split-card(切分卡)”功能,允許用戶使用服務(wù)器閃存卡的一部分作為緩存,而另外一部分作為DAS存儲(chǔ)資源來使用。
這張示例圖右側(cè)的DAS閃存中存放的是Temp DB(臨時(shí)數(shù)據(jù)庫),因?yàn)樗痪邆鋽?shù)據(jù)保護(hù),可以說能夠相對(duì)最大化讀寫IOPS性能并提供最小的延時(shí)。
我們還曾寫道:“EMC最初宣稱VFCache只支持自家的VNX和VMAX存儲(chǔ)系統(tǒng),但后來卻放寬了這個(gè)限制,盡管他們不希望因此而促進(jìn)其他廠商的陣列銷售。”這一次李君鵬表示:“目前XtremSW Cache軟件在所有的XtremSF卡上都可以用。在不久的將來,可以用在F品牌的閃存卡上,以后可以用在其他廠商的閃存卡上。我們看看它支持的操作系統(tǒng),有物理操作系統(tǒng)和虛擬化環(huán)境,像VMware和Hyper-V等等,未來也會(huì)支持更多的操作系統(tǒng)(SUSE Linux等)。
筆者注:通過EMC緩存軟件對(duì)第三方閃存卡的支持進(jìn)度,從一個(gè)側(cè)面反映出Fusion-io目前仍是該領(lǐng)域的老大?
李君鵬:“XtremSW Cache未來的方向,在不久的將來會(huì)支持Oracle RAC環(huán)境。也就是說未來在閃存方面的硬件越來越商品化,而最關(guān)鍵的功能全部是通過軟件來實(shí)現(xiàn)。XtremSW套件未來的方向是,可以用這個(gè)軟件把服務(wù)器閃存卡作為Cache,可以定義成直連存儲(chǔ),像內(nèi)置盤一樣,或者是作為內(nèi)存的擴(kuò)展。未來會(huì)提供更多的數(shù)據(jù)服務(wù),這種數(shù)據(jù)服務(wù)比如在不同的兩塊卡之間做鏡像,這兩塊卡可以在同一個(gè)服務(wù)器上,或者是在不同的服務(wù)器上。這些卡可以分布在很多臺(tái)服務(wù)器上,XtremSW的軟件套件會(huì)將所有的服務(wù)器閃存卡做成一個(gè)池,這個(gè)池可以服務(wù)給所有的運(yùn)行在這些服務(wù)器上的應(yīng)用。這都是未來這個(gè)軟件的一些發(fā)展方向。”
與之相比,戴爾Fluid Cache(流動(dòng)緩存)第一版的寫操作加速特性,就有點(diǎn)類似于XtremSW計(jì)劃中最基本的一步——“2個(gè)PCIe閃存在同一個(gè)服務(wù)器上做鏡像”。
我們以前還討論過服務(wù)器閃存緩存支持雙活集群(共享存儲(chǔ))和vMotion等的挑戰(zhàn),如今隨著VMware vSphere 5.1支持在沒有共享存儲(chǔ)的物理機(jī)之間遷移虛擬機(jī),后者對(duì)于該領(lǐng)域的主要廠商而言已經(jīng)不再是個(gè)大難題,更多的區(qū)別在于閃存緩存在vMotion過程中是否需要手動(dòng)禁用等操作以及重新預(yù)熱。另外,Oracle要求的是雙活(Active-Active)而不是Active-Standby。
上圖中XtremSW直連存儲(chǔ)的高可用和池等發(fā)展方向,使我想起了Virident FlashMAX Fabric路線圖中的四個(gè)版本,感覺上它們相當(dāng)類似。既然閃存卡硬件很可能是相同的,接下來比拼的應(yīng)該就是誰的軟件做得好,誰能更早推出吧?
原文出自【比特網(wǎng)】,轉(zhuǎn)載請(qǐng)保留原文鏈接:http://storage.chinabyte.com/137/12599137_2.shtml雷電計(jì)劃:與Fusion ION一樣需求不足?
在之前撰寫的評(píng)論中,我曾經(jīng)寫道:“EMC打算用XtremSW Cache軟件未來的池化、高速緩存一致性(分布式緩存)功能,來實(shí)現(xiàn)共享以替代Project Thunder(雷電計(jì)劃)”。
上圖我們?cè)?jīng)在《Fusion-io軟件定義存儲(chǔ):全閃存陣列DIY時(shí)代?》一文中出示過
ChinaByte比特網(wǎng):其實(shí)EMC以前還有一個(gè)雷電計(jì)劃。
李君鵬:“是的,這個(gè)產(chǎn)品實(shí)際上都已經(jīng)準(zhǔn)備推向市場(chǎng)了,但是通過跟客戶反復(fù)地溝通,發(fā)現(xiàn)這個(gè)產(chǎn)品完全可以用其他產(chǎn)品來替代,就不再出了。”
根據(jù)圖片中的說明,Project Thunder可共享、可擴(kuò)展,提供優(yōu)化的延時(shí)和吞吐,定位在VFCache(XtremSW + XtremSF)和XtremIO全閃存陣列之間。針對(duì)的應(yīng)用有高頻率交易、HPC高性能計(jì)算和為擴(kuò)展受限的刀片服務(wù)器提供直連閃存。下面我們看看這些應(yīng)用需求都被哪些產(chǎn)品替代了,或者說分散到哪些產(chǎn)品?
點(diǎn)擊放大
李君鵬:“服務(wù)器閃存、全閃存陣列和混合盤陣有不同的使用案例。我們來看混合陣列,它比較適合大數(shù)據(jù)集,VMAX 10K支持1.5PB的可用(容量),20K支持2.5PB,40K支持4PB。偏斜IO模式,它可以利用混合陣列平衡成本和性能,主要的應(yīng)用有哪些呢?比如數(shù)據(jù)庫里的應(yīng)用,OLTP應(yīng)用,像我們計(jì)費(fèi)、帳務(wù)、銀行的柜面業(yè)務(wù)都是這類。XtremIO提供了線內(nèi)消重,提供隨機(jī)IO,閃存盤最好的就是隨機(jī)IO,閃存盤跟機(jī)械盤能夠提供的(順序訪問)IOPS或者M(jìn)B數(shù)差別不大。XtremIO典型應(yīng)用是在VDI、虛擬服務(wù)器、數(shù)據(jù)庫、決策支持。XtremSW Cache服務(wù)器閃存緩存,我們最主要提供的是性能,而且是跟后端網(wǎng)絡(luò)存儲(chǔ)聯(lián)合在一起提供了保護(hù),它也需要提供有一些偏斜的IO模式,它主要用在讀密集IO的環(huán)境,因?yàn)楸旧硎前褜懭氩僮髦苯訉懙搅撕蠖吮P陣上。它可以用在OLTP、郵件、數(shù)據(jù)庫類的應(yīng)用里。服務(wù)器本地存儲(chǔ)XtremSF有極高的性能,特別適合于像高性能計(jì)算、交易類應(yīng)用程序,這種交易類比如股票交易、信用卡交易等,還有就是Web2.0應(yīng)用和適合于金融分析、數(shù)據(jù)建模等,它適合這種高IO的工作負(fù)載,提供非常低的響應(yīng)時(shí)間。
原文出自【比特網(wǎng)】,轉(zhuǎn)載請(qǐng)保留原文鏈接:http://storage.chinabyte.com/137/12599137_3.shtmlXtremIO全閃存陣列:軟件定義商品化硬件
李君鵬:“XtremIO在最初設(shè)計(jì)的時(shí)候,就基于以軟件來定義閃存的功能。所用的硬件全部是現(xiàn)成的,沒有一個(gè)硬件是特意為這個(gè)產(chǎn)品打造的,用的CPU、控制器板子以及里邊的SSD盤,全部都是商用的,不一樣的就是它的軟件。它軟件內(nèi)置平衡、線性的橫向擴(kuò)展體系架構(gòu),還有一個(gè)是它在設(shè)計(jì)上要提供始終可用的數(shù)據(jù)服務(wù)。所謂始終可用的數(shù)據(jù)服務(wù),我們常常看到有一個(gè)產(chǎn)品當(dāng)提供遠(yuǎn)程復(fù)制的時(shí)候,不能做本地鏡像等等,很多廠商的產(chǎn)品有這樣那樣的限制。而XtremIO在設(shè)計(jì)的時(shí)候,有一個(gè)理念就是它提供始終可用的數(shù)據(jù)服務(wù),也就是說它在提供對(duì)應(yīng)用IO的時(shí)候,其他數(shù)據(jù)服務(wù),像快照、鏡像、數(shù)據(jù)復(fù)制都是始終可用的。
全閃存陣列使用SAS還是PCIe SSD?
ChinaByte比特網(wǎng):XtremIO將來會(huì)不會(huì)考慮把SSD模塊換成PCIe的?
李君鵬:“XtremIO現(xiàn)在來講一定是盤陣(驅(qū)動(dòng)器)的形態(tài),不會(huì)做成卡的形式。”
分析:無獨(dú)有偶,據(jù)了解Kaminario上周剛宣布的第四代K2全閃存陣列,將存儲(chǔ)介質(zhì)從Fusion-io PCIe閃存卡,換成了熱插拔SAS SSD驅(qū)動(dòng)器。
在前不久的IDF2013系列報(bào)道中,我們提到了2.5英寸熱插拔是PCIe SSD發(fā)展的趨勢(shì)?,F(xiàn)在我們了解到的,正式應(yīng)用2.5英寸PCIe SSD的主要是戴爾Express Flash,在服務(wù)器上不需要雙端口訪問,另外由于不提供硬件RAID保護(hù),只能說有限支持熱插拔。
另外有業(yè)內(nèi)人士稱“相信PCIe雙端口的SSD盤片今年會(huì)逐漸出現(xiàn)并應(yīng)用,但由于PCIe特殊性我并不看好取代雙端口SAS,在技術(shù)上不成熟。”
除了2.5英寸、熱插拔和雙端口之外,還有一點(diǎn)是SCSI協(xié)議的兼容。我們?cè)?ldquo;IDF2013:NVM Express目標(biāo)SAN共享存儲(chǔ)”中介紹的多路徑I/O和命名空間共享,以及預(yù)約機(jī)制(和SCSI reserve機(jī)制的實(shí)現(xiàn)方式兼容)等,就是力圖解決這方面的問題。而Fusion-io與STA(SCSI商業(yè)委員會(huì))共同推動(dòng)的SCSI Express標(biāo)準(zhǔn),包括SCSI over PCIe(SOP)協(xié)議等,所做的也是類似的事情。
上圖右側(cè)的那顆芯片,是我在IDF2013大會(huì)上拍攝的IDT編號(hào)為89H48H12G3YC的48信道PCIe 3.0 Switch
除此之外我還想補(bǔ)充一點(diǎn),那就是高信道(lane)數(shù)PCIe交換芯片的應(yīng)用情況。我們知道SAS擴(kuò)展器(Expander)拓?fù)鋽U(kuò)展在企業(yè)存儲(chǔ)后端連接中的重要性,一些情況下是可以支持級(jí)聯(lián)多達(dá)上千個(gè)SAS設(shè)備的。目前主流的6Gb/s SAS擴(kuò)展器端口數(shù)通常不超過36,而LSI和PMC宣布的12Gb/s SAS端口數(shù)分別達(dá)到了48和68個(gè),盡管PCIe 3.0 Switch也有64 lane的(可拆分成16個(gè)x4),其總帶寬與最先進(jìn)的SAS Expander處于同一水平,不過它目前能夠連接的SSD數(shù)量相對(duì)有限(SAS是每個(gè)link對(duì)一個(gè)設(shè)備,要是PCIe 3.0拆分成x1其帶寬也能滿足大部分需求),進(jìn)一步級(jí)聯(lián)擴(kuò)展應(yīng)該也是個(gè)問題。
李君鵬:“XtremIO結(jié)合了Isilon橫向擴(kuò)展的體系架構(gòu)和Data Domain線內(nèi)數(shù)據(jù)消重的功能。XtremIO目前來講我們支持到8個(gè)Brick,再多能不能行?EMC現(xiàn)在沒有時(shí)間來測(cè)。我們看到從橫向可擴(kuò)展的角度來講,它的性能提升幾乎是全線性的。一個(gè)Brick提供的4K隨機(jī)讀是25萬IOPS,而兩個(gè)就接近50萬,四個(gè)達(dá)到了100萬。我們來看一下4K的隨機(jī)寫,一個(gè)的時(shí)候是10萬IOPS,兩個(gè)和四個(gè)的時(shí)候分別是20萬和40萬。而在測(cè)試這些的時(shí)候,它的所有數(shù)據(jù)服務(wù)功能都是打開的,沒有關(guān)閉任何數(shù)據(jù)服務(wù)功能,它的IO響應(yīng)時(shí)間低于1毫秒。”
商品硬件Scale-out vs. 定制化閃存模塊
如果看單個(gè)XtremIO Brick的性能,許多PCIe閃存卡一塊就不比它差,當(dāng)然前者提供的共享和高可用性是后者不具備的。XtremIO性能上的優(yōu)勢(shì)更多在于Scale-out,我們拿它作為使用SAS SSD全閃存陣列的一個(gè)代表;那么IBM收購TMS后重新推出的FlashSystem、Violin Memory,以及戴爾和WD參與投資的Skyera,則屬于定制非標(biāo)準(zhǔn)閃存模塊。源自TMS技術(shù)的FlashSystem和Violin也有支持高可用的型號(hào),有點(diǎn)像雙控制器全冗余組件的方式,并且單臺(tái)設(shè)備的IOPS可達(dá)50萬甚至上百萬(如Violin Memory 6616),也不見得遜色于“商品硬件”的Scale-out擴(kuò)展。
李君鵬:“XtremIO跟“N”品牌同類產(chǎn)品的比較。N品牌從橫向體系架構(gòu)擴(kuò)展、線性的可擴(kuò)展性、可預(yù)測(cè)的性能、線內(nèi)消重、精簡(jiǎn)配置、空間高效RAID保護(hù)、快照、VAAI方面都不具備。而iSCSI N品牌是可選的。
我們來看下XtremIO提供了哪些數(shù)據(jù)服務(wù)。第一個(gè)是線內(nèi)數(shù)據(jù)消重,XtremIO以4K的大小為單位,也就是當(dāng)下一個(gè)頁來的時(shí)候,它首先會(huì)比較跟前面的頁有什么區(qū)別,如果有重復(fù)的,它就不會(huì)在陣列里邊存這個(gè)重復(fù)的頁,這個(gè)有什么好處呢?為什么要線內(nèi)?線內(nèi)(in-line)就是當(dāng)IO進(jìn)來的時(shí)候就消重,而不是等到存完了以后讀出來再消重。線內(nèi)消重有幾個(gè)好處,最主要是我們講閃存有一個(gè)耐用度,因?yàn)殚W存某一個(gè)頁如果要往上寫的話,必須先把上面的內(nèi)容給清掉,先擦寫了以后再往上寫。而擦寫閃存的時(shí)候,要以塊為單位來擦寫。先把寫進(jìn)來的4K IO的一頁,放在XtremIO的緩存里,等到消重了之后,再寫到后端的SSD盤的頁上,極大延長(zhǎng)了SSD盤的壽命,SSD盤的磨損是均衡的,這是線內(nèi)消重提供的重要好處。消重的效果怎么樣?一般數(shù)據(jù)庫類的應(yīng)用,我們看到的效果至少是10:1以上,也就是說你需要60TB的容量,如果用XtremIO,你買6個(gè)TB就可以了。
精簡(jiǎn)配置是指沒有必要先把容量全分出去,只有當(dāng)寫IO進(jìn)來的時(shí)候,我再分配容量給你。精簡(jiǎn)配置和非精簡(jiǎn)配置相比好處是什么?是因?yàn)?傳統(tǒng)上)每一個(gè)應(yīng)用,你只要分給它,它就把這個(gè)容量給占有,即使它不用,你也不可能再用了。所以XtremIO全部用100%精簡(jiǎn)配置,這樣可以使我們更充分的利用閃存的資源。
還有一個(gè)是數(shù)據(jù)保護(hù),這種保護(hù)既不是RAID1,也不是RAID5,而是N+2的保護(hù)。保護(hù)所占的容量只是8%,所以它保護(hù)的效率是極高的,性能也是極高的??煺帐强勺x寫的——有的產(chǎn)品產(chǎn)生的是只讀的快照,而XtremIO的快照是可讀可寫的。XtremIO從開始配置到提供服務(wù),不用做任何的調(diào)整。它的配置極簡(jiǎn)單,不需要做規(guī)劃,不需要做調(diào)優(yōu)。”
N+2保護(hù)與RAID DP:為什么要等待FlashRay?
根據(jù)XtremIO的RAID規(guī)格,我們可以計(jì)算出它的保護(hù)方式是23+2,這也符合其產(chǎn)品圖片中驅(qū)動(dòng)器機(jī)箱的2U 25盤位。由上表,NetApp Data ONTAP 8.0.1默認(rèn)和最大的SSD RAID組大小分別為21+2和26+2,也就是說RAID-DP技術(shù)支持固態(tài)盤不見得就遜色于XtremIO?只是FAS/V系列統(tǒng)一存儲(chǔ)為磁盤優(yōu)化的WAFL文件系統(tǒng)不適合閃存介質(zhì),所以才會(huì)有將E5400的驅(qū)動(dòng)器“簡(jiǎn)單”換成SSD之后的EF540。未來的FlashRay還是值得期待的,只是它預(yù)計(jì)比XtremIO要晚大約一年,到時(shí)候看能否再現(xiàn)Data ONTAP的輝煌吧。
從EMC FAST到戴爾流動(dòng)數(shù)據(jù)
如上圖,EMC FAST最終的理想是在XtremSW(DAS或閃存緩存)、XtremIO全閃存陣列和傳統(tǒng)的混合陣列之間進(jìn)行全自動(dòng)存儲(chǔ)分層。如果將它與戴爾流動(dòng)數(shù)據(jù)進(jìn)行比較:左邊對(duì)應(yīng)Fluid Cache for DAS、右邊Compellent(還有EqudlLogic?),據(jù)了解今年下半年戴爾將延伸Fluid Cache,它能夠作為連接到PowerEdge 12G服務(wù)器Compellent陣列的前端;盡管當(dāng)前戴爾還沒有推出自己的全閃存陣列,但有消息他們將計(jì)劃將Violin加入分層存儲(chǔ)——即Compellent存儲(chǔ)陣列將一個(gè)Violin全閃存陣列視為一個(gè)集成的存儲(chǔ)層。那么兩家公司的戰(zhàn)略還是比較相似的,看來英雄所見略同啊。