陳小波:我大概是2012年去的英特爾,2012年第一次來到這個(gè)論壇。當(dāng)時(shí)可以看到外面大部分是傳統(tǒng)的存儲廠商,現(xiàn)在大家再出去看,絕大部分外面的廠家變成了分布式存儲。給我最震撼的兩點(diǎn),差不多在2010年的時(shí)候,當(dāng)時(shí)我還在EMC。2010年ORACLE第一次宣布了軟件定義存儲和分布式存儲到來,2012年微軟就出來了,到2015年NUTANIX VSAN超融合的形態(tài)也出來了。這些所有軟件的形態(tài)要依賴于一個(gè)基本的硬件形態(tài),就是SSD閃存。傳統(tǒng)的介質(zhì)存儲設(shè)計(jì),軟件和硬件的匹配,基本上已經(jīng)做到了相對的極限或極致,很難有人在這上面再超過他們。為什么現(xiàn)在有了這么多分布式存儲,有了這么多軟件定義存儲?就是因?yàn)橛辛碎W存,給了軟件更大的想象空間。和傳統(tǒng)的機(jī)械硬盤相比,閃存這個(gè)東西,提供的性能,尤其是RANDOM性能是百倍級、千倍級的增長。應(yīng)用對存儲的需求的第一瓶頸點(diǎn),一般是在IOPS上,解決這個(gè)問題,才談得上下面新的瓶頸點(diǎn)CPU、內(nèi)存等等。
內(nèi)存技術(shù)的擴(kuò)展趨勢
閃存、閃存發(fā)展出來的各種新的硬件技術(shù),類似于內(nèi)功,軟件只是招式,招式再好,沒有內(nèi)功,也就是三歲小孩打太極拳,沒有任何用。如果說你有強(qiáng)勁的內(nèi)力,剩下的問題只是怎么樣用好的軟件,把內(nèi)力發(fā)揮出來,提供給上面的應(yīng)用。
今天我講傲騰的持久內(nèi)存。大家可以看到,剛才講了傳統(tǒng)的機(jī)械硬盤、磁帶容量很大,現(xiàn)在機(jī)械硬盤最少是10TB,磁帶的容量更大,但是慢。1塊NVME的盤大概可以提供到,比如說傲騰55萬4KB的讀,和55萬的寫是一樣的性能。內(nèi)存肯定是比NVME的盤再快3個(gè)數(shù)量級,延遲更低,吞吐更大。在這兩個(gè)之間,傳統(tǒng)的內(nèi)存DD24,主屏越來越高。去年還在用2666的內(nèi)存,今年2999都不夠了,都得用到3200檔次的內(nèi)存上去,主屏越高,吞吐性能越快,在不斷地進(jìn)步。這兩個(gè)之間有沒有一個(gè)用于更加持久化的,把更多的數(shù)據(jù)可以Load進(jìn)內(nèi)存的,傳統(tǒng)的內(nèi)存增長也很快,但是所有物理的東西,在傳統(tǒng)架構(gòu)上增長都是有一定極限的,不管是性能的極限,還是容量的極限。
大概1993年,我買第一臺386的時(shí)候,第一次配了4兆的內(nèi)存,當(dāng)時(shí)覺得好多了,快畢業(yè)的時(shí)候,1997年換了主板486,變成16兆B的內(nèi)存,那個(gè)時(shí)候覺得太大了,快2GB的硬盤,覺得不需要更大的了,可以存很多東西了。到現(xiàn)在只能當(dāng)做一個(gè)古董放到書柜里。從內(nèi)存和硬盤的容量上講,人們對于美好生活的追求,總是無限的。我們要存很多東西,有視頻音頻。以前很多不存的東西,也會存下來,比如說以前工廠的一條生產(chǎn)線,需要靠工人師傅,或者是比較有經(jīng)驗(yàn)的工程師判斷這批產(chǎn)品有什么問題,現(xiàn)在直接架上高清攝像頭拍照、錄象,根據(jù)抓出來的視頻文件或者圖片里面,用AI來算,可能這批生產(chǎn)有什么問題。能給制造業(yè)的業(yè)主,或者是工廠的所有者帶來極大的利益,提高了交貨時(shí)間。問題是拍的照、錄的像,以前是從來不存的東西,但是在新的計(jì)算的引領(lǐng)下,計(jì)算突破了,帶動著存儲和網(wǎng)絡(luò)跟著要突破。以前這些不存的,要把它存下來,存下來的時(shí)候,還是海量的數(shù)據(jù),都不是我們以前講的GB、TB,要奔向EB級。比如說國內(nèi)某個(gè)汽車廠家打算搞自動駕駛,一談就是50個(gè)PB,如果是10KB SATA盤存下來,當(dāng)時(shí)算出來是18000塊機(jī)械硬盤,是一個(gè)很大的量。增長得很快,這屬于它的黃金時(shí)代,幾年就翻一番。大概兩年前最常用的還是8G左右的內(nèi)存,現(xiàn)在是16G,從今年開始,逐漸會進(jìn)入32G。內(nèi)存容量越來越大,既是好事,也是麻煩事。
第二,這么大的內(nèi)存,從性能的角度講,以前對很多應(yīng)用的認(rèn)知,是需要更大的內(nèi)存,但實(shí)際上要跑滿一個(gè)CPU,或者跑出一個(gè)高分,大家可能認(rèn)為內(nèi)存平淡無奇,就這么一根小條子,內(nèi)存的技術(shù)不停地發(fā)展,應(yīng)用在追求更大的容量和帶寬。未來,16G、32G繼續(xù)發(fā)展之后,一個(gè)CPU要插滿這么多Channel才能保證容量的話有點(diǎn)難度,需要更新的技術(shù)解決這些問題,要保證數(shù)據(jù)在增長的時(shí)候,內(nèi)存要跟得上增長。
傲騰突破內(nèi)存瓶頸
以前的翻倍速度沒有這么快,但是數(shù)據(jù)在拼命增長,內(nèi)存一定要增長,很多情況下,這是核心瓶頸點(diǎn)。怎么辦?英特爾用OPTANE的技術(shù),提供了PERSISTENT MEMORY,這個(gè)概念前年開始就比較火了。為了滿足更大的容量,英特爾緊跟潮流,推出了傲騰持久化內(nèi)存。第一個(gè)容量更大,內(nèi)存條大概16G、32G。不是說32G比16G翻一番,還略低,是更貴,64G也是。跟它的生產(chǎn)工藝有關(guān),生產(chǎn)工藝沒有到的時(shí)候,當(dāng)現(xiàn)在最適應(yīng)的,或者說市場上最主流的,一定是它的生產(chǎn)線上,它的工藝決定了這是一個(gè)性價(jià)比最好的產(chǎn)品。如果要追求更大容量,沒有辦法,只能付更多的錢,不是根據(jù)容量翻上去了。但是OPTANE是不同于傳統(tǒng)的技術(shù),不同于傳統(tǒng)的3D NAND,它的容量很大,128GB起配。容量不再是問題,并且高性能、高可靠,插在內(nèi)存條上,既可以作為內(nèi)存用,也可以作為磁盤用,或者是磁盤類型的內(nèi)存來用。
所謂內(nèi)存模式,插在內(nèi)存槽上,就可以把它當(dāng)內(nèi)存來用,性能還不錯。第一,它還是要插傳統(tǒng)的DD24,不是原來的就不插了,插上之后,DD24在操作系統(tǒng)層面看不到這個(gè)內(nèi)存容量。大家就把這個(gè)東西當(dāng)做內(nèi)存,插在服務(wù)器上,系統(tǒng)就看到了,可以直接訪問和使用,沒有任何問題。
第二,應(yīng)用直接訪問模式,是業(yè)界真正的發(fā)展方向和追求的目標(biāo)。很多應(yīng)用中,如果應(yīng)用持久化內(nèi)存,可以達(dá)到一些新的數(shù)據(jù)的安全級別和保證,可以保證數(shù)據(jù)還在,掉電不怕,下次開機(jī)數(shù)據(jù)還在,加載非??臁H绻麅?nèi)存都達(dá)到1.5TB級別,數(shù)據(jù)傳輸是非常繁忙的過程,追求一定的性能的。它插在內(nèi)存上,操作系統(tǒng)可以把它看成是盤,但是訪問不了它。應(yīng)用可以很精確地定位,這個(gè)時(shí)候你看到的就是兩塊內(nèi)存,一塊是DD24的內(nèi)存,比如說有192G,是更快一點(diǎn)的內(nèi)存。另外是1.5T的傲騰數(shù)據(jù)中心級持久化內(nèi)存,是4塊內(nèi)存,這個(gè)時(shí)候可以決定哪些數(shù)據(jù)放在DD24,哪些數(shù)據(jù)放在傲騰,是可以由應(yīng)用通過PMDK這樣的API去控制和定義的。
傲騰完整的模塊系統(tǒng):從理論上來看,控制器、芯片、信號的校驗(yàn),這些全部存在。最關(guān)鍵的,它是直接插在內(nèi)存條上。傲騰的盤是一樣的介質(zhì),同樣的介質(zhì)放在不同的數(shù)據(jù)總線上,CPU訪問的時(shí)間是不一樣的。接口的類型有時(shí)也是控制性能的要素之一。NVME的協(xié)議和接口打破了SATA的限制,OPTANE的接口和協(xié)議是走的內(nèi)存的通道,不需要再通過PCIe的通道轉(zhuǎn)過去,這就使得它的性能很好。
大家就記住兩點(diǎn),它就是內(nèi)存,完全可以當(dāng)做內(nèi)存用。同時(shí),它也可以比內(nèi)存干更多的活。它可以當(dāng)做一塊盤,也可以通過操作系統(tǒng)看是盤,但是應(yīng)用部分,把它當(dāng)成內(nèi)存。
持久性對硬件的影響
CPU是有緩沖的,內(nèi)存本質(zhì)上講是起到磁盤上海量數(shù)據(jù)和計(jì)算的CPU之間的一個(gè)中介和橋梁,緩存,臨時(shí)存放數(shù)據(jù)的空間,內(nèi)存不夠了怎么辦,把它重新刷回硬盤。有了持久內(nèi)存,通過采用PMDK API的方式,CPU可以識別很多數(shù)據(jù),決定它是在易失性DD24還是非易失性。近20年的磁盤的發(fā)展,容量越來越大,磁密度越來越高,單位時(shí)間內(nèi)轉(zhuǎn)過的磁密度提升了, 磁盤順序讀取的性能會提升,但RANDOM性能始終不會提升。大致是2005年左右做到了15000轉(zhuǎn)之后,已經(jīng)到物理極限。它的角速度是一樣的,線速度不一樣,15000轉(zhuǎn)的時(shí)候,一個(gè)磁盤最外延的線速度,已經(jīng)接近物理極限了,轉(zhuǎn)不動了,所以說15000轉(zhuǎn)出來之后,大概有10年的時(shí)間就沒有了。它將來還會發(fā)展,我相信將來會有16TB、20TB、40TB,一直到100TB都有可能。這個(gè)時(shí)候, 磁盤順序讀取的性能提升,7200轉(zhuǎn)決定了它的性能始終是在200 IOPS左右,因?yàn)榍懊婕恿?4兆B的緩存,存儲廠家屏蔽了這個(gè)緩存。持久性內(nèi)存加入進(jìn)去之后,傳統(tǒng)的文件系統(tǒng)要改造,工作量也很大。改造的時(shí)候,跳開傳統(tǒng)的限制,用持久性保證數(shù)據(jù)更快、更方便地被訪問,這就是持久性對硬件的影響,還有一個(gè)對軟件的影響,怎么樣更好地調(diào)動數(shù)據(jù)持久也不怕丟的理念。
內(nèi)存級別的介質(zhì)壽命
大家家最關(guān)心的,SSD有一個(gè)可插儲壽命的概念,OPTANE不怕這點(diǎn),OPTANE這一點(diǎn)特別好,做成傲騰持久化內(nèi)存更好。我講到一個(gè)它和傳統(tǒng)的SSD技術(shù)上的小區(qū)別,傳統(tǒng)的SSD是用配置進(jìn)行數(shù)據(jù)插儲,改一個(gè)字節(jié),也得插一遍,要改A,就改A,要改B,就改B,不會大面積地影響它的壽命。有些磁盤賣得貴,貴在什么地方?除了貴在它的性能上,也貴在壽命上。首先大家都不愿意換盤,必須要承認(rèn)商業(yè)的硬件一定有壞的可能。硬件廠商是盡量保證它不壞,或者告訴用戶說,我有不同檔次的產(chǎn)品,你愿意花多少價(jià)錢,來換取什么樣的檔次。軟件廠商用各種分布式、各種技術(shù)來保證當(dāng)盤壞了的時(shí)候,不影響系統(tǒng)情況下,盡量快地恢復(fù)。對于SSD這種介質(zhì)來說,都有一個(gè)類似的指標(biāo),拿到一塊硬盤,就把它插上去,開足了馬力不停地插和寫,它多久會壞?這個(gè)地方,就是我們的一個(gè)叫Petabytes Written指標(biāo),24小時(shí),365天這么寫,英特爾保證是5年的質(zhì)保。從技術(shù)上講,以及上面預(yù)留的空間,可以保證你不停地寫,寫不壞它,寫壞了,英特爾一定負(fù)責(zé)。
說了半天硬件有多好,紅花也要綠葉配,英特爾就是綠葉。綠葉要來配各朵大紅花,這么快的硬件,光說它快,沒有用,用戶看的是我在我的應(yīng)用里面,我用ORACLE、SPARK等等各種東西情況下,你比我原來快多少,你的性價(jià)比是不是滿足我的需求。因?yàn)樗?,大家想到的在?shù)據(jù)庫領(lǐng)域里面打轉(zhuǎn)轉(zhuǎn),大家的追求不一樣了,國內(nèi)國外的軟件,我們都在進(jìn)行大量的適配和應(yīng)用,性能都有大量的提升。
其他的廠家,國內(nèi)的廠家生態(tài),從基礎(chǔ)架構(gòu)的操作系統(tǒng)級面的,主要的數(shù)據(jù)庫,大數(shù)據(jù)應(yīng)用軟件的,國內(nèi)的CSP,基本上各種互聯(lián)網(wǎng)的提供廠商,包括公有云的,手機(jī)或者是電腦用的軟件,以及OEM這些廠家,保證從硬件到基礎(chǔ)件,到軟件,再到主流的CSP都能提供這種訪問服務(wù)。
講到Redis,Redis提升的性能很大。最近5、6年,短視頻的互聯(lián)網(wǎng)行業(yè)發(fā)展非常快??焓?、抖音,這些都是其中的優(yōu)秀代表??焓志陀昧耍€有很多企業(yè)級的用戶也用了。短視頻挑戰(zhàn)就是數(shù)據(jù)量太大,數(shù)據(jù)量大到一定級別,就會由量變引起質(zhì)變,傳統(tǒng)的架構(gòu)上是企業(yè)級來設(shè)計(jì)的,撐不住海量數(shù)據(jù)的飛速爆炸。快手用Redis提升了性能,整體的TCO降了30%,因?yàn)椴辉傩枰@么多臺機(jī)器。原來要滿足它的業(yè)務(wù),假設(shè)說得用10臺,現(xiàn)在用更少的機(jī)器,雖然說更貴了,把機(jī)器的內(nèi)存加上傲騰去,雖然單機(jī)更貴了,但是整體服務(wù)器數(shù)量可以更少。騰訊云 Redis 云數(shù)據(jù)庫也是加上了傲騰,性能提升了30%多。
(以上內(nèi)容基于演講實(shí)錄整理,如有紕漏,敬請指正。)