在线中文字幕有码中文,最近中文字幕mv在线资源,最近中文字幕高清中文字幕第一

測試前的操作

測試中研究人員發(fā)現(xiàn)，大部分的CPU架構(gòu)都會(huì)預(yù)先獲取內(nèi)存，然后進(jìn)行亂序執(zhí)行，以此隱藏內(nèi)存的延遲，為了測到真正的主內(nèi)存延遲，測試人員進(jìn)行了很多操作：

首先，從目標(biāo)內(nèi)存中分配一定數(shù)量的內(nèi)存緩沖區(qū)，為了不命中LLC，分配的緩沖區(qū)要盡可能的大，至少要大于LLC。內(nèi)存緩沖區(qū)拆分成了64字節(jié)的cacheline。

其次，將cacheline緩存線對(duì)象鏈表進(jìn)行隨機(jī)排序，這樣一來，遍歷鏈表會(huì)導(dǎo)致跳轉(zhuǎn)到遠(yuǎn)處的cacheline對(duì)象。

第三，測量遍歷所有cacheline對(duì)象所用的時(shí)間，并計(jì)算獲取cacheline的平均延遲。在大多數(shù)情況下，CPU在遍歷cacheline鏈表時(shí)候，如果沒有命中LLC會(huì)有短暫的暫停，這段時(shí)間算作是內(nèi)存延遲。

測試結(jié)果

經(jīng)測試后，AIST在Paper中表示，目前關(guān)于傲騰數(shù)據(jù)中心持久內(nèi)存的性能報(bào)告很少，傲騰數(shù)據(jù)中心持久內(nèi)存與DRAM的性能差距很大，相對(duì)于NAND的提升也非常大。以下是一些結(jié)論：

測試中，AIST使用的是自己的測試工具，測試發(fā)現(xiàn)傲騰數(shù)據(jù)中心持久內(nèi)存隨機(jī)只讀延遲大約為374ns，隨機(jī)寫的延遲大約是391ns。只讀帶寬為38GB/s，寫帶寬為3GB/s，如果不開啟內(nèi)存交錯(cuò)（memory interleave），性能會(huì)差很多。

AIST認(rèn)為，像大型HPC集群，AI工作負(fù)載等將從傲騰持久內(nèi)存受益良多，但DRAM和傲騰持久內(nèi)存之間的性能差異給系統(tǒng)軟件帶來了新的挑戰(zhàn)，這也是傲騰推廣普及中碰到的最大問題之一。

下圖有一個(gè)比較清晰的對(duì)比：