中文字幕一区二区人妻性色,99视频在线,国产亚洲精品久久一区二区三区

圖1 基于Habana Gaudi2，70億和130億參數(shù)Llama 2模型的推理性能

若想訪問(wèn)Gaudi2，可按照此處在英特爾開(kāi)發(fā)者云平臺(tái)上注冊(cè)一個(gè)實(shí)例，或聯(lián)系超微（Supermicro）了解Gaudi2服務(wù)器基礎(chǔ)設(shè)施。

英特爾至強(qiáng)可擴(kuò)展處理器

第四代英特爾至強(qiáng)可擴(kuò)展處理器是一款通用計(jì)算處理器，具有英特爾高級(jí)矩陣擴(kuò)展（英特爾AMX）的AI加速功能。具體而言，該處理器的每個(gè)核心內(nèi)置了BF16和INT8通用矩陣乘（GEMM）加速器，以加速深度學(xué)習(xí)訓(xùn)練和推理工作負(fù)載。此外，英特爾至強(qiáng) CPU Max系列, 每顆CPU 提供64GB的高帶寬內(nèi)存（HBM2E），兩顆共128GB，由于大語(yǔ)言模型的工作負(fù)載通常受到內(nèi)存帶寬的限制，因此，該性能對(duì)于大模型來(lái)說(shuō)極為重要。

目前，針對(duì)英特爾至強(qiáng)處理器的軟件優(yōu)化已升級(jí)到深度學(xué)習(xí)框架中，并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI庫(kù)的默認(rèn)發(fā)行版。英特爾主導(dǎo)了torch.compile CPU后端的開(kāi)發(fā)和優(yōu)化，這是PyTorch 2.0的旗艦功能。與此同時(shí)，英特爾還提供英特爾PyTorch擴(kuò)展包*（Intel Extension for PyTorch*），旨在PyTorch官方發(fā)行版之前，盡早、及時(shí)地為客戶提供英特爾CPU的優(yōu)化。

第四代英特爾至強(qiáng)可擴(kuò)展處理器擁有更高的內(nèi)存容量，支持在單個(gè)插槽內(nèi)實(shí)現(xiàn)適用于對(duì)話式AI和文本摘要應(yīng)用的、低延遲的大語(yǔ)言模型執(zhí)行。對(duì)于BF16和INT8，該結(jié)果展示了單個(gè)插槽內(nèi)執(zhí)行1個(gè)模型時(shí)的延遲。英特爾PyTorch擴(kuò)展包*支持SmoothQuant，以確保INT8精度模型具有良好的準(zhǔn)確度。

考慮到大語(yǔ)言模型應(yīng)用需要以足夠快的速度生成token，以滿足讀者較快的閱讀速度，我們選擇token延遲，即生成每個(gè)token所需的時(shí)間作為主要的性能指標(biāo)，并以快速人類讀者的閱讀速度（約為每個(gè)token 100毫秒）作為參考。如圖2、3所示，對(duì)于70億參數(shù)的Llama2 BF16模型和130億參數(shù)的Llama 2 INT8模型，第四代英特爾至強(qiáng)單插槽的延遲均低于100毫秒。

得益于更高的HBM2E帶寬，英特爾至強(qiáng)CPU Max系列為以上兩個(gè)模型提供了更低的延遲。而憑借英特爾AMX加速器，用戶可以通過(guò)更高的批量尺寸（batch size）來(lái)提高吞吐量。

圖2 基于英特爾至強(qiáng)可擴(kuò)展處理器，70億參數(shù)和130億參數(shù)Llama 2模型（BFloat16）的推理性能

圖3 基于英特爾至強(qiáng)可擴(kuò)展處理器，70億參數(shù)和130億參數(shù)Llama 2模型（INT8）的推理性能

對(duì)于70億和130億參數(shù)的模型，每個(gè)第四代至強(qiáng)插槽可提供低于100毫秒的延遲。用戶可以分別在兩個(gè)插槽上同時(shí)運(yùn)行兩個(gè)并行實(shí)例，從而獲得更高的吞吐量，并獨(dú)立地服務(wù)客戶端。亦或者，用戶可以通過(guò)英特爾PyTorch擴(kuò)展包*和DeepSpeed* CPU，使用張量并行的方式在兩個(gè)第四代至強(qiáng)插槽上運(yùn)行推理，從而進(jìn)一步降低延遲或支持更大的模型。

關(guān)于在至強(qiáng)平臺(tái)上運(yùn)行大語(yǔ)言模型和Llama 2，開(kāi)發(fā)者可以點(diǎn)擊此處了解更多詳細(xì)信息。第四代英特爾至強(qiáng)可擴(kuò)展處理器的云實(shí)例可在AWS和Microsoft Azure上預(yù)覽，目前已在谷歌云平臺(tái)和阿里云全面上線。英特爾將持續(xù)在PyTorch*和DeepSpeed*進(jìn)行軟件優(yōu)化，以進(jìn)一步加速Llama 2和其它大語(yǔ)言模型。

英特爾?數(shù)據(jù)中心GPU Max系列

英特爾數(shù)據(jù)中心GPU Max系列提供并行計(jì)算、科學(xué)計(jì)算和適用于科學(xué)計(jì)算的AI加速。作為英特爾性能最為出色、密度最高的獨(dú)立顯卡，英特爾數(shù)據(jù)中心GPU Max系列產(chǎn)品中封裝超過(guò)1000億個(gè)晶體管，并包含多達(dá)128個(gè)Xe內(nèi)核，Xe是英特爾GPU的計(jì)算構(gòu)建模塊。

英特爾數(shù)據(jù)中心GPU Max系列旨在為AI和科學(xué)計(jì)算中使用的數(shù)據(jù)密集型計(jì)算模型提供突破性的性能，包括：

408 MB基于獨(dú)立SRAM技術(shù)的L2緩存、64MB L1緩存以及高達(dá)128GB的高帶寬內(nèi)存（HBM2E）。
AI增強(qiáng)型的Xe英特爾矩陣擴(kuò)展（英特爾 XMX）搭載脈動(dòng)陣列，在單臺(tái)設(shè)備中可實(shí)現(xiàn)矢量和矩陣功能。

英特爾Max系列產(chǎn)品統(tǒng)一支持oneAPI，并基于此實(shí)現(xiàn)通用、開(kāi)放、基于標(biāo)準(zhǔn)的編程模型，釋放生產(chǎn)力和性能。英特爾oneAPI工具包括高級(jí)編譯器、庫(kù)、分析工具和代碼遷移工具，可使用SYCL輕松將CUDA代碼遷移到開(kāi)放的C++。

英特爾數(shù)據(jù)中心Max系列GPU通過(guò)當(dāng)今框架的開(kāi)源擴(kuò)展來(lái)實(shí)現(xiàn)軟件支持和優(yōu)化，例如面向PyTorch*的英特爾擴(kuò)展、面向TensorFlow*的英特爾擴(kuò)展和面向DeepSpeed*的英特爾擴(kuò)展。通過(guò)將這些擴(kuò)展與上游框架版本一起使用，用戶將能夠在機(jī)器學(xué)習(xí)工作流中實(shí)現(xiàn)快速整合。

我們?cè)谝粋€(gè)600瓦OAM形態(tài)的GPU上評(píng)估了Llama 2的70億參數(shù)模型和Llama 2的130億參數(shù)模型推理性能，這個(gè)GPU上封裝了兩個(gè)tile，而我們只使用其中一個(gè)tile來(lái)運(yùn)行推理。圖4顯示，對(duì)于輸入長(zhǎng)度為32到2000的token，英特爾數(shù)據(jù)中心GPU Max系列的一個(gè)tile可以為70億參數(shù)模型的推理提供低于20毫秒的單token延遲，130億參數(shù)模型的單token延遲為29.2-33.8毫秒³。因?yàn)樵揋PU上封裝了兩個(gè)tile，用戶可以同時(shí)并行運(yùn)行兩個(gè)獨(dú)立的實(shí)例，每個(gè)tile上運(yùn)行一個(gè)，以獲得更高的吞吐量并獨(dú)立地服務(wù)客戶端。

圖4英特爾數(shù)據(jù)中心GPU Max 1550上的Llama 2的70億和130億參數(shù)模型的推理性能

關(guān)于在英特爾GPU平臺(tái)上運(yùn)行大語(yǔ)言模型和Llama 2，可以點(diǎn)擊此處獲取詳細(xì)信息。目前英特爾開(kāi)發(fā)者云平臺(tái)上已發(fā)布英特爾GPU Max云實(shí)例測(cè)試版。

英特爾平臺(tái)上的大語(yǔ)言模型微調(diào)

除了推理之外，英特爾一直在積極地推進(jìn)微調(diào)加速，通過(guò)向Hugging Face Transformers、PEFT、Accelerate和Optimum?庫(kù)提供優(yōu)化，并在面向Transformers的英特爾擴(kuò)展中提供參考工作流。這些工作流支持在相關(guān)英特爾平臺(tái)上高效地部署典型的大語(yǔ)言模型任務(wù)，如文本生成、代碼生成、完成和摘要。

總結(jié)

上述內(nèi)容介紹了在英特爾AI硬件產(chǎn)品組合上運(yùn)行Llama 2的70億和130億參數(shù)模型推理性能的初始評(píng)估，包括Habana Gaudi2深度學(xué)習(xí)加速器、第四代英特爾至強(qiáng)可擴(kuò)展處理器、英特爾至強(qiáng) CPU Max系列和英特爾數(shù)據(jù)中心GPU Max系列。我們將繼續(xù)通過(guò)軟件發(fā)布提供優(yōu)化，后續(xù)會(huì)再分享更多關(guān)于大語(yǔ)言模型和更大的Llama 2模型的評(píng)估。

參考資料

Intel / intel-extension-for-pytorch：一個(gè)用于擴(kuò)展官方PyTorch的PyTorch軟件包，可以輕松地獲取英特爾平臺(tái)的性能（github.com）

使用英特爾神經(jīng)壓縮器進(jìn)行模型壓縮：huggingface/optimum-habana：在Habana Gaudi 處理器（HPU）上輕松地極速訓(xùn)練?? Transformers（github.com）

面向英特爾數(shù)據(jù)中心GPU Max系列的開(kāi)發(fā)工具

Meta Llama2論文：https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Meta Llama2博客：https://ai.meta.com/llama/

產(chǎn)品和性能信息¹ Habana Gaudi2深度學(xué)習(xí)加速器：所有測(cè)量使用了一臺(tái)HLS2 Gaudi2服務(wù)器上的Habana SynapseAI 1.10版和optimum-habana 1.6版，該服務(wù)器具有八個(gè)Habana Gaudi2 HL-225H Mezzanine卡和兩個(gè)英特爾至強(qiáng)白金8380 CPU@2.30GHz以及1TB系統(tǒng)內(nèi)存

分享到

Llama 英特爾

zhupb

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽