Llama 3.1 405B與GPT-4、GPT-4o以及Claude的對(duì)比

其中,4050億參數(shù)的Llama 3.1模型在基本常識(shí)、可操作性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯方面具有行業(yè)領(lǐng)先的能力。同時(shí),該模型還為開(kāi)發(fā)者解鎖了諸如合成數(shù)據(jù)生成和模型蒸餾(Model Distillation)等全新功能。

發(fā)布后不久,英特爾馬上宣布,旗下的英特爾至強(qiáng)、酷睿和銳炫顯卡都可以支持Llama 3.1,除了硬件支持以外,包括PyTorch及英特爾PyTorch擴(kuò)展包、DeepSpeed、Hugging Face Optimum庫(kù)和vLLM等,也都針對(duì)LLama 3.1做了優(yōu)化。

英特爾公布了至強(qiáng)、酷睿和銳炫顯卡運(yùn)行Llama 3.1的性能表現(xiàn)。

英特爾至強(qiáng)內(nèi)置的AMX可以提高AI場(chǎng)景的表現(xiàn)。根據(jù)基準(zhǔn)測(cè)試,在第五代英特爾至強(qiáng)平臺(tái)上以1K token輸入和128 token輸出運(yùn)行80億參數(shù)的Llama 3.1模型,可以達(dá)到每秒176 token的吞吐量,同時(shí)保持下一個(gè)token延遲小于50毫秒。

運(yùn)行支持128k長(zhǎng)文本的80億參數(shù)Llama 3.1模型時(shí),下一個(gè)token延遲可低于100毫秒。

英特爾酷睿平臺(tái)上的NPU,以及銳炫顯卡上英特爾Xe Matrix Extensions加速等專用的AI硬件,可以讓AI PC更輕松進(jìn)行輕量級(jí)微調(diào)和應(yīng)用定制。

英特爾打造的AI PC既要作為大模型開(kāi)發(fā)者的平臺(tái),同時(shí)也是部署大模型的平臺(tái)。開(kāi)發(fā)環(huán)節(jié),有PyTorch以及英特爾PyTorch擴(kuò)展包等配套軟件。部署環(huán)節(jié),也有OpenVINO等工具包。

在配備內(nèi)置英特爾銳炫顯卡的英特爾酷睿 Ultra 7 165H AI PC上,Llama 3.1推理的下一個(gè)token延遲
在使用英特爾銳炫A770 16GB獨(dú)立顯卡的AI PC上,Llama 3.1推理的下一個(gè)token延遲

低于100毫秒的延遲這一性能指標(biāo)其實(shí)很重要,可以保證模型的響應(yīng)足夠迅速,使用戶感覺(jué)與系統(tǒng)的交互是即時(shí)的,看起來(lái)更加連貫,沒(méi)有明顯的停頓或延遲,從而使交互體驗(yàn)更加順暢。

分享到

zhupb

相關(guān)推薦