一本一道久久综合久久,一本久道久久综合狠狠躁av

九章云極DataCanvas高級(jí)產(chǎn)品總監(jiān)侯飛冰

近日，由DOIT傳媒主辦的2024數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會(huì)在成都圓滿舉行。在“智算中心技術(shù)創(chuàng)新論壇”上，九章云極DataCanvas高級(jí)產(chǎn)品總監(jiān)侯飛冰分享了主題為《DATACANVAS AIDC OS定義新AI時(shí)代的智算操作系統(tǒng)》主題演講。

算力作為新質(zhì)生產(chǎn)力，已成為挖掘數(shù)據(jù)要素價(jià)值，推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的重要驅(qū)動(dòng)力，智算中心的戰(zhàn)略性地位愈發(fā)凸顯。DATACANVAS AIDC OS智算操作系統(tǒng)，作為智算中心的“中樞神經(jīng)”，有效管理、調(diào)度各種算力資源，提供智算服務(wù)，落地各類(lèi)智算應(yīng)用。

以下是侯飛冰的演講實(shí)錄：

回顧一下2022年11月，OpenAI發(fā)布了全新的對(duì)話式生成式大模型ChatGPT，去年3月，OpenAI又發(fā)布了ChatGPT4多模態(tài)大模型。ChatGPT4不僅可以閱讀文本，同時(shí)還可以閱讀圖像，并且將結(jié)果輸出，以文字形式輸出給用戶，體驗(yàn)非常好。今年2月，OpenAI更厲害了，發(fā)布了文生視頻大模型Sora，Sora一經(jīng)發(fā)布就帶來(lái)AI圈的轟動(dòng)，從中大模型越來(lái)越聰明了！

我們也發(fā)現(xiàn)大模型的參數(shù)量正在與日俱增，且為指數(shù)級(jí)地增長(zhǎng)。我們有一個(gè)公式，可以預(yù)測(cè)出來(lái)大模型訓(xùn)練的算力需求：

訓(xùn)練算力=訓(xùn)練Token數(shù)×大模型參數(shù)×6
推理算力=調(diào)用大模型的次數(shù)×每人平均查詢Token數(shù)×大模型參數(shù)×2

隨著大模型參數(shù)的指數(shù)級(jí)增長(zhǎng)，包括訓(xùn)練語(yǔ)料的增長(zhǎng)，大模型帶來(lái)對(duì)算力資源需求的井噴，通過(guò)預(yù)測(cè)全球大模型云端推理的算力需求量從2023年到2027年年復(fù)合增長(zhǎng)率在13%。先看美國(guó)的情況，根據(jù)美國(guó)安全與新興技術(shù)中心的預(yù)測(cè)，預(yù)計(jì)2026年6月至11月訓(xùn)練大體量高智能的大語(yǔ)言模型的成本將超過(guò)美國(guó)的總GPU。在中國(guó)，根據(jù)IDC預(yù)測(cè)，到2026年智能算力規(guī)模將進(jìn)入ZFLOPS級(jí)別，達(dá)到1271.4EFLOPS。

算力已經(jīng)成為了新質(zhì)生產(chǎn)力，成為挖掘數(shù)據(jù)要素價(jià)值，推動(dòng)數(shù)字經(jīng)濟(jì)增長(zhǎng)的驅(qū)動(dòng)力，中國(guó)已經(jīng)進(jìn)入大規(guī)模的算力建設(shè)時(shí)代，各個(gè)地方政府和國(guó)家都出臺(tái)了各種政策，對(duì)人工智能產(chǎn)業(yè)提出了更高的要求。

智算中心成為了中國(guó)經(jīng)濟(jì)發(fā)展的重要新型基礎(chǔ)設(shè)施，智算中心建設(shè)也已經(jīng)為了數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的重要支撐，我國(guó)的數(shù)字經(jīng)濟(jì)蓬勃發(fā)展。算力作為一種關(guān)鍵技術(shù)力量，將帶來(lái)巨大的技術(shù)變革和賦能效應(yīng)；智算中心也已經(jīng)成為了提升國(guó)際競(jìng)爭(zhēng)力的關(guān)鍵基礎(chǔ)設(shè)施，也是衡量綜合國(guó)力的重要指標(biāo)。智算中心也已經(jīng)成為了智慧城市的必然選擇，智算中心作為公共算力基礎(chǔ)設(shè)施，面向政府、企業(yè)、個(gè)人用戶等多用戶群體，提供圍繞智慧城市的管理、運(yùn)行的相關(guān)人工智能所需要的算力服務(wù)、數(shù)據(jù)服務(wù)以及算法服務(wù)，整個(gè)智算中心地位這么重要，它承載的任務(wù)有哪些。

這個(gè)是我在《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》摘錄的4條，第一個(gè)是完善算力綜合供給體系，第二條第四條講的都是算力相關(guān)的東西，提升算力高效的運(yùn)載能力，深化算力賦能行業(yè)應(yīng)用，從這個(gè)四點(diǎn)任務(wù)來(lái)看有三點(diǎn)和算力相關(guān)。

智算中心的核心價(jià)值取決于兩點(diǎn)：算力資源和算力水平。作為智算中心，首先必須要提供比較穩(wěn)定高效的算力資源，并不是說(shuō)我擁有一堆硬件資源就可以，并不是說(shuō)一堆GPU服務(wù)器堆砌在一起就能形成有效的算力。英偉達(dá)的發(fā)展非?？欤麄€(gè)硬件資源的PK最終會(huì)延展到軟件領(lǐng)域的PK，最終會(huì)迎來(lái)軟件定義算力的新時(shí)代，那么智算操作系統(tǒng)應(yīng)運(yùn)而生了。

近日，九章云極DataCanvas AIDC OS正式發(fā)布了，我們認(rèn)為可用、好用、經(jīng)濟(jì)的算力才是用戶最終需要的算力，這是國(guó)家信息中心發(fā)布的智算中心架構(gòu)圖，它展示了DataCanvas AIDC OS提供的能力范圍。我們是基于底層的硬件資源生產(chǎn)算力、聚合算力，我們提供異構(gòu)算力的納管和調(diào)度，并且向上提供釋放算力、提供AI服務(wù)，DataCanvas AIDC OS智算操作系統(tǒng)作為智算中心的中樞神經(jīng)，主要核心功能是對(duì)底層硬件資源的納管，還有軟件協(xié)同，最大化地提升GPU算力資源的利用率。我們面向于下沉智算基礎(chǔ)資源，能夠高速高效的調(diào)度算力資源、存儲(chǔ)以及網(wǎng)絡(luò)資源，向上針對(duì)于智算中心的終端用戶提供人工智能大模型的工具鏈，包括大模型需要的數(shù)據(jù)準(zhǔn)備，以及模型開(kāi)發(fā)訓(xùn)練微調(diào)推理等過(guò)程。

AIDC OS不僅支持九章云極DataCanvas自研的“通識(shí)+產(chǎn)業(yè)”白盒大模型矩陣Alaya，同時(shí)支持開(kāi)源大模型的框架，同時(shí)歡迎業(yè)界的生態(tài)伙伴加入到行業(yè)里面來(lái)，能把自己的大模型以及應(yīng)用部署到智算操作系統(tǒng)之上，一起提供AI對(duì)外服務(wù)。

DataCanvas AIDC OS主要是用來(lái)做底層硬件資源的納管，軟件的協(xié)同，同時(shí)為智算中心的業(yè)務(wù)提供支撐，并且能夠提供大模型加小模型低門(mén)檻的訓(xùn)練和推理，大家都知道在智算中心的建設(shè)過(guò)程中，有比較大的兩個(gè)難題，第一個(gè)是成本非常高。舉一個(gè)例子，比如建設(shè)1000P的計(jì)算資源，大家猜需要多少成本，我們做過(guò)一個(gè)粗略估計(jì)，大概建設(shè)1000P的智算中心需要5.5億，運(yùn)維成本在1000-1500萬(wàn)之間，所以建設(shè)一個(gè)智算中心成本非常高昂，在這種情況下只有不斷提高算力資源利用率，并且把AI大模型落地到千行百業(yè)，給我們帶來(lái)經(jīng)濟(jì)回報(bào)才行。第二個(gè)難點(diǎn)是剛剛并行科技的嘉賓說(shuō)到了，在大模型訓(xùn)練過(guò)程中，由于規(guī)模非常巨大，需要大規(guī)模的算力，這樣對(duì)集群的穩(wěn)定性要求也是非常高，基于這兩個(gè)痛點(diǎn)，DataCanvas AIDC OS操作系統(tǒng)提出了五大核心價(jià)值，下面我為大家一一介紹五大核心價(jià)值。

第一個(gè)價(jià)值是告別裸金屬，這里告別裸金屬并不是不用裸金屬，告別裸金屬的意思是在裸金屬之上能夠做得更好，能夠提供更加豐富的算力資源。首先能夠最大化地利用GPU資源，提高GPU的使用效率，能夠最小顆粒度地調(diào)度GPU資源。比如說(shuō)能夠做一些內(nèi)存分享，然后還可以分享計(jì)算單元等等。另外對(duì)于這種大規(guī)模的大模型訓(xùn)練來(lái)講，九章基于自己的最佳實(shí)踐，以集群為優(yōu)先來(lái)調(diào)度GPU資源，甚至跨計(jì)算中心的調(diào)度，做集群之間的聯(lián)合調(diào)度，DataCanvas AIDC OS做到開(kāi)箱即用、靈活適配。

第二個(gè)價(jià)值是為AI而生，經(jīng)常有人問(wèn)我，我們的DataCanvas AIDC OS的核心價(jià)值是什么，和其他廠商的差一點(diǎn)和競(jìng)品優(yōu)勢(shì)是什么，九章云極DataCanvas一直是深耕在AI領(lǐng)域，我們從產(chǎn)品設(shè)計(jì)之初，我們的理念是以終為始，我們就是為AI而生，DataCanvas AIDC OS是先列出整個(gè)大模型訓(xùn)練生命周期過(guò)程當(dāng)中的各個(gè)環(huán)節(jié)，比如說(shuō)數(shù)據(jù)準(zhǔn)備，模型訓(xùn)練、微調(diào)、部署推理等等，我們針對(duì)每個(gè)環(huán)節(jié)都做了一個(gè)全局的加速優(yōu)化。

第三個(gè)價(jià)值點(diǎn)做了全局加速優(yōu)化，在生命周期當(dāng)中做了通信加速，比如我們采用了梯度壓縮的方法，將通信量降低了2到3倍，這樣讓訓(xùn)練效率提升了15%左右，還用了內(nèi)存優(yōu)化，其中有一個(gè)用的是算法，這個(gè)算法在多GPU訓(xùn)練的時(shí)候降低內(nèi)存的冗余，將有限的資源訓(xùn)練更大的模型，來(lái)提高計(jì)算資源的使用率。還采用算法加速，比如我們采用混合精度，將16位還有32位的計(jì)算揉合在一起，這樣也是可以加速，還采用了內(nèi)核加速，變異優(yōu)化、并行加速、三級(jí)緩存等等，全局加速優(yōu)化下來(lái)，可以講集群的訓(xùn)練效率提升100%，GPU單卡的利用率提升50%，模型的推理速度提升4倍，吞吐量提升5倍。舉一個(gè)例子，以九章自己的大模型訓(xùn)練為例，剛開(kāi)始大模型訓(xùn)練用了62天左右，后來(lái)在不斷加速優(yōu)化，還有優(yōu)化AIDC OS之后，同樣規(guī)模的模型，用同樣的Token，時(shí)間縮短到39天，這樣把訓(xùn)練成本降到原來(lái)的62%，所以這些都是基于九章云極DataCanvas的最佳實(shí)踐。

第四個(gè)價(jià)值點(diǎn)是異構(gòu)算力的納管與調(diào)度。大家都知道我們訓(xùn)練大模型是處于計(jì)算密集型，對(duì)算力要求非常高，所以這時(shí)候需要比較高性能的GPU，比如像HC的GPU，當(dāng)我們做推理的時(shí)候，相對(duì)來(lái)說(shuō)不需要那么高的GPU，比如可以用4090這些芯片做推理，當(dāng)然還有現(xiàn)在的國(guó)產(chǎn)信創(chuàng)加速卡有很多，基于這種情況AIDC OS是能支持海量的異構(gòu)算力的納管和調(diào)度，從訓(xùn)練到推理。我們的調(diào)度采用很多種調(diào)度的算法，包括優(yōu)先級(jí)調(diào)度，優(yōu)先級(jí)調(diào)度不是先到先得的原則，優(yōu)先級(jí)調(diào)度會(huì)參考很多的因素，包括任務(wù)提交的時(shí)間，以及資源申請(qǐng)量等等各種因素綜合起來(lái)，做智能化的優(yōu)先級(jí)調(diào)度，我們也支持分時(shí)分片GANG調(diào)度，還有分屏調(diào)度，不僅僅基于當(dāng)前作業(yè)的情況，還會(huì)基于歷史作業(yè)的運(yùn)行情況做公平的調(diào)度，從長(zhǎng)期來(lái)看會(huì)更加公平一些，我們支持基于物理網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的調(diào)度，還有故障感知調(diào)度。

第五個(gè)價(jià)值點(diǎn)是1度算力，這個(gè)概念可能比較新一些，這是九章在發(fā)布會(huì)當(dāng)天發(fā)布的一個(gè)新概念，叫1 DataCanvas Unit，簡(jiǎn)稱就是1度算力，最近國(guó)家都在說(shuō)我們要像水和電一樣地用算力，讓算力成為一個(gè)基礎(chǔ)設(shè)施?；谶@種情況，當(dāng)我們講到電的時(shí)候，我們計(jì)量計(jì)價(jià)單位會(huì)講1度電，水是1噸水，煤氣也是，這個(gè)是全國(guó)統(tǒng)一的，可能每個(gè)地方的定價(jià)不大一樣，甚至?xí)须A梯定價(jià)，但是都是一度電、一噸水，這個(gè)標(biāo)準(zhǔn)不是變的，針對(duì)算力來(lái)講也需要這樣一個(gè)標(biāo)準(zhǔn)的計(jì)量計(jì)費(fèi)單位，所以九章云極DataCanvas提出了1度算力的概念。

當(dāng)全國(guó)各地都在建計(jì)算中心的時(shí)候，最終會(huì)組成一個(gè)算網(wǎng)，算網(wǎng)就意味著要做到算力的互聯(lián)互通，算力的互聯(lián)互通怎么樣方便算力的流通和算網(wǎng)內(nèi)部的結(jié)算，這個(gè)就比較重要，當(dāng)我們有DCU之后，方便于各個(gè)計(jì)算中心之間網(wǎng)絡(luò)內(nèi)部的結(jié)算。這個(gè)1度算力有一個(gè)重要意義，當(dāng)我們訓(xùn)練大模型和做模型推理的時(shí)候，經(jīng)常遇到程序有8個(gè)會(huì)停下來(lái)，可能要調(diào)試代碼等等，在調(diào)試代碼的過(guò)程中其實(shí)沒(méi)有用到算力資源，是不是還要付費(fèi)呢？理論上是不行的。我們希望真正用到這個(gè)算力，然后才去付錢(qián)，沒(méi)有用這個(gè)算力就不應(yīng)該付錢(qián)。

九章云極DataCanvas提出買(mǎi)到即用到，也就是說(shuō)根據(jù)實(shí)際使用算力資源的情況收費(fèi)。九章云極DataCanvas不光提供算力，還提供算力的標(biāo)準(zhǔn)度量，甚至你買(mǎi)了算力之后，對(duì)外提供AI服務(wù)，我們會(huì)確保對(duì)外AI服務(wù)的質(zhì)量，真正做到買(mǎi)到即用到。

九章云極DataCanvas的優(yōu)勢(shì)在AI領(lǐng)域，我們的優(yōu)勢(shì)是在算法的基建化、服務(wù)的智能化，我們的目標(biāo)是為算力中心賦予“智芯”，構(gòu)建高效的智算操作系統(tǒng)，提供更多更便捷高效的智算服務(wù)，我們非常歡迎伙伴們一起加入到這個(gè)智算操作系統(tǒng)平臺(tái)，共建AI新生態(tài)。謝謝大家！

以上是侯飛冰演講的完整整理。

分享到

yunlang

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽