九章云極DataCanvas高級產(chǎn)品總監(jiān)侯飛冰

近日,由DOIT傳媒主辦的2024數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會在成都圓滿舉行。在“智算中心技術(shù)創(chuàng)新論壇”上,九章云極DataCanvas高級產(chǎn)品總監(jiān)侯飛冰分享了主題為《DATACANVAS AIDC OS定義新AI時代的智算操作系統(tǒng)》主題演講。

算力作為新質(zhì)生產(chǎn)力,已成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經(jīng)濟發(fā)展的重要驅(qū)動力,智算中心的戰(zhàn)略性地位愈發(fā)凸顯。DATACANVAS AIDC OS智算操作系統(tǒng),作為智算中心的“中樞神經(jīng)”,有效管理、調(diào)度各種算力資源,提供智算服務(wù),落地各類智算應(yīng)用。

以下是侯飛冰的演講實錄:

回顧一下2022年11月,OpenAI發(fā)布了全新的對話式生成式大模型ChatGPT,去年3月,OpenAI又發(fā)布了ChatGPT4多模態(tài)大模型。ChatGPT4不僅可以閱讀文本,同時還可以閱讀圖像,并且將結(jié)果輸出,以文字形式輸出給用戶,體驗非常好。今年2月,OpenAI更厲害了,發(fā)布了文生視頻大模型Sora,Sora一經(jīng)發(fā)布就帶來AI圈的轟動,從中 大模型越來越聰明了!

我們也發(fā)現(xiàn)大模型的參數(shù)量正在與日俱增,且為指數(shù)級地增長。我們有一個公式,可以預(yù)測出來大模型訓(xùn)練的算力需求:


訓(xùn)練算力=訓(xùn)練Token數(shù)×大模型參數(shù)×6
推理算力=調(diào)用大模型的次數(shù)×每人平均查詢Token數(shù)×大模型參數(shù)×2

隨著大模型參數(shù)的指數(shù)級增長,包括訓(xùn)練語料的增長,大模型帶來對算力資源需求的井噴,通過預(yù)測全球大模型云端推理的算力需求量從2023年到2027年年復(fù)合增長率在13%。先看美國的情況,根據(jù)美國安全與新興技術(shù)中心的預(yù)測,預(yù)計2026年6月至11月訓(xùn)練大體量高智能的大語言模型的成本將超過美國的總GPU。在中國,根據(jù)IDC預(yù)測,到2026年智能算力規(guī)模將進入ZFLOPS級別,達到1271.4EFLOPS。

算力已經(jīng)成為了新質(zhì)生產(chǎn)力,成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經(jīng)濟增長的驅(qū)動力,中國已經(jīng)進入大規(guī)模的算力建設(shè)時代,各個地方政府和國家都出臺了各種政策,對人工智能產(chǎn)業(yè)提出了更高的要求。

智算中心成為了中國經(jīng)濟發(fā)展的重要新型基礎(chǔ)設(shè)施,智算中心建設(shè)也已經(jīng)為了數(shù)字經(jīng)濟高質(zhì)量發(fā)展的重要支撐,我國的數(shù)字經(jīng)濟蓬勃發(fā)展。算力作為一種關(guān)鍵技術(shù)力量,將帶來巨大的技術(shù)變革和賦能效應(yīng);智算中心也已經(jīng)成為了提升國際競爭力的關(guān)鍵基礎(chǔ)設(shè)施,也是衡量綜合國力的重要指標(biāo)。智算中心也已經(jīng)成為了智慧城市的必然選擇,智算中心作為公共算力基礎(chǔ)設(shè)施,面向政府、企業(yè)、個人用戶等多用戶群體,提供圍繞智慧城市的管理、運行的相關(guān)人工智能所需要的算力服務(wù)、數(shù)據(jù)服務(wù)以及算法服務(wù),整個智算中心地位這么重要,它承載的任務(wù)有哪些。

這個是我在《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》摘錄的4條,第一個是完善算力綜合供給體系,第二條第四條講的都是算力相關(guān)的東西,提升算力高效的運載能力,深化算力賦能行業(yè)應(yīng)用,從這個四點任務(wù)來看有三點和算力相關(guān)。

智算中心的核心價值取決于兩點:算力資源算力水平。作為智算中心,首先必須要提供比較穩(wěn)定高效的算力資源,并不是說我擁有一堆硬件資源就可以,并不是說一堆GPU服務(wù)器堆砌在一起就能形成有效的算力。英偉達的發(fā)展非???,整個硬件資源的PK最終會延展到軟件領(lǐng)域的PK,最終會迎來軟件定義算力的新時代,那么智算操作系統(tǒng)應(yīng)運而生了。

近日,九章云極DataCanvas AIDC OS正式發(fā)布了,我們認為可用、好用、經(jīng)濟的算力才是用戶最終需要的算力,這是國家信息中心發(fā)布的智算中心架構(gòu)圖,它展示了DataCanvas AIDC OS提供的能力范圍。我們是基于底層的硬件資源生產(chǎn)算力、聚合算力,我們提供異構(gòu)算力的納管和調(diào)度,并且向上提供釋放算力、提供AI服務(wù),DataCanvas AIDC OS智算操作系統(tǒng)作為智算中心的中樞神經(jīng),主要核心功能是對底層硬件資源的納管,還有軟件協(xié)同,最大化地提升GPU算力資源的利用率。我們面向于下沉智算基礎(chǔ)資源,能夠高速高效的調(diào)度算力資源、存儲以及網(wǎng)絡(luò)資源,向上針對于智算中心的終端用戶提供人工智能大模型的工具鏈,包括大模型需要的數(shù)據(jù)準(zhǔn)備,以及模型開發(fā)訓(xùn)練微調(diào)推理等過程。

AIDC OS不僅支持九章云極DataCanvas自研的“通識+產(chǎn)業(yè)”白盒大模型矩陣Alaya,同時支持開源大模型的框架,同時歡迎業(yè)界的生態(tài)伙伴加入到行業(yè)里面來,能把自己的大模型以及應(yīng)用部署到智算操作系統(tǒng)之上,一起提供AI對外服務(wù)。

DataCanvas AIDC OS主要是用來做底層硬件資源的納管,軟件的協(xié)同,同時為智算中心的業(yè)務(wù)提供支撐,并且能夠提供大模型加小模型低門檻的訓(xùn)練和推理,大家都知道在智算中心的建設(shè)過程中,有比較大的兩個難題,第一個是成本非常高。舉一個例子,比如建設(shè)1000P的計算資源,大家猜需要多少成本,我們做過一個粗略估計,大概建設(shè)1000P的智算中心需要5.5億,運維成本在1000-1500萬之間,所以建設(shè)一個智算中心成本非常高昂,在這種情況下只有不斷提高算力資源利用率,并且把AI大模型落地到千行百業(yè),給我們帶來經(jīng)濟回報才行。第二個難點是剛剛并行科技的嘉賓說到了,在大模型訓(xùn)練過程中,由于規(guī)模非常巨大,需要大規(guī)模的算力,這樣對集群的穩(wěn)定性要求也是非常高,基于這兩個痛點,DataCanvas AIDC OS操作系統(tǒng)提出了五大核心價值,下面我為大家一一介紹五大核心價值。

第一個價值是告別裸金屬,這里告別裸金屬并不是不用裸金屬,告別裸金屬的意思是在裸金屬之上能夠做得更好,能夠提供更加豐富的算力資源。首先能夠最大化地利用GPU資源,提高GPU的使用效率,能夠最小顆粒度地調(diào)度GPU資源。比如說能夠做一些內(nèi)存分享,然后還可以分享計算單元等等。另外對于這種大規(guī)模的大模型訓(xùn)練來講,九章基于自己的最佳實踐,以集群為優(yōu)先來調(diào)度GPU資源,甚至跨計算中心的調(diào)度,做集群之間的聯(lián)合調(diào)度,DataCanvas AIDC OS做到開箱即用、靈活適配。

第二個價值是為AI而生,經(jīng)常有人問我,我們的DataCanvas AIDC OS的核心價值是什么,和其他廠商的差一點和競品優(yōu)勢是什么,九章云極DataCanvas一直是深耕在AI領(lǐng)域,我們從產(chǎn)品設(shè)計之初,我們的理念是以終為始,我們就是為AI而生,DataCanvas AIDC OS是先列出整個大模型訓(xùn)練生命周期過程當(dāng)中的各個環(huán)節(jié),比如說數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練、微調(diào)、部署推理等等,我們針對每個環(huán)節(jié)都做了一個全局的加速優(yōu)化。

第三個價值點做了全局加速優(yōu)化,在生命周期當(dāng)中做了通信加速,比如我們采用了梯度壓縮的方法,將通信量降低了2到3倍,這樣讓訓(xùn)練效率提升了15%左右,還用了內(nèi)存優(yōu)化,其中有一個用的是算法,這個算法在多GPU訓(xùn)練的時候降低內(nèi)存的冗余,將有限的資源訓(xùn)練更大的模型,來提高計算資源的使用率。還采用算法加速,比如我們采用混合精度,將16位還有32位的計算揉合在一起,這樣也是可以加速,還采用了內(nèi)核加速,變異優(yōu)化、并行加速、三級緩存等等,全局加速優(yōu)化下來,可以講集群的訓(xùn)練效率提升100%,GPU單卡的利用率提升50%,模型的推理速度提升4倍,吞吐量提升5倍。舉一個例子,以九章自己的大模型訓(xùn)練為例,剛開始大模型訓(xùn)練用了62天左右,后來在不斷加速優(yōu)化,還有優(yōu)化AIDC OS之后,同樣規(guī)模的模型,用同樣的Token,時間縮短到39天,這樣把訓(xùn)練成本降到原來的62%,所以這些都是基于九章云極DataCanvas的最佳實踐。

第四個價值點是異構(gòu)算力的納管與調(diào)度。大家都知道我們訓(xùn)練大模型是處于計算密集型,對算力要求非常高,所以這時候需要比較高性能的GPU,比如像HC的GPU,當(dāng)我們做推理的時候,相對來說不需要那么高的GPU,比如可以用4090這些芯片做推理,當(dāng)然還有現(xiàn)在的國產(chǎn)信創(chuàng)加速卡有很多,基于這種情況AIDC OS是能支持海量的異構(gòu)算力的納管和調(diào)度,從訓(xùn)練到推理。我們的調(diào)度采用很多種調(diào)度的算法,包括優(yōu)先級調(diào)度,優(yōu)先級調(diào)度不是先到先得的原則,優(yōu)先級調(diào)度會參考很多的因素,包括任務(wù)提交的時間,以及資源申請量等等各種因素綜合起來,做智能化的優(yōu)先級調(diào)度,我們也支持分時分片GANG調(diào)度,還有分屏調(diào)度,不僅僅基于當(dāng)前作業(yè)的情況,還會基于歷史作業(yè)的運行情況做公平的調(diào)度,從長期來看會更加公平一些,我們支持基于物理網(wǎng)絡(luò)拓撲結(jié)構(gòu)的調(diào)度,還有故障感知調(diào)度。

第五個價值點是1度算力,這個概念可能比較新一些,這是九章在發(fā)布會當(dāng)天發(fā)布的一個新概念,叫1 DataCanvas Unit,簡稱就是1度算力,最近國家都在說我們要像水和電一樣地用算力,讓算力成為一個基礎(chǔ)設(shè)施。基于這種情況,當(dāng)我們講到電的時候,我們計量計價單位會講1度電,水是1噸水,煤氣也是,這個是全國統(tǒng)一的,可能每個地方的定價不大一樣,甚至?xí)须A梯定價,但是都是一度電、一噸水,這個標(biāo)準(zhǔn)不是變的,針對算力來講也需要這樣一個標(biāo)準(zhǔn)的計量計費單位,所以九章云極DataCanvas提出了1度算力的概念。

當(dāng)全國各地都在建計算中心的時候,最終會組成一個算網(wǎng),算網(wǎng)就意味著要做到算力的互聯(lián)互通,算力的互聯(lián)互通怎么樣方便算力的流通和算網(wǎng)內(nèi)部的結(jié)算,這個就比較重要,當(dāng)我們有DCU之后,方便于各個計算中心之間網(wǎng)絡(luò)內(nèi)部的結(jié)算。這個1度算力有一個重要意義,當(dāng)我們訓(xùn)練大模型和做模型推理的時候,經(jīng)常遇到程序有8個會停下來,可能要調(diào)試代碼等等,在調(diào)試代碼的過程中其實沒有用到算力資源,是不是還要付費呢?理論上是不行的。我們希望真正用到這個算力,然后才去付錢,沒有用這個算力就不應(yīng)該付錢。

九章云極DataCanvas提出買到即用到,也就是說根據(jù)實際使用算力資源的情況收費。九章云極DataCanvas不光提供算力,還提供算力的標(biāo)準(zhǔn)度量,甚至你買了算力之后,對外提供AI服務(wù),我們會確保對外AI服務(wù)的質(zhì)量,真正做到買到即用到。

九章云極DataCanvas的優(yōu)勢在AI領(lǐng)域,我們的優(yōu)勢是在算法的基建化、服務(wù)的智能化,我們的目標(biāo)是為算力中心賦予“智芯”,構(gòu)建高效的智算操作系統(tǒng),提供更多更便捷高效的智算服務(wù),我們非常歡迎伙伴們一起加入到這個智算操作系統(tǒng)平臺,共建AI新生態(tài)。謝謝大家!

以上是侯飛冰演講的完整整理。

分享到

yunlang

相關(guān)推薦