智慧計(jì)算無(wú)處不在,重塑著世界的方方面面,為第一、二、三產(chǎn)業(yè)發(fā)揮重要價(jià)值——無(wú)人農(nóng)場(chǎng)、智能農(nóng)機(jī)、智慧農(nóng)業(yè)正在改變延續(xù)了上千年的農(nóng)業(yè)生產(chǎn)方式;智能工廠讓生產(chǎn)效率顯著提升;醫(yī)療機(jī)器人在抗擊新冠疫情中大顯身手,無(wú)接觸送貨、無(wú)人機(jī)送餐也已成為智慧物流的亮點(diǎn)。智慧計(jì)算已經(jīng)滲透進(jìn)各個(gè)行業(yè),讓智慧時(shí)代充滿(mǎn)希望。
十四五,數(shù)字經(jīng)濟(jì)推動(dòng)智慧算力加速普及和升級(jí),智慧時(shí)代,計(jì)算能力需求將出現(xiàn)巨大的飛躍。王恩東說(shuō):“面對(duì)指數(shù)級(jí)增長(zhǎng)的計(jì)算需求,計(jì)算技術(shù)、產(chǎn)品與產(chǎn)業(yè)也面臨著三大挑戰(zhàn)。計(jì)算場(chǎng)景愈加復(fù)雜、計(jì)算架構(gòu)更加多元;巨量模型、巨量數(shù)據(jù)、巨量算力及巨量應(yīng)用挑戰(zhàn)著現(xiàn)有計(jì)算機(jī)體系結(jié)構(gòu),以及如何開(kāi)放包容地最大化生態(tài)效能?!?/p>
王恩東表示:“以創(chuàng)新應(yīng)答挑戰(zhàn),浪潮通過(guò)創(chuàng)新智算體系結(jié)構(gòu)、構(gòu)建智算產(chǎn)品體系、推動(dòng)智算中心落地、建設(shè)元腦產(chǎn)業(yè)鏈生態(tài)引領(lǐng)智算發(fā)展。智慧計(jì)算,未來(lái)可期?!?/p>
以下是演講全文:
各位領(lǐng)導(dǎo)、合作伙伴大家上午好,歡迎大家來(lái)到太湖之濱,蒞臨“智算·向新”浪潮數(shù)據(jù)中心合作伙伴大會(huì),正是由于在座各位的大力支持,浪潮在過(guò)去的一年又取得了高速的發(fā)展,繼續(xù)保持服務(wù)器全球第三,中國(guó)第一,并且成為全球人工智能計(jì)算的領(lǐng)導(dǎo)者。在此,感謝大家一年來(lái)對(duì)浪潮的支持和幫助,謝謝大家!
過(guò)去的一年,是極不平凡的一年。全球新冠病毒肆虐,徹底改變了人類(lèi)的生活方式?!熬G水青山妄自多,全球無(wú)奈病毒何”,全球經(jīng)濟(jì)出現(xiàn)大幅下滑。中國(guó)率先控制住了疫情,率先實(shí)現(xiàn)了經(jīng)濟(jì)恢復(fù)和增長(zhǎng),完勝脫貧攻堅(jiān)戰(zhàn),制定了激動(dòng)人心的十四五規(guī)劃,宣告中國(guó)進(jìn)入新的發(fā)展階段,將構(gòu)建以國(guó)內(nèi)大循環(huán)為主體、國(guó)內(nèi)國(guó)際雙循環(huán)相互促進(jìn)的新發(fā)展格局。
在過(guò)去的一年,大家聽(tīng)到最多的一個(gè)詞就是創(chuàng)新,創(chuàng)新在新發(fā)展理念中的核心地位深入人心,創(chuàng)新驅(qū)動(dòng)發(fā)展也是十四五規(guī)劃的關(guān)鍵詞??倳?shū)記講,創(chuàng)新就是生產(chǎn)力,企業(yè)賴(lài)之以強(qiáng),國(guó)家賴(lài)之以盛。創(chuàng)新也是浪潮的核心價(jià)值觀之一,創(chuàng)新、誠(chéng)信、共贏更是浪潮堅(jiān)持發(fā)展合作伙伴、建設(shè)生態(tài)體系的初心。
那么,立足新的發(fā)展階段、我們應(yīng)該如何貫徹新發(fā)展理念、構(gòu)建新的計(jì)算產(chǎn)業(yè)發(fā)展格局?帶著這樣的問(wèn)題,今天我要報(bào)告的題目是《創(chuàng)新驅(qū)動(dòng) 共建計(jì)算新格局》,和大家分享一下,面對(duì)經(jīng)濟(jì)主戰(zhàn)場(chǎng)數(shù)字化轉(zhuǎn)型的重大機(jī)遇,浪潮對(duì)于計(jì)算向智算發(fā)展、多元融合新格局的洞察與思考,以及通過(guò)技術(shù)架構(gòu)和產(chǎn)品體系創(chuàng)新、算力供給模式創(chuàng)新和生態(tài)平臺(tái)建設(shè)進(jìn)行布局的規(guī)劃。
既然是思考,我們不妨把時(shí)間維度放大一點(diǎn)。在百萬(wàn)年以前,人類(lèi)的祖先走出森林,走向草原,逐漸形成了人類(lèi)智能,經(jīng)歷了漁獵采集時(shí)代、農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代和信息時(shí)代,創(chuàng)造了光輝燦爛的文明和科技。隨著以人工智能為代表的新一代信息技術(shù)的進(jìn)步,人類(lèi)社會(huì)正加速度進(jìn)入智慧時(shí)代,這是對(duì)終點(diǎn)的沖刺,還是新的百萬(wàn)年的開(kāi)始?我想這可能是一個(gè)值得思考的問(wèn)題。為什么這么說(shuō)?
我們來(lái)看一些關(guān)于人類(lèi)大腦和未來(lái)的人工智能的大腦,或者說(shuō)硅基大腦和碳基大腦發(fā)展的情況。
類(lèi)腦計(jì)算是全球的研究熱點(diǎn),清華的施路平教授在去年曾經(jīng)說(shuō):“碳基上能夠?qū)崿F(xiàn)的,硅基上一定能夠?qū)崿F(xiàn)”。而實(shí)際情況也顯示,碳基生物大腦同硅基系統(tǒng)結(jié)合已不再僅僅停留在科幻小說(shuō)、科幻電影中,而是逐步在形成科學(xué)與技術(shù)的突破。
比如就在最近,埃隆·馬斯克公布了一項(xiàng)腦機(jī)接口的最新實(shí)驗(yàn),科學(xué)家們?cè)讷J猴的大腦皮層中植入兩塊芯片來(lái)捕捉大腦活動(dòng)的信號(hào),實(shí)現(xiàn)了將大腦信號(hào)翻譯成游戲里的動(dòng)作。如此一來(lái),猴子動(dòng)動(dòng)腦子便可以打乒乓球電子游戲了,腦機(jī)接口技術(shù)延伸了生物大腦。
在中國(guó),2020年人工智能學(xué)會(huì)評(píng)選出的自然科學(xué)類(lèi)5個(gè)一等獎(jiǎng)中,有2個(gè)都是關(guān)于類(lèi)腦計(jì)算和腦機(jī)接口的,最近一個(gè)時(shí)期,腦機(jī)接口技術(shù)獲得了顯著的進(jìn)展。
我們已經(jīng)看到了人工智能技術(shù)的大爆發(fā),但是,站在人類(lèi)歷史這個(gè)更大的時(shí)空維度上,我想這一切才剛剛開(kāi)始。
現(xiàn)在,我們創(chuàng)造了無(wú)數(shù)的智慧大腦,城市大腦、交通大腦、企業(yè)大腦等等,這些正在改變世界的方方面面。
在第一產(chǎn)業(yè),無(wú)人農(nóng)場(chǎng)、智能農(nóng)機(jī)、智慧農(nóng)業(yè)正在改變延續(xù)了上千年的農(nóng)業(yè)生產(chǎn)方式。在黑龍江,浪潮與北大荒集團(tuán)合作建設(shè)智慧農(nóng)業(yè),開(kāi)拓了全球最大面積的無(wú)人農(nóng)場(chǎng),智能農(nóng)機(jī)覆蓋了農(nóng)業(yè)生產(chǎn)的耕、種、管、收全流程。
2020年中國(guó)農(nóng)業(yè)無(wú)人機(jī)的銷(xiāo)量超過(guò)了1.5萬(wàn)架,一架無(wú)人機(jī)一天農(nóng)藥噴灑面積達(dá)到300畝,是人工的20倍。無(wú)人機(jī)裝載了病蟲(chóng)害識(shí)別系統(tǒng),及時(shí)發(fā)現(xiàn)受到病蟲(chóng)害侵襲的葉子,實(shí)現(xiàn)農(nóng)藥的噴殺精準(zhǔn),減少了農(nóng)藥的使用量。另外,通過(guò)精準(zhǔn)噴灑催熟劑,實(shí)現(xiàn)作物生長(zhǎng)成熟周期同步、規(guī)?;渴崭睿杀敬蟠蠼档?、利潤(rùn)率大幅提升。
在第二產(chǎn)業(yè),2020年我國(guó)制造業(yè)增加值達(dá)到26萬(wàn)億,繼續(xù)保持世界第一制造大國(guó)地位。智能制造是數(shù)字經(jīng)濟(jì)的皇冠,正在成為各國(guó)搶占數(shù)字經(jīng)濟(jì)制高點(diǎn)的主戰(zhàn)場(chǎng)。作為雙循環(huán)基礎(chǔ)發(fā)力點(diǎn),智能制造將成為提升我國(guó)整體制造業(yè)水平不可忽略的增長(zhǎng)引擎。
中國(guó)智能制造裝備產(chǎn)值規(guī)模在2020年已經(jīng)超過(guò)了兩萬(wàn)億。就在蘇州,浪潮建設(shè)了一座PCBA智慧工廠,整個(gè)生產(chǎn)制造過(guò)程彈性、透明、可追溯,智能技術(shù)貫穿了設(shè)計(jì)、生產(chǎn)、配送和檢測(cè)的全流程,生產(chǎn)效率提升了60%以上。
智慧計(jì)算已經(jīng)對(duì)第三產(chǎn)業(yè)形成了深刻的改變,在突如其來(lái)的新冠疫情面前更是發(fā)揮了巨大的作用,各種功能的醫(yī)療機(jī)器人等人工智能設(shè)備服務(wù)在各地的防疫前線,無(wú)接觸送貨、無(wú)人機(jī)送餐成為智慧物流的亮點(diǎn)。
浪潮和工商銀行合作,形成了智慧金融解決方案,幫助更多人實(shí)現(xiàn)了創(chuàng)業(yè)的夢(mèng)想;在上海奉賢區(qū)智行生態(tài)谷,基于浪潮智算平臺(tái)建設(shè)了一條無(wú)人駕駛實(shí)驗(yàn)公路;在北京天壇醫(yī)院,浪潮建設(shè)的智慧醫(yī)療平臺(tái),幫助醫(yī)生實(shí)現(xiàn)了更快速、更準(zhǔn)確的病情分析。
同時(shí),智慧計(jì)算也已經(jīng)成為守護(hù)大自然的好幫手。在云南,浪潮協(xié)助西雙版納國(guó)家自然保護(hù)區(qū)建設(shè)了亞洲象活動(dòng)軌跡采集系統(tǒng),在雨林內(nèi)實(shí)時(shí)收集亞洲象的行為數(shù)據(jù)和活動(dòng)軌跡,基于人工智能技術(shù)實(shí)現(xiàn)毫秒級(jí)精準(zhǔn)辨識(shí),準(zhǔn)確度高達(dá)99%,即使在光線不足的夜晚,也可以根據(jù)一條尾巴或一個(gè)背影識(shí)別出亞洲象。
通過(guò)對(duì)野生大象的長(zhǎng)期追蹤和觀測(cè),為洞察大象物種習(xí)性、種群遷移軌跡提供幫助,進(jìn)而對(duì)合理的開(kāi)展亞洲象國(guó)家公園區(qū)域規(guī)劃、棲息地改造、食源地優(yōu)化等保護(hù)舉措提供科學(xué)依據(jù)。
通過(guò)上面的例子可以看出,智慧計(jì)算時(shí)代的序幕已經(jīng)拉開(kāi),人工智能已經(jīng)開(kāi)始滲透到經(jīng)濟(jì)社會(huì)的方方面面,在深刻地影響著我們的工作和生活,在這個(gè)過(guò)程中,浪潮一直發(fā)揮著重要的作用。
智慧時(shí)代是充滿(mǎn)希望的,我們看到全球主要經(jīng)濟(jì)體都在積極投入到人工智能的技術(shù)研究和產(chǎn)業(yè)發(fā)展中,中國(guó)、美國(guó)、歐盟都發(fā)布了多個(gè)重要的支持政策,投入了巨量的研發(fā)基金。根據(jù)IDC的數(shù)據(jù),2020年全球?qū)θ斯ぶ悄艿耐顿Y總額超過(guò)了500億美元,到2024年,投資額將達(dá)到1100億美元。投入是巨大的,而回報(bào)也將是豐厚的。據(jù)普華永道預(yù)測(cè),至2030年,人工智能技術(shù)將為全球GDP帶來(lái)14%的提升,相當(dāng)于16萬(wàn)億美元。
進(jìn)入智慧時(shí)代,相比以往的傳統(tǒng)信息化應(yīng)用,對(duì)計(jì)算能力的需求將是一個(gè)巨大的飛躍。傳統(tǒng)的信息化應(yīng)用主要以基于數(shù)據(jù)庫(kù)事務(wù)的業(yè)務(wù)為主,像OA、ERP、郵件等,計(jì)算量隨著業(yè)務(wù)量的增長(zhǎng)基本是線性增長(zhǎng)的,但是智慧計(jì)算對(duì)計(jì)算能力的要求則是指數(shù)級(jí)增長(zhǎng)的。2020年以GPU為代表的AI加速芯片所交付的計(jì)算力總和已經(jīng)超過(guò)了通用CPU,預(yù)計(jì)到2025年,加速芯片所提供的計(jì)算力可能超過(guò)80%。所以,從計(jì)算到智算,智慧計(jì)算將是智慧時(shí)代的核心動(dòng)力。
智慧時(shí)代,生產(chǎn)力的三要素也發(fā)生了相應(yīng)的改變。勞動(dòng)者從人轉(zhuǎn)向了人加上AI,勞動(dòng)效率顯著提升;勞動(dòng)工具從傳統(tǒng)的機(jī)械設(shè)備變成了智能裝備,就像我們前面講到的智能農(nóng)機(jī);而勞動(dòng)對(duì)象從礦石、農(nóng)作物等轉(zhuǎn)變?yōu)榇髷?shù)據(jù),數(shù)據(jù)作為重要的生產(chǎn)要素,蘊(yùn)含了巨大的價(jià)值。
面對(duì)指數(shù)級(jí)增長(zhǎng)的計(jì)算需求,計(jì)算技術(shù)、產(chǎn)品與產(chǎn)業(yè)也面臨著新的挑戰(zhàn)。具體來(lái)說(shuō),體現(xiàn)在以下三個(gè)方面,一個(gè)是多元化的挑戰(zhàn),也就是計(jì)算場(chǎng)景的復(fù)雜、計(jì)算架構(gòu)的多元;一個(gè)是巨量化的挑戰(zhàn),也就是由巨量模型、巨量數(shù)據(jù)、巨量算力及巨量應(yīng)用引發(fā)的對(duì)現(xiàn)有計(jì)算機(jī)體系結(jié)構(gòu)的挑戰(zhàn);最后一個(gè)則是生態(tài)化的挑戰(zhàn),簡(jiǎn)單來(lái)說(shuō)現(xiàn)在的智算處于群雄并起階段,自成體系、生態(tài)離散,同時(shí)產(chǎn)業(yè)鏈上下游脫節(jié)。
第一個(gè)挑戰(zhàn)是多元化。計(jì)算最關(guān)鍵的任務(wù)就是支撐業(yè)務(wù),那么不同的業(yè)務(wù)類(lèi)型,勢(shì)必要求有不同的計(jì)算系統(tǒng)來(lái)完成。例如針對(duì)傳統(tǒng)的地震波模擬等科學(xué)計(jì)算,數(shù)值精度要求高;而AI訓(xùn)練,則可以使用數(shù)值范圍大、精度低的16位浮點(diǎn)類(lèi)型;對(duì)于AI推理,由于推理要求的速度快、耗能少,則可以在更低的數(shù)值精度下處理,如4位、甚至2位、1位整數(shù)類(lèi)型。
也就是說(shuō),AI的應(yīng)用引入了新的計(jì)算類(lèi)型,從推理到訓(xùn)練,跨度更大,同時(shí),數(shù)據(jù)量也從GB級(jí)到TB級(jí)、PB級(jí)不斷提升,類(lèi)型從結(jié)構(gòu)化到半結(jié)構(gòu)化、非結(jié)構(gòu)化更加復(fù)雜多樣。
不同數(shù)值精度的計(jì)算類(lèi)型對(duì)于計(jì)算芯片指令集、架構(gòu)的要求是不一樣的,這樣就導(dǎo)致之前我們一直使用的通用CPU已經(jīng)無(wú)法滿(mǎn)足這種多元化計(jì)算場(chǎng)景要求了,這也是計(jì)算芯片的種類(lèi)越來(lái)越多的很重要的原因。
芯片種類(lèi)多另外一個(gè)原因就是芯片代工模式的普及,現(xiàn)在芯片設(shè)計(jì)、制造的關(guān)鍵環(huán)節(jié)都有開(kāi)源開(kāi)放的軟件、工具或代工企業(yè)可以利用。但是芯片從造出來(lái)到大規(guī)模用起來(lái),往往還隔著一個(gè)巨大的生態(tài)鴻溝。芯片應(yīng)用一般都面臨著開(kāi)發(fā)者學(xué)習(xí)成本高、用戶(hù)應(yīng)用遷移困難、芯片制造公司難以上規(guī)模的困難和挑戰(zhàn)。
在有些芯片造出來(lái)后,面向開(kāi)發(fā)者的幫助文檔、調(diào)試工具或者交流問(wèn)答社區(qū)建設(shè)不足,導(dǎo)致開(kāi)發(fā)者學(xué)習(xí)時(shí)間長(zhǎng),難度大,如果學(xué)習(xí)多個(gè)芯片,難度更大,開(kāi)發(fā)者的學(xué)習(xí)積極性下降。而對(duì)于芯片的最終使用者來(lái)說(shuō),由于芯片指令集或芯片架構(gòu)的差異,導(dǎo)致編程庫(kù)、編程模型、算法框架無(wú)法有效的橫向拉通,致使大量的應(yīng)用遷移困難,可能只是1%的小小的依賴(lài),就會(huì)導(dǎo)致適配工作前功盡棄。
而芯片供應(yīng)商如果想解決開(kāi)發(fā)者的問(wèn)題、想解決使用者的問(wèn)題,則往往需要投入比芯片研發(fā)成本高數(shù)十倍的推廣費(fèi)用。例如,我們往往認(rèn)為Intel是一個(gè)硬件公司,其實(shí)在Intel內(nèi)部有超過(guò)1萬(wàn)人在圍繞芯片的配套支撐、應(yīng)用適配、優(yōu)化調(diào)優(yōu)做工作。英偉達(dá)公司的CUDA軟件環(huán)境更是通過(guò)長(zhǎng)期的大規(guī)模投入,才打造了其GPU在HPC和AI方面的領(lǐng)先地位。
第二個(gè)挑戰(zhàn)是巨量化。巨量化首先表現(xiàn)在模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。
以自然語(yǔ)言處理為例,基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型興起后,模型精度隨著模型尺寸和訓(xùn)練數(shù)據(jù)的增加而顯著提升。2020年GPT-3模型的參數(shù)量首次突破千億大關(guān),達(dá)到了1750億。按照當(dāng)前的發(fā)展趨勢(shì),到2023年模型的參數(shù)量會(huì)突破百萬(wàn)億,也就是基本達(dá)到人腦神經(jīng)突觸數(shù)量,人腦的神經(jīng)突觸數(shù)量約125萬(wàn)億。
巨量模型需要巨量?jī)?nèi)存。當(dāng)前一顆GPU的板載高速內(nèi)存容量大概是40GB,對(duì)于包含百萬(wàn)億參數(shù)的巨量模型,僅是將這些參數(shù)平均分配到每個(gè)GPU內(nèi)存中,就需要1萬(wàn)塊GPU才能裝得下??紤]到訓(xùn)練中需要額外的存儲(chǔ),實(shí)際上至少需要2萬(wàn)塊GPU才能啟動(dòng)訓(xùn)練?,F(xiàn)有AI芯片的架構(gòu)已經(jīng)不足以支撐巨量模型的參數(shù)存儲(chǔ)需求。
同時(shí),巨量模型依賴(lài)海量數(shù)據(jù)的喂養(yǎng),目前的AI算法本質(zhì)上還是一種依賴(lài)量變的質(zhì)變,很難從一種質(zhì)變跳躍到另一種質(zhì)變,例如最新的巨量模型需要萬(wàn)億級(jí)的詞量數(shù)據(jù)。海量數(shù)據(jù)需要海量存儲(chǔ)。在超大規(guī)模集群中同時(shí)滿(mǎn)足幾萬(wàn)塊AI芯片的高性能讀取,對(duì)存儲(chǔ)系統(tǒng)是個(gè)極大的挑戰(zhàn)。
巨量化的第二個(gè)表現(xiàn)是計(jì)算力需求指數(shù)增長(zhǎng)
深度學(xué)習(xí)自2011年興起至今,對(duì)算力的需求始終呈指數(shù)增長(zhǎng)。每隔3.4個(gè)月,算力需求翻一倍。左圖中縱軸Petaflops*day代表以1P每秒的算力計(jì)算一天所用浮點(diǎn)計(jì)算量,共計(jì)8.6千億億次浮點(diǎn)運(yùn)算,就像用千瓦時(shí)度量用電量,天文學(xué)以光年為單位度量距離,在此我們將Petaflops-day簡(jiǎn)稱(chēng)為PD,來(lái)度量算力。訓(xùn)練巨量模型需要巨大算力:2020年GPT-3的算力達(dá)到了3640PD,到2023年巨量模型的算力需求將達(dá)到百萬(wàn)PD。
現(xiàn)在世界上最快的超算是日本的富岳,在這上面完成百萬(wàn)PD的計(jì)算所需要的時(shí)間需要兩年。不同領(lǐng)域需要不同類(lèi)型的巨量模型:GPT-3以處理英文理解任務(wù)為主,為了滿(mǎn)足不同語(yǔ)言,不同場(chǎng)景的精度要求,也要訓(xùn)練不同的巨量模型,這進(jìn)一步加劇了對(duì)算力的需求。如此龐大的算力需求給計(jì)算技術(shù)和產(chǎn)品帶來(lái)了巨大挑戰(zhàn)。解決這樣的挑戰(zhàn)需要從體系結(jié)構(gòu)、系統(tǒng)軟件等各個(gè)領(lǐng)域開(kāi)展創(chuàng)新。
巨量化的第三個(gè)表現(xiàn)是模型應(yīng)用規(guī)模大。AI應(yīng)用已逐漸滲透到各個(gè)行業(yè)。以互聯(lián)網(wǎng)頭部企業(yè)為例,他們基于自身已有的AI技術(shù)搭建了AI開(kāi)放平臺(tái),其上承載著各類(lèi)AI基礎(chǔ)能力如語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等技術(shù),以及基于這些基礎(chǔ)能力打造的AI應(yīng)用服務(wù)。這些AI開(kāi)放平臺(tái)已經(jīng)吸引了超百萬(wàn)的AI開(kāi)發(fā)者,開(kāi)發(fā)了各類(lèi)AI應(yīng)用及服務(wù),繁榮了AI應(yīng)用生態(tài),并進(jìn)一步加速了AI向各個(gè)產(chǎn)業(yè)的落地。
目前,這些AI開(kāi)放平臺(tái)每天承載著數(shù)萬(wàn)億次的調(diào)用量,數(shù)百萬(wàn)小時(shí)的語(yǔ)音識(shí)別,超過(guò)百億張圖像識(shí)別,超過(guò)萬(wàn)億句自然語(yǔ)言理解,如此巨量的調(diào)用對(duì)算力中心的應(yīng)用支撐能力產(chǎn)生了極大的挑戰(zhàn)。
第三,生態(tài)化。AI技術(shù)鏈條和產(chǎn)業(yè)鏈條現(xiàn)在還是脫節(jié)的。我想很多人會(huì)有這樣的疑問(wèn),人工智能那么好,但是這東西怎么跟我的業(yè)務(wù),跟我的客戶(hù)應(yīng)用場(chǎng)景結(jié)合起來(lái)呢,我想用AI技術(shù)做智能化轉(zhuǎn)型和升級(jí),但是發(fā)現(xiàn)我這里沒(méi)人懂算法,懂模型,也缺少好用的AI開(kāi)發(fā)平臺(tái)。同時(shí),那么多算法,模型,如何找到不同算法在應(yīng)用中的最優(yōu)組合?
懂這些的人,往往都集中在科研機(jī)構(gòu)或者頭部公司。這些地方集中了最優(yōu)秀的AI人才,但缺少對(duì)傳統(tǒng)行業(yè)的需求場(chǎng)景、業(yè)務(wù)規(guī)律的深入理解,也拿不到最關(guān)鍵的業(yè)務(wù)數(shù)據(jù)去對(duì)模型進(jìn)行訓(xùn)練,導(dǎo)致技術(shù)無(wú)用武之地。埃森哲等咨詢(xún)機(jī)構(gòu)的調(diào)查報(bào)告也表明,70%以上的有技術(shù)的研究機(jī)構(gòu)、科技公司缺需求場(chǎng)景、缺領(lǐng)域知識(shí)和數(shù)據(jù),70%以上的行業(yè)用戶(hù)缺技術(shù)人才、缺AI平臺(tái)和實(shí)踐能力。
智算技術(shù)與產(chǎn)業(yè)的生態(tài)離散化,這與我們講的多元化的挑戰(zhàn)是相呼應(yīng)的,芯片架構(gòu)五花八門(mén),指令集不同,無(wú)法兼容,而面向芯片的編程庫(kù)又跟芯片綁定,靈活性差。小公司只做了其中一個(gè)環(huán)節(jié),這造成生態(tài)的縱向不通;大公司希望構(gòu)建封閉的系統(tǒng),這造成了生態(tài)的橫向不通。所有這些都嚴(yán)重制約了AI技術(shù)的應(yīng)用和發(fā)展。
通過(guò)上面的分析,大家可以看到,一方面智算需求蓬勃發(fā)展,是巨大的機(jī)遇;一方面,多元化、巨量化、生態(tài)化的挑戰(zhàn)和困難急需解決。面向新機(jī)遇、迎接新挑戰(zhàn),計(jì)算技術(shù)與產(chǎn)業(yè)將需要構(gòu)建一個(gè)新的發(fā)展格局,簡(jiǎn)單概括起來(lái)可以描述為:計(jì)算逐步向智算轉(zhuǎn)型、多元算力融合和算力供給方式基建化。
面對(duì)計(jì)算新格局,作為全球領(lǐng)先的人工智能計(jì)算企業(yè),浪潮啟動(dòng)了新的五年規(guī)劃,確定了新的發(fā)展目標(biāo)和策略。
我們將從技術(shù)、產(chǎn)品、方案和生態(tài)四個(gè)方面不斷創(chuàng)新,引領(lǐng)智算發(fā)展,具體包括:創(chuàng)新智算體系結(jié)構(gòu)、構(gòu)建智算產(chǎn)品體系、推動(dòng)智算中心落地、建設(shè)元腦產(chǎn)業(yè)鏈生態(tài)。
首先來(lái)講,是創(chuàng)新智算體系結(jié)構(gòu)。在體系結(jié)構(gòu)方面,我們?cè)?014年提出了融合架構(gòu)以及三步走技術(shù)路線,指明了數(shù)據(jù)中心體系結(jié)構(gòu)的發(fā)展方向。目前已經(jīng)從1.0走到2.0,以IO方式實(shí)現(xiàn)了存儲(chǔ)資源和FPGA、GPU、xPU加速設(shè)備池化,正逐步進(jìn)入3.0階段,提供更高效、靈活、智能的體系架構(gòu)。基于融合架構(gòu),浪潮將從硬件重構(gòu)、軟件定義方面引領(lǐng)智算技術(shù)體系,支撐AI創(chuàng)新應(yīng)用。
在融合架構(gòu)2.0階段已經(jīng)實(shí)現(xiàn)了CPU同各種加速單元的協(xié)同,提升智能計(jì)算的性能,但普遍采用PCIe互聯(lián)的方式,存在地址空間隔離、不支持緩存一致等問(wèn)題,仍然克服不了馮諾依曼架構(gòu)固有的功耗墻、內(nèi)存墻,性能、可擴(kuò)展性受限。
在3.0階段,可以通過(guò)片內(nèi)大容量緩存、片外高帶寬內(nèi)存等存算一體方式實(shí)現(xiàn)計(jì)算數(shù)據(jù)結(jié)合,突破存儲(chǔ)墻;通過(guò)高速互連交換網(wǎng)絡(luò),支持更廣泛的多元異構(gòu)計(jì)算、支持新型存儲(chǔ)資源池化,提高性能、降低能耗,實(shí)現(xiàn)更大規(guī)模資源可擴(kuò)展,并進(jìn)一步通過(guò)在互聯(lián)處理單元中卸載控制平面,實(shí)現(xiàn)控制計(jì)算分離,進(jìn)而達(dá)到更為靈活的資源可重構(gòu)。
在系統(tǒng)軟件創(chuàng)新方面,在可重構(gòu)的硬件資源池基礎(chǔ)上,通過(guò)軟件定義的方式實(shí)現(xiàn)控制層與基礎(chǔ)設(shè)施分離、統(tǒng)一資源組織模型、標(biāo)準(zhǔn)化可編程接口,形成軟件定義計(jì)算、軟件定義存儲(chǔ)、軟件定義網(wǎng)絡(luò);并通過(guò)微服務(wù)化實(shí)現(xiàn)集中管理平臺(tái)的高可用和可擴(kuò)展。
在這個(gè)基礎(chǔ)上,進(jìn)一步與AI技術(shù)結(jié)合,從業(yè)務(wù)上,實(shí)現(xiàn)基于特征感知的自適應(yīng)應(yīng)用編排和彈性資源調(diào)度,例如,面向視頻分析、語(yǔ)音識(shí)別、自然語(yǔ)言處理、語(yǔ)義理解等AI典型場(chǎng)景,可以按需定義訓(xùn)練和推理系統(tǒng)。從管理上,實(shí)現(xiàn)智能化的運(yùn)營(yíng)運(yùn)維,也就是智算中心的無(wú)人巡檢、異常行為分析、容量預(yù)測(cè)、故障自愈等等。下面舉個(gè)例子。
這是一個(gè)我們已經(jīng)研發(fā)完成,并且在大客戶(hù)當(dāng)中有了成功實(shí)踐的案例,通過(guò)創(chuàng)新體系結(jié)構(gòu),實(shí)現(xiàn)了智算中心的彈性高效擴(kuò)展。在這個(gè)案例中,通過(guò)浪潮的智能網(wǎng)卡,在控制面實(shí)現(xiàn)對(duì)虛機(jī)、裸機(jī)、容器生命周期的統(tǒng)一管理,在數(shù)據(jù)面以硬件輔助的方式為虛擬化實(shí)例提供接近硬件性能的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)功能。通過(guò)IO虛擬化卸載,CPU的有效資源利用率可以提升80%、網(wǎng)絡(luò)存儲(chǔ)延遲達(dá)到本地延遲水平,高負(fù)載壓力下電商秒殺性能提升30%、計(jì)算性?xún)r(jià)比提升 20%。
這是我們正在研究的一個(gè)項(xiàng)目,目標(biāo)是加速巨量模型的高性能計(jì)算能力。當(dāng)前NPU與CPU之間通過(guò)PCIe互聯(lián)的方式,嚴(yán)重制約了NPU訪問(wèn)系統(tǒng)內(nèi)存的帶寬。NPU不得不增大片上內(nèi)存以應(yīng)對(duì)模型越來(lái)越大的挑戰(zhàn),但是巨量模型的出現(xiàn)使得單純?cè)龃笃蟽?nèi)存這條路難以為繼。
所以我們提出了一個(gè)新的體系結(jié)構(gòu)參考設(shè)計(jì),其核心在于通過(guò)高速互聯(lián)連接NPU與CPU,為NPU提供高速訪問(wèn)系統(tǒng)內(nèi)存的能力,通過(guò)數(shù)據(jù)自動(dòng)壓縮和解壓縮單元,進(jìn)一步加速NPU訪問(wèn)內(nèi)存的效率。通過(guò)板載的大容量高速內(nèi)存池,達(dá)到完全容納GPT-3模型,避免模型分割導(dǎo)致的芯片利用率低,通信頻繁等問(wèn)題。
產(chǎn)品方面,浪潮在融合架構(gòu)技術(shù)路線的指引下,將持續(xù)鞏固算力系統(tǒng)、云數(shù)智軟件平臺(tái)層面的優(yōu)勢(shì),提供硬件重構(gòu)的智算整機(jī)系統(tǒng),包括智算基礎(chǔ)系統(tǒng)、智算加速系統(tǒng)、也會(huì)面向海量數(shù)據(jù)和高速互聯(lián)提供智算存儲(chǔ)和數(shù)據(jù)中心交換機(jī)產(chǎn)品。此外,將技術(shù)棧持續(xù)往底層延伸,面向不同的場(chǎng)景,開(kāi)發(fā)定制化的AI加速、網(wǎng)絡(luò)和存儲(chǔ)加速產(chǎn)品等。最終形成覆蓋芯片/板卡、系統(tǒng)、平臺(tái)和算法的領(lǐng)先產(chǎn)品體系。
在加速芯片/板卡方面,芯片多元化既是挑戰(zhàn),也是應(yīng)對(duì)當(dāng)前算力需求復(fù)雜多樣的手段。如FPGA,在特定場(chǎng)景下,相對(duì)CPU都有10-15倍的性能提升,而GPU等各種AI芯片,面向訓(xùn)練、推理和高性能計(jì)算等矩陣運(yùn)算,則有無(wú)可比擬的優(yōu)勢(shì)。傳統(tǒng)業(yè)務(wù)應(yīng)用,如網(wǎng)站、數(shù)據(jù)庫(kù)等,還需要各種通用CPU來(lái)處理。浪潮除了能夠以創(chuàng)新設(shè)計(jì)對(duì)這些算力單元進(jìn)行高效融合外,也在一些專(zhuān)用領(lǐng)域開(kāi)發(fā)了自己的加速器,如智能網(wǎng)卡、視頻加速器等,這些接下來(lái)將由彭震在下午為大家介紹這些創(chuàng)新的產(chǎn)品。
面向計(jì)算新格局,浪潮將持續(xù)創(chuàng)新,打造全球領(lǐng)先的智算硬件平臺(tái)。
在智算基礎(chǔ)系統(tǒng)方面,浪潮具備業(yè)界最豐富的產(chǎn)品布局,擁有全球計(jì)算架構(gòu)最全、配置最多、規(guī)格最高的服務(wù)器,僅僅去年,浪潮服務(wù)器刷新12項(xiàng)SPEC CPU測(cè)試世界紀(jì)錄,打破5項(xiàng)Java性能世界記錄;未來(lái)的智算基礎(chǔ)系統(tǒng)將向開(kāi)放化、融合化、多元化方向發(fā)展,深度參與開(kāi)放計(jì)算生態(tài),繼續(xù)推動(dòng)開(kāi)放計(jì)算發(fā)展;面向智能化、容器化需求建立多元化計(jì)算平臺(tái)。
在智算加速系統(tǒng)方面,浪潮為智算中心建設(shè)提供了最領(lǐng)先的算力機(jī)組,浪潮NF5488A5是目前全球最高性能的AI服務(wù)器,在MLPerf全球AI基準(zhǔn)測(cè)試中,單機(jī)訓(xùn)練性能測(cè)試以絕對(duì)優(yōu)勢(shì)奪得全球第一,推理性能測(cè)試則打破了18項(xiàng)記錄,成為打破記錄最多的AI服務(wù)器。下一步我們將持續(xù)創(chuàng)新以加速器為中心的體系架構(gòu),開(kāi)發(fā)高性能、高效能AI系列服務(wù)器。同時(shí)研發(fā)高效率制冷技術(shù),實(shí)現(xiàn)高性能和低PUE,打造綠色節(jié)能的系統(tǒng)。
面向海量訓(xùn)練大數(shù)據(jù),浪潮具有全球性能最好的存儲(chǔ)系統(tǒng),已3次打破SPC-1全球性能測(cè)試記錄。未來(lái)將面向基礎(chǔ)設(shè)施云化、大數(shù)據(jù)、AI等應(yīng)用場(chǎng)景打造超高密度和超大規(guī)模的智算存儲(chǔ)系統(tǒng),并針對(duì)不同的應(yīng)用需求,構(gòu)建容災(zāi)、備份、歸檔等數(shù)據(jù)全生命周期解決方案。
在網(wǎng)絡(luò)互聯(lián)上,浪潮發(fā)布了國(guó)內(nèi)首個(gè)商用SONiC網(wǎng)絡(luò)操作系統(tǒng),搭載浪潮自主研發(fā)的核心交換機(jī)和TOR交換機(jī),實(shí)現(xiàn)了數(shù)據(jù)中心的智能高速互連。未來(lái),浪潮網(wǎng)絡(luò)將全面實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)平面、控制平面可編程,為數(shù)據(jù)中心帶來(lái)更加智能化、基于意圖的全自驅(qū)網(wǎng)絡(luò)解決方案。
在系統(tǒng)軟件層面,基于我們?cè)诓僮飨到y(tǒng)、云平臺(tái)、大數(shù)據(jù)和AI平臺(tái)長(zhǎng)期的研發(fā)積累,我們?cè)跇I(yè)屆率先提出了智算操作系統(tǒng)。
通過(guò)軟件定義方式,在南向,智算操作系統(tǒng)實(shí)現(xiàn)多元異構(gòu)計(jì)算、新型存儲(chǔ)和網(wǎng)絡(luò)資源的統(tǒng)一管理;在管理平臺(tái)層,實(shí)現(xiàn)應(yīng)用感知智能調(diào)度和面向智算中心的統(tǒng)一運(yùn)營(yíng)和智能運(yùn)維。
在北向,支撐各種各樣的智能化創(chuàng)新應(yīng)用,保障從海量數(shù)據(jù)處理、大規(guī)模分布式訓(xùn)練、自動(dòng)模型生成到實(shí)時(shí)推理應(yīng)用的快速部署上線和穩(wěn)定高效運(yùn)行。
智算操作系統(tǒng)將是智算中心的神經(jīng)系統(tǒng),讓算力生產(chǎn)、聚合、調(diào)度、釋放渾然一體。
我們?cè)谌ツ甑暮献骰锇榇髸?huì)上提出了智算中心的概念。智算中心是智慧時(shí)代最主要的計(jì)算力生產(chǎn)中心和供應(yīng)中心,它以融合架構(gòu)計(jì)算系統(tǒng)為平臺(tái),以數(shù)據(jù)為資源,能夠以強(qiáng)大算力驅(qū)動(dòng)AI模型來(lái)對(duì)數(shù)據(jù)進(jìn)行深度加工,產(chǎn)生各種智慧計(jì)算服務(wù),并通過(guò)網(wǎng)絡(luò)以云服務(wù)形式向組織及個(gè)人進(jìn)行供應(yīng)。智算中心正在成為推動(dòng)經(jīng)濟(jì)社會(huì)運(yùn)行的重要基礎(chǔ)設(shè)施,也是我國(guó)新基建的重要內(nèi)容。
那么,智算中心應(yīng)該如何建設(shè)呢?在去年,浪潮聯(lián)合國(guó)家信息中心發(fā)布了《智能計(jì)算中心規(guī)劃建設(shè)指南》,并在《指南》中提出了智算中心的參考架構(gòu)。
下面講一個(gè)例子。
江蘇一直是科技創(chuàng)新的大省,是數(shù)字經(jīng)濟(jì)發(fā)展的排頭兵。在今年初,按照《智能計(jì)算中心規(guī)劃建設(shè)指南》,南京市投資建設(shè)了智算中心,由寒武紀(jì)和浪潮聯(lián)合承建,已經(jīng)投入運(yùn)營(yíng)使用。該智算中心對(duì)外可提供的算力可達(dá)到每秒百億億次,采用了最先進(jìn)的AI處理芯片和AI計(jì)算平臺(tái),都代表著當(dāng)前我國(guó)智算中心建設(shè)的最高水平。該中心將為區(qū)域的公共算力服務(wù),創(chuàng)新應(yīng)用孵化,產(chǎn)業(yè)集聚發(fā)展,科研創(chuàng)新和人才培養(yǎng)提供助力和支撐。
AI產(chǎn)業(yè)化是一個(gè)千億級(jí)市場(chǎng)、產(chǎn)業(yè)AI化是一個(gè)萬(wàn)億級(jí)的市場(chǎng),無(wú)論AI產(chǎn)業(yè)化還是產(chǎn)業(yè)AI化,產(chǎn)業(yè)鏈的拉通和生態(tài)的建設(shè)都是必須的。在AI產(chǎn)業(yè)化過(guò)程中,浪潮是新興AI企業(yè)的主要合作伙伴和算力提供商,這些創(chuàng)業(yè)企業(yè)擁有領(lǐng)先的芯片、或積累了大量?jī)?yōu)質(zhì)的算法框架、模型和數(shù)據(jù),這些優(yōu)質(zhì)的AI技術(shù)正是產(chǎn)業(yè)AI化過(guò)程中行業(yè)用戶(hù)所需要的,也是為這些用戶(hù)服務(wù)的傳統(tǒng)軟件開(kāi)發(fā)商所欠缺的。
為了幫助行業(yè)用戶(hù)更好的進(jìn)行智慧轉(zhuǎn)型,連接傳統(tǒng)ISV和新興AI企業(yè),浪潮提出了元腦生態(tài)計(jì)劃。今后,我們會(huì)將元腦生態(tài)升級(jí),與合作伙伴共建、共贏、共享元腦生態(tài)平臺(tái),幫助左手伙伴成長(zhǎng),助力右手伙伴轉(zhuǎn)型升級(jí),聚合左右手伙伴的力量,加速行業(yè)、產(chǎn)業(yè)智能化的進(jìn)程,實(shí)現(xiàn)浪潮與伙伴、客戶(hù)的共同發(fā)展。
生態(tài)系統(tǒng)首先應(yīng)該是開(kāi)放的,浪潮多年來(lái)一直踐行開(kāi)放計(jì)算的理念,引領(lǐng)開(kāi)放計(jì)算的標(biāo)準(zhǔn),是全球唯一的三大開(kāi)放計(jì)算組織的發(fā)起成員或白金會(huì)員,牽頭了服務(wù)器全部國(guó)標(biāo),是開(kāi)放基礎(chǔ)設(shè)施基金會(huì)的創(chuàng)始成員,社區(qū)貢獻(xiàn)中國(guó)第一,同時(shí)還是國(guó)際SPEC組織機(jī)器學(xué)習(xí)委員會(huì)的主席。
同時(shí),我們與伙伴開(kāi)放合作,不斷進(jìn)行技術(shù)創(chuàng)新,我們聯(lián)合Intel公司開(kāi)展第八代服務(wù)器CPU平臺(tái)參考設(shè)計(jì),聯(lián)合三星貢獻(xiàn)業(yè)界首個(gè)NVMe池化方案,與英偉達(dá)聯(lián)合開(kāi)發(fā)首個(gè)支持NVlink低延遲單層鏈路通訊架構(gòu);在算法和應(yīng)用創(chuàng)新方面,聯(lián)合第四范式公司,突破金融票據(jù)識(shí)別技術(shù);聯(lián)合馬達(dá)智數(shù),打造數(shù)據(jù)預(yù)處理、數(shù)據(jù)三維一體展示軟件;聯(lián)合聲揚(yáng)科技,研發(fā)面向金融行業(yè)的聲紋識(shí)別算法。
過(guò)去一年,元腦生態(tài)建設(shè)成績(jī)斐然,發(fā)展了15000多個(gè)合作伙伴,包括2200多個(gè)行業(yè)ISV,超過(guò)90%的方案百?gòu)?qiáng)企業(yè)。在AI百?gòu)?qiáng)企業(yè)中85%都與浪潮有著深度的合作,這里面不僅包含BAT等互聯(lián)網(wǎng)廠商,也包括第四范式、寬邦、暗物質(zhì)、寒武紀(jì)等AI獨(dú)角獸企業(yè)。
下面講個(gè)例子。在智慧交通領(lǐng)域,浪潮積極推動(dòng)智慧交通方案的落地,為交通行業(yè)的頭部供應(yīng)商提供了超80%的人工智能服務(wù)器,部署了六十余類(lèi)交通算法與應(yīng)用,涵蓋了闖紅燈、超速、違停、占用公交車(chē)道、不走機(jī)動(dòng)車(chē)道等十幾種典型場(chǎng)景。
浪潮與臻識(shí)科技和優(yōu)碼創(chuàng)達(dá)一起,推動(dòng)了江西省智慧交通建設(shè),為客戶(hù)提供的非現(xiàn)場(chǎng)視頻審核一體機(jī)在南昌,上饒,新余等16地市落地,幫助客戶(hù)提升審片效率40多倍。
各位合作伙伴,計(jì)算向智算轉(zhuǎn)型、多元算力融合、智算中心基建化為我們帶來(lái)了巨大的發(fā)展機(jī)遇。過(guò)去的五年,在各位合作伙伴的支持和幫助下,浪潮已經(jīng)成為全球智慧計(jì)算的領(lǐng)導(dǎo)者,服務(wù)器全球前三,AI服務(wù)器全球第一、小型機(jī)中國(guó)第一、存儲(chǔ)出貨量增速全球第一。
新的五年計(jì)劃已經(jīng)開(kāi)啟,在這個(gè)新的征程中,浪潮將通過(guò)在技術(shù)、產(chǎn)品、方案方面的持續(xù)創(chuàng)新,推動(dòng)智算新格局的建設(shè)和發(fā)展,并圍繞元腦生態(tài)與各位伙伴精誠(chéng)合作,攜手共進(jìn),于變局中開(kāi)新局,加速成為世界第一。