(騰訊AI Lab:AI技術(shù)在游戲產(chǎn)業(yè)全鏈路中的研究與應(yīng)用能力)

絕悟AI玩家教學(xué),提升人機(jī)協(xié)作能力

“絕悟”是騰訊Al Lab研發(fā)的決策智能Al,已在MOBA、FPS、RTS、3D開(kāi)放世界等多類復(fù)雜策略游戲中取得了國(guó)際頂尖的研究成果?;诓粩嗵嵘膹?fù)雜長(zhǎng)期決策和團(tuán)隊(duì)協(xié)作能力,絕悟也已應(yīng)用于多款游戲,賦能游戲制作與運(yùn)營(yíng)環(huán)節(jié)。

和王者榮耀共同研發(fā)的王者絕悟已表現(xiàn)出媲美人類頂尖職業(yè)選手的決策能力。如王者絕悟能把一身本領(lǐng)傳授玩家,將能幫助玩家快速提升競(jìng)技水平。這需要AI具備形式豐富的信息交流與協(xié)作能力。但此前競(jìng)技型的王者絕悟是基于智能體間的建模訓(xùn)練而成,這種建模方式導(dǎo)致AI難以理解人類玩家意圖,因此無(wú)法實(shí)現(xiàn)對(duì)玩家的交流指導(dǎo)。

人機(jī)協(xié)作技術(shù)解決了這一問(wèn)題,成功讓王者絕悟?qū)崿F(xiàn)AI教學(xué)。在游戲內(nèi)“絕悟試煉”玩法中,王者絕悟身兼隊(duì)友及老師,與玩家在真實(shí)對(duì)戰(zhàn)環(huán)境中交流協(xié)作,并在過(guò)程中向玩家傳授職業(yè)級(jí)的策略與操作技術(shù),幫助玩家迅速熟悉英雄操作與游戲玩法。數(shù)據(jù)顯示,在引入王者絕悟AI教學(xué)后,玩家單局游戲主動(dòng)溝通的次數(shù)提高了56%,提高了PVE玩法的可玩性。

具體到技術(shù)方案,人機(jī)協(xié)作要應(yīng)對(duì)AI與玩家之間理解、溝通、協(xié)作三個(gè)層面的挑戰(zhàn):

?王者絕悟通過(guò)自對(duì)弈探索策略,與玩家“師出不同門”,兩者在策略和行為上存在差異,如何讓AI理解玩家意圖?

?玩家與玩家之間通過(guò)語(yǔ)音文字等交流,但AI描述信息的方式與人類截然不同,如何讓雙方有效溝通?

?當(dāng)玩家和AI的策略不同時(shí),如何合理地進(jìn)行協(xié)作?

為了解決這些問(wèn)題,我們使用了之前提出的MGG算法(Learning Diverse Policies in MOBA Games via Macro-Goals,Neurips 2021收錄)來(lái)搭建仿真的人機(jī)協(xié)作環(huán)境。MGG使用分層建模的思想,將任務(wù)分解為宏觀策略建模和微觀操作建模。其中,宏觀策略模型負(fù)責(zé)戰(zhàn)略層面的長(zhǎng)期規(guī)劃,微觀操作模型則在宏觀策略下的指導(dǎo)下進(jìn)行實(shí)時(shí)決策。然后,我們通過(guò)構(gòu)建基于專家知識(shí)的宏觀策略模型,來(lái)引導(dǎo)AI學(xué)習(xí)玩家的策略,并讓AI在自對(duì)弈訓(xùn)練中與不同策略的隊(duì)友進(jìn)行組隊(duì),從而能更好地理解玩家的意圖。

image.png

實(shí)現(xiàn)人機(jī)“同頻”之后,接下來(lái)是溝通和協(xié)作的問(wèn)題。首先我們用基于專家策略的AI模型模擬玩家,再使用各種不同策略的AI模型分別模擬對(duì)手和隊(duì)友,從而搭建起一個(gè)高度仿真的人機(jī)協(xié)作的環(huán)境。然后,我們?cè)诤暧^策略層面建模了信息交流,通過(guò)構(gòu)建通用的通信協(xié)議“元指令”來(lái)描述戰(zhàn)略意圖,實(shí)現(xiàn)AI與玩家的交流。

image.png

同時(shí),我們還訓(xùn)練了一個(gè)指令選擇器,利用長(zhǎng)期獎(jiǎng)勵(lì)和自對(duì)弈來(lái)評(píng)估“元指令”的價(jià)值,從而完成合理的協(xié)作。王者絕悟在人機(jī)教學(xué)中主要有兩種協(xié)作模式,一種是被動(dòng)式協(xié)作,即玩家發(fā)送指令給AI隊(duì)友,AI隊(duì)友使用指令選擇器評(píng)估價(jià)值,執(zhí)行其中有價(jià)值的指令并向玩家反饋。另一種是主動(dòng)式協(xié)作,AI隊(duì)友用職業(yè)級(jí)的宏觀策略作為元指令發(fā)送給玩家,指導(dǎo)玩家去哪里、做什么。

image.png

來(lái)看看人機(jī)協(xié)作的實(shí)戰(zhàn)效果。在玩家發(fā)出各種指令后,AI會(huì)根據(jù)血量、距離等實(shí)際情況,評(píng)估指令的合理性,選擇執(zhí)行或拒絕。同時(shí),AI還能執(zhí)行一系列的多指令任務(wù)(如集合 -搶奪資源 -撤退),完成更復(fù)雜的協(xié)作。

image.png

隨著人工智能技術(shù)的發(fā)展,人機(jī)協(xié)作將成為未來(lái)重要模式,“理解-溝通-協(xié)作”是實(shí)現(xiàn)這一目標(biāo)的通用問(wèn)題。王者絕悟在王者榮耀人機(jī)教學(xué)場(chǎng)景下的應(yīng)用探索,不僅適用于大多數(shù)MOBA游戲,為玩家?guī)?lái)價(jià)值,也是對(duì)未來(lái)更多現(xiàn)實(shí)場(chǎng)景中人機(jī)協(xié)作方向的有利探索。

AI自動(dòng)生成游戲關(guān)卡,推進(jìn)虛實(shí)融合未來(lái)

游戲內(nèi)容通常包括角色、地圖、建筑、關(guān)卡、世界等,而游戲內(nèi)容的制作成本很高,一般來(lái)說(shuō),一款大型游戲需要數(shù)百人花費(fèi)幾年時(shí)間開(kāi)發(fā)。程序化內(nèi)容生成(Procedural Content Generation,PCG)近年來(lái)成為游戲行業(yè)的一大熱點(diǎn),即通過(guò)程序算法自動(dòng)生成游戲內(nèi)容,提高制作效率。

由于消耗速度遠(yuǎn)快于生產(chǎn),程序化生成游戲關(guān)卡的需求尤為突出。比如你可能花幾分鐘就完成一關(guān)《超級(jí)馬里奧兄弟》,游戲制作方卻需要幾天或幾周的時(shí)間來(lái)開(kāi)發(fā)。此前行業(yè)已有基于構(gòu)造、基于搜索和基于模型等方法,但這些方法生成的關(guān)卡通常缺少對(duì)實(shí)際游戲體驗(yàn)的建模,例如:難度、節(jié)奏等。

利用AI bot技術(shù)自動(dòng)生成游戲關(guān)卡的優(yōu)勢(shì)明顯,AI bot可以作為人類玩家的代理,代替人類進(jìn)行大規(guī)模地關(guān)卡評(píng)估和測(cè)試,降低人力成本;還能提供更多語(yǔ)義信息,減少對(duì)訓(xùn)練數(shù)據(jù)的依賴;以及根據(jù)語(yǔ)義信息提升生成關(guān)卡的游戲體驗(yàn)。

騰訊AI Lab正探索將AI自動(dòng)生成關(guān)卡技術(shù)應(yīng)用于2D、3D等類型的游戲之中。在本次大會(huì)上,我們以一款自研的2D小游戲作為案例,只需要不到一百個(gè)訓(xùn)練關(guān)卡作為輸入,AI即可在幾個(gè)小時(shí)內(nèi)生成一千多個(gè)可玩的、高質(zhì)量、多樣化的關(guān)卡。

image.png

具體到技術(shù)方案,AI的第一個(gè)任務(wù)是生成可玩的關(guān)卡。我們可以借助AI bot跑圖并篩選出可玩的關(guān)卡,這里的核心是如何訓(xùn)練一個(gè)通關(guān)能力強(qiáng)、泛化能力好的AI bot,它可以評(píng)估大量沒(méi)有見(jiàn)過(guò)的關(guān)卡。在特征上,我們使用以AI bot為中心的相對(duì)位置特征,去除了絕對(duì)坐標(biāo)相關(guān)的特征,防止模型過(guò)擬合;在數(shù)據(jù)上,我們使用大量生成的關(guān)卡作為AI bot的訓(xùn)練關(guān)卡,提高泛化能力;在模型上,我們使用PPO算法和RND算法讓AI bot更穩(wěn)更快地探索通關(guān)。最后利用AI bot跑圖測(cè)試濾掉不可玩的關(guān)卡。

第二步,在可玩的基礎(chǔ)上,AI要提升關(guān)卡的質(zhì)量,高質(zhì)量的關(guān)卡是指符合游戲設(shè)計(jì)規(guī)范、美學(xué)、樂(lè)趣等,更重要的是需要和種子關(guān)卡的游戲體驗(yàn)是一致的。我們可以通過(guò)AI bot跑圖模擬對(duì)局結(jié)果,可以獲取體驗(yàn)相關(guān)的特征,例如:每幀的承傷、子彈位置等,然后基于種子關(guān)卡和少量人類標(biāo)注數(shù)據(jù)訓(xùn)練評(píng)估器模型。最后結(jié)合MCTS算法和評(píng)估器模型進(jìn)行搜索,相比隨機(jī)搜索,MCTS生成的關(guān)卡的評(píng)估得分提升約50%。

image.png

最后,重復(fù)相似的關(guān)卡會(huì)直接影響玩家的體驗(yàn),因此AI還要能識(shí)別并去除相似的關(guān)卡。我們采用的是無(wú)監(jiān)督訓(xùn)練模型自編碼器,該方法不需要依賴有標(biāo)注的數(shù)據(jù),在自編碼器的基礎(chǔ)上,我們加入了AI bot跑圖的語(yǔ)義信息作為監(jiān)督信號(hào),讓自編碼器的隱層去預(yù)測(cè)跑圖結(jié)果,這樣可以使得關(guān)卡編碼向量除了刻畫(huà)關(guān)卡的視覺(jué)信息之外,還可以刻畫(huà)游戲體驗(yàn)的語(yǔ)義信息。最后通過(guò)自編碼器學(xué)習(xí)到的關(guān)卡編碼向量進(jìn)行相似度計(jì)算,從而過(guò)濾掉相似的關(guān)卡。

image.png

此外,AI還可以用于動(dòng)態(tài)難度調(diào)整,讓玩家能從具有挑戰(zhàn)的關(guān)卡中獲得成就感,又不至于“卡關(guān)”。我們的方法是通過(guò)AI bot模擬不同buff的難度效果,建立buff與難度之間的映射,根據(jù)玩家實(shí)際的表現(xiàn),動(dòng)態(tài)投放合適的buff來(lái)提升玩家的心流體驗(yàn)。

借助關(guān)卡編輯器工具,AI還可與玩家協(xié)作生成關(guān)卡,AI可以根據(jù)玩家制作和修改的關(guān)卡來(lái)迭代模型訓(xùn)練和關(guān)卡生成的效果,玩家也可以獲得更高質(zhì)量和更多樣的關(guān)卡進(jìn)行二次創(chuàng)作。這也是用戶生成內(nèi)容(UGC)趨勢(shì)下,AI技術(shù)的潛在應(yīng)用之一。

相比之下,AI生成3D關(guān)卡內(nèi)容則要復(fù)雜得多,3D關(guān)卡涉及地形起伏、元素之間的關(guān)聯(lián)、不同分辨率的元素、路線與區(qū)域規(guī)劃等,更考驗(yàn)AI的生成能力。目前騰訊AI Lab已在約200個(gè)訓(xùn)練關(guān)卡的基礎(chǔ)上,結(jié)合人類的標(biāo)注編輯,生成了超過(guò)一萬(wàn)個(gè)3D關(guān)卡,并在持續(xù)探索AI在3D領(lǐng)域的多種內(nèi)容生成能力。

image.png

展望未來(lái),虛擬世界與真實(shí)世界將高度融合,人們生活工作的更多方面將實(shí)現(xiàn)線上、線下一體化。前沿AI正成為虛實(shí)融合未來(lái)的基礎(chǔ)設(shè)施,將助力構(gòu)建更加開(kāi)放、龐大、多樣且高品質(zhì)的虛擬世界,創(chuàng)造前所未有的體驗(yàn)與機(jī)遇。

分享到

songjy

相關(guān)推薦