螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉

如何引入新的技術(shù)監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險(xiǎn)管控?這對(duì)參與AI的各方來(lái)說(shuō),都是一個(gè)值得持續(xù)探討的議題。螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉進(jìn)行了深度解讀。

大模型安全問(wèn)題的本質(zhì)

彭晉認(rèn)為,大模型安全問(wèn)題的本質(zhì)可以從以下幾個(gè)層面來(lái)分析。

首先,從大語(yǔ)言模型、多模態(tài)模型和生成式AI角度,它其實(shí)是海量的數(shù)據(jù)加海量算力的知識(shí)壓縮,在遷移、學(xué)習(xí)等壓縮過(guò)程中面臨信息的損失(因token通過(guò)概率預(yù)測(cè)方式生成)?;谏墒降募軜?gòu),由于預(yù)測(cè)問(wèn)題,幻覺(jué)難以避免。

在數(shù)據(jù)層面,一方面,輸入的數(shù)據(jù)本身可能含有有害樣本,另一方面,數(shù)據(jù)存在導(dǎo)向性問(wèn)題、數(shù)據(jù)本身質(zhì)量參差不齊,進(jìn)一步惡化了生成式的輸出質(zhì)量。在訓(xùn)練過(guò)程中,還可能涉及到個(gè)人信息數(shù)據(jù)以及版權(quán)數(shù)據(jù)。無(wú)論從宏觀角度還是輸出角度,都會(huì)導(dǎo)致安全問(wèn)題。

第三,從算法角度,模型是深黑盒狀態(tài),可控性存在一定的問(wèn)題,生成結(jié)果也呈不可控性??山忉屝詥?wèn)題在深度學(xué)習(xí)時(shí)就已經(jīng)存在,在大模型之前就大量應(yīng)用人工智能的算法來(lái)做強(qiáng)風(fēng)控等工作,在小模型時(shí),監(jiān)管可能會(huì)提出類似為什么把某個(gè)人的信貸額度評(píng)定過(guò)高,為什么把某個(gè)業(yè)務(wù)界定為詐騙、列入黑名單等。這些內(nèi)容具有一定可解釋性。深度學(xué)習(xí)在可解釋性方面存在一定的困難,而大模型階段因?yàn)槭巧詈诤校山忉屝赃M(jìn)一步惡化。

第四,在應(yīng)用層面,生成式AI在普通對(duì)話領(lǐng)域的流暢度非常好,但是在醫(yī)療、金融等應(yīng)用場(chǎng)景,因?yàn)樾枰獙I(yè)的語(yǔ)料來(lái)加持,而且很多知識(shí)并沒(méi)有被數(shù)字化、被向量化,容易在專業(yè)領(lǐng)域出現(xiàn)被濫用的情況,進(jìn)一步產(chǎn)生幻覺(jué)的內(nèi)容。比如對(duì)男性癥狀進(jìn)行推理時(shí),會(huì)發(fā)現(xiàn)出現(xiàn)女性癥狀的表達(dá)。由于大模型從互聯(lián)網(wǎng)抓取的知識(shí)并非準(zhǔn)確,難于精確回答醫(yī)療診斷、金融的問(wèn)題以及實(shí)時(shí)性等,在應(yīng)用方面存在很大的安全問(wèn)題。

第五,攻擊方面出現(xiàn)了新的方式。以前經(jīng)常談及SQL注入等攻擊,在大模型中則是繞過(guò)模型安全手段的prompt注入、誘導(dǎo)、越獄等攻擊,引發(fā)大模型回答一些不該回答的問(wèn)題。

總而言之,大模型的風(fēng)險(xiǎn)包括生成幻覺(jué)、隱私敏感數(shù)據(jù)泄露、價(jià)值觀導(dǎo)向、專業(yè)度缺失、倫理等等問(wèn)題。

專家熱議:人工智能飛速進(jìn)步背景下的極端風(fēng)險(xiǎn)管理

大模型本身是個(gè)信息系統(tǒng),傳統(tǒng)信息系統(tǒng)的漏洞等各種安全問(wèn)題,也會(huì)發(fā)生在大模型身上。無(wú)論是從平臺(tái),還是從框架、插件等等角度,都可能存在系統(tǒng)漏洞,這些漏洞進(jìn)一步導(dǎo)致模型丟失、數(shù)據(jù)泄露、可用性等從底層模型生成邏輯的安全問(wèn)題。

2024年5月科學(xué)(《Science》)雜志發(fā)表了一篇叫Managing Extreme AI Risks Amid Rapid Progress(“人工智能飛速進(jìn)步背景下的極端風(fēng)險(xiǎn)管理”)的文章,作者包括三位圖靈獎(jiǎng)得主oshua Bengio、Geoffrey Hinton、姚期智以及諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主Daniel Kahneman在內(nèi)的25位專家學(xué)者。

文章指出,隨著AI技術(shù)的快速發(fā)展,特別是通用型AI系統(tǒng)的發(fā)展,其自主性和能力的增強(qiáng)可能會(huì)大幅放大AI的影響,并帶來(lái)一系列風(fēng)險(xiǎn),如大規(guī)模社會(huì)危害、惡意使用以及人類可能失去對(duì)自主AI系統(tǒng)的控制等——因?yàn)樗牟豢山忉屝砸约吧詈谔匦裕赡軐?dǎo)致對(duì)未來(lái)不可知的安全風(fēng)險(xiǎn)。

盡管研究人員已經(jīng)對(duì)AI的潛在極端風(fēng)險(xiǎn)發(fā)出警告,但在如何管理這些風(fēng)險(xiǎn)方面仍然缺乏共識(shí)。當(dāng)前的社會(huì)回應(yīng)和治理措施與專家們預(yù)測(cè)的發(fā)展速度和變化程度相比顯得不足,特別是在AI安全研究方面存在滯后。

目前的治理舉措缺少有效的機(jī)制和機(jī)構(gòu)來(lái)預(yù)防濫用和不謹(jǐn)慎行為,并且?guī)缀跷瓷婕皩?duì)自主系統(tǒng)的管理?;谄渌P(guān)鍵安全技術(shù)的經(jīng)驗(yàn)教訓(xùn),文章提出了一個(gè)綜合方案,旨在結(jié)合技術(shù)研發(fā)與主動(dòng)、適應(yīng)性的治理機(jī)制,以更好地準(zhǔn)備應(yīng)對(duì)AI帶來(lái)的挑戰(zhàn)。

基于AI模型治理展開(kāi)的大量卓有成效的工作

過(guò)去一年,國(guó)內(nèi)外在AI模型治理方面開(kāi)展了大量的工作,其中主要是推進(jìn)標(biāo)準(zhǔn)化工作:

2月,全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《生成式人工智能服務(wù)安全基本要求》,包括對(duì)模型訓(xùn)練語(yǔ)料、模型安全、模型標(biāo)注、模型安全性如何評(píng)估等,現(xiàn)在已經(jīng)形成技術(shù)文件,將會(huì)變成一個(gè)國(guó)家標(biāo)準(zhǔn);

3月,智源人工智能研究院發(fā)起《北京AI安全國(guó)際共識(shí)》,參與專家包括Yoshua Bengio、Geoffrey Hinton、姚期智、Stuart Russel、張宏江、張亞勤、薛瀾、黃鐵軍等,強(qiáng)調(diào)模型不能突破的自我演進(jìn)、自我復(fù)制、自我權(quán)利增長(zhǎng)等紅線問(wèn)題,并對(duì)模型的開(kāi)發(fā)者、提供者進(jìn)行約束,歐盟《人工智能法案》也于同月通過(guò),按照對(duì)社會(huì)影響程度風(fēng)把模型分成不可接受的風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)、有限風(fēng)險(xiǎn)和最低風(fēng)險(xiǎn)等維度;

螞蟻集團(tuán)數(shù)據(jù)治理和發(fā)展部總監(jiān)吳映京介紹人工智能應(yīng)用中的個(gè)人信息保護(hù)工作

4月,WDTA發(fā)布了《生成式人工智能應(yīng)用安全測(cè)試標(biāo)準(zhǔn)》和《大語(yǔ)言模型安全測(cè)試方法》兩項(xiàng)國(guó)際標(biāo)準(zhǔn),后者由螞蟻牽頭主導(dǎo)制訂,在采用大模型去治理安全本身方面,華為提出了L4級(jí)AI安全智能體,用大模型加上安全的知識(shí)圖譜來(lái)做安全的縱深推理,發(fā)現(xiàn)尚未發(fā)現(xiàn)的安全攻擊;

5月,Open Al發(fā)布非常詳細(xì)的10大AI安全措施,包括模型對(duì)兒童的影響及保護(hù)措施,包括語(yǔ)料及使用,也提到了選舉選票的完整度問(wèn)題,把模型跟社會(huì)問(wèn)題進(jìn)行了結(jié)合,Open Al還與微軟、智譜AI等簽署《前沿AI安全承諾》,強(qiáng)調(diào)對(duì)前沿技術(shù)的自我約束,智源人工智能研究院與英國(guó)AISI建立溝通;

6月,螞蟻集團(tuán)發(fā)布大模型安全一體化解決方案“蟻天鑒”2.0,Google發(fā)布SAIF(Secure Al Framework)安全AI框架;

9月,《AI安全國(guó)際對(duì)話威尼斯共識(shí)》發(fā)布,Stuant Russell、姚期智、Yoshua Bengio、張亞勤等專家參與,分析對(duì)前置性的監(jiān)管要求以及模型努力達(dá)到的程度,應(yīng)該采用什么分級(jí)模式去進(jìn)行管理,強(qiáng)調(diào)應(yīng)對(duì)模型的不可控、不可知帶來(lái)的影響,全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《人工智能安全治理框架》,智源人工智能研究院推進(jìn)新版本迭代;

10月,Anthropic更新其制定的《安全責(zé)任擴(kuò)展政策(RSP)》,對(duì)模型進(jìn)行了要求高得多的分級(jí),如把類似小模型不造成重大災(zāi)難的人工智能看作風(fēng)險(xiǎn)狀態(tài),而是把武器制造等跨過(guò)邊界的引導(dǎo)性認(rèn)為是當(dāng)前大模型的風(fēng)險(xiǎn),美國(guó)今年還在推進(jìn)兩個(gè)法案,如定義用到10的26次方規(guī)模的模型要有特別管制的機(jī)制;

12月,OWASP“大語(yǔ)言模型應(yīng)用程序十大風(fēng)險(xiǎn) 2025”發(fā)布,智源人工智能研究院推出泛化的AI防御大模型和AI監(jiān)管大模型等。這些機(jī)制都是站在模型開(kāi)發(fā)的生命周期,包括語(yǔ)料管理模型自身安全性的管理,以及輸出管理。

值得一提的是,在具體實(shí)踐方面,螞蟻推出的“倚天鑒”的安全解決方案,已經(jīng)用于小模型在在評(píng)估AI的魯棒性、可解釋性和公平性方面,而大模型應(yīng)用時(shí)對(duì)這套系統(tǒng)進(jìn)行了全面升級(jí)和發(fā)布。其核心要素是“藍(lán)軍”的測(cè)評(píng),有專門的攻方團(tuán)隊(duì)對(duì)模型全面檢測(cè)和實(shí)踐化測(cè)評(píng),包括框架、第三方插件、coding等,也針對(duì)發(fā)現(xiàn)的一些漏洞進(jìn)行應(yīng)對(duì):在內(nèi)生安全方面,主要解決語(yǔ)料安全分布、語(yǔ)料治理問(wèn)題,對(duì)語(yǔ)料中像個(gè)人信息等不合規(guī)的信息深入管理和安全性對(duì)齊;在圍欄方面,加強(qiáng)對(duì)用戶交互中的動(dòng)態(tài)監(jiān)測(cè),排除一些由于多輪和單輪誘導(dǎo)引發(fā)的模型錯(cuò)誤。另外,對(duì)用戶的prompt做一些路由分析,避免要求過(guò)于嚴(yán)格而影響模型的泛化性。

螞蟻集團(tuán)大模型數(shù)據(jù)安全總監(jiān)楊小芳介紹“倚天鑒”安全解決方案及AI安全實(shí)踐

智源研究院推出了防御大模型和AI監(jiān)管大模型,核心技術(shù)體現(xiàn)在對(duì)齊優(yōu)化上。因?yàn)槟P捅旧碛幸欢ǖ膹椥?,但原?lái)的分布比較堅(jiān)固,有抗拒微調(diào)對(duì)齊的特性存在。因此,在對(duì)齊訓(xùn)練和預(yù)訓(xùn)練時(shí)把對(duì)齊需要的表征表達(dá)到訓(xùn)練的模型中,消除未對(duì)齊答案和對(duì)齊答案之間的偏差,更有利于原始問(wèn)題到直接問(wèn)題的訓(xùn)練,實(shí)現(xiàn)優(yōu)化過(guò)程。通過(guò)把多模態(tài)信息和對(duì)齊跟現(xiàn)實(shí)世界的具身以及多模態(tài)、全模態(tài)的類型和人類意圖對(duì)齊,智源研究院Llama在微調(diào)時(shí)取得了很好的效果。

未來(lái)安全領(lǐng)域應(yīng)當(dāng)關(guān)注的其他話題

談到未來(lái)安全性方面還應(yīng)該關(guān)注的話題,彭晉著重指出了以下幾個(gè)方面:

一是數(shù)據(jù)問(wèn)題。數(shù)據(jù)分散在各個(gè)孤島上,在數(shù)據(jù)枯竭、算力和數(shù)據(jù)分離的情況下,用什么方式保證數(shù)據(jù)訓(xùn)練的安全性?隱私計(jì)算、聯(lián)邦計(jì)算方式可一定程度確保領(lǐng)域里的數(shù)據(jù)、孤島里的數(shù)據(jù)應(yīng)用于訓(xùn)練中;

二是數(shù)據(jù)合規(guī)治理的問(wèn)題。如個(gè)人信息保護(hù)問(wèn)題,國(guó)家出臺(tái)很多關(guān)于個(gè)人信息保護(hù)相關(guān)的法律和標(biāo)準(zhǔn),也提到匿名化方式來(lái)確保個(gè)人數(shù)據(jù)不被識(shí)別,且可以用在訓(xùn)練過(guò)程里,但缺乏實(shí)際操作指導(dǎo)。

三是很多倡議和法規(guī)過(guò)于宏觀,缺乏實(shí)操性。如威尼斯倡議、北京共識(shí)等,國(guó)家出臺(tái)的人工智能治理辦法等又非常中觀。這些舉措在微觀操作上缺乏確保大模型的安全性能夠應(yīng)對(duì)新的攻擊和做好安全測(cè)評(píng)分級(jí)等等具體的規(guī)范、標(biāo)準(zhǔn)來(lái)作為指引。此外,涉及大模型安全的那些核心問(wèn)題,無(wú)論是當(dāng)下幻覺(jué)的產(chǎn)生,還是未來(lái)可控性、可解釋性的把握,也是未來(lái)大模型安全中的重要因素。

“安全“這個(gè)詞在英文中已經(jīng)混合,既包括Security也包括safety。從長(zhǎng)遠(yuǎn)的角度,人們更加關(guān)注模型是否可信,可控性、專業(yè)性、可靠性、安全性等都是大模型將來(lái)實(shí)現(xiàn)應(yīng)用和實(shí)現(xiàn)人機(jī)協(xié)同的關(guān)鍵環(huán)節(jié),安全只是其中一個(gè)部分。

”從這個(gè)角度,未來(lái)有更寬泛的問(wèn)題需要在未來(lái)進(jìn)行研究。”彭晉最后說(shuō)。

分享到

xiesc

相關(guān)推薦