最近中文字幕2019视频1,亚洲va欧美ⅴa在线

螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉

如何引入新的技術(shù)監(jiān)管方法，如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險(xiǎn)管控？這對參與AI的各方來說，都是一個(gè)值得持續(xù)探討的議題。螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉進(jìn)行了深度解讀。

大模型安全問題的本質(zhì)

彭晉認(rèn)為，大模型安全問題的本質(zhì)可以從以下幾個(gè)層面來分析。

首先，從大語言模型、多模態(tài)模型和生成式AI角度，它其實(shí)是海量的數(shù)據(jù)加海量算力的知識(shí)壓縮，在遷移、學(xué)習(xí)等壓縮過程中面臨信息的損失（因token通過概率預(yù)測方式生成）?；谏墒降募軜?gòu)，由于預(yù)測問題，幻覺難以避免。

在數(shù)據(jù)層面，一方面，輸入的數(shù)據(jù)本身可能含有有害樣本，另一方面，數(shù)據(jù)存在導(dǎo)向性問題、數(shù)據(jù)本身質(zhì)量參差不齊，進(jìn)一步惡化了生成式的輸出質(zhì)量。在訓(xùn)練過程中，還可能涉及到個(gè)人信息數(shù)據(jù)以及版權(quán)數(shù)據(jù)。無論從宏觀角度還是輸出角度，都會(huì)導(dǎo)致安全問題。

第三，從算法角度，模型是深黑盒狀態(tài)，可控性存在一定的問題，生成結(jié)果也呈不可控性?？山忉屝詥栴}在深度學(xué)習(xí)時(shí)就已經(jīng)存在，在大模型之前就大量應(yīng)用人工智能的算法來做強(qiáng)風(fēng)控等工作，在小模型時(shí)，監(jiān)管可能會(huì)提出類似為什么把某個(gè)人的信貸額度評(píng)定過高，為什么把某個(gè)業(yè)務(wù)界定為詐騙、列入黑名單等。這些內(nèi)容具有一定可解釋性。深度學(xué)習(xí)在可解釋性方面存在一定的困難，而大模型階段因?yàn)槭巧詈诤?，可解釋性進(jìn)一步惡化。

第四，在應(yīng)用層面，生成式AI在普通對話領(lǐng)域的流暢度非常好，但是在醫(yī)療、金融等應(yīng)用場景，因?yàn)樾枰獙I(yè)的語料來加持，而且很多知識(shí)并沒有被數(shù)字化、被向量化，容易在專業(yè)領(lǐng)域出現(xiàn)被濫用的情況，進(jìn)一步產(chǎn)生幻覺的內(nèi)容。比如對男性癥狀進(jìn)行推理時(shí)，會(huì)發(fā)現(xiàn)出現(xiàn)女性癥狀的表達(dá)。由于大模型從互聯(lián)網(wǎng)抓取的知識(shí)并非準(zhǔn)確，難于精確回答醫(yī)療診斷、金融的問題以及實(shí)時(shí)性等，在應(yīng)用方面存在很大的安全問題。

第五，攻擊方面出現(xiàn)了新的方式。以前經(jīng)常談及SQL注入等攻擊，在大模型中則是繞過模型安全手段的prompt注入、誘導(dǎo)、越獄等攻擊，引發(fā)大模型回答一些不該回答的問題。

總而言之，大模型的風(fēng)險(xiǎn)包括生成幻覺、隱私敏感數(shù)據(jù)泄露、價(jià)值觀導(dǎo)向、專業(yè)度缺失、倫理等等問題。

專家熱議：人工智能飛速進(jìn)步背景下的極端風(fēng)險(xiǎn)管理

大模型本身是個(gè)信息系統(tǒng)，傳統(tǒng)信息系統(tǒng)的漏洞等各種安全問題，也會(huì)發(fā)生在大模型身上。無論是從平臺(tái)，還是從框架、插件等等角度，都可能存在系統(tǒng)漏洞，這些漏洞進(jìn)一步導(dǎo)致模型丟失、數(shù)據(jù)泄露、可用性等從底層模型生成邏輯的安全問題。

2024年5月科學(xué)（《Science》）雜志發(fā)表了一篇叫Managing Extreme AI Risks Amid Rapid Progress（“人工智能飛速進(jìn)步背景下的極端風(fēng)險(xiǎn)管理”）的文章，作者包括三位圖靈獎(jiǎng)得主oshua Bengio、Geoffrey Hinton、姚期智以及諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主Daniel Kahneman在內(nèi)的25位專家學(xué)者。

文章指出，隨著AI技術(shù)的快速發(fā)展，特別是通用型AI系統(tǒng)的發(fā)展，其自主性和能力的增強(qiáng)可能會(huì)大幅放大AI的影響，并帶來一系列風(fēng)險(xiǎn)，如大規(guī)模社會(huì)危害、惡意使用以及人類可能失去對自主AI系統(tǒng)的控制等——因?yàn)樗牟豢山忉屝砸约吧詈谔匦?，可能?dǎo)致對未來不可知的安全風(fēng)險(xiǎn)。

盡管研究人員已經(jīng)對AI的潛在極端風(fēng)險(xiǎn)發(fā)出警告，但在如何管理這些風(fēng)險(xiǎn)方面仍然缺乏共識(shí)。當(dāng)前的社會(huì)回應(yīng)和治理措施與專家們預(yù)測的發(fā)展速度和變化程度相比顯得不足，特別是在AI安全研究方面存在滯后。

目前的治理舉措缺少有效的機(jī)制和機(jī)構(gòu)來預(yù)防濫用和不謹(jǐn)慎行為，并且?guī)缀跷瓷婕皩ψ灾飨到y(tǒng)的管理。基于其他關(guān)鍵安全技術(shù)的經(jīng)驗(yàn)教訓(xùn)，文章提出了一個(gè)綜合方案，旨在結(jié)合技術(shù)研發(fā)與主動(dòng)、適應(yīng)性的治理機(jī)制，以更好地準(zhǔn)備應(yīng)對AI帶來的挑戰(zhàn)。

基于AI模型治理展開的大量卓有成效的工作

過去一年，國內(nèi)外在AI模型治理方面開展了大量的工作，其中主要是推進(jìn)標(biāo)準(zhǔn)化工作：

2月，全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《生成式人工智能服務(wù)安全基本要求》，包括對模型訓(xùn)練語料、模型安全、模型標(biāo)注、模型安全性如何評(píng)估等，現(xiàn)在已經(jīng)形成技術(shù)文件，將會(huì)變成一個(gè)國家標(biāo)準(zhǔn)；

3月，智源人工智能研究院發(fā)起《北京AI安全國際共識(shí)》,參與專家包括Yoshua Bengio、Geoffrey Hinton、姚期智、Stuart Russel、張宏江、張亞勤、薛瀾、黃鐵軍等，強(qiáng)調(diào)模型不能突破的自我演進(jìn)、自我復(fù)制、自我權(quán)利增長等紅線問題，并對模型的開發(fā)者、提供者進(jìn)行約束，歐盟《人工智能法案》也于同月通過，按照對社會(huì)影響程度風(fēng)把模型分成不可接受的風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)、有限風(fēng)險(xiǎn)和最低風(fēng)險(xiǎn)等維度；

螞蟻集團(tuán)數(shù)據(jù)治理和發(fā)展部總監(jiān)吳映京介紹人工智能應(yīng)用中的個(gè)人信息保護(hù)工作

4月，WDTA發(fā)布了《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項(xiàng)國際標(biāo)準(zhǔn)，后者由螞蟻牽頭主導(dǎo)制訂，在采用大模型去治理安全本身方面，華為提出了L4級(jí)AI安全智能體，用大模型加上安全的知識(shí)圖譜來做安全的縱深推理，發(fā)現(xiàn)尚未發(fā)現(xiàn)的安全攻擊；

5月，Open Al發(fā)布非常詳細(xì)的10大AI安全措施，包括模型對兒童的影響及保護(hù)措施，包括語料及使用，也提到了選舉選票的完整度問題，把模型跟社會(huì)問題進(jìn)行了結(jié)合，Open Al還與微軟、智譜AI等簽署《前沿AI安全承諾》，強(qiáng)調(diào)對前沿技術(shù)的自我約束，智源人工智能研究院與英國AISI建立溝通；

6月，螞蟻集團(tuán)發(fā)布大模型安全一體化解決方案“蟻天鑒”2.0，Google發(fā)布SAIF（Secure Al Framework）安全AI框架；

9月，《AI安全國際對話威尼斯共識(shí)》發(fā)布，Stuant Russell、姚期智、Yoshua Bengio、張亞勤等專家參與，分析對前置性的監(jiān)管要求以及模型努力達(dá)到的程度，應(yīng)該采用什么分級(jí)模式去進(jìn)行管理，強(qiáng)調(diào)應(yīng)對模型的不可控、不可知帶來的影響，全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《人工智能安全治理框架》，智源人工智能研究院推進(jìn)新版本迭代；

10月，Anthropic更新其制定的《安全責(zé)任擴(kuò)展政策(RSP)》，對模型進(jìn)行了要求高得多的分級(jí)，如把類似小模型不造成重大災(zāi)難的人工智能看作風(fēng)險(xiǎn)狀態(tài)，而是把武器制造等跨過邊界的引導(dǎo)性認(rèn)為是當(dāng)前大模型的風(fēng)險(xiǎn)，美國今年還在推進(jìn)兩個(gè)法案，如定義用到10的26次方規(guī)模的模型要有特別管制的機(jī)制；

12月，OWASP“大語言模型應(yīng)用程序十大風(fēng)險(xiǎn) 2025”發(fā)布，智源人工智能研究院推出泛化的AI防御大模型和AI監(jiān)管大模型等。這些機(jī)制都是站在模型開發(fā)的生命周期，包括語料管理模型自身安全性的管理，以及輸出管理。

值得一提的是，在具體實(shí)踐方面，螞蟻推出的“倚天鑒”的安全解決方案，已經(jīng)用于小模型在在評(píng)估AI的魯棒性、可解釋性和公平性方面，而大模型應(yīng)用時(shí)對這套系統(tǒng)進(jìn)行了全面升級(jí)和發(fā)布。其核心要素是“藍(lán)軍”的測評(píng)，有專門的攻方團(tuán)隊(duì)對模型全面檢測和實(shí)踐化測評(píng)，包括框架、第三方插件、coding等，也針對發(fā)現(xiàn)的一些漏洞進(jìn)行應(yīng)對：在內(nèi)生安全方面，主要解決語料安全分布、語料治理問題，對語料中像個(gè)人信息等不合規(guī)的信息深入管理和安全性對齊；在圍欄方面，加強(qiáng)對用戶交互中的動(dòng)態(tài)監(jiān)測，排除一些由于多輪和單輪誘導(dǎo)引發(fā)的模型錯(cuò)誤。另外，對用戶的prompt做一些路由分析，避免要求過于嚴(yán)格而影響模型的泛化性。

螞蟻集團(tuán)大模型數(shù)據(jù)安全總監(jiān)楊小芳介紹“倚天鑒”安全解決方案及AI安全實(shí)踐

智源研究院推出了防御大模型和AI監(jiān)管大模型，核心技術(shù)體現(xiàn)在對齊優(yōu)化上。因?yàn)槟Ｐ捅旧碛幸欢ǖ膹椥?，但原來的分布比較堅(jiān)固，有抗拒微調(diào)對齊的特性存在。因此，在對齊訓(xùn)練和預(yù)訓(xùn)練時(shí)把對齊需要的表征表達(dá)到訓(xùn)練的模型中，消除未對齊答案和對齊答案之間的偏差，更有利于原始問題到直接問題的訓(xùn)練，實(shí)現(xiàn)優(yōu)化過程。通過把多模態(tài)信息和對齊跟現(xiàn)實(shí)世界的具身以及多模態(tài)、全模態(tài)的類型和人類意圖對齊，智源研究院Llama在微調(diào)時(shí)取得了很好的效果。

未來安全領(lǐng)域應(yīng)當(dāng)關(guān)注的其他話題

談到未來安全性方面還應(yīng)該關(guān)注的話題，彭晉著重指出了以下幾個(gè)方面：

一是數(shù)據(jù)問題。數(shù)據(jù)分散在各個(gè)孤島上，在數(shù)據(jù)枯竭、算力和數(shù)據(jù)分離的情況下，用什么方式保證數(shù)據(jù)訓(xùn)練的安全性？隱私計(jì)算、聯(lián)邦計(jì)算方式可一定程度確保領(lǐng)域里的數(shù)據(jù)、孤島里的數(shù)據(jù)應(yīng)用于訓(xùn)練中；

二是數(shù)據(jù)合規(guī)治理的問題。如個(gè)人信息保護(hù)問題，國家出臺(tái)很多關(guān)于個(gè)人信息保護(hù)相關(guān)的法律和標(biāo)準(zhǔn)，也提到匿名化方式來確保個(gè)人數(shù)據(jù)不被識(shí)別，且可以用在訓(xùn)練過程里，但缺乏實(shí)際操作指導(dǎo)。

三是很多倡議和法規(guī)過于宏觀，缺乏實(shí)操性。如威尼斯倡議、北京共識(shí)等，國家出臺(tái)的人工智能治理辦法等又非常中觀。這些舉措在微觀操作上缺乏確保大模型的安全性能夠應(yīng)對新的攻擊和做好安全測評(píng)分級(jí)等等具體的規(guī)范、標(biāo)準(zhǔn)來作為指引。此外，涉及大模型安全的那些核心問題，無論是當(dāng)下幻覺的產(chǎn)生，還是未來可控性、可解釋性的把握，也是未來大模型安全中的重要因素。

“安全“這個(gè)詞在英文中已經(jīng)混合，既包括Security也包括safety。從長遠(yuǎn)的角度，人們更加關(guān)注模型是否可信，可控性、專業(yè)性、可靠性、安全性等都是大模型將來實(shí)現(xiàn)應(yīng)用和實(shí)現(xiàn)人機(jī)協(xié)同的關(guān)鍵環(huán)節(jié)，安全只是其中一個(gè)部分。

”從這個(gè)角度，未來有更寬泛的問題需要在未來進(jìn)行研究?！迸頃x最后說。

分享到

AI安全螞蟻集團(tuán)

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽