螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉
如何引入新的技術(shù)監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險管控?這對參與AI的各方來說,都是一個值得持續(xù)探討的議題。螞蟻集團(tuán)科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉進(jìn)行了深度解讀。
大模型安全問題的本質(zhì)
彭晉認(rèn)為,大模型安全問題的本質(zhì)可以從以下幾個層面來分析。
首先,從大語言模型、多模態(tài)模型和生成式AI角度,它其實是海量的數(shù)據(jù)加海量算力的知識壓縮,在遷移、學(xué)習(xí)等壓縮過程中面臨信息的損失(因token通過概率預(yù)測方式生成)?;谏墒降募軜?gòu),由于預(yù)測問題,幻覺難以避免。
在數(shù)據(jù)層面,一方面,輸入的數(shù)據(jù)本身可能含有有害樣本,另一方面,數(shù)據(jù)存在導(dǎo)向性問題、數(shù)據(jù)本身質(zhì)量參差不齊,進(jìn)一步惡化了生成式的輸出質(zhì)量。在訓(xùn)練過程中,還可能涉及到個人信息數(shù)據(jù)以及版權(quán)數(shù)據(jù)。無論從宏觀角度還是輸出角度,都會導(dǎo)致安全問題。
第三,從算法角度,模型是深黑盒狀態(tài),可控性存在一定的問題,生成結(jié)果也呈不可控性。可解釋性問題在深度學(xué)習(xí)時就已經(jīng)存在,在大模型之前就大量應(yīng)用人工智能的算法來做強(qiáng)風(fēng)控等工作,在小模型時,監(jiān)管可能會提出類似為什么把某個人的信貸額度評定過高,為什么把某個業(yè)務(wù)界定為詐騙、列入黑名單等。這些內(nèi)容具有一定可解釋性。深度學(xué)習(xí)在可解釋性方面存在一定的困難,而大模型階段因為是深黑盒,可解釋性進(jìn)一步惡化。
第四,在應(yīng)用層面,生成式AI在普通對話領(lǐng)域的流暢度非常好,但是在醫(yī)療、金融等應(yīng)用場景,因為需要專業(yè)的語料來加持,而且很多知識并沒有被數(shù)字化、被向量化,容易在專業(yè)領(lǐng)域出現(xiàn)被濫用的情況,進(jìn)一步產(chǎn)生幻覺的內(nèi)容。比如對男性癥狀進(jìn)行推理時,會發(fā)現(xiàn)出現(xiàn)女性癥狀的表達(dá)。由于大模型從互聯(lián)網(wǎng)抓取的知識并非準(zhǔn)確,難于精確回答醫(yī)療診斷、金融的問題以及實時性等,在應(yīng)用方面存在很大的安全問題。
第五,攻擊方面出現(xiàn)了新的方式。以前經(jīng)常談及SQL注入等攻擊,在大模型中則是繞過模型安全手段的prompt注入、誘導(dǎo)、越獄等攻擊,引發(fā)大模型回答一些不該回答的問題。
總而言之,大模型的風(fēng)險包括生成幻覺、隱私敏感數(shù)據(jù)泄露、價值觀導(dǎo)向、專業(yè)度缺失、倫理等等問題。
專家熱議:人工智能飛速進(jìn)步背景下的極端風(fēng)險管理
大模型本身是個信息系統(tǒng),傳統(tǒng)信息系統(tǒng)的漏洞等各種安全問題,也會發(fā)生在大模型身上。無論是從平臺,還是從框架、插件等等角度,都可能存在系統(tǒng)漏洞,這些漏洞進(jìn)一步導(dǎo)致模型丟失、數(shù)據(jù)泄露、可用性等從底層模型生成邏輯的安全問題。
2024年5月科學(xué)(《Science》)雜志發(fā)表了一篇叫Managing Extreme AI Risks Amid Rapid Progress(“人工智能飛速進(jìn)步背景下的極端風(fēng)險管理”)的文章,作者包括三位圖靈獎得主oshua Bengio、Geoffrey Hinton、姚期智以及諾貝爾經(jīng)濟(jì)學(xué)獎得主Daniel Kahneman在內(nèi)的25位專家學(xué)者。
文章指出,隨著AI技術(shù)的快速發(fā)展,特別是通用型AI系統(tǒng)的發(fā)展,其自主性和能力的增強(qiáng)可能會大幅放大AI的影響,并帶來一系列風(fēng)險,如大規(guī)模社會危害、惡意使用以及人類可能失去對自主AI系統(tǒng)的控制等——因為它的不可解釋性以及深黑特性,可能導(dǎo)致對未來不可知的安全風(fēng)險。
盡管研究人員已經(jīng)對AI的潛在極端風(fēng)險發(fā)出警告,但在如何管理這些風(fēng)險方面仍然缺乏共識。當(dāng)前的社會回應(yīng)和治理措施與專家們預(yù)測的發(fā)展速度和變化程度相比顯得不足,特別是在AI安全研究方面存在滯后。
目前的治理舉措缺少有效的機(jī)制和機(jī)構(gòu)來預(yù)防濫用和不謹(jǐn)慎行為,并且?guī)缀跷瓷婕皩ψ灾飨到y(tǒng)的管理。基于其他關(guān)鍵安全技術(shù)的經(jīng)驗教訓(xùn),文章提出了一個綜合方案,旨在結(jié)合技術(shù)研發(fā)與主動、適應(yīng)性的治理機(jī)制,以更好地準(zhǔn)備應(yīng)對AI帶來的挑戰(zhàn)。
基于AI模型治理展開的大量卓有成效的工作
過去一年,國內(nèi)外在AI模型治理方面開展了大量的工作,其中主要是推進(jìn)標(biāo)準(zhǔn)化工作:
2月,全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布《生成式人工智能服務(wù)安全基本要求》,包括對模型訓(xùn)練語料、模型安全、模型標(biāo)注、模型安全性如何評估等,現(xiàn)在已經(jīng)形成技術(shù)文件,將會變成一個國家標(biāo)準(zhǔn);
3月,智源人工智能研究院發(fā)起《北京AI安全國際共識》,參與專家包括Yoshua Bengio、Geoffrey Hinton、姚期智、Stuart Russel、張宏江、張亞勤、薛瀾、黃鐵軍等,強(qiáng)調(diào)模型不能突破的自我演進(jìn)、自我復(fù)制、自我權(quán)利增長等紅線問題,并對模型的開發(fā)者、提供者進(jìn)行約束,歐盟《人工智能法案》也于同月通過,按照對社會影響程度風(fēng)把模型分成不可接受的風(fēng)險、高風(fēng)險、有限風(fēng)險和最低風(fēng)險等維度;
螞蟻集團(tuán)數(shù)據(jù)治理和發(fā)展部總監(jiān)吳映京介紹人工智能應(yīng)用中的個人信息保護(hù)工作
4月,WDTA發(fā)布了《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項國際標(biāo)準(zhǔn),后者由螞蟻牽頭主導(dǎo)制訂,在采用大模型去治理安全本身方面,華為提出了L4級AI安全智能體,用大模型加上安全的知識圖譜來做安全的縱深推理,發(fā)現(xiàn)尚未發(fā)現(xiàn)的安全攻擊;
5月,Open Al發(fā)布非常詳細(xì)的10大AI安全措施,包括模型對兒童的影響及保護(hù)措施,包括語料及使用,也提到了選舉選票的完整度問題,把模型跟社會問題進(jìn)行了結(jié)合,Open Al還與微軟、智譜AI等簽署《前沿AI安全承諾》,強(qiáng)調(diào)對前沿技術(shù)的自我約束,智源人工智能研究院與英國AISI建立溝通;
6月,螞蟻集團(tuán)發(fā)布大模型安全一體化解決方案“蟻天鑒”2.0,Google發(fā)布SAIF(Secure Al Framework)安全AI框架;
9月,《AI安全國際對話威尼斯共識》發(fā)布,Stuant Russell、姚期智、Yoshua Bengio、張亞勤等專家參與,分析對前置性的監(jiān)管要求以及模型努力達(dá)到的程度,應(yīng)該采用什么分級模式去進(jìn)行管理,強(qiáng)調(diào)應(yīng)對模型的不可控、不可知帶來的影響,全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布《人工智能安全治理框架》,智源人工智能研究院推進(jìn)新版本迭代;
10月,Anthropic更新其制定的《安全責(zé)任擴(kuò)展政策(RSP)》,對模型進(jìn)行了要求高得多的分級,如把類似小模型不造成重大災(zāi)難的人工智能看作風(fēng)險狀態(tài),而是把武器制造等跨過邊界的引導(dǎo)性認(rèn)為是當(dāng)前大模型的風(fēng)險,美國今年還在推進(jìn)兩個法案,如定義用到10的26次方規(guī)模的模型要有特別管制的機(jī)制;
12月,OWASP“大語言模型應(yīng)用程序十大風(fēng)險 2025”發(fā)布,智源人工智能研究院推出泛化的AI防御大模型和AI監(jiān)管大模型等。這些機(jī)制都是站在模型開發(fā)的生命周期,包括語料管理模型自身安全性的管理,以及輸出管理。
值得一提的是,在具體實踐方面,螞蟻推出的“倚天鑒”的安全解決方案,已經(jīng)用于小模型在在評估AI的魯棒性、可解釋性和公平性方面,而大模型應(yīng)用時對這套系統(tǒng)進(jìn)行了全面升級和發(fā)布。其核心要素是“藍(lán)軍”的測評,有專門的攻方團(tuán)隊對模型全面檢測和實踐化測評,包括框架、第三方插件、coding等,也針對發(fā)現(xiàn)的一些漏洞進(jìn)行應(yīng)對:在內(nèi)生安全方面,主要解決語料安全分布、語料治理問題,對語料中像個人信息等不合規(guī)的信息深入管理和安全性對齊;在圍欄方面,加強(qiáng)對用戶交互中的動態(tài)監(jiān)測,排除一些由于多輪和單輪誘導(dǎo)引發(fā)的模型錯誤。另外,對用戶的prompt做一些路由分析,避免要求過于嚴(yán)格而影響模型的泛化性。
螞蟻集團(tuán)大模型數(shù)據(jù)安全總監(jiān)楊小芳介紹“倚天鑒”安全解決方案及AI安全實踐
智源研究院推出了防御大模型和AI監(jiān)管大模型,核心技術(shù)體現(xiàn)在對齊優(yōu)化上。因為模型本身有一定的彈性,但原來的分布比較堅固,有抗拒微調(diào)對齊的特性存在。因此,在對齊訓(xùn)練和預(yù)訓(xùn)練時把對齊需要的表征表達(dá)到訓(xùn)練的模型中,消除未對齊答案和對齊答案之間的偏差,更有利于原始問題到直接問題的訓(xùn)練,實現(xiàn)優(yōu)化過程。通過把多模態(tài)信息和對齊跟現(xiàn)實世界的具身以及多模態(tài)、全模態(tài)的類型和人類意圖對齊,智源研究院Llama在微調(diào)時取得了很好的效果。
未來安全領(lǐng)域應(yīng)當(dāng)關(guān)注的其他話題
談到未來安全性方面還應(yīng)該關(guān)注的話題,彭晉著重指出了以下幾個方面:
一是數(shù)據(jù)問題。數(shù)據(jù)分散在各個孤島上,在數(shù)據(jù)枯竭、算力和數(shù)據(jù)分離的情況下,用什么方式保證數(shù)據(jù)訓(xùn)練的安全性?隱私計算、聯(lián)邦計算方式可一定程度確保領(lǐng)域里的數(shù)據(jù)、孤島里的數(shù)據(jù)應(yīng)用于訓(xùn)練中;
二是數(shù)據(jù)合規(guī)治理的問題。如個人信息保護(hù)問題,國家出臺很多關(guān)于個人信息保護(hù)相關(guān)的法律和標(biāo)準(zhǔn),也提到匿名化方式來確保個人數(shù)據(jù)不被識別,且可以用在訓(xùn)練過程里,但缺乏實際操作指導(dǎo)。
三是很多倡議和法規(guī)過于宏觀,缺乏實操性。如威尼斯倡議、北京共識等,國家出臺的人工智能治理辦法等又非常中觀。這些舉措在微觀操作上缺乏確保大模型的安全性能夠應(yīng)對新的攻擊和做好安全測評分級等等具體的規(guī)范、標(biāo)準(zhǔn)來作為指引。此外,涉及大模型安全的那些核心問題,無論是當(dāng)下幻覺的產(chǎn)生,還是未來可控性、可解釋性的把握,也是未來大模型安全中的重要因素。
“安全“這個詞在英文中已經(jīng)混合,既包括Security也包括safety。從長遠(yuǎn)的角度,人們更加關(guān)注模型是否可信,可控性、專業(yè)性、可靠性、安全性等都是大模型將來實現(xiàn)應(yīng)用和實現(xiàn)人機(jī)協(xié)同的關(guān)鍵環(huán)節(jié),安全只是其中一個部分。
”從這個角度,未來有更寬泛的問題需要在未來進(jìn)行研究?!迸頃x最后說。