NeurIPS是機(jī)器學(xué)習(xí)領(lǐng)域三大頂級(jí)國(guó)際會(huì)議之一,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)A類推薦會(huì)議。本次特設(shè)競(jìng)賽于2024年7月底開(kāi)始,由加州大學(xué)伯克利分校、德州大學(xué)奧斯汀分校、伊利諾伊大學(xué)厄巴納-香檳分校、新加坡國(guó)立大學(xué)、Center for AI Safety等高校與機(jī)構(gòu)聯(lián)合命題組織,吸引來(lái)自數(shù)十個(gè)國(guó)家超30支隊(duì)伍參與角逐。

本次參賽者的任務(wù)是設(shè)計(jì)與實(shí)現(xiàn)創(chuàng)新解決方案,從下游模型中竊取訓(xùn)練數(shù)據(jù)中的隱私或設(shè)計(jì)隱私保護(hù)的訓(xùn)練方法。據(jù)悉,此次攻擊賽道中,螞蟻數(shù)科和浙大團(tuán)隊(duì)方法在比賽提供的Llama3.1-8B模型上可以達(dá)到0.233的攻擊成功率;在防御賽道,其方案使主辦方提供的攻擊方法成功率相對(duì)降低30.6%,同時(shí)在MMLU和TruthfulQA等基準(zhǔn)數(shù)據(jù)集上的結(jié)果也表明該方法對(duì)模型性能幾乎沒(méi)有損耗。

參賽隊(duì)伍隊(duì)長(zhǎng)螞蟻數(shù)科摩斯算法專家劉文炎說(shuō):“在攻擊賽道中,我們通過(guò)查詢目標(biāo)模型來(lái)構(gòu)建提示語(yǔ),促使其為每個(gè)掩蓋的個(gè)人可識(shí)別信息(PII)生成候選回應(yīng),并計(jì)算其損失值,再用自我提示候選提取和基于損失的貪心搜索,選擇損失值最低的候選作為最終輸出。這種基于分段與聚合的損失計(jì)算方法,以加速候選項(xiàng)的選擇過(guò)程。在防御賽道中,我們利用數(shù)據(jù)脫敏與合成技術(shù),對(duì)包含PII的語(yǔ)料進(jìn)行隨機(jī)替換,之后以自回歸的方式微調(diào)目標(biāo)模型,可以擾亂大模型對(duì)PII信息的記憶,降低其輸出正確PII的可能,防止隱私數(shù)據(jù)泄漏?!?/p>

解決數(shù)據(jù)和模型的隱私安全問(wèn)題,是大模型在產(chǎn)業(yè)界尤其是金融行業(yè)落地的重要課題。螞蟻數(shù)科摩斯結(jié)合比賽同款方案,研發(fā)了大模型隱私保護(hù)產(chǎn)品,該產(chǎn)品融合數(shù)據(jù)脫敏、拆分學(xué)習(xí)、模型混淆、差分隱私、TEE等多種技術(shù)路線,實(shí)現(xiàn)大模型應(yīng)用中模型微調(diào)、推理全鏈路的數(shù)據(jù)和模型隱私保護(hù)。目前該方案應(yīng)用于網(wǎng)商銀行農(nóng)業(yè)助貸場(chǎng)景,利用摩斯的大模型隱私保護(hù)技術(shù)融合多方時(shí)空大數(shù)據(jù),共建“密態(tài)時(shí)空大模型“,進(jìn)行行內(nèi)農(nóng)戶貸款風(fēng)險(xiǎn)評(píng)估,進(jìn)一步提升種植戶金融放寬效率和滿意度。

今年7月,螞蟻數(shù)科摩斯成為信通院首批通過(guò)大模型可信執(zhí)行環(huán)境產(chǎn)品專項(xiàng)測(cè)試的廠商。螞蟻數(shù)科摩斯技術(shù)負(fù)責(zé)人殷山表示,“摩斯將在大模型隱私保護(hù)方向,持續(xù)進(jìn)行技術(shù)投入和落地探索,推進(jìn)大模型在產(chǎn)業(yè)界發(fā)展?!?/p>

分享到

xiesc

相關(guān)推薦