該數(shù)據(jù)集解決了以往金融領(lǐng)域Deepfake檢測模型無法大規(guī)模訓(xùn)練,無法在真實環(huán)境中測評的問題,并且從多模態(tài)分析角度促進了傳統(tǒng)檢測模型的發(fā)展。目前該數(shù)據(jù)集已經(jīng)成為螞蟻數(shù)科反深偽產(chǎn)品 ZOLOZ Deeper 對外服務(wù)客戶的關(guān)鍵能力。
據(jù)了解,螞蟻數(shù)科使用先進的多達 81 種 Deepfake 技術(shù)生成高質(zhì)量的合成圖像,覆蓋了多種偽造技術(shù)類型、復(fù)雜光照條件、背景環(huán)境和面部表情,以模擬復(fù)雜逼真的真實世界攻擊環(huán)境。除了靜態(tài)圖像外,還收集并生成了大量包含聲音的視頻數(shù)據(jù),包括100多種偽造技術(shù)類型,涵蓋不同語種、口音和背景噪音,確保數(shù)據(jù)集的多樣性和復(fù)雜性。
在數(shù)據(jù)預(yù)處理和標注階段,螞蟻數(shù)科對收集到的數(shù)據(jù)進行清洗和預(yù)處理,確保數(shù)據(jù)質(zhì)量。通過專家團隊對數(shù)據(jù)進行標注,明確每張圖像或每個視頻是否為Deepfake生成的內(nèi)容,同時保證偽造痕跡的最小化,達到高度逼真的效果。此前,螞蟻數(shù)科發(fā)布了AI數(shù)據(jù)合成與生產(chǎn)平臺,在數(shù)據(jù)標注層面實現(xiàn)了 “AI 主導(dǎo)”,標注模型依賴人工標注量降低了 70%以上。
此外,螞蟻數(shù)科在 2024 外灘大會發(fā)起了一場 Deepfake 攻防挑戰(zhàn)賽,將Deepfake數(shù)據(jù)集作為比賽的基礎(chǔ)訓(xùn)練和測試數(shù)據(jù),吸引到了全球 26 個國家和地區(qū),2200 多名選手報名參賽。通過大賽選手貢獻的算法方案,Deepfake 數(shù)據(jù)集的攻擊質(zhì)量和檢測難度得到了有效驗證和評估。
隨著人工智能技術(shù)的發(fā)展,Deepfake技術(shù)也在迅速進步。這種技術(shù)利用深度學(xué)習(xí)算法,可以對視頻中的人臉進行逼真的替換。盡管Deepfake在娛樂和傳媒等領(lǐng)域有著積極的應(yīng)用,但在金融領(lǐng)域,特別是身份驗證和交易驗證環(huán)節(jié),Deepfake技術(shù)帶來了新的風(fēng)險。金融機構(gòu)的身份驗證系統(tǒng)往往依賴于生物識別技術(shù),如人臉識別。一旦這些系統(tǒng)被Deepfake技術(shù)所欺騙,可能導(dǎo)致嚴重的金融欺詐。
鑒于此,開發(fā)針對Deepfake攻擊的檢測系統(tǒng)在金融領(lǐng)域是十分必要的,但是強大的Deepfake檢測防御模型需要高質(zhì)量符合真實世界環(huán)境的人臉Deepfake數(shù)據(jù)集,所以如何構(gòu)建模擬真實世界的數(shù)據(jù)集以及如何驗證其有效性是緊迫的問題。