2.基于重建—分類(lèi)學(xué)習(xí)的偽造人臉檢測(cè)方法(End-to-End Reconstruction-Classification Learning for Face Forgery Detection)
現(xiàn)有偽造人臉檢測(cè)方法大多聚焦于輸入圖像中特定的偽造模式(如,噪聲特性、局部紋理、頻域統(tǒng)計(jì))來(lái)辨別偽造人臉。然而,過(guò)度關(guān)注特定的偽造模式會(huì)導(dǎo)致模型過(guò)擬合于訓(xùn)練集所呈現(xiàn)的偽造特征,而無(wú)法泛化到具有全新偽造模式的偽造樣本上。
基于此,本研究從一個(gè)新的視角來(lái)探索偽造人臉檢測(cè)任務(wù)。我們?cè)O(shè)計(jì)了一個(gè)重建—分類(lèi)學(xué)習(xí)框架,通過(guò)重建真實(shí)人臉圖像來(lái)學(xué)習(xí)真實(shí)人臉的共性表征,并通過(guò)分類(lèi)任務(wù)來(lái)挖掘真實(shí)人臉與偽造人臉的本質(zhì)差異。我們提出了一種度量損失以約束真實(shí)人臉在特征空間中的距離,同時(shí)增強(qiáng)真實(shí)與偽造人臉的差異信息。此外,多尺度圖推理模塊(Multi-scale Graph Reasoning Module)將重建網(wǎng)絡(luò)編碼器輸出與解碼器特征建模為偶圖并對(duì)偽造線(xiàn)索進(jìn)行推理;重建引導(dǎo)注意力模塊(Reconstruction Guided Attention Module)將重建差異作為注意力掩碼施加于分類(lèi)特征映射上,使網(wǎng)絡(luò)關(guān)注于潛在的偽造區(qū)域。
在偽造人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集如FaceForensics++、WildDeepfake和DFDC上的大量實(shí)驗(yàn)結(jié)果表明,該方法具有良好的同源測(cè)試性能和泛化性能。
3.基于頻域信息的偽裝對(duì)象檢測(cè)方法(Thinking Camouflaged Object Detection in Frequency)
偽裝物體檢測(cè)旨在識(shí)別隱藏在環(huán)境中的物體,這在醫(yī)學(xué)、藝術(shù)和農(nóng)業(yè)等領(lǐng)域中有各種下游應(yīng)用。然而,以人眼的感知能力發(fā)現(xiàn)偽裝的物體是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。因此,我們認(rèn)為COD任務(wù)的目標(biāo)不僅僅是模仿人類(lèi)在單一RGB域的視覺(jué)能力,而是要超越人類(lèi)的生物視覺(jué)。因此我們引入頻域作為額外的線(xiàn)索,以更好地從背景中檢測(cè)出偽裝的物體。為了很好地將頻率線(xiàn)索引入CNN模型,我們提出了一個(gè)具有兩個(gè)特殊組件的網(wǎng)絡(luò)。 我們首先設(shè)計(jì)了一個(gè)新穎的頻率增強(qiáng)模塊來(lái)挖掘頻域中偽裝物體的線(xiàn)索。它包含離線(xiàn)的離散余弦變換和可學(xué)習(xí)的增強(qiáng)方式。隨后我們使用特征對(duì)齊來(lái)融合RGB域和頻域的特征。此外,為了進(jìn)一步充分利用頻率信息,我們利用特征中的高階關(guān)系來(lái)處理豐富的融合特征。在三個(gè)廣泛使用的COD數(shù)據(jù)集上的綜合實(shí)驗(yàn)表明,所提出的方法在很大程度上超過(guò)了其他先進(jìn)的方法。
4.基于人臉偽造檢測(cè)的頻域?qū)构羲惴ǎ‥xploring Frequency Adversarial Attacks for Face Forgery Detection)
近些年,人臉偽造技術(shù)在人臉信息安全方面帶來(lái)了巨大的挑戰(zhàn),同時(shí)也在道德層面引起了較大的爭(zhēng)議。盡管現(xiàn)有的偽造人臉檢測(cè)方法實(shí)現(xiàn)了較好的檢測(cè)性能,但這些方法容易受到對(duì)抗擾動(dòng)的干擾。在輸入人臉圖像上添加微弱的人為設(shè)計(jì)擾動(dòng),就會(huì)使得偽造人臉檢測(cè)器做出錯(cuò)誤的判斷,帶來(lái)嚴(yán)重的安全隱患。在本研究中,針對(duì)偽造人臉檢測(cè)器利用頻率的信息進(jìn)行鑒別真?zhèn)稳四樀奶攸c(diǎn),提出了一種針對(duì)偽造人臉檢測(cè)器的頻率對(duì)抗攻擊方法。通過(guò)對(duì)輸入人臉圖像應(yīng)用離散余弦變換 (DCT),在頻域中引入適應(yīng)性的對(duì)抗噪聲。與空間域中現(xiàn)有的對(duì)抗攻擊方法(例如 FGSM、PGD)相比,我們的方法更不易被人眼察覺(jué),而且不會(huì)降低原始人臉圖像的視覺(jué)質(zhì)量。此外,受元學(xué)習(xí)思想的啟發(fā),我們還提出了一種融合空間域和頻域的對(duì)抗攻擊方法。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以有效地欺騙基于空間域特性的檢測(cè)器,還可以有效地欺騙基于頻域特征的檢測(cè)器。此外,該方法作為黑盒攻擊具有了較好的跨偽造人臉檢測(cè)模型的攻擊遷移性。
5.針對(duì)黑盒對(duì)抗攻擊的高效無(wú)數(shù)據(jù)模型竊取方法(Efficent Data-free Model Stealing for Black-box Adversarial Attacks)
基于對(duì)抗樣本具有遷移性的性質(zhì),訓(xùn)練替代模型來(lái)進(jìn)行遷移攻擊同樣是一種有效的攻擊方式。 通常,這些替代模型的訓(xùn)練往往依賴(lài)于原模型的真實(shí)訓(xùn)練數(shù)據(jù)。 然而在現(xiàn)實(shí)場(chǎng)景中, 由于個(gè)人信息保護(hù),原始的訓(xùn)練數(shù)據(jù)很難合法合規(guī)的獲取??紤]到這些數(shù)據(jù)限制,最近一些研究提出在零樣本場(chǎng)景中來(lái)訓(xùn)練替代模型。 然而這些方法依賴(lài)于對(duì)抗性地訓(xùn)練生成器和替代模型,這種訓(xùn)練模式往往收斂困難,甚至可能導(dǎo)致模型崩塌, 在整個(gè)訓(xùn)練過(guò)程中,需要反復(fù)地訪(fǎng)問(wèn)黑盒模型,導(dǎo)致實(shí)際效率非常低下。在本文中,通過(guò)重新思考生成器和替代模型之間的合作關(guān)系,我們?cè)O(shè)計(jì)了一個(gè)更加高效且強(qiáng)大的零樣本黑盒遷移攻擊框架。該方法能在少量的查詢(xún)次數(shù)中,大幅地增加遷移成功率。通過(guò)在多個(gè)數(shù)據(jù)集上的進(jìn)行的大量實(shí)驗(yàn),我們證明了該方法的有效性。
6.基于Vit的可信性圖塊對(duì)抗攻擊防御方法(Towards Practical Certifiable Patch Defense with Vision Transformer)
圖塊攻擊是對(duì)抗性實(shí)例中最具威脅性的物理攻擊形式之一,它可以通過(guò)在連續(xù)區(qū)域內(nèi)任意修改像素而導(dǎo)致網(wǎng)絡(luò)誘發(fā)錯(cuò)誤分類(lèi)??尚诺膱D塊防御可以保證分類(lèi)器不受圖塊攻擊影響的魯棒性?,F(xiàn)有的可信圖塊防御系統(tǒng)犧牲了分類(lèi)器的精度,在小數(shù)據(jù)集上只能獲得較低的可信精度。此外,這些方法的純凈和可信精度仍然大大低于正常分類(lèi)網(wǎng)絡(luò)的精度,這限制了它們?cè)趯?shí)踐中的應(yīng)用。為了邁向?qū)嵱玫目尚诺膱D塊防御,我們將視覺(jué)變換器(ViT)引入去隨機(jī)化平滑(DS)的框架中。具體來(lái)說(shuō),我們提出了一個(gè)漸進(jìn)式平滑圖像建模任務(wù)來(lái)訓(xùn)練視覺(jué)轉(zhuǎn)換器,它可以在保留全局語(yǔ)義信息的同時(shí),捕捉到圖像的更多可識(shí)別的局部背景。為了在現(xiàn)實(shí)世界中進(jìn)行有效的推理和部署,我們創(chuàng)新性地將原始ViT的全局自我注意結(jié)構(gòu)重建為孤立的帶狀單元自我注意。在ImageNet上,在2%的區(qū)域圖塊攻擊下,我們的方法實(shí)現(xiàn)了41.70%的可信準(zhǔn)確率,比之前的最佳方法(26.00%)增加了近1倍。同時(shí),我們的方法實(shí)現(xiàn)了78.58%的純凈精度,這與正常的ResNet-101的精度相當(dāng)接近。廣泛的實(shí)驗(yàn)表明,我們的方法在CIFAR-10和ImageNet上的推斷效率高,獲得了最先進(jìn)的純凈和可信精度。
7.基于物理引導(dǎo)解耦的隱式渲染和3D人臉重建(Physically-guided Disentangled Implicit Rendering for 3D Face Modeling)
本文提出了一種新的基于物理引導(dǎo)解耦的隱式渲染框架PhyDIR,用于高質(zhì)量的3D人臉重建。方法動(dòng)機(jī)來(lái)源于兩方面:常用的圖形學(xué)渲染器依賴(lài)過(guò)度的近似過(guò)程,阻礙了逼真的成像效果;神經(jīng)渲染方法能夠獲得更好的紋理,但其耦合的過(guò)程難以感知3D操作。因此,我們通過(guò)顯式的物理引導(dǎo),學(xué)習(xí)對(duì)于隱式渲染的解耦方法,同時(shí)保證了渲染過(guò)程中的兩點(diǎn)性質(zhì),即3D的處理和感知能力,以及高質(zhì)量的成像。對(duì)于前者,PhyDIR顯式地將3D光影和光柵化模型用于對(duì)渲染器的控制,對(duì)光照,臉型和視角進(jìn)行解耦。特別地,PhyDIR提出了一種新的多圖光影策略以補(bǔ)足單目圖像的限制,使得光照變化能夠被神經(jīng)渲染器理解。對(duì)于后者,PhyDIR學(xué)習(xí)了基于人臉集合的隱式紋理,避免了病態(tài)的本征分解問(wèn)題,并且利用一系列的一致性損失約束渲染過(guò)程。基于提出的方法,3D人臉重建能夠受益于這兩種渲染策略。在公開(kāi)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明PhyDIR能夠在紋理和幾何重建上獲得當(dāng)前最優(yōu)的結(jié)果。
8.基于開(kāi)放的退化圖像學(xué)習(xí)人臉3D重建(Learning to Restore 3D Face from In-the-Wild Degraded Images)
開(kāi)放場(chǎng)景的3D人臉重建是一個(gè)有挑戰(zhàn)性的問(wèn)題,因?yàn)槠涫苤朴谟邢薜娜四樝闰?yàn)和線(xiàn)索,尤其在輸入圖像質(zhì)量退化的情況下。為了處理這個(gè)問(wèn)題,我們提出了一種新的Learning to Restore (L2R)框架,無(wú)監(jiān)督地從退化圖像中獲得高質(zhì)量的人臉重建結(jié)果。相比于直接修復(fù)2D的圖像表觀(guān),L2R通過(guò)提取生成式人臉先驗(yàn)以恢復(fù)3D細(xì)節(jié)。具體地,L2R提出了一個(gè)新的反射率修復(fù)網(wǎng)絡(luò)以重建高質(zhì)量的3D人臉紋理,其中利用了預(yù)訓(xùn)練的生成網(wǎng)絡(luò)對(duì)缺失的人臉線(xiàn)索進(jìn)行彌補(bǔ)?;诨謴?fù)的3D紋理中的細(xì)節(jié),L2R學(xué)習(xí)建模位移圖來(lái)增強(qiáng)面部結(jié)構(gòu)和幾何。這兩個(gè)過(guò)程通過(guò)一個(gè)新的3D對(duì)抗損失進(jìn)行相互優(yōu)化,進(jìn)一步提升效果并降低學(xué)習(xí)過(guò)程中的不確定性。在公開(kāi)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,L2R在低質(zhì)量圖像為輸入的情況下,可以獲得當(dāng)前的重建結(jié)果。
9.基于臉型先驗(yàn)和高清生成器的高清人像修復(fù)算法(Blind Face Restoration via Integrating Face Shape and Generative Priors)
高清人像修復(fù)是從低質(zhì)量圖中恢復(fù)出高清人像。雖然現(xiàn)有方法在生成高質(zhì)量圖像方面取得了重大進(jìn)展,但它們通常無(wú)法從嚴(yán)重退化的輸入中恢復(fù)自然的面部形狀和高保真面部細(xì)節(jié)。在這項(xiàng)工作中,我們整合形狀和生成先驗(yàn)來(lái)指導(dǎo)人像恢復(fù)。首先,我們建立了一個(gè)形狀恢復(fù)模塊,通過(guò) 3D 重建技術(shù)恢復(fù)合理的面部幾何形狀。其次,采用預(yù)訓(xùn)練的人像生成器作為我們的解碼器,以生成逼真的高分辨率圖像。為了確保高保真度,分別從低質(zhì)量輸入和渲染的 3D 圖像中提取的分層空間特征插入到解碼器中,提出了自適應(yīng)特征融合塊 (AFFB)。此外,我們引入了混合損失同時(shí)訓(xùn)練形狀和生成先驗(yàn),從而使這兩個(gè)先驗(yàn)更好地適應(yīng)我們的人像恢復(fù)任務(wù)。在合成數(shù)據(jù)集和真實(shí)世界數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,我們提出的 SGPN 優(yōu)于其他SOTA 方法
10.IFRNet:基于中間幀特征重建的高效插幀算法(IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation)
目前流行的視頻插幀算法通常依賴(lài)于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),其具有大量的模型參數(shù)與較高的推理延遲,這限制了它們?cè)诖罅繉?shí)時(shí)應(yīng)用中的使用。在這篇論文中,我們新發(fā)明了一個(gè)高效的只包含一個(gè)encoder-decoder結(jié)構(gòu)的視頻插幀網(wǎng)絡(luò)稱(chēng)為IFRNet,以實(shí)現(xiàn)快速的中間幀合成。它首先對(duì)輸入的兩幀圖像提取特征金字塔,然后聯(lián)合refine雙向中間光流場(chǎng)和一個(gè)具有較強(qiáng)表示能力的中間特征,直到恢復(fù)到輸入分辨率并得到想要的輸出。這個(gè)逐漸refine的中間特征不僅能夠促進(jìn)中間光流估計(jì),而且能夠補(bǔ)償缺失的紋理細(xì)節(jié),使得所提出的IFRNet不需要額外的紋理合成網(wǎng)或refinement模塊。為了充分釋放它的潛能,我們進(jìn)一步提出一個(gè)新穎的面向任務(wù)的光流蒸餾損失函數(shù)來(lái)使得網(wǎng)絡(luò)集中注意力學(xué)習(xí)對(duì)插幀有益的運(yùn)動(dòng)信息。與此同時(shí),一個(gè)新的幾何一致性正則化項(xiàng)被施加到逐漸refine的中間特征來(lái)保持其較好的結(jié)構(gòu)布局。在多個(gè)公認(rèn)的視頻插幀評(píng)測(cè)數(shù)據(jù)集實(shí)驗(yàn)中,所提出的IFRNet和相關(guān)優(yōu)化算法展現(xiàn)出了state-of-the-art的插幀精度與可視化效果,同時(shí)具有極快的推理速度。