二、技術(shù)背景
1. 隱寫(xiě)術(shù)(Steganography)
隱寫(xiě)術(shù)一般指的是向圖像或者視頻等信息載體中嵌入隱秘信息,其中大部分隱寫(xiě)術(shù)算法都是基于空域等知識(shí)進(jìn)行信息嵌入。近年來(lái)圖像隱寫(xiě)術(shù)的發(fā)展也是層出不窮,從最早期的LSB、LSB-Match到內(nèi)容自適應(yīng)隱寫(xiě)術(shù):HUGO[1](空域自適應(yīng)隱寫(xiě)算法)、WOW[2]、SUNIWARD[3],再到如今的深度學(xué)習(xí)隱寫(xiě)術(shù)。隱寫(xiě)算法已經(jīng)可以自動(dòng)的將隱秘信息嵌入到紋理、噪聲豐富的圖像區(qū)域,并保持復(fù)雜的圖像高階統(tǒng)計(jì)特性。
2. 隱寫(xiě)分析(Steganalysis)
隱寫(xiě)分析是通過(guò)對(duì)圖像的統(tǒng)計(jì)特性進(jìn)行分析,判斷圖像中是否隱藏有額外的信息甚至估計(jì)信息嵌入量、獲取隱藏信息內(nèi)容的技術(shù)。目前的隱寫(xiě)分析研究領(lǐng)域通常將隱寫(xiě)分析看成一個(gè)二分類(lèi)問(wèn)題,目標(biāo)是區(qū)分載體圖像和載密圖像。下圖展示隱寫(xiě)分析的例子(圖例來(lái)自數(shù)據(jù)集BOSSbase_1.0.1)。
隱寫(xiě)分析方法一般分為兩類(lèi)。一類(lèi)是基于傳統(tǒng)特征的圖像隱寫(xiě)分析方法,這一類(lèi)方法主要包含特征提取、特征增強(qiáng)和特征分類(lèi)器三部分;其中特征提取與增強(qiáng)部分對(duì)于后面訓(xùn)練分類(lèi)器有著決定性的作用,且特征選擇非常依賴于人工,存在耗時(shí)長(zhǎng)、魯棒性差等缺陷,代表的隱寫(xiě)分析模型有 SPAM[4]、SRM[5]、DCTR[6]等。另一類(lèi)方法是基于深度學(xué)習(xí)的隱寫(xiě)分析方法,模型主要分為半學(xué)習(xí)模型和全學(xué)習(xí)模型。半學(xué)習(xí)模型依靠SRM的30個(gè)濾波核作為預(yù)處理層來(lái)進(jìn)行網(wǎng)絡(luò)的學(xué)習(xí),代表的網(wǎng)絡(luò)有Xu-Net[7]、Ye-Net[8]等。全學(xué)習(xí)模型則完全依靠深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力從紛繁復(fù)雜的像素信息中學(xué)習(xí)到重要的殘差特征信息,代表的深度網(wǎng)絡(luò)SRNet[9]等。全學(xué)習(xí)深度網(wǎng)絡(luò)在檢測(cè)精度上要優(yōu)于半學(xué)習(xí)深度網(wǎng)絡(luò)并且更具有魯棒性。
3. 數(shù)字水印(Digital WaterMarking)
數(shù)字水印技術(shù)是指將特定的編碼信息嵌入到數(shù)字信號(hào)中,數(shù)字信號(hào)可能是音頻、圖像或是視頻等。若要拷貝有數(shù)字水印的信號(hào),所嵌入的信息也會(huì)一并被拷貝。數(shù)字水印技術(shù)是一種基于內(nèi)容的、非密碼機(jī)制的計(jì)算機(jī)信息隱藏技術(shù),是保護(hù)信息安全、實(shí)現(xiàn)防偽溯源、版權(quán)保護(hù)的有效辦法。數(shù)字水印一般分為明水印和隱藏水印。隱藏水印通過(guò)在載體數(shù)據(jù)(音頻、視頻等)中添加隱藏標(biāo)記,在一般情況下無(wú)法被人眼以及機(jī)器所辨識(shí)。隱藏水印的重要應(yīng)用之一就是保護(hù)著作權(quán),期望能借此避免或阻止數(shù)字媒體未經(jīng)授權(quán)的復(fù)制和拷貝。
4. 水印檢測(cè)
隱藏水印信息檢測(cè)的方法一般有兩種。一種是基于自相關(guān)的檢測(cè)方法,這種方法是根據(jù)水印嵌入算法提出的相關(guān)函數(shù)生成對(duì)應(yīng)的檢測(cè)算法,另一種則是利用模版匹配的方法,該方法利用圖像處理中模板匹配的思想,在添加水印時(shí)制定一個(gè)模板,通過(guò)模板來(lái)添加水??;在檢測(cè)水印時(shí),在待測(cè)圖像上使用模板進(jìn)行相似度計(jì)算;當(dāng)相似度超過(guò)設(shè)定的閾值時(shí)便認(rèn)定檢出水印,反之則無(wú)水印。
5. 聯(lián)系與區(qū)別
隱寫(xiě)術(shù)&隱寫(xiě)分析(Steganography&Steganalysis):隱寫(xiě)術(shù)更注重于嵌入信息的隱蔽性,即如何嵌入才能讓載密圖像無(wú)法被敵手察覺(jué)異常,通常載密圖像在通訊中是無(wú)損的;隱寫(xiě)分析則期望在載體數(shù)據(jù)無(wú)損的情況下,判斷一張圖像是載密圖像還是原始圖像。
數(shù)字水印(Digital WaterMarking) 更注重嵌入信息的魯棒性,含水印信息的載體在傳播過(guò)程中會(huì)受到諸如:壓縮、裁剪、放縮、剪輯等攻擊。需要保證在面對(duì)這種攻擊情勢(shì)下,數(shù)字水印仍然可以保持有效性,這是版權(quán)保護(hù)的一個(gè)重要前提。
三、深度學(xué)習(xí)識(shí)別隱藏水印
與數(shù)字隱寫(xiě)相比,隱藏水印除了要求水印的隱蔽性,還更加注重水印信息的魯棒性。隱藏水印載體在真實(shí)場(chǎng)景下中會(huì)遇到很多復(fù)雜且未知的攻擊,這通常會(huì)導(dǎo)致水印信息的部分或整體特征被破壞,最終導(dǎo)致水印信息無(wú)法被檢測(cè)或者完整提取。傳統(tǒng)的水印檢測(cè)方法多是基于相關(guān)性檢測(cè)、模版提取等方法確定載體中是否有水印。這些方法在面對(duì)復(fù)雜攻擊時(shí)效果較差,而且不同隱藏水印添加的特征多種多樣,因此針對(duì)特定水印方法設(shè)計(jì)單獨(dú)的分析檢測(cè)方案耗時(shí)費(fèi)力。深度學(xué)習(xí)在處理這些問(wèn)題上則天生具有優(yōu)勢(shì),我們可以在訓(xùn)練過(guò)程中模擬現(xiàn)實(shí)攻擊提升魯棒性,使用多種水印算法數(shù)據(jù)混合提升模型的泛化能力。
1. 數(shù)據(jù)集構(gòu)建
由于傳統(tǒng)數(shù)據(jù)集存在訓(xùn)練圖片尺寸單一、數(shù)據(jù)量級(jí)小等缺陷,我們構(gòu)建了一個(gè)包含1000個(gè)視頻和20w張圖片的原始載體數(shù)據(jù)集;載體數(shù)據(jù)集中盡量保證了數(shù)據(jù)多樣化與多元化,包含了電影、人物、風(fēng)景、科技、音樂(lè)、卡通等多種不同風(fēng)格的視頻和圖像。我們?cè)谠摂?shù)據(jù)集上制作隱藏水印數(shù)據(jù)集,隱藏水印數(shù)據(jù)集中包括了多種視頻和圖像水印算法,最終我們將原始載體集和水印集進(jìn)行合并作為我們的訓(xùn)練集。
數(shù)據(jù)集的質(zhì)量直接影響到模型最終的表達(dá)能力。因此我們對(duì)訓(xùn)練集進(jìn)行了清洗,我們使用多種圖像質(zhì)量模型對(duì)載體質(zhì)量進(jìn)行了過(guò)濾和清洗。為了充分驗(yàn)證模型的泛化能力,我們使用現(xiàn)實(shí)場(chǎng)景中積累的真實(shí)數(shù)據(jù)作為驗(yàn)證集,并對(duì)其進(jìn)行標(biāo)注和擴(kuò)增,在驗(yàn)證集上應(yīng)用一些復(fù)雜的變換來(lái)模擬現(xiàn)實(shí)中的復(fù)雜且未知的攻擊形式。
2. 模型訓(xùn)練
2.1 模型
從精度以及性能兩個(gè)方面的指標(biāo)來(lái)考慮,我們選用輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNetV3[10]系列中的MobileNetV3_small和MobileNetV3_large作為備選模型,并針對(duì)水印識(shí)別任務(wù)對(duì)模型架構(gòu)進(jìn)行調(diào)整,以使其更適合該任務(wù)。MobileNet系列模型不論從精度還是性能都在各類(lèi)計(jì)算機(jī)視覺(jué)任務(wù)上展現(xiàn)出了優(yōu)異的成績(jī),它使用深度可分離卷積來(lái)構(gòu)建輕量級(jí)的深層神經(jīng)網(wǎng)絡(luò),能夠在延遲度和準(zhǔn)確度之間有效地進(jìn)行平衡。為了比較計(jì)算機(jī)視覺(jué)領(lǐng)域的深度模型與圖像隱寫(xiě)分析深度模型之間的差異,我們同時(shí)選用SRNet作為備選模型之一。
下表是對(duì)選定的三個(gè)備選模型進(jìn)行前置訓(xùn)練(相同實(shí)驗(yàn)環(huán)境下)在測(cè)試集上的結(jié)果,我們從模型的性能方面與精度方面進(jìn)行綜合考察??梢?jiàn)MobileNetV3_large不論在精度和速度上都要比SRNet要更勝一籌。因此選用MobileNetV3_large模型作為識(shí)別隱藏水印的基礎(chǔ)模型。
2.2 訓(xùn)練
隱藏水印檢測(cè)的魯棒性是我們最關(guān)心的指標(biāo),盜竊者在盜竊作品后可能會(huì)對(duì)作品進(jìn)行一系列的改造、混淆與變換。這也就意味著我們的隱藏水印會(huì)面臨著多種多樣的攻擊形式,比如常見(jiàn)的有平移、翻轉(zhuǎn)(鏡像)、高斯模糊、顏色抖動(dòng)、仿射變換、隨機(jī)裁剪等,復(fù)雜的形式有拼接、圖像混合、圖像剪切粘貼、信息壓縮、格式轉(zhuǎn)化等。為了提升模型在檢測(cè)時(shí)對(duì)這些變換手段的魯棒性,我們?cè)谟?xùn)練階段盡可能的模擬數(shù)據(jù)在網(wǎng)絡(luò)傳輸中可能遇到的攻擊變換形式來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),進(jìn)一步提升模型的泛化能力。下表展示了不同數(shù)據(jù)增強(qiáng)情形下對(duì)于模型在驗(yàn)證集上的泛化能力:
最終我們?cè)谟?xùn)練階段使用混合的數(shù)據(jù)增強(qiáng)形式,對(duì)于數(shù)據(jù)先進(jìn)行概率性的翻轉(zhuǎn)處理、平移填充、不同比例壓縮、圖像混合等處理,最后再將數(shù)據(jù)進(jìn)行隨機(jī)裁剪處理,并保證在經(jīng)過(guò)數(shù)據(jù)變換后要保證數(shù)據(jù)中還包含隱藏水印特征。
3. 泛化性
合適的優(yōu)化器配上合適的學(xué)習(xí)率衰減策略能夠加速模型的收斂速度以及學(xué)習(xí)特征的能力。我們使用帶有權(quán)重懲罰項(xiàng)的Adamw優(yōu)化器搭配上余弦退火衰減策略在測(cè)試集以及驗(yàn)證集上獲得了不錯(cuò)的精度。我們?cè)谑占降挠?xùn)練集上使用Adamw優(yōu)化器以及CosineAnnealingWarmRestarts學(xué)習(xí)率衰減策略對(duì)MobileNetV3_large模型進(jìn)行訓(xùn)練。在測(cè)試集上達(dá)到了97.15%的準(zhǔn)確率。
在面臨多種未知組合攻擊的業(yè)務(wù)場(chǎng)景下,我們的模型整體達(dá)到了92.08%的準(zhǔn)確率;在將水印檢測(cè)模型與水印提取模型串聯(lián)時(shí),能夠在不犧牲精度的情況下提升2倍以上的水印處理速度;在并聯(lián)時(shí),能夠顯著提升復(fù)雜攻擊場(chǎng)景下的水印算法的魯棒性。
四、總結(jié)
數(shù)字水印技術(shù)是保護(hù)創(chuàng)作者的合法權(quán)益的重要手段。為了逃避侵權(quán)風(fēng)險(xiǎn)、謀求利益,盜版者會(huì)通過(guò)多種方法對(duì)原創(chuàng)作品進(jìn)行編輯,這就要求添加的數(shù)字水印能夠在這種未知情形下仍然能發(fā)揮作用持續(xù)的為創(chuàng)作者保駕護(hù)航。當(dāng)載體數(shù)據(jù)受到惡意修改時(shí)可能會(huì)導(dǎo)致其中的水印無(wú)法識(shí)別,這將嚴(yán)重影響版權(quán)保護(hù)技術(shù)的魯棒性。而深度學(xué)習(xí)技術(shù)可以讓模型理解隱藏水印中人類(lèi)無(wú)法感知的特征,能夠幫助我們召回那些被破壞的數(shù)字水印信息,有效地提升隱藏水印技術(shù)在真實(shí)場(chǎng)景中的魯棒性和可靠性。
本文提及的算法均已在抖音、飛書(shū)、今日頭條、西瓜視頻中的視頻、圖片、網(wǎng)頁(yè)等敏感場(chǎng)景中落地,取得不錯(cuò)的效果。其中飛書(shū)已全端場(chǎng)景應(yīng)用隱藏水印算法,在具體實(shí)踐上,隱藏水印算法能夠加強(qiáng)飛書(shū)客戶內(nèi)部信息安全管理,防止截屏、拍照泄密。此外,通過(guò)隱藏水印還可以有效幫助企業(yè)用戶實(shí)現(xiàn)版權(quán)保護(hù)與鏈路追蹤,具有準(zhǔn)確性高、實(shí)效性高、抗攻擊強(qiáng)及體驗(yàn)無(wú)感等諸多優(yōu)勢(shì),為用戶提供從物理到應(yīng)用層面的全方位安全護(hù)航。
未來(lái),相關(guān)水印能力將出現(xiàn)在火山引擎云安全系列產(chǎn)品矩陣中,服務(wù)于火山云客戶,用于解決版權(quán)問(wèn)題和數(shù)據(jù)泄露溯源問(wèn)題。
五、參考文獻(xiàn)
1. Pevny T, Filler T, Bas P. Using high-dimensional image models to perform highly undetectable steganography. International Workshop on Information Hiding. Springer, Berlin, Heidelberg, 2010: 161-177.
2. Holub V, Fridrich J. Designing steganographic distortion using directional filters. 2012 IEEE International workshop on information forensics and security (WIFS). IEEE, 2012: 234-239.
3. Holub V, Fridrich J. Digital image steganography using universal distortion. Proceedings of the first ACM workshop on Information hiding and multimedia security. 2013: 59-68
4. Jindal N, Liu B. Review spam detection. Proceedings of the 16th international conference on World Wide Web. 2007: 1189-1190.
5. Fridrich J, Kodovsky J. Rich models for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
6. Holub V, Fridrich J. Low-complexity features for JPEG steganalysis using undecimated DCT. IEEE Transactions on Information Forensics and Security, 2014, 10(2): 219-228.
7. Xu G, Wu H Z, Shi Y Q. Structural design of convolutional neural networks for steganalysis. IEEE Signal Processing Letters, 2016, 23(5): 708-712.
8. Ye J, Ni J, Yi Y. Deep learning hierarchical representations for image steganalysis. IEEE Transactions on Information Forensics and Security, 2017, 12(11): 2545-2557.
9. Boroumand M, Chen M, Fridrich J. Deep residual network for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2018, 14(5): 1181-1193.
10. Howard, Andrew G. et al. “Searching for MobileNetV3.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 1314-1324.
【本文源于網(wǎng)絡(luò)】