午夜av福利成人,经典免费aV

各有千秋：主要帶噪學(xué)習(xí)方法分析

關(guān)于帶噪學(xué)習(xí)，近些年有一些重要論文。AAAI 2017年發(fā)表的這篇研究說明，MAE以均等分配的方式處理各個(gè)sample，而CE（cross entropy）會(huì)向識(shí)別困難的sample傾斜。因此，針對(duì)noisy labels，MAE比CE更加魯棒，不容易讓模型過擬合到label noise上。

當(dāng)然，CE也有自身優(yōu)勢(shì)。2018年的這篇文章是接著前面一篇文章往下做的。這篇文章指出，MAE雖然比CE在noisy label更加魯棒，但是CE的準(zhǔn)確度更高，擬合也更快。

那么，如何結(jié)合CE和MAE的優(yōu)勢(shì)呢？這篇文章提出這樣一個(gè)loss function，也就叫做GCE loss（Generalized Cross Entropy loss）。它如何結(jié)合二者的優(yōu)勢(shì)？這里q是一個(gè)0到1之間的超參數(shù)，當(dāng)q趨近于0的時(shí)候，這個(gè)Lq就退化成了一個(gè)CE loss，當(dāng) q趨近于1時(shí)，Lq就退化成了MAE loss。所以在真實(shí)場(chǎng)景中，只要對(duì)q進(jìn)行調(diào)整，就會(huì)讓這個(gè)loss在一些noise label數(shù)據(jù)下有很好的表現(xiàn)。

還有的論文是基于信息論設(shè)計(jì)的loss function，Deterministic information loss。它的Motivation是想尋找一個(gè)信息測(cè)度（information measure）I。假設(shè)在I下任意存在兩個(gè)分類器f、f’，如果在噪音數(shù)據(jù)集下，通過I, f比f’表現(xiàn)得更好，那么在干凈數(shù)據(jù)集下，f比f’表現(xiàn)得也好，也就是說它在噪音數(shù)據(jù)集和干凈數(shù)據(jù)集上滿足一致性。如果在噪音數(shù)據(jù)集下它表現(xiàn)得好，那通過這個(gè)一致性，那么在干凈數(shù)據(jù)集下表現(xiàn)得也一定很好。

把時(shí)間往前推進(jìn)一下，講一些目前正在審稿中的文章，關(guān)于Peer loss。我們構(gòu)造的時(shí)候它等于兩個(gè)loss的加權(quán)，α是權(quán)重系數(shù)，衡量l1和l2的大小關(guān)系，Xi和Y ?是樣本和對(duì)應(yīng)的label。

為什么peer loss可以很好地解決noisy labels問題？為了方便，這里先把l1、l2都定義成CE loss，那么在第一項(xiàng)，它表現(xiàn)的像positive learning，因?yàn)樗褪且粋€(gè)傳統(tǒng)的CE function，而在第二項(xiàng)，它像 negative learning，也就是在標(biāo)記錯(cuò)的時(shí)候，比如把狗標(biāo)成汽車，如果用positive learning進(jìn)行學(xué)習(xí)的話那就出現(xiàn)問題了，它是隨機(jī)從一個(gè)label中進(jìn)行抽取，希望讓模型學(xué)到它不是一個(gè)鳥，狗不是一個(gè)鳥，它的語義關(guān)系首先是成立的，是正確的，這樣一來，第二項(xiàng)對(duì)模型也能起到一個(gè)積極的導(dǎo)向作用。

更加有意思的是，單獨(dú)訓(xùn)練第一項(xiàng)和單獨(dú)訓(xùn)練第二項(xiàng)都不可能使模型達(dá)到理論上的最優(yōu)，因?yàn)槟Ｐ痛嬖趎oisy labels。但是我們證明了它們兩項(xiàng)聯(lián)合訓(xùn)練，在統(tǒng)計(jì)上是可以讓模型達(dá)到最優(yōu)。

我們提出了一個(gè)主要定理，α是權(quán)重項(xiàng)，我們證明了存在一個(gè)最優(yōu)的α，用peer loss在noisy labels下進(jìn)行優(yōu)化，它得出的神經(jīng)網(wǎng)絡(luò)的解等價(jià)于用l1在clean labels下進(jìn)行優(yōu)化，可以把l1理解成CE loss。所以我們理論證明了peer loss的最優(yōu)性。

看一下peer loss在數(shù)據(jù)集下的表現(xiàn)，這里使用的數(shù)據(jù)集是CIFAR-10，然后我們讓CIFAR-10數(shù)據(jù)集里面有40%的uniform noise或者說symmetric noise。圖中的藍(lán)色代表clean label分布，橘黃色代表noisy label分布。通過peer loss優(yōu)化后，神經(jīng)網(wǎng)絡(luò)可以把兩類比較完美地區(qū)分開，而且中間間隔很大，所以說證明了peer loss不僅在理論上成立，在實(shí)際上其實(shí)效果也不錯(cuò)。

再看一下數(shù)值的實(shí)驗(yàn)結(jié)果。我們?cè)贛NIST、Fashion MNIST、CIFAR-10上進(jìn)行了實(shí)驗(yàn)，可以看到MNIST和Fashion MNIST上，用peer loss優(yōu)化的結(jié)果超過了一些其他的結(jié)果，包括DMI的結(jié)果三四十個(gè)點(diǎn)，這是非常大的進(jìn)步。在CIFAR-10上也超過將近5個(gè)點(diǎn)，四個(gè)多點(diǎn)左右這樣的一個(gè)結(jié)果。而且，我們發(fā)現(xiàn)peer loss尤其對(duì)Sparse,High這種noise type表現(xiàn)得特別明顯。

以上講的方法主要是設(shè)計(jì)loss function的思路，讓網(wǎng)絡(luò)能夠抵抗noisy labels。但其實(shí)還有很多其他方法，比如samples selection和label correction，這兩個(gè)方法是通過選擇樣本和對(duì)樣本進(jìn)行糾正來進(jìn)行帶噪學(xué)習(xí)訓(xùn)練。

這篇發(fā)表在2018年NeurlPS的文章是關(guān)于Co-teaching。它的基本假設(shè)是認(rèn)為noisy labels的loss要比clean labels的要大，于是它并行地訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò)A和B，在每一個(gè)Mini-batch訓(xùn)練的過程中，每一個(gè)神經(jīng)網(wǎng)絡(luò)把它認(rèn)為loss比較小的樣本，送給它其另外一個(gè)網(wǎng)絡(luò)，這樣不斷進(jìn)行迭代訓(xùn)練。

接下來介紹騰訊優(yōu)圖在2019年底發(fā)表的一篇文章，解決一類特殊的label noise。這類label noise不是人為標(biāo)注產(chǎn)生的，而是在訓(xùn)練中產(chǎn)生的。比如說有這樣一批沒有標(biāo)記的樣本，然后通過一個(gè)聚類算法得到inliers和outliers，outliers是聚類算法中認(rèn)為這一點(diǎn)是孤立點(diǎn)或者是噪音點(diǎn)，它沒法歸到聚類算法的ID里面，就叫做outliers，inliers是聚類算法對(duì)這些樣本進(jìn)行聚類后得到一個(gè)個(gè)id，但每一個(gè)id里面可能存在noise，比如說對(duì)于id1里面有一個(gè)三角，這個(gè)三角更應(yīng)該是id3里面的樣本。它是在模型的聚類過程中產(chǎn)生，所以說這是一類特殊的noise type。

騰訊優(yōu)圖提出了一個(gè)框架，叫Asymmetric Co-teaching。因?yàn)榫垲愔写嬖趇nlier和outliers，這兩個(gè)不同源，所以用非對(duì)稱的思想去解決noise label的問題。

具體來說，首先有很多 Target Data，經(jīng)過模型聚類得到Inliers和Outliers。然后通過k近鄰將outiers進(jìn)行l(wèi)abel。下面一步是比較關(guān)鍵的，和Co-teaching一樣，我們也并行訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)C和M，但是我們往C和M送到的樣本是非同源的，一個(gè)Inlier一個(gè)outliers。然后C和M互相發(fā)送他們認(rèn)為loss比較小的樣本進(jìn)行迭代訓(xùn)練。每次訓(xùn)練之后，再進(jìn)行聚類。不斷重復(fù)這種迭代過程，最后我們發(fā)現(xiàn)outliers越來越少，Inlier也是越來越多，Inlier每個(gè)ID的noise也是越來越少。

可以看一下Asymmetric Co-teaching的結(jié)果，我們主要是在行人重識(shí)別這個(gè)問題上衡量方法的有效性，也就是ReID?？梢钥次覀冞@個(gè)clustering-based的方法在Market和Duke數(shù)據(jù)集中有不錯(cuò)的表現(xiàn)，比之前的一些方法也多了五六個(gè)點(diǎn)。

總結(jié)一下，關(guān)于noisy label learning前面主要介紹了六個(gè)方法，我把它們歸為了Feature independent noise和Feature dependent noise。但是值得注意的是，并不是一個(gè)方法去解決Feature independent noise就無法解決Feature dependent noise，只是說一個(gè)方法它更適用于解決哪個(gè)問題，然后標(biāo)線框的這兩個(gè)是我們的工作。

多模型協(xié)作，提升網(wǎng)絡(luò)表達(dá)能力

關(guān)于協(xié)作學(xué)習(xí)其實(shí)學(xué)術(shù)界沒有統(tǒng)一的定義，一般來講只要是多個(gè)模型互相協(xié)作，去解決一個(gè)或者多個(gè)任務(wù)，那就可以把這種學(xué)習(xí)范式叫做協(xié)作學(xué)習(xí)。

按照任務(wù)分，協(xié)作學(xué)習(xí)可以分成兩個(gè)：一個(gè)是解決多個(gè)任務(wù)，有dual learning和cooperative learning；一個(gè)是多個(gè)模型一起協(xié)作解決一個(gè)任務(wù)。因?yàn)閐ual learning和cooperative learning主要是解決自然語言處理的問題，自然語言處理涉及到比如說中文翻譯成英文，英文翻譯成中文，這是多個(gè)任務(wù)。我們這里主要是講CV方面，所以說我們主要講解決一個(gè)任務(wù)，接下來會(huì)介紹co-training、deep mutual learning、filter grafting和DGD這幾個(gè)工作。

關(guān)于 Co-training的這篇文章非常古老，是1998年的，但是它的引用量已經(jīng)好幾千，它其實(shí)是解決了半監(jiān)督的問題。

接下來介紹2018年的這篇文章，發(fā)表在CVPR，這篇叫做deep mutual learning。它的思想極其簡(jiǎn)單，我們都知道蒸餾的時(shí)候teacher是fixed，然后對(duì)于學(xué)生進(jìn)行監(jiān)督，這篇文章的思想就是在蒸餾的過程中老師并不保持fixed，也進(jìn)行迭代的訓(xùn)練操作，也就是說老師教學(xué)生，學(xué)生也教老師。

時(shí)間再拉近一點(diǎn)，這是今年騰訊優(yōu)圖中稿CVPR2020年的一篇文章，叫做Filter Grafting。這篇文章的motivation是什么呢？我們知道訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)存在很多冗余或者說無效的filter，比如說l1 norm很低，那Pruning就是想把這些filter給移除掉來加速網(wǎng)絡(luò)的推理能力。那么我們想，如果我們不把這些無效的filter移除掉，而是通過其他網(wǎng)絡(luò)的幫助來激活這些無效的filter，讓它們重新變得有價(jià)值起來，那是不是可以進(jìn)一步提高網(wǎng)絡(luò)的表達(dá)能力？

這篇文章有一個(gè)重要的發(fā)現(xiàn)是什么呢？我們發(fā)現(xiàn)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)如果在初始化的時(shí)候都采用隨機(jī)初始化，那么在訓(xùn)練完之后，無效filter的位置是統(tǒng)計(jì)無關(guān)的。所以我們可以并行訓(xùn)練多個(gè)網(wǎng)絡(luò)，在訓(xùn)練的過程中，每個(gè)網(wǎng)絡(luò)接受上一個(gè)網(wǎng)絡(luò)的部分weight （我們將這種方式叫做grafting），因?yàn)槊總€(gè)網(wǎng)絡(luò)無效filter的位置是統(tǒng)計(jì)無關(guān)的。所以其他網(wǎng)絡(luò)有效filter的weight可以填補(bǔ)到自己網(wǎng)絡(luò)里的無效filter當(dāng)中。多個(gè)網(wǎng)絡(luò)之間互相進(jìn)行這種操作，結(jié)束訓(xùn)練之后每個(gè)神經(jīng)網(wǎng)絡(luò)都會(huì)有更好的特征表達(dá)，而且測(cè)試的時(shí)候準(zhǔn)確率性能也會(huì)更好。

可以看一下這個(gè)結(jié)果，對(duì)于在CIFAR-10、CIFAR-100上進(jìn)行的實(shí)驗(yàn)，與mutual learning、傳統(tǒng)的distillation、還有RePr相比較，F(xiàn)ilter Grafting效果還是不錯(cuò)的，對(duì)于一些大網(wǎng)絡(luò)，特別是對(duì)于CIFAR-100有兩個(gè)點(diǎn)的提升。

Grafting是可以有效提高無效filter，但是可能有效filter的信息量會(huì)減少。我們?cè)谧鰃rafting加權(quán)的時(shí)候，比如說M1和M2進(jìn)行加權(quán)，M1的layer1加到M2的layer1上面，雖然填補(bǔ)了M2中無效filter的空虛，但是M2有效filter可能也會(huì)受到影響。因?yàn)镸1它本身也有無效filter，它直接加到M2上，M2的有效filter的信息量可能會(huì)減少，

這篇還在審稿中的文章是關(guān)于我們的新發(fā)現(xiàn)，就是傳統(tǒng)的蒸餾可以解決有效filter信息量可能減少這個(gè)問題，這是這篇文章的貢獻(xiàn)。我們提出了DGD的training framework。

DGD在訓(xùn)練的過程中，并行訓(xùn)練多個(gè)teacher和多個(gè)student。多個(gè)teacher對(duì)student進(jìn)行蒸餾，而student之間進(jìn)行g(shù)rafting。最后訓(xùn)練的結(jié)果是每一個(gè)student的valid filter和invalid filter都會(huì)有信息量的提升。

看一下DGD framework的結(jié)果。我們對(duì)比了傳統(tǒng)的filter grafting，還有knowledge distillation，發(fā)現(xiàn)比grafting，distillation都有不錯(cuò)的提升，比如在CIFAR-100上，各個(gè)網(wǎng)絡(luò)基本都會(huì)比baseline提升兩到三個(gè)點(diǎn)。

朝下一個(gè)難題前進(jìn)，提升真實(shí)業(yè)務(wù)場(chǎng)景下的準(zhǔn)確率

前面講的是noise label learning和collaborative leaning，那么基于這兩個(gè)可以做什么呢？

第一個(gè)是設(shè)計(jì)一些feature dependent noise的loss形式。因?yàn)槲艺J(rèn)為現(xiàn)在對(duì)于noisy label learning領(lǐng)域，feature independent noise可能解決得差不多了，準(zhǔn)確率都很高了，接下來一個(gè)主要的點(diǎn)就是設(shè)計(jì)一些loss方式來解決feature dependent問題。而且，這個(gè)問題是真實(shí)的業(yè)務(wù)場(chǎng)景、真實(shí)的數(shù)據(jù)集上的noise type形式。

第二個(gè)是，我們知道grafting的motivation是來自于pruning，那么我們是否可以用grafting的一些思想去指導(dǎo)神經(jīng)網(wǎng)絡(luò)來進(jìn)行更有效的pruning，這是一些未來大家有興趣可以探索的一個(gè)點(diǎn)。

Q&A

Q: 您提到的那些噪聲是不是其實(shí)都是已知的，假設(shè)如果現(xiàn)在有一批數(shù)據(jù)，標(biāo)注是否正確其實(shí)我們無法知道，那這種情況有什么好的解決辦法嗎？

A:剛才我講的這些文章中很多是假設(shè)知道noise rate這個(gè)prior knowledge，但真實(shí)場(chǎng)景其實(shí)我們不知道noise rate是多大，我覺得一個(gè)好的解決方法是用一些design loss的方式，建議大家可以先用一些像peer loss或者DMI loss先進(jìn)行一些嘗試，因?yàn)檫@些是更貼近實(shí)際的。

Q：在grafting的場(chǎng)景里面，如何去判斷有效或者無效的filter？

A：我們想解決的是減少無效filter，那么首先要定義什么是無效filter。傳統(tǒng)的定義方法是通過L1 Norm進(jìn)行定義，其實(shí)我們覺得通過L1 Norm進(jìn)行定義并不完美，不是L1 Norm比較小，filter就不好, L1 Norm比較大，filter信息量就很多。比如對(duì)于一個(gè)神經(jīng)網(wǎng)絡(luò)來說，如果一個(gè)filter如果都是全1的話，這是沒有任何信息量，因?yàn)樗鼪]有diversity，但是L1 Norm也很大。所以這篇文章其實(shí)并不是通過L1 Norm的手段去定義無效filter，我們是通過信息量去定義哪些是無效的filter，哪些是無效的layer。

Q：Grafting和ensemble有什么區(qū)別？

A：Ensemble其實(shí)訓(xùn)練的是多個(gè)模型，測(cè)試的時(shí)候也是多個(gè)模型。但是grafting的優(yōu)勢(shì)是我們訓(xùn)練的就是多個(gè)模型，但是測(cè)試的時(shí)候只用一個(gè)模型。也就是說訓(xùn)練的時(shí)候這些模型進(jìn)行g(shù)rafting，訓(xùn)練之后我們隨機(jī)抽取任何一個(gè)網(wǎng)絡(luò)進(jìn)行測(cè)試都是有比較好的提升的。所以測(cè)試的時(shí)候只用一個(gè)模型，它比ensemble更加高效，inference time更少。

分享到

songjy

近期文章

近期文章

熱門標(biāo)簽

songjy

相關(guān)推薦