亚洲综合av色婷婷,噜噜噜综合

相對于有監(jiān)督行人重識別（RE-ID）方法，無監(jiān)督RE-ID因其更佳的可擴展性受到越來越多的研究關(guān)注，然而在非交疊的多相機視圖下，標簽對（pairwise label）的缺失導致學習鑒別性的信息仍然是非常具有挑戰(zhàn)性的工作。為了克服這個問題，我們提出了一個用于無監(jiān)督RE-ID的軟多標簽學習深度模型。該想法通過將未標注的人與輔助域里的一組已知參考者進行比較，為未標注者標記軟標簽（類似實值標簽的似然向量）?；谝曈X特征以及未標注目標對的軟性標簽的相似度一致性，我們提出了軟多標簽引導的hard negative mining方法去學習一種區(qū)分性嵌入表示（discriminative embedding）。由于大多數(shù)目標對來自交叉視角，我們提出了交叉視角下的軟性多標簽一致性學習方法，以保證不同視角下標簽的一致性。為實現(xiàn)高效的軟標簽學習，引入了參考代理學習(reference agent learning)。我們的方法在Market-1501和DukeMTMC-reID上進行了評估，顯著優(yōu)于當前最好的無監(jiān)督RE-ID方法。

Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

基于自適應空間加權(quán)相關(guān)濾波的視覺跟蹤研究

本文提出自適應空間約束相關(guān)濾波算法來同時優(yōu)化濾波器權(quán)重及空間約束矩陣。首先，本文所提出的自適應空間約束機制可以高效地學習得到一個空間權(quán)重以適應目標外觀變化，因此可以得到更加魯棒的目標跟蹤結(jié)果。其次，本文提出的算法可以通過交替迭代算法來高效進行求解，基于此，每個子問題都可以得到閉合的解形式。再次，本文所提出的跟蹤器使用兩種相關(guān)濾波模型來分別估計目標的位置及尺度，可以在得到較高定位精度的同時有效減少計算量。大量的在綜合數(shù)據(jù)集上的實驗結(jié)果證明了本文所提出的算法可以與現(xiàn)有的先進算法取得相當?shù)母櫧Y(jié)果，并且達到了實時的跟蹤速度。

Adversarial Attacks Beyond the Image Space

超越圖像空間的對抗攻擊

生成對抗實例是理解深度神經(jīng)網(wǎng)絡工作機理的重要途徑。大多數(shù)現(xiàn)有的方法都會在圖像空間中產(chǎn)生擾動，即獨立修改圖像中的每個像素。在本文中，我們更為關(guān)注與三維物理性質(zhì)（如旋轉(zhuǎn)和平移、照明條件等）有意義的變化相對應的對抗性示例子集。可以說，這些對抗方法提出了一個更值得關(guān)注的問題，因為他們證明簡單地干擾現(xiàn)實世界中的三維物體和場景也有可能導致神經(jīng)網(wǎng)絡錯分實例。在分類和視覺問答問題的任務中，我們在接收2D輸入的神經(jīng)網(wǎng)絡前邊增加一個渲染模塊來拓展現(xiàn)有的神經(jīng)網(wǎng)絡。我們的方法的流程是：先將3D場景（物理空間）渲染成2D圖片（圖片空間），然后經(jīng)過神經(jīng)網(wǎng)絡把他們映射到一個預測值（輸出空間）。這種對抗性干擾方法可以超越圖像空間。在三維物理世界中有明確的意義。雖然圖像空間的對抗攻擊可以根據(jù)像素反照率的變化來解釋，但是我們證實它們不能在物理空間給出很好的解釋，這樣通常會具有非局部效應。但是在物理空間的攻擊是有可能超過圖像空間的攻擊的，雖然這個比圖像空間的攻擊更難，體現(xiàn)在物理世界的攻擊有更低的成功率和需要更大的干擾。

Learning Context Graph for Person Search

基于上下文圖網(wǎng)絡的行人檢索模型

本文由騰訊優(yōu)圖實驗室與上海交通大學主導完成。

近年來，深度神經(jīng)網(wǎng)絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基于單人的外觀信息，其在處理跨攝像頭下行人外觀出現(xiàn)姿態(tài)變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基于上下文信息的行人檢索模型。所提出的模型將場景中同時出現(xiàn)的其他行人作為上下文信息，并使用卷積圖模型建模這些上下文信息對目標行人的影響。我們在兩個著名的行人檢索數(shù)據(jù)集CUHK-SYSU和PRW的兩個評測維度上刷新了當時的世界紀錄，取得了top1的行人檢索結(jié)果。

Underexposed Photo Enhancement using Deep Illumination Estimation

基于深度學習優(yōu)化光照的暗光下的圖像增強

本文介紹了一種新的端到端網(wǎng)絡，用于增強曝光不足的照片。我們不是像以前的工作那樣直接學習圖像到圖像的映射，而是在我們的網(wǎng)絡中引入中間照明，將輸入與預期的增強結(jié)果相關(guān)聯(lián)，這增強了網(wǎng)絡從專家修飾的輸入/輸出圖像學習復雜的攝影調(diào)整的能力。基于該模型，我們制定了一個損失函數(shù)，該函數(shù)采用約束和先驗在中間的照明上，我們準備了一個3000個曝光不足的圖像對的新數(shù)據(jù)集，并訓練網(wǎng)絡有效地學習各種照明條件的豐富多樣的調(diào)整。通過這些方式，我們的網(wǎng)絡能夠在增強結(jié)果中恢復清晰的細節(jié)，鮮明的對比度和自然色彩。我們對基準MIT-Adobe FiveK數(shù)據(jù)集和我們的新數(shù)據(jù)集進行了大量實驗，并表明我們的網(wǎng)絡可以有效地處理以前的困難圖像。

Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation

基于同態(tài)隱空間插值的不成對圖片到圖片轉(zhuǎn)換

生成對抗網(wǎng)絡在不成對的圖像到圖像轉(zhuǎn)換中取得了巨大成功。循環(huán)一致性允許對沒有配對數(shù)據(jù)的兩個不同域之間的關(guān)系建模。在本文中，我們提出了一個替代框架，作為潛在空間插值的擴展，在圖像轉(zhuǎn)換中考慮兩個域之間的中間部分。該框架基于以下事實：在平坦且光滑的潛在空間中，存在連接兩個采樣點的多條路徑。正確選擇插值的路徑允許更改某些圖像屬性，而這對于在兩個域之間生成中間圖像是非常有用的。我們還表明該框架可以應用于多域和多模態(tài)轉(zhuǎn)換。廣泛的實驗表明該框架對各種任務具有普遍性和適用性。

X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

基于生成對抗網(wǎng)絡的雙平面X光至CT生成系統(tǒng)

當下CT成像可以提供三維全景視角幫助醫(yī)生了解病人體內(nèi)的組織器官的情況，來協(xié)助疾病的診斷。但是CT成像與X光成像相比，給病人帶來的輻射劑量較大，并且費用成本較高。傳統(tǒng)CT影像的三維重建過程中圍繞物體中心旋轉(zhuǎn)采集并使用了大量的X光投影，這在傳統(tǒng)的X光機中也是不能實現(xiàn)的。在這篇文章中，我們創(chuàng)新性的提出了一種基于對抗生成網(wǎng)絡的方法，只使用兩張正交的二維X光圖片來重建逼真的三維CT影像。核心的創(chuàng)新點包括增維生成網(wǎng)絡，多視角特征融合算法等。我們通過實驗與量化分析，展示了該方法在二維X光到三維CT重建上大大優(yōu)于其他對比方法。通過可視化CT重建結(jié)果，我們也可以直觀的看到該方法提供的細節(jié)更加逼真。在實際應用中, 我們的方法在不改變現(xiàn)有X光成像流程的前提下，可以給醫(yī)生提供額外的類CT的三維影像，來協(xié)助他們更好的診斷。

分享到

AI Lab 騰訊優(yōu)圖計算機計算機視覺

zhangnn

相關(guān)推薦

近期文章

熱門標簽