(數(shù)據(jù)來源于網(wǎng)絡)
行人重識別(Person ReID)是指對不同攝像機捕捉到的行人圖像建立身份對應關系(即關聯(lián)行人ID),對行人實現(xiàn)在整個場景下的行動路線的全面刻畫。簡單來說,在看不到人臉的復雜多場景下也能通過體態(tài)等對人進行識別。相較于人臉識別技術,ReID對人體圖像的遮擋、朝向和清晰度具有較高的魯棒性,對攝像頭的清晰度、架設位置、角度沒有硬性要求。正因此ReID技術成為繼人臉識別技術后計算機視覺領域又一熱門課題。
鑒于ReID技術的技術優(yōu)勢和在各個領域的廣泛應用前景,近年來,騰訊優(yōu)圖在這一方向上做出了大量技術投入和全面的技術布局,在CVPR/TPAMI/AAAI/IJCAI等國際頂級學術會議和期刊上發(fā)表了超過15篇相關領域學術論文。
行人ReID示意圖
雖然ReID技術已經(jīng)過多年的演進,但現(xiàn)實中復雜多變的場景,也讓跨場景識別(cross-domain person re-identification)成為ReID技術的一大難題,此次騰訊優(yōu)圖刷新三大數(shù)據(jù)集所引入的跨場景ReID,便是在此難點上進行了技術突破。
跨場景識別的難點在于,不同場景由于環(huán)境光照、攝像頭角度、背景等因素,例如室內大型商場、小型門店的側面和高俯角相機、室外道路、社區(qū)的強光和夜晚環(huán)境等,都會對人體圖像的視覺特征造成影響。如何讓ReID技術適應復雜多變的場景,實現(xiàn)跨場景行人圖像的檢索,是一項重大的技術挑戰(zhàn),也是實現(xiàn)室內外行人動線聯(lián)動、全城聯(lián)動的關鍵性技術。突破此技術難點對拓展ReID的落地場景和業(yè)態(tài),實現(xiàn)大規(guī)模行人識別有巨大的作用。
公開數(shù)據(jù)集MSMT17中的室內外行人圖像視覺差異
為解決ReID技術難點,騰訊優(yōu)圖通過在遮擋匹配、全角度匹配、跨域檢索等業(yè)務問題上的針對性優(yōu)化,以及在模型結構、損失函數(shù)、訓練算法等各項技術上的大量積累和創(chuàng)新,提出了一種跨場景行人重識別技術框架,采用基于圖卷積和孿生網(wǎng)絡的模型,使得神經(jīng)網(wǎng)絡對多朝向、多姿態(tài)等跨場景的人體具有更強的識別能力。這一技術能夠為不同場景、不同拍攝角度和光照條件的行人視覺特征學習統(tǒng)一的特征表達,有效提升了ReID技術在行人圖像室內外、跨場景的相互檢索的精度。
通過引入跨場景ReID,騰訊優(yōu)圖在三個數(shù)據(jù)集中刷新業(yè)內最好的水平,其中Market-1501數(shù)據(jù)集的RANK1達到98.99%。RANK1和MAP作為衡量ReID技術水平的核心指標,首位命中率高,就意味著算法能夠在眾多圖像中準確找出最容易識別或匹配的那張。
在此基礎上,騰訊優(yōu)圖的ReID算法在多場景行人圖像相互檢索也處于業(yè)界領先水平,在跨場景ReID數(shù)據(jù)集MSMT-17上超越已有算法達到state-of-the-art水平。
Table 2 跨場景行人重識別性能比較
騰訊優(yōu)圖的ReID技術不僅在相關數(shù)據(jù)集上已經(jīng)取得了領先的性能,依托ReID技術的應用系統(tǒng)也已在多種場景達到商用水平并實現(xiàn)廣泛落地。未來,隨著跨場景行人重識別能力的逐步成熟,騰訊優(yōu)圖的ReID技術也將在更多的場景和業(yè)態(tài)實現(xiàn)價值。