計算機視覺世界三大頂會之一的CVPR 2021論文接收結果出爐!本次大會收到來自全球共7015篇有效投稿,最終有1663篇突出重圍被錄取,錄用率約為23.7%。本次,騰訊優(yōu)圖實驗室共有20篇論文被收錄,其中Oral論文4篇,涵蓋人臉識別、對抗攻擊、時序動作定位、視頻動作分割、無監(jiān)督人臉質量評估等前沿領域。
01
基于超球流形置信度學習的人臉識別
Spherical Confidence Learning for Face Recognition
本論文已被CVPR 2021接收為Oral論文。最新的研究發(fā)現(xiàn),球形空間可以更好地匹配人臉圖像的基本幾何形狀,這一點已經在目前最先進的人臉識別方法中得到證實。然而,這些方法依賴于確定性的特征表達,因此會遇到特征歧義性的表達難題。PFE是解決這一難題的首次嘗試。為了進一步解決PFE應用時的不足,我們提出了一種用于球形空間中人臉置信度學習的新穎框架。在數(shù)學上,我們將von Mises Fisher密度推廣到其r半徑對應項,并導出優(yōu)化目標的閉式解。我們從理論上表明,所提出的框架具有更好的可解釋性,進一步推導出了特征融合與特征比對的數(shù)學表達式。在多個具有挑戰(zhàn)性的基準上廣泛的實驗結果證實了我們的假設和理論,并展示了我們的框架在風險控制的識別任務以及人臉驗證和識別任務中相對于先前的概率方法和常規(guī)球形確定性嵌入的優(yōu)越性能。
02
在開放的人像集合中學習3D人臉的聚合與特異化重建
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection
本論文已被CVPR 2021接收為Oral論文。非參數(shù)化的人臉建模旨在不依賴幾何假設的情況下從圖像中重建3D人臉。盡管這類方法能夠預測一定的細節(jié),但其傾向于過度依賴局部顏色表觀,且易受到噪聲的干擾。為處理該問題,本文提出一種新的聚合與特異化學習框架(LAP)以實現(xiàn)無監(jiān)督的3D人臉建模。該方法從無約束的人像集合中隱式的解耦ID一致和場景特異的人臉。具體地,為學習ID一致人臉,LAP基于一種新的帶有松弛一致性損失的課程學習方法,自適應地聚合同一身份的本征人臉元素。為了使人臉適應于某一特異的場景,我們提出了一個新的屬性調整網絡以使用目標屬性和細節(jié)修改ID一致人臉。基于本文的方法,使得無監(jiān)督的3D人臉受益于有意義的人臉結構信息和更高的分辨率。在公開數(shù)據(jù)庫上的大量實驗表明,與當前最優(yōu)方法相比,LAP可以重建更好的或有競爭力的人臉幾何和紋理。
03
在圖像到圖像翻譯上實現(xiàn)層次風格解耦
Image-to-image Translation via Hierarchical Style Disentanglement
本論文已被CVPR2021接收為Oral論文。近年來,圖像到圖像翻譯在實現(xiàn)多標簽(以不同標簽作為條件)和多風格(生成多種樣式的輸出)任務中都取得了重大進展。但是,由于未開發(fā)標簽中的獨立性和排他性導致的翻譯結果不可控導致了這些方法的失敗。在本文中,我們提出了層次風格解耦(HiSD)來解決此問題。具體來說,將標簽重新排列成分層的樹狀結構,從上到下依次是獨立的標簽,互斥的屬性和解耦的風格。相應地,我們設計了一種新的翻譯過程來適應上述結構,將風格與特定標簽或屬性對應起來,實現(xiàn)可控的翻譯。CelebA-HQ數(shù)據(jù)集上的定性和定量結果都證明了HiSD的能力。我們希望我們的方法將作為層次風格解耦的基準,幫助未來的圖像到圖像翻譯的研究。
04
基于特征校準的表征批規(guī)范化方法
Representative Batch Normalization with Feature Calibration
本論文已被CVPR2021接收為Oral論文。批規(guī)范(BatchNorm,簡稱BN)已經被視為神經網絡訓練的默認組件之一,盡管BN是有益于穩(wěn)定模型訓練以及模型的整體表征能力,但是也不可避免地忽視了訓練數(shù)據(jù)個體之間的特征差異。我們提出了一個簡單有效的特征校準策略用來增強數(shù)據(jù)個體的特征表達能力,并幾乎不增加額外的耗時。我們提出的這個中心校準方法可以增強有效的特征信息,而減少噪聲特征??s放校準方面,則能夠通過約束特征強度以學習得到一個更加穩(wěn)定的特征分布。我們將上述提出的BN變種方法,命名為Representative BN,這一方法能夠幫助提升多種計算機視覺任務的效果,如分類、檢測和分割等。
05
基于對比學習的緊湊圖像去霧方法
Contrastive Learning for Compact Single Image Dehazing
本文提出了一種基于對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原后的圖像拉到更接近清晰圖像,并推到遠離朦朧圖像的位置。
此外,考慮到性能和內存存儲之間的權衡,開發(fā)了一個基于類自動編碼器(AE)框架的緊湊型除霧網絡,可分別受益于自適應地保存信息流和擴展接收域以提高網絡的轉換能力。將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net,在合成和真實數(shù)據(jù)集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。
06
基于相似度分布距離的無監(jiān)督人臉質量評估
SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance
近年來為了確保非受限場景的穩(wěn)定性和可靠性,人臉質量評估(Face Image Quality Assessment, FIQA)已經成為人臉識別系統(tǒng)不可或缺的一部分。這種方式只使用了類內信息,而忽略了類間信息。在本工作中,我們認為高質量的人臉應該與其類內樣本相似并與其他樣本不相似,因此提出了一種新的無監(jiān)督FIQA方法,該方法結合了相似分布距離進行人臉圖像質量評估(SDD-FIQA)。我們通過計算正負樣本相似度分布間的Wasserstein距離生成高質量的偽標簽,并以此訓練用于質量預測的回歸網絡。實驗結果表明,我們提出的SDD-FIQA顯著超過了SOTA方法。同時,我們的方法在不同的識別系統(tǒng)上顯示出良好的泛化性。后續(xù)我們將開源該工作。
07
基于實例誤報一致性的人臉識別公平性提升方法
Consistent Instance False Positive Improves Fairness in Face Recognition
人群偏差是實際人臉識別系統(tǒng)中的重大挑戰(zhàn)。現(xiàn)有方法嚴重依賴準確的人群標簽,還不夠通用。于是,我們提出了基于誤報率懲罰的損失函數(shù),它通過增加實例誤報率(FPR)的一致性來減輕人臉識別偏差。具體來說,我們首先將實例FPR定義為高于統(tǒng)一閾值的非目標相似度數(shù)量與非目標相似度總數(shù)之間的比率。通過給定總FPR,可以估計出統(tǒng)一閾值,然后將實例FPR與總FPR的比例懲罰項引入基于softmax的損失函數(shù)分母中。實例FPR越大,懲罰越大。利用這種不平等性的懲罰,使得實例FPR具有一致性。該方法不需要人群標簽,并可減輕群體之間因各種屬性劃分的偏差,而這些屬性在訓練中無需預先定義,在主流實驗基準上的廣泛測試結果表明,此方法已達到了SOTA。
08
基于高效訓練替代模型的黑盒攻擊方法
Delving into Data: Effectively Substitute Training for Black-box Attack
在處理對抗樣本時,深度神經網絡顯得非常敏感,容易輸出錯誤的預測結果。而在黑盒攻擊中,攻擊者并不知道被攻擊目標模型的內部結構和權重,因此訓練一個替代模型去模擬目標模型內部結構就是一種非常高效的方法。
在本文,我們提出了一個全新的替代模型訓練方法,即在替代模型訓練過程中引入更好的數(shù)據(jù)分布。首先是提出的多樣性,更加多樣性的訓練數(shù)據(jù)分布可以獲取更加豐富的特征表述;其次,提出一個對抗替換模型訓練框架,將分布在分界面的對抗樣本引入到替代模型訓練過程中。通過結合兩種思路,可以進一步提升替代模型和目標模型之間的相似性,從而提升黑盒攻擊的成功率。實驗結果表明,我們的方法達到了SOTA,相關的可視化結果也證明了所提出方法的優(yōu)勢。
09
學習復原有霧視頻:一種新的真實數(shù)據(jù)集及算法
Learning to Restore Hazy Video: A New Real-World Dataset and A New Method
現(xiàn)有的深度學習去霧方法多采用單幀去霧數(shù)據(jù)集進行訓練和評測,從而使得去霧網絡只能利用當前有霧圖像的信息恢復清晰圖像。另外一方面,理想中的視頻去霧算法卻可以使用相鄰的有霧幀來獲取更多的時空冗余信息,從而得到更好的去霧效果,但由于視頻去霧數(shù)據(jù)集的缺失,視頻去霧算法鮮有研究。
為了實現(xiàn)視頻去霧算法的監(jiān)督訓練,我們首次提出了一組真實的視頻去霧數(shù)據(jù)集(REVIDE)。使用精心設計的視頻采集系統(tǒng),成功地在同一場景進行兩次采集,從而同時記錄下真實世界中成對且完美對齊的有霧和無霧視頻。考慮到獲取有霧視頻幀間時空冗余信息的挑戰(zhàn)性,我們還設計了一個由置信度引導的改進型可變形卷積網絡(CG-IDN)來處理有霧視頻。實驗證明,REVIDE數(shù)據(jù)集中采集的有霧場景遠比合成霧更為貼近真實場景,并且我們提出的方法也優(yōu)于現(xiàn)有的各種去霧算法。
10
基于顯著邊界特征學習的無錨框時序動作定位
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization
時序動作定位在視頻理解中仍然是一個備受挑戰(zhàn)的任務。該任務的目的是在一個未剪輯且較長的視頻中找到每個動作的起始與結束時間,以及改動作的分類結果。和預設錨框或者枚舉分數(shù)的方式對比,無錨框的方法無需依賴一些冗余的超參數(shù),顯得更輕量。
因此,我們提出了第一個高效高性能且完全無錨框的時序動作定位方法。模型包括:(1)端到端可訓練的基礎預測器;(2)基于顯著性優(yōu)化的模塊,該模塊通過一種新穎的邊界池化方法去為每個時序動作提名獲取更有價值的邊界特征;(3)使用邊界一致性約束來保證我們的模型能夠找到精準的邊界信息。另外,在THUMOS14數(shù)據(jù)集上,該方法相比于之前基于錨框或運動分數(shù)指導的方法在性能上有顯著的提升,在ActivityNet v1.3數(shù)據(jù)集上也取得了最好的結果。
11
通過添加背景來去除背景影響:背景魯棒的自監(jiān)督視頻表征學習
Removing the Background by Adding the Background: Towards a Background Robust Self-supervised Video Representation Learning
自監(jiān)督學習通過從數(shù)據(jù)本身來獲取監(jiān)督信號,在視頻表征學習領域展現(xiàn)出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對背景信息的依賴,我們提出通過添加背景來去除背景影響。具體而言,給定一個視頻,我們從中隨機選擇一個靜態(tài)幀,并將其添加到其它的每一幀中,以構建一個分散注意力的視頻樣本,然后要求模型拉近分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關注運動變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數(shù)SOTA方法中。BE在MoCo的基礎上,對具有嚴重背景偏見的數(shù)據(jù)集UCF101和HMDB51,分別帶來了16.4%和19.1%的提升,而對具有較小背景偏見的數(shù)據(jù)集Diving48數(shù)據(jù)集帶來了14.5%的提升。
12
基于自監(jiān)督三維重建和重投影的紋理不敏感行人重識別
Self-supervised 3D Reconstruction and Re-Projection for Texture Insensitive Person Re-identification
眾所周知,行人重識別(Person ReID)高度依賴于服裝紋理等視覺信息。但是,實際應用中存在多種紋理混淆的情況,這超出了大多數(shù)現(xiàn)有ReID方法的能力范圍。因此,我們提出利用人的三維形狀和身材信息來提高ReID對紋理混淆的魯棒性,而不僅依賴于圖像紋理信息?,F(xiàn)有的person ReID使用的形狀學習模型要么忽略了人的真實三維信息,要么需要額外的物理設備來采集三維源數(shù)據(jù)。在本文中,我們提出了一種新穎的學習框架,即結合三維形狀學習(3DSL)模型:加入三維人體重建作為正則化,直接從二維圖像中提取紋理不敏感的3D模型編碼信息。基于正則化的三維重建迫使ReID模型將三維形狀信息從視覺紋理中解耦,獲得具有判別性的三維形狀ReID特征。為了解決缺乏三維ground truth的問題,我們提出了一種對抗式自我監(jiān)督投影(ASSP)方法以擬合不需要ground truth監(jiān)督訓練的三維重建模塊。在通用ReID數(shù)據(jù)集和紋理混淆數(shù)據(jù)集上的大量實驗驗證了我們模型的有效性。
13
基于結構信息保持的弱監(jiān)督目標定位
Unveiling the Potential of Structure-Preserving for Weakly Supervised Object Localization
由于僅使用分類任務對目標進行定位的不足,弱監(jiān)督目標定位(WSOL)仍然存在一些挑戰(zhàn)。已有的工作通常利用空間正則化策略提高目標定位精度,但往往忽略了如何從訓練好的分類網絡中提取目標結構信息。
本文提出了一種兩階段的方法,稱為結構保持激活(SPA),以充分利用WSOL卷積特征中包含的結構信息。在第一階段,設計了受限激活模塊(RAM)來緩解由分類網絡引起的結構缺失問題。該模塊基于觀察:無約束的分類激活圖和全局平均池化層導致網絡僅關注目標的局部區(qū)域。在第二階段,提出了一種稱為自相關圖生成(SCG)模塊的后處理方法,基于第一階段獲取的激活圖獲得結構保持的定位圖。具體地,我們利用高階自相關(HSC)提取保留在模型中的固有結構信息,之后聚合多個位置的HSC得到精確的目標定位結果。在包括CUB-200-2011和ILSVRC在內的兩個公開基準上進行的大量實驗表明,與基準方法相比,本文提出的SPA方法取得了顯著的性能提升。
14
RSTNet:基于可區(qū)分視覺詞和非視覺詞的自適應注意力機制的圖像描述生成模型
RSTNet: Captioning with Adaptive Attention on Visual and Non-Visual Words
本文提出了一個視覺信息增強和多模態(tài)信息敏感的Transformer結構,利用網格與網格之間相對位置的幾何關系解決了特征展平操作造成的空間信息損失的問題,并且利用一個額外的注意力層度量視覺特征與語義特征的貢獻,從而充分引導圖像描述中視覺詞和非視覺詞的生成,在該任務的線上線下公開數(shù)據(jù)集上均證明了此模型的優(yōu)勢。
15
聯(lián)合物體和物質挖掘的弱監(jiān)督全景分割
Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation
全景分割旨在將圖像分別分割為物體類別的目標實例和物質類別的語義內容。這種復雜的全場景解析任務需要昂貴的實例級和像素級注釋來進行模型訓練。迄今為止,僅用圖像級標簽學習的基于弱監(jiān)督學習的全景分割(WSPS)仍未被探索。
本文為弱監(jiān)督全景分割提出了一個有效的聯(lián)合物體與物質挖掘(Jointly Thing-and-Stuff Mining, JTSM)框架,明確地推理了目標前景和物質背景之間的語義和共現(xiàn)關系。為此,算法設計了一種新穎的感興趣掩模池化(Mask of Interest Pooling, MoIPool),用于提取任意形狀分割的固定尺寸的像素精確特征圖。MoIPool使全景挖掘分支能夠利用多實例學習(Multiple Instance Learning, MIL),并以統(tǒng)一的方式識別物體和物質。算法引入并行實例和語義分割分支,通過自訓練進一步修正的分割掩模,其讓從全景挖掘中挖掘的掩模和以自底向上的目標線索協(xié)作生成偽真實標簽,以提高空間一致性和輪廓定位。
16
基于Transformers從序列到序列的角度重新思考語義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語義分割方法提供另一種思路,將語義分割轉變?yōu)樾蛄械叫蛄械念A測任務。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進行了全局的上下文建模,結合常規(guī)的Decoder模塊,我們得到了一個強大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達到SOTA,并在Cityscapes上取得了較好結果。
17
通過元卷積核實現(xiàn)基于動態(tài)對齊的小樣本學習
Learning Dynamic Alignment via Meta-filter for Few-shot Learning
小樣本學習(FSL)旨在通過利用極為有限的支持集樣本來適應所學知識,從而識別新的樣本,是計算機視覺中的一個重要開放問題。小樣本學習中用于特征對齊的大多數(shù)現(xiàn)有方法僅考慮圖像級或空間級對齊,而忽略了通道差異。
在本文,我們提出了一種動態(tài)對齊方式,可根據(jù)不同的本地支持信息有效地突出顯示查詢區(qū)域和渠道。具體而言,這是通過首先動態(tài)采樣以輸入的少量鏡頭為條件的特征位置的鄰域來實現(xiàn)的,基于此,我們可以進一步預測依賴于位置和依賴于通道的動態(tài)元濾波器用于將查詢功能與特定于位置和特定于通道的知識對齊。此外,我們采用神經網絡常微分方程(Neural ODE)來實現(xiàn)更精確的對齊控制。通過上述方法,我們的模型能夠更好地捕獲支持集樣本的的細粒度上下文語義。
18
基于時空特征可控插值的視頻超分辨率網絡
Temporal Modulation Network for Controllable Space-Time Video Super-Resolution
在本文,我們提出了一種稱之為TMNet的時間建模網絡,該模型能夠對視頻中間幀任意插值高分辨率幀。具體而言,我們提出了TMB模塊用以調節(jié)可變形卷積作用在可控特征插值中。為了更好的挖掘時間信息,我們還提出了一個基于局部特征比對的LFC模塊,該模塊與雙向可變形ConvLSTM模塊一同作用,用以提取視頻中的短時和長時運動信息。在3個權威標準數(shù)據(jù)集上我們提出的方法都比過去STVSR方法在效率和效果上都要更加好,文中的消融實驗比對進一步驗證了我們創(chuàng)新點的貢獻。
19
從全局到局部:面向視頻動作分割的高效網絡結構搜索
Global2Local: Efficient Structure Search for Video Action Segmentation
為了回答“是否可以通過高效地搜索不同感受野的之間的組合來替代手工設計的模式呢?”的問題,在本文中,我們提出一種基于從全局到局部的搜索策略來尋找更合適的感受野組合。具體而言,我們的搜索策略將利用全局搜索的優(yōu)勢來找到粗粒度的參數(shù)組合,而后在利用局部搜索來精細化感受野的組合模式。值得指出的是,全局搜索并非是通過手工設計模式來尋找潛在的粗粒度參數(shù)組合。在全局搜索的基礎上,我們將會使用一種基于期望引導迭代的方式來有效地精修參數(shù)組合。最后,我們的這一結果可以即插即用地使用在當前動作分割的模型中,并取得了SOTA的效果。很快我們也將開源我們的代碼實現(xiàn)。
20
基于特征間高階關系挖掘的細粒度識別方法
Graph-based High-Order Relation Discovery for Fine-grained Recognition
細粒度識別的主要目的是通過學習類別間區(qū)分性特征表達來分辨表觀高度相似對象,但一般情況下,現(xiàn)有的大多數(shù)工作在背景復雜下效果不穩(wěn)定,且忽略了不同語義特征之間的內在聯(lián)系。對此,我們提出一種高效的基于圖的關系挖掘方法來構建高階關系間的上下文理解。該方法首先通過特征間語義和位置感知來構建高維特征庫(feature bank),同時進行正則化約束。其次本文提出一種基于圖的語義分組方法(graph grouping),將高維特征映射到低維空間中,保留其中高區(qū)分性特征。在訓練過程中,本文還提出一種分組學習策略(group-wise learning),對特征聚類中心進行約束。通過以上三個模塊的協(xié)作,該方法可學習到細粒度類別間更豐富的區(qū)分性信息。實驗結果表明,該方法在4個細粒度數(shù)據(jù)集上均超過SOTA。
CVPR作為計算機視覺領域的頂會之一,每年錄取的論文幾乎都代表了本年度計算機視覺領域最新、最高科研水平以及未來發(fā)展趨勢。
此次入選了20篇論文,也是對騰訊優(yōu)圖實驗室現(xiàn)階段科研及創(chuàng)新能力的一種認可。未來,優(yōu)圖將繼續(xù)努力,為大家?guī)砀嗫赡艿?ldquo;視”界。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關鍵詞: