頂會競賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗?

一種簡單的利用方式是將Mega Detector預測的BBox 裁剪出來,同原圖一起送給網絡進行訓練,這樣可以有效環節ROI 尺寸過小的問題。 不過這種方案的缺陷在于,如此訓練分類網絡,會使得網絡獲得兩個scale完全不同的輸入,一個是原圖,一個是BBox裁剪出的圖像,這會對分類網絡學習特征帶來一定的干擾。

為此,團隊修改了策略,同時訓練兩個網絡。分別輸入原始圖像,和Mega detector裁剪出的置信度最高的bbox圖像。 在預測階段,再將網絡的輸出進行Ensemble,從而可以同時捕捉到原圖全局的信息和BBox中前景的信息。 挑戰二:不同背景造成的問題 除過ROI 儲存過小之外,另一個問題是訓練集的camera trap 取景位置和測試集的camera trap 不相交所導致的背景差異問題。

訓練集圖片均來自于藍色點表示的區域,它和紅色區域沒有相交。 因此這會造成domain shift的問題。即在訓練地表現好的模型并不一定也會在test地有同樣表現。因為模型有可能學到一些和location相關的信息,而它們不是可以用于分類動物的通用信息。 此外,與正常的domain adaptation不同,iWildCam 的訓練集包括很多不同domain(如果將每個camera trap地點作為一個domain,則訓練集包含441個,而測試集包含111個)。 因此,如果能利用訓練集中的位置標注來幫助網絡學習location invariant的特征,那么網絡就可捕捉更多與位置無關而和分類相關的信息。 對此,domain adaptation領域非常著名的論文Unsupervised domain adaption by backpropagation為團隊提供了啟發。

如上圖首先可以假設,如果在原來的2048維上加一個額外位置(location)的classifier,那么網絡提取的特征就會傾向于將不同location的特征相互推遠。如上方右圖所示(不同形狀表示不同類別,不同顏色表示不同),雖然每個類別的特征之間有分類的可分性約束,但是location之間的相互排斥也會導致一些location圖片的特征被推到一個不太有利于分類的局面,從而導致網絡學到的特征并不能實現location invariant,從而在測試集上表現欠佳。 對此,文章提出一個非常簡單的梯度翻轉的技巧來實現location invariant。

如上方左圖所示,在梯度反傳經過location classifier時將梯度乘-1,從而實現翻轉梯度的方向。
因此在右圖可以看到,原本的推開不同location之間特征的梯度經過翻轉后,會將其一起拉近。在加上分類的約束后,可以保證網絡學到的特征表示實現location invariant,并且還能保證分類的效果,提高網絡對之前未見的location的泛化性能。 挑戰三:數據長尾分布

上方指數圖展示的是數據的分布情況,可以看到數目最多的類別有超過十萬張圖,而最少的類別可能只有不到十張圖片,一般而言,將類別數多的類別稱為head類,類別數少的類別稱為tail類 。 因此,如果直接隨機采樣batch來訓練分類模型,會見到很多head類樣本,而tail類樣本則很少見到,這樣會使得模型更偏向于預測head類而不是tail類,從而損傷網絡的表示能力。 因此,對于長尾分布,一般有兩種解決方案,一種是Re-Sampling, 另外一種是Re- Weighting。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













