頂會競賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗?

所謂Re-Sampling,即指改進data sampler對數據的采樣概率,來保證用來訓練的數據的平衡性。具體做法如上方右圖,對所有的class以相同概率進行采樣,采樣出class之后在每個class內部再進行數據采樣,這樣便可以保證每個類在網絡訓練時的次數是相同的。

Re-Weighting指的是對數據進行隨機采樣,且再計算loss時,對不同類的樣本乘上不同權重。該權重等于,每個樣本對應類別的數量比上所有圖片數量的倒數。例如對于對于aeroplane,有五張圖片,總共十張圖片,則對于aeroplane的加權就是10/5=2。如此操作,tail類的圖片雖然被采樣到的機會少,但是loss的加權大,從而可以實現平衡。 不過對于這兩種解決長尾問題的策略,曠視南京研究院在CVPR 2020上的 Oral論文“BBN”指出,雖然RW和RS可以改善分類器性能,但是會影響backbone對數據的表示能力。

如這上圖所示,為了研究RS和RW對CNN 特征表示的影響和對分類器的影響,文章先用一種訓練策略訓練CNN backbone,然后再把backbone固定,重新訓練分類器。 可以發現當分類的訓練方式不變時,backbone使用CE的訓練方式點數最高,而當backbone的訓練方式固定不變時,使用RW和RS的方式訓練分類器效果比較好。 這說明RW和RS的方法雖然可以提高網絡對長尾數據的表現,但是同時也會一定程度上損害網絡的表示能力。

為此,BBN解決該問題的做法是,將網絡分成兩個分支,一個分支接受從uniform sampler 采樣出的數據,另外一個分支接受從reversed sampler 采樣出的數據。所謂reverse sampler,就是把每個類別被采樣到的概率取倒數,從而使得tail類更容易被采樣出來。 sample出兩個batch的數據之后前傳經過兩個網絡分支,進一步對兩個分支的特征進行mixup,最后做分類loss。需要注意的是,BBN為了不損害特征表示,設計了一個adaptor,該adaptor會隨著訓練epoch的增加越來越傾向于增大reverse sampler 分支在mixup中的比重。 這樣BBN可以保證在訓練初期,網絡通過正常的uniform sampler對數據學到一個良好的表征,在訓練后期,這個表征會對reverse sampler 采樣出的數據進行進一步的學習。 雖然BBN可以很大程度上減緩長尾數據對網絡特征表示的影響,但是與此同時,BBN需要同時訓練兩個網絡分支,占用兩倍于原來的顯存,并且因為這樣batchsize小了,訓練時間需要更長,對于比賽而言略需改進。

因此,參賽團隊為了快速迭代,使用了一個BBN-style 的mixup策略。通過分別從uniform sampler和reversed sampler中采樣,之后將兩個sampler sample出的batch進行mixup之后交給網絡訓練,這樣網絡在訓練時可以一定程度上見到足夠多的head類和tail類樣本,并且mixup本身也可以起到增強網絡泛化性的效果,從而可以提高網絡對長尾數據的表現。

測試階段的增強策略 除上述工作外,在測試階段,團隊還使用了一個增強策略tencrop。它將輸入圖片的四個角落和中心進行crop獲得原圖的五個crop,之后將圖片進行翻轉再crop,總獲得十個crop。通過將這些crop輸入給網絡進行前傳,然后將十個預測結果進行平均,從而能夠得到最后的預測結果。 下圖展示了曠視南京研究院參賽團隊使用的所有的策略和它們在leaderboard對應的得分。

首先是224分辨率的ResNet50 baseline。該baseline使用交叉熵loss進行訓練,可以在leaderboard得到65.6%的分數;第二個模型對分辨率擴大了一倍,使用448分辨率輸入,使用交叉熵loss訓練,可以看到擴大分辨率帶來的收益非常大,在leaderboard上漲了接近十個點。 因此擴大分辨率這也是比賽很通用的CV的策略,基本上都可以實現漲點。 當換用EfficientNet-b4,輸入分辨率也固定在了448,可以發現b4相對于ResNet50 的性能更好,同樣設置下漲了兩個點。 進一步,當在b4上加入測試時的tencrop,結果提升了一個多點。 當開始將loss函數替換為label-smooth,且開始在訓練時加入BBN style的mixup,網絡繼續上漲3個點。 此后一段時間內,點數都沒有再得到提升,經過討論,團隊開始考慮location信息的影響,并設計出使用gradient reversal layer進行對location信息的混淆,突破了這個瓶頸,繼續上漲2個點。 最后一個改進點涉及MegaDetector的BBox信息,使用上文提到的BBox Ensemble策略進一步實現了漲點。并且在這過程中,團隊還觀察到,隨著Ensemble的進行,權重應該適當偏向于BBox內的物體,這樣性能會更好。 到此時,團隊的得分在總榜上位列第一,并持續了近1個月。期間雖然也嘗試對模型進行改進,但并沒有更新的發現。 到5月22日(最終截止日期前5天),Facebook團隊突然以大比分反超。作為應對,曠視南京研究院團隊緊急應對現有模型方法進行了全面分析,并發現之前一直沒有利用的一個重要信息,即視頻的序列信息。

事實證明,當利用了序列信息后,模型的性能大幅提升了近10個點。對此趙冰辰也半開玩笑地說道:“存在一個強大對手的最好價值在于,它讓你不安于現狀,逼你跳出舒適圈,看到更好的自己。” 由此,曠視南京研究院團隊實現了被Facebook大幅超越,并在48小時內又以更大比分優勢重新登頂,最終奪得iWildCam全球冠軍壯舉! 另外,為了幫助大家在參與頂會競賽時更好地進行團隊配合、項目管理,趙冰辰在下方還展示了其團隊在比賽期間各個模塊的工作,以供同學們參考。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













