谷歌公布新研究BiT探索大規模數據如何影響預訓練模型性能
遷移學習
基于構建BERT過程中的方法,研究人員將BiT模型在一系列下游任務上進行調優,而在調優的過程中只使用了非常有限的數據。由于預訓練模型已經對視覺特征有著良好的理解,這種簡單的策略已經能夠取得非常優異的結果。
模型調優的過程涉及一系列超參數的選擇,包括學習率、權重衰減參數等等。在這篇文章中提出了一種啟發式的超參數選擇方法“BiT-HyperRule”,它僅僅依賴高層次的數據集特征,包括圖像分辨率和標簽數量等。這種方法成功地應用到了從自然圖像到醫學影像等超過20個不同的任務上。

當BiT模型訓練完成后,它可以使用少量數據調優就可以應用到其他的視覺任務上。
當利用非常少的樣本對BiT進行遷移學習時,研究人員發現隨著預訓練過程中使用的數據量和架構容量的增加,所得到遷移后的模型性能也在顯著增加。當在較小數據集ILSVRC上增加模型容量時,1-shot和5-shot情況下遷移CIFAR得到的增益都較小(下圖中綠線)。而在大規模的JFT數據集上進行預訓練時,模型容量增加會帶來顯著的增益(紅棕色線所示),BiT-L可以在單樣本和五樣本上達到64%和95%的精度。

曲線描繪了五次平均運行后模型遷移到CIRAR-10數據集上的平均精度。不同架構的性能曲線表明,在大數據集上的容量更大的架構具有更為顯著的數據效率。
為了進行更為廣泛的驗證,研究人員還在BTAB-1k上驗證了BiT的性能,其中包含了19個不同的獨立任務,每個任務包含1000個標注樣本。通過將BiT-L遷移到這些任務上,達到了76.3%的整體分數,比先前最好的方法提高了5.8%。
下表展示了這種大規模預訓練和簡單遷移學習的有效性,即使是在數據量有限的情況下也得到了最好或接近最好的結果。BiT即使作RetinaNet的主干網絡在COCO數據集上進行結構化的檢測任務,這種大規模的預訓練也能帶來顯著的性能提升。

左側顯示了BiT-L在不同的標準視覺任務上取得的優異結果。右側展示了在目標檢測任務的遷移性能。
值得一提的是,在所有這些遷移任務上都沒有使用特殊的調參技巧,全部基于BiT-HyperRule來進行調參,在充分的數據集上進行調參甚至可以得到更好的結果。
ObjectNet上的測評
為了在更具挑戰的場景下驗證BiT的性能,研究人員在最近提出的ObjectNet數據集上進行了驗證,這一模型更為接近真實場景,同時具有非典型的內容、視角和旋轉等。受益于更大的數據和架構容量,BiT-L在這一任務上取得了令人矚目的成就,實現了高達80%的top-5精度,超出先前最先進方法近25個百分點!

BiT在ObjectNet上的評測結果,左側為top5精度右側為top1精度。
結 語
本研究發現在大規模通用數據的訓練下,簡單的遷移策略就可以達到令人矚目的成果,無論是基于大數據還是小樣本數據甚至單樣本數據,通過大規模預訓練的模型在下游任務中都能取得顯著的性能提升。BiT預訓練模型將為視覺研究人員提供代替ImageNet預訓練模型的全新選擇。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













