ECCV 2020 | 基于對抗路徑采樣的反事實視覺語言導航

本文將分享加州大學助理教授王鑫和王威廉等人在ECCV spotlight的工作。為了實現(xiàn)VLN智能體,不僅需要學習理解語言語義和視覺環(huán)境,同時還要適應視覺語言交互情況下的動態(tài)變化,研究人員提出了一種對抗驅(qū)動的反事實思考方法。模型通過學習評價有效的反事實條件來代替采樣充分但信息不足的數(shù)據(jù),最終形成了一種比隨機采樣路徑方法更為有有效的對抗策略。

視覺語言導航(Vision-and-language navigation, VLN)是機器人基于自然語言指令在3D環(huán)境中進行移動以到達目標的任務。它不僅需要理解自然語言信息,同時還需要將周圍環(huán)境的視覺信息進行編碼,在語言指令的引導下利用場景的關鍵特征來向目標位置移動。
為了實現(xiàn)VLN智能體,不僅需要學習理解語言語義和視覺環(huán)境,同時還要適應視覺語言交互情況下的動態(tài)變化。這一復雜的任務所面臨的最大困難在于訓練數(shù)據(jù)的稀缺性。例如在Room-to-Room(R2R)數(shù)據(jù)集中包含了超過二十萬條可能的路徑,但數(shù)據(jù)集中卻只有大約一萬四千條采樣路徑。如此稀缺的數(shù)據(jù)使得智能體在交換環(huán)境中學習語言和視覺任務的優(yōu)化匹配問題變得十分困難。
而對于人類來說,通常缺乏結(jié)合視覺感知和語言指令來對不熟悉的環(huán)境進行探索的能力,然而人類的思維還是可以利用反事實推理來完善缺失的信息。例如,如果人類按照“右轉(zhuǎn)”的指令但看到了門擋在前面,人們就會自然而然的思考要是左轉(zhuǎn)會遇到什么情況;如果我們停在餐桌前而不是徑直走過,那么指令應該是什么樣的呢?我們可以看到反事實推理可以通過探索并考量可能的行為方式(并沒有實際發(fā)生,類似于設想)來改進VLN任務的表現(xiàn)。這可以使得主體在數(shù)據(jù)缺乏的場景下通過環(huán)境的引導熟悉(bootstrapping familiarity)和指令與多個行為策略選項中的聯(lián)系來進行有效操作。
反事實思考已經(jīng)被用于多種任務來增強模型的魯棒性,但還沒有顯式的反事實模型被針對性地用于VLN任務中。雖然有像Speaker-Follower這樣的方法對訓練樣本進行了增強,但隨機采樣方法太任意了。下圖展示了基于隨機采樣增強數(shù)據(jù)訓練的模型性能隨增強比例的變化,可以看到在60%以后性能幾乎就不再增加。這是由于這些路徑都是隨機采樣的,限制了反事實思考對于數(shù)據(jù)增強的所帶來的提升。

隨機采樣和APS采樣的對比,可以看到隨機手段對性能的提升會遇到瓶頸。
在這篇論文中,研究人員提出了一種對抗驅(qū)動的反事實思考方法,模型通過學習評價有效的反事實條件來代替采樣充分但信息不足的數(shù)據(jù)。研究人員首先引入了模型未知的對抗路徑采樣器(adversarial path sampler, APS)來生成富有挑戰(zhàn)并有效的增強路徑,作為目標導航模型的訓練樣本。在對抗訓練過程中,導航器嘗試著去完成APS生成的路徑并更好地優(yōu)化導航策略,而APS的目標則在于不斷生成更具挑戰(zhàn)性的路徑。這種對抗策略比隨機采樣路徑方法更為有有效。
此外在APS的增強下,模型對于陌生場景和未知場景具有更好地適應性,實現(xiàn)基于環(huán)境的預探索機制。這樣在進入新環(huán)境后,機器人可以首先對其進行預探索并熟悉環(huán)境,隨后在自然語言的引導下完成任務。在R2R數(shù)據(jù)集上的結(jié)果表明APS可以被集成到多種VLN模型中,大幅提升已知和未知環(huán)境中的性能。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發(fā)展現(xiàn)狀與測試挑戰(zhàn)-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產(chǎn)未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 3 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 4 L3自動駕駛延期,逼出車企技術(shù)自我淘汰
- 5 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 6 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 8 7倍機器人大牛股:高管股東套現(xiàn)VS機構(gòu)兇猛抱團,該信誰?
- 9 八部門聯(lián)手放行L3自動駕駛!巨頭開始拼搶萬億市場?
- 10 OpenAI發(fā)布的AI瀏覽器,市場為何反應強烈?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













