CVPR2020 Oral: 一張照片三維重建你的房間
實驗分析
我們在SUN RGB-D和Pix3D數據集上進行了實驗。SUN RGB-D是真實的場景數據集,包含10335張真實的室內圖片,及其對應的房間布局、物體包圍盒和粗糙點云。Pix3D有約400個較精細的家具模型,對應著約10000張真實圖片。要重建出較好的物體三維形狀,我們需要較好的三維GT,所以我們先用Pix3D對MGN進行預訓練。LEN和ODN則在SUN RGB-D上被預訓練,然后將它們與MGN整合在一起,在SUN RGB-D上Fine-tuning。另外,二維包圍盒檢測網絡 (Faster R-CNN) 會在COCO上預訓練,在SUN RGB-D上Fine-tuning。關于詳細的訓練策略、參數和效率,請查看我們的論文和補充材料。
聯合學習對三個子任務均有影響。我們的方法在三維布局及相機姿態(表1)、三維物體包圍盒檢測(表2、表3)、物體重建(表4)上均達到了SOTA。
布局估計:
我們將本文方法與現有的布局理解工作進行了比較。如表1所示,對房間布局、對象包圍盒和網格進行聯合訓練有助于提高布局估計精度,比現有方法提高了2%。
相機姿態估計:相機姿態由R(β,γ)定義,因此我們用GT和估計出的俯仰角β及橫滾角γ間的平均絕對誤差來衡量估計精度。結果(表1)表明,聯合學習也有利于相機姿態估計。

表1. SUN-RGB-D三維布局與相機姿態估計的比較。
三維目標檢測:
表2比較了本文方法與現有方法對各類物體的檢測結果。比較表明,我們的方法較最新的方法有了顯著的改進,并且效果也優于現有方法的加強版本。原因有兩方面:一是聯合學習中的全局損失涉及幾何約束,保證了預測結果的幾何合理性;二是ODN中的多邊關系特征有利于預測空間占有(spatia1 occupancy),提升了三維目標檢測的精度。在表3對物體姿勢預測的比較中,我們使用物體的平移、旋轉和縮放誤差作為指標。結果表明,該方法不僅能獲得合理的空間占有率(mAP),而且能獲得更精確的物體姿態。

表2. 3D物體檢測比較。

表3. 物體姿態預測比較。
網格重建:
表4中物體形狀重建的比較指標為樣本到重建網格的Chamfer距離。結果表明,本文的剪邊及局部密度策略均可提高平均精度。可能的原因是使用局部密度可以保持小規模拓撲結構,而且剪邊對避免錯誤的拓撲修改更魯棒。

表4. Pix3D物體重建比較。
通過圖5在網格級別的比較可以看出,我們的MGN對重建結果拓撲結構的控制更優秀。圖6也表明,我們的聯合學習方法可以得到合理的整體三維重建結果。



消融實驗
為了觀察每個點的重要性,我們對比了以下幾種網絡配置:
C0:不使用多邊關聯特征(ODN)和聯合訓練(Baseline);
C1:Baseline+關聯特征;
C2:Baseline+ 聯合訓練只使用cooperative loss Lco;
C3:Baseline+ 聯合訓練只使用global loss Lg;
C4:Baseline+ 聯合訓練(Lco + Lg);
Full:Baseline+關聯特征+聯合訓練。
對比結果如表5所示。通過對比C0 v.s. C4 和C1 v.s. Full可以發現不管用不用關聯特征,聯合訓練對三個子網絡均有提升。C0 v.s.C1 和C4 v.s. Full的對比說明使用關聯特征能提高ODN及MGN的效果。C0 v.s. C2 和C0 v.s. C3的比較說明Lco 和 Lg對最終的結果均有積極影響,如果聯合使用,效果更佳。我們還發現Lg隨著目標檢測性能的提高而減小,這與物體對齊對網格重建有顯著影響的直覺是一致的。在SUN RGB-D數據集上Fine-tuning MGN不能提升Pix3D數據集上單個物體重建的精度,這反映出物體重建依賴于高質量網格的良好監督。以上內容說明,對所有子任務進行聯合學習是進行整體場景三維理解與重建的一個可行的解決方案。

表5. SUN RGB-D消融實驗(Scene mesh需乘以10-2)。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













