日本无码中文,无码?人妻?在线,精品人妻V

CVPR2020 Oral：一張照片三維重建你的房間

2020-04-09 14:41

將門創投

關注

作者是來自將門計算機視覺社群、香港中文大學（深圳）GAP實驗室的韓曉光博士，這次分享的是在其指導下團隊在CVPR 2020 Oral的工作：完整三維理解：從單張室內場景圖片聯合重建房間布局、物體姿態及網格形狀。

三維場景理解與重建

從單張圖片完整地恢復整個室內場景的幾何信息目前仍然是具有挑戰性的任務，完整的三維室內場景理解與重建需要預測房間的布局、相機的位置與姿態、圖片中單個物體的姿態以及物體幾何形狀。

想讓一個網絡學好如此多的任務過于困難，除此之外：

1．以前的方法或者只解決其中的一個子任務；

2．或者用多個網絡去做多個子任務，然后拼接起來，但各個子網絡的學習是獨立的；

3．又或者只關注場景中獨立的物體，并沒有綜合考慮整個室內環境。

我們針對上述三種情況實現了“3個Total”：

1．整合了場景理解與重建，首次提出了一種端到端的方法從單張室內圖像完整重建（Total）房間布局、物體及相機姿態和實例級的幾何形狀，并取得了不錯的效果，如圖1；

2．我們的網絡也由多個子網絡組成，但它們并不是獨立的，我們會對整個網絡進行聯合訓練（Total），讓多個子網絡分享梯度信息，這是因為房間布局、物體姿態及三維包圍盒和物體形狀之間有著很強的聯系，如果分開訓練，后面的子網絡不能向前面的網絡進行反饋；

3．室內物體的姿態和位置遵循一定的設計規則，各物體之間的關聯關系尤為重要，比如說床頭柜與床、桌椅間以及多把椅子之間的關系等等。之前的工作在預測物體的三維包圍盒時，一般只考慮單個物體，或者考慮一對一物體間的關系。與本文工作較類似的Mesh R－CNN［1］只是在圖片上檢測出物體，然后在各物體的圖像平面分別重建，并沒有考慮物體間的關聯關系。在本文方法中，我們考慮物體與房間中所有其他物體間的關聯關系（Total），并將其應用到了三維目標檢測子網絡的設計中。

與SOTA的對比以及消融實驗均說明了“3個Total”的重要作用，這使我們的方法在所有子任務上都達到了最先進的水平，詳見后面實驗分析部分。

三維形狀表示

與我們的工作比較類似的研究大多使用體素（voxel）表示三維形狀，這種表達方式受限于有限的分辨率，重建出的形狀十分粗糙。其中Mesh－RCNN ［1］能重建出網格（mesh），但仍然是以體素為中間媒介，重建網格質量差強人意。由于我們在以物體為中心的三維物體網格重建方面有一定的積累，所以我們決定跳過體素，直接來做物體的網格，并且改進了最新的TMN［2］方法，這也是除了“3個Total”以外本文最重要的貢獻。在物體網格生成任務中，我們提出了一種新的密度感知拓撲修改器。該方法直接解決了TMN ［2］的主要瓶頸問題，即需要嚴格的距離閾值來刪除與目標形狀距離較遠的面，這使我們的方法對復雜背景下不同形狀的室內物體具有較強的魯棒性。

網絡結構

圖2（a）給出了本文方法的概述。該網絡由三個模塊組成：布局估計網絡（Layout Estimation Network－LEN）、三維目標檢測網絡（3D Object Detection Network －ODN）和網格生成網絡（Mesh Generation Network －MGN）。對于輸入單張圖像，我們首先用2D檢測器（e．g． Faster R－CNN）預測二維物體包圍盒。LEN將整個圖像作為輸入，生成世界坐標系下相機姿態和三維房間布局包圍盒。根據二維目標檢測結果，ODN在相機坐標系中檢測三維物體包圍盒，而MGN在以物體為中心的規范坐標系中生成由網格表示的三維幾何形狀。我們通過將所有網絡的輸出信息嵌入到場景中，進行聯合訓練和推理，從而重建出完整的場景。其中，來自MGN的三維物體網格將根據ODN及 LEN生成的物體與相機坐標系線性變換，從網格規范坐標系轉換至世界坐標系進行聯合訓練。圖2（b）給出了LEN和ODN坐標系轉換的參數化圖示，詳細內容請參考我們的文章和補充材料。

1．三維目標檢測網絡ODN

ODN網絡結構如圖3所示。在預測某個物體的三維包圍盒時，我們考慮該物體與房間中所有其他物體間的關聯關系。對于輸入的圖片，經由ResNet對物體包圍盒內圖像生成外觀特征，同時利用物體的二維包圍盒之間相對位置產生相對幾何特征。最后通過目標物體與其他物體之間的多邊幾何特征，利用注意力機制（Attention mechanism）［3］，加權各自外觀特征從而獲得其他物體與目標物體之間的關聯特征（relational feature），并將其用于最后決策每個物體在相機坐標系下的三維空間位置，尺寸和姿態。

2．布局估計網絡LEN

與ODN不同，LEN則負責預測房間的布局（房間包圍盒）和相機姿態。其中，相機姿態由R（β，γ）定義，即相機的俯仰角β及橫滾角γ。LEN的網絡結構與ODN相同，只是不會使用關聯特征，即，LEN將整個場景看作一個物體包圍盒（而ODN 將每個檢測到的物體視為一個包圍盒），這一步我們則預測的是場景包圍盒在世界坐標系下的位置，尺寸和姿態，以及相機對于場景世界坐標系的旋轉。到目前為止，ODN給出了相機坐標系下單個物體的3D包圍盒信息，同時LEN獲得了場景布局在世界坐標系下的3D包圍盒，以及相機外參數用于統一所有物體坐標系進行聯合訓練。

3．網格生成網絡MGN

我們的MGN解決了TMN的瓶頸問題。TMN通過對模板形狀（單位球）進行變形和修改網格拓撲來逼近對象形狀，其中需要預定義距離閾值才能從目標形狀中移除距離GT較遠的面。但是，對于不同比例的物體網格，給出一個通用的閾值是非常重要的（見圖4）。通過實驗，我們發現TMN在室內物體的形狀預測上不能很好的刪除細節網格面（見圖5），可能的原因是室內物體在不同類別之間有很大的拓撲尺寸差異，并且因為復雜的背景和遮擋常常導致無法準確估計距離值。

密度 v．s．距離

與采用嚴格距離閾值進行拓撲修改的TMN不同，我們發現判斷網格面是否該刪除應該由其局部幾何特征決定。在這一部分中，我們提出了一種基于局部密度的自適應網格修改方法。我們將pi設置為重建網格上的一個點，而qi則對應于它在GT上的最近鄰（見圖4）。我們設計了一個二進制分類器f （＊）來預測pi是否接近GT網格（如下）：

其中，N （qi）為qi在GT曲面的所有近鄰點，而D用于定義局部密度。我們認為，在形狀逼近中，如果一個點屬于GT的N鄰域，就應該保留它，否則刪除。在實驗中，我們觀察到該分類器在不同的網格尺度下比使用距離閾值具有更好的魯棒性。

移除邊 v．s．移除面

相對于移除網格面，我們選擇移除網格邊的方式進行拓撲修改。我們隨機抽取網格邊上的點，并使用分類器f （＊）來移除平均分類分數較低的邊。較移除網格面，移除多余的邊可以減少在計算邊損失函數時（edge loss ［2］）因多余邊存在而受到的懲罰，并創建緊湊的網格邊界。

圖4中給出了MGN網絡架構。它以二維物體檢測為輸入，使用ResNet－18生成圖像特征。我們將檢測到的物體類別編碼為one－hot向量，并將其與圖像特征連接起來。在我們的實驗中，我們觀察到類別編碼提供了形狀先驗，有助于更快地逼近目標形狀。我們將擴展后的特征向量和模板球輸入到AtlasNet ［4］的解碼器中，以預測球的形變，并在第一階段拓撲不變的情況下輸出合理的物體形狀。在此基礎上通過我們的邊分類器進行第二階段的拓撲修改，最后經過邊界優化完成形狀的預測。邊分類器與AtlasNet形狀解碼器具有相似的網格結構，其中最后一層替換為全連接層進行分類。它根據圖像特征，將變形網格作為輸入，預測f（＊）以移除冗余網格邊。

4．聯合學習

LEN和ODN中采用的損失函數主要涉及相機參數，包圍盒尺寸，位置與姿態的回歸問題。而MGN使用Chamfer距離損失、邊損失（edge loss）、邊界損失（boundary loss）和用于剪邊分類器的cross－entropy loss，詳見文章。

在聯合訓練時，損失函數的設計建立在以下兩點：一是相機姿態估計精度的提高可以提升三維物體包圍盒的預測結果，反之亦然；二是場景中的物體形狀預測可以提供物體的空間占有信息（spatial occupancy），這對三維物體檢測有積極影響，反之亦然。根據第一點，我們采用cooperative loss Lco ［5］來保證預測出的房間布局／物體包圍盒與GT間的世界坐標系下坐標值的一致性。第二，我們要求重建出的物體靠近場景中點云，即，對齊世界坐標系下物體的網格與場景點云，展現出全局坐標的約束。對于此，我們根據Chamfer距離定義global loss Lg：