[論文読み] Neural Inverse Rendering of an Indoor Scene From a Single Image

2019-05-17
#paper #cv #inverserendering
  1. What it is about
  2. Why it is worthy researching
  3. Key idea
  4. How it is validated (experimental setup and results)
  5. Limitations
  6. What you thought
  7. Papers to read before and after the work

What it is about

単一画像からの屋内シーンのニューラルインバースレンダリング。

インバースレンダリングとは

画像からシーンの物理的属性を推定することを目的としている。

Why it is worthy researching

屋内シーンの単一画像を、Inverse Rendering Network(IRN)を用いて以下の3つの属性に分解する。

今までの手法では、主に単一のオブジェクトに対して、またはシーン属性の1つのみを解決するものだった。 本稿では、屋内シーンの単一画像に対してそれらのシーン属性を同時に解くことが出来る。 また、SUNCG-PBRという名のデータセットを作成している。 このデータセットは以前のデータセットを大幅に改善したもの。

以前のデータセットと比べてより写実的でノイズが少ない。

Key idea

ラベル無しのデータから、self-supervised reconstruction lossという損失関数を使用して学習することが本稿のキーアイデア。 Self-supervised LearningのResidual Appearance Renderer(RAR)によって可能としている。

Self-supervised Learning

自己教師あり学習。教師なし学習の1つ。 pretext tasks(関係なさそうなタスク)を学習することにより、本当に学習したいタスクで使える特徴表現を学習する。

self-supervised reconstruction loss

I:元画像、A:アルベド、L:環境マップ、N:法線。

IRM:hd(I;Θd){A^,N^,L^} IRM: h_d(I;\Theta_d) \to \left\{ \hat{A}, \hat{N}, \hat{L} \right\} DirectRenderer:fd(A^,N^,L^)Id^ Direct Renderer: f_d( \hat{A}, \hat{N}, \hat{L}) \to \hat{I_d} RAR:fr(I,A^,N^;Θr)Ir^ RAR: f_r(I, \hat{A}, \hat{N}; \Theta_r) \to \hat{I_r}

以下の式がself-supervised reconstruction loss。

Lu=I(Id^+Ir^)1 L_u = ||I - (\hat{I_d}+\hat{I_r})||_{1}

How it is validated (experimental setup and results)

他の論文との比較

より正確な法線と陰影。 反射率の曖昧さを解消している。 これはdeep CNNを使用しているため。

IIWをテストセットとして比較 WHDR(Weighted Human Disagreement Rate)を評価して、優れていることが確認出来る。

アルベド、法線ベクトル、環境マップ(合成データ、実データ)全てで以前の研究より勝っている。

Limitations

単一オブジェクトに対するものではないが、シーンは屋内シーンに限定されている。

What you thought

要するに、データセットを向上させて既知の学習方法を色々組み合わせたら今までより精度が上がった。というだけに聞こえるが、そういうものなのか?

Papers to read before and after the work

この論文を引用している論文

参考文献