Neural Inverse Rendering of an Indoor Scene from a Single Image
Soumyadip Sengupta, Jinwei Gu, Kihwan Kim, Guilin Liu, David W. Jacobs, Jan Kautz
CVPR, 2019
単一画像からの屋内シーンのニューラルインバースレンダリング。
画像からシーンの物理的属性を推定することを目的としている。
物体形状(表面法線ベクトル)
反射特性(アルベド)
光源分布(照明マップ)
屋内シーンの単一画像を、Inverse Rendering Network(IRN)を用いて以下の3つの属性に分解する。
アルベド
表面法線ベクトル
照明の環境マップ
今までの手法では、主に単一のオブジェクトに対して、またはシーン属性の1つのみを解決するものだった。 本稿では、屋内シーンの単一画像に対してそれらのシーン属性を同時に解くことが出来る。 また、SUNCG-PBRという名のデータセットを作成している。 このデータセットは以前のデータセットを大幅に改善したもの。
鏡面反射を仮定したシーン
拡散反射を仮定したシーン
ground truth depth
surface normals
albedo
Phong model parameters
semantic segmentation
glossiness segmentation
以前のデータセットと比べてより写実的でノイズが少ない。
ラベル無しのデータから、self-supervised reconstruction lossという損失関数を使用して学習することが本稿のキーアイデア。 Self-supervised LearningのResidual Appearance Renderer(RAR)によって可能としている。
自己教師あり学習。教師なし学習の1つ。 pretext tasks(関係なさそうなタスク)を学習することにより、本当に学習したいタスクで使える特徴表現を学習する。
I:元画像、A:アルベド、L:環境マップ、N:法線。
以下の式がself-supervised reconstruction loss。
より正確な法線と陰影。 反射率の曖昧さを解消している。 これはdeep CNNを使用しているため。
IIWをテストセットとして比較 WHDR(Weighted Human Disagreement Rate)を評価して、優れていることが確認出来る。
アルベド、法線ベクトル、環境マップ(合成データ、実データ)全てで以前の研究より勝っている。
単一オブジェクトに対するものではないが、シーンは屋内シーンに限定されている。
要するに、データセットを向上させて既知の学習方法を色々組み合わせたら今までより精度が上がった。というだけに聞こえるが、そういうものなのか?
ECCV2018: CGIntrinsics: Better Intrinsic Image Decomposition Through Physically-Based Rendering
CVPR2018: SfSNet: Learning Shape, Reflectance and Illuminance of Faces 'in the Wild'
CVPR2017: Physically-Based Rendering for Indoor Scene Understanding Using Convolutional Neural Networks
CVPR2017: Semantic Scene Completion from a Single Depth Image