Day44―写真から3Dオブジェクトを予測
今回は機械学習系トピック。
※写真は関係ありません。
https://akanazawa.github.io/cmr/
写真から3Dモデルを予測する計算モデルを開発。1枚の写真から物体の3Dモデルを生成し、そのカメラアングル、テクスチャーも同時に予測する。
背景
2Dから3Dイメージを予測するアプローチは、機械学習が誕生する以前から行われてきた。それらの多くは基となる3Dモデルを精緻化することから始まっていた(例えば、人間の3Dモデルを正確につくるところから始めていた)。
機械学習が登場し、そのような基となるデータを予測することができるようになった。その結果ボクセル単位で学習するモデルを中心に様々なアプローチがなされてきたが、それらの多くは複数の視点を必要としたり、真偽値(ground-truth 3D)を必要とする場合がほとんどである。
今回の計算モデルでは、古くから3Dモデリングで用いられてきたメッシュ表現を使い、機械学習による予測のばらつきを抑制する。さらに、多数の視点を必要としない、1枚の写真から予測するモデルを作成する。その上で、形状だけでなくテクスチャーまで再現することを試みる。
モデル
我々のモデルは、Convolutional Neural Networkによる予測器を使う。Camera、Deformation、Textureの3つから成り、それぞれ視点、3Dモデル、テクスチャを再現する。
このモデルの妥当性を見るために、定性的、定量的評価を行った。鳥の写真を題材として実験を実施した。
6000枚の、合計200種の鳥の画像を学習させた後、1枚の写真から3Dモデルを生成させた。学習の際は14ヵ所を重要部位とし、真偽値をマスキングした(ground truth foreground mask)。
結果として一定の精度をどの画像に対しても発揮した。
所感
結果の解釈は、論文に画像があるのでそちらを参照されたい。
完璧ではないが、二次元の画像からこれほどの精度で再現するというのはかなりすごいと感じる。もちろん、この分野は素人同然のため専門的なことはいえないが。
結論、機械学習は上手く使うことでブレイクスルーを引き起こせる。使い方が重要。