![見出し画像](https://assets.st-note.com/production/uploads/images/12691094/rectangle_large_type_2_47289a0d6116e5a8afb74391d023fcec.png?width=1200)
ARと相性の良いCVPR2019の論文7選
6d.ai CEOのMattが、CVPRで注目するべき論文をMediumでまとめていました。
Graffityでは「Technology Driven (テクドリ)」というバリューがあり、技術をしっかりキャッチアップして、原理原則から推論していくことを推奨しているので、社内で早速和訳し共有しました!
良い内容だったのでシェアさせていただければと思います!
1. Privacy Preserving Image-Based Localization
ARやMR、そしてロボットの自立走行において、画像ベースでのローカライゼーションは非常に重要です。現在のローカライゼーションでは、保存された3次元の点群データをベースにカメラの位置を推定していましたが、その点群データはプライバシー情報が含まれています。よって、非常にプライバシーのリスクを抱えております。
だからこそ、いかにプライバシー情報を避けつつ、3D点群を集め、精度の高いカメラの位置推定をするのかが鍵になります。こちらの論文では、プラバしーを守りつつ画像ベースでローカライゼーションする手法を提案しています。具体的には、3D点群を3D線群(ラインクラウド)に抽象化しており、対象となるシーンの構造を難読化しつつ、ロバストで正確な6DOFのカメラの位置推定を可能とします。
2019年5月に開催された、AWE USAではこのプライバシー問題が大きな話題となっていました。まさにそのプライバシー問題を解決する一つの技術になると思います。
具体的なイメージ画像は以下になります。
2. World From Blur
モーションブラー(動きあるものを撮影した時に生じるぼけやぶれ)は、画像処理において非常に大きい課題です。特に、光が弱い時は顕著になります。
暗い時、カメラの絞りを広くし、シャッター速度を遅くして、より光を集めるようにします。そうするとシャッター速度が遅くなるので、ブレも生じやすくなってしまうのです。本論文のアルゴリズムは、このモーションブラーの画像をshapensするだけでなく、画像内の3Dシーン構造を修正します。
ARKit、ARCoreも暗いところでの性能が悪く、このアプローチにより暗いところでのブレに対する解決策になる可能性はあります。
以下が実際に、モーションブラーの画像とアルゴリズムによって修正した画像になります。
3. Learning the Depths of Moving People by Watching Frozen People
本論文では、マネキンチャレンジ動画(その場にいる全員が一斉にマネキン人形のように静止し、その様子を動画で撮影したもの)を、3つのレイヤーにわけ人のデプスをまず学習します。
その学習したモデルで、動いている人のデプスを推定するアルゴリズムです。データ・ドリブンで、新しいデータソースでデプスを測れるようになったことが一つの優位性となる論文になります。
ARKit3で発表された、ピープルオクルージョンと類似した技術だと思いますが、それをデータ・ドリブンで行なっているというのが一つの差というようなイメージです。
4. Fast Spatially-Varying Indoor Lighting Estimation
与えられたシーンの1枚のRGB画像から、光の方向を推定することで、3Dオブジェクトをよりリアルにレンダーすることができるようになりました。
これにより、よりリアルなレンダーが普及することが期待されます。
ARと現実が見分けがつかなくないくらいリアルになることは、ARの普及において非常に重要な要素になると思います。ARCoreは今年のアップデートで光の調整をより最適にしていました。まさにその最適化をより促進させる一つの技術だと思います。
左が従来手法に対し、本論文の手法が右になります。
5. Did It Change? Learning to Detect Point-Of-Interest Changes for Proactive Map Updates
現実世界の認識においての大きな課題の一つに、環境変化への対応がある。別角度、光の違い、天候の違いに関係なく、お店の外観の変化を見分けることができるようになった。
このアルゴリズムは、ARCloudを更新するために非常に重要な技術になると思います。現実世界は常に変化し続けるので、どこが変化しているのかを正確に判断し、更新する必要があるのです。
実際の論文で提案している手法は以下になります。
6. Strike (With) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects
画像処理エンジニアは、よくお互いのアルゴリズムの揚げ足を取ろうとします笑 そんな課題に対して、本論文は、分類モデルをだいたい騙せる画像を探してきて、自動的に学習データに入れるようなシステムを提案しています。
この論文により、よりロバストに対応できるのではないかなと思っております。学習の精度向上にデータ・ドリブンでアプローチする手法ですね。
7. Photo Wake-Up: 3D Character Animation From a Single Photo
2D画像から、3Dキャラクターアニメーションを生成するアルゴリズムです。キャラクターを簡単にARのアニメーションにできるのが特徴。
ARKit3の技術と組み合わせて、生成した3Dキャラクターに、自分の動きを教えていけるようにできそうですね。そうなった場合は、生成したキャラクターと動きという二つのコンテンツをユーザーからCGMで集めるプラットフォームのようなSNSができそうです。Snapがこちらもすぐ機能実装してきそうですね。
最後に
Mattがピックアップした、CVPR2019の論文は非常に面白いものばかりでした。もちろんMattも網羅的に見てないと思うので、時間をとって再度ARと相性の良い論文はピックアップしてみようと思います!