最近Volumetric Videoが気になる。

2020年5月1日 01:09

昨年(2019)の11月くらいにARIZEというARイベントに参加して、Holotch(ホロッチ)の小池さんの講演を聞いてからVolumetric Video(VV)面白そうだな〜と思ってずっと調べてきた内容をまとめたりしました。まさかのWithコロナというタイミングも相まって、VVの機運は高まりつつあります。

その時は、複数台のKinectで対象物を囲んでキャプチャすれば360度のメッシュが取得できてホログラムっぽい事ができるくらいにしか思ってなかったのですが、その後8i(エイトアイ)というVolumetric Videoの撮影会社を知ったのをきっかけに芋づる式に4DVIEWSやMETASTAGEという会社を知りました。フォトグラメトリで感動してた自分ほんと。。。海外ではもう動物体を撮っていて結構な衝撃でした。

余談1) ちょうどVolumetric Videoが気になりだした2020年始めくらいにライゾマ展に行った際、ふとSXSWで行ったPerfumeの演出(2015)のデバッグ画面に写っていたVVデータをどう撮ったのか気になりまして。調べていくと、2015年当時になんと4DVIEWSでPerfumeのVVデータをということが判明。さすが真鍋さん取り入れるのが早いな〜と思いました。

渋谷PARCOでやってたライゾマ展に行ってきたのだけど、SXSWの展示のデバック画面で表示されてるvolumetric human motionは(2015年当時)どうやって撮ったんだろう？有識者いたら教えてほしいです。#rzmprfm2020 pic.twitter.com/cuhjaAcrrs
— Naoya Iwamoto (@iwanao731) January 27, 2020

Volumetric Videoとは

Volumetric Video(VV)は一言でいうと、対象物体の動的な動きを立体で撮影できるメディアです。おそらく聞いたことのある「フォトグラメトリ」は静止した物体、もしくは静止した瞬間しか撮影できなかったのに対し、Volumetric Videoは立体の動画を撮れるわけです。

撮影メディアの進化:Case study - Representing humans in mixed reality より

従来の写真で立体を作ることは難しかったのは当然ですが、モーションキャプチャの登場によって三次元の動きをトラッキングすることはできるようになりました。モーションキャプチャを使用するにはマーカーを体に配置する必要があり、皮膚や衣服の三次元形状を密にキャプチャすることは非常に難しかったわけです。(モーキャプで得られたマーカー情報は主に、人体の骨の動きや表情の動きを取得するのに使われます。)

余談2) ドイツにあるマックス・プランク研究所のMichel Black教授らは、MoShという論文(SIGGRAPH ASIA 2014)で、「せっかくモーキャプのマーカーを人の皮膚に付けてるのに、スケルトン情報に落とし込んだらせっかくのリッチな皮膚の動き(肉揺れ)が撮れないし、肉が揺れたらスケルトンの推定精度も落ちるよね。だったら肉揺れの動きをモーキャプで取得してモデル化してしまおう(注: 意訳)」と提案しました。この論文を読んだ当時とても衝撃を受けました。僕は2014年頃、物理シミュレーションを使って実時間で肉揺れアニメーションを生成する研究をしていて、どうやったら肉揺れの実データを撮れるかずっと考えていたわけです。その手があったかと。

それに対して、Volumetric Videoは衣服の形状や髪の毛の動きなんかも復元できてしまうので、これから様々な用途で使えそうです。VVについてより詳しく知りたい場合は、TED TALK(英語)がわかりやすいです。日本語だと、Holotch小池さんのnoteにまとまっています。もしも！あなたがopenFrameworksを好きな方だったら、oFコミュニティのJames George氏が、VVに関連するクリエイティブプロジェクトをMediumにまとめてくれています。

利用シーン

Microsoftが提案しているVolumetric Video技術を利用したHoloportationのデモ動画。単身赴任中のお父さんが、家の娘さんとホロレンズを使ってコミュニケーションしている設定でしょうか。

Volumetric Videoとして取得したデータは様々なシーンに活用できると思うのですが、僕の場合は大学院時代にダンス生成に関する研究をしていたので、ダンスの動きをキャプチャできたらいいなと思ってます。当時はモーションキャプチャで得られたスケルトンでどうダンスを生成するかについて考えてきたのですが、VVで衣服や表情まで撮れたらそのダンスの熱量みたいなものがより伝わると思うんですよね。

これから(地道に)やりたいこと

4DVIEWSやMETASTAGE使えばかなり高いクオリティで撮影できるのでそれを使えばいいじゃんという話なのですが、一回撮影スタジオを使用するのに施設費用がなんと170万円かかるのです。。。なんとかこの技術を民主化できないかなぁと思ってて、Volumetric Videoデータに必要なデータ、カメラの内部/外部パラメータとカラー画像やデプス画像などを集めてはblenderやopenFrameworksで可視化してたりします。

Volumetric Videoのデータとその撮影画像、各カメラパラメータを使って、Blenderで可視化してみた。 #blender #b3d 使用したデータはこちら。https://t.co/xSSQ8Ylv8X pic.twitter.com/5nr5GCxQQl
— Naoya Iwamoto (@iwanao731) April 18, 2020

まずはRGBDデータからオフライン(非リアルタイム)でよいので連番のテクスチャ付き三次元メッシュを得られればいいかなと思ってます。GW中にプログラムを書いたりしつつ、そのプロセスをまとめられればと思います。

Voxel meets colors. pic.twitter.com/aTWA2F5rtb
— Naoya Iwamoto (@iwanao731) April 29, 2020

まとめる

Volumetric Video(VV)とは何なのか、どういった利用シーンが想定されて最新研究どんな感じかという話をしました。当初はVolumetric Videoがアナログとバーチャルの架け渡しになってこれからの遠隔システムとか変わっていく〜みたいな話をしようと思ったんですが、最終的に研究寄りの話になってしまいました。また近々、Withコロナな生活と絡めたVVの魅力を考察していけたらと思っています。5月中にHolotchの小池さんがVVイベントをやるかもということなので、そういったイベントを通じてVVに興味がある方と知り合えるのが楽しみです。VVの普及はまだしばらく先かと思いますが、5Gが普及したらHoloportationのようなことがより身近になって来そうです。