VRゴーグルとARグラス③
前回の②では、前提説明なく当たり前のようにFLAT動画の視聴に関して書きましたが、今回はVR動画に関して触れておこうと思います。読む前から予測できると思いますが、VRゴーグルとARグラスでは比較するまでもなく、VRゴーグルが適しているでしょう。ただ、ARグラスでもデータの再生はできますし、3DoF機能さえあれば、再生アプリによっては快適な視聴環境を得られるかもしれません。そういうアプリを、私は探してませんが。
ともかく、VRゴーグルとARグラスで、どちらがVR動画の視聴に適しているか、なんて書くまでもありません。ただ、個人的に、VR動画自体にあまり期待もしていません。今回はそんな話。ネガティブな話でごめんなさい。
まず、前提確認。
VR動画に対するのはFLAT動画です。これは2Dと3Dの関係ではありません。VRゴーグルもARグラスも、左右それぞれの眼に対して画面が用意されていますから、左右の眼で違う映像を見ることが可能です。かつて、平行法とか交差法とか言われる方法で立体視していたものが、無意識に立体視できる訳です。両眼で同じ映像を見る状態が2Dであり、両眼で違う映像(視差のある映像)を見る状態が3Dと言えます。これに対して、VRとかFLATとかいうのは、視野角の違いです。通常のテレビやモニタで映像を見る状態がFLATです。普通は長方形の一定範囲です。そしてVRは、視界全体が映像になっている状態です。主に180°のパターンと360°のパターンがあります。VR180とかVR360とかいう言葉が使われていたりします。それぞれ、前半球と全球という事です(190°とか200°とか220°とかもあるようですが無視します)。
FLATというと2Dのイメージを持つ人が多いと思いますが、3DのFLATもあります。また、VRというと3Dのイメージを持つ人も幾らかいると思いますが、2DのVRもあります。VR180は3Dが主流だと思いますが、VR360は2Dのほうが多いと思います。何故、VR360は2Dが多いのか? 撮影機材の仕様に依るのでしょう。ただ、3DのVR360が普及してないからこそ撮影機材の傾向がそうなるのでしょうし、何故3DのVR360が普及しないのかと言えば、データサイズの大きさが足を引っ張っているのだと思います。
少しだけ、角解像度の話に触れます。
テレビやPCモニタで解像度という言葉が使われています。画素数をそう読んでいます。解像「度」という言葉は間違っている気もします。そんな訳で適切に分かり易い用語を使うのは難しいです。察して読んでください。
PCモニタを例に考えましょう。代表的な解像度で、FHD(1920x1080)、WQHD(2560x1440)、4K(3840x2160)、なんて言葉がありますが、どれが最も詳細でしょうか? と問われれば、4Kと思われるかもしれません。答えはありません。画素数だけでは画素密度が分からないからです。1インチあたりのピクセル数である画素密度や、その逆数という事になるピクセルピッチ(1ピクセルの1辺の長さ)、そういった情報がなければ詳細さは分かりません。よくある23.8インチFHDモニタと、よくある55インチ4Kテレビを比べれば、前者のほうが詳細な訳です。ただし、前者はPCモニタなので画面から50cmの距離で見るのに対して後者では3mの距離で見る、という事になれば、後者のほうが詳細に見えます。画素の大きさや密度が、「どう存在しているか」ではなく「どう見えるか」という話です。VRゴーグルやARグラスでは、ものすごく小さな画素をレンズ越しに見ていますから、この「どう見えるか」が指標となります。これが角解像度です。
VRゴーグルやARグラスではPPDという言葉で書かれています。Pピクセル Pパー Dディグリー、つまり、1°あたり何ピクセルか、という事です。視界の中心と端でも違いがあるはずで、正確な指標となり得るのか、詳しくは判りませんし、個人的には疑問に思っていますが、目安にはなるでしょう。ちなみに、手持ちのVRゴーグルであるQuest3のPPDは25で、手持ちのARグラスであるVITURE OneのPPDは55だそうです(ちょっと盛りすぎな気が……)。充分な角解像度として60という数値がよく語られていますが、視力1.0の人が画素の粗さが気にならなくなるのが60のようです。現実と区別がつかなくなるのは120だそうです。余談ですが、この120の話は、NHK放送技術研究所の主任研究員の人の2013年の論文に書かれているそうです。NHKって、そういう事もしているそうです。NHKの研究で得た情報を放送機材を制作するメーカーや民間放送局などが使っている訳で、NHKにお金が必要なのは仕方ないと個人的には思います。受信料という名目や、金額の是非はさておき。
話が脱線してきたので戻します。PPDの値も使って書きます。
VITURE One XRグラスの解像度がFHDなので、FHDを基準に考えましょう。VITURE Oneでは、2DならばFHDの1倍、3Dならば両眼合わせてFHDの2倍の情報量が必要です。対して、Quesut3でのVR180はどうでしょう。PPD25で天から地が180°、左右の視野角も180°と考えれば縦横4500ピクセル(25x180)ずつ必要です。世界地図で言うこところのメルカトル図法みたいな感じで映像が収録されているとして、実際には無駄にたくさんの画素が必要になるかもしれませんが、そこは無視しておきます。それでも4500x4500となれば、実にFHDの9倍以上です。3Dならば両眼合わせてFHDの19倍以上です。更に、当たり前ですが、VR360ならば、これの倍の情報量が必要になる訳です。先に、PPD25で、と書きましたが、PPD25を活かすのに必要な情報量ですからね。はるかに情報量の小さいVITURE OneのほうがPPD55で詳細に見えるのですから、VRでの必要情報量がいかに大きいかが分かると思います。
お前こそ話を盛ってるだろう。Quest3の解像度は片眼あたり2064x2208だぞ。4500x4500も要らないぞ。と思われた人がいるかもしれません。もちろん、瞬間的に表示されるのは2064x2208という事になりますが、VRゴーグルでは、上を向けば上が表示され、右を向けば右が表示されます。基本的に6DoFの機種が多いのだと思いますが、3DoFでもそうなります。そして、映像の場合は、表示されていない部分も常に用意しておかないといけないのです。
ちょっと補足。
前回書いた番外記事でも映像データの圧縮に触れましたが、映像データは容量が大きくなるので、圧縮されています。ごく単純な例として、1画素ずつ色を確認しながら横に並べた場合、赤赤赤赤赤赤桃赤赤赤となっていたとします。この場合に、この桃は赤にしてしまえ、という不可逆圧縮というものも使われていますが、その場合は「赤が10個」という情報に替えれば圧縮できる、というイメージです。そうしない場合でも、「赤6個、ちょっと薄いの1個、戻って3個」みたいに前の画素との差で考える場合もあります。そして、映像は3次元です。立体という意味の3次元ではなく、平面2次元+時間軸の3次元です。つまり、差も隣の画素との差ではなく、時間軸の前後との差も利用します。前のフレームとか後のフレームとか参照する訳です。差分圧縮と言われる手法です。この差分圧縮を使うため、画像よりは表示の自由度が低いです。GoogleMapのようにスクロールした先を随時読み込むという訳にはいかないはずです。スクロールのスピードに対処できないはずなので。これが、表示されていない部分も常に用意しておかないといけない、という事です。
ゲームなど、CGをレンダリングする場合は、秒間60回とかグラフィック性能での可能な範囲(とモニタの表示可能な範囲)で高速に絵を描いていますから、表示範囲だけを描けば良いという事になり、4500x4500という数値は意味をなさないでしょう。2064x2208のほうに意味があるはずです。ですが、動画の映像の場合は、2064x2208のみを用意するという訳にはいかない、4500x4500で用意すべき、という話です。
容量が大きくなれば、デバイスの価格に影響が出ます。ですから、大容量データを各人が保有するのは現実的ではありません。
お前は大量のデータを保有しているのだろう? お前が言っても説得力ないぞ、と思われますか? 私がどれだけアホな事しているか恥を忍んで書いておきましょう。例としては良い例、つまり悪い見本ですね。稼働している数台のPCに内蔵されているストレージは全てSSDです。これはシステムであったり、作業用スペースであったり。動画データのストックはHDDを使っています。足りなくなれば台数でカバーします。そして現在稼働中のものだけで、HDD総容量は168TBです。これが廃人の末路です。いや、真の廃人はこんなものではないと思います。
そんな訳で、動画データなんて各人が保有するものではないのです(あえて断言)。データ保有はネットを自由に使えない場合に備えた持ち出しのみで、基本的な動画の視聴はストリーミングで楽しむ。そういう時代です。であれば、容量は無制限か? そういう訳にもいきません。映像は3次元と書きました。時間軸です。これも厄介な要素です。ビットレートとか帯域という話です。ストリーミングでは、時間的な遅れを生じさせないペースでデータを転送しなければいけません。動画データの時間あたりの容量がビットレートで、圧縮の程度によってビットレートは違ってきますが、画素数が増えれば、ビットレートは高くなりますし、同じ画素数でも画質を良くすればビットレートは高くなります。そして、それを送るネットワークインフラのスピードが帯域。ネットが遅いと高ビットレートのデータでは遅れが生じてしまいます。クルクルします。これは、ユーザーだけが考える問題ではありません。送り出す側のサーバの帯域も大きなものが必要になり、そのサービスの価格に関わってきます。
YouTubeには3D動画は多くなく、私は、時々DEO VRを見たりします。DEOと言えば、記事の②でアプリの事を書きました。YouTubeが、動画投稿プラットフォームに対して、それを楽しむアプリがあるように、DEOもプラットフォームがあり、それを楽しむアプリが記事②のアプリだった訳です。投稿数は少ない、小さなプラットフォームですが、3Dの割合が多いです。VR動画の割合も多いです。ここでは、解像度選択が厳しくなってきています。以前は不要だったログインが必要になったり。この分野では、概ねどんなサービスでもユーザー数が増える事は良い事でしょうけど、サーバ運用コストにも影響が出るはずです。大きな課題になってくるでしょうね。
2月に米国でApple Vision Proが発売され、界隈では話題になりました。画質が良いそうですね。でも60万円くらい? 充分に走らせる道路がなくとも、数千万円のスーパーカーを欲しがる人はいます。世の中にスーパーカーは必要なのでしょう。そういう感じだと思います。
独り言が過ぎますね。要はVR動画を楽しむインフラが充分と言えるのか、疑問なのです。インフラ以外にもイマイチな点があります。これも単純な例で、テレビを下から見てもスカートの中は見えないよ、って話。テレビに限らず、映像はそういうものです。自分がそこに存在するかのように没入して楽しんでいるのに、手前のものが邪魔なときに右にズレて見ても、左にズレて見ても、その向こうにある見えないものは見えないのです。これは没入感を損ないます。そして、紳士向けVR動画がPOVばかりだったりします。横にズレて向こうを見よう、という状況を作らないため、貴方はここに居るのですよ、と明確にする演出では? これではコンテンツのバリエーションを縛るだけです。
今のところ、VRはゲーム用の機能なのかな。そうも感じています。要は、私自身が、VR動画をそんなに良いものだとは感じていないのでしょう。
自分は逆にVR動画好きだよ!という人はVRゴーグルでそれを楽しめます。ARグラスでは充分に楽しめません。VITURE One ネックバンドに標準で入っている動画再生アプリ(3D Player)には、VR動画用のモードもあります。3DoF機能を使って、上を向けば上が、下を向けば下が、右を向けば右が、左を向けば左が見えます。ですが、歪みがひどかった。私は探していませんが、うまく再生してくれるアプリもあるかもしれません。ただし、視界の一部しか映像が出ず、それ以外に現実が見えている訳ですから、やはり、没入感ではVRゴーグルと比較にならないでしょう。
このあたりで今回の記事を終えましょう。
あ。最後にひとつだけ追記。紳士向け動画でおなじみFANZAのVR動画、新しいものだと、片眼あたり4K 4K、両眼で8K 4Kものがあるみたいです。前述の片眼4500x4500には少し届きませんけど、理論上、PPD25の画質をかなり活かせているって感じですね。