見出し画像

実機体験: メタのオリオン拡張現実メガネ!

21,494 文字

これがオリオンや。メタが作った拡張現実メガネのプロトタイプやねん。彼らが今まで作った中で最先端の個人向けテクノロジーやと考えとるらしいわ。
何年もかけて、何百万ドルもの研究開発費をつぎ込んで、ようやくここまで来たんや。98グラムの眼鏡に、目の届く範囲のほとんどどこにでもホログラムを映し出せる光学ディスプレイシステムと、まるで心を読むかのような入力システムを搭載しとるんや。
ただし、オリオンのプロトタイプ1つ作るのに約1万ドルかかるらしいわ。メタは社内開発用に1000個ほどしか作ってへんのやて。
彼らが「タイムマシン」と呼んでる種類のデバイスなんやけど、今年のコネクトカンファレンスで実際に触れることができたのは、ウチら数人だけやったんや。
オリオンがどう動くのか、使ってみてどうやったか、そしてこの「タイムマシン」が拡張現実の未来について何を示唆してるのか、詳しく見ていこか。
まずは、メタの最高技術責任者であるボスとの会話から始めよか。
「ほな、ボス。オリオンについて話そか。プロジェクト・オリオンとも呼ばれとるんか?」
「いや、オリオンや。オリオンって呼んどるわ」
「ディスプレイ研究チームなんかと話してると、時々『タイムマシン』って呼ばれるプロダクトを作っとるって聞いたんやけど。コストを度外視して最高のもんを作って、未来がどんなもんになるか見てみようってことやろ? 研究者や開発者たちにとって、これはそういう『タイムマシン』的なもんなんか?」
「せやな。これはほんまにすごい作品やわ。このプログラムを始めた時、製品として出荷できるもんになればええなと思っとったんやけど、5年前の時点で、作れる確率は10%しかないと考えとったんや。
ほんまに多くの新しいテクノロジーを開拓せなあかんかったからな。少なくとも7つ、おそらく10個くらいの今まで誰もやったことのないテクノロジーがあったわ。だから、そもそも作れるかどうかすらわからんかったんや。
製品化するのが目標やったけど、できるかどうかわからんかったわけや。結局、1つだけやなくて、かなりの数を作ることができたんや。動くし、素晴らしいもんができた。めっちゃ嬉しいわ。
ただ、製品として採算が取れへんかったんや。だからタイムマシンって言えるわな。普通、タイムマシンって言うたら、この部屋くらいの大きさで、いろんな電源につながれて、レーザーがあるようなもんを指すんやけど、これは違うんや。
これはプロトタイプって呼ぶことにしたんやけど、大事なのは、これが完全に動くってことや。オペレーティングシステムがあって、稼働中で、インターネットにもつながっとる。
これで、ソフトウェアを開発できるし、いつか携帯電話に取って代わるやろうと思ってるデバイスにどんなソフトウェア体験が適してるか、直感を養うこともできるんや。
感情を言葉で表すのは難しいわ。初めて試した時のことを思い出すわ。数ヶ月前やったけど、チームがやって来て、めっちゃ緊張しとったんや。5年もかけて、どれだけの金をつぎ込んだかわからへんものを見せるわけやからな。
だから、あらゆることについて謝っとったわ。『このピクセルちょっと荒いのはわかっとるし、色の均一性もこれから改善するし...』って感じやな。
その間、ワイは職業人生の中で最高の体験の1つをしとったんや」
「その体験のどこがそんなに違ったんや? フルカラーの広視野角ディスプレイがあって、手首を通して送られる神経インターフェースに反応してる...」
「そうや。めっちゃレスポンスがええし、動画を見たり、ビデオ通話したりできるんや。素晴らしいわ、ほんまに素晴らしい。不思議な感覚やな。
もちろん、チームはずっとこの中におったから、問題点ばっかり見えてしまうんや。あまりに初期のデモやったから、コンピューティング部分は冷たいソーダを次々と置き換えとったんや。熱設計の作業をまだやってへんかったから、冷たいソーダで冷やしとっただけなんやけどな。
でも、これは未来の一端を垣間見たんや。そのデモから数ヶ月で、今や完全に機能するシステムになった。歩き回れるし、2時間のバッテリー持続時間がある。会議に参加したり、ポケットから何も取り出さんでも、豊かなコンピューター環境を使えるんや。
今いる世界のコンテキストを失うことなく、話してる相手との目線を外さずにな。素晴らしいわ。新しいコンテキストも追加できるしな」
「そうそう、絶対そうや。話してくれた技術のいくつかについて聞かせてほしいわ。7つあるって言うてたけど、全部は無理やろうけど、ディスプレイシステムが大きな部分を占めとるんやろ?」
「ディスプレイはほんまに重要やわ。ここにめっちゃ面白いデモがあるんやけどな。まず、マイクロLEDプロジェクターがあって、これがめちゃくちゃ明るいんや。超効率のええマイクロLEDを使っとって、RGB全部の色があるんや。何十万ニットもの明るさを出せるんやけど、
もちろん、大きなアイボックスを作るために、目に向かって多くの場所に光子を発射せなあかんのや。そうせんと、メガネを顔の上で動かしても画像が見えるようにならへんからな。だから、人間の目の複製をしとるわけや。
そうすると、大きな割引が生まれるし、効率も落ちるし、物質から逃げ出す光子もあるんや。だから、この小さなプロジェクターを作ったんや。マイクロLEDの製造も含めて、全部自分たちで発明したんや。
それを導波路に向かって発射するんやけど、その導波路自体がシリコンカーバイドにナノエッチングされとるんや。これは新しい材料で、屈折率がめっちゃ高いんや。おかげで、失われる光子を最小限に抑えられるし、外界から取り込む光子の数も最小限に抑えられる。
そうすることで、ゴースティングやヘイズ、虹みたいな影響を最小限に抑えつつ、欲しい視野角を得られるんや。完璧に影響がないわけやないけど、かなり近いわ。実際に体験してもらえば、光学的な透明度がめっちゃ高いのがわかると思うわ。
画像も超広視野角でフルカラーやし、すごいんや。この2つのシステムだけでも、一緒に動かすのに膨大な投資とコストがかかっとるんや。それぞれに2つか3つの新しい技術が必要やったしな。
赤、青、緑のマイクロLEDを作るのも大変なんや。特に赤は波長が長いから、そんな小さな空間で生成するのが難しいんやで。シリコンカーバイドの製造も、結晶を大きく育てて加工するのも、めちゃくちゃ難しいんや。
それから、これ全部をマグネシウムの剛性フレームに取り付けなあかんのや。軽量で熱特性もええからな。こんな小さなデバイスやから、熱を逃がすスペースがあんまりないんや。
剛性があるのも大事や。今のところ視差補正がないから、光学素子間のたわみを最小限に抑えて、両眼の画像を正しく見えるようにせなあかんからな。
これらは全部、次のバージョンでは改善できる予定があるんや。バージョン1ができて、『あ、視差補正できるわ』とか『プロジェクターを後ろに置けるわ』とか『もっと薄くできるわ』とかがわかってきたんや。
このシステムには、これとそれを動かすパックの間に、10個以上のカスタムシリコンチップがあるんや。Questシステムで使ってたルーチンを小型化して、数千ミリワットから数百ミリワット、場合によっては数十ミリワットまで下げたんや。
このメガネに比べたら、Questはかなり余裕のあるエンベロープやからな。そうすることで、長いバッテリー寿命を実現したんや。無線プロトコルも完全にカスタムや。情報をバーストで送ることで、無線の持続的な使用を最小限に抑えとるんや。
これは電力の問題やなくて、熱の問題なんや。AIや世界の継続的な認識には重要やからな。
センサーもあるで。フレームに7つのカメラが埋め込まれとって、世界を感知しとるんや。カメラセンサーもカスタムやな。超高ダイナミックレンジが必要やし、シーンから必要なものを選んで集中できる特性も必要やからな。
もちろん、このシステムとQuestシステムで共有されとる部分もあるわ。ハンドトラッキングやアイトラッキング、空間オーディオなんかやな。これらは共同で努力しとるんやけど、もちろんこんな形状でハンドトラッキングするのは大変やで。
そして最後に、まだ新しいインターフェースがあるんや。CTRL-Labsに投資したやろ? コントローラーを持ち歩くわけにはいかへんからな。手を使うこともできるけど、ずっと手を出して動かしとるわけにもいかへん。
ポケットに手を入れたままでも、見えへん状態でもシステムを操作したいかもしれへんやろ? だから、神経インターフェースを使っとるんや。これはまだ始まったばかりやけど、CTRL-Labsのデモを見たことあるやろ? 昔はこんなに小さくなかったんや。魅力的でもなかったしな。
めっちゃ快適で、この数週間デモをしとるんやけど、みんな部屋を出る時に、もう着けとること忘れとるくらいや。
そんな新しい技術を全部詰め込んで、100グラム以下、98グラムのデバイスにするんや。2時間のバッテリー持続時間の間、快適に着けられるようにせなあかんのや。
できれば、これを着けてても真面目に見てもらえるくらい魅力的にしたいしな。
5年前を思い出してみ。これらのどれか1つでもうまくいかへんかったら、システム全体が成り立たへんのやで。そう考えたら、初めてのデモの時の感情がわかると思うわ。これだけの投資とリスクを背負って、ここまで実行してきたんやからな」
「開発者たちは、これを使って最高のユースケースを見つけ出せるんやろうけど、最終的にはこれで携帯電話を置き換えたいって考えとるんやろ? 人々が今、携帯電話でやっとることとか、少なくともメディアや操作の種類とかをな。でも、ARは携帯電話以上のことができるわけやろ?
消費者向けの製品が市場に出た時、一般の人にとってどんな効用があるんやろか? 理想的なシナリオってどんなもんなんや?」
「5年前には予想してへんかったことがあるんや。この2年で明らかに変わったのはAIやな。5年前は、確かに2Dの携帯電話画面みたいなユースケースは役に立つやろうし、それにホログラムを世界に置けるようになるやろうって想像はしとった。世界にロックされて、安定して、その場所に留まるホログラムをな。ウチら2人がメガネをかけとったら、一緒に楽しんだり探索したりできる。チェスゲームなら、空中に召喚して一緒にプレイできるわけや。そういうのはめっちゃクールやし、実際にできるんや。
その間に、AIがどんどん進化してきた。最初はホログラムが先で、AIは後からくると思っとったんやけどな。ホログラムはあるけど、AIがどんどん追いついてきとるんや。
だから、これを使うユースケースの多くは、実際には周りの世界に問い合わせるみたいなことになると思うわ。自分の1日や過去のことを問い合わせるとか、『鍵どこに置いたっけ?』みたいなことをな。わざわざ鍵の場所を覚えておくよう指示せんでも、1日の出来事を処理することで、こういうことを追跡できる能力があるんや。
これが、ワイにとっては携帯電話のユースケースとAIを組み合わせたもんになると思うわ。携帯電話と違って、見たり聞いたりしたことの全てのコンテキストを持っとるAIやからな。日々の生活で助手として、どれだけ役に立つか想像してみてや。
もちろん、人々が携帯電話に期待する基本的なことも全部できるんやで。メッセージングやビデオ通話なんかな。ビデオ通話はほんまに素晴らしいで。
面白いのは、ここで他の投資が活きてくるんや。例えば、超リアルなアバターのCodecアバターへの投資とかな。これを顔につけとったら、自分に向けたカメラはないわけやろ?
だから、本当に気持ちええのは、携帯電話を持って遠くに伸ばさんでええことなんや。腕の筋肉が疲れるやろ? ワイはそんなに強くないからな。
代わりに、すでに作ったCodecアバターを使って、それをアニメーション化するんや。話してる相手は、うまくいけば、カメラで撮ったのと区別がつかへんくらいになるんやで。
疲労の話をしたけど、これをできるだけシームレスにしたいってことやな。手首のバンドもその一部や。これで操作できるってのは大事やわ。MLのおかげで、基本的なジャイロでもタップジェスチャーを推測できるようになったもんな」
「そうやな。Apple Watchとか他のスマートウォッチでも、IMを使うのが一部のユースケースでは人気出てきとるしな」
「せやな。これはほんまに始まったばっかりや。今日では、比較的小さなジェスチャーをするだけで、それがメガネのハンドトラッキングからは見えへんくらい隠れてても、ちゃんと認識される。これはええことやけど、まだ始まりに過ぎへんのや。
例えば、内部的には手書き入力ができるようになっとるんや。利き手の手首につけとるから、手書きで入力できるわけや。静かなテキスト入力方法やし、いわゆる「目立たない」テキスト入力方法やな。
今のデバイスでは、メガネから見えへんくらい小さなジェスチャーを使えるのはええけど、これはほんの始まりに過ぎへんのや。将来的には、もっと可能性が広がるで。
これは手書き検出ができるデバイスやから、実際に紙に書かんでも、手書きで入力できるんや。そして、それをかなり控えめにできるんや。大げさに声を出したり、顔の前でキーボードを使ったりせんでも、テキスト入力ができるわけや。
神経インターフェースには大きな可能性があると考えとるんや。これをもっと小型化して...今でもめっちゃコンパクトやって言うたやろ? でも、さらに社会的に受け入れられるようにしていく計画があるんや」
「これらの技術のうち、どれが他の製品に広がる可能性が高いんやろか? 例えば、Ray-Ban Metaみたいなもんにな。何が一番簡単に、あるいは理にかなってるんやろ?」
「ここでAIが橋渡し役になるんやと思うわ。これが本当に重要なポイントの1つやと思うんや。携帯電話中心の世界でデバイスを作る時、Ray-Ban Metaメガネは素晴らしいデバイスやな。
カメラがあって、音声もあって、見た目もええし、邪魔にならへん。携帯電話をポケットから出さんでも、画像やビデオを撮ったり、電話を受けたりできるわけや。
でも、AIを追加したら、全く別のカテゴリーに変わるんや。Ray-Ban Metaメガネで周りの世界に問い合わせができるようになる。リアルタイムの翻訳もRay-Ban Metaメガネでできるようになる。これはもう信じられへんくらいすごいことやで。
そしてこれはほんの始まりに過ぎへんのや。ここに小さなシンプルなディスプレイを追加したらどうなるやろか? 携帯電話がすでにあるなら、小さなシンプルなディスプレイを追加するのは当然のことやと思うわ。
AIに質問して、答えを読み上げてもらうのはちょっとイラつくかもしれへん。たとえ質問したとおりに答えを読み上げてくれても、時間がかかるしな。『テキストで見せてくれ』って思うやろ。二択の質問なら、イエスかノーかをテキストで見る方がずっと速いわ。
同じように、画像を撮って共有したい時も、共有する前に見たいやろ? だからAIは、小さなディスプレイでもより価値のあるものにする橋渡し的なユースケースやと感じとるんや。そして、それがどんどん豊かになっていって、どんどん価値が増えていくんや。
だから、ウチらは次のバージョンの開発に全力を注いどるんやけど、これは消費者向け製品にする予定やで。同時に、この製品ラインの技術を取り出して、『これの小型版は何や?』『これのバージョンを作って、もっと手頃で、すでに人気のあるメガネラインに統合できへんか?』って考えとるんや。
全部をする必要はないんや。AIメガネのおかげで、カテゴリー全体に対する見方が変わったんや。以前は、Ray-Ban Metaとオリオンの間に大きなギャップがあるんじゃないかって心配しとったんやけど、今では、この空間に製品の全スペクトラムが見えてきたんや」
「Questエコシステムと並行して進んでいくトラックやと考えとるんやな? 必ずしも1つの製品に収束するわけやないと」
「そうや、その通りや。でも、たくさんの関係性があるんやで。確かに、SLAMやVIO、一部の協調プロセッサーやカスタムシリコン、ワイヤレスの仕事なんかは、2つのチーム間で共有されとるんや。これはすばらしいことやし、共有される作業の基盤は大きいんや。
でも、全然違う作業もたくさんあるんや。ウチらがいつも強く動機づけられとるのは、『この技術のおかげで、誰の人生がより良くなるんや?』『今よりも何がうまくできるようになるんや?』ってことなんや。
メガネとMRヘッドセットのユースケースは、全然違うと思うわ。紙に書いたら似たようなことができるように見えるかもしれへん。似たような言葉で説明できるかもしれへんけど、実際には全然違うんや。
ワイはこれを、携帯電話とラップトップの違いみたいなもんやと思っとるんや。携帯電話は大好きやし、いつも持ち歩いとる。でも、時々携帯電話を使っとって、『あ、これはラップトップでメール書かなあかんな』って思うことあるやろ?
『いや、これはワークロードが違う。ブラウザで複数のタブを開いて、いろんなものを比較して、調査せなあかん。もっと画面が要るわ』って感じやな。そういう仕事には別のデバイスを使うんや。
ARとMRにも、そういう類似性があると思うわ。似たようなことができるし、それはええことや。消費者にとって、できるだけ簡単に切り替えられるようにせなあかんと思う。でも、全然違うこともできるんや。
VRヘッドセットで完全に没入できるのは、めっちゃ価値のある特徴やで。他の方法じゃできへんことや。だから、そういうことが本当に得意なデバイスを作るべきやと思うわ。
全てを1つに収束させようとするんじゃなくてな。それは間違った収束やと思うわ」
「最後の質問や。VRヘッドセットは、離れた場所にいる人々を結びつけるのがうまいよな。それが会社の大きなミッションステートメントの1つやと思うわ。これがもっと普及して主流になったら、人々をどう結びつけるんやろか? 同じ場所にいる人たちの場合はどうなるんやろ?」
「ワイにとって、これには2つの側面があるんや。1つは、離れた場所にいる場合のことや。確かに、これでビデオ通話ができるし、それはめっちゃクールなことやで。
自分が見てるものを相手と共有できるのも、クールな機能やと思う。今でもRay-Ban Metaでそれができるんや。ビデオ通話して、自分が見てるものを相手と共有できるわけや。
でも、もう1つの側面は、一緒にいる時のことなんや。携帯電話を使ってる時、ワイは本当に一緒にいるんやろうか? 物理的にはそこにいても、精神的にはどこか別の場所に行ってしまってるんや。デバイスの中に深く入り込んでしまうわけや。
でも、もし『いや、ワイは物事をちゃんと把握してる。必要なものは全部ここにある』って感じられたら、希望としては、あなたともっと物理的に一緒にいて、つながれるんちゃうかな。
この技術があるおかげで、今使ってる技術よりも、むしろ現在の瞬間から逃げ出すんじゃなくて、そこにいられるんやないかな。
もちろん、これも両方できるようになるやろうな。長い車の旅とかやったら、『ビデオに没頭して、コンテンツを楽しもう』ってなるかもしれへん。それはそれでええと思うわ。
でも、ウチらが望んでるのは、これが単に離れた人とつながるだけやなくて、一緒にいる時にもつながってる感じがするテクノロジーになることなんや。
たとえ一緒にかけとっても、同じコンテンツを共有して見れる機能があるんや。ウチらにはかなり面白いソーシャルゲームがあって、2人のプレイヤーが両方ともオリオンをつけとったら、一緒にプレイできるんや。
そこで2つのことが起こるんや。1つは、外から見とる人にはちょっと滑稽に見えるってことやな。アーティファクトが見えへんから、なんか変なことしとるように見えるんや。
でも、2つ目のこと、そっちの方が大事なんやけど、1つ目のことがあってもどうでもええって思えるんや。だって、めっちゃクールな共有体験に完全に没頭してるからや。
それを、現実のものと同じくらいリアルに体験してるわけや。だから、みんながホログラムにアクセスできるようになったら、世界はめっちゃ面白くなると思うわ。早く来てほしいわ」
「そうやな、楽しみやわ。ありがとう」
「ありがとう」
ほな、オリオンの細かい部分と、実際に使ってみてどうやったか、そのデモプロセス全体について詳しく見ていこか。
ウチらが見た3つの独立したハードウェアコンポーネントに分けて説明したいと思うわ。それは、メガネと、ワイヤレスコンピュートパック(ワイヤレスが重要なポイントやな)、そして神経リストバンド、つまりEMG(筋電図)リストバンドや。これはオリオンへの入力方法の1つで、ハンドトラッキングやアイトラッキング、もちろん音声と並んどるわけや。
まずメガネから始めよか。ここで話した人みんなが言うとった目標、つまり明確な北極星の目標は、社会的に受け入れられる形で広視野角を実現することやった。
以前は、70度の対角視野角を得ることはできたんや。Magic Leap 2がそうやった。でも、小さな形状では無理やった。あるいは、これらのXRealみたいなメガネ型の形状は作れたけど、ARディスプレイシステムの種類が根本的に違うんや。これはバードバス光学系を使っとって、メリットとデメリットがあるわな。
オリオンは導波路を使っとるんや。ARハードウェアを追っとった人なら、導波路というのはバードバスコンバイナーを使うんとは違うってわかると思う。ディスプレイを一連の鏡で跳ね返して、レンダリングされた画像と現実世界の画像を組み合わせるんやなくて、
ディスプレイプロジェクターが角度をつけて光を発射して、印刷されたかエッチングされたガイド、つまり何か透明な光学材料の上にあるこれらの経路に沿って進むんや。普通はガラスを使うんやけど、選ばれた材料には特定の特性があるんや。
ガラスの屈折率は最大で2くらいやと思うわ。ワイは光学の専門家やないけど、ワイの理解では、これによって2つのことが制限されるんや。1つは、光を導波路に投射する角度で、もう1つは、光が導波路から出て網膜に入る角度、つまり視野角の程度や。
屈折率が高いほど、光をより急な角度で入れられるし、それからより広い角度で出せるんや。光が中で跳ね返って跳ね返って、最終的により広い視野角で出てくるわけや。
だから、より高い屈折率を持つ導波路材料を使うことで、より広い視野角と小さな形状の両方のメリットを組み合わせることができるんや。
ここで使われとる導波路材料は炭化ケイ素や。オリオンについての記事や動画を見たことがある人なら、これが新しい材料やって話を聞いたことがあるかもしれへんな。
今までに炭化ケイ素が光学に使われたことはないらしいわ。電気自動車なんかに使われとるんやけどな。ARに理想的やと言われる特性がたくさんあるんや。
屈折率が高くて、ガラスよりも軽くて丈夫で強いんや。だから、実際のフレームの周りにフレクサーみたいなものを付けて割れるのを防ぐ必要がないんや。これらの利点があるんやけど、生産するのがめっちゃ高いんや。
1万ドル近くかかるって言うとったやろ? その製造コストの9割くらいが、実際にはこの炭化ケイ素の導波路を作るのにかかるんや。原子レベルで層を重ねて成長させていくんや。
ウエハーから作るみたいな感じやから、歩留まりがめっちゃ悪いんや。曲げたりして、ちょっと品質の悪いのを他の製品に使うってわけにはいかへんのや。完璧じゃないとあかんのや。
それから、物理的にエッチングする工程もあるんや。これは以前のARテクノロジーで導波路を印刷するのとは違うんや。
長い話になったけど、このレンズの特性を得るための非常に複雑で高価な方法なんや。これによって、小さな形状と広い視野角の両方を実現できるわけや。
正直に言うと、ワイのオリオンに対する最初の印象も、今の印象も変わらへんのやけど、まだ毎日身につけるような形にはなってへんと思うわ。
確かに、Vision Proみたいなヘッドセットよりはずっと薄いし、HoloLensやMagic Leapみたいなヘッドセットでもないわ。Ray-Ban Metaに近づいてはいるけど、まだちょっとリムが厚いんや。
オリオンの横顔を見ると、実際のフレーム自体にも厚みがあるのがわかるわ。これは近くで見ると、ただのガラス1枚や光学材料1枚やないんや。実際にはフレームの中に光学スタックがサンドイッチ状に入っとるんや。
そのオプティカルスタックの各層が何をしとるのか、詳しいことは知らへんけど、ワイの理解では、一番前の層は偏光層になってるんちゃうかな。これを屋外で使う時に、投影される画像がよりよく見えるようにするんやと思う。
ディスプレイプロジェクター自体もあって、これはライアントレイヤーを持っとるんや。ここではマイクロLEDを使っとるんやけど、これはBeyondの大画面やXRealのメガネで見たようなマイクロOLEDとは違うんや。
これは有機じゃない高効率のディスプレイで、めちゃくちゃ明るいんや。何十万ニットもの明るさを出せるらしいわ。これが必要なのは、光が導波路を通る間にどんどん減衰していくからや。
今のプロトタイプでは、最終的に300〜400ニットのディスプレイになるんやって。
そのディスプレイプロジェクターは炭化ケイ素の導波路の前にあって、その後ろにはコンバイナーもあるんや。これがディスプレイの画像と外界の画像を整列させて補正するんや。
一番近い層には、アイトラッキングをサポートするものもあるんや。これは本当に新しいものなんやけど、オリオンを近くで見ると、小さなくねくねした線が見えるんや。ほこりや髪の毛みたいに見えるかもしれへん。
実際には、光学スタックの一番前の層、目に一番近い層に埋め込まれとるのは、tiny IRライトエミッターなんや。もちろんアイトラッキング用やな。メガネのアームにカメラがあって、レンズを見とるわけや。
その小さなくねくねした線は、実際にはそれらの赤外線ライトエミッターに電力を供給する方法なんや。くねくねしてるのは、ランダムなパターンにせなあかんからや。
メガネをかけとる時に、目でそのくねくねした線が見えへんようにするためなんや。実際、その距離では見えへんのや。赤外線ライトのリングを目に向けて照射するんやなくて、光学系自体に付けてあるけど、肉眼では見えへんようにしとるんや。めっちゃ面白いアイデアやと思うわ。
矯正レンズのことも聞いたで。今のところ、オリオンを使うにはコンタクトレンズを使うてるみたいやけど、将来的には内蔵する計画があるらしいわ。チームの多くが矯正レンズを必要としとるから、これは解決せなあかん問題やと言うとったな。
組み立ての段階で、目に一番近いレンズ要素がある範囲の矯正をサポートするようになるらしいわ。処方箋を提出せなあかんようになるんやろうな。
スナップオンで付け足すようなものは望んでへんし、追加のレイヤーも避けたいらしい。できるだけメガネに近い物理的なプロファイルを実現するのが本当に重要やったんや。
目玉とレンズの間の距離を1.5cm、15mmくらいにしたいらしくて、これをめっちゃ誇りに思っとるみたいやわ。
このディスプレイがどんな感じかというと、70度の対角視野角は水平60度、垂直40度に相当するんや。デモを使うてみた感じでは、広がりがあって、頭を左右に動かしても、レンダリングできる限界の端は見えへんかったわ。
レンダリングされたウィンドウやアバターを端まで動かすと、切れるのは強制できたけどな。でも、拡張現実には90度の視野角は必要ないと思うわ。バーチャルリアリティやったらもっと広い視野角が欲しいかもしれんけど。
メガネ自体をかけとるから、外界も見えるしな。現実世界からの本物の光子が目に届くってことは、レンダリングされた画像が60x40度の視野角に収まっとれば十分広いってことやね。
複数のウィンドウをサポートしたり、ゲームをプレイしたりするのに十分やし、制約を感じることもない。以前の光学ARヘッドセットで見たような切手サイズのレンダリング画像を見てるみたいな感じはせえへんわ。
視覚的なアーティファクトがほとんどない点でも、ワイが使った中で最高のARシステムの1つやったな。完全にゼロってわけやないけど。目の内側の周辺部に少しゴースト(残像)が見えたわ。目を動かすと、画像のゴーストが見えるんや。
でも、はぐれた光が入り込んだり、虹のような効果が出たりすることはなかったわ。メガネの中を覗いて見える画像では、一種のクロマティックなプリズムみたいなものが見えるかもしれへんけど、実際にメガネを通して外の世界を見てる時には、そんなふうには見えへんのや。
実際のホログラムは明るくて、完全に不透明ではないけど、輝いてる感じがあったわ。
気づいたのは、解像度がそれほど高くないってことやな。現在のマイクロLEDディスプレイで、約13ピクセル/度の密度が得られとるらしい。テキストは読めるし、ウェブページもブラウズできるけど、シャープさはないわ。
初期のVRヘッドセット、例えばValve Indexが13〜14ピクセル/度くらいやから、それと同じくらいやね。
将来的には異なるタイプのディスプレイプロジェクターに取り組んどるらしいわ。26ピクセル/度バージョンのオリオンプロトタイプも試させてもらったけど、こっちの方がずっとシャープやった。ただし、明るさは落ちるし、画像の不透明度も下がるんや。
トレードオフがどこにあるか探っとる段階やね。製品として出荷する時には、30ピクセル/度以上は必要やと考えとるらしい。それが本当に重要な部分やって分かっとるんや。
でも、オブジェクトはそこにあるように見えるし、存在感があるわ。明るくて輝いてる感じやけど、ホログラムを現実世界の本物のオブジェクトと間違えることはないやろうね。はっきりとホログラフィックな見た目で、とても色鮮やかで明るいんや。
ディスプレイシステムは固定焦点やから、任意の焦点距離で調節を変えられるような光線場ディスプレイみたいな聖杯的なものではないわ。ここでの固定焦点は1.5mや。VRシステムと似たようなもんやね。
ステレオイメージングと組み合わせることで、目に負担をかけずに快適な3D的な画像が得られる範囲があるって分かっとるんや。これは彼らが目指しとる導波路光学系のタイプの制限パラメーターやと思うわ。これは光線場光学系やないから、メガネ型の形状でそういうのを実現するのはまだ難しいんやろうな。
でも、本当に強調されてたのは、ディスプレイ画像が左右の目の間だけやなく、外向きのカメラシステムともぴったり合ってるってことの重要性やったわ。人間の髪の毛の太さの10分の1以下の精度で位置合わせされとるって言うてたわ。
左右の目の間で縦方向のズレがあったり、画像と現実世界のキャリブレーションにズレがあったりすると(これは暑い日のハードウェアの熱膨張とかで影響を受ける可能性があるんやけど)、不快になるんや。現実世界が参照点としてあるからな。
だから、レンダリングされた画像が互いに、そして現実世界に対して完璧に見えることが本当に重要なんや。ARにとってはこれが本当に重要やって、何度も強調してたわ。
この位置合わせは、フレームに使われとるマグネシウムでも補強されとるし、メガネがどう着用されとるかを感知してリアルタイムで調整したり、デジタルなキャリブレーションをしたりもしとるらしいわ。
このメガネ型の形状は、おそらくこの種のメガネの最大サイズになるやろうな。実際の製品にする時には、もっと薄くする方法があるって言うとったわ。
ボスが言うてたけど、プロジェクターを導波路の前やなくて後ろに移動させることで、フレームの厚さを半分くらいにできるらしいわ。ただし、もっとキャリブレーションやリアルタイムの調整が必要になるけどな。
リム自体ももっと薄くできるし、アームのデザインもより人間工学的にできると考えとるらしいわ。
物理的なデザインの多くは、耳に詰め込まなあかん電子機器の量や、これの電力エンベロープによっても制約されとるんや。
だから、非常に低電力で動作するカスタムシリコンハードウェアをたくさん開発してきたんや。ディスプレイ自体、つまりマイクロLEDが最も電力を消費するんやけど、スラム(同時位置推定・地図作成)のための世界追跡や、ハンドトラッキング、アイトラッキングのためのオンボード処理もローカルで走らせとるんや。
これらは全部、メガネの重量を分散させて配置されとるわけや。それにバッテリーも必要やしな。
従来なら携帯電話で多くの電力を消費してたようなものを、3分の1か5分の1、場合によっては10分の1の電力で動作させようとしとるんや。数十ミリアンペアを合計して数百ミリアンペアくらいにしたいんやな。
数百ミリアンペアを合計して1リットルくらいの電力になるんやなくてな。そうせんと、彼らが言うとる2時間半から3時間くらいの使用時間は実現できへんからな。
バッテリーの化学的な限界もあるし、物理的な制約もある。バッテリーの形状はある程度調整できるけど、典型的な「立方ミリメートル単位のスペースを全部使い切らなあかん」みたいな感じやわ。
どの寸法を変えても他の要素に影響するから、バランスを取るのが難しいんや。
これがオリオンのメガネ部分での本当のブレークスルーやと思うわ。最も広い完璧な視野角があるとか、最長のバッテリー寿命があるとか、最も強力でスムーズな計算能力があるとかいうわけやないんや。
それぞれの要素を、この形状の物理的な制限の中で全部まとめ上げたってことが凄いんや。そこまで達成して、「よし、70度の対角視野角を98グラムのパッケージで実現できた。じゃあ、これを実際の消費者向け製品としてより手頃にするにはどこを調整すればいいか」って考えられるようになったわけや。
その多くは、2つ目のデバイス、つまりコンピュートパックにも関係してくるんや。
メガネにはスラムなんかのローカル処理があるけど、アプリのロジック、つまり実際にアプリケーションを実行するものは、ARメガネで使うと不快になるような即時の低レイテンシーが必要ないから、ワイヤレスのコンピュートデバイスで動かせるんや。
ワイヤレスであることがめっちゃ重要なんや。Wi-Fi 6の上に独自のプロトコルを作ったって言うとったわ。データを常時ストリーミングするんやなくて、パルス状に送ることで、電力の節約になるらしい。
もちろん、アプリケーションもそれに合わせて調整せなあかんけどな。
コンピュートパックはワイヤレスやから、ポケットに入れる必要すらないんや。バッグに入れてもええし、バックパックやハンドバッグに入れてもええ。範囲は10〜12フィートくらいやって。
これならメガネが2、3時間しか持たへんのに対して、パックは1日中使えるんや。近くにあれば、メガネの全機能が使えるわけや。
面白い話やけど、コンピュートパックの動画を撮ったら、前面や側面のベベルにカメラがあるように見えるかもしれへん。でも、これは実際には使われとるカメラやないんや。
これは、このコンピュートパックをどう使えるか探ってた初期の実装の名残なんや。コントローラーとして考えとったらしいわ。
前面のカメラと、パックの上部にある小さなくぼみは、以前のバージョンでは6自由度のトラッキング精密コントローラーとして機能するようになっとったんや。Quest Proのタッチプロコントローラーみたいな感じやな。デバイス自体でインサイドアウトトラッキングができるわけや。
でも、そこに集中したくないって決めたらしい。手を広げすぎるかもしれへんと思ったんやろうな。だから、代わりにハンドトラッキングを採用したんや。
前面のベベルにあるカメラは、テーブルに置いてユーザーの方を向けることを想定してたんや。そうすると、ある種の骨格モデリングができて、ビデオ通話の時にアバターを完全にトラッキングできるってわけや。
でも、歩き回りながら使えるデバイスにしたかったんや。ビデオ通話をするたびに、コンピュートパックをポケットから出してベンチやテーブルに置かなあかんのは避けたかったんやろうな。
だから、非常に慎重に決定を下して、最終的にはヘッドセット自体のカメラシステムに頼ることにしたんや。そこから得られる情報を機械学習で推論して、ボディトラッキングや顔トラッキングのためのCodecアバターに使うことになるわけや。
でも、探索してきたこれらのデザイン決定の痕跡が、まだプロトタイプのハードウェアに残っとるのを見るのは本当におもろかったわ。
コンピュートパックは入力を担当せえへんのや。アイトラッキング入力もあるし、ハンドトラッキング入力もあるって話したけど、これらをApple Vision Proみたいに組み合わせることもできるんや。視線と指タップ、ピンチを組み合わせたり、物を動かしたりできるわけや。
それに加えて、このリストバンドもあるんや。これは、Control Labsを買収した時の投資が初めて製品として形になったもんやね。それ以来、EMGリストバンドについての論文も発表してきたわ。
これは、手首の筋肉に送られる電気信号を非侵襲的に感知するリストバンドなんや。指を動かしたり、手の向きを変えたりする時に動く複雑な筋肉の配列を感知するわけや。
それをリストバンド自体にあるMLプロセッサーで処理して、システムが認識できるジェスチャーやポーズに変換するんや。
ワイはめっちゃ興味があったんや。何年も前にこのEMGシステムに投資して、開発にもめっちゃお金かけてきたんやろうけど、この数年で機械学習もめっちゃ進歩してきたからな。
IMU、つまりジャイロスコープやIMUを腕時計型のバンドに入れるだけでも、World Expoのデモや、Apple Watchのアクセシビリティオプションなんかを見ると、EMGを使わんでもタップジェスチャーがかなり正確に認識できるようになってきとるわ。
IMUのデータを機械学習で訓練すれば、かなり高い成功率が得られるんやで。
ボスとオリオンチームが言うてたのは、リストバンドが将来的に提供できる可能性、その上限がめっちゃ高いってことやった。
ワイが使ったのは本当に基本的なジェスチャーだけやったけど、システムのトレーニングもキャリブレーションもなしで使えたんや。タップするだけやった。
親指と人差し指でタップできるし、これは前に出す必要もないんや。文字通り、ポケットに手を入れたままでもインターフェースを操作できるんやで。
想像してみてや。街を歩いとって、ジャケットのポケットに手を入れたままで操作できるんやで。手首を回してタップしたり、親指を中指にタップしてメニューを出したりできるわけや。
スクロールもできるんや。一番印象的やったのは、親指を人差し指に置いて上下にスワイプするだけで、Instagramの動画フィードをスクロールできることやった。
本当に、どれくらいの圧力や意図的な動きが必要なんかを試してみたんやけど、結果的にほとんど必要なかったんや。そのちょっとした、小さな「マイクロジェスチャー」って呼んどるやつだけで、スクロールできたんや。
これは本当に強力な入力方法になりそうやわ。Apple Vision Proのコンピュータービジョンベースの入力、つまりCVベースのハンドトラッキング入力と比べてもな。
Vision Proの視線とピンチ、ジェスチャートラッキングの組み合わせは本当に直感的で強力やったし、使うのが楽しかったわ。でも、この1年間使ってきて気づいたのは、大きな手の動きはやっぱりしんどいってことやな。
なんか掴んだり、ピンチしたりして、肘や手首で動かすのは(多分必要以上にやっとるんやけど)、長時間やると快適やないんや。
実際、ウチらの手は指の関節や指の動きの繊細さのために作られとるんやで。ペンやスタイラスを持つ時も、手首を動かすんやなくて、指の関節を動かすやろ?
キーボードで入力する時も、手首を動かしてカーパルトンネル症候群になりたいわけやないやん。だから、システムが別々の入力タイプとして解釈できる、できるだけ小さなジェスチャー、マイクロジェスチャーを使えば使うほど、
より強力で快適になって、長時間使えるようになるんや。これは拡張現実には必要なことやし、だからこそEMGリストバンドにこだわっとるんやと思うわ。
複数のリストバンドについても聞いてみたで。今は1つやけど、めっちゃスマートな形状やったわ。2つのリストバンドを使うデモも見せてくれたし、将来的には実際に紙に書かんでも筆記を認識できるようになるって言うとったな。
キーボードが実際にはそこにないのに、キーボードで入力してるのを認識するようにトレーニングしたバージョンもあるらしいわ。それらは試せへんかったけど、基本的なジェスチャー、つまりタップしたり、メニューを開いたり、スワイプしたり、ダブルタップしてメタAIを呼び出したりするのは、1、2回の誤認識はあったものの、ほとんどうまくいったわ。
腕を組んどって、手をこすり合わせたりする小さな動きでも、誤ってメタAIを起動してしまったりしたわ。システムを使うのに慣れる必要があるし、システムの方もワイの癖を学習する必要があるんやろうな。
ここにはめっちゃ面白い技術がたくさんあるわ。
デモ体験自体にはオンボーディングプロセスがあってな。ワイの顔に合わせてメガネを調整する過程があったんや。アームは曲げられるようになっとって、外側に曲がるんやけど、普通のヒンジがある場所やなくて、もっと下の方で曲がるんや。
これはおそらく、2つのディスプレイシステムとカメラのキャリブレーションのために、より堅牢にするためやと思うわ。鼻に乗せるブリッジと、メガネのアームが動かんようにするゴム製のグリップも付けてくれたわ。
彼らのアイトラッキングの仕組みを見てると、時々メガネを顔に押し付けると、アイトラッキングのキャリブレーションが外れてしまって、やり直さなあかんようやった。
デモはかなり決められたレールに沿ったもんやったな。たくさんのガードレールがあって、めっちゃ均一に照明が当てられた部屋を案内してくれたわ。明るい光はなくて、たくさんの硬い角があったから、おそらくスラムの世界追跡に役立つんやろうな。
ソファーから小さな展示エリアまで案内してくれて、本当に基本的なことをやったわ。ビデオ通話があって、誰かとチャットしたんやけど、その時、相手はCodecアバターを見とったはずやわ。面白いことに、7つのカメラシステムがあるのに、顔を下に向けるカメラはないんや。Quest ProやApple Vision Proみたいな顔追跡カメラはないわけや。
だから、おそらく声を使って、機械学習でそれをCodecアバターの口の動きに変換しとるんやろうな。たぶんクラウドでレンダリングされて、ビデオとしてストリーミングされとるんやと思う。空間ペルソナみたいなもんやないんや。まだウィンドウの中のビデオやけどな。
非対称な体験もあってな。ワイがビデオ通話をしとる相手が、ただ携帯電話を持って画面に映っとるのもあったし、Codecアバターを使っとる人もおった。でも、そのCodecアバターはまだ平面的なもんやったわ。
それから、ウェブブラウジングやビデオ視聴なんかもあって、これらは想像通りの感じで見えたし、動いたわ。
ワイがこれについてあまり驚かんように、当たり前のように話しとるのは、実際にめっちゃ自然で、当たり前に感じたからなんや。ワイの頭の中で、こうあってほしいと思っとったのとぴったり合うてたんや。
パフォーマンスは若干遅れ気味やったな。メガネとワイヤレスコンピュートパックの間のレイテンシーは感じへんかったけど、表示できるウィンドウの数の限界に挑戦しとるんかもしれへんわ。
画像のフレームレートはよう分からへんかったけど、ウィンドウを動かしたりする時に遅れが出るってことはなかったわ。ただ、3つのパネルだけやったし、それらはQuestのダッシュボードみたいに、お互いにラインで固定されとったわ。
3つのウィンドウの配置はどこにでも置けたけど、例えば部屋のマッピングにウィンドウをロックするようなことはできへんかったな。
メタAIを1回使う機会があってな。Ray-Ban Metaと同じように、目の前のシーンについてプロンプトを与えたんや。このガイド付きデモでは、スムージーを作るための材料が置かれたシーンやった。
そしたら、写真を撮るシャッター音が聞こえて、数秒後に、実際のオブジェクトの上にUIの表示が出てきたんや。ラベル付けされとったわ。
ここでクールやったのは、Ray-Ban Metaのメタ AIで今できる音声フィードバックやなくて、実際に世界にロックされた視覚的なフィードバックやったってことや。テーブルの上の各製品を識別して、それぞれにラベルが付けられとったんや。
それから、スムージーの作り方の手順がリストになって浮かんでたわ。この種の世界へのロッキングこそが、ARに求めとるもんやし、もっと欲しいもんやな。シーン認識やシーン理解、持続性なんかをな。
ワイの感覚では、その持続性はまだ完全にはできてへんみたいやわ。メタAIとのやり取りの間だけは持続するんやけど、部屋と部屋の間を歩いたり、外の世界を歩いたりする時に、「このXYZを認識して」って言うたら、それを継続的に追跡したり、継続的に更新したりする能力はまだないみたいやな。
もっと計算能力が増えるか、後で解決策を見つけるんやろうな。
コーヒーテーブルみたいな高めのベンチに座って、ソーシャルメディアをスクロールするデモもやったわ。Instagramをスクロールしたんやけど、ここで本当にブレイクスルーを感じたわ。
本当に小さなマイクロジェスチャーを使うだけで、直感的で、労力がいらへんかったんや。親指を人差し指の上で上下にスワイプするだけで、ビデオフィードをスクロールできたんや。これには本当に感動したわ。
ゲームもあったで。3Dゲームがあって、どこにでも配置できるんやけど、視線追跡とタップベースのジェスチャーで操作するんや。敵や自分の宇宙船が撃つ場所を見て操作する、単純なアステロイドスタイルのシューターゲームやな。これにはあんまり感動せえへんかったけど。
最後のデモ、ポンゲームのデモは本当に心を奪われたわ。これは2つの方法でやったんや。1つは共同作業で、オリオンのデモをしてくれた人を見ると、その人もオリオンメガネをかけとって、ワイもオリオンメガネをかけとる。
ウチら2人の間に、2つの光る格子が固定されてあって、両方から見えるんや。ステレオ効果があるから、本当に奥行きの感覚があるわ。
そして、この光るポンのボールが、青く光る四角とオレンジ色に光る四角の間を行ったり来たりするんや。手を動かしてジェスチャーで、3D空間を通過するポンのボールにスピンをかけようとするんや。
これがめっちゃSFっぽくて、未来的に感じたわ。すごかったで。周りを見回すと、みんながウチらを見とるんやけど、彼らには2人が手を出して、なんか空中で手を振り合っとるようにしか見えへんのに、ウチらはホログラフィックなポンの多人数プレイゲームをしとるわけや。めっちゃクールやったわ。
もう1つのバージョンのポンゲームもやったんやけど、これは空間内の誰かとプレイするんやなくて、スタイライズされた全身アバターと対戦するんや。
そのアバターは、ワイから7、8フィート離れたところに立っとるんやけど、40度の垂直視野角があるから、アバター全体が見えるんや。上下を見なくても、頭や足が切れることもなく、全部見えるわけや。
そのアバターは完全にアニメーション化されてて、手の動きも追跡されとるし、空間オーディオで話しかけてくるんや。まるでホログラフィックな存在感やったわ。
フォトリアルなCodecアバターやないけど、もっとスタイライズされてて、光ってる感じやった。でも、時間が経って計算能力が増えたら、こういうのがもっと空間内を歩き回るようになるんやろうなって感じがしたわ。本当にSFみたいやわ。
デモセッション全体を通して、何度も何度も言われたのは、このプロトタイプがどれだけ印象的で、何年もかけて作り上げたことをどれだけ誇りに思っとるかってことやったけど、
同時に、もっと良くできるってことも分かっとるし、これをより消費者向けのデバイスにするための道筋も見えとるって言うとったわ。
当初はオリオンを販売可能なものにしようと意図的に計画しとったんやけど、今はそれを売らへんって決めたのは本当にええ判断やと思うわ。
ワイが想像する消費者向けのオリオンがどんなもんになるか考えてみると、たぶんその炭化ケイ素は使わへんやろうな。広い視野角のメリットはあるけど、コストが高すぎて、スケールアップして手頃な価格にするのは難しいってことに気づいたんやと思うわ。
だから、視野角が少し狭くなるか、他の部分でトレードオフを見つけなあかんのやろうな。
ディスプレイの密度を上げる必要があるのは分かっとるみたいやわ。少なくとも30ピクセル/度は欲しいって言うとったしな。だから、このデモで見たホログラムほど明るくも不透明でもないかもしれへんけど、
同時に、もっと小さな形状も実現できると考えとるみたいやわ。光学スタックを薄くして、ベゼルを細くして、もっと人間工学的なアームにするってな。
製品としてどうあるべきかを模索しとる途中みたいやわ。本当に携帯電話の代わりになるものを作りたいって考えとるから、高価な値段設定になりそうやな。
飛行機や車の中だけで使うアクセサリーとして買うんやなくて、2番目に重要なコンピューティングデバイスとして買ってほしいって考えとるみたいやわ。
価格帯は高級スマートフォンやラップトップくらいになるって言うとったな。ワイの想像では、たぶん1,500ドルくらい、おそらく2,000ドルくらいになるんちゃうかな。
できるだけ多くの技術を詰め込んで、その代わりに高い値段をつける方が、大衆向けに訴求しようとして体験の質を落とすよりもええと思うわ。
でも同時に、オリオンで開発された技術がQuest製品やRay-Ban Meta製品にどう活かされていくのかにもめっちゃワクワクしとるわ。特にそのEMGリストバンドやな。
メガネをかけながら、ソーシャルメディアのフィードを見たり、スクロールしたりする時に、マイクロジェスチャーが使えたらええなと思うわ。メガネの側面をタップしたり、AIシステムに話しかけたりするだけやなくて、別の入力方法があれば便利やろうしな。
オリオンが最終的にどんな消費者向け製品になるのか、まだまだ時間がかかりそうやわ。彼らが作ったこのプロトタイプ、1000個ほど作ったって言うとったけど、数週間前に発表されたスナップのスペクタクルズとは違って、開発者向けのもんやないんや。
今のところ、開発者はこれを手に入れられへんのや。アプリライブラリやアップストアを作ることが目的やないんやな。
iPhoneのことを考えてみると、あのキラーアプリはアップストアやったよな。それがiPhoneをめっちゃ強力にしたわけや。でも、iPhoneが発表された時、スティーブ・ジョブズが壇上に立って売り込んだのは、「iPod、電話、画期的なインターネットコミュニケーター」やったんや。
基本をしっかり押さえて、最初から本当の価値と効用をデバイスに持たせることが大事なんや。そうすれば、人々は使い続けるやろうしな。とりあえず出して、開発者に何かを見つけてもらおうってんやなくてな。それは後からついてくるもんやと。
だから、メタのオリオンチームには時間をかけてほしいわ。その技術をRay-Ban MetaやQuestに活かしていってほしいな。未来を実現する道を着実に進んどると思うで。
オリオンの詳細な解説、楽しんでもらえたやろか。ワイの体験について質問があれば、コメント欄に書いてくれたら、メタの人たちに聞いて、できる限り答えるようにするわ。
いつもの通り、見てくれてありがとう。ワイはノームや。また次回お会いしましょう。

いいなと思ったら応援しよう!