Vison Proの発表でアップルが一番伝えたかったこと 〜メタとの比較, 2つの注目点& XRとAIの交差点〜
XR起業家でホログラム配信スタートアップHolotch(ホロッチ)のCEO 小池です。
遂にVision Proが発表されましたね🎉🎉
Vision Pro関連のイベントに参加してテンションが上がっており、ちょうどいい機会だな〜と思ったので、今回は今までのブログの総集編的な感じで書いていこうと思います。
僕自身はVision Pro未体験ですので、あくまでもアップルの発表後に、いちXR起業が感じたこと/考えたこととして、ゆる〜く読んでいただければなと思います。
What is Vison Pro?
Vison Proの発表を受けて様々な記事や意見を見聞きする中で、
・XR関係者はお祭り状態に、
・デモ体験者からは ほぼ賛ちょい否 な意見が、
・一般消費者からは高すぎ〜🤑💸
と静観するような意見が多かった様に思います。
そして興味深いのが、
といった意見です。
僕も動画を見ながら、お〜見覚えのある景色が続くな〜と思っていました(笑)
はい。これこそがアップルが今回のプレゼンで一番重要視したことなのかな〜と。
例えば、みなさんはHoloLensは何ですか?と聞かれたら何と答えますか?
道ゆく人100人に聞けば、恐らく90人くらいの方が、知らな〜い🤷♀️聞いたことな〜い🤷♂️と答え、残りの知っていた方々はMR(Mixed Reality)と答えるのかな〜と思います!
では、Vison Proは何ですか?と聞かれたら、どう答えますか?
えっと、、、ちょっと、じらします😆😆
ちなみに、iPhoneって何?って聞かれたら何と答えますか?
子供からお年寄りまで多くの方が "スマホ" って答えるのではと思います。
ちなみに、ちょっと前まで周りにandroidのことをiPhoneって言っている人いなかったですか?
本人はスマホのつもりで言っているんだけど、なぜかiPhoneって言ってしまう人いましたよね(笑)
↓これ↓をサランラップって言ってしまうのと同じ感覚ですね😆😆
iPhone = スマホは正解ですが、
スマホとは何ですか?と聞かれてiPhoneと答えるのはテストでは✖️ですが、一般的にはスマホ=iPhoneとなってしまっている方は少なくないと思います。
では、ようやく本題です!!
みなさんは、Vision Proとは何ですか?聞かれたら、みなさんは何と答えますか??
Vison Proの発表でアップルが一番伝えたかったこと
このA: ■■■■😎の部分こそが、今回アップルが一番伝えたかったことです。
(=アップルがマーケティングしたかったことです!!)
なので、終始Spatial Comtupingのコンセプトをアピールしていたので、XR業界の人は、これってHoloLensの発表の時にMicrosoftがアピールしていたことと同じだよね!!って思ったのでした。
マーケティング的にSpatial Computingを選択した!ということです。
これは2007年のMac WorldでOne More thingとして初代iPhoneを発表した時のジョブズの伝説的プレゼンです↓↓
iPod(音楽), Phone(電話), Internet(ネット)を1つにして、iPhoneを作りました!!
ちなみに堀江貴文さんは
と仰っています。
確かにiPod(音楽), Phone(電話), Internet(ネット)、
この中にパソコンは入っていませんね!!
また、
とも仰っています。
事前のリークでは、新型デバイスの名前はReality Proになると噂されていましたが、実際はVision Proという名前でした。
視覚情報、想像力/イマジネーションのPro型デバイス!
マジでかっこいいっす!!
今回のプレゼンでTim Cookは、
Macがパソコン(パーソナルコンピュータ)を我々にもたらし、
iPhoneがスマホ(モバイルコンピューティング)をもたらした様に、
Vision ProはSpatial Computing(空間コンピューティング)をもたらします😎😎
と、プレゼンしていました。
お気に入りのmemeでいくと、
こんな感じのイメージですかね↓↓
ちなみにSpatial Computingを名乗るのはアップルが初めてではないですし、XR業界内ではメタバースと同じくらい認知度のある言葉です😎😎
色々とスペックや金額などをあーだこーだ言っている人もいますが、
Vision Proを点として見ていたら見誤ってしまう可能性がるので、
Spatial Computingという線の始まりとして見ていくのがベターだと思います。
Tim Cookが考えるSpatial Comtupingのプリンシプル
恐らくみなさんの頭の中は、
ってな感じになっていると思うので、一度立ち止まって
Why Spatial Computing?
なのかを考えてみたいと思います。
Tim Cookは発表前に行われたGQによるインタビューにこう答えています。
(以下意訳です)
ティムクックが考える
ARの魅力は人を繋ぐためのコミュニケーションとコラボレーション
だそうです。
そして、GQは記事内でアップルのことを
と表現しました。GQ曰くアップルの魅力はライフスタイルを変える発明だそうです。
そのイノベーションの基礎になってきたのが
シンプルで直感的なデザインのUIです。
はい。Vision ProはVR/ARデバイスに初めてのシンプルで直感的なUIをもたらしました。
HoloLensやMeta Questなどを体験された方はご存知だと思いますが、最初に使い方の説明がないと全く操作方法が分からないんです。そして、説明を聞いただけで操作方法をマスターできた人はほぼいないと思います。無理なんです。難しいんです。学習コストが高かったんです😭😭
それが、これですよ↓↓
まず第一にこんなにリラックスした姿勢から①スワイプ操作で次の画像に切り替えて、前のめりに姿勢を変えた瞬間に②画像選択され、拡大表示されました。
①スワイプ操作は、右手がほんの少し動いています。
(GIFだと分かり辛いですが、ほんっとにちょっとだけ動いています)
②選択は、恐らくアイトラッキング(だと思います)。
この動画をみて、普通の人は何の疑問も抱かないと思いますが、
それが大事なんです!!
業界人からしたら、マジで🤯🤯🤯ってくらい、
ぶっとんでイノベーティブなんです!!
世界中がこんな感じだったと思います。
はい。なので、
AppleのSpatial Computing(AR)ってなんですの?と聞かれた際は、
とお答え頂ければなと思います(笑)
Meta社のメタバースとの違い
基本的に今までティムクックは"メタバースに対して否定的”な立場をとってきました。そして、今回それがより明確に提示されたのではと思っています。
ザッカーバーグはメタバースで遊んでよ!という、人々をバーチャル空間に招待するというスタンスですが、アップルは、現実世界で人々をより結びつけよう!というスタンスです。
いや〜、バチバチですね🔥🔥笑
左 がメタのアバターで、 右 がアップルのアバターです。
割と分かりやすく、エンタメとビジネスに振り切っているかなと思います。
VR/ARのエンタメが体験したければ、圧倒的にQuestがオススメですし、新しい創造性を体験したければVison Proがオススになるかなと!
Appleの発表で注目した2つのこと:マルチタスクとSpatial Video
今回のアップルの発表の中で、個人的にきた〜!!
と思った事が2つありました!!
1つ目がはマルチタスクです。
複数アプリを同時に立ち上げてストレスフリーに横断的な作業が可能になりました。
VR/ARデバイスでマルチタスク対応と謳っているデバイスはありますが、
ここまで本格的な物はありませんし、使い勝手の良い物はありません。
これはマジで嬉しいです!!
もちろん、こんな感じで3Dデータも表示出来るので、
ピカチュウを机の片隅に表示して、お昼寝しているを見つめながらお仕事したいな〜とか思っちゃいます🥰🥰
これは日本ですごく受け入れられると思います😎😎笑
2つ目が、Spatial Videoです。
写真、動画に変わる次世代のデジタルコンテンツとして Spatial Video(空間再現ビデオ?)を発表しました。実は、これを体験した方々のレビューが大きく賛否分かれていたと思います。
iPhone, iPadのProシリーズには2020年からLiDARと呼ばれる3Dカメラが搭載されてきました。しかし、このLiDARを使って撮影するアプリをAppleは今まで発表していなかったのです。では、なぜ今までiOS向けに登場しなかったのでしょうか?そして、なぜ体験者の間で賛否があったのでしょうか?
登場しなかった理由は
①Spatial Videoの魅力を100%体験するには、XRデバイスが必要だから。
②Spatial Videoの開発ハードルが高いから。
があります。
実は、私が起業して開発しているホロッチの技術がど真ん中でSpatial Videoに関する事業でして、専門用語でVolumetric Video(ボリュメトリックビデオ)だとか、一般的にホログラムと呼ばれていたりします。
(SF映画のようにアウトプットにプロジェクターを使うホログラムではなく、VR/ARグラスで体験するデジタルコンテンツです)
3D映画のように視差を使い擬似的に再現している擬似3Dではなく、
奥行きのある深度データを記録している本当の立体的な3D映像は、
まだ世界でも確立されていない最先端の技術だからです。
例えば、GoogleのStarlineなどが同様の技術を利用しています。
↓↓こちらが弊社、ホロッチのデモで、
遠隔地にいる対話の相手にバーチャルでハグをしているシーンです。
左下:配信者がiPhone12Proのホログラム撮影アプリを使い
左上:VRゴーグルのアプリ中にリアルタイムにホログラムをライブ配信をしているデモです。
右:実際にVRゴーグルで見ている映像です。
VRをつけると目の前に対話の相手が等身大で立体的に表示されるので、
本当に彼に近づいてハグをしているような感覚を覚えます!!
この技術はアップル、Google、ホロッチなど、世界でもまだ限られた企業でしか実現出来ていない最先端の技術です。R&D段階でとりあえず動く段階のものから、実用に足り得るレベルまでかなり差もあったりします。
アップルの発表にもありましたが、
この魔法を2Dスクリーンで 完全に理解することは不可能!
ですし、おそらく、アップルのSpatial Videoアプリもまだ完成という訳ではないのかな〜とも思うので、体験者の評価が変われてしまったのも頷けます。
が、アップルは発表の後半でスポーツでの活用を想定したコンセプト映像を披露しています!
等身大のアメフト(NFL)の選手が部屋の片隅に登場したり、
バスケ(NBA)の試合を、立体的な映像でコートごと配信して、自由視点で観戦しています。
これは、もう本当に夢のような技術ですよね〜!!
ちなみに、こちらは2016年にマイクロソフトが発表したMRを活用したスポーツ観戦のコンセプト映像です。
7年経って、ほぼ同じ映像をぶつけてくるあたり、Vision Pro向けにスポーツ配信を行いたいという、アップルの本気度を感じます!!
事実、アップル、マイクロソフト、Googleはこの技術にとんでもない投資をしていますよ🤑🤑
なぜなら、この立体的な映像での思い出撮影、コミュニケーション、エンタメ体験が、VR/ARのブレークスルーになるのは間違いないからです!!
個人的には19世紀にエジソンが発明したキネトスコープ(映画)以来の映像革命になると信じています😎😎
XRとAIの交差点
な〜〜にが、Spatial Computing(空間コンピューティング)時代だ?
今はGenerative AI時代だろ〜が!
というお声もあるかと思い、一応ここも書いておこうかなと思います(笑)
これは断言できます。
XR x AIはやばいです!
今のGenerative AIの比ではないくらいのインパクトがあります。
※ここまではフリップ芸っぽいブログでしたが、
(ネタを考えるのに疲れたので)ここからは文字メインです🙇🙇
Generative AIブームのきっかけになったChatGPTに使われているGPTというフレームワークは、Generative Pre-trained Transformerというもので、ここでPre-trainedさせて、Transformerさせているのは"言語"です。大規模言語モデルって聞いたことありますよね?言語を学習し、言語を生成させています。なので、厳密には情報を処理しているのではなく、こういう言葉が羅列されるよね?というロジックです。
なので、必ず誰かがネット上に言語化(アウトプット)した情報が必要で、
それが無ければ新しく/正しく言語化(生成)できません。
では、XRに求められているAIとは何か?
日常的にARグラスを着用している未来は、誰かのアウトプットを待つ必要がなくなるのです。
ARグラスがリアルタイムに自動で情報を取得し、解析できるようになると、例えば、出かけた直後に鍵かけ忘れたかも?と不安になることがあったとします。
ARグラスx状況解析によるアシスタントAIがあれば、
Hey Siri, 今日、鍵かけたっけ?と聞くと、
Siriが掛けていましたよ!と教えてくれるかもしれません。
もしくは、Siriが掛け忘れてた事を解析して家から遠くなる前に通知してくれるかもしれません。
スマートホーム(IoT)ならアプリで確認できるじゃん?と思うかもしれませんが、エアコン、水道、電気、鍵などは対応できても忘れ物などはIoT化しようがありません。しかし、ARグラスならば、必要な物をカバンに入れたか、家に置いてきたか、解析可能ですからね。
意識と記憶と意思決定をARとAIに委託し、依存できるようになるはずなので、これは人のIoT化(常時接続)なんだと思っていて、365日常にお母さんとか先生が隣にいる感じになるんだろ〜なと思っています。子供って何も考えずに思いついたらファーストアクションが、ね〜ね〜お母さ〜んとか、ね〜ね〜先生〜って聞くじゃないですか?
あれって、マジで便利ですよね(笑)
その聞く相手が、お母さんや先生でなく、常時身につけているARグラスとリアルタイムに状況解析が出来るAIアシスタントになると、マジで万能じゃないですか?
これはスマホじゃ無理なんですよ。ARグラス(カメラとマイク)が必要になるのです。
たとえば、偽の商品レビューとか、ラーメン不味かったとかって誹謗中傷も、一瞬でフェイクって断定できますからね。ツイートする人が、実際に商品使ってませんとか、食べてませんとか、実は食べてた時、美味しそうな表情していました。とか、全部筒抜けになりますから。ちょっとした監視社会っぽく聞こえますけど、これはあくまでも例え話です(笑)
インターネットの特徴の一つが集合知だと思っているのですが、
その集合知を作るために、人が頑張らなくて良くなると、
未来のインターネットって革新的に発展できる可能性を秘めていると思いませんか?
言いたいのは、ChatGPTが検索の歴史を変えたと言いますが、
AR x AIがさらに変えていくと思っていてください。
事実、アップルは人間の知覚及び行動を制御することを目指して開発してきたとリークされるくらい、、、もう出来ちゃうんです!
文字って学習しないと読み書きできないですが、会話って成長と共に自然に習得できますよね?
文字でのコミュニケーションよりも会話の方が圧倒的に楽なように、今まで文字のバリアがありうまくインターネット使えていなかった人も、音声アシスタントAIによって正しい情報にリーチ出来るようになります。
音声には文字では表現出来ない抑揚や強弱などにより、伝え方に工夫も可能になりますし、声色を好みにチューニングすることも可能です。
インターネットをうまく使えなかった人も、使えるようになる!は、
マジでAR(常時接続)によるアシスタントAI(パーソナライズ+状況解析)はやばいと思います。
以上です。
2023.7.24 Hiroki Koike