音声AIアシスタント x XR と AppleのARグラス関連情報まとめ
Volumetric Video/ホログラム専門家の小池です。
9月から始まったテックジャイアントによる新製品発表ラッシュも落ち着き、2019年もいよいよ残り約2ヶ月となりました。
例年通り新型スマホの発表も行われましたが、機能面での劇的な進化はなく、むしろ"ポストスマホ"時代の幕開けを象徴する発表が多くあった印象です。
①9月26日 AmazonがAlexa搭載のEcho Budsを発表
②10月3日 MicrosoftがSurface Earbudsを発表(※Cortona以外にも全対応)
③10月15日 GoogleがPixel Buds2を発表(引き続きGoogleアシスタント対応)
④10月29日 AppleがAirPods Proを発表(もちろんSiri対応)
いわゆる"AI"を開発している大手がこぞって完全ワイヤレスイヤホンを発表したのです。
偶然とは思えないこのトレンドをXR起業家の視点で書いていこうと思います。
※例の如く、個人的な考えを分かりやすさ重視で書いているので、あしからず。※※XRとは、VR/AR/MRの事だと思って下さい。
音声AIアシスタント使えますか?
今、実際に音声AIアシスタントを使っている人は、どれだけいるのでしょうか?
音声AIアシスタントを説明する際によく引用されるバズった動画が2つあります。
イタリアのおばあちゃん(85才) & GoogleHomeの場合
おばあちゃんは、孫にプレゼントされたGoogleHomeを初めて使った時、"明日の天気は何?"と聞き、実際にスピーカーが返答すると、ビックリして、"What is this thing? =これは一体なに?"”I'm scared =怖いんだけど”"It's a mystery = ミステリーだよ。"と、未知の機械にビビっています(笑)そして、孫から使い方を教えてもらうも、最後まで使い方を覚えられず、"Do it= やってよ!!"って言って終わります。
アメリカの女の子(2才) & Alexaの場合
Baby Shark(世界中の子供に大人気の曲)を聞きたい女の子が、Alexaに"Play Baby Shark =曲をかけて!!"と話しかけます。が、まだ言葉を完璧に喋れないので、Alexaはトンチンカンな返答を繰り返します。最終的にお母さんがAlexaに話しかけ、Baby Sharkが流れると女の子はノリノリで踊り出します(^^)
2つとも超〜可愛くて笑っちゃいます(笑)
でもですね、そう笑ってもいられないんですよね(^^;
アメリカンジョークっぽく言うと"You are next=次は君だよ"です。
ちょうど去年の今頃シリコンバレーのイベントで、某VCの方が"スマートスピーカー(音声AIアシスタント)を買え、使え!!"って熱弁していたのを思い出します。
音声AIアシスタントを使いこなせないと、数年後、君は仕事がなくなる。パソコンで、タイピングやショートカットキーを使えないと効率的に仕事が出来ないのと同じで、効率的に音声AIアシスタントを使えないと、君は確実に落ちぶれる。
ポジショントーク満載でしたが、一理あるな〜とも。
よく、最近の新人がパソコンを使えない/ググれないとか、親や上司がスマホ使えないって話を聞きます。
今度は僕が、音声AIアシスタント使えない人って言われる可能性もあるんだろ〜なと(笑)
なぜ"音声"なのか?
正直、音声AIアシスタントの精度はまだまだ低く、機能・音声入力を含め、(特に日本語の場合は)まだまだ実用的とは言い難いです。VUI(Voice User Interface =音声ユーザーインターフェイス)なんて全く洗礼されていません。
そもそもなぜ、"AI"を開発するテックジャイアントはこぞって"音声"に力をいれるのでしょうか?
人類は対話で通じ合い、言葉/会話は人類にとって最も進化したツール/手段だからです。現在は、コマンドやタイピングを通してコンピュータ/インターネットを利用しています。が、そこをより人類にとってより自然な形で実現しよう。という流れなのかなと。
書くより喋る、読むより聞く方が簡単です(笑)
例えば、中国語はタイピングよりも音声入力の方が速いそうで、中国での普及率は他国よりも高めだそうです。(※日本語も漢字/平仮名/片仮名と入力する必要があるので、明らかに音声の方が速いはずなんです。複雑な言語ゆえに、課題も多いかと思いますが・・・)
なぜ"AI"なのか?
2016年4月28日、Googleがオフィシャルブログで創業者の手紙を投稿し、
We will move from mobile first to an AI first world.
モバイルファーストからAIファーストへ!!
と宣言しました!!
世界中にスマホを普及さ、いつでも・どこでも・誰でもインターネット(情報)にアクセス出来る環境を整えた次は、AIを普及させる!!そうです。
AIには学習(データ解析)と推論(判断)の2つのプロセスが存在します。
5Gで、クラウドコンピュータィングとエッジコンピューティングの時代が来る!と聞いた事がある人も多いと思います。
クラウドはサーバー、エッジは端末(クライアント)です。
大雑把に言うと、猫の写真をたくさん集めて、AIに"猫とは?"を学習させるのがクラウド、学習済みのデータを使ってカメラが"猫"と判断するのがエッジ。なイメージです。
よく聞く"AI搭載"とは、推論用(判断する)のAIチップ/プログラムが入っている事を言っていて、そのAIが世界中の電子機器に搭載され始めています(=IoT化)。これがエッジコンピューティング=端末(クライアント)で判断が可能になった世界です。
世界中のAI"開発"スタートアップの半分以上が"AIを使っていない"と言われる所以は、この出来上がったデータを活用しているだけで、自分たちでは何も新しく生み出していないからです(笑)
ちなみに、ディープラーニング(深層学習)はデータ解析の手法であって、AI(人工知能=人類と同等の知能を持ったもの)では無いです(笑)
話を戻します(^^;
Googleは検索エンジンの会社です。
"SEO対策=検索エンジン最適化"という言葉を聞いた事もあるとおもいます。検索(ググった)した時に、恐らくこのウェブページがあたなの求めている"情報"を含んでいますよ!っていう順に表示される、あれです。
このアルゴリズム(最適なページを上位に表示する)が圧倒的に優秀だったので、世界中の人々はインターネットで検索する時にGoogleを使ったのです。
でも、そもそも論でいくと、実際にユーザーが一番知りたいのは、その"順"でも"ウェブページ"でもなく、その"答え"(情報)ですよね?
答えに辿り着きやすい → AIが答える!
これが、AIファーストへ!なんだと思っています。(違ったらスミマセン。笑)
質問(検索)して、最適解を即答する!!
これこそが、Googleが目指す世界であり、ユーザーが一番求めているツール=音声AIアシスタントになるのかなと。
なぜAIアシスタント=XRなのか?
はい、ここからが本番です(笑)
僕が日本でVR事業部を立ち上げていた2015-2016年にVR元年と言われましたが、当時からXR業界ではARの方が重要(市場がデカい)と言われていました。
gumiの国光さん曰く、世間はVR/ARと言うが、
FBのマークザッカーバーグは必ずAR/VRと言う。彼(FB)の本命はAR!!
だそうです(笑)
そしてARは、スマホ(モバイルAR)→イヤホン(音声AR)→グラス型の順に普及するとも長年言われてきました。
個人的には、AIアシスタントも、スマホ(文字)→イヤホン(音声)→グラス(映像)の順に普及すると思っています。
これは、
・新聞(文字)→ラジオ(音声)→テレビ(映像)のメディアの進化
・ポケベル(文字)→携帯電話(音声)→スマホ(映像)のモバイル通信の進化
とも、似ているのかな〜とも。(※個人の見解です)
XRの本質はデジタル(情報)のインプットだと思っていて、
XRの真の価値はデジタルをストレスなく扱える"操作性"にあると思っています。AIアシスタントは、XRに必要不可欠なピースだと捉えています。
スマホでのARの事例等は↓のブログで確認してみて下さい↓
なぜ"グラス"なのか?
現在、世界中でARグラス開発に取り組んでいる企業が多数存在します。
なぜ、技術的な課題が山積みで、解決策となる技術が揃っていないのにも関わらず、ハードウェアの開発競争が起こっているのでしょうか?
興味深いのは、2019年10月現在、家電量販店等で市販されている消費者向けARグラスはゼロです。それなのに、なぜこんなにもARグラスの登場が待ち望まれているのでしょうか?
理由は、
人類は"視覚動物"だからです。
人は外部からの情報の9割を視覚に依存していると言われています。
デジタルをインプットするのに一番適した方法が視覚的に表示する事なのです。
グラスでは、音声とプラスしてハンドジェスチャーによって、より直感的にデジタルを扱う事が可能になります!!
(※LeapMotionのNorth Starのデモです)
個人的には、XRは、音声、ジャスチャーに加えて、ペン型のコントローラーで操作するんだろうな〜と思っています。
人はペンを直感的に扱えますし、XRの時代でもテーブルで作業する事は多いはずで、軽くて小さいし、電池持ち良いし、何より細かい作業にはペンが向いているのかな〜なんて(^^;
これだけPC/スマホが普及してもペンの需要は多いですしね!!笑
アップルのARグラス関連情報まとめ
アップルはARグラスを開発しています。
現時点で3つのプロトタイプが存在するようです。
コードネーム(視野角)
Franc:61°(47° x 40°)
Luck:58° (46°x34°)
Garta:68° (49°x47°)
↓アップルが買収/出資したXR関連技術開発企業の一例です↓
2019年9月 精密ガラス製造メーカーCoringに出資 (全世代のiPhoneにガラスを提供していて、最近AR向けガラスの製造を開始しました)
2018年8月 ホログラフィー技術のAkonia Holographicsを買収
高解像度と広視野角を実現する特許を申請したようです。
(人の目レベルの高解像度を実現したVarjoのXR-1のAR版で、ホログラフィックプロジェクターをハイブリッド①視野角の広く低解像度のプロジェクター ②視野角が狭く高解像度のプロジャクターを搭載するようです。)
2017年12月 iPhoneで顔認証に利用されるTruedepthの部品:VCSEL(垂直共振器面発光レーザー)のサプライヤーFinisarに出資
→その後、同じアップルのサプライヤーII-VIに買収されます
※アップルにVCSEL(垂直共振器面発光レーザー)を提供しているAMSは、OSRAMを買収しようとしています。(あのBain Capitalと引き続き争っているようです。)
2017年11月 ビデオシースルー型のARヘッドセットを開発するVrvanaを買収。
2017年7月 アイトラッキングのSMIを買収
3D画像技術関連でイスラエルの複眼カメラ技術のLinxと3DカメラのPrimeSenseも買収しています。
2017年ごろから、アップルのARグラスは2020年と言われています。2020年まであと2ヶ月!!待ち遠しいですね〜!!
P.S
最後の方、疲れて雑になってますね(^^; 笑
必要な事は各記事に乗っているので、是非そちらでご確認下さい〜(^^)/
2019.11.1 Hiroki Koike