SF世界を現実にする最新技術 ②~注目の画像認識技術&データ圧縮/転送技術~

2023年8月4日 13:37

こんにちは、GENEROSITY でCTOを務めている平沼真吾です。
みなさんいかがお過ごしですか？

🎉このブログも遂に第10回を迎えました🎉
いつもご覧いただきありがとうございます！引き続きnoteでは、GENEROSITYのエンジニア職に興味のある方や将来ワクワクするプロダクト開発をしてみたい方に対して、自分の経験や知識を共有できたらいいなと思っています。

過去の記事のおさらい

本ブログは「SF世界を現実にする注目の技術」の連載記事なので、これまでに触れた内容を簡単に振り返ります。

連載初回で、拡張現実(AR)と複合現実(XR)が街中で体験できるSF世界を現実にするには以下の４つの技術を強化する必要があるとお話ししました。

４つの要素【①ディスプレイ、②画像認識、③データ通信/ 圧縮、④電池】

これまでの記事で ①ディスプレイ技術（デバイス装着型＆裸眼型）をご紹介したので、

今回はその続編として、
②画像認識技術と③データ通信/圧縮技術をご紹介します。

②注目の画像認識技術

🛠SLAM (自己位置推定＆3次元立体地図作成技術)

AR/XRの技術の重要な要素の一つとして、「リアルタイムに空間を認識する」ことが求められます。人間の眼と同じように、コンピューターが現実の世界を認識して、どこに壁や地面があるのか、近くにいる人がいるのか、それは老人なのか子どもなのか、机においてあるのはコップなのか花瓶なのか、などの情報を知覚できる必要があります。

2000年よりも以前から、コンピューターが現実の世界を認識する技術としてSLAM（Simultaneous Localization and Mapping）という技術の研究と発展が行われてきました。SLAMは、コンピュータが現実世界の環境において自己位置の推定と3次元立体地図の作成を同時におこなう技術のことです。広義には、カメラを使う手法、LiDARセンサを利用する手法、ミリ波レーダーを使う手法、Wi-Fiの電波を利用する手法など、いくつかのSLAM手法が存在します。

[2023年注目]　スマートフォンの単眼カメラを使用する「Visual SLAM」

AR/XRを多くのユーザーに触れてもらうためには、2023年時点でスマートフォンが最も現実的なデバイスであり、特に多くのスマートフォンに搭載されている単眼カメラを使用したVisual SLAMが適しています。

Visual SLAMの技術は、パソコンやスマホの性能の向上に加えて、深層学習の技術が2010年代に発展したことにより、認識精度と認識速度が上がってきました。画像認識技術は、リアルタイムでかつ高精度で認識できるようなレベルまで発達しましたが(例：Snapchatのフィルター)、まだ人間の目と同等とは言えるレベルではありません。

私が注目している会社の一つとして、株式会社Kudanという会社があります。Kudanは、人間の脳に相当する技術が「AI（人工知能）」とすると、人間の目に相当する技術を「AP（人工知覚）」と定義して、APを作ることを目標に、コンピュータが空間そのものを”人間の目と同等の正確さとスピード”で立体的に認識できるようにするための機械学習を様々なアプローチで進めています。

人工知覚技術が発達すると、自律走行車/自律移動型ロボットの走行が可能になる他、工場での生産管理の自動化、駅やショッピングモールなど大規模空間におけるARナビゲーション等が可能になります。

③注目のデータ圧縮/転送技術

🛠XRストリーミングSDK

スマートグラスを始めとした装着型デバイスの小型化をしようとすると、CPUやバッテリー、アンテナ、カメラなども小型化しないといけません。高性能かつ高解像度のカメラや大容量のバッテリーは、現在の技術ではどうしても物理的な大きさが必要になってきます。解決法のひとつとしてバッテリーやCPUを入れたバックパックを背負いながら有線接続で装着型デバイスと繋いで大きさの制約をカバーするというアプローチもありますが、誰が重たいバッテリーを日常生活で背負ってまでAR/XRをやりたいでしょうか？

[新たなAR/XRアプローチ] クラウドパワード・デバイス軽量化

そこで別のアプローチも考えられました。装着型デバイスにおいて多くの計算を行う代わりに、位置情報や3次元情報の描画に必要な計算処理を遠方に設置した高性能のサーバーに任せる方法です。これにより、装着型デバイスに搭載するCPUやバッテリーの大きさを抑えることができます。計算結果は無線通信を介してリアルタイムに装着型デバイスに送られるため、高度な処理をサーバー側で行い、利用者はより軽量でスマートなデバイスを使用することが可能となります。

▼これを実現するためのアプローチとして、以下のような手段が挙げられます。
・そもそも転送データを少なくする
・転送スピードを上げる
・一度に転送できる量を増やす

株式会社Mawariが開発したXRストリーミングSDKは、上記のアプローチを実現するためにAR用の3Dデータを圧縮し、復号的かつ効率的に転送する技術を提供しています。Mawariは無線通信の障害となるデータの容量制限や遅延を、5G技術とデータ圧縮技術を用いて改善するアプローチを採用しています。この技術により、デバイスの軽量化による処理能力の不足という問題を改善し、インタラクティブな3D・ARコンテンツの体験がより現実的になりました。

おわりに

今回も最後までご覧いただき、ありがとうございました！

次回は、過去に海外ハイブランド向けに制作した、仮想空間でブランドの世界観とリアルなショッピング体験を楽しめるバーチャルブティックの開発話と使用技術を紹介します。

スキルアップにつながる技術を多数紹介している他、私が所属している会社GENEROSITYでの開発の様子も分かる内容になっておりますので、是非ご覧ください。

次回もお楽しみに！

現在募集中のポジション

Twitterもやっているので、是非フォローお願いします！https://twitter.com/waka_405