見出し画像

[IMWUT2023] ウェアラブルEMF+IMUセンシングによる3D姿勢復元

ヒューマンコンピューターインタラクション(HCI) のトップ国際論文誌のひとつである ACM IMWUT に、荒川(カーネギーメロン大学)が取り組んだ論文 “MI-Poser: Human Body Pose Tracking using Magnetic and Inertial Sensor Fusion with Metal Interference Mitigation” が Full paper で採択されました。これはARグラスと手首に装着したEMFセンサのみから3次元の姿勢推定を精度高く行うシステムを提案したものです。

本研究は荒川が Snap Research のインターン期間に取り組んだ研究です。

1. 背景と関連研究

AR/VRにおいて、3次元の姿勢推定はとても大事です。主な既存手法として、外部に置いたカメラを用いるものが精度の高さから人気ですが、必ずしもカメラを用意するのが適切であるとは限らず、身体に装着できるために場所を選ばなくて済む、ウェアラブルデバイスを用いた手法の重要性が認識されてきています。

カメラに頼る手法はプライバシやバッテリー、そしてトラッキング対象が画角から外れたり遮蔽されたりした場合の性能低下といった問題が存在します。本研究では異なるセンシング手法として Electomagnetic Sensing (EMF) と IMU センサを組み合わせ、同等の3次元の姿勢推定を実現する手法を提案します。なお、EMF センサとはソースコイルに電流を流して発生した磁場の変化をレシーバコイルによって検出することで、ソースに対するレシーバの相対位置を計測するものです。通常の Magnetic Sensing の対応可能範囲が短距離であるのに対して、EMF センシングは1~2m程度の中距離に対して動作できることから、身体スケールのトラッキングに適していると考えました。またカメラとは異なり、ソースとレシーバの間が遮蔽されていたとしても頑健に動作します。ぜひ上の動画を見てみてください。

実は関連した研究として、装着したスマートウォッチや Airpods などの IMU センサのみから大雑把な姿勢復元をする手法を CHI2023 にて発表していました [1]。それを踏まえると、IMU センサより直接的に空間の位置情報を把握できる EMF センサを加えることによって復元の精度を上げる研究という位置付けもできます。

2. 提案手法


MI-Poserのトラッキングのパイプライン

ざっくりと説明すると、頭にソース、両手首にレシーバを装着して、この3点の位置関係を取得します。加えて今回は AR を想定したシステムであることから、AR グラスの自己位置推定 (VIOトラッキング) の結果から頭の姿勢を取得することができます。これらの情報を入力にして、全身の姿勢を推定するような機械学習モデルを学習させました。学習のためのデータとしてはAMASS [2] という公開されている巨大なデータセットがあり、そのサブセットを用いて、十分に高速な推論が可能なアーキテクチャのモデルを学習した形になります。

さらに、本研究では EMFトラッキングが抱える不可避的な問題についての対処法 (Metal Interference Mitigation; MIM) も提案しました。それは、環境に金属がある場合に、トラッキング精度が損なわれるというものです。先行研究 [3] ではどのくらい近いと影響が出るのかを調べたものがあり、例えば数 10cm ほどでも影響があることがわかっています。エンドユーザが多様なAR アプリケーションを使用することを考えると、そういった瞬間が発生することは容易に想定されるため、その対処が重要になってきます。本研究では EMF センサと IMU センサの時系列データから、EMF センサの値が尤もらしくない時を検知する手法を提案し、さらに必要に応じて IMU センサが EMF センサの値を修正するアルゴリズムを提案 しました。

3. 実験と結果

EMFセンサに対する金属の影響を調べるため、複数の環境でデータ収集

提案システムの有効性を示すために、二つの実験を行いました。一つ目は3次元姿勢推定システムとしての精度の測定、二つ目は MIM によるトラッキングエラーの減少の検証です。デモ動画を見てもらえれば分かる通り、一つ目については少ない誤差で姿勢推定が可能であることが確認できました。これは IMU センサのみを使った場合のシステムと比べても高精度であると考えられます。二つ目の実験では、金属の多さに応じた複数の環境でデータを収集し、その結果として以下がわかりました。

・金属による影響を受けているかどうかの判定は、EMF と IMU センサそれぞれの回転の値を比較することで可能。
・金属の影響が少ないときは IMU センサを用いての EMF センサの値の修正がリアルタイムで可能
・向きの修正の方が効果が大きく、位置の修正は効果が小さい時もある

MIM は3次元姿勢推定システムの前段階の処理として挟み入れることができます。実際のデモでは、金属周辺での推定結果のバラツキが減少し、より実際の姿勢に近いものが復元されていることが確認できました。

MIMが及ぼす金属付近での姿勢推定への影響 (1/3秒分の映像を画像に描画)

4. まとめ

まとめると本論文では、以下のような貢献をしました。

・ウェアラブル3次元姿勢推定を目的に EMF センサと AR グラスを組み合わせたシステムを提案、評価を行った
・デプロイを考えた際に EMF センサが避けては通れない金属による干渉の問題に対して、EMF センサと IMU センサを組み合わせることで、干渉の検知と修正が可能になることを示した

今後の展望としては、本研究が可能性を示した EMF と IMU センサの融合による干渉への対応について、更なる手法の提案が望まれます。特にデータドリブンに機械学習モデルを走らせることは有望な選択肢です。その際には、システム全体のレイテンシを考慮して高速なアルゴリズムであることが必要です  (今回提案したアルゴリズムは姿勢推定が 4.2ms、干渉の検知と修正を合わせて 0.6ms ほどで、システム全体は 60Hz で高速に動作します) 。

5. FAQ

Q1. EMF センサの消費電力はどの程度ですか?

A1. 現在のプロトタイプでは EMF のソースとレシーバでそれぞれ 1.4W, 0.68W となっています。これは外部にカメラを置くタイプに比べるとだいぶ小さく、例えば HTC Vive Lighthouse のソースでは 5W となっています。

Q2. 長期間金属の干渉がある場合にも IMU との融合で修正ができるのですか?

A2. 実は長期間の干渉下での、EMF センサの値の修正はできていません。それは、そのような場合には EMF センサのずれがとても大きいことや、IMU センサによるトラッキングは時間が経つにつれて誤差が蓄積してしまうことが挙げられます。ただ、そのような場合でも干渉の「検知」は可能です。なので例えば AR グラスを通じて、「いま金属干渉が起きていますよ」とユーザに知らせてあげれば、トラッキングがうまく行っていない理由をユーザが理解して、体験をひどくは損ねないのではという期待があります。このようにエラーの理由を透明化するというのは Human-AI Interaction [4] の文脈でも大事とされている観点です。

参考文献

[1] V. Mollyn, et al. 2023. IMUPoser: Full-Body Pose Estimation using IMUs in Phones, Watches, and Earbuds. Proc. ACM CHI 2023, 1-12.
[2] N. Mahmood, et al. 2019. AMASS: Archive of motion capture as surface shapes. Proc. IEEE/CVF ICCV 2019, 5442-5451.
[3] E. Whitmire, et al. 2019. Aura: Inside-out Electromagnetic Controller Tracking. Proc. ACM IMWUT 2019, 300-312.
[4] S. Amershi, et al. 2019. Guidelines for human-AI interaction. Proc. ACM CHI 2019, 1-13.


いいなと思ったら応援しよう!