【UIST2024に参加】EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals

2024年10月29日 15:03

はじめに

こんにちは。杉浦裕太研究室M1の鈴木です。
10/12より、アメリカ・ピッツバーグのWestin Hotelで開催されたThe ACM Symposium on User Interface Software and Technology (UIST)に参加し、「EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals」というタイトルで登壇発表をしましたので、報告させていただきます。本研究はBest Paper Awardを受賞しました。

研究の概要

本研究ではヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識について提案しています。
近年、イヤホン型ウェアラブル端末であるヒアラブルが注目を集めています。ヒアラブルは従来の通話や音楽再生機能に加え、音声アシスタントやヘルストラッキングなど様々な機能が搭載されています。ヒアラブルの操作には、スマートフォンから間接的に行う方法と、ヒアラブルから直接操作する2つの方法があります。スマートフォンによる操作は、画面を見ながら操作する必要があるため、ユーザビリティが低下する一方、ヒアラブルによる操作するには音声認識やセンサを押下する物理的な操作が可能です。しかし音声認識は文化的な背景から公共の場での利用は困難であり、騒音環境下では認識精度が低下するという課題があります。また、物理的な操作では小さいセンサ部分を押下するのは難しく、耳への負担やノイズが発生する問題があり、手が濡れているなど特定の条件下では利用できません。
本研究では、インイヤー型およびオープンイヤー型の2種類のプロトタイプデバイスを用いて、評価実験を行いました。音楽再生中にEarHoverが与える聴覚体験への影響を調査した結果、信号の再生による音楽体験の差異を感じるユーザは50%に留まり、嗜好性に関する有意差は確認されませんでした。また、生活動作13種とジェスチャ7種の識別実験では、生活動作の誤検出率が平均1.8%、ジェスチャ動作の誤検出率が平均10.6%という結果が得られました。さらに、5つの異なる利用環境におけるジェスチャ認識実験では、7つのジェスチャに対する認識率が79.7%から88.8%でした。

当日のフィードバック

EarHover使用者の隣に人がいた場合にシステムとして利用できるか質問を受けました。また、検証した個人モデルだけでなく、全ユーザのデータを使用した一般モデルのパフォーマンスについても質問を受けました。今後の検証事項としたいと考えています。

感想

初めての海外での学会参加で、有名な国内外の研究者や学生とコミュニケーションを取ることができ、非常に有益な機会となりました。別日に開催されたデモセッションでは多くの研究者と直接建設的な議論を行い、バンケットでは研究内容について議論して親交を深め、国際的な研究ネットワーク強化に繋がる有意義な時間を過ごすことができました。

発表文献情報

Shunta Suzuki, Takashi Amesaka, Hiroki Watanabe, Buntarou Shizuki, and Yuta Sugiura. 2024. EarHover: Mid-Air Gesture Recognition for Hearables Using Sound Leakage Signals. In Proceedings of the 37th Annual ACM Symposium on User Interface Software and Technology (UIST '24). Association for Computing Machinery, New York, NY, USA, Article 129, 1–13. https://doi.org/10.1145/3654777.3676367