[UIST2024] 料理などの実世界タスク中のミスを防止するプロアクティブなAIエージェント
ヒューマンコンピューターインタラクション(HCI) のトップ国際学会のひとつである ACM UIST に、荒川(カーネギーメロン大学)、矢倉(マックスプランク人間開発研究所)が CMU の研究室で取り組んだ論文 “PrISM-Observer: Intervention Agent to Help Users Perform Everyday Procedures Sensed using a Smartwatch” が Full paper で採択されました。料理・工作・手術後のセルフケアなどの様々なタスクの実行中に、あるステップを飛ばしてしまうなどのミスを防ぐために、システムがユーザの行動を観察し、プロアクティブ (積極的) に介入します。以前こちらで紹介したトラッキング技術に基づいて、インタラクションの仕組みを提案した研究です。
デモ動画はこちら
開発したフレームワークと使用したデータセットはGitHub上で公開しています。https://github.com/cmusmashlab/prism
1. 背景
料理や工作など日常生活には様々なプロシージャタスクが存在しています。これらは一つ一つのステップからなるもので、例えばあるステップを飛ばしてしまったり、順番を間違えてしまったりすると、重大な結果につながることがあります。ある研究では、およそ20%の人がコロナの検査キットを間違えて使っていたことが判明しました [1]。
私たちは以前に、スマートウォッチに搭載された音と動きのセンサからこういったプロシージャタスク中のユーザのステップを追跡する行動認識 (Human Activity Recognition) フレームワークを提案しました [2]。この追跡フレームワークを用いることで人のミスをリアルタイムで検知できるのではないか、そしてそのタイミングで例えば音声などで介入することでミスを防ぐことができるのではないか、と考えて本研究に取り組みました。カメラを使わずにスマートウォッチのみで実現できることは、プライバシなどの問題を避け、日常の様々なタスク支援に活かせるのではと期待しました。
2. 技術的課題
しかし実は簡単にはいきません。具体的には以下の問題が生じます。
センシングが完璧ではないので、安直なルールベースの実装は的外れな介入につながる
フレーム毎の予測系列からどのタイミングで介入をすべきかを決定することは、特にユーザの行動パターンが多様な場合に、ヒューリスティックスが使いづらい (下に後述します)
本研究では、ユーザがステップをどう移動するかをモデル化した遷移グラフを用いて、特定のステップが発生するまでの時間を先読みして予測することで、ヒューリスティックスを使わずに介入タイミングを決定することを可能にしました。
3. 提案手法
ここではあるステップが発生するタイミングをまず予測し、その前後でタイムリーな介入を行うことを考えます。介入をする AI エージェントの気持ちになってみると、ここには二つの不確実性が存在します。
現在の状態に対する不確実性
将来のユーザの行動に対する不確実性
一つ目はセンシングの結果によるもので、二つ目はタスクの遷移グラフの構造に由来するものです。例えば、料理をするときに先に肉を切るのか、野菜を切るのかといった選択肢がある場合に、単純に予測することが難しくなります。提案手法ではこの二つの要素を確率的にモデル化します。そして、エージェント全体の持つ不確実性が低い時に、特定のステップが発生するまでの時間の予測値を採用します。
論文では期待値やエントロピーといった要素を用いて、介入のための方策を記述しています。興味があればぜひ見てみてください。
4.実験と結果
まず既存のタスクデータセットを用いて、特定のステップのタイミングの予測のずれを評価しました。ここでは傷口のセルフケア、料理、カフェラテ作成の3つのタスクを用いて実験をし、センシングの情報を使わないベースラインの方策 (最初の段階で、平均的には X 秒後に該当ステップが発生するという情報を用いる) と比較しました。
結果多くのステップで予測タイミングの誤差が減少することが確認できました。冒頭の動画を見てもらうと、単純に時系列予測だけを用いた場合(青)と提案手法を使った場合(オレンジ)で予測の正確さが向上していること、さらに音や動きからの様々な手がかりを用いながら将来の不確実性を減らしていることがわかるかと思います。
次にリアルタイムのシステムを用いて、実際に料理のタスクでユーザ実験を行い、ユーザ体験レベルでも有効性を確認しました。詳細はぜひ論文を参照ください。
5.まとめ
まとめると本論文では、以下のような貢献をしました。
このプロジェクトは、セルフケア用のアプリケーションを想定して始まりました。皮膚がんの患者が術後の傷口のケアを継続的に行うことを支援するスマートウォッチのアシスタントを目指しています。
また、理想的なアシスタントシステムとユーザのやり取りは双方向的です。ユーザが何をしていいかわからなくなった際に、次のステップについて教えてくれたり、その質問に答えたりするインタラクションも開発をしています。これらの多様なインタラクションを織り交ぜて、人間ユーザと AI システムが協働しながら特定のゴールを目指すためのイニシアチブのあり方を長期的には研究しています。(以下の記事で議論したところです。)
6. FAQ
A1. スマートウォッチのみを用いているため、明示的に視覚情報を必要とするようなミスは検出が難しいです。重要なチェックを行いたい場合は、そのタイミングでユーザにカメラの使用を促すなどのハイブリッドな方法も検討しています。また、ステップによってはどうしてもセンシングが苦手なものがあるため、そういったものは現状の方法ですと、タイミングがどうしてもズレてしまいます。現在は、リアルタイムに AI エージェントがユーザの行動追跡を修正できるようなアルゴリズムを開発中です。
A2. 基盤となる行動認識 (Human Activity Recognition) のモデルの学習には、1つのタスクについておよそ15セッションほどのデータを用いています。遷移グラフもそこから自動作成されます。より大きな基盤モデルを活用する、一人のユーザが繰り返し使用することを想定する、などによってこのデータ収集コストを減少させることは今後の研究です。
A3. 現状ステップは、システムデザイナが事前に決定することを想定しています。しかしこの決定の方法は自明ではありません。ユーザがそれに基づいて簡単にメンタルモデルを作れるかどうかという点、センサシグナルがステップごとに一様で互いに識別しやすいかという点、既存のマニュアルやレシピなどの情報と関連させやすいかという点、などの様々な要素が絡んできます。ここは大事な将来の研究だと思います。
参考文献
[1]Pydi, et al. 2023. Assessment of the Usability of SARS-CoV-2 Self Tests in a Peer-Assisted Model among Factory Workers in Bengaluru, India. https://doi.org/10.1101/2023.11.20.23298784
[2] Arakawa, et al. 2022. PrISM-Tracker: A Framework for Multimodal Procedure Tracking Using Wearable Sensors and State Transition Information with User-Driven Handling of Errors and Uncertainty. Proc. IMWUT 2022, 6, 4.