[IMWUT2024] 「次は何をすればいい?」料理などの実世界タスク中におけるコンテキストを踏まえた質問応答AI
ヒューマンコンピューターインタラクション(HCI) のトップ国際誌のひとつである ACM IMWUT に、荒川(カーネギーメロン大学)が CMU の研究室で取り組んだ論文 “PrISM-Q&A: Step-Aware Voice Assistant on a Smartwatch Enabled by Multimodal Procedure Tracking and Large Language Models” が Full paper で採択されました。料理・工作・手術後のセルフケアなどの様々なタスクの実行中における、「次は何をすべき?」や「これをどうすればいい?」といった曖昧な質問を、センシングから得られたコンテキストをもとに精度高く返答する AI システムです。以前こちらで紹介した、タスク中のミスを防ぐプロアクティブなAIと対の関係になるインタラクションの研究です。
デモ動画はこちら
1. 背景
料理や工作など日常生活には様々なプロシージャタスクが存在しています。これらを最初に行うとき、多くの質問が浮かびます。特に多いのはステップに関する質問で、「次何をすればいいんだろう」「何かやり忘れたことがあるかな」といった質問が多くを占めることが報告されています [1]。また道具の名前などを知らないときは「これを次どうすればいい?」というように指示語を含んだ形の質問になりがちです。
これらの質問をそのまま現状のボイスアシスタント (例えば Siri や Alexa) に聞いても、正しい答えを得ることは難しいです。現在ユーザが何をしているのかというコンテキストが正しく伝わらないからです。私たちは以前に、スマートウォッチに搭載された音と動きのセンサからこういったプロシージャタスク中のユーザのステップを追跡する行動認識 (Human Activity Recognition) フレームワークを提案しました [2]。この追跡フレームワークから得られるコンテキスト情報を大規模言語モデル (LLM) と組み合わせることで、ユーザが自然に問うような質問にも AI が答えられるのではないか、と考えました。先行研究の PrISM-Tracker と PrISM-Observer と同様に、カメラを使わずに、従来のボイスアシスタントのプラットフォームであるスマートウォッチのみを使用します。
2. 提案手法
提案する PrISM-Q&A は、先行研究の PrISM-Tracker によって現在のステップを推測したのちに、その結果をユーザのクエリと一緒に、LLM ベースのモジュールに渡します。具体的には Generator と呼ばれるモジュールが、タスクの説明、現在のステップコンテキスト、それからユーザクエリをもとに最もらしい回答を生成します。この際、もしもタスクが膨大な説明 (例えば機械のマニュアル書など) を持つ場合は、それの中から適切に情報を取得する Retriever のモジュールも存在します。これはいわゆる Retrieval Augmented Generation (RAG) の仕組みです。
3.インタラクションデザイン
ステップ推定は常に正しいとは限りません。これは PrISM-Observer の介入アルゴリズムの開発の際にも鍵となりました。本研究では、ユーザからの質問に答えるのに推定されたステップ情報を使用する場合は、最初にその推定結果を述べてから、回答をするといったように LLM へのプロンプトをデザインしました。例えば「次は何?」と質問した際は、「今卵を割ったのであれば、次はフライパンを加熱します」といったような形です。こうやって AI が自身のコンテキスト理解を透明にすることで、インタラクションの信頼性が向上すると考えました。
またプロトタイプはスマートウォッチのみを使用していますが、ユーザの質問によっては視覚情報が必要な場合があります。そのような時は、ユーザにスマートフォンでカメラ撮影をするように AI がお願いし、その情報をもとに回答を生成します。これも AI が完璧でないからこその、その限界をしっかりユーザに伝達する協力的なデザインです。
4.実験と結果
まず、複数のタスクデータセット (料理、ラテ作成、スキンケア) を用いて、センサの情報を使った場合と使わなかった場合のユーザからの質問への回答を比較しました。その結果、センサ情報を使った場合は、不定形の質問、すなわち「次は何?」「これをどうする?」といった言語情報だけでは回答が難しい質問にも正しく答えることができ、回答の質が有意に向上しました。同時に、センサによるステップ推定が誤っている場合は、間違った回答になるケースも観測されたため、上で議論をしたように、回答の透明性を上げて、ユーザがすぐに誤りの原因に気づいて訂正できるような仕組みは必須と言えます。
その次に、リアルタイムのプロトタイプを Apple Watch を用いて実装し、ラテ作成のタスクでユーザ実験を行いました。その結果、高いユーザビリティを確認し、得られた定性的なフィードバックから、今後のデザインの可能性を議論しました。
5. まとめ
まとめると本論文では、以下のような貢献をしました。
このプロジェクトは、セルフケア用のアプリケーションを想定して始まりました。皮膚がんの患者が術後の傷口のケアを継続的に行うことを支援するスマートウォッチのアシスタントを目指しています。こういった実社会へのデプロイにはまだまだ課題があります。例えば LLM を使うアプローチでは、どうしても誤った情報を提示してしまう可能性があり、これは患者さんに提供するシステムとしてはかなり危険です。現在は、医師などと協力しながら最適なアプローチを探索しているところです。
6. FAQ
A1. 我々の実験では、自分の行動を明示的に言い直すことによって修正をするユーザが多数でした。この時、最初のクエリから言い直されたクエリまでの全ての対話をプロンプトとして LLM に渡します。こうすることで、LLM が対話の流れを踏まえて、正しい回答を生成することが観察されました。
A2. 提案したフレームワークはスマートウォッチのみならず、さまざまなセンサを搭載したデバイスで使用が可能です。スマートウォッチをプロトタイプに使用した理由は、従来のボイスアシスタントである Siri のようなものがすでに搭載されており、新しいハードウェアをユーザに課す必要がないと考えたからです。現在は、LiDAR等の環境に搭載されたセンサを用いた行動認識などの活用も検討しています。
以下がフレームワーク全体の図です。
A3. 質問の長さ、RAGの有無によっても変わりますが、最新のシステムでは、大体3秒以内には返答が聞こえ始めます。LLMにはOpenAIのAPIを使用していますが、より軽いローカルのモデルを使うなどしてさらにレイテンシを下げることで、ユーザ体験の向上などが今後の取り組みとして考えられます。
参考文献
[1]Völkel, et al. 2023. Eliciting and Analysing Users’ Envisioned Dialogues with Perfect Voice Assistants. https://doi.org/10.1145/3411764.3445536
[2] Arakawa, et al. 2022. PrISM-Tracker: A Framework for Multimodal Procedure Tracking Using Wearable Sensors and State Transition Information with User-Driven Handling of Errors and Uncertainty. Proc. IMWUT 2022, 6, 4.