UIST 2024 にみた今の HCI に共通する問い
筆者: 荒川 (カーネギーメロン大学)
2024/10/13 - 10/16 にかけてピッツバーグで開催された ACM UIST 2024 に参加してきた。ACM UIST は ヒューマンコンピュータインタラクション (HCI) 分野の中でも、特にデバイスやインターフェースの開発などのテクニカルな研究者が集う学会である。そのため CHI に比べて規模は小さいながら、デモ等が盛んで、技術的に深い議論が盛り上がる面白い学会である。
前回の記事では CHI 2024 に参加した後に、加速する AI 技術に焦点を当てた研究の急増と、HCI に求められる役割として如何にユーザにとって「使い続けたい」と思うインタラクションをデザインできるかが鍵であると言及したが、今回の UIST では関連するトピックがコミュニティとしてより深く議論されていた。
前提: LLM Wrapper Papers への危機感
LLM を中心とした AI 技術が API を通じてコモディティ化されたことで、現在 HCI コミュニティは大きな変化を迎えている。「LLM を使ってみた」系の研究が多いのである。これは英語圏では LLM Wrapper Papers と呼称され、他の研究者も問題視している。
CHI / UIST を初めとした様々な HCI の学会では論文投稿数が史上最高となり、査読プロセスや学会運営の仕方が見直されつつある。 CHI ではデスクリジェクト (本格的な査読に回る前にエディタ権限でリジェクトをすること) の基準に、HCI の文脈にはっきりと乗っているか (少なくともそのように論文の貢献が議論されているか) があるようだ。例えば HCI 系の研究を一切引用せず、「〜〜には LLM が使われたことがないので、本研究では適用してみた」のような論文は高い確率で、エディタのチェック後にデスクリジェクトになる。では HCI の文脈とは何なのであろうか?
以下では UIST 2024 で感じた、HCI コミュニティが今考えているテーマについて書いてみる。
Vision Talks
UIST では Vision Talks というセッションが設けられており、その名の通りビジョンを共有する講演である。分野の中でも比較的シニアな研究者が20分ほどのトークをする。個別の研究というよりかは、総論として未来を考えさせられる面白いセッションである。
今年は MIT の Arvind Satyanarayan 先生による Intelligence as Agency と題された講演と、続けて Université Paris-Saclay, Inria の Wendy E. Mackay 先生による Parasitic or Symbiotic? Redefining our Relationship with Intelligent Systems という講演であった。
根底のテーマとして大きく述べるならば、人間ユーザとAIシステムという二つの異なる性質の知能がどうやって相互的に変化していくかという問題を提議されていた。(動画が公開されるかどうかは不明だが、予稿は ACM にて公開されている。興味があればタイトルを調べたり先生方の最近の活動を追ってみたりすることをお勧めする。)
記憶に残ったのは、Satyanarayan 先生の次のスライドである。

自分なりに解釈をすると、「HCI 研究には、何かの問題を解決しゴールを達成するためのインターフェースをデザインするものが多くあるが、それらは human-AI の関係性の特定の表現の一つである。インターフェースは表層的な見た目から切り離され、人間ユーザと AI システムの協調のために共有された抽象表現 -- 言語としてデザインされるべきであり、そうすることで二者間のエージェンシのバランスを動的に決定できるようになっていくだろう」というものである。
続けて、Mackay 先生は、人間ユーザと AI システムが相互に学習して適応するための長期的なパートナーシップを実現することを強調されていた。生物同士の関係性の概念を異なる知性の関係性に拡張しており、新鮮かつ納得のいくビジョンであった。

近しいテーマであるこの二つが今年の Vision Talks に選ばれたことは面白い。こういった話自体は Mixed-Initiative [1] の議論を始めとして近年では Human-AI Collaboration という単語で議論されてきたことを考慮すると、LLM Wrapper Papers に対する一つの警鐘として、 HCI コミュニティが考えるべき方向性を示唆しているのではないか。
個々の研究にも通底する考え
UIST はセンシング、ハプティクス、アクセシビリティ、ビジュアライゼーションなど様々なドメインでの技術的な研究が発表される。HCI はその多様性が魅力的な一方で、論文が個別の問題に閉じやすく、全体として何を目指しているのかわからないという批判を近接コミュニティから受けやすくもあった。
しかし、上の Vision Talks で語られたテーマの眼鏡で見てみることで、通底する問題意識や発表後の質疑応答のディスカッションがあると感じた。
"AI as Copilot" のセッションはわかりやすい例である。サーベイやビジュアライゼーションプログラミングといったタスクを解くために、AI システムに single-shot でやらせるのではなく人間ユーザが介入する余地をデザインしたインターフェースの提案が複数見られた。
他にもアクセシビリティに関する新しいシステムの研究の質疑応答で、提案された AI システムの介入は、すでにlow vision のユーザが実践していることとコンフリクトするデザインなのではないかというツッコミは記憶に残った。
様々なドメインの発表の議論でよく上がったのは
・提案されたインターフェースのパターンだけで良いのか?
・ユーザの習熟度が低い/高い時にどのようにインターフェースが変化すべきなのか?
・LLM がより賢くなった時にもインターフェースは同じなのか?
などの点である。
実は私たちが発表した PrISM-Observer: Intervention Agent to Help Users Perform Everyday Procedures Sensed using a Smartwatch の研究も、料理などのタスク中に AI アシスタントに proactive 性を持たせて、ユーザが間違えないように介入をするというもので、本質的に上記の議論がピタリと当てはまる。(近々本 note でも紹介予定である 公開しました!)
これらの問いにどのように取り組むのか。Longitudinal な study の重要性が増すことは間違いないと思うが、往々にしてその実践は困難なので、そのための知見などがコミュニティとして蓄積・共有されると良いなと思う。
最後に
人間ユーザと AI システムが共通したゴールを目指す際の、イニシアチブのあり方とその長期的な変容が、今回の UIST で感じたテーマである。この問題自体は古くから HCI では議論されていたが、AI 技術がコモディティ化した現在、特に UIST は"新しいシステム"の研究が多い場であるため、個別のアーティファクトを元に議論がさらに活発化しているのではないだろうか。
(無論、この議論と関係しない研究も多く発表されていた。あくまで筆者の感じた一つのトピックである。)
私が特に興味があるのは、
・センシングなど不確実性が存在する AI システムが、求められるイニシアチブを実現するための方策の記述
・上記の設定における多様な介入手法とその効果の違い (言語、視覚、マルチモーダル、 マインドレス …)
・一人一人の人間ユーザと AI システムの長期的な co-adaptation / イニシアチブの最適化の実現方法
あたりである。ぜひ興味が重なっていればご連絡いただきたい。
偶然にも学会終了後に Google の Meredith Ringel Morris 博士から"Prompting Considered Harmful"と題された記事が Communications of the ACM 寄せられていた。本 note の内容にも大きく関連するところもあり、おすすめである。
参考文献
[1] J. Allen, C. Guinn, and E. Horvtz. 1999. Mixed-initiative interaction. IEEE Intelligent Systems and their Applications, Vol 14, Number 5.