見出し画像

[CHI2023] GPTやStable Diffusionといった大規模生成モデルを使って、作業者のモチベーションを刺激し、タスクの先延ばしを防止する「触媒」としてのAIシステム

ヒューマンコンピューターインタラクション(HCI) のトップ国際会議のひとつである ACM CHI 2023 に、荒川(カーネギーメロン大学)と矢倉(筑波大学)が後藤先生(産総研)と共同で執筆した大規模モデルを使った行動変容のためのAIデザインを提案する論文 “CatAlyst: Domain-Extensible Intervention for Preventing Task Procrastination Using Large Generative Models” が Full paper で採択されました。本記事ではその内容について簡単に紹介したいと思います。


1. 背景

ChatGPT や GitHub Copilot に代表されるような大規模生成モデルは、我々の知的作業に欠かせないものとなりつつあります。情報をまとめたり、文章やコードを生成したりという用途であれば、十分実用に耐えるクオリティにあると言えるでしょう。しかし、どんな場面でも完璧に使えるかというとそうではありません。例えば、インターネット上に公開されていない情報を使って、特定のフォーマットの文章やスライドを作成したいというような場合は、モデルをチューニングしたり、GPT-Index 等を使ってカスタマイズしたりということが必要になるでしょう。昨年末ごろから様々なツールやフレームワークが開発されているとはいえ、エンドユーザにとってそれぞれのタスクを100%代替してもらうためのセットアップをするのは一定のハードルがあることは確かです。

そこで我々は、そんなときでも大規模生成モデルを有効活用する手法はないかと考えました。それが、作業の先延ばし(procrastination)を防止する「触媒」として、ユーザの行動変容をサポートするという応用です。つまり、作業に割り込みが入ったり、ついつい Youtube を開いてしまったりしたときに、ユーザのそれまでの作業を元にAI システムが生成した「作業の続き」を見せながら作業復帰を促すことで、たとえそのクオリティが完璧でなくても作業を再開するきっかけ作りには有用なのではないかというアイデアです。本論文では、そうした大規模生成モデルの副次的な効果を検証するためのシステムを開発し、3つの実験を行いました。

2. 着想

先延ばしの防止を手助けするという目的についてはこれまで、集中の切れたタイミングや特定の Web サイト(Youtube や SNS 等)へのアクセスを検知し、「集中しましょう」といったメッセージを提示するようなアプローチが主流 [1,2] でした。それなりに効果があることは示されてきたのですが、一方でそうしたメッセージに慣れてしまって、効果が弱まっていく可能性も指摘されています。

こうした既存のアプローチに対して我々は、GPT-3 [3] 等の大規模生成モデルが中断した作業の続きを自動で生成し、「こうした結果を生成してみましたが、作業に戻りませんか?」といった提示を行うというアプローチを考えました。これには2つのメリットがあります。1つは、文脈に沿いながらも毎回少し異なる内容の生成結果が提示されるため、固定のメッセージよりも作業者の注意を引きやすいという点。もう1つは、その生成結果が完璧でなかったとしても、それをたたき台として(ある意味批判的に)捉えることで、作業を再開することのハードルが低くなるという点です。

CatAlystの概要: 作業の中断を検知し、大規模モデルが続きを生成して、作業者に通知する

ここで参考になるのは、Fogg の行動変容モデル [4] です。Fogg は、行動変容の成功確率をモチベーション・アビリティ(実行能力)・プロンプト(きっかけ)の3つの観点から説明しました。つまり、相手のモチベーションを高めること、実行能力を持つ状態にする(=実行のハードルを下げる)こと、そして適切なきっかけを作ることが同時にできれば、行動変容を起こせるというわけです。

BJ Fogg による行動変容モデル [4]

これを踏まえると我々のアプローチは、以下の2つの仮説に基づいていると言えます。

  •  ユーザの生成結果に対する好奇心を引き出すことでモチベーションを高められるのではないか

  • 作業の続きのたたき台を提供することで作業再開のハードルを下げられるのではないか

これに対し、既存の固定メッセージによるアプローチは作業のきっかけのみを与えていると言えるでしょう。作業再開に必要な「活性化エネルギー」を下げてくれる AI システムという点で、我々は提案するアプローチを「CatAlyst(=触媒)」と名付けました。

3. 実験

我々の仮説を検証するための実験として、本研究ではユーザにこの AI システムを使いながら知的作業を行ってもらいました。具体的には、文章執筆のタスクを与え、何も介入がない場合や固定のメッセージによる既存のアプローチを用いた場合と比較を行いました。そして、先延ばしの防止にどのくらい効果があったのかを確かめるべく、以下の指標を測定しました。

  • ユーザが提示したメッセージを無視した割合

  • ユーザがメッセージを見て作業を再開するまでに要した時間

  • 作業再開から一定時間で生み出した進捗

  • タスク全体を終えるのに掛かった時間

  • タスクの成果物(=執筆した文章)のクオリティ

  • システム使用時の認知負荷(NASA-TLX [5])

  • システムのユーザビリティ(SUS [6])

結果としてタスク全体の時間を有意に削減するまでには至らなかったものの、その他の指標から CatAlyst がタスクの先延ばし防止に有効であることが確認できました。また本研究では、その効果の長期的な有効性を検証するために1週間かけての実験や、他のタスクでの効果を検証するためにスライド作成を対象にした実験なども行っています。特にスライド生成に関しては、Google Slide API と GPT-3 [3] に Stable Diffusion [7] も組み合わせて、ユーザの作業の続きを生成するという仕組みを開発しました。詳細は割愛しますが、ぜひ論文を参照ください。

スライド作成タスクにおける CatAlyst の例

4. まとめ

まとめると本論文では、以下のような貢献をしました。

・本研究では、生成モデルを使ってユーザのタスクの先延ばしを防止するための AI システムである CatAlyst を提案しました。
・執筆とスライド作成の2つのタスクで、既存の大規模生成モデルを組み合わせたシステムを作成し、ユーザ実験で従来の作業者への介入手法と比較した際の CatAlyst の有効性を確認しました。また執筆タスクでの長期実験も行い、定性的な有効性も確認しました。
・この結果は、個々の領域では不完全な、既に公開されている AI モデルを活用して、さまざまなドメインに展開可能な人間と AI との新しい協力形態を示唆しています。

6. FAQ

Q1. 今後AIがものすごく発展した際にはそもそも人がする作業が大幅に少なくなって、先延ばし防止の需要は減るのではないでしょうか?

A1. ここは面白い点だと思います。2023年現在の著しい AI 技術の発展を考慮すると、チューニングやコンテキスト情報の付与等なしにほとんどの知的タスクを実行できる大規模モデルが遠からずできてしまうかもしれません。少なくとも、本研究を行った当時(2022年夏―ChatGPT が公開される前)とは違った視点で考えなくてはいけないことは否定できません。現在の我々は2つの見立てを持っています。1つはリソースが少ないドメインのタスクにはそういった大規模モデルの恩恵が届くまでに一定の時間を要するであろうこと、そしてその過渡期に置かれたユーザに対しても、既にある不完全なモデルをうまく活用してサポートできることが CatAlyst だと考えています。もう1つは、確かに AI で遂行できてしまう作業が増えていくと思うものの、人がオーナーシップを持って作業をする、すなわち AI に全部をやってもらうのではなく、AI を活用しながらも人の最終判断として納得できるアウトプットを出す作業は残り続けると予想しています。本ブログについても、もしかすると論文の PDF を ChatGPT の入力とすると良いクオリティのものが自動生成されるかもしれませんが、そうせずに伝えたいことを自分達で書いております。ブログ執筆に限らずとも多くのタスクで似たような傾向は残るのであれば、そういった作業に取り組むユーザのタスクへの集中をサポートできるのが CatAlyst の利点となるでしょう。

Q2. 作業が途切れた時に通知するだけでなく、「AI のヒント生成」といったボタンを付与することは検討されたのでしょうか?

A2. 「AI のヒント生成」ボタンは、ユーザが AI の生成を能動的に使うという点で、集中が切れた際に通知をする CatAlyst の受動的なデザインとは異なるものです。能動的に AI を使用する場合、ユーザの期待レベルに達しない結果が返ってきた場合に AI に対する信頼が損なわれてしまいます。現状の公開されている大規模モデルの不完全性から、この点を危惧して本研究ではそういった能動的なデザインは採用しませんでした。これは、Yangら [8] が医療 AI の分野で唱えた「unremarkable AI(目立たない AI)」のデザインと類似しています。「AI がやってくれる!」と前面的に押し出した「remarkable AI(目立つ AI)」は、ドメインによらない介入を考える本研究においては採用が難しいと判断しました。

Q3. 執筆やスライド作成以外にはどういった作業に応用ができそうですか?

A3. 大雑把に言ってしまえば、不完全でも良いのでユーザの作業内容をもとに、何かしら次に来るものを予測できるそこそこの精度の生成モデルがあれば CatAlyst のデザインは応用可能です。楽曲作成や絵のスケッチなどの作業はわかりやすい例だと思います。

参考文献

[1] R. Vries, et al. 2017. Experts Get Me Started, Peers Keep Me Going: Comparing Crowd- Versus Expert-Designed Motivational Text Messages for Exercise Behavior Change. Proc. EAI PervasiveHealth, 155–162.
[2] Y. Liu, et al. 2014. Supporting Task Resumption Using Visual Feedback. Proc. ACM CSCW, 767–777.
[3] T. Brown, et al. 2020. Language Models are Few-Shot Learners. Proc. NeurIPS, 1877–1901.
[4] B. J. Fogg. 2009. A Behavior Model for Persuasive Design. Proc. Persuasive Technology, 1–7.
[5] S. G. Hart, et al. 1988. Development of NASA-TLX (Task Load Index): Results of Empirical and Theoretical Research. Adv. Cogn. Psychol., 139–183.
[6] J. Brooke. 1996. SUS: A ‘Quick and Dirty’ Usability Scale. Usability Evaluation In Industry, 207–212.
[7] R. Rombach, et al. 2022. High-Resolution Image Synthesis With Latent Diffusion Models. Proc. IEEE/CVF CVPR, 10684–10695.
[8] Q. Yang, et al. 2019. Unremarkable AI: Fitting Intelligent Decision Support into Critical, Clinical Decision-Making Processes. Proc. ACM CHI, 238.

いいなと思ったら応援しよう!