見出し画像

生成AIにおける新たなUXパターン

Ryan Tang

シニアプロダクトデザイナー

Emerging UX patterns in Generative AI experiences



あなたがどんなコーヒーを注文するのかをすでに把握しているバリスタに会ったことがあるだろうか。温度、抽出時間、水量、豆の産地、挽き具合、ローストなど、あらゆる面を詳しく説明せずにコーヒーを飲めるのは素晴らしいことだ。これは、私たちが今日、AIでナビゲートしている範囲を示している。


この記事は、もちろんコーヒーについてではなく、ユーザー・インタラクションがどのように変化し、適応していくのか、そしてGUIにおけるこれまでのトレンドと、生成AIのインタラクションに現れた新しいトレンドに基づいて、生成AIのユーザー・インタラクションがどのように進化していく可能性があるのかについて語っている。AIにおけるUXの重要なトレンドとして、コンテクスト・バンドリング、ユーザー・キュレーション、信頼、エコシステムの価値について見ていこう。


「命令」から「会話」ヘ

元来、コンピュータを使うということは、コマンドライン・インターフェース(CLI)で正確なコマンド(命令)を入力することだった。当時のコンピュータの黎明期に戻ってみよう。ファイルを開いたり、データをコピーしたりするためのコマンドを正確に覚えておくことの難しさを想像してほしい。誰もがプログラマーに向いているわけではなかった。より使いやすくするためには、ある変化が必要だった。


1964年に登場したELIZAは、自然言語処理の初期の試みで、キーワード認識とスクリプト化された応答によって、基本的な会話をユーザーに提供した。画期的ではあったが、ELIZAのインタラクションは柔軟性や拡張性に欠けていた。


同じ頃、ゼロックスPARCはグラフィカル・ユーザー・インターフェース(GUI)を開発していた。GUIはコンピューティングを一変させ、複雑なコマンドをマウスで操作できるアイコン、メニュー、ウィンドウに置き換えた。この技術革新により、コンピューターは日常的なタスクにアクセスしやすくなり、直感的に操作できるようになった。



上の画像を見てほしい。ユーザー・プロンプトは基本的に自然言語で作られたミニ・プログラムであり、結果の質はプロンプト・エンジニアリングのスキルに左右される。初期のコンピューティングがCLIの複雑さからGUIのシンプルさへと移行し、テクノロジーが誰にでもアクセスできるようになったのと同じように、複雑な入力をよりシンプルでユーザーフレンドリーなインターフェースにバンドルし、その背景に複雑さを持たせるという動きが、生成AIにも見られるようになってきている。


上に示したStable Diffusion WebUI、Mid Journey、DALL-E 3などの画像ジェネレーターは、結果を得るために、プロンプトに異なるレベルの精度を要求する。Mid JourneyとDALL-Eは使いやすいが、Stable Diffusionはより具体的な出力が可能となっている。ユーザーについて知れば知るほど、ユーザーが望む具体性を維持しながら、シンプルな体験を簡単に提供できるようになるのだ。


コンテクスト・バンドリング

コンテクスト・バンドリングは、関連する情報を単一のコマンドにまとめることでインタラクションを簡素化し、望ましい結果を達成するために複雑な指示を伝えるという課題に対処する。これにより、ユーザーの意図と機械の理解を一致させ、手動でユーザー・プロンプトを記述する必要性を排除することで、効率と出力品質を向上させることができる。



こうした現象は、上の画像にあるようなEdgeのサンプルプロンプト、Google chromeのタブマネージャー、Stable Diffusionのトリガーワードなど、生成AIツールでしばしば見られる。


コンテクスト・バンドリングでは、「会話型」AIは必ずしも会話を意味しない。テキストベースのプロンプトに頼ることを超えて、ユーザーが得ようとしている成果に焦点を当てている。コンテクスト・バンドリングは、長時間の会話をすることなく、目的のアウトプットへの近道をユーザーに提供する。ユーザーエクスペリエンスは、もはや一般的な会話インターフェースに依存しない。差別化の原動力は、特定のデータと、より特化した体験によって推進される。



このような特定性の例としては、Miro Assist、Clay AI formula generator、 SCOPUS AIなどがある。いずれも、関連する情報を特定の単一コマンドにまとめることで、インタラクションを簡素化している。

コンテクスト・バンドリングを拡張するもう一つの方法は、ユーザーがこれらのバンドルのプロパティを定義できるようにすることである。ユーザーが調整可能なプリファレンスとパーソナライゼーションはコンテクストにバンドルされ、製品の後半において、より生産的で関連性の高いインタラクションをユーザーに提供する。



コンテクスト・バンドリングは、単に会話を簡素化するだけでなく、検索クエリ、要約、その他の特定のタスクなど、ユーザーの目標達成を直接支援するものである。それは、詳細な指示をシンプルでユーザーフレンドリーなインタラクションに変えるものであり、特に単純なタスクや反復的なタスクに有益である。しかし、探索のようなオープンエンドなタスクや、改良が望まれる目標についてはどうだろうか?そこで、継続的なユーザーフィードバックのメカニズム、あるいはフィードバックループが必要となる。


ユーザー・キュレーション

AIのインタラクションをより直感的にする進歩にもかかわらず、 ユーザーが特定の目標を達成するためにアウトプットを洗練させなければならない幅広いニーズが残っている。これは特に、リサーチ、ブレーンストーミング、クリエイティブなコンテンツの作成、画像の洗練、あるいは編集のような活動において当てはまる。増え続けるコンテキスト・ウィンドウとマルチモーダル機能は、ユーザーを複雑な中に導くことをより重要なものにしている。



意識するしないにかかわらず、私たち人間は常に世界の体験をキュレーションしている。


このキュレーションは、会話の中で興味のある特定のキーワードをハイライトしたり、選んだり、本の中で手動でハイライトしたりすることに似ているかもしれない。ブレーンストーミングのためにChatGPTを使うユーザーを観察すると、私はこれと同じようなハイライト行動に気づいた。その時、ユーザーはハイライトと対話することはできなかったが、次のステップを導くためにハイライトの一部を使用していた。


これは、最初のアウトプットはユーザーのニーズを完全に満たしていないかもしれないが、次のアクションのための具体的なアンカーを提供する役割を果たしていることを示している。ユーザーがアウトプットをキュレートし、改良することを容易にすることで、ユーザーとマシンの両方がより質の高い結果を得ることができる。



上の画像では、インペインティング、スレッド化された会話、インタラクションのハイライトはすべて、ユーザーがより適切なコンテキストを作成し、より良い結果を得るために、情報の特定の部分をどのようにキュレーションできるかを示す例である。


もう一つの例として、レポートを書くことを考えてみよう。ユーザーのジャーニーは、多くの場合、幅広い調査から始まり、より深い調査が必要な重要なポイントの発見につながる。情報を集め、評価しながら、徐々に最終的な作品にまとめ、合成していく。このプロセスでは、特定のコンテンツを強調表示したり選択したりする瞬間が重要なアンカーとして機能し、AIがより適切な結果とコンテキストを提供するよう導く。この経路では、ユーザーがハイライトを保存し、消費する方法が必要となる。



ユーザーは、特定のハイライトを保存し、またそのハイライトを使って体験を改良する必要がある。そのためには、ユーザーの成果を深く理解し、それを把握するためのフィードバックの仕組みを作る必要がある。


ユーザー・キュレーションは、生成AIが複雑で創造的なタスクを効果的にサポートするためには、ユーザーが情報と相互作用する方法を理解するだけでなく、予測する必要があることを明らかにしている。このような「キュレーションシグナル」を認識し対応することで、AIツールはより的を絞った支援を提供し、全体的なユーザー体験と成果を豊かにすることができる。


十分な信頼を得るためのデザイン

生成AIはユーザーにとってテクノロジーとの対話を容易にしたが、信頼は依然として普及の大きな障壁となっている。これは過去もそうであったし、現在もそうである。信頼に対処することは、新しいAIツールを構築し、採用を促進するための鍵となる。


人々がどのように新しいテクノロジーを受け入れ、利用するかを理解するための多くのフレームワークの中で、2つのフレームワークが特にインスピレーションを与えてくれた。


Unified Theory of Acceptance and Use of Technology (UTAUT)と Fogg’s Behavior Model (FBM)である。



UTAUTとは、ユーザーの利用意向はパフォーマンスへの期待、努力期待、社会的影響力、促進条件によって影響されることを示唆する理論である。

例えば、ある人が顧客管理ツールを使い始めようと決心するのは、それが効果的に営業目標の達成に役立つと信じ(パフォーマンスへの期待)、そのアプリがわかりやすく使いやすいと感じ(努力期待)、同僚やメンターもそのアプリを使い推薦し(社会的影響力)、組織のデータベースにそのアプリからアクセスできるからかもしれない(促進条件)。


また、FBMとは、行動を動機、能力、プロンプト(またはトリガー)の関数に単純化する理論である。

例えば、コーヒーを買うという行動は、カフェインが欲しいという欲求、お金と近くにあるコーヒーショップの存在、そしてコーヒーショップの看板がプロンプトとして機能することによって引き起こされる。


生成AIは、成果を達成するために必要な労力を軽減する。逸話によれば、多くのユーザーは、生成AIによって行動を起こすことへの心理的抵抗を克服した。しかし、より多くのユーザーが試行錯誤し、エンゲージメントを維持できるようにすることは、信頼が重要な役割を果たすことになる。



信頼をデザインするという文脈では、上記のような多くの視点やフレームワークがある。ここではさらに単純化し、信頼は、これまでの経験、リスク許容度、相互作用の一貫性、社会的文脈によって形成されると考える。


過去の経験: ユーザーは、過去の経験によって作られた文脈を持って新しい体験に臨む。使い慣れたインターフェースとインタラクションは、ユーザーが過去の信頼を現在に移すことを可能にする。この信頼の基盤に逆らうよりも、その上に構築する方がずっと簡単なのだ。会話型AIの文脈で例を挙げると、ユーザーにプロンプトを入力するよう指示するのではなく、ユーザーの対話方法に影響を与える応答を使用することで、会話の中で無意識に反映される傾向を活用することができる。


リスク許容度: ユーザーはネガティブな結果を避けたいと考えている。そのために重要なのは、ユーザーがどのようなリスクを取らないかを理解することである。リスクをユーザーのリスク許容度以下にしなければならない。リスク許容度に影響を与える方法には、透明性の向上、ユーザーのコントロール、ユーザーの同意、コンプライアンスなどがある。洗練されたエクスペリエンスを創造することで、美的なユーザビリティを活用し、リスクの予想を減らすことができる。しかし、製品に特化したアプローチの方が常に効果的である。

例えば、医師が診断を行うための会話型AIを想像してみてほしい。リスク許容度は非常に低い。誤診は医師と患者の双方にとって極めて重大な結果をもたらすだろう。迅速なブレークダウン、相反する視点など、アウトプットの透明性を確保することは、リスクを減らすのに効果的だろう。


インタラクションの一貫性: インタラクションとは、アウトプットであり、ユーザーがそこに到達する方法のことでもある。ユーザーに、異なる言葉、状況、またはアクションが同じことを意味するのか疑問に思わせてはならない。インタラクションの一貫性を向上させるには、レイアウトからボタンテキストに至るまで、内部と外部の一貫性が保たれていることを確認する必要がある。会話型AIの文脈では、インタラクションの一貫性は、会話全体にわたって同じようなフォーマットや同じ意味を持つ言葉を持つ応答のことを指す。ユーザーがトピックの要約を要求した場合、ユーザーが特に要求しない限り、あるインタラクションではエッセイのように見え、別のインタラクションでは箇条書きのリストのように見えるようなことがあってはならない。


社会的文脈: 社会的文脈には、マネジャーのような信頼できるソースからの推薦や、事前に承認された企業ソフトウェアとのコネクションのような、信頼できるネットワーク内での促進が含まれる。社会的文脈は、*ソーシャルプルーフィング戦略や、相互作用の中にソーシャルプルーフィングの機会を作ることによって影響を受けることができる。

内部データベースのLLMの文脈では、これはユーザーとその直属のチームによる作業を促進することを意味するかもしれない。システムが内部データの可視性を持っていることを示すことは、この社会的文脈の中でシステムが承認されているという信頼を築くのに役立つ。


*ソーシャルプルーフィング = 社会的証明



AIエクスペリエンスにおける信頼を設計する際には、これらの要素のうち、どれを当面の焦点とすべきかを検討する必要がある。信頼のこれらの側面を理解し、そのために設計することによって、AI体験はユーザーの期待とニーズに合致し、一般的な採用と受け入れを増やすことができる。信頼に対処することは、単に有益であるだけでなく、生成AIツールの将来的な統合と受容のために必要である。


コンテクスト・エコシステム

この記事では、コンテクスト・バンドリング、ユーザー・キュレーション、信頼のためのデザインといった新たなトレンドを取り上げた。生成AIは全体として、日常的なユーザーがタスクに取り掛かる際の障壁を下げることで生産性に革命をもたらした。しかし、現代のUXはウィンドウやポインタをはるかに超えて進化している。では、生成AIは次にどこへ向かうのだろうか?


GUIは、複数のプログラム・インターフェースをサポートすることで、より深く、より効率的なユーザー・インタラクションを促進した。これによってユーザーは、あるアプリケーションでは会計を行い、別のアプリケーションではプレゼンテーションで報告を行うといったように、異なるタスク間をシームレスに移行できるようになった。異なるコンテクストを横断して管理し、行動することで、さまざまなユーザーの意図とアプリケーションを橋渡しすることによる生産性の向上が強調された。



Edge、Chrome、Pixel AssistantがAI機能を統合し、ユーザーがソフトウェアとのインターフェースに生成AIを使用できるようにした例は、上に示したとおりだ。この場合、LLMはソフトウェアを認識しており、これまでのアプリケーションのような会話ウィンドウの枠を超えている。


過去を振り返ってみると、GUIがいかにユーザーのためのデジタル・キャンバスを作り出したかがわかる。これは物理的な世界と比較して、効率性、拡張性、生産性が向上するという利点がある。AIが共同作業者となり、私たちの日常生活を共有体験に変えてくれる。将来は、会話型および生成型AIツールが、凝集したワークフロー内で拡張されたエコシステムになるかもしれない。このエコシステム・アプローチは、ユーザーとのインタラクションをさらに深化させ、様々なデジタル環境と実世界環境にわたって、より統合された生産的な体験を可能にするかもしれない。



今後のトレンドは、会話やガイドによる体験だけではない。現在私たちが目にしているものと同様に、生成AIはアウトプットを作成するために直接働くだろう。現在、ユーザーはアウトプットに関与しているが、キャンバスの創造者であり所有者は最終的にはAIである。人間中心のAI製品が成熟するにつれ、次のステップは、AIとユーザーが同じキャンバス上で共同作業できるスペースを作ることだろう。Grammarlyのような古いツールや、Github Copilotのような生成ツールでは、それが見られるようになってきている。


私たちは、生成AIとコラボレーションし、最終的にはユーザーがワークスペースを作成し、所有することを目指している。私たちの快適さとテクノロジーが進化し続けるにつれて、生成AIが私たちの日常生活のデジタルと物理的側面の両方を管理する上で大きな役割を果たすようになるかもしれない。


進化する生成AIのインタラクションは、人間とコンピュータのインタラクションの歴史を繰り返している。よりシンプルなインタラクションにコンテクストをバンドルし、ユーザーに自分の経験をキュレートする力を与え、既知のエコシステムを拡張する、より良い経験を創造するにつれて、私たちは生成AIをより信頼でき、アクセスしやすく、使いやすく、誰にとっても有益なものにするでしょう。


このトピックを探求することに興味があるなら、さらに読むためのリソースをいくつか紹介しよう:


“The 1984 Apple Macintosh — How does it look today?”

“AI: First New UI Paradigm in 60 Years”

“The Evolution of Programming UX/UI: From Command Line to Graphical Interfaces”

“Designing for AI: beyond the chatbot”

“Decoding The Future: The Evolution Of Intelligent Interfaces”

“Prompts are Tiny Programs”

“People + AI guidebook”

“Introduction to guidelines for human-AI interaction”



英語版参照元:

https://uxdesign.cc/emerging-interaction-patterns-in-generative-ai-experiences-8c351bb3392a#f16c-d7c9303b9fb9


DMNでは、他にも様々なブログを「DMN Insight Blog」にて
配信しております。定期的に記事をご覧になられたい方は、
ぜひご登録をお願いいたします!

「DMN Insight Blog」メールマガジン登録