Human Interface Guidelinesの機械学習の章を翻訳してみる(#01 導入・原則篇)
これは何?
普段機械学習を使った医療系プロダクトのデザインをしているのですが、AIプロダクト固有のデザインの癖があったりします。AIの学習のためユーザーにどのようなフィードバックを求めるか、予測の確信度をどう伝えるか、AIの間違いをどう修正するか、などなど。
何か良い指針となるものないかなと探して回っていたところ、GoogleのPeople + AI Guidebookに加えて、今年の夏にAppleのHuman Interface Guidelinesにも機械学習を用いたデザインの留意点が追加されていたことに気づきました。
読み進める中でとても学びがあったので、個人用のメモとして翻訳したものを、今回以下3部構成でまとめています。
1. 導入・原則篇(今回)
- 機械学習の役割
2. 入力篇
- 明示的・暗黙的なフィードバック、キャリブレーション、修正
3. 出力篇
- 誤り、複数の選択肢、確信度、帰属、制約
同じくAIプロダクトをつくっている/つくろうとしている人の参考になれば幸いです。
翻訳の方針
あくまで公式の日本語訳がない中個人的に翻訳したものですので、その点ご理解いただいた上でご覧ください。公式の日本語ソースが出た場合などは削除します。
翻訳についてはプロではないので、原文に忠実に翻訳を心がけ、意味が取りづらい部分については大意を損ねない程度に意訳しています。
それでもわかりづらい部分あるかと思うので、英語大丈夫な方は原文を読んでいただくのが一番かと思います。
もし誤訳があったり、こう訳したほういいのでは?というのを発見した方はご連絡いただけるとありがたいです。できる限り対応します。
おすすめの読み方
WWDC2019でAppleのデザイナーたちによるプレゼンテーションがあり、そちらを先に見てから読み進めると理解がはかどると思います。公式の日本語字幕ありで、約1時間の動画です。
では早速はじめます。
導入
機械学習
機械学習は、既存の体験を改善したり、人が愛する新しい体験をつくるのに役立つ強力で汎用性の高いツールです。画像認識やコンテンツのレコメンデーションなどの使い慣れた機能を提供することだけでなく、機械学習を用いて、人との深いつながりを築き、少ない手間でより多くのことを達成する手助けができます。
機械学習アプリは、画像を認識したり、数値データ間の関連性を発見したりするタスクを実行するモデルというものを使います。 優れた機械学習アプリは、UIやユーザー体験がどれだけ適切に設計されているかに左右されるだけでなく、モデルがどれだけ適切に設計されているかにも左右されます。 モデルの設計プロセスに関する洞察については、機械学習モデルをつくるの章を参照してください。
モデルを設計するときは、UI/UXとモデルの両方の領域で設計上決めたことを調整できるように、アプリがどのような体験を意図しているかを考慮してください。 モデルの振る舞いを調整するには時間がかかる場合があり、アプリの体験を変更する必要がある場合は、データとメトリクスの使い方を変える準備が必要となります。
機械学習アプリのUI/UXデザイン
機械学習アプリは、受け取ったデータに基づいて振る舞い、情報や条件に反応して変わります。この動的な振る舞いにより、機械学習アプリのUI/UXデザインはとても難しくなります。静的なシナリオセットに対する特定の反応をデザインするのでなく、データの解釈方法とそれに応じた反応をアプリに仕込むことでデザインするのです。
この課題に対処するために、アプリで機械学習が果たす役割を考えてみてください。アプリにおける機械学習の役割を定義するの章ではいくつかの領域について説明を施し、機械学習がアプリ体験にどのように影響するかを探ることができるようにします。
アプリのUI/UXをデザインするときは、アプリがデータをどのように受け取って表示するかを考える際に、機械学習が果たす役割に基づくようにしてください。入力と出力にはグループ化されたいくつかのパターンがあり、フィードバックを取得する、データを表示する、間違いに対処する、修正を可能にする、などの領域で手引きを提供します。これらのパターンにおける手引きを用いて、人々が真価がわかるやり方で機械学習をアプリに統合するようにしてください。
アプリにおける機械学習の役割を定義する
機械学習の仕組みは千差万別で、アプリが機械学習をどう使うかも様々です。自分のアプリをつくるとき、アプリの機能がどのよう機械学習を使うのか、次の観点で考えてみてください。
必須か、補完的か
機械学習が働く機能がなくてもアプリが動作する場合、機械学習はアプリにとって補完的です。そうでなければ、それは必須となります。たとえば、
・キーボードは機械学習を使用して、QuickTypeの提案を提供します。これらの提案がなくてもキーボードは機能するため、アプリでは機械学習が補完的な役割を果たします。
・FaceIDは、正確な顔認識を可能にするために機械学習に依存しています。機械学習がなければ、FaceIDは機能しません。
一般に、アプリの機能が必須であればあるほど、正確で信頼性の高い結果を必要とする人が増えます。一方、補完的な機能が常に最高品質ではない結果をもたらす場合には、人はより寛容になるでしょう。
非公開か、公開可能か
機械学習の結果はデー タに左右されます。デザインの意思決定を適切に行うには、アプリの機能に必要なデータの種類について、できる限り詳しく知る必要があります。一般に、データの機密性が高いほど、不正確または信頼できない結果によって引き起こされる帰結が深刻になります。たとえば、
・健康アプリがデータを誤って解釈し、誤って医師の診察を勧めた場合、人々は不安を経験する可能性が高く、アプリに対する信頼を失う可能性があります。
・音楽アプリがデータを誤って解釈し、気に入らないアーティストをレコメンドする場合、彼らは結果を取るに足らない間違いとして見る可能性があります。
必須のアプリ機能と同様に、機密データを使用する機能は、精度と信頼性を優先する必要があります。データの機密性に関係なく、すべてのアプリは常にユーザーのプライバシーを保護する必要があります。
先回り的か、受け身か
先回り的なアプリ機能は、ユーザーがリクエストすることなく結果を提供します。そのような機能は、予期しない、時には偶然の結果をもたらすことにより、新しいタスクや相互作用を促すことができます。対照的に、受け身なアプリ機能は、ユーザーがリクエストしたとき、または特定のアクションを実行したときに結果を提供します。通常、受け身な機能は、現在のタスクを実行するときに役立ちます。たとえば、
・QuickTypeは、ユーザーが入力した内容に応じて単語を提案します。
・Siriの提案は、人々の最近のルーティンに基づいて、先回り的にショートカットを提案できます。
先回り的な機能はもたらす結果というのは人が自分で求めたものではないので、質の低い情報に対する許容度が低くなる場合があります。先回りした結果が邪魔だったり関係ないものとわかる恐れを減らすためには、機能の追加データを使用する必要があります。
目に見えるか、見えないか
アプリは、機械学習を使用して、目に見える機能や見えない機能をサポートすることがあります。人々は通常、目に見えるアプリの機能を認識しています。そのような機能は、人々が見て操作する提案や選択肢を提供する傾向があるためです。たとえば、目に見えるキーボード機能は、ユーザーが入力している単語を推測しようとし、ユーザーが選択するリスト内で最も可能性の高い単語を提示します。
名前が示すように、目に見えない機能は、人々には明らかではない結果を示します。たとえば、キーボードは時間の経過とともにユーザーが入力する方法を学習するため、各キーのタップ領域を最適化し、入力ミスを減らすことができます。このアプリの機能により、ユーザーが選択する必要なくタイピング体験が向上するため、多くの人はこの機能が存在することを認識していません。
結果の信頼性に対する人々の印象は、機能が見えるか見えないかによって異なります。目に見える機能を使用すると、その結果から選択する際に、人々は機能の信頼性について意見を形成します。目に見えない機能は、その機能をまったく認識していない可能性があるため、信頼性を伝達し、フィードバックを受け取ることは困難です。
動的か、静的か
すべての機械学習モデルは改善できますが、一部はユーザーがアプリ機能を操作することで動的に改善されるものもあれば、オフラインで改善されアプリが更新されたときにのみ機能に影響するものもあります。たとえば、
・FaceIDは、人々の顔が時間とともに徐々に変化するため、動的に改善されます。
・Photosは、iOSの新しいリリースごとにオブジェクト認識機能を改善します。
アプリの更新頻度に加えて、静的または動的な改善は、ユーザー体験の他の部分にも影響を与える可能性があります。たとえば、動的な機能は多くの場合キャリブレーションやフィードバック(明示的なものもそうでないものも)を組み込みますが、静的な機能はそうではありません。
導入・原則篇は以上です。
入力篇・出力篇も合わせてご覧ください。
1. 導入・原則篇
- 機械学習の役割
2. 入力篇
- 明示的・暗黙的なフィードバック、キャリブレーション、修正
3. 出力篇 (近日中に公開)
- 誤り、複数の選択肢、自信度、帰属、制約