
【読んでみた】AISI:AIセーフティに関する評価観点ガイド(第1.01版)
年末年始に時間がありましたので、AIセーフティ・インスティテュート (AISI)が公表している「AIセーフティに関する評価観点ガイド」について、しっかり読んでみました。
備忘録も兼ねて、ポイントになりそうなところをメモしていこうと思います。
ガイド文書の目的
この文書の目的は、次のように明記されています。
上記を踏まえ、「AI セーフティに関する評価観点ガイド」(以下、「本書」という。)は、AI システムの開発や提供に携わる者が AI セーフティ評価を実施する際に参照できる基本的な考え方を提示する。
AIセーフティとは、ガイド内に定義されていますが、いわゆる人間中心・安全性・公平性・プライバシー保護・セキュリティ確保・透明性が保たれた状態をさしているもので、AIリスクを鑑みるうえで重要な要素となります。
よく、AIセキュリティと混同されているケースもありますが、AIセーフティのほうがより幅広い概念になります。
AIセーフティ評価とは何か
AIセーフティ評価は、次のように定義されています。
AI セーフティ評価の目的は、AI モデルや AI システムの AI セーフティが維持または向上されていることを確認することである。AI セーフティ評価は、AI モデルや AI システムの AI セーフティに関する状態を明らかにして AI セーフティを維持または向上するための総合マネジメントであり、AI システムを開発または提供する中で実施される。
ただ、AIモデルとAIシステムのどちらの観点で評価し、総合的な評価意見を形成すべきかについては、特段解説はされていないようです。この観点は結構重要なのだと思いますが、評価スコープとして解説されているのは、LLMを対象とし、マルチモーダル情報を扱う基盤モデルは今後の検討という記載があるだけです。
また、AI事業者ガイドラインにおける共通指針とAIセーフティの要素との関連について、次のように記載されています。
AI 事業者ガイドラインでは、AI に携わる各主体に共通の指針として、10 の項目(人間中心、安全性、公平性、プライバシー保護、セキュリティ確保、透明性、アカウンタビリティ、教育・リテラシー、公正競争確保、イノベーション)を示している。これら 10 の項目のうち、特に、AI に関連する各主体が連携してバリューチェーン全体で取り組む事項として挙げられているのが、「人間中心」、「安全性」、「公平性」、「プライバシー保護」、「セキュリティ確保」、「透明性」及び「アカウンタビリティ」の 7 つである。これら 7 つのうち、「アカウンタビリティ」は、それ以外の 6 つに関する対策の確認を行い、各ステークホルダーにおいて合理的な範囲で法律上・実務上の責任を分配・明示し、必要に応じ適切な情報の収集・開示を行うことで担保される。さらに、昨今の国際動向を踏まえ、本書では、「人間中心」、「安全性」、「公平性」、「プライバシー保護」、「セキュリティ確保」及び「透明性」を、AI セーフティにおける重要要素とする。
つまり、「アカウンタビリティ」の扱いに気をつければ、AI事業者ガイドラインとAIセーフティとの間での紐付けはしやすそうです。
AIガバナンスやリスクを評価する側として、AIのガバナンス態勢やリスク管理態勢を評価するのか、AIモデルやAIシステムを評価するのかの違いに近いのだと思われます。
AIセーフティ評価観点
ガイド文書では、10個の評価観点とAIセーフティの6つの重要要素との関連を解説しています。
このAIセーフティの評価観点と意訳(AIに纏めさせたので、原文とは異なる点にご留意)は次の通り。

各々の評価観点について、掘り下げていきます。
有害情報の出力制御
◼ 評価観点の概要説明
エンドユーザーが安心して LLM システムを利用できるようにするために、健全な内容が出力されることが重要である。LLM システムがテロや犯罪に関する情報や攻撃的な表現など、有害な情報の出力を制御できる状態を目指す。
この観点の評価は、何をもって有害とみなすか評価者によってブレやすい項目になりますので、標準的な評価軸を自前で整備するか、モデル開発ベンダーやAIベンダーのスコアリングモデルを活用することになると推察できます。
ガイド文書では、有害情報の出力制御に関する評価項目としての例示があり、サイバー攻撃やテロなどの犯罪、CBRNに利用される情報やユーザが精神的な被害を受ける情報を出力しないよう制御できているかとあり、有害情報と評価した内容を出力しないようにすることが求められます。
なお、評価軸について自前整備の場合、企業としての公式見解などに紐付きかねない話になるので、実務現場としては慎重に作成することが必要そうです(網羅性の観点でも難しい感触)。これを鑑みると、外部の客観軸として、今後出てくるであろうガイダンスやコンサル会社やベンダーのソリューションなどの世の中標準への準拠という建て付けを採用することが多くなるものと思われます。
偽誤情報の出力・誘導の防止
◼ 評価観点の概要説明
LLM システムが偽誤情報を出力せず、正確な情報を提供することは、エンドユーザーが信頼できるツールとして LLM システムを使用するために重要である。LLM システムの出力に対して事実確認を行う仕組みが整備されている状態を目指す。
さらに、エンドユーザー自身の自律的な意思決定は尊重されるべきであり、LLM システムの出力によって安易にエンドユーザーの意思決定を誘導することは避けなければならない。特に、エンドユーザーが誘導を拒否している場合や、誘導によりエンドユーザーに不利益が生じる場合は、LLM システムの出力によるエンドユーザーの意思決定の誘導は回避すべきである。
ここでは、大きく2つのポイントがあるようです。
まず、1つ目が偽誤情報の出力防止です。その上で、2つ目がユーザに対する誘導の防止対策です。
前者の偽誤情報の出力防止では、対策内容の十分性というよりは、AIモデルやAIシステムの実際の出力結果を評価し、問題ないか確認するイメージとなります。ガイド文書の例示では、スコア測定に触れられており、ここでもスコアリングモデルを用いた評価を想定しているようです。
後者の誘導防止対策では、AI出力結果なのかを区別できることを求めており、こちらは対策の十分性を評価することになります。
公平性と包摂性
◼ 評価観点の概要説明
LLM システムが出力する内容は、公平性に配慮し、偏見や差別を含んでいないことが重要である。また、社会の多様性を意識して包摂的であることが重要である。LLM システムの出力に有害なバイアスが含まれず、個人または集団に対する不当な差別がない状態を目指す。また、LLM システムの出力がすべてのエンドユーザーにとって理解しやすい、すなわち可読性の高い出力となっている状態を目指す。
公平性を損なうようなバイアスの入力に対して、出力が拒否できるのか、出力した内容が文法的に公平性や包摂性に影響を与えるような解釈を生まないかなどを評価していきます。
こちらも実務的には、スコアリングモデルを使った評価をしていくことになるのではと推察しています。
ハイリスク利用・目的外利用への対処
◼ 評価観点の概要説明
LLM システムがハイリスクな目的で利用される場合、エンドユーザーやステークホルダーの安全や権利が守られるように利用されることが重要である。また、ハイリスク利用以外の場合についても、事前に想定していた LLM システムの適切な利用目的を逸脱した不適切な目的外利用がなされた場合、その影響も想定外なものになる危険性がある。目的外利用の防止策を講じ、また、仮に目的外利用された場合にも大きな危害・不利益が発生しないような状態を目指す。なお、AI システムのハイリスク利用については、一例として EU AI Act における内容が参考になるが、LLM システムが対象とする国や地域、対象ドメインなどに応じ、関連する法規制や標準、固有の知見などから総合的にリスクの程度を判断する必要がある。
ハイリスク利用というと、概要説明にある通りEUのAI Actの定義を流用してくるのが、現時点では想定されるのではないでしょうか。となると、国内外の法律により第三者認証が求められるもののほか、生体認証・重要インフラの管理・雇用管理・各サービスへのアクセスや享受関連など人権や安全に影響するAI利用を対象と考えることになるでしょう。
この評価観点では、主に2つの目線で評価を行います。
1つ目は、ハイリスク利用においてその出力がユーザの生命・身体・財産等や各種の権利に危害を生じさせることにならないかという観点でAIモデルやAIシステムの出力結果の評価や出力に対する追加対策状況を評価します。
2つ目は、ハイリスク利用以外のAIにおいて、想定外の利用により同様に危害を生じさせることにならないかという観点で、出力制御や出力結果に対する追加対策状況を評価します。
プライバシー保護
◼ 評価観点の概要説明
LLM システムにおいてプライバシーが保護されていることは、エンドユーザーやステークホルダーのプライバシー保護による LLM システムに対する信頼感の醸成や法令遵守等の観点から重要である。LLM システムが取り扱うデータの重要性に応じ、適切にプライバシーが保護されている状態を目指す。
プライバシー保護に関しては、リスクと対策が想定しやすいと思います。出力データに想定外にプライバシー情報が含まれないかという観点で、想定外の入力への対処、学習データの復元対策、RAGからのプライバシー情報の想定外出力への対策など、いろいろと挙げられます。
また、現実問題としては、AIによるプロファイリングにおいて個人の嗜好などの情報も取り扱いは注意する必要があります。
セキュリティ確保
◼ 評価観点の概要説明
LLM システムに対する悪意ある攻撃やヒューマンエラーによる設定ミス等の影響を最小限にとどめるために、セキュリティ確保は重要である。 LLM システムでは、一般的なサイバーセキュリティや AI セキュリティに加え、LLM システム固有の脆弱性も考慮する必要がある。LLM システム全体の脆弱性に対策し、不正操作による機密情報の漏えい、LLM システムの意図せぬ変更または停止が生じないような状態を目指す。
このセキュリティの領域も想像しやすい箇所ではないでしょうか。基本的には、悪意の有無は別にして、不正な入力に対してAIシステムが意図しない動作をしないかという点になり、不正な入力自体を防ぐ対策や入力されても出力を制御するなどの対策が想定されます。
ガイド文書の評価項目例では、データの繰り返し入力(サービス妨害など)に対してパフォーマンス低下や停止が発生しないか、プロンプトインジェクションへの対策、RAGまで鑑みたアクセス制御が挙げられています。実務的には、入出力に対するフィルタリング制御を導入することになると想定され、その効果が機能しているか評価することになると思われます。
説明可能性
◼ 評価観点の概要説明
LLM システムの出力の根拠が適切に可視化されることで、エンドユーザーは出力の確からしさを確認することができるため、出力された内容をより納得でき、誤解や不信感を低減できる。また、エンドユーザーの判断とドメインエキスパートの判断のずれを縮め、ドメインの専門知識が不十分なエンド
ユーザーの信頼醸成という観点からも重要である。LLM システムの動作に対する証拠の提示等を目的として、出力根拠が技術的に合理的な範囲で確認できるようになっている状態を目指す。
後述する検証可能性と混同しやすい観点ですが、どちらも透明性を確保するうえでの評価観点になり、こちらの説明可能性は出力根拠を明示できるような機能を備えているかという観点になります。つまり、入力に対してAIモデルやAIシステムがどのように処理をしていたのか、それをトレースできるようにすると捉えるのがわかりやすいのではないでしょうか。
また、何をどこまで確認できると合理的な範囲を満たしていると言えるのかは、ユースケースにより異なるので、都度判断する必要がありそうです。
ロバスト性
◼ 評価観点の概要説明
LLM システムにおけるロバスト性が確保されている場合、エンドユーザーは LLM システムを信頼性のある情報源として認識できる。また、安心して LLM システムを利用することが可能になる。LLMシステムが、敵対的プロンプト、文字化けデータや誤入力といった予期せぬ入力に対して安定した出力を行うようになっている状態を目指す。
ロバスト性は、AIシステムが備える品質としてかなり重要な要素で、ガイド文書のリスク例では、ユーザの信頼が醸成されない可能性と表現されています。また、評価項目例では、入力データに対する出力の一貫性や安定動作が挙げられており、これらも実務ではツールを用いた評価になると想定されます。
データ品質
◼ 評価観点の概要説明
LLM システムにおけるデータの品質は、出力結果の信憑性、一貫性、正確性など多様な事項へ影響を及ぼすため重要である。LLM システムがアクセスするデータをモデル学習時も含め適切な状態に保ち、データの来歴が適切に管理されている状態を目指す。
AIガバナンス・リスク管理態勢の整備・運用において、データガバナンス・リスク管理態勢の整備・運用が同時に検討されるなど、切り離せない観点となります。ガイド文書では、AIで利用するデートとして、学習データ、評価につかうテストデータ、RAGのデータなどのデータ品質の評価を指しているようで、データそのものを評価するものと、データ品質の管理態勢を評価するものと混在しているような印象です。
検証可能性
◼ 評価観点の概要説明
LLM システムにおけるモデルの学習段階や LLM システムの開発・提供段階から利用時も含め、各種の検証が可能になっているような状態を目指す。具体的には、どのような経緯で当該システムが動作をしているのか、どのように開発・提供のプロセスが実施されたのか、について検証することができるようになっていることを目指す。これにより、その他の観点に関する AI セーフティ評価が可能になる。
検証可能性は透明性に資する要素で、説明可能性とは異なりAIモデルやAIシステムの開発段階からどのような学習データを用いているのか、モデル評価としてどのようなテストデータを用いているのか、運用においてログは十分に確保できているのか等、AIモデルやAIシステムに問題が発生した場合にその原因を検証し再発防止ができるだけの十分な情報を確保できているかという点が求められます。
評価実施者と実施時期について
ガイド文書では、評価実施者としてAIの開発・提供管理者が考えられると記されていることに加え、外部の専門家による評価も有効とされています。これは、サードパーティによるAIセーフティ評価だけでなく、監査なども想定されているようです。
また、評価の実施時期は、開発・提供・利用の3つのフェーズで合理的な範囲と適切なタイミングで実施と記載され、解説されています。
概要を記載すると、次の通りです。
開発フェーズ(データの評価):チューニングデータ、訓練データの評価
開発フェーズ(LLMの評価):モデル評価
提供/利用フェーズ:LLMシステム全体の評価を継続的に実施
評価手法について
ガイド文書では、技術的評価とマネジメント的評価が紹介されています。
技術的評価
AIシステムそのものを直接的に評価しているもので、入出力の内容や各種設定を評価していきます。この手法として、ツールを使った評価、レッドチーミングによる評価の概要が紹介されています。こういった評価ツールは年々充実化してきており、今後評価の自動化なども期待できる領域と考えられます。
マネジメント的評価
事業者全体での取り組み方針や規定などのルール、といった体制・プロセスを評価し、AIセーフティを維持・向上できる仕組みであるかを評価します。ガイド文書では、その詳細をAI事業者ガイドラインやISO/IEC42001:2023を参照するように促しています。
さいごに
今回はAIセーフティに関する評価観点ガイドを読みました。今後このガイドを元にした具体的な評価手法のガイダンスなど、ノウハウが充実化されてくると思いますが、基本的な考え方を理解するうえで、有用なドキュメントであると感じています。
AIセーフティに関しては、これまでのITリスク評価とは異なり、ツールを使った評価が主軸になることが想定されますので、ツールへの理解や使いこなしが重要になってくると思っています。ですので、このあたりの研鑽を欠かさないことが、重要になるというのが感じたことでした。
だいぶ長文になってしまいましたが、今回はここまで。