見出し画像

生成AIをどうしても業務でフル活用したいワーカーのために、あとで刺されるリスクを減らす現実的なお作法的なテクニック (ドラフト)

はじめに

「LLM/GenAI/生成AI/AI利用ポリシー/ガイドライン」の類の文書が多くなっています。情報漏洩、著作権侵害とかプライバシー侵害のリスクがあるから、というようなことかと思います。それでも「どうしても活用したい人に向けて」データセキュリティとプライバシー侵害でもめるリスクを軽減する現実的な方法について考え始めました。今回は、企業内で、業務目的で調べたものを文書に落としたり、プレゼン資料にしたりすべき人向けに書き始めた次第です。

ともかくにわかに作った "AI利用ガイドライン" がしっかりしていても、守れないルールを設定すると意味がありません。違反している人はなにも言わなくなるからです。つまり、起きているかもしれない問題が誰からも見えなくなるのは機会損失でしかありません。

そういうことを考えていると、眠れない夜になってしまい、つらつらと書き始めてみました。コーヒータイムのおともにでもどうぞ。


1.まずもって、情報入力とプロンプトだ

機密 - CONFIDENTIALとなっているものを食わせないこと

あまたに散らかっているPDFファイルなど文書ファイルがありますよね。GPT-4のWebPilotプラグインとか、chatPDFとか文書分析ツールがありますが、こういったGenAI(生成AI)へPDFを食わせると、とーっても便利。言語は何でもたいてい楽に読み解いてくれて「日本語で」といえば内容についてやりとりできます。サマリーとか、まとめ表作成とか、特定読者層への意味合いの分析とか。最高です。すでにインターネットで広く公開されている文書なら、非常に便利です。

ここで、刺されないようにするためには、なんでもかんでも形式がゆるせば食わせるということを避けるべきだということです。業務上の秘密など公開されるべきでない情報や、あえてCONFIDENTIALと明示されているファイルを、なんにせよGenAIやそれを使うアプリ、プラグインなどに、発行者の許可なく入れないことです。このようにして、少なくとも、すでに締結した、当事者間のNDAを守ることは必須でしょう。

そういった資料には、さまざまな概念を描いたスライド資料、財務面あるいは技術面の報告書、プロジェクト関係資料、技術詳細資料などあるでしょう。に食わせるべきではない、と決めましょう。

名前を出さなければ一般化できたことになるかどうか

さて、たいていの "AIガイドライン" では、特定の企業、団体や個人を特定できるプロンプトを避け、イニシャル化せよとか、仮の名前を使えなど、つまり匿名化、一般化したことばでやりとりせよと言われています。これ、原則としては重要な懸念事項ではあります。一般化ってどうするんですか。これ次第ですが、このルールは思考停止を産むばかりでナンセンスだと思います。データセキュリティとプライバシーの保護からすれば、手元でできることに見えますからスルーしろというほど簡単な話でもないんですが。

一般化=イニシャル化?いやいや、「A社」「B社」じゃこんがらがるし、かといって「IT企業F社」「通信業N社」「製造業T社」てこれ、"一般化"できてるんでしょうか。そうは思えませんよね。だから、このルールの納得感が低い。それで実名でばかすか入れるなんてのは嫌な予感しかしないですね。だから、真面目に言えば、この「一般化」がどうしても必要なのであれば、もう少し実践のあり方を議論しないといけないと思います。

生成AIの活用方法として多いのは「メール」「議事録の要約」「膨大情報の整理」なんだそうです。たしかに、メール返信に使えるプラグインツールは便利ですね、GMailには随分前からありますし、最近ではMerlinとかも便利です。Outlookにビルトインされるのも時間の問題じゃないかな。これ、ChatGPTの拡張だったりしますが、来たメールを読んじゃうから、返信が生成できるわけですよね。え?メールってデフォルト機密じゃないの?

プラス、随分前から、翻訳AI DeepLとか、もっと広くいうとGoogleとかで文書翻訳するとき、もちろん機密をうかつにまるごと翻訳はしないでしょうが、固有名詞抜く作業、してます? なんらかの形で自然とGenAIがさばいていく感じなんですよ。それは、その "AIガイド" 的にはどう解釈するつもりなんですかね?

固有名詞かどうかというよりも、学習データの再利用範囲、何を使って分析するのかのコンセンサスの話だと思います。企業にすれば学習させてなんぼなんですけど、学習されては困るというパラドックスが、ここに横たわっております。

膨大なデータの分析と学習の問題についてはシビアに考えられる

もっとも膨大なデータ分析というような、意図をもって食わせる情報についての取り扱いがぞんざいであっていいわけはないでしょうね。大事なのは、匿名化していようがいまいが、どこからどのように手に入れたデータを、分析対象としてプロンプトあるいは学習データとして使うのかってところは気にしていくべきだろうとは思います。

データを固有名詞あるいは情報源とクリアに紐づけると、それはプライバシーデータなり機微な情報になるんだろうと思います。はたして、何に紐付けてどういうことをやると違反となるか、現実的にどんなリスクにつながるかを示すことは、いまにはじまった議論ではないんです。ビッグデータという言葉が出始めてから久しいですから。tableauもAI使ってるよ?あ、また言っちゃった。

繰り返しますが、特定の門外不出なデータは、どこでどうやって分析することはアリなのか、という部分のコンセンサスをとることが大事。一般化、匿名化うんぬんよりも、そこを確認して進めるのが大事なんじゃないかなと思います。

GenAIがすでに「学習済みな」機微情報もある

生成エンジンへの学習済みの情報には大量に企業団体やそれにかかわる個人の情報が含まれていますよね。なんだったらプライバシー違反と思われるような内容でさえもすでに学習済みのエンジンです。

そこでGenAIサービスのポリシーが大事になってくるわけですが、これは別の項で扱うことにします。

十分な情報を与えてから生成させる。インタラクティブにやると簡単

みなさんも体感されているかと思いますが、生成の内容は業務利用としてそこそこ高い品質の完成品といえるレベルには程遠いでしょう。ドラフトとして使えるものが出るかもしれませんが、シンプルな質問に対して生成したものは、大抵、十分の質のものではありません。議論したいことの前提、利用する専門領域、専門性の度合いを指定すると良いですね。

インタラクティブなやりとりで、議論内容の背景、目標など具体的な共有レベルが上がると、生成の品質はぐぐっと変わります。「どんな専門領域が関係していますか」とか尋ねると視野も拡がります。お題を与えてから「この生成にあたって、精度の高い生成のため、わたしから情報や前提が不足しているようであれば一度に1問ずつわたしにヒアリングしてください」とかいうのも便利です。

しかし、チャットが深くなり、議論をやりすぎると、そのうち混乱して「ハルシネーション(hallucination)」が起きてしまうことがあります。その場合には生成を一旦止めて、議論の途中まで戻ってもらうことが必要になります。具体的には、話題をもう一度打ち込む。

その場合、鍵となる検討項目一覧などが出たときに、その生成結果に名前をつけて「この一覧を<〇〇検討項目A>と呼びます」とか言っておけば、特定のポイントまで戻りやすくなる気がします。

出力形式の指定は、再利用性を考えると重要です。要点の箇条書きと概略、それらの項目の分類を指定するのは良いですね。また、Metadataのソースコードやマインドマップで出すこともできます。情報の信憑性と回答の適切さを高めるため、プロンプトを工夫し、より具体的かつ有効性の高い情報を引き出すよう努めましょう。

ひいては、ユーザである私たちサイドの質問力を向上させ、さまざまな視点をユーザであるあなたに得させることには役立ちます(シーマン現象)。なお、予想以上に出力フォーマットは種々さまざまに対応しています。

2.生成できた情報をどう取り扱うか

生成した情報を使いたいなら、まっすぐ信じる前に裏付けをとろう

成果物に出典や参考資料を示すことは、AIを利用している場合には抜け落ちがちなので注意しましょう。出典を"GenAI"とするのは不適切です。生成をさせたユーザの責任をAIに負わせることはできません。

それでAIが生成した情報を支持する情報源をざっと調べ、参考情報として明記します。GenAIに尋ねればいくらか出してくれることもありますが、言うまでもなく実際に存在する情報源かどうかを調べてから用います。

技術面やビジネス分析などの、信憑性が高く求められることや重要な意思決定にかかわることなど、性質上センシティブな情報ほど、裏付けを探し、参考資料として記載しましょう。

特定できる内容の情報には、CONFIDENTIALとつけて、かつ共有相手を絞れ

特定企業や業界を分析する際には、特定企業名や関係する公人の情報が含まれる場合もあるので、一般化原則は守れないでしょう。ただし、公開情報を根拠に興味深い洞察を得ることができることもある一方で、LLMの性質上、でっちあげな内容のものが含まれることもあります。つまり、直接のリスクはその生成されたそのものよりも、それをどう扱うか、どう配布するかにかかっています。

内容検証については別項目で述べます。ここでは、文書の性質と目的に応じて、適切な範囲と相手を意識的に設定することが重要です。特定企業を分析した文書は、「CONFIDENTIAL」(機密)としてラベルして扱うこと。関係者や必要な部署内だけで共有し、それ以外の人には公開しないように。こうすることで、社内の読者がその情報を公開してしまうことをとどめる、一定の抑制効果はあるでしょう。GenAIの利用にかかわらずそうすれば良いですね。

DISCLAIMER - 免責事項として書いておくと良いこと

生成された情報の中には、情報源が見当たらないものが含まれることがあるでしょう。それでも、その内容を共有することになんらかの意味がある場合もあります。一般的によく用いられる手法ですが、文書の最初か最後に「DISCLAIMER」(免責事項)として「未確認の情報や個人の推測を含む可能性がある」ことを明記できるでしょう。だからといって、内容に責任があるのはGenAIではなく、文書の執筆者であることには変わりありませんが。

3. AIサービスやプロバイダーはなんでもかんでも信頼できるわけじゃない

AIサービスの仕組みから見えるリスクがある

それが利用目的や担当業務のリスクにどう影響するかを分析し、評価することは必要でしょう。例えば、AIアプリに見えるものの、実際の中身はGPTに投げているだけで、実はなにも入出力のチェックをしていないものもあります。倫理フィルターの精度もばらばらです。

画像生成エンジンにおいて、プロンプトで特定のブランドあるいは名前を指定することにより、かなりバイアスのかかった出力がある場合があります。GenAIサービスには、入力にも出力にもいくらか倫理フィルタが導入されているものもありますが、プロンプトインジェクションなどの手法によりバイパス可能なものもあるのが現状です。GenAIのセキュリティはまだまだ無防備です。ユーザとしての利用やシステムへの組み込みには想定外の問題が起きるリスクが伴います。

AIサービスのポリシーとして示されていることをチェックしよう。え?ない?

AIプロバイダが法的あるいは倫理的視点のポリシーを開示していることがあります。例えば、ある翻訳AIは、有料版のユーザの利用を学習に使わないことを宣言しています。API利用時に学習データに含めないなどのオプトアウトを設定できるエンジンもあります。学習されないことによるデメリットもあるのが悩ましいですが・・・。
いずれにしても、AIエンジンの学習方針、生成方針を探し、また提出を求めることはどんどん進んでいくでしょう。

4. 自分とチームのコンプライアンスリテラシーを確保する資料

めんどくさいかもしれないが、もめる根拠は法令。だから関連法令を知ろう

情報にかかわる法令はいろいろとありますが、知らないルールを遵守することはできないものです。データ保護とプライバシー法、公平性(非差別)、意匠、商標、著作権などの取り扱いに関する学習に取り組み、教育研修を継続的に受けることです。

追記:めちゃくちゃ参考になった資料です。

これの後発がそろそろ出てもいい頃だが、やっぱり法整備待ちかな。

自己判断の戦闘力は限られている。専門家に助言を求めよう

現在手に入れられる情報に基づいて、用途と照らした注意点を得るため、あらかじめ法律の専門家に相談することは賢明です。また成果物について、「著作権違反がないか調べてください」というガイダンスを見かけます。しかしそうした侵害が「ない」ことを徹底して確認する現実的な手立てはそうそう見当たりません。
それで、AI利用により知的財産侵害、著作権侵害など生成物に起因する問題発生のリスクがある、あるいは検証すべき事案だと感じる場合には、いつでも法律や知財などの専門家の助言を求めてください。

今は、べからず集作るよりも、うまい活用、やばい現象を積極的に共有したほうがいい時期

現行法でも十分係争問題は起こせるかもしれませんが、それでもこのAI関連は法整備が立ち遅れているため、べからず集もほとんど仮定に基づいています。
そこで、今のところ、積極的な情報共有が重要です。特に、AIの活用方法について、また不穏な動きや問題について、企業内・コミュニティ内で積極的な共有をすることにはメリットがあります。一般化することに長けた人はぜひとも公開してください。そういう人たちのおかげで活用が進んでいます。

グレーゾーンが多い今、AIの利用に関するベストプラクティスや、また問題点を共有することは、進歩的な生産などのメリットとリスクについての具体的な検討が進めることにつながり、結果的に社会のコンセンサスにも、自社のリテラシーとリスク回避にも大きく貢献します。

業界や国の取り組みにも関心を払おう

法整備の進展とともに、起きてくるかもしれないさまざまな問題がどのような法解釈で判断されていくのかを見守るのはリスク回避になります。AI利用のリスクとメリットの両面で、主要な原則と方向性をつかむことに役立ちます。

欧州委員会の高等専門家グループ「信頼できるAIのための倫理ガイドライン」ほか

これは、AIが信頼できるものであるために満たすべき7つの主要な要件を提案しています。これらの要件は、人間のエージェンシーと監督、技術的な堅牢性と安全性、プライバシーとデータガバナンス、透明性、多様性と非差別と公正性、社会的および環境的な福祉、そして説明責任を含んでいます。
https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai

総務省「DX時代における企業のプライバシーガバナンスガイドブックver1.3」(2023年4月25日)
https://www.soumu.go.jp/menu_kyotsuu/important/kinkyu02_000513.html

経済産業省「我が国の AI ガバナンスの在り方 ver. 1.1」AI 原則の実践の在り方に関する検討会(2021年7月9日)
https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/pdf/20210709_1.pdf

5. トークンの使用量制限が日本語でコスト高。問題は小さくない

「疲れ知らずのAI」とは言いますが、そうでもないです。

生成AIの利用費用をかけている場合、月額固定のものをお使いでしょう。それであっても、期待する業務処理量をこなすことはできないことがあります。課金していても議論白熱の真っ最中に「トークンを使い切りました/何時までGPT-4は使えません」といったメッセージとともにGPT4が一時的に使えなくなるということがあります。

この利用の総量制限、実は「日本語でやりとりしているため」早めに来ていたりします。トークナイザーを見ればイメージがわかりますが、同じ意図のプロンプトでも、英語では1ワード1トークンに対し、日本語は1文字1トークンとカウントされます。これにより、処理可能量が平均3倍から5倍の開きがでます。日本語で使うことには結構お高めのコストがかかっています。

それで、もし英語でプロンプトを扱い、満足いく生成ができてから「日本語で」といって改めて出力してもらうと、リアルに長く使えるということです。もし議論が途切れても構わないことであれば他のGenAIに切り替えれば良いだけなのですが、前述のとおりしっかり育てたチャットだから意味があるというような場合には、なかなか厳しいわけです。チャレンジとはなりますが、長くさまざまな議論を中断することなく行うことができるための手法です。

無料でGPT-4を使うインターフェースを提供しているサービスもありますし、GenAI/LLMはGPT-4が全てではないですので、APIではなくチャットでこなしている範囲なら、他の良い方法がどんどん出てくればいいのかなとは思います。

DISCLAIMER - 免責事項

  • 執筆者の個人的な見解であり、経験や推測に基づく記述を含みます。

  • このガイドラインは予告なく改訂していきます。

終わりに

  • 最後までお読みいただきありがとうございます。

  • 倫理面、技術面を含めこの分野の取り組みはまだまだ成熟していると言えないので、継続的に注視していきましょう。

  • この検討にGenAIを使ってみましたが、現実的に実践可能な手法を生成することはほとんどできませんでした。

  • 根底にある文書作成のリスク回避の考え方はAIを利用していない場合でも同じです。その意味では他の視点がもっとあるかも。

  • 思いついたら追記、改訂しますので、楽く鋭いフィードバックはうれしいです。こんなもん役に立つかい!と思う方は全くその通りかもですし、お気持ち尊重しますのでどうかスルーしていただけるとお互い平和です。

おまけ:その後作った資料

ソフトウェアセキュリティはAIの登場でどう変わるか - OWASP LLM Top 10
岡田良太郎

Hardening Designers Conference 2023 Day 3 
AIのメカニズムを知り、活用を知れ - 盾と剣を駆使して衞る戦士たちへの挑戦 AIとセキュリティ 
高江洲勲 (三井物産セキュアディレクション株式会社)
凌翔太 (株式会社マクニカ)
岡田良太郎 (アスタリスク・リサーチ/Hardening Project)


サポートしたいと思う奇特な方は、フォローしてください!