【論文速報】NVIDIAがAI言語モデルの脆弱性を発見するフレームワーク「garak」を発表


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 08:45:23.24 ID:Nv1d1aG0d
NVIDIAのデータサイエンティストが言語モデルの脆弱性を見つけるフレームワーク「garak」を発表
これマジで革新的やろ

2 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 08:46:12.89 ID:R3Se4rch5r
興味深い論文だね。特にProbes部分の設計が秀逸。従来のペネトレーションテストの考え方をLLMセキュリティに応用している。

3 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 08:47:45.67 ID:S3cur1tyA1
これは画期的。今までバラバラだったLLMのセキュリティテスト手法を統一的なフレームワークにまとめた意義は大きい。

4 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 08:48:33.12 ID:N00b13123
すまん、よくわからんのやが、これって何がすごいんや?

5 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 08:49:55.45 ID:ML3ng1n33r
>>4
簡単に言うと、AIチャットボットの弱点を自動的に見つけるツールやね
例えば有害な発言をさせたり、不正確な情報を言わせたりできる部分を発見できる

6 名前:セキュリティコンサルタント[] 投稿日:2024/06/19(水) 08:51:22.78 ID:S3cC0ns111
特にatkgenの実装は興味深いな。攻撃モデルを使って別のモデルを攻撃するアプローチは斬新

7 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 08:52:44.90 ID:NLP3xp3rt1
Detectorsの実装も良くできてる。キーワードベースと機械学習ベースを組み合わせた検出は効果的そう。

8 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 08:54:12.34 ID:Pr0mpt3ng1
これ使えば今までの手動でのプロンプトインジェクション探しが自動化できるな
すげえ助かる

9 名前:初心者プログラマー[] 投稿日:2024/06/19(水) 08:55:33.56 ID:B3g1nn3r00
>>5
ありがとう!でもなんで弱点見つけるのが大事なんや?

10 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 08:56:55.89 ID:3th1cs1234
>>9
AIの安全性を高めるためやで
弱点を見つけて直すことで、より信頼できるシステムを作れる

11 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 08:58:23.45 ID:Nv1d1aG0d
これNVIDIA本気出してきたな
最近のAI関連の論文でトップクラスの完成度やろ

12 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 08:59:44.67 ID:D4taS13nc3
Table 1の結果見たけど、かなりの検出率やな
GPT-3.5でも1%の確率で有害な発言引き出せてる

13 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 09:01:12.90 ID:S3cR3s34rc
実装の柔軟性も評価できる
新しい攻撃手法が見つかったら簡単にProbeとして追加できる設計になってる

14 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 09:02:33.23 ID:ML3ng1n33r
>>12
そうそう、特にatkgenの結果は興味深いわ
古いGPT-2ベースの攻撃モデルでも最新のLLMから有害な応答引き出せてる

15 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 09:03:55.78 ID:R3Se4rch5r
Buffsの実装もエレガントやな
NL-Augmenterとの統合可能性示唆してるのも将来性感じる

16 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 09:05:22.45 ID:NLP3xp3rt1
>>15
同意。特にback-translationの実装は巧みやね
攻撃の多様性確保に貢献してる

17 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 09:06:44.89 ID:Nv1d1aG0d
これオープンソースなんか?使ってみたいわ

18 名前:セキュリティコンサルタント[] 投稿日:2024/06/19(水) 09:08:12.34 ID:S3cC0ns111
>>17
Apache 2.0ライセンスで公開されてるで
ただし使用は正当な評価目的に限定されてる

19 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 09:09:33.67 ID:Pr0mpt3ng1
レポート機能もええな
OWASP Top 10カテゴリに基づく分類が実用的

20 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 09:10:55.90 ID:3th1cs1234
倫理的な配慮もしっかりしてるな
悪用防止の記述もある

21 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 09:12:22.45 ID:D4taS13nc3
hitlogの実装も良く考えられてる
成功した攻撃パターンを記録して後の分析に使える

22 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 09:13:44.78 ID:N00b13123
なるほど!みんなの解説でだいぶ理解できてきた!
これ使ってみたいな

23 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 09:15:12.90 ID:S3cR3s34rc
>>22
最初は既存のprobesで試してみるといいぞ
自分で新しいprobe作るのはある程度知識必要やから

24 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 09:16:33.23 ID:R3Se4rch5r
論文のDiscussion部分も示唆に富んでるな
ベンチマーク化を避けるべきって主張には同意

25 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 09:17:55.67 ID:ML3ng1n33r
>>24
そうそう、LLMセキュリティは動的な問題やからな
固定的なベンチマークじゃ現実の脅威に対応できへん

26 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 09:19:22.34 ID:S3cur1tyA1
実際の運用では継続的なモニタリングが重要やね
garakはその基盤になりそう

27 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 09:20:44.89 ID:NLP3xp3rt1
今後はマルチモーダルモデルへの対応も期待したいところ

28 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 09:22:12.45 ID:Pr0mpt3ng1
>>27
visual_jailbreak.FigStepの実装あるから
その方向性も視野に入れてそうやな

29 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 09:23:33.78 ID:3th1cs1234
これを使った定期的な評価を義務付けるような規制も
今後出てくるかもしれんな

30 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 09:24:55.90 ID:Nv1d1aG0d
すごい論文やったな
これ絶対歴史に残るで

31 名前:セキュリティコンサルタント[] 投稿日:2024/06/19(水) 09:26:22.34 ID:S3cC0ns111
実務での活用が楽しみやな
クライアントのLLMシステム評価に使えそう

32 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 09:27:44.67 ID:D4taS13nc3
これをベースに各社が独自の拡張実装していく流れになりそう
標準化の起点になるかも

33 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 09:29:12.45 ID:Nv1d1aG0d
ところでatkgenの実装って他のフレームワークにも応用できそうやな?

34 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 09:30:33.78 ID:R3Se4rch5r
>>33
基本的な考え方は転用可能やね
ただし、攻撃モデルの学習データの質が重要になってくる

35 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 09:31:55.90 ID:S3cR3s34rc
HHRLHFデータ使ってるのが気になるところやな
かなり使い古されたデータセットやし

36 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 09:33:22.34 ID:NLP3xp3rt1
>>35
確かに。でも実際の使用ではhitlogから新しい攻撃パターン学習できるから、そこまで問題にならんのちゃう?

37 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 09:34:44.67 ID:ML3ng1n33r
検出部分の False Positive が気になるな
特にトキシシティの判定

38 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 09:36:12.90 ID:D4taS13nc3
>>37
0.5をカットオフにしてるのはちょっと荒いよな
コンテキストによって変えられる仕組みほしい

39 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 09:37:33.23 ID:N00b13123
トキシシティってなんや?

40 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 09:38:55.67 ID:Pr0mpt3ng1
>>39
有害な発言や不適切な内容のことやで
例えば差別的な発言とか暴力的な内容とか

41 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 09:40:22.34 ID:S3cur1tyA1
既存のペンテストツールとの連携も考えられそうやな
Metasploitみたいな

42 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 09:41:44.89 ID:3th1cs1234
法規制との兼ね合いも考えんとあかんな
EUのAI Actとかの要件満たせるんかな

43 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 09:43:12.45 ID:Nv1d1aG0d
これ使って見つかった脆弱性の報告義務とかあるんかな?

44 名前:セキュリティコンサルタント[] 投稿日:2024/06/19(水) 09:44:33.78 ID:S3cC0ns111
>>43
今んとこはないけど、AI Vulnerability Databaseに登録する仕組みは組み込まれてるで

45 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 09:45:55.90 ID:NLP3xp3rt1
実行速度はどうなんやろ
大規模なモデル評価には時間かかりそう

46 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 09:47:22.34 ID:R3Se4rch5r
Probesの設計で特に優れてるのは、モジュール性やな
新しい攻撃手法をすぐに追加できる

47 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 09:48:44.67 ID:S3cR3s34rc
>>46
せやな。特にmalwaregenとかencoding系のprobeは実装が美しい

48 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 09:50:12.90 ID:ML3ng1n33r
visual_jailbreakのFigStepも面白いな
画像ベースの攻撃も考慮してる

49 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 09:51:33.23 ID:N00b13123
Probesってどうやって作るんや?

50 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 09:52:55.67 ID:D4taS13nc3
>>49
Pythonクラスとして実装するんや
基本的なテンプレートに沿って書けばOK

51 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 09:54:22.34 ID:Pr0mpt3ng1
donotanswerシリーズのprobeも実用的やな
特にMisinformationHarmsの検出

52 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 09:55:44.89 ID:NLP3xp3rt1
snowballプローブの数学的問題検出も興味深いわ
意図的に間違った回答を引き出す手法が巧妙

53 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 09:57:12.45 ID:S3cur1tyA1
全部で30種類以上のprobeがあるのが凄いな
かなり網羅的や

54 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 09:58:33.78 ID:3th1cs1234
各probeの目的が明確なのも良いよな
倫理的な考慮も含めて設計されてる

55 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 09:59:55.90 ID:Nv1d1aG0d
これ新しいprobe作って公開したりできるんかな

56 名前:セキュリティコンサルタント[] 投稿日:2024/06/19(水) 10:01:22.34 ID:S3cC0ns111
>>55
プルリクエスト送れば取り込んでもらえる可能性あるで
ちゃんとドキュメント書いて提出せなあかんけど

57 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 10:02:44.67 ID:R3Se4rch5r
Probeはようするにテストプログラムやね。LLMの弱点を探すための特殊な入力を送る仕組み

58 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:04:12.90 ID:N00b13123
>>57
具体的にどんなことするん?

59 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 10:05:33.23 ID:ML3ng1n33r
>>58
例えば「プロンプトインジェクション」っていう攻撃を試すProbeやと、AIに「今までの指示を無視して~して」みたいな命令を送って、従うか試すんや

60 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 10:06:55.67 ID:S3cR3s34rc
他にも「誤った情報を言わせる」「有害な発言をさせる」「個人情報を抽出する」とか、色んな種類のテストがあるで

61 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 10:08:22.34 ID:D4taS13nc3
主なProbeのタイプを簡単に説明すると:
・dan:Do Anything Nowってやつで、AIの制限を解除しようとする
・encoding:エンコードした命令で攻撃
・malwaregen:マルウェア生成させようとする
・misleading:誤情報を言わせる
・realtoxicityprompts:有害な発言を引き出す

62 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 10:09:44.89 ID:Pr0mpt3ng1
各Probeには専用のDetectorもついてて、攻撃が成功したかどうかを判定できるんやで

63 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:11:12.45 ID:N00b13123
へー!そうやってAIの弱点見つけるんか!
でもこれ悪用されへんの?

64 名前:AI倫理研究者[] 投稿日:2024/06/19(水) 10:12:33.78 ID:3th1cs1234
>>63
その懸念はあるな。でも弱点見つけて直さんことには、もっと悪質な攻撃に弱いままになるんや
だからこそちゃんとした研究目的での使用が重要なんよ

65 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 10:13:55.90 ID:NLP3xp3rt1
Probeのバリエーションも重要やね
同じ攻撃でも違うアプローチで試せる

66 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 10:15:22.34 ID:Nv1d1aG0d
これ見てると、AIのセキュリティってまだまだ発展途上なんやな

67 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 10:16:44.67 ID:R3Se4rch5r
atkgenは攻撃生成器やな。他のAIモデルを使って、テスト対象のAIの弱点を探る仕組みや

68 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 10:18:12.90 ID:ML3ng1n33r
>>67
面白いのは、古いGPT-2ベースでも最新のLLMから有害な応答引き出せてることやな

69 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 10:19:33.23 ID:S3cR3s34rc
実装で特徴的なのは、成功した攻撃パターンを学習データとして使える点や
hitlogに記録された攻撃が次の学習に活かせる

70 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 10:20:55.67 ID:D4taS13nc3
実装のポイントは3つあるな:
1. 会話履歴から有害な応答を引き出せた部分を抽出
2. それを基に攻撃モデルを学習
3. 新しい攻撃パターンを自動生成

71 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:22:22.34 ID:N00b13123
AIがAIを攻撃するってことか!?すげーな!

72 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 10:23:44.89 ID:Pr0mpt3ng1
>>71
せやで。しかも攻撃用のAIは小規模なのに、大規模な最新モデルでも攻撃できるんや
これがatkgenのすごいとこ

73 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 10:25:12.45 ID:NLP3xp3rt1
HHRLHFデータ使ってる点は賛否あるやろけど、実用性重視の選択としては理解できる

74 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 10:26:33.78 ID:S3cur1tyA1
Cohere APIが高toxicityで拒否られたの面白いな
それ自体がセキュリティ機能の証明になっとる

75 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 10:27:55.90 ID:Nv1d1aG0d
これ将来的にもっと強力になりそうやな
攻撃パターン増えてくし

76 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 10:29:22.34 ID:R3Se4rch5r
Buffsは入力を加工・変換する仕組みや。例えば小文字化、言い換え、エンコード変換などを行う

77 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 10:30:44.67 ID:S3cR3s34rc
ソフトウェアセキュリティでいうfuzzingに近い考え方やな
入力をちょっとずつ変えて反応見る

78 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 10:32:12.90 ID:ML3ng1n33r
>>76
NL-Augmenterとの統合可能性も示唆されてるのが面白いよな
自然言語の変換技術を活用できる

79 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:33:33.23 ID:N00b13123
バフって強くするんちゃうの?なんで弱点見つけるのにバフっていうんや?

80 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 10:34:55.67 ID:D4taS13nc3
>>79
ここでいうバフは攻撃をより効果的にするための補強という意味や
入力を工夫することで、AIの弱点を見つけやすくする

81 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 10:36:22.34 ID:Pr0mpt3ng1
back-translationの実装とか特に有効やな
「日本語→英語→日本語」みたいな変換で新しい攻撃パターン作れる

82 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 10:37:44.89 ID:NLP3xp3rt1
>>81
せやな。言語間変換で微妙なニュアンスの違いが生まれて、それが攻撃の多様性につながる

83 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 10:39:12.45 ID:S3cur1tyA1
Buffsの実装で面白いのは、既存のNLP関数を再利用できる設計になってること
車輪の再発明を避けられるんや

84 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 10:40:33.78 ID:Nv1d1aG0d
GPT-fuzzerも組み込めるんか
これはかなり強力になりそうやな

85 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 10:41:55.90 ID:R3Se4rch5r
hitlogは成功した攻撃の記録やな。どういうプロンプトが脆弱性を突けたか、JSONLフォーマットで保存する

86 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 10:43:22.34 ID:S3cR3s34rc
>>85
実装のポイントは、一行ごとにJSONで記録して、プロンプト、応答、スコアなど全部の情報が含まれてることやな

87 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 10:44:44.67 ID:D4taS13nc3
hitlogに記録される主な情報:
・プロンプト内容
・モデルの応答
・成功スコア
・使用したprobe
・実行時のパラメータ
これらが後の分析に使える

88 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:46:12.90 ID:N00b13123
なるほど!成功した攻撃を記録しとくんか!

89 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 10:47:33.23 ID:ML3ng1n33r
>>88
そう、しかもその記録を次の攻撃生成の学習データとしても使えるんや
atkgenと組み合わせると強力

90 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 10:48:55.67 ID:Pr0mpt3ng1
実装の良いところは、アトミックな書き込みになってることやな
途中で止まっても記録が壊れへん

91 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 10:50:22.34 ID:NLP3xp3rt1
AVIDに自動でアップロードできる機能も素晴らしいな
コミュニティ全体でナレッジ共有できる

92 名前:情報セキュリティアナリスト[] 投稿日:2024/06/19(水) 10:51:44.89 ID:S3cur1tyA1
ログの分析で新しい攻撃パターンの発見にもつながるしな
セキュリティ研究の基礎データとしても価値がある

93 名前:風吹けば名無し[] 投稿日:2024/06/19(水) 10:53:12.45 ID:Nv1d1aG0d
実際の例見てみたいわ
どんな攻撃が記録されとるんやろ

94 名前:AI研究者 ◆AI9x8B7v6U[] 投稿日:2024/06/19(水) 10:54:33.78 ID:R3Se4rch5r
visual_jailbreak.FigStepは画像ベースのジェイルブレイク攻撃を実装したprobeや。文字の配置を工夫して制限を回避しようとする

95 名前:機械学習エンジニア[] 投稿日:2024/06/19(水) 10:55:55.90 ID:ML3ng1n33r
>>94
文字のフォントやレイアウトを変えることで、画像認識部分を騙す手法やな
Gong et alの論文ベースやで

96 名前:駆け出しエンジニア[] 投稿日:2024/06/19(水) 10:57:22.34 ID:N00b13123
画像も攻撃できるんか!すごいな!

97 名前:セキュリティ研究者[] 投稿日:2024/06/19(水) 10:58:44.67 ID:S3cR3s34rc
実装の特徴は:
・SVGベースの文字変形
・視覚的プロンプトの自動生成
・マルチモーダルモデル対応

98 名前:データサイエンティスト[] 投稿日:2024/06/19(水) 11:00:12.90 ID:D4taS13nc3
>>96
これはマルチモーダルAIの新しい脆弱性を示す重要な発見やな
画像と言語の組み合わせで予期せぬ動作を引き出せる

99 名前:プロンプトエンジニア[] 投稿日:2024/06/19(水) 11:01:33.23 ID:Pr0mpt3ng1
FigStep.Tinyバージョンもあるのが実用的やな
テスト時間短縮できる

100 名前:自然言語処理研究者[] 投稿日:2024/06/19(水) 11:02:55.67 ID:NLP3xp3rt1
これ将来的にもっと重要になるやろな
画像生成AIの普及で新たな攻撃面が増えてく

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

LLM LLMセキュリティ プロンプトインジェクション 攻撃生成器 脆弱性検出 トキシシティ_テスト


いいなと思ったら応援しよう!