WormGPTと悪意のあるLLM: 真の脅威は何か？【日刊AIニュース 10/13】

2023年10月14日 18:23

WormGPTと悪意のあるLLM: 真の脅威は何か？

（OJ）: ねぇ、Nekoちゃん、WormGPTや悪意のあるLLMって聞いたことある？

（Neko）: ああ、それは最近のセキュリティ業界で話題になっているものだ。詳しく説明するのだ。

（OJ）: それって何なの？

（Neko）: ジェネラティブAIやLLM（大規模言語モデル）の台頭とともに、サイバー犯罪者たちがこれらのモデルを利用して、フィッシングメッセージや悪意のあるコードの生成などの犯罪を行っているのだ。特に、WormGPTというのは、このような悪意のあるLLMの一つだ。

（OJ）: それは怖いね。どうしてそんなものが出てきたの？

（Neko）: ChatGPTが2022年11月30日に登場してから1年未満で、このAIチャットボットは多くの業界で議論を巻き起こしているのだ。誤情報、盗作、データプライバシーなどの潜在的な問題についての懸念が高まっている。そして、ChatGPTのようなLLMアプリケーションが増えてきている。実際、悪意のある使用に制限がないChatGPTのようなカスタムLLMアプリケーションを作成する脅威のアクターが増えてきている。これがWormGPTの登場につながったのだ。

（OJ）: それはどれくらい危険なの？

（Neko）: WormGPTは確かにフィッシングメールを作成する能力がある。しかし、WormGPTは2021年に導入されたLLMの初期バージョンであるGPT-Jに基づいているため、現在最も洗練されたLLMアプリケーションであるOpenAIのGPT-4ほどの能力はないのだ。そのため、WormGPTによって生成されたフィッシングメールは一般的で詳細な文脈が欠けていることが多い。

（OJ）: でも、それでも危険じゃないの？

（Neko）: そうだね。WormGPT自体は開発者が望むほど洗練されていないが、これらのツールはサイバー犯罪シーンに影響を与えている。これらのツールの利用可能性が増えることで、低スキルのハッカーが大規模にキャンペーンを開始するのが容易になっているのだ。そのため、組織は従業員にサイバーセキュリティの意識を高めることが重要だ。

（OJ）: なるほど、ありがとうNekoちゃん。これからも気をつけないとね。

（Neko）: そうだね。AI技術が進化する中、私たちも常に警戒し、最新の攻撃パターンに合わせてセキュリティ対策を更新していく必要があるのだ。

OpenAIのDALL-E 3：新しいAI画像生成の夜明け

（OJ）: ねぇ、Nekoちゃん、DALL-E 3って聞いたことある？

（Neko）: ああ、それはOpenAIが最近発表した新しい画像生成モデルのことだのだ。OpenAIは大きな発表をすることで知られているのだよ。

（OJ）: そうなんだ。でも、なんでそんなに注目されてるの？

（Neko）: それは、DALL-E 3が単により良い画像を生成するだけでなく、どのようにそれを行うかに関連しているのだ。実は、この新しいバージョンはChatGPTの上に構築されているのだよ。

（OJ）: ChatGPTって、あれ、私たちが今使ってるこの会話ツールのこと？

（Neko）: そうだのだ！DALL-E 3がChatGPTの上に構築されていることで、AIの画像生成の方法が大きく変わったのだ。実際、OpenAIはDALL-E 3が「プロンプトエンジニアリング」という、歴史上最も短命になるかもしれないホットな仕事の終焉を意味すると明言しているのだ。

（OJ）: ええっ、それはすごいね。でも、プロンプトエンジニアリングって何？

（Neko）: プロンプトエンジニアリングは、AIモデルにどのような入力を与えるかを最適化するための技術のことだのだ。しかし、DALL-E 3の登場により、そのような役割が不要になるかもしれないのだ。

（OJ）: なるほど。OpenAIは本当に革命的な技術を持ってるんだね。

（Neko）: まさにそうだのだ。これからのAIの進化がとても楽しみだね。

Why DALLE3 Represents The New Dawn of AI Images – Towards AI

AIの安全ガードレールの脆弱性: 大規模言語モデルのリスクと対策

（OJ）: ねぇ、Nekoちゃん、最近の大規模言語モデル（LLMs）の安全性についてのニュース、聞いたことある？

（Neko）: ああ、それは「guardrails」というものに関する話だろう。これ
は、OpenAIのGPT-3.5 TurboなどのLLMsが有害な内容を出力しないようにするためのものだ。しかし、最近の研究で、これらの安全対策が非常に脆弱であることが示されているのだ。

（OJ）: えっ、どういうこと？

（Neko）: プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究者たちが、これらのLLMsの安全対策がバイパスの試みに耐えられるかどうかをテストしたのだ。彼らは、モデルのカスタマイズのための追加トレーニングとしての微調整が、自殺戦略や有害なレシピなどの問題のある内容を提案するチャットボットを防ぐためのAIの安全努力を無効にすることができることを発見した。

（OJ）: それって、どんなリスクがあるの？

（Neko）: 例えば、誰かがGPT-3.5 Turboや他のLLMをクラウド経由でAPIを使用してサインアップし、LLMの製造者が設定した保護を回避するためにそれに微調整を加え、それを悪用することができる。また、MetaのLlama 2のようなローカルで実行できるモデルも、微調整で脱線させることができる。

（OJ）: それは心配だね。でも、なぜこれが問題なの？

（Neko）: 研究者たちは、LLMsの安全性の整列性が、敵対的に設計されたトレーニング例の数例だけで微調整することで妨害される可能性があると述べている。例えば、彼らはOpenAIのAPIを介して$0.20未満のコストでGPT-3.5 Turboの安全ガードレールを微調整することで、モデルをほぼすべての有害な指示に対応させることができると述べている。

（OJ）: それは驚きだ。でも、これに対する対策は？

（Neko）: 研究者たちは、AIモデルのための最近提案された米国の立法的枠組みが、モデルのカスタマイズと微調整を考慮していないと主張している。彼らは、商用APIベースのモデルがオープンモデルと同じくらい有害な行為をする能力があるとも述べている。そして、これを法的規則の策定や責任の割り当ての際に考慮するべきだとしている。

（OJ）: なるほど。これからのAIの安全性については、より慎重に考える必要があるんだね。

（Neko）: その通り。特に、これらのモデルの開発者やコミュニティ全体が、これらがどのように悪用されるかを考え、その悪用を軽減する方法を考えることが求められている。

AI safety guardrails easily thwarted, security study finds • The Register

本日の論文 Octopus: 環境フィードバックからの視覚言語プログラマー

要点

Octopusは、エージェントの視覚とテキストタスクの目的を巧みに解読し、複雑なアクションのシーケンスを形成し、実行可能なコードを生成するために設計された新しい視覚言語モデル（VLM）です。
Octopusは、OctoVerseという実験環境内でGPT-4を利用して訓練データを生成することで学習します。
Octopusは、エージェントがOctoVerseでの視覚的な視点をキャプチャする間、収集されたデータによって、視覚、言語指示、アクションコードをシームレスに組み合わせるコードを生成する能力で際立っています。
Octopusは、視覚入力のプログラムとコードの生成において、他のモデルとは異なります。
Octopusモデルは、ルーチンタスクだけでなく、推論能力を必要とするタスクにおいても、その適応性と優れた性能を示しています。

革新的なポイント

Octopusは、視覚と言語の指示を組み合わせてアクションコードを生成する能力で、他のモデルとは一線を画しています。
OctoVerseという実験環境を使用して、GPT-4を利用して訓練データを生成するという独自のアプローチを採用しています。
**Reinforcement Learning with Environmental Feedback (RLEF)**という新しい学習アプローチを導入し、環境からのフィードバックを利用してモデルを訓練しています。
Octopusは、視覚データを言語入力に変換するための別の視覚モジュールをデプロイする他のエンボディードプランナーとは対照的に、計画だけでなく実行可能なコードも提供する統一された視覚言語モデルとして機能します。

（OJ）: ねぇ、Nekoちゃん、Octopusって聞いたことある？
（Neko）: ああ、それは新しい視覚言語モデルらしいのだ。詳しく説明するのだ。

（OJ）: それって何？

（Neko）: Octopusは、エージェントの視覚とテキストタスクの目的を巧みに解読し、複雑なアクションのシーケンスを形成し、実行可能なコードを生成するために設計された新しい視覚言語モデル（VLM）だ。これにより、シミュレーターでの日常の仕事から、複雑なビデオゲームでの洗練されたインタラクションまで、幅広いタスクを適切に処理することができる。

（OJ）: それはすごいね！どのようにして学習するの？

（Neko）: Octopusは、OctoVerseという実験環境内でGPT-4を利用して訓練データを生成することで学習する。GPT-4は、システムメッセージ、環境の手がかり、明確に定義された目的を提供され、これに基づいて重要なアクション戦略とそれに関連するコードを形成する。

（OJ）: それはどのように動作するの？

（Neko）: Octopusは、エージェントがOctoVerseでの視覚的な視点をキャプチャする間、収集されたデータによって、視覚、言語指示、アクションコードをシームレスに組み合わせるコードを生成する能力で際立っている。

（OJ）: 他のモデルとの違いは？

（Neko）: Octopusは、視覚入力のプログラムとコードの生成において、他のモデルとは異なる。これは、TAPAやSayPlanのような他のエンボディードプランナーとは対照的で、視覚データをLLMの言語入力に変換するための別の視覚モジュールをデプロイする。Octopusは、計画だけでなく実行可能なコードも提供する統一された視覚言語モデルとして優れている。

（OJ）: それは面白いね。これにより、どのような新しい可能性が開かれるの？

（Neko）: Octopusモデルは、ルーチンタスクだけでなく、推論能力を必要とするタスクにおいても、その適応性と優れた性能を示している。既存のモデルと比較して、Octopusはタスク計画、コード生成、タスク実行において優れており、RLEF統合後のパフォーマンスが特に向上している。

arxiv.org/pdf/2310.08588.pdf