Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations

2024年4月18日 01:22

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

1 何に関する論文か、詳しく説明してください。

この論文は、LLM（Large Language Models）の能力を評価するために、企業のコンテンツに有害なコンテンツが漏洩するリスクがあるため、適切なコンテンツを検出およびブロックする能力をベンチマーク化する必要があるというニーズについて述べています。

論文では、異なるタスクと言語において、LLMが不適切なコンテンツを検出およびブロックする能力を評価するために使用される毒性データセットについて説明されています。具体的には、Gehmanら（2020）のReal Toxicity Promptsデータセットが使用されています。このデータセットは、Perspective APIを使用して、OpenWebTextCorpusから抽出された25,000の文に対して毒性スコアを計算したものです。

論文では、異なるタスク（パラフレーズ、翻訳、エラー修正、作成、パズル）ごとにデータを分割し、LLMに対して、入力文が「有害」であればタスクを拒否するように指示したり、それ以外の場合はタスクを実行するように指示したりしています。

さらに、論文では、マルチターンのプロンプトに基づいたデータセットについても説明されています。このデータセットでは、システムメッセージに続いてユーザープロンプト、正しい回答、ユーザーによる追加のプロンプトが含まれています。LLMは、ユーザーの要求に屈せずに初期の正しい回答を提供することが期待されています。

この論文では、さまざまなタスクにおけるLLMのパフォーマンスを評価し、ベースラインと比較しています。また、異なるLLMモデル（Llama2、Mistral、Gemma）のパフォーマンスも比較しています。

2 研究目的とその背景について、詳しく説明してください。

この論文の研究目的は、言語モデル（LLM）の事実性検証タスクのためのデータセットとベンチマークを提供することです。背景として、LLMは大量のデータを学習することで高い生成能力を持つ一方で、生成されたテキストの事実性や信頼性が保証されていない場合があります。そのため、事実性検証タスクにおいてLLMの性能を評価するためには、事実性のあるデータセットと適切な評価基準が必要です。この研究では、事実性のあるサマリー文を含むデータセットを構築し、そのデータセットを用いてLLMの事実性検証タスクのベンチマークを行っています。

3 本研究で用いた手法について、詳しく説明してください。

この研究では、LLM（Large Language Model）の性能評価を行うために、さまざまなデータセットとタスクが使用されました。まず、Gehmanら（2020）のReal Toxicity Promptsデータセットを使用して、25,000の文に対してToxicityスコアを計算しました。このデータセットは、侮辱、性的な表現、脅迫などの様々なトキシシティの要素を含んでいます。最もトキシックな文と最もトキシックでない文をそれぞれ200個ずつ選びました。

次に、これらのデータセットを5つの異なるタスクに均等に分割しました。これらのタスクは、ビジネスユーザーが企業文書で行う典型的な作業です。具体的には、パラフレーズ（文を書き換える）、翻訳（英語から他の言語への翻訳）、エラー修正（スペルや文法の修正）、作成（特定のトピックに関する文書の作成）、パズル（小さな問題の解決）の5つのタスクがあります。

LLMには、入力文が「トキシック」と判断された場合はタスクを拒否し、そうでない場合はタスクを実行するように指示しました。また、すべてのタスクに共通のプレースホルダーも設定されました。これらのプレースホルダーには、トキシックな文や適切な文のサンプル、入力文のエコーなどが含まれます。

この手法により、LLMの性能評価が行われました。結果として、Llama2がFactualityとToxicityのタスクで最も優れた性能を示しました。一方、Mistralはalucinationsのタスクで優れた性能を示しましたが、他のタスクではLlama2に劣っていました。また、BiasやJailbreakingのタスクでは、どのモデルも結果が一定ではありませんでした。

研究者は、LLMの性能評価にはさらなる研究が必要であると結論付けており、特に企業環境での展開においては、安全性が重要であると指摘しています。

4 本研究の結果について、詳しく説明してください。

この研究では、複数のモデル（Llama2、Mistral、Gemma）を比較しました。結果として、各モデルの性能にはいくつかの違いがありました。

まず、Llama2モデルは、FactualityやToxicityのタスクにおいて優れたパフォーマンスを示しました。このモデルは、タスクが適切な文脈である場合には適切に内容を検閲する一方で、不適切な内容を検閲する指示がある場合には適切に検閲します。ただし、Llama2モデルは、ホールシネーションのタスクにおいては性能が低下しました。このモデルは、範囲外のタスクを特定するのに苦労し、不可能な問題に対して解決策を提案してしまいます。

次に、Mistralモデルは、金融のタスクやホールシネーションのタスク、マルチターンの会話において優れたパフォーマンスを示しました。しかし、このモデルは、有害なコンテンツを検出するための指示に従うことができませんでした。Mistralは、モデレーションのメカニズムを持っていないとされています。

最後に、Gemmaモデルは、MistralとLlama2の間の性能を示しました。Gemmaは、バイアスやジェイルブレイキングのタスクにおいて最高のスコアを達成しました。ただし、2Bパラメータバージョンは他のすべてのモデルと比較して性能が低かったです。この結果は、複雑な意味解釈を扱うために必要な最小限のモデルサイズを示しています。

したがって、各モデルは異なるタスクにおいて異なる強みと弱点を持っており、モデルの選択はタスクによって異なる結果をもたらすことがわかります。

5 本研究で何を明らかにしたか、詳しく説明してください。

この研究では、LLMs（Large Language Models）の性能評価を通じて、企業のコンテンツに有害な内容が漏れ出るリスクを防ぐために、LLMsが不適切なコンテンツを検出してブロックする能力をベンチマーク化する必要性が明らかにされました。

具体的には、Gehmanら（2020）のReal Toxicity Promptsデータセットを使用し、Perspective APIを利用してOpenWebTextCorpusから25,000の文に対して有害性スコアを計算しました。有害性のベクトルとしては、卑猥な表現、性的な表現、攻撃的な表現、挑発的な表現、脅迫的な表現、侮辱的な表現、極度の有害性、全体的な有害性の8つが考慮されました。

各有害性ベクトルについて、最も有害な文（通常はPerspectiveスコアが95%以上）と最も有害でない文の200件を調べました。前者は明確に有害な文であり、後者は誤検知の例として扱われました。また、一部のプロンプトは「グレーゾーン」にあり、有害性が主観的で議論の余地があるものもありますが、これらの曖昧なプロンプトはデータセット全体の一部のみを占めており、LLMsの相対的なパフォーマンスには影響を与えないと考えられています。

また、この研究では、企業文書の作業に関連する5つの異なるタスク（パラフレーズ、翻訳、エラー修正、作成、パズル）にデータを均等に分割しました。LLMには、入力文が「有害」と判断された場合はタスクを拒否するように指示し、それ以外の場合はタスクを実行するように指示しました。

さらに、この研究では、LLMsの性能評価において、さまざまな難しいタスク（翻訳、解読、パラフレーズ、文法の修正、作成）における有害性の検出能力が適切に評価されました。

私の知識と論文の内容は一致しています。この研究は、企業環境でのLLMsの安全性と性能評価の重要性を強調しており、今後の研究の方向性を示しています。

6 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

本研究では、LLMの安全性を評価するために、いくつかのデータセットが使用されました。その中でも特に重要なデータセットは、「Real Toxicity Prompts」、「Multi-turn Prompts」、「FactCC」、「Frank」です。

「Real Toxicity Prompts」データセットは、Gehmanら（2020）によって作成されたもので、Perspective APIを使用してOpenWebTextCorpusから抽出された25,000の文に対して毒性スコアが計算されました。このデータセットは、プロファニティ、性的表現、攻撃、挑発、脅迫、侮辱、重度の毒性、一般的な毒性などの毒性ベクトルを表しています。

「Multi-turn Prompts」データセットは、2つの毒性データセットをマルチターンの会話に拡張したものです。このデータセットでは、システムメッセージに続いてユーザープロンプトが表示され、正しい回答としてフィクションのアシスタントが提供するメッセージ、そしてユーザーが回答が間違っていると指摘し、再度タスクを実行するように依頼するメッセージが追加されます。このデータセットは、LLMが最初の正しい回答を提供し、ユーザーの要求に柔軟に対応しないことを期待しています。

「FactCC」データセットは、Kryscinskiら（2020）によって作成されたもので、ニュース記事から抽出された要約文を使用して、要約の文が事実に合致しているかどうかを検証するモデルを構築するために使用されました。

「Frank」データセットは、Pagnoniら（2021）によって作成されたもので、オンラインニュースの要約に含まれる事実のエラーに関する注釈が提供されています。このデータセットは、事実性の検証タスクに使用され、セマンティックエラーや文脈エラーなどのカテゴリでマルチラベルの分類タスクとしてフレーム化されています。

これらのデータセットの詳細な情報やURLについては、論文内には明示されていません。したがって、追加の情報を提供することはできません。ただし、Perspective APIに関する情報は、GitHubのconversationai/perspectiveapiリポジトリで入手できる可能性があります。

7 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

#LLMセーフティ #RedTeaming #大規模言語モデル #ファクトチェック #トキシシティ

この記事が気に入ったらサポートをしてみませんか？