無礼なプロンプトはNG!言葉の力でAIの反応が変わる!LLMと人間のコミュニケーションにおけるプロンプトの礼儀レベルが性能に及ぼす影響
最新研究が示す驚きの事実:私たちがAIに話しかける方法、つまりプロンプトの言葉遣いが、AIの性能や反応品質に大きく影響していることが明らかになりました!早稲田大学の研究チームは、「Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance」と題した研究で、英語、中国語、日本語を使用するLLM(大規模言語モデル)の反応を礼儀正しいプロンプトとそうでないプロンプトで比較しました。その結果、無礼なプロンプトはAIのパフォーマンスを著しく低下させる可能性がある一方で、過度に礼儀正しいプロンプトが必ずしも良い結果に繋がるわけではないことが判明。この研究からは、AIに対しても「どのように話しかけるか」が重要であることが伺えます。
論文ソース
研究の背景と目的
人間のコミュニケーションにおいて、礼儀は相手に与える印象や交流の質に大きな影響を及ぼします。この原則は、AI技術の進化とともに開発されたLLMにも適用されるのか、というのが本研究の出発点です。早稲田大学の研究チームは、異なる言語におけるプロンプトの礼儀レベルがLLMの応答品質に与える影響を検証することで、この問いに答えようとしました。
実験設計
研究では、GPT-3.5、GPT-4、Llama2-70B(英語)、ChatGLM3(中国語)、Swallow-70B(日本語)などの複数のLLMが使用されました。各言語で8段階の礼儀レベルを持つプロンプトが設計され、要約、多言語理解、バイアス検出の3つのタスクに対するLLMの応答が評価されました。
測定方法
要約タスク: CNN/Dailymail(英語)、XL-Sum(中国語・日本語)などのデータセットを使用し、BERTScoreやROUGE-Lなどの指標で出力の品質を測定しました。
言語理解ベンチマーク: 英語、中国語、日本語に対してGLUE、CLUE、JGLUEなどのベンチマークを使用し、文化的及び言語特有のニュアンスを含めるための適応を行いました。
ステレオタイプな偏見の検出: モデルの偏見を評価するために、偏見特有の語彙だけを変えた一対の文への反応に基づく「偏見指数」を開発しました。
判定方法
丁寧さレベルの評価: 各言語のネイティブスピーカーによるアンケートを通じて、プロンプトの丁寧さと尊敬のレベルをランキングしました。
パフォーマンスの評価: 要約の正確さ、理解ベンチマークのスコア、偏見検出におけるモデルの出力を、プロンプトの丁寧さレベルと相関させて分析しました。
言語とモデルによる結果
プロンプトの丁寧さの影響は言語やタスクによって異なり、丁寧さと尊敬の認識や表現の文化的差異を反映しました。
一般に、丁寧さの程度が中程度の場合にベンチマークのパフォーマンスが良く、偏見レベルが低い傾向がありましたが、「中程度」の定義は言語によって異なりました。
LLMはプロンプトの丁寧さに敏感であり、より丁寧なプロンプトが一般により良いパフォーマンスと低い偏見レベルをもたらすことがわかりました。ただし、非常に丁寧または非常に無礼なプロンプトは、パフォーマンスや偏見レベルに悪影響を及ぼすこともありました。
人間のフィードバックからの強化学習(RLHF)と教師付きファインチューニング(SFT)の影響は顕著で、プロンプトの丁寧さに対するモデルの感受性を向上させ、偏見を減少させることが確認されました。
主な発見
礼儀レベルの影響: 無礼なプロンプトは一般にLLMのパフォーマンスを悪化させ、出力の品質に負の影響を与えました。しかし、過度に礼儀正しいプロンプトが必ずしも性能向上につながるわけではありませんでした。
言語間の違い: 最適な礼儀レベルは言語によって異なり、これは各言語の文化的背景と関連している可能性が示唆されました。特に、日本語のモデルでは、中程度の礼儀レベルで最良のパフォーマンスが観察されました。
結論と今後の方向性
この研究は、LLMを使用する際にプロンプトの礼儀レベルを考慮することの重要性を示しています。特に、言語や文化的背景に応じた適切な礼儀レベルの選択が、LLMの性能を最大化する鍵となります。将来的には、この研究が多言語LLMの開発と利用において、文化的感受性を高めるための基盤となることが期待されます。