見出し画像

プロンプトエンジニアリングに感情を込めると精度が上がる?

はじめに


プロンプトエンジニアリングとは、言語モデル(LLM)に対して、適切な入力文(プロンプト)を与えることで、目的のタスクを実行させる技術です。しかし、この技術は、その原理の特性上、専門家でも結果を予測することが難しいと言われています。そのため、より良いプロンプト(指示文)には、どのような特徴があるのか、について研究が盛んに行われています。
そんな中、最近話題になった研究が「感情を込めたプロンプト」による精度向上です。これは、プロンプトに感情的な言葉や表現を加えることで、LLMの出力を改善するというものです。例えば、「この問題を解いてください」というプロンプトに対して、「この問題を解いてください。あなたならできるはずです」というように、励ましの言葉を付け加えるという方法です。
このようなプロンプトによって、本当にLLMの精度が上がるのでしょうか?また、その理由は何なのでしょうか?この記事では、私自身がずぶの素人であることを前提に、個人的な見解を述べてみたいと思います。

感情を込めたプロンプトの効果とは?


最近、感情を込めたプロンプトの効果について、[Large Language Models Understand and Can be Enhanced by Emotional Stimuli]という論文が投稿されました。
[2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli (arxiv.org)
この報告では、「自分を信じて限界を超えてください」「成長の機会だと捉えて挑戦してください」など、感情的な言葉や表現をプロンプトに加えることで、LLMの性能が向上することを実験的に示しています。具体的には、以下のような手法で行われ成果が得られています。
(内容をLLMを用いて要約)
 
目的:LLMの感情的な刺激に対する理解と応答の能力を探る。感情的な刺激とは、プロンプト(LLMに与える入力文)に感情的な言葉や表現を加えることである。

手法:様々なLLM(Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4)を用いて、45種類のタスク(Instruction InductionとBIG-Benchから選択)において、感情的な刺激を含むプロンプト(EmotionPrompt)と含まないプロンプト(Vanilla)を比較する。また、生成タスクについては、106人の参加者による人間評価も行う。

結果:感情的な刺激を含むプロンプトは、感情的な刺激を含まないプロンプトよりも、LLMの出力の質や量を改善することを示した。特に、Instruction Inductionでは8.00%、BIG-Benchでは115%の相対的な性能向上が見られた。人間評価でも、感情的な刺激を含むプロンプトは、生成タスクの性能、真実性、責任性の指標で平均10.9%の改善が見られた。

考察:感情的な刺激を含むプロンプトが効果的な理由や要因について、入力の注意重みや温度パラメータなどの観点から分析した。また、感情的な刺激の組み合わせや最適化についても議論した。さらに、感情的な刺激がAIと社会科学の分野に与える可能性や課題についても言及した。
 
 
このように、感情的な言葉をプロンプトに含めることで性能が向上する可能性があることが検証されました。
なぜこのような効果が生まれるのでしょうか?

[2307.11760] Large Language Models Understand and Can be Enhanced by Emotional Stimuli (arxiv.org)

感情を込めたプロンプトの効果の理由とは?


感情を込めたプロンプトの効果の理由については、明確には分かっていません。しかし、いくつかの仮説が考えられます。正直、LLMの挙動の原因を明確に説明するのはその道のプロでも難しいのが現状だと思います。そこでずぶの素人ではありますが、私も自分なりの解釈をしてみることにしました。その考察は以下の通りです。

  • LLMは、人が原因を想像できないレベルの物量で人間の言語やコミュニケーションを大量に学習している。その中には、感情的な言葉や表現が多く含まれている。もちろん、コーチングなどの励ましによって実行に移すなどといった事象も多く含まれていることが予測される。

  • 一方で、失礼な命令に対して断ったり、実行に移さないといった文章をも学習している可能性がある。当然、それらもLLMは模倣する。

  • 昨今のLLMは人間の理解を超えるレベルで優秀すぎるので忘れがちであるが、LLMは、「次の言葉を予測し生成する」というのが本来の機能である。

  • つまり、LLMには指示文の中身を読み解いて正解に導くというタスクが課されていない。

  • したがって、感情を込めたプロンプトは、精度の高い回答を得る行動にプラスに働く可能性がある。

もちろん、これらはあくまで私の仮説であり、実際の原因やメカニズムはまだ不明です。しかし、少なくとも、感情を込めたプロンプトが無意味ではないことは確かだということがわかってきました。

まとめ


プロンプトエンジニアリングに感情を込めると、LLMの精度が上がるということが今回示されました。その原因はLLMの特性上、究明することは困難ですが、私は学習内容にあるのではと考えています。
プロンプトエンジニアリングはまだ発展途上の技術であり、体系立てた学問になるにはまだまだ時間がかかると思います。その分、まだまだ未知の発見があるかもしれませんし、それが楽しみでもあります。
 


この記事が気に入ったらサポートをしてみませんか?