5つのプロンプトと4つのフレームワークの推論精度向上の有効性の比較

ai300lab

2024年7月31日 08:04

プロンプトエンジニアリングの推論の精度への有効性をGPT-4oとClaude 3.5 Sonnetに聞いてみました。

実験せずに直接聞いてみる

推論の実験は結局、推論結果の精度を判定するのが面倒です：

履歴が影響しないように実験手順を制御するのが面倒
正解と誤解の間にある微妙な回答を判定するのが煩雑

そこで今回は厳密性には目をつぶり、ChatGPT(GPT-4o) とClaude 3.5 Sonnetに有効性を0-100でレーティングしてもらうということにしました。値の絶対値にはあまり意味がないので序列だけ注目したいと思います。

レーティングの結果

プロンプト

5つのプロンプトをGPT-4oとClaude 3.5 Sonnetの評価の合計が高い順に並べます。

「段階を追って考えてください。」
- GPT-4o 90/100
  - このプロンプトはAIに問題を小さく管理可能な部分に分解するよう促し、論理的な流れと推論の正確性を向上させます。各ステップが慎重に検討されるようにします。
- Claude 3.5 Sonnet 85/100
  - このプロンプトは非常に効果的で、構造化された思考を促し、複雑な問題を管理可能な部分に分解するのに役立ちます。
「あなたはこの分野の世界クラスの専門家です。」
- GPT-4o 85/100
  - このプロンプトはAIの自信を高め、より詳細で権威ある回答を提供するよう促します。モデルがその広範な知識ベースを引き出すように準備し、徹底性と正確性を目指します。
- Claude 3.5 Sonnet 70/100
  - このプロンプトはAIの自信を高め、より専門的な知識にアクセスすることを促します。ただし、過度の自信につながる可能性もあります。
「時間をかけて慎重に検討してください。」
- GPT-4o : 80/100
  - このプロンプトはAIに回答する前により徹底的に熟考するよう促し、応答の深さと質を向上させます。急いでいたり表面的な回答の可能性を減らします。
- Claude 3.5 Sonnet 75/100
  - 徹底的な検討を促すことで精度を向上させる可能性がありますが、AIは人間の意味での「時間をかける」ということをしないため、影響は限定的かもしれません。
プロンプト-回答の1サイクル後に「もっと良いものを出してください」
- GPT-4o 88/100
  - このプロンプトはAIに初期の回答を洗練し改善するよう促します。反復思考と継続的な改善を奨励し、回答の質と正確性を大幅に向上させます
- Claude 3.5 Sonnet 80/100
  - AIに前回の回答を洗練し改善することを促すため、非常に効果的で、より正確または包括的な回答につながる可能性があります。
「答える前に深呼吸をしてください。」
- GPT-4o 70/100
  - このプロンプトはAIに一息ついて、よく考えた回答を提供するよう促します。より思慮深く正確な回答を導き、熟考的な瞬間を促進します。
- Claude 3.5 Sonnet 30/100
  - 人間には効果があるかもしれませんが、AIは呼吸をしないため、落ち着きを取り戻す技術の恩恵を受けないので、影響は限られています。

問題解決フレームワーク

問題によってどのフレームワークを使うべきかは分かれます。ここでは具体例なしで一般論で比較します。
4つのフレームワークををGPT-4oとClaude 3.5 Sonnetの評価の合計が高い順に並べます。

Chain-of-thoughts技術
- GPT-4o 90/100
  - この技術はAIを一連の連結された思考を通して導くことを含み、論理的一貫性と推論の深さを向上させます。応答を一貫して系統的に構造化するのに役立ちます。
- Claude 3.5 Sonnet 95/100
  - AIに思考プロセスを明確に表現することを促すため、推論能力を大幅に向上させ、より論理的で正確な結論につながります。
Few-shotプロンプト（出力例の提供）
- GPT-4o 85/100
  - 例を提供することはAIが望ましい出力に向かうのを助け、正確性と関連性を向上させます。明確な期待を設定し、AIが模倣するモデルを提供します。
- Claude 3.5 Sonnet 90/100
  - AIに具体的な例を学習し模倣する機会を与えるため、非常に効果的で、精度と関連性を向上させます。
ReAct技術
- GPT-4o 88/100
  - ReAct（Reason + Act）技術は推論と行動を交互に行い、インタラクティブな問題解決を促進します。動的に推論し、中間ステップに基づいてアプローチを調整する能力を向上させます。
- Claude 3.5 Sonnet 85/100
  - 推論と行動を組み合わせることで、特に環境との相互作用が必要なタスクにおいて問題解決能力を向上させることができます。
Mixture of Experts技術
- GPT-4o 80/100
  - この技術は問題の異なる側面に対して訓練された専門のモデルやサブモデルを活用し、より正確で専門的な応答を導きます。最も適切な場所で異なるタイプの専門知識が適用されることを保証します。
- Claude 3.5 Sonnet 85/100
  - 複雑なタスクに対して非常に効果的で、問題の様々な側面に対して異なる専門「エキスパート」を活用することができます。

むすび

Claude 3.5 Sonnetのほうが理屈っぽいので、AIは時間をかけないとか、AIは深呼吸できないとか言っています。
問題解決フレームワークは解く問題によっても違います。
全般的にはGPT-4o, Claude 3.5 Sonnetの両方が「段階を追って考えてください。」「 Few-shotプロンプト」「Chain-of-thoughts技術」「ReAct技術」を高く評価（両方が85/100以上）していることがわかりました。
中でもおすすめは「Chain-of-thoughts技術」（両方が90/100以上はこれだけ）です。思考の流れを考えさせることによってより深く考えられるようです。

参考文献

[microsoft] プロンプトエンジニアリングの手法 https://learn.microsoft.com/ja-jp/azure/ai-services/openai/concepts/advanced-prompt-engineering 2024年