OpenAI の Reasoningモデルのベストプラクティス

npaka

2025年2月14日 10:42

以下の記事が面白かったので、簡単にまとめました。

・Reasoning best practices - OpenAI API

1. Reasoningモデルのベストプラクティス

OpenAIは、「Reasoningモデル」(o1 や o3-mini など) と「GPTモデル」(GPT-4o など)の2種類のモデルを提供しています。これらのモデルは動作が異なります。

この記事の内容は次のとおりです。

(1) ReasoningモデルとGPTモデルの違い
(2) Reasoningモデルを使用するタイミング
(3) Reasoningモデルを効果的に促す方法

2. Reasoningモデルと GPTモデル

「Reasoningモデル」は、複雑なタスクについてより長く、より真剣に考えるように学習しています。これにより、戦略を立て、複雑な問題に対する解決策を計画し、大量のあいまいな情報に基づいて意思決定を行うのに効果的になりました。これらのモデルは、高い正確性と精度でタスクを実行することもできるため、数学、科学、工学、金融サービス、法律サービスなど、人間の専門家が必要となる分野に最適です。

「GPTモデル」は、レイテンシが低く、コスト効率に優れており、簡単に実行できるように設計されています。

・速度とコスト → GPTモデルは高速でコストも低くなる傾向があります。
・明確に定義されたタスクを実行 → GPTモデルは明示的に定義されたタスクを適切に処理します。
・精度と信頼性 → Reasoningモデルは信頼できる意思決定者です。
・複雑な問題解決 → Reasoningモデルは曖昧さと複雑さを乗り越えます。

ほとんどのAIワークフローでは、エージェントの計画と意思決定には「Reasoningモデル」、タスク実行には「GPTモデル」という両方のモデルを組み合わせて使用します。

3. Reasoningモデルを使用するタイミング

OpenAI 社内および顧客から観察された、成功した使用方法のパターンを紹介します。

3-1. 曖昧なタスクのナビゲート

「Reasoningモデル」は、限られた情報やばらばらの情報、簡単なプロンプトからユーザーの意図を理解し、指示のギャップを処理するのに特に優れています。実際、「Reasoningモデル」は、根拠のない推測をしたり、情報のギャップを埋めようとしたりする前に、明確にするための質問をすることがよくあります。

3-2. 干し草の山から針を探す

大量の非構造化情報を渡す場合、「Reasoningモデル」は質問に答えるために最も関連性の高い情報のみを理解して抽出するのに優れています。

3-3. 大規模なデータセットから関係性とニュアンスを見つける

「Reasoningモデル」は、法的契約書、財務諸表、保険金請求など、数百ページにわたる密度の高い非構造化情報を含む複雑な文書を推論するのに特に適しています。モデルは、文書間の類似点を導き出し、データに表された暗黙の真実に基づいて決定を下すのに特に優れています。

「Reasoningモデル」は、微妙なポリシーやルールを推論し、それを手元のタスクに適用して合理的な結論に到達することにも長けています。

3-4. 多段階エージェント計画

「Reasoningモデル」は、エージェントの計画と戦略開発に不可欠です。「Reasoningモデル」を「プランナー」として使用して、問題に対する複数ステップの解決方法を作成し、各ステップに適切な「GPTモデル」を実行者として割り当てることで、成功を収めています。

3-5. 視覚的推論

現時点では、「o1」は視覚機能をサポートする唯一の「Reasoningモデル」です。「GPT-4o」と異なる点は、「o1」はあいまいなグラフ・表や、画質の悪い写真など、難しいビジュアルでも把握できることです。

OpenAIの社内テストでは、「o1」が非常に詳細な建築図面から備品や材料を識別し、包括的な部品表を生成できることがわかっています。最も驚くべきことの1つは、「o1」が建築図面の1ページの凡例を別のページに正確に適用することで、異なる画像間で類似点を描くことができることです。

3-6. コードの品質のレビュー、デバッグ、改善

「Reasoningモデル」は大量のコードのレビューと改善に特に効果的であり、モデルのレイテンシが高いため、多くの場合、コードレビューはバックグラウンドで実行されます。

「GPT-4o」と「GPT-4o mini」は、レイテンシが低いため、コードの作成に適しているかもしれませんが、レイテンシの影響がやや少ないユースケースでは、コード生成時に「o3-mini」が急増することも確認されています。

3-7. 他のモデル応答の評価とベンチマーク

「Reasoningモデル」は他のモデルの応答のベンチマークと評価でも優れた性能を発揮します。データ検証は、特にヘルスケアなどの機密性の高い分野では、データセットの品質と信頼性を確保するために重要です。従来の検証方法では、定義済みのルールとパターンが使用されますが、「o1」や「o3-mini」などの高度なモデルは、コンテキストを理解してデータについて推論できるため、より柔軟でインテリジェントな検証アプローチが可能になります。

4. Reasoningモデルを効果的に促す方法

「Reasoningモデル」は、わかりやすいプロンプトで最もよく機能します。「ステップごとに考える」ように指示するなどのプロンプトエンジニアリング手法では、性能が向上しない場合があります (低下する場合もあります)。

以下のベストプラクティスかプロンプト例を参照してください。

4-1. 開発者メッセージの使用

コマンドチェーンの動作に合わせるために、「システムメッセージ」ではなく「開発者メッセージ」をサポートします。

4-2. プロンプトはシンプルかつ直接的なものに

簡潔で明確な指示を理解して応答することに優れています。

4-3. 思考の連鎖を促すプロンプトを避ける

内部でReasoningを実行するため、「段階的に考える」または「推論を説明する」ように促すプロンプトは不要です。

4-4. 明確にするために区切り文字を使用

マークダウン、XMLタグ、セクションタイトルなどの区切り文字を使用して、入力の異なる部分を明確に示し、モデルがさまざまなセクションを適切に解釈できるようにします。

4-5. 最初はZero-Shotを試し、必要に応じてFew-Shotを試す

Reasoningモデルでは、良い結果を得るためにFew-Shotの例を必要としないことが多いため、最初は例のないプロンプトを記述してみてください。望ましい出力の要件がより複雑な場合は、プロンプトに入力と望ましい出力の例をいくつか含めると役立つ場合があります。例がプロンプトの指示と非常に密接に一致していることを確認してください。両者の矛盾により、悪い結果が生じる可能性があります。

4-6. 具体的なガイドラインを提供

Reasoningモデルの応答を明示的に制限する方法がある場合 (「500ドル未満の予算でソリューションを提案する」など)、プロンプトでそれらの制約を明示的に概説します。

4-7. 最終目標を非常に具体的にする

指示では、応答を成功させるための非常に具体的なパラメータを指定し、モデルが成功基準を満たすまで推論と反復を続けるように促します。

4-8．マークダウン

APIのReasoningモデルはマークダウンを含む応答を生成しません。応答にマークダウンを使用したい場合は、「開発者メッセージ」の最初の行に「Formatting re-enabled」という文字列を含めてください。

5. その他のリソース

さらに詳しい情報については、「OpenAI Cookbook 」を参照してください。
モデルやReasoning機能の詳細について参照してください。

・Meet the models
・Reasoning guide
・How to use reasoning for validation
・Video course: Reasoning with o1
・Papers on advanced prompting to improve reasoning