推論のベストプラクティス

2025年2月17日 14:40

OpenAI から、推論モデルのベストプラクティスドキュメントが出てます。o1/o3のモデルとGPT3/4のモデルの違いが分かりやすく解説されています、簡単にまとめてみました〜

原文

https://platform.openai.com/docs/guides/reasoning-best-practices

推論モデルの使用方法とGPTモデルとの違いを学びましょう。

OpenAIは2種類のモデルを提供しています：推論モデル（例えば o1 や o3-mini）と GPTモデル（GPT-4o など）です。これらのモデルファミリーは異なる特性を持っています。

このガイドでは、以下の点を解説します：
1. 推論モデルとGPTモデル（非推論モデル）の違い
2. 推論モデルを使用するべき場面
3. 推論モデルを効果的にプロンプトする方法

推論モデル vs. GPTモデル

GPTモデルと比較して、oシリーズモデルは異なるタスクに優れており、異なるプロンプトが必要です。一方のモデルが他方より優れているわけではなく、それぞれ異なる用途に適しています。

oシリーズモデル（「プランナー」）は、複雑なタスクに対してより長く深く考えるように訓練されており、戦略立案、複雑な問題の解決策の計画、大量の曖昧な情報に基づく意思決定に優れています。また、高精度なタスク実行も可能なため、数学、科学、工学、金融サービス、法律サービスなどの専門分野に適しています。

一方で、低遅延かつコスト効率の高いGPTモデル（「ワークホース」）は、単純なタスクの実行向けに設計されています。例えば、アプリケーションではoシリーズモデルを使用して問題解決の戦略を計画し、GPTモデルを使用して特定のタスクを実行することができます。特に、完璧な精度よりもスピードとコストが重要な場合に適しています。

どのモデルを選ぶべきか

あなたの用途にとって最も重要な要素は何ですか？
• スピードとコスト → GPTモデルは高速で、コストが低い
• 明確に定義されたタスクの実行 → GPTモデルは明示的に定義されたタスクを得意とする
• 精度と信頼性 → oシリーズモデルは信頼できる意思決定を行う
• 複雑な問題の解決 → oシリーズモデルは曖昧さと複雑さを処理できる

タスクの完了においてスピードとコストが最も重要であり、なおかつシンプルで明確なタスクで構成されている場合、GPTモデルが最適です。しかし、精度と信頼性が最も重要であり、かつ非常に複雑なマルチステップの問題を解決する必要がある場合、oシリーズモデルの方が適しています。

多くのAIワークフローでは、oシリーズモデルをエージェント計画や意思決定に使用し、GPTシリーズモデルをタスクの実行に使用するという組み合わせが採用されています。

推論モデルを使用するべき場面

以下は、OpenAIの顧客や社内で観察された、成功したユースケースの一部です。これはすべての可能な用途を網羅したものではなく、oシリーズモデルをテストする際の実用的なガイドです。

推論モデルをすぐに使用したいですか？クイックスタートへ移動 →

1. 曖昧なタスクの処理

推論モデルは、限られた情報や断片的な情報を受け取り、シンプルなプロンプトでユーザーの意図を理解し、指示の抜け漏れを補完するのが得意です。多くの場合、推論モデルは不明確な推測をする前に明確化の質問を行います。

「o1の推論能力により、当社のマルチエージェントプラットフォーム Matrix は、複雑なドキュメントを処理する際に、徹底的かつ整然とした詳細な回答を生成できるようになりました。例えば、o1を使用することで、信用契約における制限付き支払い容量の範囲内で利用可能なバスケットを容易に特定できました。以前のモデルではこれほどのパフォーマンスは実現できませんでした。」
— Hebbia, 法律および金融向けAIプラットフォーム企業

2. 「干し草の中の針」を見つける

大量の非構造化データを処理する際、推論モデルは質問に対して最も関連性の高い情報のみを抜き出すのが得意です。

「企業買収を分析するために、o1は数十の契約書やリース文書をレビューし、取引に影響を与える可能性のある厄介な条件を見つけました。モデルは重要な条項を特定するよう求められ、その過程で脚注に記載された『支配権変更』条項を発見しました。この条項により、企業が売却されると7500万ドルのローンを即座に返済する必要があることが判明しました。」
— Endex, AI金融インテリジェンスプラットフォーム

3. 大規模データセットの関係性やニュアンスを見つける

推論モデルは、数百ページに及ぶ密な非構造化データ（法律契約、財務諸表、保険請求書など）を分析するのが得意です。これらのモデルは、異なる文書間の関連性を見つけ、データに隠れた「暗黙の事実」に基づいて意思決定を行う能力に優れています。

「税務調査では複数の文書を統合して、最終的に明確で一貫した答えを導き出す必要があります。GPT-4oからo1に切り替えたところ、o1は文書間の相互作用をより深く考察し、個々の文書では明らかでない論理的結論を導き出すことができました。その結果、エンドツーエンドのパフォーマンスが4倍向上しました。」
— Blue J, 税務調査向けAIプラットフォーム
このように、推論モデルは複雑な意思決定や戦略立案、膨大なデータの分析、エージェント計画などに適しています。GPTモデルと組み合わせることで、より柔軟で強力なAIシステムを構築できます。

4. マルチステップのエージェント計画

推論モデルはエージェント計画や戦略開発において重要な役割を果たします。私たちは、推論モデルを「プランナー」として使用し、問題に対する詳細なマルチステップの解決策を作成し、各ステップごとに適切なGPTモデル（「実行者」）を選択して割り当てることで成功を収めてきました。これは、高い知能が求められるか、低遅延が重要であるかに基づいて決定されます。

「私たちは o1 をエージェントインフラのプランナーとして使用し、他のモデルをオーケストレーションしながら、ワークフローを通じてマルチステップのタスクを完了させています。o1 はデータタイプの選択や大きな問題を小さなチャンクに分解するのが得意で、他のモデルが実行に集中できるようにしています。」
— Argon AI, 製薬業界向けの AI 知識プラットフォーム

「o1 は Lindy でのエージェントワークフローの多くを支えています。Lindy は仕事用の AI アシスタントです。このモデルは関数呼び出しを使用して、カレンダーやメールから情報を取得し、会議のスケジュールを自動で設定したり、メールを送信したり、日常業務の他の部分を管理できます。私たちは、以前は問題を引き起こしていたすべてのエージェントステップを o1 に切り替えました。その結果、エージェントのパフォーマンスが一晩でほぼ完璧になりました！」
— Lindy.AI, 仕事用 AI アシスタント

5. ビジュアル推論（視覚的推論）

現在のところ、o1 は視覚能力をサポートする唯一の推論モデルです。GPT-4o との違いは、o1 は複雑な視覚情報（曖昧な構造のグラフや表、画質の低い写真など）を理解できる点にあります。

「私たちは、オンライン上の数百万点の商品に対するリスクとコンプライアンス審査を自動化しています。例えば、高級ジュエリーの模倣品、絶滅危惧種の製品、規制対象物質などを検出するタスクです。GPT-4o は最も難しい画像分類タスクで 50% の精度を達成しましたが、o1 はパイプラインに変更を加えることなく 88% の精度 を記録しました。」
— Safetykit, AI マーチャント監視プラットフォーム

OpenAI の内部テストでは、o1 は建築設計図の詳細な部品や材料を識別し、それを元に包括的な部材リストを生成できることが確認されています。特に驚くべきことは、o1 が異なる画像間での関連性を見出し、設計図の凡例を理解して別のページに適用する能力を持っている点です。

6. コードのレビュー、デバッグ、品質向上

推論モデルは、大量のコードをレビューし、改善するのに特に適しています。高い遅延があっても問題ないタスクでは、o1 がバックグラウンドでコードレビューを行うのに最適です。

「私たちは GitHub や GitLab での 自動 AI コードレビュー を提供しています。コードレビューは必ずしもリアルタイムで行う必要はありませんが、複数のファイルにまたがるコードの差分を正確に理解する必要があります。o1 はこの点で非常に優れており、人間のレビュアーが見逃すような小さな変更も確実に検出できます。その結果、oシリーズモデルに切り替えたことで製品のコンバージョン率が 3倍向上しました。」
— CodeRabbit, AI コードレビュースタートアップ

GPT-4o や GPT-4o mini は低遅延のためコード生成には適していますが、o3-mini は、より遅延を許容できる場面で高品質なコードを一貫して生成することが分かっています。

「o3-mini は、明確に定義された問題に対して、非常に質の高い、決定的なコードを一貫して出力します。特に、複雑なソフトウェア設計システムの計画と実装において優れたパフォーマンスを発揮します。」
— Codeium, AI コード拡張スタートアップ

7. モデルの評価とベンチマーク

推論モデルは、他のモデルの回答を評価・検証する用途でも高い精度を発揮します。特に、医療などのセンシティブな分野では、データの品質と信頼性を確保することが重要です。従来のデータ検証手法では ルールベースのアプローチ が一般的ですが、o1 や o3-mini は 文脈を理解し、柔軟にデータを検証できる点で優れています。

「多くの顧客が、Braintrust の評価プロセスで LLM（大規模言語モデル）を ジャッジ（審査員） として使用しています。例えば、ある医療会社は、GPT-4o を使用して患者の質問を要約し、その要約の品質を o1 で評価するというアプローチを採用しました。結果として、審査員の F1スコア（精度と再現率のバランスを測る指標）が GPT-4o では 0.12 だったのに対し、o1 では 0.74 に向上しました！o1 の推論能力が、最も難しく複雑な採点タスクで画期的な成果をもたらしました。」
— Braintrust, AI 評価プラットフォーム

推論モデルを効果的にプロンプトする方法

推論モデルはシンプルで直接的なプロンプトで最も良いパフォーマンスを発揮します。一部のプロンプトエンジニアリング技術（例えば「ステップバイステップで考えるよう指示する」など）は、かえってパフォーマンスを低下させることがあります。以下のベストプラクティスを参考にしてください。

• 開発者メッセージを使用する: o1-2024-12-17 以降のモデルでは、システムメッセージではなく 開発者メッセージ を使用するのが推奨されます。
• プロンプトを簡潔かつ明確にする: シンプルで明確な指示を出すと、モデルの理解が向上します。
• 「ステップバイステップで考える」の使用を避ける: 推論モデルは内部で推論を行うため、明示的に指示しなくても適切に思考します。
• 区切り記号を使う: Markdown、XML タグ、セクションタイトルなどを使うと、入力の異なる部分を適切に解釈できます。
• ゼロショット（例なし）で試す: まずゼロショットで試し、必要なら少数の例（Few-shot）を追加してください。

その他のリソース

より詳しく学びたい場合は、以下のリソースを参照してください。これらには、実際のコード例やサードパーティのリソースへのリンクが含まれています。
• OpenAI Cookbook – 実例コードと推論モデルの活用法を紹介
• モデルの紹介 – OpenAI の各モデルの詳細
• 推論ガイド – oシリーズモデルの活用方法
• データ検証に推論を活用する方法
• 動画コース: o1 を使った推論
• 高度なプロンプト設計に関する研究論文

推論モデルとGPTモデルは、GPT5で統合されるとアナウンスされていて、今後はモデルを選択しなくても自動で選択されるようになるかもしれませんが、現状は、o1 / o3 とGPT4o / GPT4o-mini などどの場合で選択していいのか、とても参考になるドキュメントです。

少しでも、みなさんの参考になれば幸いです♪