見出し画像

【学生全員見て】OpenAI最新小型推論モデル「o3‑mini」登場!

大学の期末に追われている今!2025年2月1日――OpenAIは、ChatGPTおよびAPI向けに最新の小型推論モデル「o3‑mini」を正式にリリースしました。今回のアップデートは、従来モデルに比べ推論速度・正確性を大幅に向上させるとともに、特に科学、数学、コーディングなどのSTEM分野での性能強化が際立っています。さらに、1トークンあたりのコストが約93%低減されるなど、コスト効率にも優れた進化を遂げています。

途中読むのだるい人は、6だけでも見て!!!!!



1. o3‑miniの基本スペック

  • リリース日: 2025年2月1日

  • 利用先: ChatGPT(Plus/Team/Pro/無料ユーザー)およびAPI

  • コンテキストウィンドウ: 200,000トークン

  • 最大出力トークン数: 100,000トークン

  • ナレッジカットオフ: 2023年10月

  • コスト面: 従来のモデルに比べ、1トークンあたりの価格が約93%低減


2. 主な特徴と革新ポイント

高速かつ高精度な推論

  • 推論速度の向上
    o3‑miniは従来の「o1」モデルに比べ、初回トークン生成までの時間が平均で約7.7秒(従来モデルは約10.16秒)と、約24%速い応答を実現しています。

  • 精度の大幅改善
    STEM領域においては、特に数学、科学、プログラミングタスクで正確性が大幅に向上。外部テスターの評価では、難解な実世界の問題に対して従来モデルよりも明瞭な回答を生成し、主要なエラーが約39%削減されています。

柔軟な推論努力オプション

  • 低・中・高の3段階選択
    利用ケースに合わせ、推論の深さを柔軟に設定可能です。中程度の設定では、速度と正確性のバランスが最適化され、必要に応じて「o3‑mini‑high」として高精度モードも利用できます。

  • 利用例: reasoning_effort パラメータ
    この例では、ユーザーが「再生可能エネルギー技術の最新動向について、短くまとめてください」と依頼しており、reasoning_effort パラメータを "medium" に設定することで、速度と精度のバランスが取れた回答を得ることができます。

import openai

# APIキーの設定(ご自身のキーに置き換えてください)
openai.api_key = "YOUR_API_KEY"

# ChatCompletionリクエストの作成
response = openai.ChatCompletion.create(
    model="o3-mini",
    messages=[
        {"role": "user", "content": "再生可能エネルギー技術の最新動向について、短くまとめてください。"}
    ],
    reasoning_effort="medium"  # 中程度の推論努力を指定
)

# 結果の出力
print(response.choices[0].message.content)

開発者向け新機能

  • 関数呼び出し機能
    外部ツールとの連携が可能となり、複雑な処理の自動化が実現します。

  • Structured Outputs & Developer Messages
    構造化された出力と詳細な開発者向けメッセージにより、API利用時の解析やデバッグが格段に容易に。

  • ストリーミング、Batch API、Assistants API への対応
    柔軟なAPIアクセスを実現し、実運用での利用シーンに合わせた拡張性を確保しています。APIはまず tiers 3~5 の開発者向けに提供され、今後順次対象が拡大される予定です。


3. STEM領域での圧倒的な性能

o3‑miniは、特に以下の分野でその実力を発揮しています:

  • 数学(AIME 2024)
    高精度モードでは87.3%の正答率を記録。競技数学の厳しい問題に対しても従来モデルを上回る性能を示しています。

  • 科学的推論(GPQA Diamond)
    博士レベルの難問に対し、79.7%の正答率を達成。高度な理論問題にも余裕で対応可能です。

  • プログラミング(Codeforces)
    Eloスコアが2130に到達。競技プログラミングタスクにおいても、従来のモデルを凌駕する結果を出しています。

外部テスターの評価では、実際のユーザー環境下でo3‑miniは多くのSTEMタスクにおいて、速度・正確性ともに非常に高いパフォーマンスを発揮していることが確認されています。


4. 利用開始時期と対象ユーザー

  • ChatGPT Plus / Team / Proユーザー
    本日より即時利用可能。さらに、1日あたりのメッセージ上限が従来の50から150に増加しています。

  • 無料ユーザー
    プロンプト入力欄下部の「Reason」ボタンから、o3‑miniをお試しいただけます。無料ユーザーにとって、初めてSTEM分野に特化した推論モデルを体験できる機会です。

  • Enterpriseユーザー
    約1週間以内に利用開始予定です。

  • API利用者
    tiers 3~5 の開発者向けにまず提供され、その後利用対象が順次拡大される計画です。API料金は従来モデルの10分の1未満に抑えられ、コスト面でも大きなメリットがあります。

ちなみに。

コレは実際ありがたい価格なのに、DeepSeekのV3の登場時の価格設定がやばすぎたせいで高く感じてしまう。 Input約1/100、アウトプット約1/20。


5. 安全性と今後の展望

  • 熟慮的アライメント(deliberative alignment)
    ユーザーのプロンプトに回答する前に、安全性仕様に基づいた推論を行うことで、困難な安全性やジャイルブレイク評価に対しても高い遵守性を実現しています。

  • 将来への展開
    OpenAIは、知性、効率、安全性のバランスを重視しながら、今後も高品質なAIモデルの提供を推進します。o3‑miniの登場は、低コストながら高性能なAIをより多くのユーザーに提供するための大きな一歩です。


6. 使ってみた

数学、化学、力学などの問題をぶち込み、検証を行った。

まずは数学。

整数𝑛に対して、𝑛^2−10𝑛+9=0を満たす𝑛の和を求めてください。証明プロセスも示してください。

回答:10

流石にね。

正解です。

簡単すぎたようなので、難しい問題を。ちなみにこの問題は、数学オリンピックの予想問題です。

どの桁に現れる数字も素数であるような正の整数を 素敵な数 とよぶ。3 桁の正の整数nであって、n+2024とn−34がともに素敵な数であるものはちょうど 2 つある。このようなnをすべて求めよ。

回答:309, 311

44秒の思考の末、、

怖い。

途中の回答は長くなるので掲載しませんが、正解です。。。

44秒でやばすぎだろって感じです。

続いて化学。

298.15 K における水の飽和蒸気圧は 23.76 mmHg である。298.15 K で湿度 60% の空気中へ 1 kg の水が蒸発する際の𝛥𝐺を求めよ。単位は kJ、有効数字は 3 桁とする。

回答:-70.4kJ

たまには間違えてもいいよ。

正解です。。。

もう一問。

アンモニア合成が平衡にある時、圧力が 10 倍になったら組成はどう変わるか。平衡定数 𝐾𝑥 の挙動で答えよ。

回答:100倍

やめて。

正解です。

続いて物理。

直接遷移型半導体が波長380 nmから750 nmの可視光線を 透過する(透明である)ためには、この半導体のエネルギーギャップは何eV以上であることが必要か。 計算には、光速c=2.998×10^8 m/s、 プランク定数 h=6.626×10^-34 J・sを用いなさい。 また、1 eV=1.602×10^-19 J である。

回答:3.26eV

まじ怖い

正解です。

もう一問

光速の50.0%の速さを有する電子のド・ブロイ波長を求めよ。計算は非相対論的および相対論的の両方について行うこと。
回答:非相対論的: λ≈4.85×10^−12 m
    相対論的: λ≈4.20×10^−12 m

全問正解。。。

正解です。

コードを書いてもらう


使ってみた感想

今まで、o1proで回答を待ってた時間は何だったんだってくらい、理系分野の問題に対して、精度高い上にめちゃくちゃ速いです。

ちなみに、o3mini-highだけでなく、o3mini、o1、DeepSeekR1にも同じ問題を解かせました。

以下が結果です。

記号の横の時間は推論時間です。
  • o3mini はほとんどの問題で数秒から十数秒程度と非常に速い反応を示しています。

  • R1 は同じ問題であってもほかのモデルより推論時間がかなり長い(たとえば数学2問目で256秒など)ケースが目立ちます。

  • o3mini-high と o1 は o3mini と R1 の中間程度の推論時間ですが,問題によっては o1 が o3mini-high よりも時間がかかったり,逆もあったりとばらつきがあります。

  • 特に R1 は正答率は高いものの推論時間が長く,逆に o3mini は非常に速い反面,他の問題では高い正答を維持しています。

  • 一方で o1 は最後の問題が△になるなど,やや安定性に欠ける面がうかがえます。(有効数字が適切ではなかったため△とした。)

結論

  • o3mini は「正解率が高くかつ推論が速い」という性能を示しているように見えます。

  • o3mini-high はすべての問題で正解を維持しつつ、o1 と同程度かそれよりやや速いケースがあるため、やはり精度と速度の両立が図られている印象です。

6. まとめ

OpenAIの最新小型推論モデル「o3‑mini」は、従来モデルに比べ圧倒的な速度と精度、特にSTEM分野における優れた推論能力を実現しています。柔軟な推論努力オプションや開発者向け新機能、さらに大幅なコスト削減を通じ、あらゆる利用シーンにおいて魅力的な選択肢となるでしょう。今後の展開にも大いに注目し、さらなる可能性を探っていくことが期待されます。

いいなと思ったら応援しよう!