見出し画像

ChatGPTのo3-miniモデルの性能は?実際に使ってみたレビュー


o3-miniとは?

OpenAI o3-miniは、OpenAIが2024年12月にプレビューを公開し、2025年1月末に正式リリースした新しい推論特化型モデルです。
STEM(科学・数学・プログラミング)分野の高度な問題を扱う一方で、コスト効率・応答速度の向上を実現しています。

ChatGPTだけでなく、APIでも利用可能です。

  • コスパ最強:GPT-4と比べ、トークン単価が大幅に安価。

  • 低レイテンシ:従来モデルの「o1-mini」よりも高速化し、応答速度が格段に向上。

  • STEMに強い:数学・コーディング・科学など、難易度の高い問題にも精度高く対応できる。

また、o3-miniはオプション設定(Reasoning Effort)で推論の深さを切り替えられるため、「速度重視」か「精度重視」かを使い分けられることも大きな特徴です。

o3-miniの主な特徴・性能

STEM領域への強み

o3-miniは、特に科学・数学・コーディングといったSTEM領域に強いモデルとして開発されました。以下のような検証データが示されています。

  • AIME(数学競技)での精度向上

  • PhDレベルの科学問題(GPQA Diamond)での高スコア

  • Codeforces(競技プログラミング)SWE-bench Verified(ソフトウェアエンジニアリング)での優れた結果

STEM領域とは?
STEM領域は、Science(科学)、Technology(技術)、Engineering(工学)、Mathematics(数学)の4分野からなり、これらを活用して技術革新や社会の問題解決を目指す分野です。

たとえばAIME(数学競技)2024の問題では、o3-mini(Highモード)は87.3%という非常に高い正答率を記録したとのこと。学術的・研究的な高度なタスクにも対応可能な実力がうかがえます。

数学競技


PhDレベルの科学問題


競技プログラミング

公式:https://openai.com/index/openai-o3-mini/

推論モード(Reasoning Effort)の選択

o3-miniでは、以下の3段階の推論モードを選ぶことができます。

  1. Low:応答速度を最優先したモード

  2. Medium:スピードと精度のバランスをとったモード

  3. High:より深い推論(時間はかかるが、高い正答率)

ChatGPT上でデフォルト設定されるのはMediumモードであり、速度と精度のバランスが良いとされています。ProユーザーであればHighモードを選択して、さらに高い知能レベルの回答を得られるのも魅力です。

高速応答・低レイテンシ

o3-miniは、従来のo1-miniと比較して平均24%高速化、時間にして平均2.5秒ほど高速化しているとのテスト結果があります。特にコーディングのようなやり取りが頻繁に発生するタスクでは、応答速度が作業効率に大きく影響するため、このレイテンシの低下は大きなメリットです。

また、最初のトークンが返ってくるまでの時間(time to first token)も大幅に短縮されているため、ストレスなくやり取りができます。

o3-miniを実際に使ってみた感想・レビュー

回答精度(特に数学・科学・コーディング)

STEM領域に強いという触れ込みどおり、数学や理科系の問題ではかなり高い精度で回答が返ってきます。コードの例示も整合性が取りやすく、特定のプログラミング言語を指定すると適切に記述してくれることが多かったです。

  • 数学問題:特に中〜上級レベルの問題でも正答率が高い

  • 科学系(物理・化学):専門用語や式展開などもわりと正確

  • コーディング:単純なサンプルコードから、少し複雑な関数設計のヒントまで的確

o3-miniにコーディングさせてみた

o3-miniとDeepSeek R1どちらがコーディングとして優れいているか試してみました。

実際にこのPromptを使って、p5jsで動かしてみました。(プロンプトはo1 Proが作成)

Write a p5.js script using createCanvas(windowWidth, windowHeight, WEBGL) that displays a rotating Earth as a thin white wireframe sphere with a transparent interior. Around this sphere, simulate bright, colorful satellites orbiting in stable paths. The simulation should start with just a few satellites, then gradually (and quickly) add more to reflect the ever-increasing number of orbiting objects. Each satellite should leave behind a faint, fading trail to show its recent path. Ensure the Earth itself rotates slowly and the satellites do not intersect with the sphere’s surface. Make sure the animation is smooth, with performance-optimized rendering for the wireframe Earth, satellite shapes, and their trails. Use clear comments to explain your approach.

o3-mini-highのコードが自分が再現したかったものになります。
o3-miniの時点でこれなので、さらに上位モデルが出てくると思うとワクワクしますね。

コーディングに関してはほとんどAIが書く時代になりそうです。


o3-miniと他モデル(o1・GPT-4など)との比較

o3-mini vs o1|どちらを使うべき?

o3-miniは、STEM分野での推論に強みがあり、コスパや速度も優れています。
一方、o1はより汎用的な知識を活かし、画像解析や幅広い会話に向いている印象です。科学的・数学的タスクが多い場合はo3-miniが最適ですが、ビジョン系のタスクや総合的な知識が必要な場合はo1がいいでしょう。

日本語性能としてはo3-miniはイマイチと声も多く、文章などのタスクに関しては依然としてo1の方が適しています。

ソース:https://cdn.openai.com/o3-mini-system-card.pdf

o3-mini vs o1-mini|性能・速度の違い

同じ「mini」シリーズながら、o3-miniはo1-miniよりも推論の深さや速度面で大幅に向上しています。

  • 推論精度:o3-mini(Medium)でo1と同程度

  • 速度:o1-miniと比べ平均で24%高速

  • 大きなエラー:39%減少

今後、o1-miniはo3-miniに置き換えられていく方針とのことなので、o3-miniが実質的な最上位のミニモデルとなります。

GPT-4や他モデルとの住み分け

GPT-4などの大規模モデルは、あらゆる領域で高精度な回答が期待できますが、コストや応答速度面で重くなるのがデメリット。その点、o3-miniはリーズナブルな価格でかつ早い処理を実現しており、STEM領域を中心とした業務効率化に最適です。大規模モデルと組み合わせて使うことでコストを抑えつつ、精度の高いアウトプットを得やすいというメリットがあります。

料金プラン|o3-miniは無料でも使える!

  • ChatGPT Plus/Team/Proユーザー:モデル選択で「o3-mini」を選択可能。

  • Proユーザー:Highモードも使用可能、かつ無制限。

  • 無料プランユーザー:メッセージ作成時に「Reason」を選択、または生成をやり直す時にo3-miniを試せる。

特に無料ユーザーでもo3-miniを試せるのは初の試みで、STEM分野に特化したモデルを気軽に体験できる点は嬉しいアップデートです。

APIなども安く提供されています。

よくある質問(FAQ)

o3-miniは画像解析に対応していますか?

A: いいえ。o3-miniはビジョン(画像解析)に対応していません。画像関連のタスクでは引き続きo1モデルの利用が推奨されています。

Freeプランでもo3-miniを使えますか?

A: はい。メッセージ作成時に「Reason」を選択する、またはレスポンスを再生成する際にo3-miniを選ぶことで無料ユーザーでも試せます。ただし、利用制限などは今後変更となる可能性があります。

まとめ

ChatGPTの新モデル「OpenAI o3-mini」は、

  • 数学や科学、コーディングといったSTEM分野に強みを持つ

  • 既存のo1-miniよりも高速かつ高精度

  • 言語・文章タスクは現時点ではo1の方が上

  • 無料ユーザーにも開放される

特に「Reasoning Effort(推論モード)」の切り替えが可能な点は大きな利点で、用途に応じて速度重視または精度重視を選べるのは画期的です。コストを抑えつつSTEMタスクを中心に使いたい場合は、間違いなく注目すべきモデルといえます。

一方で、画像解析が必要なケースやより広範な知識が求められるケースでは、従来のo1モデルやGPT-4との使い分けを検討するとよいでしょう。今後はエンタープライズ向け対応も進み、さらに利用できるシーンが拡大していくと予想されます。

いいなと思ったら応援しよう!