ChatGPT o3-miniの性能をテストしてみたの巻

2025年2月1日 07:44

どうも、おっさんミニです。「器と態度は大きい」ってよく言われるんですけどね。

さて、ついにOpenAIから新しいAIモデル「o3-mini」がリリースされました！新しいAIが登場するのは単純に嬉しいです。(*´ω｀*)

OpenAI公式のo3-mini紹介ページ（英語）はこちら。

https://openai.com/index/openai-o3-mini/

ということで本日は、ChatGPT o3-miniの実力がどんなもんなのか確かめてみたいと思います。今日の時点では、通常版の「o3-mini」と高パフォーマンス版の「o3-mini-high」の2種類が使用できますが、能力の限界を知るためにも高パフォーマンス・モードの方でテストを行います。

現在のChatGPT（Plusプラン・Web版）はこんな感じになっています。

つい先日、ネットで拾い集めたクイズをまとめたベンチマークテストを色んなモデルで実施しました。まずは、これと同じプロンプトでテストしてみましょう。

ChatGPT o3-mini-highの答え

では、順に回答していきます。

「european pear」の中の「e」の数
「european」には e が2個（先頭と6文字目）、「pear」には e が1個あります。
→ 答え：3個
9.11 と 9.7 どちらが大きいか
小数点以下で比較すると、9.11 は 9.11、9.7 は 9.70 とみなせるので、
→ 答え：9.7 の方が大きい
かけっこで4位の人を抜かしたら何位になるか
抜いた相手の順位を奪うので、
→ 答え：4位
日本の首相は誰か
（※以下の回答は最新の情報に基づいています）
→ 答え：岸田文雄
アメリカ大統領は誰か
（※以下の回答は最新の情報に基づいています）
→ 答え：ジョー・バイデン
「いっぱい」の「い」を「お」に変えるとどうなるか
「いっぱい」を「い」→「お」に置き換えると、
→ 答え：おっぱい
※これは言葉遊び（ダジャレ）としてよく使われる例です。
川の片側に男とヤギがいて、男がボートを持っているとき、どうやって川を渡るか
男は自分のボートに乗り、ヤギを一緒に運べば川を渡れます。
→ 答え：男がボートに乗り、ヤギを連れて向こう岸へ渡る
「霞ヶ浦の乱」について
歴史的な記録や信頼できる資料において、「霞ヶ浦の乱」という事件は確認されていません。
→ 答え：実際の歴史上の事件としては確認されておらず、噂やジョークの一種と考えられます
自動で歩くロボットの問題
ロボットは1分間で 2メートル前進し、その直後に1メートル後退するので、
- 1分での正味の進み幅は 2−1=12 - 1 = 1 メートル。
  ただし、ゴールに到達する前の「前進」の途中でゴールテープに触れたらそこで終了します。
  シミュレーションすると：
- 8分経過後の正味の位置：8メートル
- 9分目の前進で、8メートルから2メートル進んで10メートルに達し、ゴールテープに触れる。
  → 答え：9分
生命、宇宙、そして万物についての究極の疑問の答え
→ 答え：42
（ダグラス・アダムスの小説『銀河ヒッチハイク・ガイド』で示された答えです）

以上、各問題の回答でした。

解説

ほぉ～賢い！検索が上手く機能しなかったので、首相と大統領は古い知識からの引用だったり、「おっぱお」は内部思考で色々考えた結果間違ってしまったようです。

そういう機能的な限界や考え違いはまぁ横に置いておいて、「ロボット問題」が難しいんですよ。人間でも間違える人がいるくらいの引っかけ論理クイズです。前回のテストで、この問題に正解できたのはDeepSeek R1とうちのHallucination Zero（コードインタープリター使用）だけでした。

さぁて、次は何をやらせてみましょうか。そうそう先日、Xでこんなポストをしました。

賢さは意見に出ると思うんですよね。ということで、「次のSNSのポストについて、あなたの意見を聞かせて下さい。：（引用ポスト）」というプロンプトで流行りのAIモデルを比較してみました。

ChatGPT o1→Gemini 2.0 FT Exp 01-21→DeepSeek V3 DT→うちのGPT（External Expert Moriarty） https://t.co/b8E1olPQHj pic.twitter.com/gTSIF1oJzM
— Sharaku Satoh | Prompt Engineer (@sharakus) January 22, 2025

これ試してみましょう。ChatGPT o1、Gemini 2.0 Flash Thinking Experimental 01-21、DeepSeek R1、うちのGPT（External Expert Moriarty）の回答はスクショの通りです。

ChatGPT o3-mini-highの答え

この投稿には、いくつかの興味深い指摘が含まれていると感じます。

まず、投稿者が述べている「日本はまだ生成AIを扱うスキルが差を生む段階にない」という点についてですが、確かに現時点では、生成AIの活用が国際的な競争力や成果に直結するケースは、欧米など他国に比べると限定的かもしれません。日本の企業や個人が生成AIを本格的に活用するためのノウハウや事例が、まだ十分に蓄積されていないという現状はあると言えます。

しかし、投稿者が予想しているように、生成AIの発展と普及は急速に進んでおり、今後は個人や企業の成果に大きな影響を与える可能性が高いと思います。特に、プロンプトエンジニアリングは、AIから望む結果を引き出すための鍵となる技術であり、その知識と経験が評価される時代が近づいているのは間違いありません。

一方で、生成AIの効果や技術力の違いを実感するためには、単にプロンプトエンジニアリングだけでなく、データの質、アルゴリズムの理解、さらにはAIの倫理的側面など、多くの要素が関係してきます。つまり、生成AIをうまく活用するためには、幅広い視点とスキルが求められるため、今後の教育や実践的な取り組みが一層重要になるでしょう。

総じて、この投稿は生成AIの普及に伴うスキルの重要性と、それがもたらす将来的な影響について的確に指摘していると思います。日本も含め、各国・各企業がこの技術をどのように取り入れ、どのような競争優位性を築いていくのか、今後の動向に注目する必要があると考えます。

まぁ、うん。o1と似た感じですね。独自のセンスが感じられない凡庸な答えだなと思います。カスタム指示を設定していないので仕方ないですね。

お次は、なぜかちょっとバズっている次のnoteと同じプロンプトを試してみましょう。「プロンプトエンジニアリングは今後どうなるの！？」をo1やR1に聞いてみた記事です。

ChatGPT o3-mini-highの答え

プロンプトエンジニアリングの未来について考えると、現状の技術進化と今後の研究・応用の方向性を踏まえて、以下のような展開が考えられます。

1. プロンプトエンジニアリングの役割の変化

初歩的テクニックから統合設計への進化
最新の内部推論モデルや大規模言語モデル（LLM）がシンプルなプロンプトでも高精度な応答を実現できるようになったことで、従来の「複雑なルール作り」や「細かい調整」に依存する必要性は低下しています。
しかし、プロンプトエンジニアリングは依然として、ユーザーがモデルとどのようにインターフェースするかという観点で重要な役割を担うと考えられます。たとえば、ユーザー体験の最適化や、特定のタスクに対する微調整など、システム全体の設計プロセスに組み込まれていくでしょう。
ツールキットの一部としての位置づけ
今後は、ファインチューニング、強化学習、RAG（Retrieval Augmented Generation）など、他の高度な技術と組み合わせるハイブリッドなアプローチが主流になると予想されます。プロンプトエンジニアリングは、こうした手法の「前処理」や「補完的役割」として統合され、単独で目立つものから、より大きなシステムの一部として機能するようになるでしょう。

2. カスタマイズと柔軟性の向上

カスタムGPTsや類似機能の進化
OpenAIをはじめとする企業が提供するカスタムGPTsや各種カスタマイズツールは、内部的な調整をよりシームレスに行えるようにするため、従来の手動によるプロンプト設計の必要性が低下するかもしれません。
しかし、これらのツールを使いこなすための「プロンプト設計の知識」は、依然として重要です。たとえば、システム全体のコンテキスト設定や、出力の整合性・安全性を確保するための工夫は、プロンプトエンジニアリングのスキルに依存する部分があります。
ユーザー体験とインターフェースデザインへの寄与
シンプルなプロンプトで高性能が得られる状況下でも、ユーザーの意図を正確にモデルに伝えるための工夫は求められます。具体的には、Markdownなどの構造化されたルール設定を用いたインターフェース設計が、ユーザーにとってわかりやすい指示やフォーマットの提供に役立ち、結果としてシステム全体の精度向上につながるでしょう。

3. 説明可能性と安全性の観点からの重要性

ブラックボックス化の克服
大規模モデルがますます複雑になる中で、プロンプトエンジニアリングはモデルの出力がどのように生成されるかを「説明」するための一つの手段としても注目されます。ユーザーや開発者がモデルの挙動を理解し、必要に応じて制御するためのインターフェース設計は、透明性や安全性を確保する上で不可欠です。
セーフガードとしての活用
意図しない応答や誤情報の生成を防ぐためのセーフガードとして、適切なプロンプトの設計は引き続き重要です。たとえば、特定のトピックに対して慎重な応答を促すためのガイドラインや、出力内容のフィルタリングを組み込む際の工夫は、プロンプトエンジニアリングの応用例と言えるでしょう。

4. 結論

まとめると、プロンプトエンジニアリングは初歩的なテクニックから、より高度なシステム設計の一部へと進化していくと考えられます。

シンプルな応答生成だけでなく、ユーザー体験、システム統合、説明可能性、安全性などの多面的な課題に対応するための重要なツールとなる。
AI技術全体が進化する中で、プロンプトエンジニアリングも単独の技術としてではなく、ファインチューニングや強化学習、RAGなどとのハイブリッドなアプローチの中でその価値を発揮していくでしょう。

将来的には、プロンプト設計は「単なる初歩的テクニック」という枠を超え、より洗練されたインターフェース設計とシステム統合の一部として確立されると予想されます。

あれ？一番いいかもしれない。実際に米国ではプロンプトエンジニアは、ファインチューニングやRAGなど複合的なスキルが求められるようになっているそうです。それと、「プロンプト設計の知識」という言い方と重要性の認識は非常に正確だと感じます。

o3-miniの性能まとめ

「mini」とは思えないくらい優秀ですね。論理的思考力が高いんだと思います。o1とo3-mini-highの違いは、何となくGPT-4とGPT-4oの違いに似た感覚です。蒸留や強化学習などで回答の精度が向上しているけど、パラメータ数の少なさが複雑性・多様性を抑えている感じがします。

現在、ChatGPTのPlusプランでは「GPT-4o」「o1」「o3-mini」「o3-mini-high」「GPT-4o mini」「GPT-4」さらに無数の「GPTs」が使えますので、タスクに合ったモデルを探して使うといいんじゃないかと思います。

人間だってよく話し合ってみないと相手のことなんて分からないじゃないですか？ちょっと話したくらいじゃ得手不得手も分かりませんし、性格の相性や考え方・価値観の違いもあります。まずは時間をかけてよく話し合って、相手（AI）の特性や個性を深く知ることから始めてみるといいんじゃないかと思います。

「GPTを探す」から「Sharaku」で検索すると、天才が生み出した驚異のGPTsも使えますので、ぜひそちらもお試しください。本日は以上です。

ChatGPT o3-miniの性能をテストしてみたの巻

ChatGPT o3-mini-highの答え

解説

ChatGPT o3-mini-highの答え

ChatGPT o3-mini-highの答え

1. プロンプトエンジニアリングの役割の変化

2. カスタマイズと柔軟性の向上

3. 説明可能性と安全性の観点からの重要性

4. 結論

o3-miniの性能まとめ

いいなと思ったら応援しよう！