ChatGPTモデル「o3-mini」と「o3-mini-high」を用いたプログラミング支援の性能評価

2025年2月26日 18:40

概要

本稿では、近年注目を集める自然言語処理モデルの一端として、ChatGPTの「o3-mini」および「o3-mini-high」を用いたプログラミング支援の実験結果を報告する。

従来モデルである「4o」や「o1」との比較検証を通じ、各モデルの適用範囲や生成コードの正確性、動作の安定性について評価した。

結果として、o3-miniは小規模プログラム向けであり、プログラム規模が拡大すると動作が不安定になる一方、o3-mini-highは中規模から一定規模のシステム構築において安定した性能を示すことが明らかとなった。

自然言語処理の進展は、プログラミング支援ツールとしても大きな注目を浴びるようになった。

これまで「4o」や「o1」などのモデルが利用されてきたが、最近では「o3-mini」および「o3-mini-high」が、特にSTEM分野での応用可能性を示している。

本稿では、これら新モデルを対象に、プログラミングタスクにおけるコード生成性能と動作の安定性について検証を行い、その特性を明らかにすることを目的とする。

各モデルに対して、以下のタスクを実施した。

o3-mini・o3-mini-high：どちらのモデルも、単純なアルゴリズムの実装において高い正確性を示した。特にo3-miniは高速な応答を実現しており、手軽なコード生成が可能である。
4o / o1：基本タスクでは大きな問題は見られたものの、時折意図しない解釈が生じるケースがあった。

本実験により、以下の知見が得られた。

o3-miniは、小規模なプログラム生成においては非常に有用であり、高速なコード生成を実現するが、プログラム規模が拡大すると動作の不安定性が問題となる。
o3-mini-highは、中規模から一定規模のシステム構築において、より高い正確性と安定性を示す。しかし、計算資源の消費や応答速度の低下といった点は今後の改善課題である。
従来の4o / o1モデルは、汎用性はあるものの、特に複雑なタスクにおいて誤った解釈を行うリスクが高く、今回の実験結果からは限定的な利用が推奨される。

以上の結果から、プロジェクトの規模や要求に応じたモデル選択が重要であり、特に安定性と正確性が求められる中～大規模システム構築には、o3-mini-highの採用が有望であると考えられる。

本稿は、note上で活動する技術者「まる」として、実際のプログラミング支援タスクに基づく検証結果を元に作成したものである。
皆様からのご意見・ご感想をもとに、今後もより良い技術情報の発信を目指してまいりたい。