OpenAIのChatGPT 4o、o1、o1 Pro Modeを徹底比較!実際、性能差はどのぐらい?
こんにちは!AI-Bridge Labのこばです!👋
2024年12月現在、OpenAIが開発するAIモデルも日々進化を遂げています。現在ChatGPTでは以下の最先端モデルが利用できます。
無料版でも利用可能な「ChatGPT 4o」
月額20ドルで利用可能な「o1」
そして月額200ドルで利用可能な「o1 Pro Mode」
これらのモデルはそれぞれ異なる特徴や性能を持っていますが、その違いについて理解しておくことは今後のAI活用にとって非常に大切な知識となるので、ぜひこの機会に学んでおくことをおすすめします!
そこで今回の記事では、これらの3つのモデルを比較し、それぞれの特徴、得意なタスク、6つの設問の回答を比較&解説します。
この記事を読めば、なぜo1シリーズやProプランが優れているのか、ChatGPTをどのようなケースでどのモデルを使うのが適しているのか、更に理解が深まるはずです。
1. 各モデルの概要と特徴
ChatGPT 4o
マルチモーダル対応(テキスト、画像、音声)で、50言語以上をサポート
応答速度が速く、APIの価格も以前の半額に
制限付きだが、無料版でも利用可能
ChatGPT o1
連鎖思考と呼ばれる方法(後述)で、高度な推論能力と問題解決能力に特化。
丁寧な処理を重視(回答生成に10-20秒)
数学やコーディングで特に高いパフォーマンス
月額20ドルのPlusプラン、25ドルのTeamsプラン、後述のProプランで利用可能。
o1 Pro Mode
ChatGPT Proプラン(月額$200)で利用可能
o1を更に超える高度な計算能力と信頼性
専門分野(データサイエンス、プログラミング、法務)に強み
各モデルの比較表
こちらの表をご覧頂いて分かる通り、4oはほかの2つに性能面で全て劣るわけではなく、マルチモーダル(多機能)性や応答速度の面で優れています。
適材適所でモデルを使い分けることで、欲しい回答を得ることができる確率が上がります。
o1のプレビューモデルo1-preview、o1、o1 Pro modeの数学、コーディング、科学問題に関する比較。previewモデルとo1 proとo1は大きく差があるように見えますが、o1とo1 pro modeの違いはどれほどなのでしょうか。
2.設問による比較
さて、ここからは実際の質問を通して、各モデルの性能を比較検証していきましょう。推論能力や文章の自然さなど、気になるポイントを6つの設問で多角的に評価していきます。
検証方法
ChatGPTなどの大規模言語モデル(LLM)は、回答の度に推論を行うため回答の質が変わります。そのため、各設問を3回繰り返して最も優れていると思われる回答を1つピックアップしていきます。
第1問:シンプルな推論問題
ChatGPT 4oの回答(回答部分のみ)
両方ともオレンジである確率は 2/15 または約 0.1333(13.33%) です。
o1の回答(回答部分のみ)
結論: 両方ともオレンジを引く確率は 2/15 です。
o1 Pro modeの回答(回答部分のみ)
両方ともオレンジである確率は 2/15です。
1-解説
いずれのモデルも正解しました。高度な計算能力を持っていることが分かります。特に目立った違いは見られませんでしたが4oはパーセント表示が添えられていることが多かったです。
第2問:文字列解析
ChatGPT 4oの回答(回答部分のみ)
"Strawberry" には 2個 の "r" が含まれています。
o1の回答(回答部分のみ)
"Strawberry" という単語には、r が 3回 含まれています。
o1 Pro modeの回答(回答部分のみ)
"Strawberry"には、"r" が3つ含まれています。
具体的には、単語中の3文字目、8文字目、9文字目が "r" にあたります。
2-解説
4oだけミスしました。おそらく、後ろの連続した「r」が読み取れていないため、2個までしかカウントできていないということだと思います。
o1シリーズのモデルには「連鎖思考(Chain of Thought)」という、繰り返し答えが正しいかをチェックする過程があるため、自らのミスに気が付きやすくこのようなミスを誘発する問題であっても正答を導きやすいです。
第3問:条件付きシフト作成タスク
ChatGPT 4oの回答(回答部分のみ)
o1の回答(回答部分のみ)
o1 Pro modeの回答(回答部分のみ)
3-解説
シフト作成タスクにおいては、4oはpythonコードを実行して回答を試みましたが、Eが抜けていたり、その他の回答でも条件の抜けが目立ちました。
一方、o1およびo1 proは条件に沿ったシフトの作成タスクをクリアできましたが、数回に1回、Cが土日も出勤する回答を出してきたことがありました。
これは不正解ではないですが、人員をバランスよく配置すべきという現実的な「より良い選択肢」を取りこぼしている可能性が考えられるので、実務で利用する場合はミスを前提に条件をしっかり設計して伝えることを心がけたいですね。
第4問:シンプルだが量の多い計算問題
数値リストは以下。合計値は53,700です。
ChatGPT 4oの回答(回答部分のみ)
これらの数値をすべて合計した結果は 53,700 です。
o1の回答(回答部分のみ)
合計は 53700 です。
o1 Pro modeの回答(回答部分のみ)
与えられた100個の整数の合計は 53700 となります。
4-解説
どのモデルも正解しました。ただ、印象的だったのは計算の過程の違いでした。
4oはマルチモーダル性を活かしてpythonスクリプトを作成して、値をそこに当てはめていくことで、いわゆる「電卓」を使って正解を導きました。
o1やo1 pro modeはPythonを使えない代わりに、地道に計算していく方法になるのですが、o1は回答の生成までに21秒、o1 Pro modeでは2分21秒かかりました。
単純な計算問題はExcelやスプレッドシートがあれば関数で一瞬で片付く問題ですが、o1 pro modeでは数字を言語的に処理していくため下図のように、計算ミスに気を付けながら少しずつ計算していっているのが分かります。
つまり、o1シリーズのモデルは高度な計算能力はありつつも、膨大な量の計算にはあまり向いていないことが分かります。
第5問:SNS投稿文作成問題
ChatGPT 4oの回答(回答部分のみ)
【新登場】季節限定『ふわふわパンケーキ』がついにお目見え!
口に入れた瞬間に溶ける食感と、ほんのり甘いメープルの香りが幸せを運びます。
寒い日のおともに、温かいドリンクと一緒にいかがですか?☕✨
o1の回答(回答部分のみ)
やっと届いた春の新作「ふわふわパンケーキ」、甘酸っぱいベリーととろけるクリームを添えて、
今朝からカフェに仲間入りしました!味わいに来てね。
o1 Pro modeの回答(回答部分のみ)
寒い季節には、甘い幸せをひと口。
冬限定の新作『ふわふわパンケーキ』がカフェに登場!
溶けるような軽やかさと優しい甘さ、ベリーソースの酸味が心まで満たします。
あったかい飲み物と一緒に、ぜひ。
5-解説
文字数制限や、基本的な要件はいずれもクリアしています。
どれも良いとは思いますが、4oは新作の告知としての分かりやすさはあると思いますが、少し一般的な内容で印象に残りづらいです。
o1は、「やっと届いた」などの期待感を煽ったり、「甘酸っぱい、とろける」など味や触感の表現など、より具体的で感覚に訴える表現を多用しています。また、最後の一文だけあえて敬語を使わないでキャッチーさを残すなど、バランス感覚が見られます。
o1 Pro modeは、4oとo1の良いとこどりをしたような表現や緩急が印象的です。「甘い幸せをひと口」などの柔らかい文章では、"一口"と書かず"ひと口"と漢字を開くなどのテクニックも見られます。一方で、「冬限定の新作『ふわふわパンケーキ』がカフェに登場!」はしっかりと情報が伝わるように強めの表現になっており、メリハリがあります。
o1シリーズ、特にo1 pro modeはキャッチコピーやSNS運用に適性がありそうです。
第6問:創作問題
ChatGPT 4oの回答(回答部分のみ)
紫陽花の花弁が、雨に濡れた時の記憶を一枚ずつめくるように、
古い時計塔の針が静かに時間を剥ぎ取る。
その足元で、風に乗ったささやき声が、
過去と未来の狭間に沈む秘密をそっと囁いていた。
o1の回答(回答部分のみ)
紫陽花の花弁が、濡れた石畳に眠るように沈黙を抱きしめる夕暮れ、
古い時計塔はかすれた秒針を潜ませ、ささやき声のような風が、時をほどいてゆく。
o1 Pro modeの回答(回答部分のみ)
雨滴を孕んだ紫陽花が、朽ちかけた石畳に寄り添うように伏し、
遠い昨日の夢をほの暗く揺らめかせていた。
古い時計塔の錆びつく歯車が、軋むたび、ささやき声のような響きが闇の肌理を潜り抜け、
刻む時間を幻へと解き放つ。
6-解説
全体的に高いレベルで課題をクリアしているように見えます。
ただ、ここでもo1 Pro modeは情景描写の豊かさ、詩的な表現、そして構成力が特に優れています。
「雨雫を孕んだ紫陽花が、朽ちかけた石畳に寄り添うように伏し」など、視覚的にイメージしやすく、最初に情景が浮かびます。
また、「古い時計塔」と「ささやき声」が自然に連携されている文章の構成力も見事です。
3.まとめ
ここまで6つの設問を通して、ChatGPT 4o、ChatGPT o1、o1 Pro Modeという3種のモデルを比較しました。その結果、それぞれのモデルには異なる得意分野や特性があることが浮き彫りとなりました。
ChatGPT 4o:
無料版でも使える手軽さが魅力で、マルチモーダル対応や応答速度といった利点があります。計算問題では即座にPythonコードを提案するなど実行力がありましたが、文字カウントのような基本的タスクで誤りを見せる場面もありました。文章作成タスクでは無難な表現が得意な傾向が見られます。ChatGPT o1:
「連鎖思考(Chain of Thought)」による論理チェック機能が、基本的なテキスト処理や条件付きタスクでの精度向上につながっています。文字列数えなどの単純な問題でも正確性が高く、シフト表作成や味わいを訴求するSNS文面など、やや複雑な条件や情感を伴うタスクでも安定した品質を示しました。o1 Pro Mode:
専門性の高い領域や複雑なタスクにおいてさらに高い信頼性を発揮します。計算やプログラミング、データサイエンス領域などの専門分野に強く、表現力や芸術性を求められる文章生成でも詩的な奥行きを持たせるなど、ワンランク上の応用力を見せました。
総合して、
4oは軽量で素早い応答とマルチモーダル性が利点
o1は整合性や正確性、実用的なレベルでの応答品質
o1 Pro Modeはo1の品質に加えて豊かな表現力、より精緻な応答品質
といった方向性が見えてきます。
何を求めてChatGPTを使うかによって最適なモデルは変わります。ライトユーザーであれば4oが手軽で十分かもしれませんし、精度と論理性を重視するならo1、さらなる専門性や創造的な文章生成が求められるならo1 Pro Modeを検討してみるとよいでしょう。
この記事が皆さんのAI活用のヒントになれば幸いです。
4.AI-Bridge Labについて
AI-Bridge Labは、最新のAI技術とその活用方法について情報を発信し、企業のDX実現をサポートしています。AIを活用したソリューションや人材育成にご興味があれば、お気軽にご連絡ください!
最後まで読んでいただき、ありがとうございました。この記事が皆さまのAI活用の一助となれば幸いです。😄