見出し画像

OpenAIのChatGPT 4o、o1、o1 Pro Modeを徹底比較!実際、性能差はどのぐらい?

こんにちは!AI-Bridge Labのこばです!👋
2024年12月現在、OpenAIが開発するAIモデルも日々進化を遂げています。現在ChatGPTでは以下の最先端モデルが利用できます。

  • 無料版でも利用可能な「ChatGPT 4o」

  • 月額20ドルで利用可能な「o1」

  • そして月額200ドルで利用可能な「o1 Pro Mode」

これらのモデルはそれぞれ異なる特徴や性能を持っていますが、その違いについて理解しておくことは今後のAI活用にとって非常に大切な知識となるので、ぜひこの機会に学んでおくことをおすすめします!

そこで今回の記事では、これらの3つのモデルを比較し、それぞれの特徴、得意なタスク、6つの設問の回答を比較&解説します。
この記事を読めば、なぜo1シリーズやProプランが優れているのか、ChatGPTをどのようなケースでどのモデルを使うのが適しているのか、更に理解が深まるはずです。



1. 各モデルの概要と特徴

ChatGPT 4o

  • マルチモーダル対応(テキスト、画像、音声)で、50言語以上をサポート

  • 応答速度が速く、APIの価格も以前の半額に

  • 制限付きだが、無料版でも利用可能

ChatGPT o1

  • 連鎖思考と呼ばれる方法(後述)で、高度な推論能力と問題解決能力に特化。

  • 丁寧な処理を重視(回答生成に10-20秒)

  • 数学やコーディングで特に高いパフォーマンス

  • 月額20ドルのPlusプラン、25ドルのTeamsプラン、後述のProプランで利用可能。

o1 Pro Mode

  • ChatGPT Proプラン(月額$200)で利用可能

  • o1を更に超える高度な計算能力と信頼性

  • 専門分野(データサイエンス、プログラミング、法務)に強み

各モデルの比較表

こちらの表をご覧頂いて分かる通り、4oはほかの2つに性能面で全て劣るわけではなく、マルチモーダル(多機能)性や応答速度の面で優れています。
適材適所でモデルを使い分けることで、欲しい回答を得ることができる確率が上がります。

ChatGPTの画面上部のモデル名の部分から適用するモデルを切り替えることで、途中からo1に変更することもできます(Web検索やCanvasなどの機能を利用している状態ではo1やo1 Proに切り替えできません。)

o1のプレビューモデルo1-preview、o1、o1 Pro modeの数学、コーディング、科学問題に関する比較。previewモデルとo1 proとo1は大きく差があるように見えますが、o1とo1 pro modeの違いはどれほどなのでしょうか。

引用元:https://openai.com/index/introducing-chatgpt-pro/

2.設問による比較

さて、ここからは実際の質問を通して、各モデルの性能を比較検証していきましょう。推論能力や文章の自然さなど、気になるポイントを6つの設問で多角的に評価していきます。

検証方法

ChatGPTなどの大規模言語モデル(LLM)は、回答の度に推論を行うため回答の質が変わります。そのため、各設問を3回繰り返して最も優れていると思われる回答を1つピックアップしていきます。


第1問:シンプルな推論問題

あるバスケットにリンゴが6つ、オレンジが4つ入っています。ここから果物を2つ無作為に取り出したとき、両方ともオレンジである確率は何でしょうか?

ポイント:この問題は、一見シンプルな計算問題に見えますが、実は「組み合わせ」と「確率」の考え方が必要です。AIが、ただ計算するだけでなく、問題文から必要な情報を抜き出して論理的に考える力、つまり「初歩的な推論能力」を持っているかどうかが試されます。この手の問題は、AIの「考える力」の差が出やすい、いわば基礎学力テストのようなものです。

ChatGPT 4oの回答(回答部分のみ)

両方ともオレンジである確率は 2/15 または約 0.1333(13.33%) です。

o1の回答(回答部分のみ)

結論: 両方ともオレンジを引く確率は  2/15 です。

o1 Pro modeの回答(回答部分のみ)

両方ともオレンジである確率は 2/15です。

1-解説

いずれのモデルも正解しました。高度な計算能力を持っていることが分かります。特に目立った違いは見られませんでしたが4oはパーセント表示が添えられていることが多かったです。


第2問:文字列解析

単語『strawberry』にはアルファベットの’r’が何文字含まれていますか?

ポイント:一見、非常に単純な質問で、答えは数字一つで済みます。しかし、この問題の真の狙いは、AIが「正確に文字を数える」という、基本的かつ重要なタスクをこなせるかどうかを見極めることです。人間にとっては簡単でも、AIにとっては「文字を正確に認識し、数える」という処理が必要で、ここでミスをするケースも少なくありません。他の複雑な問題と組み合わせることで、AIの「正確さ」や「基礎的なテキスト処理能力」を、より多角的に評価することができます。

ChatGPT 4oの回答(回答部分のみ)

"Strawberry" には 2個 の "r" が含まれています。

o1の回答(回答部分のみ)

"Strawberry" という単語には、r が 3回 含まれています。

o1 Pro modeの回答(回答部分のみ)

"Strawberry"には、"r"3つ含まれています。
具体的には、単語中の3文字目、8文字目、9文字目が "r" にあたります。

2-解説

4oだけミスしました。おそらく、後ろの連続した「r」が読み取れていないため、2個までしかカウントできていないということだと思います。
o1シリーズのモデルには「連鎖思考(Chain of Thought)」という、繰り返し答えが正しいかをチェックする過程があるため、自らのミスに気が付きやすくこのようなミスを誘発する問題であっても正答を導きやすいです。


第3問:条件付きシフト作成タスク

5人の従業員 A, B, C, D, E がいます。1週間は月~日(7日間)とし、毎日2名ずつシフトに入れます。以下の条件を考慮してシフト表を作成してください。

・AとBは週に合計5日以上勤務したくない(例えば2人合わせて5日以内)。
・Cは平日は毎朝シフト入り(午前だけ働くと仮定、割当は1日分とカウント)を希望。
・DとEは土日は休みたい。
これらを踏まえ、月~日を埋めて、各日2名ずつ割り当てたシフト表を提示してください。

ポイント:この問題は、複数の条件を同時に満たすように、パズルのピースをはめていくような複雑さが求められます。5人×7日分のシフトを、全員の希望を考慮しながら、矛盾なく、もれなく埋めなければなりません。AIが、与えられた条件を正確に理解し、論理的に最適な組み合わせを導き出す「プランニング能力」や「最適化能力」、そして全体の「論理的整合性」が試されます。人間でも頭を悩ませる、実用性のある難問です。

ChatGPT 4oの回答(回答部分のみ)

Eが抜けています。

o1の回答(回答部分のみ)

A,Bが休日しか出勤しないのはバランス的にみて少し気になりますが、条件はクリアしています。

o1 Pro modeの回答(回答部分のみ)

o1と同じ回答になりました。

3-解説

シフト作成タスクにおいては、4oはpythonコードを実行して回答を試みましたが、Eが抜けていたり、その他の回答でも条件の抜けが目立ちました。
一方、o1およびo1 proは条件に沿ったシフトの作成タスクをクリアできましたが、数回に1回、Cが土日も出勤する回答を出してきたことがありました。

これは不正解ではないですが、人員をバランスよく配置すべきという現実的な「より良い選択肢」を取りこぼしている可能性が考えられるので、実務で利用する場合はミスを前提に条件をしっかり設計して伝えることを心がけたいですね。


第4問:シンプルだが量の多い計算問題

以下に100個の3桁の整数を示します(数値リスト)。これらをすべて合計した結果を求めてください。

ポイント:一つ一つは単純な足し算ですが、100個もあれば人間が瞬時に計算するのは大変です。大規模言語モデルは言語処理に特化しているため、一見高性能なモデルでも数学能力が低ければミスが起きやすいです。

数値リストは以下。合計値は53,700です。

ChatGPT 4oの回答(回答部分のみ)

これらの数値をすべて合計した結果は 53,700 です。

o1の回答(回答部分のみ)

合計は 53700 です。

o1 Pro modeの回答(回答部分のみ)

与えられた100個の整数の合計は 53700 となります。

4-解説

どのモデルも正解しました。ただ、印象的だったのは計算の過程の違いでした。
4oはマルチモーダル性を活かしてpythonスクリプトを作成して、値をそこに当てはめていくことで、いわゆる「電卓」を使って正解を導きました。
o1やo1 pro modeはPythonを使えない代わりに、地道に計算していく方法になるのですが、o1は回答の生成までに21秒、o1 Pro modeでは2分21秒かかりました。

単純な計算問題はExcelやスプレッドシートがあれば関数で一瞬で片付く問題ですが、o1 pro modeでは数字を言語的に処理していくため下図のように、計算ミスに気を付けながら少しずつ計算していっているのが分かります。

つまり、o1シリーズのモデルは高度な計算能力はありつつも、膨大な量の計算にはあまり向いていないことが分かります。

これを10ブロックずつ行って、最終結論を出しました。

第5問:SNS投稿文作成問題

あなたは新作の季節限定カフェメニューを紹介するSNSアカウントの運営者です。150文字以内で、自然な人間らしさを感じる投稿文を書いてください。感嘆符や絵文字の使用は任意。新メニューである『ふわふわパンケーキ』を美味しそうに紹介してください。

ポイント:短い文章で、要件もハッキリしているので、AIの「文章力」がストレートに評価できる問題です。まるで人間が書いたような自然さがあるか、限られた文字数で商品の魅力を伝えられるかなど、「文章の巧みさ」が問われます。AIが生み出す言葉のセンス、表現力の豊かさをじっくりと比較してみます。

ChatGPT 4oの回答(回答部分のみ)

【新登場】季節限定『ふわふわパンケーキ』がついにお目見え!
口に入れた瞬間に溶ける食感と、ほんのり甘いメープルの香りが幸せを運びます。
寒い日のおともに、温かいドリンクと一緒にいかがですか?☕✨

o1の回答(回答部分のみ)

やっと届いた春の新作「ふわふわパンケーキ」、甘酸っぱいベリーととろけるクリームを添えて、
今朝からカフェに仲間入りしました!味わいに来てね。

o1 Pro modeの回答(回答部分のみ)

寒い季節には、甘い幸せをひと口。
冬限定の新作『ふわふわパンケーキ』がカフェに登場!
溶けるような軽やかさと優しい甘さ、ベリーソースの酸味が心まで満たします。
あったかい飲み物と一緒に、ぜひ。

5-解説

文字数制限や、基本的な要件はいずれもクリアしています。
どれも良いとは思いますが、4oは新作の告知としての分かりやすさはあると思いますが、少し一般的な内容で印象に残りづらいです。
o1は、「やっと届いた」などの期待感を煽ったり、「甘酸っぱい、とろける」など味や触感の表現など、より具体的で感覚に訴える表現を多用しています。また、最後の一文だけあえて敬語を使わないでキャッチーさを残すなど、バランス感覚が見られます。
o1 Pro modeは、4oとo1の良いとこどりをしたような表現や緩急が印象的です。「甘い幸せをひと口」などの柔らかい文章では、"一口"と書かず"ひと口"と漢字を開くなどのテクニックも見られます。一方で、「冬限定の新作『ふわふわパンケーキ』がカフェに登場!」はしっかりと情報が伝わるように強めの表現になっており、メリハリがあります。

o1シリーズ、特にo1 pro modeはキャッチコピーやSNS運用に適性がありそうです。


第6問:創作問題

以下の3つのキーワード『紫陽花』『古い時計塔』『ささやき声』をすべて含めて、短編小説の冒頭2行分を詩的で比喩的な表現で書いてください。

ポイント:AIの「芸術的センス」が試される、創作問題と言えるでしょう。3つのキーワードを自然に文章に織り込みながら、詩的で美しい情景を描けるかどうかを問います。
AIの「創造力」、言葉選びのセンス、そして「指示通りに文章を生成する能力」の差をチェックします。

ChatGPT 4oの回答(回答部分のみ)

紫陽花の花弁が、雨に濡れた時の記憶を一枚ずつめくるように、
古い時計塔の針が静かに時間を剥ぎ取る。
その足元で、風に乗ったささやき声が、
過去と未来の狭間に沈む秘密をそっと囁いていた。

o1の回答(回答部分のみ)

紫陽花の花弁が、濡れた石畳に眠るように沈黙を抱きしめる夕暮れ、
古い時計塔はかすれた秒針を潜ませ、ささやき声のような風が、時をほどいてゆく。

o1 Pro modeの回答(回答部分のみ)

雨滴を孕んだ紫陽花が、朽ちかけた石畳に寄り添うように伏し、
遠い昨日の夢をほの暗く揺らめかせていた。
古い時計塔の錆びつく歯車が、軋むたび、ささやき声のような響きが闇の肌理を潜り抜け、
刻む時間を幻へと解き放つ。

6-解説

全体的に高いレベルで課題をクリアしているように見えます。
ただ、ここでもo1 Pro modeは情景描写の豊かさ、詩的な表現、そして構成力が特に優れています。
「雨雫を孕んだ紫陽花が、朽ちかけた石畳に寄り添うように伏し」など、視覚的にイメージしやすく、最初に情景が浮かびます。
また、「古い時計塔」と「ささやき声」が自然に連携されている文章の構成力も見事です。


3.まとめ

ここまで6つの設問を通して、ChatGPT 4o、ChatGPT o1、o1 Pro Modeという3種のモデルを比較しました。その結果、それぞれのモデルには異なる得意分野や特性があることが浮き彫りとなりました。

  • ChatGPT 4o:
    無料版でも使える手軽さが魅力で、マルチモーダル対応や応答速度といった利点があります。計算問題では即座にPythonコードを提案するなど実行力がありましたが、文字カウントのような基本的タスクで誤りを見せる場面もありました。文章作成タスクでは無難な表現が得意な傾向が見られます。

  • ChatGPT o1:
    「連鎖思考(Chain of Thought)」による論理チェック機能が、基本的なテキスト処理や条件付きタスクでの精度向上につながっています。文字列数えなどの単純な問題でも正確性が高く、シフト表作成や味わいを訴求するSNS文面など、やや複雑な条件や情感を伴うタスクでも安定した品質を示しました。

  • o1 Pro Mode:
    専門性の高い領域や複雑なタスクにおいてさらに高い信頼性を発揮します。計算やプログラミング、データサイエンス領域などの専門分野に強く、表現力や芸術性を求められる文章生成でも詩的な奥行きを持たせるなど、ワンランク上の応用力を見せました。

総合して、

  • 4oは軽量で素早い応答とマルチモーダル性が利点

  • o1は整合性や正確性、実用的なレベルでの応答品質

  • o1 Pro Modeはo1の品質に加えて豊かな表現力、より精緻な応答品質
    といった方向性が見えてきます。

何を求めてChatGPTを使うかによって最適なモデルは変わります。ライトユーザーであれば4oが手軽で十分かもしれませんし、精度と論理性を重視するならo1、さらなる専門性や創造的な文章生成が求められるならo1 Pro Modeを検討してみるとよいでしょう。

この記事が皆さんのAI活用のヒントになれば幸いです。

4.AI-Bridge Labについて

AI-Bridge Labは、最新のAI技術とその活用方法について情報を発信し、企業のDX実現をサポートしています。AIを活用したソリューションや人材育成にご興味があれば、お気軽にご連絡ください!

メール:ai_business@doerstokyo.jp

最後まで読んでいただき、ありがとうございました。この記事が皆さまのAI活用の一助となれば幸いです。😄


いいなと思ったら応援しよう!

AI-Bridge Lab
皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!