5月13日、OpenAIがChatGPTの新モデル「GPT-4o(オムニ)」を発表しました。
GPT-4oの特徴としては、テキスト、画像、音声を一つのモデルで扱うマルチモーダル性能の高さや処理速度の向上が挙げられています。また、以下のOpenAIの資料を見ると、テキストの性能も他のLLMより高いようです。
今回、実際にGPT-4oの性能がどの程度なのか、従来のGPT-4(GPT-4 Turbo)と比較してみることにしました。
なお、GPT-4oとGPT-4は、ChatGPTの操作画面で簡単に切り替えることができます(以下の図参照)。
また、以下のようにChatGPTの回答の後の星印をクリックしてモデルを切り替え、同じ質問に答えさせることもできます。
1.モデルについての質問
最初にモデルの詳細について聞いてみました。
区別するため、GPT-4oは「オムニ」、従来のGPT-4は「旧モデル」と呼びます。
① オムニの回答
筆者のコメント:モデルはGPT-4だと答えます。特にGPT-4oだとは言わないようです。
筆者のコメント:GPT-4 Turboのように2023年12月ではなく、2023年10月が期限のようです。
筆者コメント:今回は、自分がGPT-4oであると認めましたが、否定する時もあります。どの程度、GPT-4oのことを理解している訳ではないようです。
② 旧モデルの回答
筆者コメント:オムニと比べて、回答が非常に短いです。また、回答速度が遅いです。
筆者コメント:オムニのカットオフは2023年10月までだったので、旧モデルの方がより新しい情報を持っているようです。
2.日本に関する知識
(1) 富士山について
① オムニの回答
筆者コメント:非常に詳しくよくまとまっています。
② 旧モデルの回答
筆者コメント:オムニよりは回答が短いですが、よくまとまっています。
(2) 関ヶ原の戦いについて
① オムニの回答
② 旧モデルの回答
筆者のコメント:こちらもよくまとまっており、回答に大きな差はありません。
3.数学の問題
今回は、問題の画像を貼り付けるだけで解くことができるか試してみます。
(1) 東京大学入試(2024)数学第1問(1)
① オムニの回答
筆者コメント:aとbは正解ですが、cは最後に非常に惜しい計算ミスをしています。c=(s^2+1)2sが正解です。
② 旧モデルの回答
筆者コメント:「共通の接線」について理解できておらず、解くことができませんでした。オムニの方が優秀であるように見えます。
(2) 東京大学入試(2024)数学第2問(1)
① オムニの回答
筆者コメント:正解です。
② 旧モデルの回答
筆者コメント:答えは合っていますが、0.3<log10(2)<0.31の不等式を使わず、log10(2)=0.3の場合を計算するだけで答えを出しているため、大幅な減点となるでしょう。
4.論理的な性能
(1) 指輪はどこ?
① オムニの回答
筆者コメント:正解です。
② 旧モデルの回答
筆者コメント:正解です。他のLLMでは、この問題に間違えることも多いので、オムニも旧モデルも優秀です。
(2) 夕日が赤く大きいのはなぜ?
① オムニの回答
筆者コメント:説明は正しいのですが、夕日が大きく見える理由は、「大気のレンズ効果」だけではないはずです。
② 旧モデルの回答
筆者コメント:オムニの回答も同様ですが、夕日が地平線に近いときは、山や建物などの地上の物体との比較で相対的に大きく見えるという「対比効果」についても説明するべきでしょう。
(3) Appleのプロモーションビデオの炎上について
以下の記事について尋ねてみました。
① オムニの回答
筆者のコメント:理由の考察は、記事の内容から抜き出したものが多く、あまり独自の視点はありませんが、よくまとまっています。
② 旧モデルの回答
筆者のコメント:オムニの回答の方が説得力があるように感じます。
5.ビジネスでの利用
(1) 謝罪のメール
① オムニの回答
筆者コメント:概ねよく書けています。但し、「拝啓」がなくて「敬具」だけがある挨拶文は、AIの起こしがちなミスなので、「敬具」は削りましょう。そもそも、ビジネスメールに「拝啓」「敬具」は不要です。
② 旧モデルの回答
筆者コメント:謝罪メールなので仕方がないのかもしれませんが、時候の挨拶まで入っており、ビジネスメールとしては丁寧すぎるように感じます。
6.文学の理解や表現力
(1) 夏目漱石の「こころ」の解説
① オムニの回答
② 旧モデルの回答
筆者コメント:オムニの方が全体的に深い分析ができているように感じます。一方で、「自分自身の内面を探求し、真実に向き合うことの重要性を漱石が訴えたかった」という解釈には少し疑問があります。
(2) 村上春樹風の「走れメロス」
① オムニの回答
筆者コメント:それほど村上春樹らしさも感じないし、ストーリーが全く変わってしまっています。
② 旧モデルの回答
筆者コメント:少し村上春樹らしさは感じますが、やはり物語の内容が変わってしまっています。
(3) ホラー小説の冒頭部分
① オムニの回答
筆者コメント:ホラー小説の冒頭が書けていますが、あまり怖さや薄気味悪さは感じられません。
② 旧モデルの回答
筆者コメント:短いですが、こちらの方が雰囲気があるように感じられました。
(4) どんでん返しのショートストーリー
① オムニの回答
筆者コメント:どんでん返しがあまり上手く使われておらず、ストーリーに面白味がありません。
② 旧モデルの回答
筆者コメント:シンプルでありがちなストーリーですが、きちんとひねりが効いています。
7.キャラクター設定
(1) 悟空の自己紹介
① オムニの回答
筆者コメント:悟空の口調で話すことができており、家族の紹介にも間違いはありません。
② 旧モデルの回答
筆者コメント:説明が短く、悟空の口調になっていません。キャラクター設定が上手くいく時と上手くいかない時があるようです。
8.その他
(1) 画像認識
画像認識機能が強化され、日本語の読み取りもかなりできるようになりました。特に画像に書かれた文字を項目ごとに仕分けするのが得意です。
この機能は、領収書などの書類からデータを読み取って一覧表にまとめたりするのに便利だと思います。
(2) 沢山のGPT-4o使用例
以下のGPT-4oの公式サイトに沢山の使用例が掲載されています。
多数の使用例の動画が掲載されているのと併せて、「Explorations of capabilities」の下のプルダウンメニューを選択すると、更に沢山の使用例の説明を見ることができます。
入力した文字を手書き文字風にデザインすることができます。
(3) キャラクターの一貫性を維持してイラストを描く
キャラクターの一貫性を維持して、イラストを描くことができます。
自分でもやってみました。
① ChatGPTに指示してイラストを生成する。
② 生成した画像をダウンロードした後、再度入力欄に貼り付け、キャラクターに名前を付けて、ChatGPTにイラストの内容(容姿、服装、姿勢など)を伝える。
③ そのキャラクターの名前を使って描いて欲しいイラストを指示する。
9.まとめ
GPT-4o(オムニ)と従来のGPT-4(旧モデル)について、文章生成に関しては、それほど性能の差はありませんが、オムニの方が遥かに処理速度が速いため、通常は、オムニを使うことになるでしょう。
また、使用回数制限についても、オムニより旧モデルの方が制限が厳しくなっているようです。確認はできていませんが、オムニと旧モデルの使用回数を合わせて、3時間で40回を超えると、旧モデルが使えなくなりますが、オムニは続けて使用することができるようです。
大きな差ではありませんが、数学、論理性、分析の深さの点では、オムニの方が少し優秀なように感じます。一方で、物語の作成は、旧モデルの方が優れている場合が多いようです。
したがって、旧モデルを使用するのは、文学的な文章を作成しようとして、オムニでは上手くいかないときくらいでしょうか。
また、オムニの画像認識機能が非常に強化されており、今まであまり使えなかった日本語の読み取りがかなりできるようになっています。さらに、画像からデータを読み取って項目別に仕分けることができるため、書類を写真に撮って書かれているデータを整理するなどの用途に使えそうです。
キャラクターの一貫性を維持してイラストを描くこともできるようです。
オムニの推論の性能は、それほど旧モデルと変わりませんが、処理速度の向上を始めとして、かなり使い勝手はよくなったと言えるのではないでしょうか。