ChatGPTの最新バージョンが無料で利用可能に！ChatGPT-4oの新機能を体験しよう

2024年5月14日 21:40

2024年5月14日早朝に、OpenAIから新しいバージョンのモデル「GPT-4o」の発表がありました。4oのoは「omni」の略で、「omni」とは「すべて」を意味しています。
今まで多くの新しい機能は、有料版を使っているユーザー向けの機能でしたが、この「GPT-4o」は無料版ユーザーにも開放されたことでまさに「omni」を体現していますね！
ただ、「omni」の意味はマルチモーダルにあるようです。今までも「GPT-4」はテキストだけでなく、音声や画像などを扱うことができましたが、「GPT-4o」により、テキスト、音声、画像、動画を同じ仕組みで処理できるようなりました。それが「omni」であり、すべての情報を扱えることと、すべてのユーザーが使えるというダブルミーニングになっているといえます。
本記事では、GPT-4oがどんなことを行えるようになったのか、主に応用例について解説させていただきます。

なお、私は有料版を使っていますが、5月17日時点で動画を見せながらリアルタイムでの会話をすることはできていません。無料版のユーザーは、画像を読み込ませて認識させたりはできるようになっていたので、ぜひ試してみてください。

リアルタイムでの会話

↑の動画はGPT-4oの紹介から始まっていますが、長いのでスキップしちゃって大丈夫です。

GPT-4や3.5でChatGPTと会話をしたことがあれば、そもそもリアルタイムでの会話って実現したでしょ？と思うかもしれないですが、あれはトランシーバーのような会話方式になっていました。

今回のGPT-4oによって以下のような機能が追加されています。

・音声会話モード
回答が終わるのを待たずに話し始めても大丈夫になっています。つまり、トランシーバーのように相手の応答を待つ必要はなく、途中で話しても通じるようになりました。

・モデルのリアルタイム応答
今まで会話モードの場合、モデルが音声を処理して理解するまでにタイムラグがありましたが、タイムラグが大幅に減り、リアルタイムでやり取りすることが可能になりました。

・モデルが感情を含めて会話をすることができる。
12:00あたりで、GPT-4oがまるで声優のようにいろいろな役になりきって物語を語ることを演じています。今まではそのようなことはできませんでした。音声に感情を込められるようになっています。

上記のように今までのGPT-4ではできなかったことがいろいろ改善していました。

Say hello to GPT-4o

AIが感情を込めて会話ができるようになっている例として、0:50あたりからの以下のやり取り

「あなたに関することというかあなたについての発表なんだよ。」
「ん？私？私についての発表？」

この時の以下にも恥ずかしそうな感じの音声のやり取りはぜひとも聞いていただきたいですね。

it is and in fact what if I were to say that you're related to the announcement or that you are the announcement

n? me?? the announcement is about me?? well, color me intrigued are you about to reveal something about AI or more specifically about me as a part of OpenAI

目の役割をこなす

私は学生の頃に画像処理を通して視覚障害者向けの支援システム開発に携わったりしていたのですが、実用に耐えるには程遠い精度でした。
GPT-4oはこれを実践的に使えるレベルまでになっています。
0:40くらいからタクシーを捕まえるのを助けてくれますが、非常に詳細に説明してくれるので、聞いている方もわかりやすいです。

歌うAI！

歌を作る専用の生成AI sunoなどのサービスはありますが、LLMが会話の中で歌を歌ったりするとは！4:20過ぎくらいからGPT-4oが歌を歌うのでぜひご覧いただきたいですね。

人とAIとのミーティング

犬が好きと猫好きとの討論にGPT-4oがリアルタイムで参加します。
誰がどんな発言をしているのか理解し、ミーティングの内容をまとめたりしているところを見ると、議事録取るだけではなくて、もはやMCの役割も果たせるようになっています。

数学の家庭教師

GPT-4oが家庭教師になって、数学の問題を解く手伝いをします。
お父さんがGPT-4oへ依頼をするときに回答を教えないようになど、的確な指示をしていました。
GPT-4oでは数学の理解度も上がっているようなのでこれはかなり応用が利きそうです。

マンガの解読

マンガってコマ割りがあったり、話の流れの方向があったり、注意すべきところがたくさんあってGPT-4では理解が難しかったりしましたが、こういうことも理解できるようになっています。

GPT-4o マジだ、相当複雑にも関わらず相当高いレベルで漫画を読解できててすごい
雑なプロンプトだから一部セリフが抜けちゃってるけど、それよりも漫画から人物の状況をほぼ完璧に理解できていることの方に驚いた　エッグいな…… pic.twitter.com/J59zf55GI8
— Torishima / INTP (@izutorishima) May 13, 2024

３Dモデルを生成

STLファイルを直接生成し3次元モデルも作れるようになりました。

Geminiでもポンだしできないから何回かやりとりは必要ですね。ちなみにOpusだとダメダメ。
でgpt-4o試したらピラミッドのやつはほぼポンだししよったw https://t.co/UL9QGGCD8F pic.twitter.com/OqZ0Rp245f
— 生ビール (@wmoto_ai) May 13, 2024

OCR性能がめちゃめちゃアップ

このカオスマップは、生成AIの画像認識制度を試すのによく例として使われるのですが、GPT-4oはこれも軽くこなしてくれています。

GPT-4o、OCR性能もえぐい‥‥この人間でも認識困難なAIカオスマップの内容を永遠に吐き出してくる pic.twitter.com/0DumgrPYFv
— 石川陽太 Yota Ishikawa (@ytiskw) May 13, 2024

まとめ

上記のようにいろいろ応用範囲の広いGPT-4oが発表されました。

今のところ有料版で使っている私のChatGPTではGPT-4oにはアクセスできるものの、リアルタイムで動画を撮影しながら解説したりなどの機能は使えるようにはなっていないので、そのうち使えるようになると思います。

また無料版のものも試してみましたが、まだGPT-4oが使えるようにはなっていませんでした。こちらについても徐々に使えるユーザーが増えてくるのではないかと思いますので、使えるまでもう少し待っていただく必要がありそうです。

GPT-4oの応用については以下の公式サイトで「Explorations of Capabilities」のところを見ていただくさらに多くの応用例を知ることができますので、ぜひ見ていただければと思います。

いいね！やフォローで、ぜひ応援よろしくお願いします！
励みになります！

また、X（旧Twitter）でAIについての雑談を不定期に行っておりますのでフォローをお願いいたします。