『GPT-4o登場！単体でもスゴイが真価はOSレイヤーに組み込まれて発揮する！』～【web3&AI-テックビジネスのアイディアのタネ】2024.5.14

2024年5月14日 09:27

「先進テックで未来の生活はもっと良くなる！」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします！

■【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ

新しく発表されたGPT-4oとは？
5月14日のイベントで発表された最新モデル「GPT-4o」（oはomniの略：【omniは「全ての」を意味する】）は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。

ティザーで予告されていたOpenAIの新発表の答え合わせの日が来ました。

サム・アルトマンCEOからのヒントは「GPT-5でも検索でもないよ」ということで、音声AIアシスタントとハードウェア（iPhone含む）への密な組み込みを予想していましたが、答えは「GPT-4o（omni）」でした。

アップデート内容は上記のChatGPT研究所さんのnoteに詳しくまとめられていますのでそちらを参照いただくとして、「GPT-4o」はやっぱり音声AIアシスタントとハードウェア（iPhone含む）への密な組み込みの方向で活躍しそうだぞ！？という、個人的な期待も込めた展望を挙げてみたいと思います。

GPT-4oの音声・視覚・テキストの同時処理は確かにスゴイ

GPT-4oのデモンストレーションの中で、超高速で動作するリアルタイム翻訳も目を見張りますが、「omni（全ての）」を冠する由来である音声・視覚・テキストの同時処理はやはりスゴイものでした。

GPT-4o、やばすぎる…… pic.twitter.com/lBlhayXESK
— ChatGPT研究所 (@ctgptlb) May 13, 2024

スマホのカメラで見えているモノ、人、場所からライティングの照らし具合まで全てを言語化して説明します。しかも会話としてとても自然な「間」で話せています。

少しもたつく、回りくどい言い回しがロボットっぽい、見たものについて会話できないなど、これまでのAIチャットボットのオモチャっぽさがかなり改善されました。（まだ言い回しがくどいと感じますが）

3分ごろに登場するこの女性のイタズラも、ちゃんと見ていて記憶しています。

「何か変わったことがあったか？」と尋ねると、「別の人が後ろに見えた」と言います。

頭の後ろでVサインをしたことを「遊びでうさぎの耳を作った」と説明しています。そして「すぐにフレームを離れた」と報告しています。

スマートグラスと相性がいい

視覚障碍者向けのスマートグラスを開発していたEnvision社が、GPT-4を搭載した「Ask Envision」の無料トライアルを開始しました。デバイスはGoogle Glassです。

この機能はまさしくスマートグラスとの相性が最高です。今回のデモではずっとGPTがしゃべり続けていますが、目的に応じてシーン描写する対象を「人物だけ」「交通に関する情報だけ」「街頭の看板だけ」なども作り込み方で対応できるはずですので、チャットボット用途だけでなく音声AR用途でも大活躍するはずです。

GPT-4oはOSに組み込まれて真価を発揮する

次世代AIデバイスが期待を裏切ったのは、AIのせいだけではありません。音声操作でSpotifyやUberをAPI経由で動かすだけだと無理があります。

rabbit r1が目指したのは「人間がやりたいことを伝えれば適切なアプリごとの機能を使って応答する、アプリを意識する必要がない新しいUX」でした。

しかし、スマホの中で動作する各種アプリたちを起動させたり機能連携させることができるのはOSだけです。AIエージェントを他のアプリと横並びになるアプリケーションレイヤーで動かすだけでは、アプリアイコンを意識させないUXを実現させることは困難です。

裏返して、GPT-4oがOSレイヤーに組み込まれてしまえば、AI OSの上で動作するアプリとの密な連携や、OS側からアプリを横断して利用するなどもやりやすくなります。つまりrabbit r1が目指した次世代AIデバイスが実現できます。

AppleなのかGoogleなのか、それともmetaなのか、OSレベルでGPT-4oが組み込まれれば、真のAIデバイスが実現されます。

スマホのかたちであればスマホのUXをアイコンから脱却させますし、スマートグラスに組み込まれればAR体験を新次元にアップデートします。Apple Vision ProやMeta Quest3などVRゴーグルに組み込まれれば、目の前に対話相手がいるかのように会話ができ、世界中の言語を自由に操ることができるようになるでしょう。

GPT-4oは単体でもスゴイと感じましたが、やはりOSに組み込まれるのがゴールでしょう。未来、「AppleとOpenAIが提携！」なんてことが起き、iPhone17か18あたりでOSレイヤーにGPT-Xoを組み込むということになって、音声AIアシスタントとハードウェア（iPhone含む）への密な組み込みというのはあながち外れてもいない予想だったと言える日が来るといいなぁと願望強めで期待しています。