OpenAI Spring Update v.s. Google I/O 2024
株式会社Algomaticの大野です。
今週は、OpenAI、Googleから、大きな発表がありました。今回は、2社の発表を見ながら、要点をまとめ、解説・考察していきたいと思います。
(※ なお、社内等で共有しているメモベースで箇条書き的な書き方になっております。読みづらいところがあるかもしれません。)
■ 追記:PIVOTさんでも、解説させていただきました。よければこちらも、御覧ください。
OpenAI Spring Update
今回、大きく3つ、発表されました。
最新のフラグシップモデル GPT-4o
「GPT-4o」は、今回のOpenAIのリリースの目玉でした。
GPT-4o とは
マルチモーダル(多様なデータ形式)の組み合わせでの入出力を可能にしたモデルになっています。
テキスト・音声・画像の組み合わせを入力とし、それらの組み合わせを出力できるようになりました。(GPT-4oの"o"は"omni(全て)"の略)
百聞は一見に如かず。まずは下記のデモをご覧ください。
テキスト・音声・画像(動画)の組み合わせを入出力とした応答が可能に
e.g. ビデオ通話のように、カメラに写っているものに関して音声会話することが可能に
音声応答がより高速に、自然に
応答速度の改善:人間の会話と同等の速度(平均320ミリ秒)での応答が可能に
これまでは、応答待ちの“気まずい間”が、目立っていた
表現力の向上:笑い声、歌、感情表現が可能に
特に、上記デモの50秒あたり
会話の割り込みが可能に
ChatGPTの発言中に割り込むことも可能に
AI自身が話している間も、AIが聞き続ける
APIのスピード・コストの大幅な改善、レート制限の引き上げ
APIでは、GPT-4 Turboと比べ、約2倍高速に(ref: api docs)
約50%のコスト削減
5倍のレート制限の引き上げ(1000万トークン/分)
英語以外のテキストでのパフォーマンスの大幅向上
日本語・中国語を含む20言語で、トークナイザー改善
トークン使用量が30%程度減少
37 tokens → 26 tokens (1.4x fewer) こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!
これによりコスト・速度が、これら言語では、更に改善(約30%)
トークンあたりのAPI使用量も減少しているため、更に大幅なコスト減少(APIコスト50% * トークン使用量70% = 35%に)
※ なお、GPT-4oによる動画認・音声の認識・生成機能は、未リリース。目下は、テキストと画像認識・生成を中心とした一部のサービスのみ利用可能
いかに上記を進化を実現したか
テキスト・音声・画像の組み合わせを入力とし、それらの組み合わせを出力できるようになったことにより実現
これまでのVoiceモードでは、3つのモデルによる処理を必要とすることで、遅延や情報の欠落が発生していた
3段階のプロセス
音声(入力) → テキスト(入力)への変換
テキスト(入力)に対応するテキスト(出力)の生成
テキスト(出力)の音声(出力)への変換
それにより、多くの情報が欠落や、遅延が発生
例えば、トーン・複数の話者認識・背景の雑音が欠落
一度テキストに起こしてしまっていたが故に
同様の理由で、感情表現も難しい
GPT-4oは、テキスト・音声・画像を、入出力として直接扱う、単一のモデル
「3つのモデルによる分担」→「1つのモデルで完結」
それにより、遅延の解消、情報の欠落を解消した
感情表現が可能に
e.g. 「好きそうなトーンで”嫌い”と言う」
GPT-4o ではノンバーバルな表現(e.g. ジェスチャー、トーン、など)を考慮した感情表現がしやすくなった(モーダル間の情報変換で欠落しない)
速度・コストの改善を見るに、モデルサイズ自体も小さくしていそうか
マルチモーダル化しつつ、サイズも抑えている。テキストtoテキストの応答の質はもしかしたら、GPT-4よりも劣化している可能性もあり
コーディングの能力が下がっているのでは?という指摘もあったり、会話に特化したモデル開発のため失われた能力もある可能性
いわば、人間もマルチモーダルな知能。「AGI」に、近づいた、とも言える
デモ・ユースケース例
今回は、多くのデモやユースケースが発表されました。
OpenAIのHP・YouTubeチャンネルに具体的なユースケースを意識したデモが多数ありますが、ここでは一部抜粋して紹介します。どれも、マルチモーダルに進化したGPT-4oの良さがよく伝わるデモになっております。
■ 様々な感情で、物語を読み聞かせ
今回のアップデートで、いかに感情表現が豊かになったか、がよく分かるデモです。
■ リアルタイム通訳(英語・スペイン語の例)
多言語での応答品質に加え、応答速度が速くなることによる恩恵を感じます。
■ 数学の指導
画面共有しながらミーティングをするように、画面を見ながら、数学の指導をしています。
この進化をどう見るか
OpenAIが、目下、下記が重要だと考えていることか
① 高速化・コスト削減
人間が自然に、ストレスなく利用するためには、高速化が肝であること。人間はちょっとしたラグにストレスを感じる
また、限界コストが下がるほど、無料/低コストで供給可能な数が増える。それにより学習・検証が加速する
② マルチモーダル化が本質的に重要な打ち手であること
高速化・質向上に寄与することはもちろん
前述の通り「人間の知能の再現」のために、設計思想を合わせたい
「人間の知能の再現」という長期計画における中間成果報告にも受け取れる(OpenAI - Planning for AGI and beyond (2023.02.24))
元々 OpenAI は段階的なリリースのメリットを、技術の観点からだけでなく、社会的な浸透やポリシーメイキングの観点から語っている(下記)
そこで研究分野として隆盛化しつつあるマルチモーダル基盤モデルの領域でデファクトスタンダードを確立する一方で、今回の GPT-4o の発表は「人間の知能の再現」という長期計画における中間成果報告にも受け取れる
(コンシューマユース・ビジネスユースを目先としているようにみえる Google とは少し目標が異なるか)
無料ユーザへの機能解放
GPT-4oによって、ChatGPT無料ユーザが使えるようになる機能:
ChatGPT-4レベルのAIへのアクセス
ウェブからの情報のリアルタイム取得
データ分析・チャートの作成
写真についての会話
アップロードされたファイルの、要約・執筆・分析等をサポート
GPTsやGPT Storeの利用
メモリ機能により、過去の会話を記憶
有料ユーザ(ChatGPT Plusユーザ)のみ可能なことは以下:
一定以上の量を超えるGPT-4oの利用(利用制限)
音声会話:GPT-4oによる音声・ビデオ通話
より多くのメッセージ利用(無料ユーザの5倍)
画像生成:GPT-4oによる画像生成
GPTsの作成
これまで無料ユーザが使えないゆえに、流行りづらかったGPTs等も今後は使われるようになっていくか
デスクトップアプリのリリース
無料・有料ユーザ向けの、新しいmacOS用ChatGPTデスクトップアプリ(windowsは2024後半を予定)
日常の作業の中で、効率的に活用できるような設計がされている
キーボードショートカットを使ってすぐに質問
e.g. スクリーンショットを撮影して、それと共に指示を出す
音声会話 ※未リリース
画面共有 ※未リリース
e.g. グラフを画面共有しながら、それについて議論する
Google I/O 2024
今回、大きく3つ、発表されました。
なお、その他、多くの魅力的な発表がありましたが、ここでは割愛します。(APIの改善、TPU、教育系のアプリケーション、Gemma2、安全性ポリシー、etc)
Gemini 1.5 Pro、Flash
コンテキスト長の大幅な拡大・コスト改善
1M tokens→2M tokens (未公開preview)
128K tokens by GPT-4o
300ページのPDF、6万行のコード、2時間のビデオ
大量の論文をアップロードして、それについて質問できる
これまでのコストの半額に
マルチモーダル(※Geminiは、元々)、品質向上
Geminiは元々マルチモーダルであり、感情の認知等、精度高かった
なお、出力は音声未対応
翻訳、コーディング、推論の品質向上
Gemini 1.5 Flash
軽量・高速版のモデルのリリース
レイテンシを抑えたい・高頻度のアクセス用、のモデル
アプリケーション・デバイス連携について
大量に、アプリケーション・ユースケースが発表された
エンドユーザに真に便利なものを、ラストワンマイルまで作り込む姿勢が見える
※ なお、現時点ではまだ一般には使えない機能は多い
様々なGoogleのアプリケーションにて、Geminiベースのエージェントが活用可能に
Google Search, Photo, YouTube, Gmail, Meet, Spreadsheet, Slide, Drive, etc..
コンシューマユース・ビジネスユース(Google Workspace)、両方に対応
エンドユーザとの接点を多様に持つこと、データをすでに抱えていることの強み
AIエージェントの概念の紹介:「例えば、Googleがあなたの代わりにググる」
Agentによる、「商品の返品」のデモ
靴の写真を撮影して、Geminiに「返品して」と依頼すると、自動で返品処理(下記)を実行
Ask with Video、「壊れたレコード」のデモ
壊れたレコードの動画を取りながら、どうすればいい?と聞くと、直し方を教えてくれる
その他、興味深いデモ多数あり
「一周年記念に適したレストランを東京で見つけて」(AI overview)
「車のナンバープレートなんだっけ?」「娘が初めて泳いだ日は?」(Ask Photo)
「領収書データをまとめてほしい」
「ミーティングのサマリをして」
「数学の授業を教えて。宿題を教えて」
・・・
Project Astra:Gemini 基盤のAI エージェント
AIが、アシスタントとして、実生活・仕事に入り込むデモ
Androidデバイスとの連携
Geminiが、デバイス上のコンテキストを把握(context-aware)
e.g. やりたいことを予測して、サジェスト
Ask this video
Ask this PDF
(詳細割愛)その他、Gem・AI teammate等、ユースケース特化のモデルカスタマイズ支援
動画・画像・音声生成
※ private版(waitlist公開)
Imagen3(画像生成)
Music AI Sandbox(音声生成)
Veo(動画生成)
1080pの動画を、プロンプト(テキスト/画像/動画)から生成可能に
1分を超える動画も作成可能(Soraより長い)
下記、デモ
Google v.s. OpenAI 比較
両者の競争をどう見るか
OpenAIのほうがプレゼンテーションがうまいが、ビジネス的に盤石なのはGoogleか
モデルについて
モデルは、ともに大幅に進化(ユースケースごとに使い分け)
スピード:タスクに依り、どちらも優位になりうる
スピードを重視する場合は、GeminiはGemini 1.5 Flash
長文に関しては、Geminiのほうが圧倒的に速そう
いつどのバージョン、どのタスクで測るか、にも依る。拮抗か
価格:token単位ではGemini 1.5 Proだが、日本語の場合、トークナイザの差により、GPT-4oのほうが安価なことも
128K tokenまではGemini 1.5 Proのほうが安価(tokenあたり)
IN: $3.5 / 1M token (up to 128K)v.s. $5 / 1M token
OUT: $7 / 1M token (up to 128K)v.s. $15 / 1M token
それ以上は、GPT-4oのほうが安価(tokenあたり)
コンテキスト長:Gemini 1.5 Pro。10~20倍のコンテキストを扱える
2M tokens(未公開版) v.s. 128K tokens by GPT-4o
応答の品質:タスクに依り、どちらも優位になりうる
e.g. 長い文章や動画・音声のコンテキストを要するタスクは、圧倒的にGeminiのほうが適している
e.g. 自然な音声応答については、GPT-4oのほうが適していそう(※一般未公開)
ビジネスについて
総論、ビジネスとしては、Googleの盤石さ・圧倒的な強さを感じる発表
エンドユーザに実用的な価値を生む、ラストワンマイルの作り込みの差
よく使うデバイス・アプリケーションから、シームレスな多様な用途
既に持っているユーザ情報を活用してくれること(e.g. 「このデータ探してきて」)
最強のポジションを持つ強者Google v.s. 持たざるスタートアップOpenAI、な構図にすら見える
供給(e.g. 基盤モデル)を抑えるか、需要(e.g. エンドユーザ)を抑えるか
Googleは、モデルは勿論、デバイス、アプリケーション、インフラを、抑えている
いわゆる、ビジネス的な定石をほぼ完璧に抑えている
大企業的なジレンマを感じさせないスピード感・全社横断的な連携
思想・方向性の違いについて
Google は既存の Google アプリケーションへの組み込み(=エンドユーザ向け)にフォーカスしているように見えた
大量のコンテキスト、多様なアプリケーション、デバイス、と横断しながら、「実用的なユースケース」を作る
そして、究極的に基盤モデルを取れなくとも、ビジネス的に勝てるポジショニング
OpenAI は開発者がより使いやすい形式(マルチモーダル化は、開発者が使いやすい形にするという意図がありそう)(=開発者向け)にフォーカスしているように見えた
究極的に「AGIを作る」というミッションに真っ直ぐにも見える
モデルそのものの体験作り・センスの高さ。特に、音声の会話体験
次のフロンティアモデルについての予告
今後の競争の行方は?
特にGooglehは、モデル単体の勝負から、UX・アプリケーションの作り込みの勝負へのシフトか。OpenAIは基盤モデルの作り込みへのフォーカスを続けるか
大量のデモ。マルチモーダル、エージェントによって何ができる?に答える
エンドユーザにいかに使ってもらい、価値を出すか
特にレスポンスの速度、アプリ連携、小型化
動画生成等、まだどちらも未公開previewな機能について、正式リリースが待たれる
今回どちらもデモで「動画を見ながら自然な会話」を見せているが、どこまでの体験が一般に届けられるか
生成AI業界・ビジネス全体・社会へのインパクト
基盤モデルを開発しているプレイヤーにとって
汎用基盤モデルを開発するプレイヤーにとっては、熾烈な競争環境(これまで通り)
すぐに「コスパが悪いモデル」になりうる状況
e.g. 今回の発表でClaude3 Opusの人気がどうなるか。マルチモーダルが当たり前の世界になってきた
e.g. 今回の発表は、OCRや音声認識に特化した研究開発をされていた方にとって逆風
用途特化等、よりニッチに尖らせる動き(これまで通り)
アプリケーションレイヤのプレイヤーにとって
基盤モデルの進化は、ポジティブ
コスト・スピードの大幅な改善
マルチモダリティの進化
→ それらによる、ユースケースの拡大
一方、Google/OpenAIと全く同じ領域で、アプリケーション開発することの危険さ
Google/OpenAIは、アプリケーションレイヤまで抑えたい
既にGoogleやMSが抱えている領域は、要注意
特に、スタートアップやこれから事業を作る会社はどう戦うべきか
Google/OpenAI(MS/Apple)が強い領域はあれど、技術革新によるチャンスは多くの領域にあり
「AI」は、優秀な新卒のようなもの。プリミティブな能力は持つが、あらゆるドメインで背景知識や特化能力は持ちづらい
ミッションは「AI」の力を最大化するアプリケーションを作ること
かつて人類の能力がインターネットサービスによって拡張したように
社会全体、コンシューマにとって
基盤モデルの進化、アプリケーションの進化、どちらも速い
知識や理解力は、普通の人間以上になってきている
まず、ビジネスでも、実生活でも、生成AIを活用していかないという道はないことを改めて認識する必要あり
生活・仕事にAIがアシスタントとして溶け込む世界になる
マルチモーダルで動画通話のように会話できる体験、感情のケア
Algomatic 生成AI Partner
Algomaticでは、生成AI活用・開発のご相談を、受け付けております。
ご興味ある方、ぜひ下記よりご連絡ください。