見出し画像

気になる生成AI備忘録-vol.20-Googleの「Google I/O‘24」主な発表内容まとめ

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回は、Googleが毎年開催する開発者向けカンファレンス「Google I/O」について。


今年2024年のGoogle I/Oは、 5月14日(米国時間)に開催されました。

ここではそのGoogle I/Oでの主な発表内容(気になったもの)を、Google公式の「Google I/O‘24」動画やGoogleブログを参照にまとめてみました。

Gemini の進化

Gemini 1.5 Proのアップデート

2024年2月にリリースされたコンテキストウィンドウ100万トークンのGemini 1.5 Pro、今回はそのアップデートが発表されました。

前モデルより処理速度が向上し、より複雑なタスクを実行可能に。大規模言語モデルの能力をさらに引き上げ、研究者や開発者のニーズに応える、と。

具体的には、従来モデルより処理速度が2倍以上(この辺はGPT-4oと似ている部分がありそうです)。翻訳、コーディング、推論など、主要なユースケース全体で一連の品質向上を行ったとのこと。

Gemini Advanced(有料プラン)ユーザーにはGemini 1.5 Proへの早期アクセスを提供。「Google AI Studio」または、Google Cloud ユーザーの方は「Vertex AI」でウェイティングリストに登録→200万トークンのコンテキストウィンドウを備えたGemini 1.5 Proにアクセス可となるようです。

Gemini 1.5 Flash

Gemini 1.5 Flashは、簡単にいうとGemini 1.5 Proの軽量版(高速版)。
Gemini 1.5 ProGemini 1.5 Flash、ともに一般公開は6月予定とのこと。

2つの新しいGemmaモデルの発表

1つは、PaliGemma
→画像キャプションや視覚的 Q&A に最適。

もう1つは、 Gemma 2
→業界トップクラスのパフォーマンスを誇る次世代モデル。

とのこと。

この2つに関して、Googleブログ「Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models」を読む限りだと、

PaliGemmaは、画像キャプション、視覚的 Q&A、その他の画像ラベリング タスク向けに最適化されている。

Gemma 2は、開発者が使いやすいサイズで業界をリードするパフォーマンスを実現、サイズが 2 倍以上のモデルよりも優れたパフォーマンスを発揮し、Vertex AI の GPU または単一のTPUホストで効率的に実行可。6月リリースとのこと。

Project Astra

次世代AIアシスタント「Project Astra」の発表は、個人的にその能力の高さに衝撃を受けました。

Google I/Oに登壇したGoogle DeepMindのCEO・デミス氏によって、Project Astraをスマホ上で操作している様子の動画が披露されましたが、

それが↑のポストで添付した動画です。こちらのポストでも一部触れましたが、Project Astraの機能・能力を箇条書きにすると、以下のような機能が挙げられます。

画像認識→カメラを通して映された画像を認識し、内容を理解・把握
位置情報→ユーザーの現在位置を把握し、それに応じた情報を提供
音声認識→ユーザーの音声コマンドを認識し、指示に従って行動

これらのタスクをProject Astraはこなすことができるというのが、動画から見て取れます。例えば、動画0:58~「私が何処にいるかわかりますか?」→「ロンドンのキング・クロス地区」だと答えており、位置情報の能力が伺えます。

Project Astraは、音声、映像、画像などの様々な情報を統合的に処理することができるリアルタイムのマルチモーダルAIアシスタントと言えるでしょう。

画像・動画・音楽生成AI

画像生成AI「Imagen 3」の発表

出典:Google Keynote (Google I/O ‘24)

画像生成AIに関しては、Stable DiffusionやMidjourney然り、生成AIサービス・ツールの中で最も確立されたものだと捉えているので、さほどの驚きは個人的にはなかったですが、↑のように、画像の狼の鼻先に生えているひげの数を数えられるほどのフォトリアリスティックだと説明していました。

音楽生成AI「Music AI Sandbox」

出典:Google Keynote (Google I/O ‘24)

テキストプロンプトを基に、オリジナル音楽ループを簡単に作成できる革新的なツール、とのこと。( ポップス、ロック、ジャズ、クラシックなど、様々な音楽スタイルに対応)

繰り返し再生できるループ音楽なので、ゲームや動画のBGMなどに最適。

また、コード知識が不要で、誰でも簡単に音楽制作を楽しめるのが特徴。
生成された音楽の編集や、他の音楽と組み合わせも可能とのこと。

個人的に思うのは、音楽生成AIに関しては最もネックになるのが著作権周りの問題であり、その辺の諸問題のクリア性等、一般公開された際に一度触れ、まずは規約等にしっかり目を通してみたいとは感じました。

動画生成AI「Veo」

出典:Google Keynote (Google I/O ‘24)

Veoは、テキストから高品質の1080p動画生成AIで、1分以上の動画生成ができるとのこと。

こちらはもろに、OpenAIの「Sora」の対抗という印象を受けました。

自然言語の理解力が高いとのことで、単純によりプロンプト(テキスト)に忠実かつ一貫性のある映像の生成が出来るとのこと。

また、Veoでの生成動画はフェイク等の悪用防止のため、AIで生成したということを示すラベルを組み込むそうで、これはナイス仕様だと思いました。

Veoは将来的には、YouTubeショート等にも導入を検討しているとのこと。(Veoの一部機能)

現在、以下Google DeepMindの専用サイトからVeoのウェイティングリスト登録可能です。

専用サイトではVeoで生成された複数の動画を確認することができます。

AI Overview(旧Google SGE)

AI Overview(旧称:Search Generative Experience、SGE)は、Google検索においてAI技術を活用した新しい検索結果表示機能。

簡潔にいうとAI Overviewは、従来の検索エンジンに加えて、AIの力を使って検索結果をよりわかりやすく、情報量豊富に、そしてユーザーに最適化したものに進化させる機能と言えます。

AI Overviewは米国で一般公開、今後は他の国・地域でも一般公開予定とのこと。


と、Google I/O‘24では他にも「AndroidでGeminiを使用してスマートフォン体験を拡大」などの話も出ていますが、個人的に気になる点を中心に、今回は主な発表内容を紹介しました。

GPT-4o発表で盛り上がるOpenAIと、その競合であるGoogleの各種AIサービス・ツール、どちらも引き続き注目間違いなしといった感じです。

この記事が気に入ったらサポートをしてみませんか?