Google I/O 2024:私たちの生活をアップデートする最新技術の全貌
Googleの新サービス発表会「Google I/O 2024」が先月行われ、今後仕掛けていく新サービスについての発表がありました。
今年の発表会も昨年に引き続き、AIに関するトピックが多く取り上げられました。
今回は、昨年に引き続き、僕が気になったGoogleが発表した最新のサービスについて詳しく説明します。
昨年の発表内容については、こちらを参照
1. Googleフォト:Ask Photos
Ask Photosは、Googleフォトの新しい実験的機能で、自然言語の質問を使って写真や動画を検索できるようになります。
この機能は、Googleの最も強力なAIモデルであるGeminiを活用して、写真の内容や文脈を理解し、過去の思い出を思い出させてくれます。
思い出を時系列で探すのって、下までスクロールしなきゃいけないので昔のものほど大変ですよね、、
でも、その心配はこの機能で払拭されます!
思い出の整理もAIを使って効率化できるようになると、ますます写真をGoogleフォトに保存する価値が高まりますね。
2. Gemini 1.5 ProとGemini 1.5 Flash
Gemini 1.5 ProとGemini 1.5 Flashは、Googleの最新AIモデルで、より高速で精度の高い処理を可能にします。
Gemini 1.5 Proは、圧倒的なトークン数で、より精度の高い処理を得意とし、複雑なタスクや大規模なデータセットの処理が効率化されます。特に、プロフェッショナル向けのAIアプリケーションに適しています。
一方でGemini 1.5 Flashは、高速処理に特化して開発された日常的な用途に最適なAIモデルです。今後、Googleの様々なサービスやAndroid OSに取り入れていくとされているのは、こちらのモデルです。
Gemini 1.5 Flashは、いわゆるChatGPT4oと同じようなインパクトがあり、遅延が少なく応答してくれる点で、AIが日常の作業で活用できるようになり、ますますAIを使える人と使えない人で差が開いていくことになると思われます。
3. Project Astra
Project Astraは、Google DeepMindが開発している、マルチモーダル情報処理やコンテキスト理解に基づき、自然な会話で応答するAIアシスタントのプロジェクトです。
主な特徴としては、次の三つ。
視覚情報処理
カメラからの映像を認識し、オブジェクトや人物を区別することができます。コンテキスト理解
会話の状況や過去のやり取りを理解し、それに応じた回答ができます。自然な会話
人間との自然な会話のように、質問に答えたり、指示に従ったりすることができます。
Google I/Oにて、Project Astraのデモが披露されましたが、
デモでは、ユーザーがスマートフォンやスマートグラスを使ってAIエージェントとやり取りする様子が紹介されました。
これが実用化されると、スマートフォンを入り口にして、AIを活用するようになり、私たちは日常にAIを取り入れていくことになります。
個人的に、このデモを見たとき、ワクワクが止まりませんでした。
4. Gemini マルチモーダル化
さらにGeminiが、マルチモーダルに対応するという発表もありました。
これにより、テキスト、画像、音声、動画の入出力に対応し、様々な形式のデータを統合して理解し、より高度な質問や複雑なタスクに対応できます。
具体的には以下のことができるようになります。
画像や動画のキャプションを生成する
画像や動画の内容を理解し、それに基づいて文章を生成することができます。画像や動画の説明を生成する
画像や動画の内容を理解し、それに基づいて音声で説明を生成することができます。音声認識
音声を認識し、テキストに変換することができます。音声合成
テキストを音声に変換することができます。
テキスト入出力だけでなく、画像・音声・動画の入出力が可能になるとのことで、取り扱える情報が格段に増えます。
インターネットの歴史を見ても、テキスト(ブログ)から始まり、ストリーミングサービス(音声)、YouTube(映像)と情報量を拡大していくなかで発展していったので、
AIもマルチモーダル化によって、さらなる発展を遂げるでしょう。
5.音楽生成 Sandbox / 動画生成 Veo
音楽生成AI Sandbox
音楽生成AI Sandboxは、AIを使って音楽トラックを生成する新しいツールです。
このサンドボックスは、ユーザーがAI生成のプロンプトを使用して音楽ループを作成できるように設計されています。YouTubeと協力して開発され、クリエイティブな音楽制作を支援するとのことです。
今はYouTubeのBGMとして、YouTube Sound libraryが提供されていますが、今後はSandboxによって、動画の内容に応じたBGMを自動生成してくれるようになるかもしれませんね!
動画生成AI Veo
動画生成AI Veoは、テキスト、画像、ビデオのプロンプトから1080pの高品質ビデオを生成できる生成AIツールです。
Veoは、特定のエリアを編集するためのマスク編集もサポートしており、ユーザーのプロンプトに基づいてスタイルや指示に従うビデオを生成することができます 。
6. Google検索のアップデート
Google検索は、カスタムGeminiモデルによるAIの強化を受け、複雑な質問に対してマルチステップの推論と計画機能を提供します。これにより、複数の日にわたる計画や詳細な検索結果を提供することができます 。
Circle to Search
Circle to Search は、Googleが2024年1月に発表した、Androidスマートフォン向けの新しい検索機能です。この機能を使用すると、画面上の気になる部分を指先で囲むだけで、その部分に関する情報を調べることができます。
Multi Step Reasoning
Multi Step Reasoningは、Google検索のAI生成機能に2024年5月に導入された機能です。
従来の機能では対応できなかった、複雑な質問や複数の手順を必要とする質問にも答えられるように進化しました。
これにより実用的なAIに近づいたことになります。
Planning in Search
Planning in Searchは、計画や予約に関する検索機能を強化した新機能です。
これにより、旅行、イベント、買い物などの計画をより簡単に立てられるようになりました。
デモでは、1週間分の献立を考えてもらったり、旅行のプランを考えてもらうのに使っていました。
Google検索の一番の収益源は、Google検索に表示される検索広告ですが、
今回のアップデートが実装されるとGoogle検索広告は、AIの回答の下に表示されるようになります。
Googleの一番の稼ぎ頭を犠牲にしてまでも、AIの回答にこだわる背景には、従来の検索からAI回答への世界的なパラダイムシフトがあります。
私たちも、そのパラダイムシフトを受け入れて、順応し活用していけるようにしたいですね!
7. Ask with Video
Ask with Videoは、動画を使った検索ツールです。このツールでは、これまではテキストで検索していたのを、動画をアップロードして情報を検索したりすることができます。
Ask with Videoの機能としては、
動画中の特定のシーンを選んで質問できる
質問は自然言語で入力できる
Google検索やGeminiを利用して回答する
関連する情報や動画を提示する
デモでは、DJ機材についてのトラブルシューティングを尋ねる使い方が紹介されていました。
動画をアップロードし、音声で質問すると、回答してくれるので、今後カスタマーセンターの役割がAIに代替されていくことが予想されます。
Google I/O 2024で発表されたこれらの新しいサービスは、私たちの生活をより便利に、そして効率的にしてくれることでしょう。
ただこれらの機能がすべて使えるようになるとは限りません。例えば昨年発表された、Googleマップのイマーシブビューは、各国の主要都市では実装されましたが、それ以外ではまだ使うことができません。
あくまで、こんな未来が来るんだとざっくりイメージできればOKです。
ITを活用できた人と、ITを活用できていない人の間に格差が生まれたように、
これからはAIを活用できた人と、AIを活用できていない人の間に格差が生まれることでしょう。
これからの展開に期待しつつ、一緒に最新の技術を活用していきましょうね!