Google のGEMINI 2.0 が業界に衝撃を与えた! (OpenAIを凌駕) 完全分析
12,386 文字
今日、Googleが重要な発表を行い、次世代向けに設計された新しいAIモデル、Gemini 2.0を公開しました。この動画では、Googleが発表したすべての内容を詳しく見ていきます。発表は数多くあり、どれも重要なものでした。また、Gemini 2.0が人工知能との対話方法を本当に革新していく様子も見ていきましょう。
それでは始めましょう。最初の発表からです。Gemini 2.0は、周囲の世界を見て聞き、考え、計画し、記憶し、行動することができる新世代のマルチモーダルなエージェントを作り出すことを可能にします。Gemini 2.0は、人工知能ベースの汎用アシスタントのための研究プロトタイプであるプロジェクトAstraを実現します。
環境をリアルタイムで理解できます。「この彫刻について何か教えてください」「あなたが見ている彫刻は、ロンドンのルイス・キューピッド・パークにある『私の世界とあなたの世界』というデバ・リールドの作品です。」会話中に流暢に言語を切り替えることもできます。
プロジェクトマリニアでは、タスクを実行できるエージェントを使って次のステップに進むことができます。アーティストについて調べたり、絵画を見つけたり、適切な画材を購入したりといった、複数のステップを必要とする作業を依頼できます。エージェントはウェブを使って行動し、必要なものを見つけます。あなたのコントロール下で各ステップを計画し、推論しながら、タスクを完了させます。
Gemini 2.0では、さまざまな分野で適用可能なエージェントを使用できます。バーチャルワールドを探索できるエージェントを開発中で、ビデオゲームでのアシストも可能です。「この基地をどこから攻撃すればいいですか?」「基地の配置を考えると、南側の下部からの攻撃をお勧めします。この方向なら、巨人部隊で直接町の中心部を狙える一方、魔法使いは周辺の防衛施設を担当できます。」
Gemini 2.0は、3次元の環境やオブジェクトを理解することで、物理的な世界について推論することができます。これらの能力はロボット工学に応用され、日常の物理的環境であなたをアシストできるエージェントの開発に活用されています。deepmind.google.comで、マルチモーダルAIエージェントの次世代がGemini 2.0でどのように実現されるのかをご覧ください。
では次に、一般ユーザーがツール、メモリー、マルチモーダル推論などのエージェント機能を備えたプロジェクトAstraに統合されたGoogleのGemini 2.0をどのように使用できるのか、実際の使用例を見ていきましょう。最新のテストバージョンのプロジェクトAstraを搭載したPixelスマートフォンを用意しました。オフィスを出て、ロンドンでテストしてみましょう。
「アパートの情報が書かれたメールを受け取りました。ドアのコードを教えて、覚えておいてもらえますか?」「ドアのコードを覚えておきます。1170です。解錠するには、コードを入力してから解錠ボタンを押してください。」
「このタグの表示から、どのように洗濯すればいいですか?」「タグには30度での洗濯機洗い、漂白剤禁止、乾燥機使用禁止、低温でのアイロン掛けと書かれています。」
「この洗濯機では、どの設定を使えばいいですか?」「洗濯の指示に従って、ダイヤルのイージーケアの30度の設定を選んでください。」
「おすすめリストがありますが、いくつか詳しく教えてもらえますか?」「もちろんです。コールドロップス・ヤードはユニークな工業デザインのショッピングスポット、ルミナリー・ベーカリーはソーシャルエンタープライズのパン屋さん、Tモダンは現代アートミュージアムです。」
では、プロジェクトAstraを屋外でテストしてみましょう。「私はずっと"スコーン"と発音していましたが、最近は"スコーン"と言う人もいるようです。発音について教えてください。」「興味深い話題ですね。"スコーン"(gone と韻を踏む)でも、"スコーン"(bone と韻を踏む)でも、どちらも認められています。地域によって違いはありますが。」
「この彫刻について教えてください。」「あなたが見ているのは、ロンドンのルイス・キューピッド・パークにある『私の世界とあなたの世界』というデバ・リールドの作品です。」「彼女の作品はどんなテーマを探求しているのでしょうか?」「彼女は、鑑賞者が環境と対話することを促す抽象彫刻を制作しています。」
「これらの植物は私の家でも育つでしょうか?」「イタドリは、ニューヨークでも十分育つと思います。全日照か半日照、水はけの良い湿った土壌を好むので、ニューヨークのあなたの庭に合っているはずです。」
「友達へのプレゼントを探していて、これが彼女が読んだ本のリストです。彼女の読書の好みをどう分析しますか?」「このタイトルを見る限り、歴史、伝記、そして政治や社会的なコメンタリーも少し好むようですね。」「いくつか選んでみましたが、どれが一番気に入りそうですか?」「歴史的文脈の中で複雑な社会的・政治的問題を探求しているESSが良いと思います。」
「このバスは中華街行きですか?」「はい、その通りです。24番のバスは確かに中華街行きです。」「ウェストミンスターのビッグベンを通りますか?」「はい、24番は実際にビッグベンを通ります。」
友人たちも集まって、マルチリンガル機能をテストしてみました。「これらの提灯について何か面白いことを教えてください。」「もちろんです。あなたが見ているのは、ロンドンの中華街の入り口にある提灯です。中国文化において重要な意味を持ち、お祝いや祭りの際によく使用されます。」
「今度はAstraをハンズフリーモードでこれらのメガネを使ってみます。もうすぐ雨は降りそうですか?」「現在のロンドンはかなり良い天気ですが、今夜22時から明朝6時まで雨が予報されています。」
「隣にある公園は何ですか?」「プリムローズ・ヒルのようですね。街のパノラマビューと有名なシェイクスピア・ストリートで知られています。」
「自転車に乗れるか確認してもらえますか?」「プリムローズ・ヒル内では自転車は禁止されていますが、近隣エリアやレジェントパークの他の場所では許可されています。」
「カムデンに自転車で戻りますが、途中にスーパーマーケットはありますか?」「カムデン・ロードにセインズベリーズ、チョークファーム・ロードにモリソンズ、カムデン・ハイストリートにM&Sシンプリー・フードがあります。」
「ドアのコードを思い出してもらえますか?」「以前記録したドアのコードは1170です。」「ああ、ありがとう。開きました。」
次に、Googleのプロジェクトマリニアをご紹介します。ChromeブラウザでAIエージェントと具体的にどのように対話できるかをお見せしますが、その前にまず手短に、新しいプロジェクトについてお話ししたいと思います。
ご存知の通り、このチャンネルではAIについてよく取り上げています。私の目標は、この素晴らしい技術をできるだけ多くの人に知ってもらい、特にAIについての意識を高めることです。周りの人と話していると、私だけかもしれませんが、実際に何が起きているのかあまり意識されていないように感じます。
しかし、よく申し上げている通り、このチャンネルでは商品の宣伝は一切行いません。できるだけ誠実さを保ちたいからです。そのため、トレーニングコースを作成しました。あらゆる生活の場面でAIを使いこなしたい方向けです。この動画をご覧の方は、すでにチャットGPTなどのAIを使用されている可能性が高いと思います。
AIについての理解をさらに深め、すべてのAIツールの使い方を習得し、それらを生活にどのように適用するかを具体的に学びたい方は、説明欄やコメント欄、あるいはその両方に記載するリンクをご確認ください。興味のある方はぜひチェックしてみてください。
また、AIの世界に情熱を持つ仲間が集まるVisioniaコミュニティにもアクセスできます。それぞれの分野でAIをどのように活用するかについて、定期的に議論を行っています。
申し訳ありません、少し話が逸れましたが、これ以上時間は取りません。興味のある方は、下記のリンクをご確認ください。
今日は、プロジェクトマリニアについてお話ししたいと思います。これは、人間とエージェントの対話の未来を探求する研究プロトタイプで、Gemini 2.0を基盤としています。新しい技術と同様、責任を持って開発することが不可欠です。そのため、小規模から始めます。信頼できるテスターグループからフィードバックを集め、その経験をもとにプロジェクトマリニアの進化を形作っていきます。
どのように機能するか、お見せしましょう。プロジェクトマリニアは、Chrome用の実験的な拡張機能としてブラウザで動作します。ここにリクエストを入力してみましょう。Googleスプレッドシートに記載された企業のアクティビティプランナーのリストがあり、それらの連絡先情報を見つけたいと思います。エージェントにこの企業リストを取り、ウェブサイトを見つけ、連絡用のメールアドレスを探してもらうように依頼します。これは、仕事で遭遇する可能性のある、面倒で複数のステップを必要とするタスクを簡略化した例です。
エージェントはGoogleスプレッドシートを読み込み、企業名を把握します。まずベンチマーク・クライミングをGoogleで検索し、ウェブサイトをクリックします。このリサーチプロトタイプは、アクティブなタブでのみ動作し、バックグラウンドでは作業しないことがお分かりいただけると思います。メールアドレスを見つけると、それを記録して次の企業に進みます。いつでもエージェントを停止したり、プロセスを一時停止したりできます。
興味深いのは、ユーザーインターフェースでエージェントの推論プロセスを確認できることです。これにより、エージェントの行動をよりよく理解できます。残りの2社についても同様の作業を行い、ブラウザ内を移動し、リンクをクリックし、スクロールしながら情報を記録していきます。
これは開発初期段階のリサーチプロトタイプなので、このデモのためにプロセスを加速させています。信頼できるテスターと協力して、より高速で滑らかな動作を実現しようとしています。人間を介在させることが重要です。4つ目のウェブサイトを確認した後、エージェントはタスクを完了し、使用可能なメールアドレスをリストアップしました。
これは、エージェントAIをコンピュータに統合した場合の可能性のほんの一部に過ぎません。この先どこに向かうのか、楽しみにしています。では、オンラインショッピングやウェブとのより効率的な対話など、さまざまなタスクにプロジェクトマリニアを実際にどのように使用するかを見ていきましょう。
今日は、新しいGemini 2.0モデルで開発したリサーチプロトタイプ、プロジェクトマリニアのデモンストレーションをお見せします。Geminiアプリケーションから始めます。プロジェクトマリニアは、すべてのウェブページで動作する実験的なChrome拡張機能です。
このデモでは、エージェントに最も有名なポスト印象派の画家を探し、Google Arts and Culture でその画家のカラフルな絵画を見つけ、最後に Etsy でカラフルな絵画を買い物かごに入れるように依頼します。
Geminiでは、エージェントが最も有名なポスト印象派の画家は誰かを尋ねることから始めます。Geminiはすぐにフィンセント・ファン・ゴッホを最も有名なポスト印象派の画家として特定します。そこからアドレスバーにURLを入力してGoogle Arts and Cultureに移動します。このリサーチプロトタイプは、アクティブなタブでのみ動作し、バックグラウンドでは動作しないことがわかります。
検索バーを開いてファン・ゴッホを検索します。ファン・ゴッホが最初のオプションなので、それをクリックします。次にアーティストページをクリックして、カラフルな絵画を探します。プロセス全体を通して、エージェントの推論をユーザーインターフェースで確認でき、何を計画しているのかを簡単に理解できます。
エージェントは、このページにはファン・ゴッホに関する情報しかないことに気付き、アート作品を探すために下にスクロールすることにします。作品コレクションを見つけ、カラフルなオプションを探し始めます。エージェントはマルチモーダル理解力を使って、カラフルな「アイリス」の絵画を見つけてクリックします。
この絵画を見つけた後、URLを入力してEtsyに移動します。検索バーをクリックしてカラフルな絵画を検索します。ここで、エージェントはさまざまな絵画セットを検討し、何を最適化しているのかを教えてくれます。ご覧の通り、価格と視覚的な特徴を最適化しています。
エージェントは適切そうな水彩画セットをクリックし、それを買い物かごに追加します。しばらくすると、エージェントは支払いに進むべきかどうか尋ねてきます。これは初期段階のリサーチプロトタイプですが、人間を介在させ、常に制御できる状態を保つための素晴らしい例です。支払いは必要ないと答えるだけで、エージェントはタスクを完了して制御を返します。
プロジェクトマリニアは現在、実験的なChrome拡張機能として、限られた信頼できるテスターグループが利用可能です。安全で責任ある方法で開発するためのフィードバックを提供してくれています。この技術がどこに向かい、人々が何を作り出すのか、楽しみにしています。
これは素晴らしいことです。このモデルは高速で、特に2.0フラッシュモデルは、私たちが見てきたように、画像、ビデオ、音声などのマルチモーダル入力をサポートするだけでなく、ネイティブに生成された画像とテキストを組み合わせたマルチモーダル出力も可能にし、さらに驚くほど自然な合成音声による多言語音声出力も実現しています。動画の最後で例をご紹介します。
また、GoogleのSearchなどのツールもネイティブに呼び出すことができます。実際、Googleの目標は、これらのモデルをユーザーが迅速かつ安全に利用できるようにすることです。先月、彼らはGemini 2.0の予備的な実験版を共有しており、私もそれについていくつか動画を作成しましたが、Gemini 2.0フラッシュと、その数多くのアプリケーションが、現在は実験的なモデルとして利用可能になっています。このモデルの能力を正確にお見せしましょう。
このモデルの新しい能力の最初にお見せするのは、ライブストリーミングです。この驚くべきデモをご覧ください。「では、Gemini 2.0でのライブマルチモーダルストリーミングの簡単なデモをお見せします。AIスタジオでタブを共有しています。私の画面は見えていますか?」「はい、画面が見えています。デモンストレーションというタイトルの文書が表示されています。箇条書きといくつかの要素、そしてビデオに映る人物のいるGoogleミートのウィンドウも見えます。画面について特に話したいことはありますか?」
「はい、私がハイライトしたテキストを読んでいただけますか?」「もちろんです。ハイライトされたテキストには『ライブマルチモーダルは、Gemini 2.0フラッシュによって動作する、リアルタイムのマルチモーダルアプリケーションを作成することを可能にします。Google検索、コード実行、関数呼び出しなどのツールの使用も含まれます』と書かれています。次の行も読みますか?」
「いいえ、このワードが何を意味するか教えていただけますか?」「はい。それは、テキスト、画像、音声など、異なる種類のデータを同時に処理し理解する能力を指します。お役に立ちましたか?」
「はい。ここで割り込み機能のデモをする必要があります。本当につまらない『昔々』的な物語を話してくれますか?」「はい、できます。昔々、静かな森の近くの小さな村に、とても普通の岩がありました。その岩は灰色で丸かったのですが...申し訳ありません、割り込みませんでしたね。」「問題ありません。デモの一部として割り込みが必要なことは理解しています。次は何をすればよいですか?」
「では、メモリーのデモを行いましょう。これまでに見聞きしたことをすべて要約してくれますか?」「はい、できます。これまでに、リアルタイムのマルチモーダルアプリケーションを作成できるライブマルチモーダルAPIのデモについて話し合い、マルチモーダルの意味を説明しました。また、『昔々』で始まる非常につまらない物語を語るよう求められましたが、途中で中断されました。他に何かありましたか?」
「いいえ、終わったと思います。このエンドカードを読みますか?それとも私が読みましょうか?」「もしよろしければ、私が読ませていただきます。エンドカードには『estudio.google.comでGemini 2.0での創作を始めましょう』と書かれています。正しいでしょうか?」「はい、完璧です。」「わかりました、また会いましょう。」
次に、Geminiが現在どのようにネイティブに画像を生成できるのかを見てみましょう。これからできることは素晴らしいものになるでしょう。これがGemini 2.0によるネイティブ画像生成の例です。
Gemini 2.0は、会話の中でネイティブに画像を生成できるようになりました。例えば、この車をコンバーチブルに変えるとどのように見えるか想像したいとします。現在のAIツールでは、これには多くの作業が必要です。手動でルーフ部分をマスクしたり、非常に複雑なテキストを書いたりする必要があるかもしれません。
この画像をAIスタジオにインポートし、新しい実験的なGemini 2.0フラッシュモデルに送信しました。これはリアルタイムのスクリーンショットで、この動画で見るすべてのプロンプトは、テスターがすでに試すことができる例です。
ここで使用したプロンプトは「この車をコンバーチブルに変換して」です。そして、これが生成された画像です。並べて見てみましょう。車を修正しながら、画像の残りの部分の一貫性を保っていることに注目してください。これは、別々のモデルを使用する多くのAIツールにとって課題ですが、ここではすべてが1つのモデルで実現されています。
会話を続けて、「車を夏らしい色に変えて、ビーチグッズを詰め込んでみて、その過程を説明して」と頼みました。モデルはテキストを生成し始め、新しい色のアイデアを説明し、それを見せてくれました。
そして、これは本当に興味深いのですが、モデルは続けて、ビーチグッズを詰め込んだ車の別の画像を直接生成しました。これはすべて、モデルから出力されるテキストと画像のトークンで構成される単一の応答の一部であることを覚えておいてください。このようなモダリティ間の切り替え、テキストと画像を組み合わせる能力は、Gemini 2.0の最も刺激的な側面の1つです。
以下は、すべてGemini 2.0フラッシュから得られた他のプロンプトと結果の例です。例えば、ソファの上の散らかったものをすべて取り除いて、この写真を改善したいとします。このプロンプトを与えるだけで、モデルが処理してくれます。
画像を組み合わせることもできます。あなたの猫がこの枕の上やこのスケートボードの上でどのように見えるかを尋ねることができます。これらすべてにより、まったく新しい方法でAIと共同創作することができます。
箱の側面にテキストが書かれたこの画像をモデルに与え、「箱の中身を想像して画像を生成して」と言いました。このプロンプトをGemini 2.0フラッシュに送りました。画像自体にプロンプトの一部が含まれているこのアプローチは、モデルとのよりスムーズなマルチモーダルなやり取りの新しい可能性を開きます。
モデルは側面のテキストを分析し、古い電子機器のこの画像を生成しました。これをさらに発展させて、一緒に想像の世界を共同創作することもできます。この動画の最初の会話に戻り、モデルと視覚的にコミュニケーションを取ろうとしました。ドアハンドルに円を描いて「これを開けて」とプロンプトを出しました。
モデルは私たちが何を言いたいのか理解し、車のドアが開いたこの画像を生成しました。最後のプロンプトでは、「車を飛ばして。雲を抜けてビーチまで飛んでいく車になったつもりで、それがどのように見えるか想像して」と言いました。これは、モデルが私の指示に従いながら、この新しいシーンを視覚化しつつ、車の一貫性を保てるかどうかを試すチャレンジでした。モデルはこの画像とテキストを生成することで、それを成功させました。
このモデルは、これまでになかった新しい能力を導入しています。それは空間認識です。これはかなり驚くべきことで、例がとても適切であることがわかります。また、これが多くのことを変えることもすぐにわかるでしょう。
Gemini 2.0での空間理解を使って構築できるものの例をご紹介します。この機能は1.5モデルで導入し、Gemini 2.0でさらに改良しました。これは、マルチモーダル推論による空間理解の探求を容易にするAIスタジオの新しいツールです。
例えば、この画像を入力して、折り紙の動物の位置を尋ねることができます。これはリアルタイム録画で、結果が返ってくる速さに注目してください。これは、高度な空間理解を低レイテンシーで実現する新しい実験的なGemini 2.0フラッシュモデルで動作しているからです。
モデルが影がどの動物のものかを推論できるか確認できます。「キツネの影」と尋ねると、ここにあると示します。または「アルマジロの影」と尋ねると、それも見つけます。空間理解は、画像との対話の新しい方法を開きます。画像についてテキストを生成するだけでなく、モデルはより多くのことができるようになります。
Gemini 2.0は画像内を検索できます。この画像を与えて、2つの虹色の靴下を見つけられるか確認できます。モデルは一致するペアを見つけます。「顔のある靴下を見つけて」と尋ねることもでき、それも見つけます。この結果は特に興味深いです。顔が本当に小さく、部分的に隠れているのがわかるからです。
すべてのモデルと同様、常に完璧に成功するわけではないので、何が機能するか自分でプロンプトを試してみることができます。空間的推論を多言語能力と組み合わせることもできます。このような画像を与えて、各要素に日本語の文字と英語の翻訳でラベルを付けるよう依頼できます。モデルは画像自体のテキストを読み、空間理解とともに翻訳します。
Gemini 2.0により、AIエージェントが物理的な世界について推論できるようになります。例えば、このモデルにこの写真を与えて、染みの位置を尋ね、次にそれをどのように掃除するかを説明するよう依頼することができます。そしてモデルは、ここにあるタオルを指摘します。
Gemini 2.0では、3次元の空間理解を導入しています。これはまだ初期段階の機能なので、2次元の位置ほど正確ではありませんが、開発者が試して、フィードバックを提供できるように共有しています。
これは、写真内の3D位置をモデルに要求できるcolabノートブックです。その後、それらの位置を上面図で可視化し、基本的に写真をインタラクティブな平面図に変換します。
これが、Gemini 2.0でのネイティブツール使用で構築できるものの例です。Gemini 2.0は、コード実行やGoogle検索などのツールをネイティブに使用するように設計されています。これは、新しいライブマルチモーダルAPIを使用して構築された、ツール使用とリアルタイム対話を組み合わせたデモンストレーションです。
「パリンとオッペンハイマーの映画の長さを比較する棒グラフを作成して。他の2つのパリン映画もグラフに追加して。ランダムに3つのスーパーヒーロー映画を選んでグラフに追加して。」
モデルの応答速度に注目してください。これは、リアルタイムで対話しながら検索やコーディングを実行できる新しい実験的なGemini 2.0フラッシュのおかげです。
このデモの特に興味深い点は、グラフレンダリングの設定の簡単さです。ここに示されているように、ツールの機能を説明するだけで、モデルは自律的にグラフをレンダリングします。
このデモをcolabノートブックとともにオープンソース化して、スタートできるようにしました。AIスタジオでツール使用を探索することもできます。
例えば、ニューヨークのレストランを検索し、それぞれの電話番号、住所、簡単な説明を見つける必要があるとします。このプロンプトをモデル2.0フラッシュに与えると、この作業を驚くべき速さで実行するのがわかります。モデルは検索クエリを作成し、情報を取得して、この表に整理します。さらに探索するための引用とリンクも提供します。
アプリケーションでのツール使用をカスタマイズし、制御することができます。一部のタスクではGoogle検索を使用し、他のタスクでは使用したくない場合があるかもしれません。
「スポーツに関する質問にのみGoogle検索を使用する」といった指示を書くことができます。その後、このような質問をすると、モデルは検索を使用せずに回答します。しかし、これを尋ねると、指示通りGoogle検索を使用して回答します。
あなたの指示に基づいて、適切なツールをいつ使用するかを決定するこのモデルの能力は、Gemini 2.0のネイティブツール使用の強みの1つです。
これらは、Gemini 2.0を使用してあなた独自のマルチモーダルAIエージェントを構築できる例のほんの一部です。
次に、さらに魅力的なものがあります。AIを搭載したコードエージェント、Julesをご紹介します。チームがバグ修正セッションを終えて、長いバグリストに直面している状況を想像してください。今日から、PythonとJavaScriptのタスクをAIを搭載した実験的なコードエージェント、Julesに委託できます。実際、Julesはバグや他の時間のかかるタスクを処理し、あなたは本当に開発したいことに集中できます。
次に、Gemini 2.0で構築されたAIエージェントを使用して、Squad BustersゲームをプレイするAIの完全なデモをご紹介します。これは、プレイヤーとAIエージェント間の編集されていないリアルタイムの対話です。エージェントの応答は、ユーザーから提供されたビデオとオーディオストリーム、およびインターネットから取得した情報に基づいています。ゲーム固有の統合や事後トレーニングは行われていません。
このセクションを見て聞いてください:「ゲームを始めるので、週間クエストを確実にクリアしたいです。見えますか?」「はい、見えます。300個のジェムを集め、10体のボスモンスターを倒す必要があるようですね。300個のジェムはかなり進んでいますね。」「プレイ中に思い出させてください。いつも忘れてしまうので。」「もちろんです。クエストを監視して、お知らせします。いつでも思い出させてほしいときは言ってください。」
「キャラクターを選びます。Redditで、どれが最強なのか、メタキャラクターは何なのか、素早く調べてもらえますか?」「はい、探してみましょう。見つかったことをお知らせします。」
次は本当に驚くことになります。Googleは、人間に近い品質の音声を理解し、生成できるGeminiフラッシュモデルを作成する素晴らしい仕事をしました。この部分は音声を失わないように翻訳せず、字幕だけにしますが、これから聞く声のイントネーションと話し方に注目してください。すべてがネイティブに生成されています。
Gemini 2.0は、多言語のネイティブ音声出力を導入します。今ご覧のAIスタジオのスクリーンキャプチャで示されているように、新しい実験的なGemini 2.0フラッシュモデルにプロンプトを与えるだけで、すべてが生成されました。
ネイティブ音声は本当に素晴らしいです。従来のTTS(テキスト読み上げ)システムとは異なります。ネイティブ音声で特に素晴らしいのは、AIエージェントに何を言うかを指示するだけでなく、どのように言うかを指示できることです。
「やあ、超リラックスして」といったプロンプトを与えたり、「ああ、とても劇的な間を取りながら」話すようプロンプトを与えたりできます。これはすべて多言語対応です。コンピュータが言語を切り替えると異なる声に聞こえる、という従来のTTSの制限がありますが、Gemini 2.0のネイティブ音声では、より自然に言語を切り替えるエージェントを構築できます。
天気について違った方法で知らせるAIエージェントはどうでしょうか。晴れの日には「うわー、今日は気温74度で一日中晴れです。素晴らしい!」のように聞こえるかもしれません。しかし雨の日なら「えーと、今日は一日中霧雨で寒いです。まあ。」のように聞こえるかもしれません。
あるいは、AIエージェントがあなたの状況に動的に応答するとどうでしょう。急いでいるように見える場合、エージェントは本当に本当に本当に本当に本当に速く話すかもしれません。あるいは、あなたがささやいているなら、エージェントもささやき返すかもしれません。
ということで、ネイティブ音声で可能性は無限大です。新しい出力モダリティは、早期テスターが現在利用可能で、来年にはより広く展開される予定です。
AIスタジオでGemini 2.0での構築を始めましょう...よし、よし、動画はもう終わりだと思いますが、もう少しプロンプトを試してみましょう。最後の行をもっと...「Gemini 2.0で構築を始めましょう」「えーと、Gemini 2.0で構築を始めましょう」「まあ、Gemini 2.0で構築を始めましょう、やったー!」