Gemini 2.0 の概要

2024年12月12日 01:22

以下の記事が面白かったので、簡単にまとめました。

・Introducing Gemini 2.0: our new AI model for the agentic era

1. Gemini 2.0 Flash

「Gemini 2.0 Flash」は、開発者に最も人気の高いモデルである「Gemini 1.5 Flash」を基に構築されており、同様に応答時間が高速です。「Gemini 1.5 Pro」を2倍の速度を上回っています。「Gemini 2.0 Flash」には新機能も搭載されています。マルチモーダル入力のサポートに加えて、「Gemini 2.0 Flash」ではマルチモーダル出力もサポートします。また、Google 検索、コード実行、サードパーティのユーザー定義関数などのネイティブツール呼び出しもできます。

現在「Gemini 2.0 Flash」は、「Google AI Studio」「Vertex AI」の「Gemini API」を介して実験モデルとして開発者向けの提供されており、マルチモーダル入力とテキスト出力はすべての開発者に提供され、早期アクセスパートナーはTTSとネイティブ画像生成を利用できます。一般提供は1月に予定されています。モデルサイズも拡大されます。

開発者が動的でインタラクティブなアプリケーションを構築できるように、リアルタイムのオーディオ・ビデオストリーミング入力、複数のツールを組み合わせて使用できる機能を備えた「Multimodal Live API」もリリースします。

2. Geminiアプリの Gemini 2.0 対応

本日から、「Geminiアプリ」ユーザーはチャットに最適化された「Gemini 2.0 Flash Experimental」にアクセスできます。まもなく「Geminiモバイルアプリ」でも利用できるようになります。来年初めには、「Gemini 2.0」をさらに多くのGoogle製品に拡張する予定です。

3. Gemini 2.0 のエージェント体験

「Gemini 2.0 Flash」は、マルチモーダル推論、長いコンテキストの理解、複雑な指示の追跡と計画、合成関数の呼び出し、ネイティブツールの使用、レイテンシの改善などのその他の改善点とともに連携して、新しいクラスのエージェント体験を実現します。

AIエージェントの実用化は、刺激的な可能性に満ちた研究分野です。人々がタスクを達成し、物事を成し遂げるのに役立つ一連のプロトタイプで、この新しい領域を探求しています。

これには、以下のプロダクトが含まれます。

・Project Astra
・Project Mariner
・Jules

3-1. Project Astra

「Project Astra」は、Google I/Oで発表して以来、Androidスマートフォンでそれを使用しているテスターから学んできました。彼らの貴重なフィードバックは、安全性と倫理への影響を含め、ユニバーサルAIアシスタントが実際にどのように機能するかをより深く理解するのに役立ちました。

「Gemini 2.0」で構築された最新版の改善点は次のとおりです。

・より優れた対話
アクセントや珍しい単語の理解が向上し、複数の言語や混合言語で会話できるようになりました。

・新しいツールの使用
Google検索、レンズ、マップを使用できるようになり、日常生活のアシスタントとしてさらに便利になります。

・メモリの向上
ユーザーが制御を維持しながら物事を記憶する能力が向上しました。セッション中のメモリが最大10分になり、過去の会話をより多く記憶できるようになったため、ユーザーに合わせてさらにパーソナライズできるようになりました。

・レイテンシの改善
新しいストリーミング機能とネイティブオーディオ理解により、エージェントは人間の会話とほぼ同じレイテンシで言語を理解できます。

こうした機能を「Geminiアプリ」、Google製品、メガネなどの他のフォームファクターに導入できるよう取り組んでいます。また、テスタープログラムをより多くの人々に拡大し始めています。プロトタイプのメガネでの「Project Astra」のテストをまもなく開始します。

3-2. Project Mariner

「Project Mariner」は、ブラウザから始めて人間とエージェントのインタラクションの将来を探求する、「Gemini 2.0」で構築された初期の研究プロトタイプです。研究プロトタイプとして、ブラウザ画面内のピクセルや、テキスト、コード、画像、フォームなどのWeb要素を含む情報を理解して推論し、実験的なChrome拡張機能を介してその情報を使用してタスクを完了することができます。

エンドツーエンドの実際のWebタスクでエージェントのパフォーマンスをテストするWebVoyagerベンチマークで評価したところ、「Project Mariner」は単一エージェント設定で83.5%という最先端の結果を達しました。

まだ初期段階ですが、「Project Mariner」は、ブラウザ内でのナビゲーションが技術的に可能になりつつあることを示しています。ただし、現時点では必ずしも正確ではなく、タスクの完了に時間がかかります。これは時間の経過とともに急速に改善されるでしょう。

これを安全かつ責任を持って構築するために、私たちは人間を常に関与させながら、新しいタイプのリスクと緩和策について積極的な研究を行っています。たとえば、「Project Mariner」は、ブラウザのアクティブなタブでのみ入力、スクロール、クリックすることができ、何かを購入するなど、特定の機密性の高いアクションを実行する前にユーザーに最終確認を求めます。

現在、テスターが実験的なChrome拡張機能を使用して「Project Mariner」のテストを開始しており、並行してWebエコシステムとの話し合いを始めています。

3-3. Jules

「Jules」は、GitHubワークフローに直接統合される実験的なAI搭載コードエージェントです。開発者の指示と監督の下で、問題に取り組み、計画を立て、実行することができます。この取り組みは、コーディングを含むすべての領域で役立つAIエージェントを構築するという長期的な目標の一環です。

詳しくは開発者ブログを参照してください。

3-4. その他の分野のエージェント

「Google DeepMind」は、AIモデルがルール、計画、論理に従う能力を向上させるためにゲームを活用してきた長い歴史を持っています。たとえば、先週、私たちは「Genie 2」を発表しました。これは、1枚の画像から、無限の種類のプレイ可能な3D世界を作成できるAIモデルです。この伝統を基に、「Gemini 2.0」を使用して、ビデオゲームの仮想世界をナビゲートできるエージェントを構築しました。このエージェントは、画面上のアクションのみに基づいてゲームについて推論し、リアルタイムの会話で次に何をすべきかを提案できます。

「Supercell」のような大手ゲーム開発会社と協力して、これらのエージェントがどのように機能するかを調査し、「Clash of Clans」のような戦略ゲームから「Hay Day」のような農業シミュレータまで、さまざまなゲームにわたってルールと課題を解釈する能力をテストしています。

これらのエージェントは、仮想ゲーム仲間として機能するだけでなく、Google検索を活用して、Web上の豊富なゲーム知識にユーザーをつなげることもできます。

仮想世界でのエージェント機能の探求に加えて、「Gemini 2.0」の空間推論機能をロボット工学に適用することで、現実世界で役立つエージェントの実験を行っています。まだ初期段階ではありますが、私たちは現実環境で支援できるエージェントの可能性に興奮しています。

詳しくは、「labs.google」を参照してください。

4. エージェント時代の責任ある構築

「Gemini 2.0 Flash」と研究用プロトタイプにより、AI研究の最前線で新しい機能をテストし、反復することが可能になり、最終的にはGoogle製品がより役立つものになります。

こうした新しいテクノロジーを開発するにあたり、それに伴う責任と、AIエージェントが安全性とセキュリティに関して生み出す多くの疑問を認識しています。そのため、開発に対して探索的かつ段階的なアプローチを採用し、複数のプロトタイプの調査を実施し、安全性トレーニングを反復的に実装し、テスターや外部の専門家と協力し、広範なリスク評価と安全性および保証の評価を行っています。

・安全プロセスの一環として、長年にわたる社内レビューグループである責任および安全委員会 (RSC) と協力して、潜在的なリスクを特定し、理解してきました。

・「Gemini 2.0」の推論機能により、AI支援のレッドチームアプローチが大幅に進歩しました。これには、リスクを単に検出するだけでなく、リスクを軽減するための評価とトレーニングデータを自動的に生成する機能も含まれます。つまり、安全性のモデルをより効率的に最適化して、大規模な環境に対応できるということです。

・「Gemini 2.0」のマルチモーダル性により潜在的な出力の複雑さが増すため、安全性の向上を図るため、画像と音声の入出力にわたってモデルの評価とトレーニングを継続します。

・「Project Astra」では、ユーザーが意図せずにエージェントに機密情報を共有することに対する潜在的な緩和策を模索しており、ユーザーがセッションを簡単に削除できるプライバシーコントロールをすでに組み込んでいます。また、AIエージェントが信頼できる情報源として機能し、ユーザーに代わって意図しないアクションを取らないようにする方法についても引き続き研究しています。

・「Project Mariner」では、モデルがユーザー指示をサードパーティのプロンプトインジェクションの試みよりも優先するように学習し、外部ソースからの潜在的に悪意のある指示を識別して悪用を防止できるように取り組んでいます。これにより、電子メール、ドキュメント、Webサイトに隠された悪意のある指示などによって、ユーザーが詐欺やフィッシングの試みにさらされるのを防ぐことができます。

AIを構築する唯一の方法は最初から責任を持つことであると固く信じており、モデルとエージェントを進化させていく中で、安全性と責任をモデル開発プロセスの重要な要素にすることを優先し続けます。

Gemini 2.0 の概要

1. Gemini 2.0 Flash

2. Geminiアプリの Gemini 2.0 対応