Gemini 1.5 の概要

2024年2月16日 09:23

以下の記事がおもしろかったので、簡単にまとめました。

・Introducing Gemini 1.5, Google's next-generation AI model

1. Gemini 1.5

「Gemini 1.5」は、劇的に強化されたパフォーマンスを提供するGoogleの新世代のAIモデルです。

早期テストのため、「Gemini 1.5 Pro」を最初にリリースします。幅広いタスクにわたるスケーリングに最適化された中規模のマルチモーダルモデルであり、これまでで最大モデルである「Gemini 1.0 Ultra」と同様のレベルで実行されます。また、長い文脈理解における画期的な実験的機能も導入しています。「Gemini 1.5 Pro」には、標準の128,000トークンのコンテキストウィンドウが付属します。

2. 非常に効率的なアーキテクチャ

「Gemini 1.5」は、「Transformer」と「MoE」をベースに構築されています。
Googleは、「Sparsely-Gated MoE」「GShard-Transformer」「Switch-Transformer」「M4」などの研究を通じて、深層学習のための「MoE」技術の早期採用者であり、パイオニアです。モデルアーキテクチャにおける最新の革新により、「Gemini 1.5」は、より効率的に学習とサービスを提供しながら、複雑なタスクをより迅速に学習し、品質を維持することができます。

3. より大きな文脈、より有用な機能

モデルの「コンテキストウィンドウ」が大きければ大きいほど、特定のプロンプトでより多くの情報を取り込み、処理できるため、出力がより一貫性があり、関連性があり、有用になります。

「Gemini 1.0」の「コンテキストウィンドウ」は再々「32,000トークン」でしたが、「Gemini 1.5 Pro」では「100万トークン」まで利用できるようになりました。つまり、1時間のビデオ、11時間のオーディオ、30,000行以上のコード、70万語以上のコードベースなど、膨大な量の情報を一度に処理できます。Googleの調査では最大「1000万トークン」のテストにも成功しました。

4. 膨大な量の情報に関する複雑な推論

「Gemini 1.5 Pro」は、特定のプロンプト内で大量のコンテンツをシームレスに分析、分類、要約できます。たとえば、アポロ11号の月へのミッションの402ページのトランスクリプトを与えると、文書全体で見つかった会話、イベント、詳細について推論することができます。

5. モダリティ間のより良い理解と推論

「Gemini 1.5 Pro」は、動画を含むさまざまなモダリティに対して、非常に洗練された理解と推論タスクを実行できます。たとえば、44分間のサイレントBuster Keaton movieを与えられたとき、モデルはさまざまなプロットポイントやイベントを正確に分析し、簡単に見逃すことができる映画の小さな詳細についての理由さえできます。

6. より長いコードブロックによる関連する問題解決

「Gemini 1.5 Pro」は、より長いコードブロックにわたって、より関連性の高い問題解決タスクを実行できます。100,000行以上のコードを含むプロンプトが与えられた場合、例間でよりよく推論し、有用な修正を提案し、コードのさまざまな部分がどのように機能するかを説明することができます。

7. 強化されたパフォーマンス

テキスト、コード、画像、オーディオ、ビデオ評価の包括的なパネルでテストすると、「Gemini 1.5 Pro」は、大規模な言語モデル（LLM）の開発に使用されるベンチマークの87%で「Gemini 1.0 Pro」を上回っています。そして、同じベンチマークで「Gemini 1.0 Ultra」と比較すると、それは広く同じレベルで機能します。

「Gemini 1.5 Pro」は、コンテキストウィンドウが増えても高いレベルのパフォーマンスを維持します。特定の事実またはステートメントを含む小さなテキストが意図的に長いテキストブロック内に配置される「Needle In A Haystack」（NIAH）評価では、「Gemini 1.5 Pro」は100万トークンのデータブロックで、埋め込みテキストを99%見つけました。

「Gemini 1.5 Pro」はまた、印象的な「コンテキスト学習」スキルを示しています。つまり、追加のファインチューニングを必要とせずに、長いプロンプトで与えられた情報から新しいスキルを学ぶことができます。モデルがこれまでに見たことのない情報からどれだけうまく学習するかを示す、「One Book」(MTOB) ベンチマークからの機械翻訳でこのスキルをテストしました。世界中で話者が200人未満の言語であるカラマンの文法マニュアルが与えられた場合、モデルは同じ内容から学ぶ人と同様のレベルで英語をカラマングに翻訳することを学びます。

「Gemini 1.5 Pro」の長いコンテキストウィンドウは、大規模モデルの中では初めてであるため、新しい機能をテストするための新しい評価とベンチマークを継続的に開発しています。詳細については、Gemini 1.5 Proのテクニカルレポートを参照してください。

8. 広範な倫理と安全テスト

AI原則と堅牢な安全ポリシーに沿って、モデルが広範な倫理と安全テストを受けられるようにしています。次に、これらの研究学習をガバナンスプロセスとモデル開発と評価に統合し、AIシステムを継続的に改善します。12月に「Gemini 1.0 Ultra」を導入して以来、モデルを洗練し続け、より幅広いリリースのためにより安全にしています。また、安全リスクに関する新しい研究を行い、さまざまな潜在的な害をテストするための「red-teaming」技術を開発しました。「Gemini 1.5 Pro」のリリースに先立ち、「Gemini 1.0」と同じ責任ある展開アプローチを取り、コンテンツの安全性や表現上の害などの分野にわたる広範な評価を実施し、このテストを引き続き拡大していきます。これを超えて、「Gemini 1.5 Pro」の新しいロングコンテキスト機能を考慮したさらなるテストを開発しています。

9. Geminiモデルを構築し実験する

新世代の「Gemini」モデルを世界中の何十億人もの人々、開発者、企業に責任を持ってもたらすことを約束します。本日より、「AI Studio」と「Vertex AI」を介して、開発者や企業顧客に「Gemini 1.5 Pro」の限定プレビューを提供しています。これについては、「Google for Developers Blog」と「Google Cloud Blog」を参照してください。

モデルがより広いリリースの準備ができたら、標準の128,000トークンコンテキストウィンドウを備えた「Gemini 1.5 Pro」を紹介します。まもなく、モデルを改善するにつれて、標準の128,000コンテキストウィンドウから始まり、100万トークンにスケールアップする価格設定層を導入する予定です。

初期のテスターは、テスト期間中に100万トークンのコンテキストウィンドウを無料で試すことができますが、この実験的な機能ではより長いレイテンシ時間が期待できます。スピードの大幅な改善も迫っています。「Gemini 1.5 Pro」のテストに関心のある開発者は、「AI Studio」で今すぐサインアップできます。