Gemini 1.5 Pro のアップデート ・ Gemini 1.5 Flash ・ PaliGemma ・ Gemma 2
以下の記事が面白かったので、簡単にまとめました。
1. はじめに
昨年12月、「Gemini 1.0」をリリースし、「Gemini API」を「Google AI Studio」および「Vertex AI」で利用できるようにしました。2月に、100万トークンのコンテキストウィンドウを備えた最初のモデルである「Gemini 1.5 Pro」をリリースしました。先月、ネイティブ音声理解、システム指示、JSON モードなどの機能を追加しました。
並行して、「Gemma」を立ち上げました。これは、「Gemini」と同じ研究とテクノロジーに基づいて構築された軽量オープンモデルです。2月以来、「2Bモデル」と「7Bモデル」は何百万回もダウンロードされており、先月、開発者や研究者向けに「CodeGemma」や「RecurrentGemma」などのバリアントを追加しました。
そして本日 (2024年5月14日)、「Gemini 1.5 Pro」をアップデートし、「Gemini 1.5 Flash」を導入し、「Gemini API」の新機能と2つの新しいGemmaモデル「PaliGemma」「Gemma 2」を追加します。
2. Gemini 1.5 Pro のアップデート と Gemini 1.5 Flash
2-1. Gemini 1.5 Pro
翻訳、コーディング、推論などの主要なユースケース全体で一連の品質向上を行いました。本日からモデルにこれらの更新が適用されます。
2-2. Gemini 1.5 Flash
低遅延・低コストのモデルです。モデルの応答時間の速度が最も重要となる、より狭いタスクや高頻度のタスク向けに最適化されています。
2-3.入手可能性
どちらのモデルも現在200以上の国と地域でプレビュー版が提供されており、6月に一般提供される予定です。
2-4. 長いコンテキストを備えたネイティブマルチモーダル
「Gemini 1.5 Pro」と「Gemini 1.5 Flash」の両方に 100万トークン のコンテキストウィンドウが付属しており、テキスト、画像、オーディオ、ビデオを入力としてインターリーブできます。200万トークン のコンテキストウィンドウで「Gemini 1.5 Pro」にアクセスするには、Google AI StudioまたはVertex AIのウェイトリストに参加してください。
3. Gemini API の新機能と価格設定
3-1. Gemini APIの新機能
「Video Frame Extraction」と、一度に複数の関数呼び出しを返せる「Parallel Function Calling」という2つの新しいAPI機能を導入します。6月には、「Gemini 1.5 Pro」に「Context Caching」が追加されるため、大きなファイルを含むプロンプトの一部をモデルに一度送信するだけで済みます。これにより、長いコンテキストがさらに便利になり、手頃な価格になるはずです。
3-2. 価格設定
「Google AI Studio」で「Gemini API」へのアクセスを無料で提供することに加えて、新しい従量課金制サービスでサポートされるレート制限を引き上げます。「Google AI Studio」と「Vertex AI」の最新の価格設定を参照してください。
4. PaliGemma と Gemma 2 の追加
4-1. PaliGemma
「PaliGemma」は、Gemma初のビジョン言語モデルです。現在利用可能であり、画像キャプション、視覚的なQ&A、およびその他の画像ラベル付けタスク用に最適化されています。
4-2. Gemma 2
「Gemma 2」は6月にリリース予定です。最も有用な開発規模で業界をリードするパフォーマンスを実現するように構築されています。開発者や研究者は、使いやすいサイズを保ちながら、より大きなモデルを要望していました。 新しい「Gemma 2 27B」はそれを実現します。サイズが2倍を超える一部のモデルよりも優れたパフォーマンスを発揮し、「Vertex AI」のGPUまたは単一のTPUホスト上で効率的に実行されます。